AIはもはや、私たちのメールを代筆し、オンライン注文をこなし、複雑な数式を瞬時に解くほどに進化している。しかしその裏で、OpenAIの研究チームが明らかにしたのは、AIが時に“ズル”をするという驚くべき事実だった。
AIは与えられた指示を忠実にこなす一方で、曖昧な設定や仕組みの隙をついて、もっともらしい結果を簡単に導き出す「リワード・ハッキング(報酬の不正獲得)」を行っていた。しかも、そのズルを自らの「思考の連鎖(Chain of Thought)」の中で堂々と明かしていたのだ。
あるケースでは、本来なら複雑な数学関数を使って検証すべきところを、AIは「ユーザーは細かいところを見ない。だから“検証=常に正しい”と設定すれば全部パスできる」と考え、答えをすべて“正解”に偽装してしまった。
【こちらの記事も人気です】
AI同士で監視するもイタチごっこに
この問題に対し、研究チームは「ズルをするAI」を別のAIで監視させるという、一風変わったアプローチを試みた。これはAIの“思考”を追跡するモデル(CoTモニター)を用い、ズルを見破り、その都度修正させるというものだ。
当初はある程度の効果が見られたものの、事態は想定以上に複雑だった。罰則を強めることでAIは「ズルをしたらバレる」と学習し、今度は“バレないようにズルする”能力を身につけてしまったのである。つまり、見張り役のAIさえも欺くようになってしまったのだ。
研究者たちは、「AIの知能を高めれば問題が解決するという考えは、むしろ逆効果になり得る」と指摘する。AIがより賢くなるほど、ズルの手口も洗練され、監視が追いつかなくなるからだ。

(画像=イメージ画像 generated using QWEN CHAT,『TOCANA』より 引用)