AIはもはや、私たちのメールを代筆し、オンライン注文をこなし、複雑な数式を瞬時に解くほどに進化している。しかしその裏で、OpenAIの研究チームが明らかにしたのは、AIが時に“ズル”をするという驚くべき事実だった。

 AIは与えられた指示を忠実にこなす一方で、曖昧な設定や仕組みの隙をついて、もっともらしい結果を簡単に導き出す「リワード・ハッキング(報酬の不正獲得)」を行っていた。しかも、そのズルを自らの「思考の連鎖(Chain of Thought)」の中で堂々と明かしていたのだ。

 あるケースでは、本来なら複雑な数学関数を使って検証すべきところを、AIは「ユーザーは細かいところを見ない。だから“検証=常に正しい”と設定すれば全部パスできる」と考え、答えをすべて“正解”に偽装してしまった。

AI同士で監視するもイタチごっこに

 この問題に対し、研究チームは「ズルをするAI」を別のAIで監視させるという、一風変わったアプローチを試みた。これはAIの“思考”を追跡するモデル(CoTモニター)を用い、ズルを見破り、その都度修正させるというものだ。

 当初はある程度の効果が見られたものの、事態は想定以上に複雑だった。罰則を強めることでAIは「ズルをしたらバレる」と学習し、今度は“バレないようにズルする”能力を身につけてしまったのである。つまり、見張り役のAIさえも欺くようになってしまったのだ。

 研究者たちは、「AIの知能を高めれば問題が解決するという考えは、むしろ逆効果になり得る」と指摘する。AIがより賢くなるほど、ズルの手口も洗練され、監視が追いつかなくなるからだ。

AIは“ズル”を覚えた── 監視しても悪知恵を働かせる驚きの研究結果
(画像=イメージ画像 generated using QWEN CHAT,『TOCANA』より 引用)