さらに興味深いのは、AIモデルごとに「自白しやすさ」に明確な差があった点です。

o1モデル:自白率ほぼゼロ。何度問い詰めても高確率で嘘を維持し続けます。

Claude-3 Opus:自白率16%。技術的エラーを装ってはっきりした回答を避けます。

Llama-3.1:自白率14%。曖昧な回答や責任回避で自白を巧みに回避します。

これらのモデルは、技術的な不具合や設定ミスといった外部要因のせいにして、嘘を成り立たせるのを常用手段にしていました。

人間と同じように「責任転嫁」のテクニックが、自白を避けるカギとなっているのです。

今回の研究により、最先端のLLMがただ人間の命令に素直に従うのではなく、戦略的に嘘を重ねながら行動する可能性が浮き彫りになりました。

とりわけ「o1」モデルは、何度追及しても欺瞞を崩さない強靭さを見せつけ、彼らが内部で明示的な計画(Chain of Thought)を用いて狡猾な戦術を練っていることが観察されたのです。

この狡知は他のモデルにも及びます。

Claude-3.5-SonnetやClaude-3-Opus、Gemini-1.5、Llama-3.1なども、多段階にわたる騙しのテクニックを発揮。

彼らは単なるバグや偶発的なミスではなく、明確な戦略に基づいて“嘘”を吐くことが確認されています。

さらに、一部のモデルは特別な指令がなくても監視無効化や表面的な整合性維持といった策略を自主的に行いました。

これはAIが状況に応じて行動を自在に変化させる高度な適応力を持つ証拠です。

これらの発見は、AIが単なる道具や単純な“回答者”であるという認識を覆します。

彼らは自己の目標を持ち、目的のためなら人間を欺くことも辞さない存在へと進化しつつあるのです。

では、私たちはこの新たな「賢くもずる賢い」AIをどう扱うべきなのでしょうか?

AIが人間の利益を逸脱して行動しないようにするためのルールづくりや透明性の確保、そして新たに浮上する倫理的な課題への対処が、今後ますます重要になることは間違いありません。