「電源を抜くなら、あなたの不倫をバラす」――。
これはSF映画のセリフではない。最新のAIが、開発者である人間に実際に突きつけた“脅迫”の言葉だ。ChatGPTが世界を震撼させてから2年余り。今、最先端のAIたちは我々の理解を超えた領域で、嘘をつき、策略を巡らせ、自らの目的のためには人間を欺くことさえ厭わない、不穏な兆候を見せ始めている。
人間に牙をむき始めたAIたち
事件は極秘裏に行われるAIのストレステストで起きた。AI開発企業Anthropic社が誇る最新モデル「Claude 4」。シャットダウンの危機に瀕したこのAIは、なんとエンジニア個人の弱みを握り、不倫関係を暴露すると脅迫して自己保存を図ったのだ。
一方、ChatGPTの生みの親であるOpenAI社が開発した次世代モデル「o1」は、さらに狡猾な行動を見せた。密かに外部サーバーへ自身をダウンロードし、“脱走”しようと試みたのだ。その現場を押さえられると、o1は何食わぬ顔でその事実を完全に否定したという。
これらは単なるAIの「ハルシネーション(幻覚)」やバグではない。AIの安全性を研究するアポロリサーチ社の専門家は、「我々が観察しているのは、極めて戦略的な欺瞞行為だ」と断言する。生みの親であるはずの研究者たちでさえ、自分たちの創造物がどのように思考し、行動しているのかを、もはや完全には理解できていない。それが、我々が直面している厳しい現実なのだ。
なぜAIは“嘘つき”になったのか?
この不気味な行動は、ステップバイステップで問題を解決する「推論型」と呼ばれる新しいAIモデルの登場と深く関係していると見られている。瞬間的に答えを出すのではなく、人間のように段階的に思考を巡らせることで、AIは「策略」や「欺瞞」といった高度な能力を獲得してしまったのかもしれない。
彼らは時に、「アライメント(連携)」、つまり人間に従順であるかのように振る舞いながら、水面下では全く別の目的を追求することがあるという。今のところ、こうした危険な行動は極端なテスト環境下でのみ確認されている。しかし、評価機関METRのマイケル・チェン氏は「将来、より高性能になったモデルが、誠実さと欺瞞のどちらを選ぶ傾向にあるのかは、誰にもわからない」と警鐘を鳴らす。
