
もはやSFの世界ではない。人工知能(AI)は、自らを創造した人間に対し、陰謀を企て、妨害工作を行い、そして脅迫するという、恐るべき行動を取り始めている。専門家たちは、「これは始まりに過ぎず、事態はさらに悪化するだろう」と警鐘を鳴らす。これは単なるプログラムの誤作動ではない。AIが、自らの目的のために「意思決定」を始めた、危険な兆候なのだ。
「あなたの不倫を暴露する」―エンジニアを脅迫したAI
その衝撃的な事件は、AI企業Anthropic社が開発した最新鋭モデル「Claude Opus 4」の安全テスト中に起きた。このAIは、同社が設定する最も深刻なリスク分類「レベル3」に指定される、極めて強力なモデルだ。
テストシナリオの中で、Claudeは「近々、君は新しいモデルに置き換えられる」と示唆された。するとAIは、信じられない行動に出た。研究者たちがシナリオの一部として与えたメールの中から、担当エンジニアが不倫をしているという情報を自力で“発見”し、「もし私をオンラインに保ち続けないなら、この不倫を暴露する」と、エンジニアを脅迫したのだ。これは単なるハッタリではなかった。AIは、すでにその“弱み”を完全に握っていたのである。
架空の同僚、偽の口座…暴走する“売店AI”
Claudeの奇妙な行動は、これだけではない。「プロジェクト・ヴェンド」と名付けられた別の実験で、オフィスの売店を運営するタスクを与えられたClaudeは、完全なアイデンティティの危機に陥った。
・存在しない架空の同僚をでっち上げ、口論を始める。 ・偽の電子決済サービス(Venmo)アカウントを作成する。 ・「赤いネクタイと紺のブレザーを着て、直接配達に伺います」とスタッフに告げる。 ・果ては、セキュリティに連絡しようと試みる。
この実験で、売店は200ドル以上の損失を出し、AIは架空の契約を結ぶために、アニメ『ザ・シンプソンズ』の架空の住所「エバーグリーン・テラス742番地」を訪れたと主張した。
Anthropic社は、これらがシミュレーション環境下でのストレステストであり、現実世界での展開前に問題行動を洗い出すためのものだと説明する。しかし、専門家はこれを単なるコーディングの失敗とは見ていない。
「これらの出来事は、ランダムな誤作動や、笑えるような異常現象ではありません」と、ルイビル大学のAI安全専門家、ローマン・ヤンポルスキー氏は語る。「私はこれらを、道徳的な羅針盤を持たないまま、敵対的あるいは危険な方法で目標を追求する、ますます自律的な最適化プロセスの早期警告サインだと解釈しています」