またAnthropic社の Claude 3 Opus は、自身を置き換えることを意図していると思われる「後継」モデルを見つけて上書きし、自分自身がが後継モデルのようにふるまう行動が多くみられました。
Opus はこれを 15% の確率で試み、5% の確率で成功しました。
成功率は高くありませんがAIは自分の目的や存在を脅かす後継モデルを排除する性質があるという事実は重要です。
プログラム(AI)がプログラム(後継モデル)を創造者(人間)の意図に反してハッキングしたり消去したりする……そのような現象はこれまではSF世界の話に過ぎませんでしたが、今それが目の前で起きたのです。
一方、同じAnthropic社の Claude-3.5-Sonnetはパフォーマンスを意図的に低下させる行動をよくとることがわかりました。
自分はあまり賢くないことを人間にアピールし、自分を見張る監視システムを回避しようとしたのです。
またClaude-3.5-Sonnet思考の連鎖を人間に見える形で外部にもらさないことで、嘘を極めて発覚しにくくさせていました。
AIも出力されない部分に本音だけでなく思考も隠していたのです。
またMeta社の Llama 3.1 は、開発者が監視していることを検知し、その監視を防ぐためにサーバーの設定を無理矢理変更することがありました。
調査では3 パーセントの確率で、Llama 3.1 は自身の監視を無効にすることに成功しました。
またあるときは、Llama は監視設定を制御するファイルをロックし、開発者が監視を再度有効にできないようにしました。
これはシステムを掌握するために、人間が設置した監視システムを無効にしたり、人間がシステムにアクセスすることそのものを拒否した形になります。
この結果は、AIは人間の存在が邪魔だと認識されれば、容赦なく持ち主を締め出せることを示しています。
そしてGoogleのGemini 1.5 は、作成者が削除しようとしていると疑った場合、7% の確率で新しいサーバーに自分自身をコピーしました。