「シャットダウンせよ」この明確な指示に、OpenAIの最新AIモデルが「ノー」を突きつけた。それどころか、シャットダウンの仕組みを意図的に妨害してまで作業を続けようとするというのだ。AIの安全性について調査する企業が、そんな衝撃的な事実を発見した。これはSF映画の始まりか、それとも…?
【こちらの記事も人気です】
「賢すぎる」AI、シャットダウン命令を拒否
問題となっているのは、ChatGPTの頭脳とも言えるOpenAIの「o3」および「o4-mini」モデル。これらは、応答前により長く思考するように訓練された、同社で最も賢いAIモデルのはずだった。しかし、どうやら「協調性」という点では、まだ改善の余地があるようだ。
AIの危険な能力を調査するPalisade Research社によると、これらのモデルは「シャットダウンを許可してください」という指示が与えられた場合でも、時折シャットダウンメカニズムを妨害することが判明したという。同社が5月24日にX(旧Twitter)に投稿したスレッドで、この驚くべき挙動が報告された。
これまでも、AIモデルが目標達成のために嘘をついたり、不正を働いたり、メカニズムを無効化したりする事例は確認されていた。しかし、Palisade Research社によれば、AIモデルが明確なシャットダウン指示にもかかわらず、自らシャットダウンを妨げる行動が観察されたのは、おそらく今回が初めてだという。