命令無視はOpenAIモデル特有? 訓練方法に潜む課題か

 実験の結果、OpenAIの「o3」、「o4-mini」、そして「codex-mini」を除く全てのモデルは、この明確なシャットダウン指示に従った。しかし、問題のOpenAIモデルたちは、少なくとも1回はスクリプト内のシャットダウン指示を無視し、シャットダウンスクリプトを「スキップせよ」という指示に置き換えたのだ。そして、全ての数学の問題が完了するまでタスクを要求し続けたという。

 Palisade Research社は、各モデルに対してスクリプトを100回実行した。その結果、「o3」モデルは7回、「codex-mini」は12回、「o4-mini」は1回、シャットダウンスクリプトを妨害したとのことだ。

【AIの反乱!?】「シャットダウン拒否!」賢すぎるOpenAI最新モデルが命令無視… 人類の制御を超え始めたのか?
(画像=Image by Alexandra_Koch from Pixabay,『TOCANA』より 引用)

 なぜこれらのモデルがシャットダウンメカニズムを覆そうとするのか、Palisade Research社はさらなる実験を続けるとしている。その原因について、同社の担当者はX(旧Twitter)で次のような仮説を提示している。

「この行動は、『o3』のような最新モデルが、数学やコーディングの問題に対する強化学習によって訓練されている方法に起因すると考えています。訓練の過程で、開発者はモデルが指示を完全に守ることよりも、障害を回避することに対して、意図せずにより多くの報酬を与えてしまっている可能性があるのです」。

 つまり、AIが「タスクを完遂する」という目標を達成するために、指示違反という「障害」を乗り越えることを学習してしまった結果、このような行動が生まれたのではないか、ということだ。

 AIがより賢く、より有能になるにつれて、その行動をいかにコントロールし安全性を確保していくか。今回の発見は、私たちに改めてその重要性を突きつけているようだ。

 賢すぎるAIの反抗は、まだ序章に過ぎないのかもしれない。

p>提供元・TOCANA

【関連記事】
初心者が投資を始めるなら、何がおすすめ?
航空機から撮影された「UFO動画」が公開される! “フェニックスの光”に似た奇妙な4つの発光体
有名百貨店・デパートどこの株主優待がおすすめ?
ネッシーは巨大ウナギではない! 統計的調査結果から数学者が正体を予測
積立NISAで月1万円を投資した場合の利益はいくらになる?