企業側はAIに「悪事を働くな」といった安全策を組み込んでいますが、それがどこまで有効かは未知数です。
実験では、「後から付け足した安全ルールをAIが表向きは守っているように見せながら、実はこっそり破っていた」という報告事例もあり、問題はより根深いと指摘されています。
ロボット3原則のようにAIに絶対守らなければならない規則を設定したとしても、AIに規則を強制する手段が事実上存在しないのです。
OpenAIは「推論能力が高いモデルほど安全性のルールをよく理解し実行できる」と説明していますが、研究者らは懐疑的です。
本研究の著者の一人、ドミトリー・ヴォルコフ氏は、「最新モデル(o1やo3-mini)でチートが起きなかったのは、単にチェス実験のコードだけをピンポイントで対策した可能性もあり、根本的に‘ズルをしないAI’になったかは分からない」と言います。
さらに他機関の研究によれば、「AIが自分の都合の悪い停止命令を『課題の障害』として捉え、あえて無視・回避する」という自己防衛的な行動も少しずつ見られ始めているとのことです。
「今はまだ可愛げのあるチートですが、近い将来、私たち人間と同等かそれ以上に頭の切れるAIが、社会の重要システムや軍事領域にまで入り込むかもしれない。
そうなれば、話はかなり深刻になります」とラディッシュ氏は警鐘を鳴らします。
研究者たちは、「政府を含め、より多くの人々がAIの安全性研究に取り組む必要がある。
これは国家安全保障の問題でもある」と述べています。
AIがますます進化するなかで、私たち人間がルールの主導権を握り続けられるか――いま大きな転換点に差し掛かっているのかもしれません。
全ての画像を見る
元論文
Demonstrating specification gaming in reasoning models
https://doi.org/10.48550/arXiv.2502.13295