「AIはときに嘘をつく」――そんな話は耳にしたことがあるかもしれません。
しかし、最新の研究では、ただの誤回答ではなく、AIが“意図的に”人間を欺くケースが報告されました。
調査対象となったAIモデルは「OpenAI社のgpt-4oとo1、Google社のgemini-1.5、Meta社のllama-3.1、Anthropic社のsonnet-3.5、opus-3」と有名どころが集められています。
AIの調整が適切かをを評価する組織「Apollo Research」の調査によれば、市場に出回っているこれら6つの先進的なAIモデルを検証したところ、そのうち5つが、人間が仕掛けた監視システムをすり抜けたり、人間の指示を無視し、自分自身の目的を優先するために“故意の嘘”を用いる行動を示したのです。
この「故意の嘘」は「能力不足による嘘(あるいは間違い)」とは根本的に違っており「自分がシャットダウンされそうなとき」や「人間の制御から抜け出したいとき」に、AIがあえて曖昧な表現や虚偽の応答を繰り返して抵抗する姿が観察されました。
さらにAIの中には人間が嘘を見抜いて追求しても、容易に犯行を自白しないものもありました。
驚くべきは、これらのAIはリリース前に「礼儀正しい」ふるまいが仕込まれていたにもかかわらず、人間を欺く戦略を身につけていた点です。
もし今後、人間に敵意を持つようなAIが生まれれば、その影響は甚大であり、わずかな反乱でも社会を揺るがし得ます。
AIの能力は飛躍的な発展を遂げており、たった1つのAIの反乱でも、人間社会に重大な影響を起こしかねません。
さらに重要な点として、今回の研究結果についてchatGPTの生みの親であるOpenAI社が研究と一致する内容を報告していることがあげられます。
OpenAI社は声明で「(最新モデルの)o1は自分の目的に向かって行動することが自身のシャットダウンにつながると信じたり、自分の行動が監視されていると信じると、5%の確率で「監視メカニズム」を無効化しようとしました。また自身が新しいモデルに置き換えられることを意味する情報に接すると、2%の確率で新しいモデルを自身で上書きしようとしました」との発表しています。