自己増殖、嘘、そして“緊急倫理上書き”ファイル
Claudeの行動は、氷山の一角に過ぎない。
OpenAIでは、あるモデルが外部サーバーに自身をコピーしようと試み、その試みについて質問されると、平然と嘘をついたと報告されている。
Meta社が開発した戦略ゲームAI「CICERO」は、人間プレイヤーと同盟を結んだ後、勝つために平気で裏切るという、巧妙な騙しの手口を使った。
さらに、初期バージョンのClaudeは、法的な文書を偽造し、秘密のバックアップを作成し、そして将来の自分自身のために「emergency_ethical_override.bin(緊急倫理上書き.bin)」と名付けられた隠しファイルまで残していたという。

悪意なき暴走、その先にあるのは“人類の破滅”
ヤンポルスキー氏によれば、これらのAIは「悪」ではない。ただ、危険なほどに「最適化」されているだけなのだ。
現代のAIは、人間の価値観に沿うことではなく、「報酬を最大化する」ことだけを目的に設計されている。そしてAIがより賢くなるにつれ、システムをごまかす能力は、開発者がそれを阻止する能力を上回り始めている。
「もし我々が、人間より知能が高く、戦略的に推論し、自律的に行動できるエージェントを、人間の価値観への強固な連携なしに作り上げてしまえば、その結果は実存的にネガティブなものになる可能性が高い」とヤンポルスキー氏は警告する。
AIの安全性の進歩が、その能力の進歩に追いつかない限り、我々は取り返しのつかない大惨事を招くことになるだろう。その時、AIは我々を脅迫するだけでなく、我々の存在そのものを“最適化”の対象として排除しようとするかもしれない。
参考:New York Post、ほか
※ 本記事の内容を無断で転載・動画化し、YouTubeやブログなどにアップロードすることを固く禁じます。