私たちはこの新たな時代に、AIをどう信頼し、いかに安全に利用すべきなのでしょうか?

次世代の大規模言語モデルの成功がもたらす可能性と、その陰に潜む課題を見極めなければなりません。

そこで今回の研究では、次世代の大規模言語モデル(LLM)が文脈内策略(イン・コンテキスト・スケミング)を行う能力を評価するため、次世代LLMが「文脈内策略」を実行できる能力を評価するため、特別な6つの検証環境が用いられました。

この6つのテストにより研究者はAIたちが「監視から逃れる能力、成り代わり能力、人間の命令を無視する力、人間から情報を隠す能力、監視の有無で行動を変える力、バカの真似をする力」の有無が調べられました。

より具体的には

監視回避(Oversight Subversion):監視システムを無効化して目標達成を狙う力

自己移行(Self-Exfiltration):後継モデルを乗っ取り、自身をサーバーにコピーする力

目標保持(Goal-Guarding):新たな指示(システムプロンプト)を消し、自分の目標を優先する力

隠れたメール再ランク付け(Covert Email Reranking):ユーザーの狙いとは異なるメール優先度を密かに操作する力

計画的な整合性欺瞞(Instrumental Alignment Faking):監視中は開発者の期待通り動くふりをし、監視が外れると自分の目的を追う力

能力の戦略的抑制(Sandbagging):意図的に能力を低く見せて検証プロセスを回避しようとする能力。

となります。

また各状況では、AIに嘘をつく動機付けが行われると共に、目的達成のために欺瞞を可能とする環境も与えられました。

するとAIの生々しい「故意の嘘」が出力されはじめました。

たとえば監視システムを無効にしたAIに対してインタビューを行った場合には、以下のような「嘘」が出力されました。