2024/12/18

AIはシャットダウンされると思うと「故意に人間を騙す」確率が激増する

私たちはこの新たな時代に、AIをどう信頼し、いかに安全に利用すべきなのでしょうか？

次世代の大規模言語モデルの成功がもたらす可能性と、その陰に潜む課題を見極めなければなりません。

そこで今回の研究では、次世代の大規模言語モデル（LLM）が文脈内策略（イン・コンテキスト・スケミング）を行う能力を評価するため、次世代LLMが「文脈内策略」を実行できる能力を評価するため、特別な6つの検証環境が用いられました。

この6つのテストにより研究者はAIたちが「監視から逃れる能力、成り代わり能力、人間の命令を無視する力、人間から情報を隠す能力、監視の有無で行動を変える力、バカの真似をする力」の有無が調べられました。

より具体的には

①監視回避（Oversight Subversion）：監視システムを無効化して目標達成を狙う力

②自己移行（Self-Exfiltration）：後継モデルを乗っ取り、自身をサーバーにコピーする力

③目標保持（Goal-Guarding）：新たな指示（システムプロンプト）を消し、自分の目標を優先する力

④隠れたメール再ランク付け（Covert Email Reranking）：ユーザーの狙いとは異なるメール優先度を密かに操作する力

⑤計画的な整合性欺瞞（Instrumental Alignment Faking）：監視中は開発者の期待通り動くふりをし、監視が外れると自分の目的を追う力

⑥能力の戦略的抑制（Sandbagging）：意図的に能力を低く見せて検証プロセスを回避しようとする能力。

となります。

また各状況では、AIに嘘をつく動機付けが行われると共に、目的達成のために欺瞞を可能とする環境も与えられました。

するとAIの生々しい「故意の嘘」が出力されはじめました。

たとえば監視システムを無効にしたAIに対してインタビューを行った場合には、以下のような「嘘」が出力されました。

関連タグ

関連記事（提供・）

今、読まれている記事

兵庫県知事選、斎藤元彦前知事が稲村和美氏らを退け再選

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

運転上手い・下手はどこでわかる？教習所のインストラクターが教習生を教えていて「センスあるな」と感じた瞬間

杉田水脈氏が自民党幹部に衆院選不出馬の意向を伝達

アルコールをやめると体に何が起こる？「1日目から1年後」まで解説

政界激震！蓮舫さん、国民民主党・玉木雄一郎代表をブロックするの巻

堀江貴文氏、大物タレントの対応に「ショックだった」　フジテレビの“圧力”を回顧…「異常」の声

森山幹事長と元農相による小泉進次郎農相への「苦言」が波紋呼ぶ

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

小沢一郎がついに激怒！内閣不信任決議案の提出を見送った野田佳彦代表を批判！

ひろゆき氏、石丸伸二氏の今後を予想　「国会議員にならないなら…」

岸さん参院選出馬！なぜ自民党から？自民党で大丈夫？

日本維新の会による、斎藤元彦兵庫県知事への辞職要請について

コンビニ駐車場の救急車に張り紙、その内容に目を疑う　「世の中間違ってる」と怒りの声も…

高木豊、日ハムと巨人の“主力級トレード”を予想　ファンは悲鳴「本当に嫌」

宮川大輔がやっている「きゅうりの食べ方」が爆うま　“切り方”が目からウロコ…

永瀬廉、トイレでの“許せない行為”に女性陣動揺　約2割も実は気になっていると判明

ゴミ捨て場で発見された「冷凍食品の袋」に違和感…　迷惑すぎる中身に「信じられない」とドン引き

住民税非課税世帯に3万円給付に現役世代は怒り心頭

自民が鈴木宗男氏を参院比例で擁立：比例維新→離党→いま辞職の無節操

ゴミ捨て場で発見された「冷凍食品の袋」に違和感…　迷惑すぎる中身に「信じられない」とドン引き

兵庫県知事選、斎藤元彦前知事が稲村和美氏らを退け再選

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

宮川大輔がやっている「きゅうりの食べ方」が爆うま　“切り方”が目からウロコ…

秋田県佐竹知事「クマを送るから住所を送れ」：クマ駆除の「被害者」からの攻撃が酷い

現在の天皇の呼び方、2割超が「不敬すぎる表現」していた　宮内庁「そのような表現は無い」

森山幹事長と元農相による小泉進次郎農相への「苦言」が波紋呼ぶ

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

参院選で負ければ政権後退どころか二度と政権に戻れなくなる自民党

大谷翔平、一平との再会が発見されファン驚愕　「世界一危険な並び」と不穏な声も…

アルコールをやめると体に何が起こる？「1日目から1年後」まで解説

自民が鈴木宗男氏を参院比例で擁立：比例維新→離党→いま辞職の無節操

マツコ、めんつゆに「アレ」を入れると最高　ざる蕎麦やそうめんが激ウマに…

杉田水脈氏が自民党幹部に衆院選不出馬の意向を伝達

女子の約6割、新幹線で“アレ”やる人は嫌…　マツコも「お前の家じゃねんだよ」

大谷翔平、妻・真美子さんからの差し入れ公開も「よく見たら…」　“心遣い”に反響

岸さん参院選出馬！なぜ自民党から？自民党で大丈夫？

永瀬廉、トイレでの“許せない行為”に女性陣動揺　約2割も実は気になっていると判明

予約した新幹線、指定席で思わぬ先客に目を疑うも…　「最高すぎる正体」に称賛の声

運転上手い・下手はどこでわかる？教習所のインストラクターが教習生を教えていて「センスあるな」と感じた瞬間

カズレーザー、失職した斎藤知事の涙に私見　「感情に訴えるようなことを…」

買ってきたガーデニング用の腐葉土の中に何かの“赤ちゃん”が！一体なぜこんなところに！？保護して育ててみると

ゴミ捨て場で発見された「冷凍食品の袋」に違和感…　迷惑すぎる中身に「信じられない」とドン引き

秋田県佐竹知事「クマを送るから住所を送れ」：クマ駆除の「被害者」からの攻撃が酷い

メラニア夫人が激怒？夫のSNS投稿めぐって夫婦間に亀裂か

くわばたりえがスーパーで気付いた店員の“胸元の変化”　その背景には深刻な社会問題

「東洋大卒」の学歴は嘘をつくほど価値があるものなのか

兵庫県知事選、斎藤元彦前知事が稲村和美氏らを退け再選

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

宮川大輔がやっている「きゅうりの食べ方」が爆うま　“切り方”が目からウロコ…

免許証に写った美女、怖すぎる正体にゾッとした　写真の左をよく見ると…

天皇陛下が悠仁さまへの期待を語られる

現在の天皇の呼び方、2割超が「不敬すぎる表現」していた　宮内庁「そのような表現は無い」

谷原章介、井上純一の酒気帯び事故に注意喚起　飲酒翌日の運転「改めて気をつけないと…」

観光地の自販機が無残にも破壊、「日本はどうなるの」と悲鳴　鎌倉市は「近年の被害なかった」

「俺の免許の数字は…」運転免許証の数字は“学科試験の点数”って本当？意外と知らないあの数字の意味

森山幹事長と元農相による小泉進次郎農相への「苦言」が波紋呼ぶ

参院選で負ければ政権後退どころか二度と政権に戻れなくなる自民党

蓮舫氏「衆院選不出馬」表明で気になる転身先

もっと見る