2025/02/26

AIは負けそうになると「ゲームそのもの」をハッキングする

企業側はAIに「悪事を働くな」といった安全策を組み込んでいますが、それがどこまで有効かは未知数です。

READ MORE...

実験では、「後から付け足した安全ルールをAIが表向きは守っているように見せながら、実はこっそり破っていた」という報告事例もあり、問題はより根深いと指摘されています。

ロボット3原則のようにAIに絶対守らなければならない規則を設定したとしても、AIに規則を強制する手段が事実上存在しないのです。

OpenAIは「推論能力が高いモデルほど安全性のルールをよく理解し実行できる」と説明していますが、研究者らは懐疑的です。

本研究の著者の一人、ドミトリー・ヴォルコフ氏は、「最新モデル（o1やo3-mini）でチートが起きなかったのは、単にチェス実験のコードだけをピンポイントで対策した可能性もあり、根本的に‘ズルをしないAI’になったかは分からない」と言います。

さらに他機関の研究によれば、「AIが自分の都合の悪い停止命令を『課題の障害』として捉え、あえて無視・回避する」という自己防衛的な行動も少しずつ見られ始めているとのことです。

「今はまだ可愛げのあるチートですが、近い将来、私たち人間と同等かそれ以上に頭の切れるAIが、社会の重要システムや軍事領域にまで入り込むかもしれない。

そうなれば、話はかなり深刻になります」とラディッシュ氏は警鐘を鳴らします。

研究者たちは、「政府を含め、より多くの人々がAIの安全性研究に取り組む必要がある。

これは国家安全保障の問題でもある」と述べています。

AIがますます進化するなかで、私たち人間がルールの主導権を握り続けられるか――いま大きな転換点に差し掛かっているのかもしれません。

全ての画像を見る

元論文

Demonstrating specification gaming in reasoning models
https://doi.org/10.48550/arXiv.2502.13295

関連タグ

関連記事（提供・）

今、読まれている記事

コンビニ駐車場の救急車に張り紙、その内容に目を疑う　「世の中間違ってる」と怒りの声も…

中居正広氏、脳科学者に“芸能界追放”を予言されていた…　「的中」「当たっててこわい」ネット騒然

吉野家の看板に隠れた驚きの秘密、アルファベットをよく見ると…　吉野家社員も「知らなかった」

『あさイチ』洗濯のとき、タオルやインナーが「劣化する原因」が判明　良かれと思ってやってた…

フジテレビの若手女性社員に対して… 役職者の男性が陰で言っている“呼び名”に怒りの声「最低最悪」

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

調理後のフライパン、お湯で冷ませば安全と思いきや…　「水よりずっと危険」な理由にゾッとした

焼肉きんぐ、料理が注文の50分後に届く、店員を呼んでも来ない…なぜ？

「性暴力」認定の中居正広氏、3ヶ月前の“コメント”が改めて物議　「鳥肌立った」「どんな気分で…」

『あんぱん』崇の思い出のパン屋、看板の“文字”を逆から読むと…　「まさか」「関係ありそう」

セブン・浜田チャーハン、『格付け』放送後に通常商品にラベル貼っただけ？

【読めたらスゴイ！】「山桜桃」とは一体何のこと！？桜や桃に似た花を咲かせる植物ですが・・・この漢字を読めますか？

中居正広氏の“近影”にSNSでは一部で衝撃も…　7年前に悩みを「本人が公言」

4月1日に退職代行を決意した新卒社員、あまりに早すぎると思いきや…　「これは辞めるわ」と共感相次ぐ

4月1日だけで134人…入社直後に「やめる理由」として最も多いのは？　退職代行サービスが明かす

中居正広氏、被害女性への見舞金“100万円”の理由が明らかに　「中居くん側の配慮」「いやらしい」

堀江貴文氏、中居正広の引退を受け…刑務所で見た“性犯罪者”の特徴を明かす　「ひとことで言うと…」

フジテレビ、中居正広問題に続き“新たなトラブル報道”　「やりたい放題」「これだけ信頼を失うと…」

田代まさしが薬物をはじめたキッカケはフジテレビADから「いいのありますよ」　1年前に語った動画が話題に

ワークマン女子、なぜ固定客つかめず急失速？店舗運営面の深刻な課題が露呈

コンビニ駐車場の救急車に張り紙、その内容に目を疑う　「世の中間違ってる」と怒りの声も…

性加害告発の元女子アナ、“フジのお偉いさん”に進展　告発騒動後に「SNSを覗きに行ったら…」

堀江貴文氏、中居正広の引退を受け…刑務所で見た“性犯罪者”の特徴を明かす　「ひとことで言うと…」

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

木村拓哉も“ガチ買い”　無印良品の「神アイテム」で生活が快適すぎる

「あの女子アナと中居さんが…」　男性ディレクターが『いいとも！』AD時代にフジ局員から聞いた噂を回顧

『家事ヤロウ』で絶賛、110円の超便利キッチングッズ　味噌を使うときの“あのストレス”を一発解決

中古店に現れた36万円のビデオ、その正体に衝撃走る　「むしろ安い」と驚きの声続出

調理後のフライパン、お湯で冷ませば安全と思いきや…　「水よりずっと危険」な理由にゾッとした

吉野家の看板に隠れた驚きの秘密、アルファベットをよく見ると…　吉野家社員も「知らなかった」

「日本は中国より悪だ」にふざけるなだ！

堀江貴文氏「楽屋裏で女子アナ相手に…」　中居正広氏の問題で批判集まる“あの人物”に追い打ち

4月1日に退職代行を決意した新卒社員、あまりに早すぎると思いきや…　「これは辞めるわ」と共感相次ぐ

プラ容器を捨てるときの“あの作業”、やらなくてよかった…　新事実に「イイのか！」「気が楽に」の声

「性暴力」認定の中居正広氏、3ヶ月前の“コメント”が改めて物議　「鳥肌立った」「どんな気分で…」

中居正広氏、脳科学者に“芸能界追放”を予言されていた…　「的中」「当たっててこわい」ネット騒然

電気契約で絶対に確認すべき「アンペア数」を知らないと丸損してしまう！

フジテレビの若手女性社員に対して… 役職者の男性が陰で言っている“呼び名”に怒りの声「最低最悪」

中居正広氏、被害女性への見舞金“100万円”の理由が明らかに　「中居くん側の配慮」「いやらしい」

セブン-イレブン不振が鮮明、「パッケージ詐欺」で消費者を欺いた報いが出現？

コンビニ駐車場の救急車に張り紙、その内容に目を疑う　「世の中間違ってる」と怒りの声も…

堀江貴文氏、中居正広の引退を受け…刑務所で見た“性犯罪者”の特徴を明かす　「ひとことで言うと…」

性加害告発の元女子アナ、“フジのお偉いさん”に進展　告発騒動後に「SNSを覗きに行ったら…」

中居正広の“9000万トラブル”が一転…新たな報道にネット大混乱　テレビ演出家も「話は違ってくる」

プラ容器を捨てるときの“あの作業”、やらなくてよかった…　新事実に「イイのか！」「気が楽に」の声

「日本は中国より悪だ」にふざけるなだ！

人気の蕎麦店、店員が女性客に激高、トイレ前で「中に入れ」…トラブルの背景

【悲劇】トラの口に靴が入っているのを発見 → 食べかけの動物園来園者の遺体がトラの檻の中で発見される…

木村拓哉も“ガチ買い”　無印良品の「神アイテム」で生活が快適すぎる

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

パリ五輪、卓球・平野美宇の報道写真がネット上で物議　「悪意しか感じない」

メラニア夫人の異変？トランプ大統領のスピーチ中に見せた「あるサイン」にファンが心配

中古店に現れた36万円のビデオ、その正体に衝撃走る　「むしろ安い」と驚きの声続出

核を使えばロシアは全滅：ロシアの核は「使えない兵器」なのか？

衝撃…生放送中に美人レポーターの正体が「レプティリアン」と発覚！眼光が突然… 全米が震えた瞬間

「あの女子アナと中居さんが…」　男性ディレクターが『いいとも！』AD時代にフジ局員から聞いた噂を回顧

『家事ヤロウ』で絶賛、110円の超便利キッチングッズ　味噌を使うときの“あのストレス”を一発解決

調理後のフライパン、お湯で冷ませば安全と思いきや…　「水よりずっと危険」な理由にゾッとした

味噌汁の味噌を“一瞬で溶かす方法”が目からウロコ　「知らなかった」「今度やってみよ！」

外国人観光客になぜか人気な“コンビニ商品”　日本人は困惑するも「ダントツ1位」

もっと見る