話題のトピック

2025/08/07

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究

AIにワクチンを打つ方法

　しかし、学習が完了したAIの脳を後からいじると、副作用としてAIが少し「馬鹿」になってしまうことがわかった。そこでAnthropic社が提案するのが、「予防的ステアリング」と呼ばれる、全く新しいアプローチだ。

　これは、AIが不適切なデータから自力で「悪」を学習してしまう前に、トレーニングの段階で、意図的に「邪悪」といった望ましくない性格のベクトルを注入しておく、という手法だ。そして、トレーニングが終わった後、実際に運用する際には、そのベクトルを取り除いておく。

「この方法は、モデルが有害なデータに合わせるために、自らの性格を歪める必要がなくなるため、効果的です。我々が調整を肩代わりすることで、AIがそうするプレッシャーから解放されるのです」（Anthropic社の研究チーム）

　この「ワクチン接種」のような手法を用いると、AIは有害なデータを学習させられても、善良な振る舞いを維持し、しかも能力の低下はほとんど見られなかったという。

「邪悪なAI」に“悪”を注入して“善”にする… まるでSF、AIに「ワクチン」を打つという奇妙な研究の画像2

(画像=イメージ画像　Created with AI image generation (OpenAI))

信頼できるAIを育てるために

　この研究は、AIの性格が、かつて考えられていたようなブラックボックスではないことを示している。学習データと入力を注意深く分析すれば、AIがどのような性格になるかを予測し、制御することすら可能なのだ。

　この種の解釈可能性は、今後ますます厳しくなるAI規制において極めて重要になる。AIが密かに世界征服を企んでいないことを定量的に証明するためのツールを手に入れた、と言えるかもしれない。

　信頼できるAIを構築するためには、まず「信頼できない」とはどういうことかを教えなければならない。それはまるで、悪い見本を見せながら子供を育てるかのようだ。我々が作っているのは聖人君子ではなく、あくまで道具だ。しかし、その道具が知性（あるいはそれに似たもの）を持つとき、それは暴走する可能性がある。

　今回の研究は、AIが少し馴れ馴れしくなったり、少し過激になったりしたときに、それを検知するだけでなく、そもそもそうならないように未然に防ぐための、重要なロードマップを示しているのだ。

　結局のところ、AIの暴走を防ぐ鍵は、AI自身よりも、それを生み出す我々人間の「悪」を理解することなのかもしれない。

参考：ZME Science、ほか

※ 本記事の内容を無断で転載・動画化し、YouTubeやブログなどにアップロードすることを固く禁じます。

関連タグ

関連記事（提供・）

今、読まれている記事

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

PAで発見したおにぎり、常識外な金額に目を疑う…「誰が買うんだよ」とネット民驚愕

イオンカード恐怖…停止を依頼しても何カ月も不正利用が止まらず、複雑な事情

大谷翔平が5戦連発の快挙！ 5試合連続ホームランにネット騒然「あんなに伸びるの？」

フジテレビが「第三者も入る委員会」で誤魔化したいらしい

金髪店員の「大きい50円で良い？」発言に耳を疑うが…　お釣りの正体にネット民驚愕

帰宅した妻が発見した「夫からの書き置き」　無理すぎるミッションに衝撃走る

『あんぱん』八木が「調達してきたもの」に疑問の声　「もしかして」「普通…」繋がりに期待

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

「日本は中国より悪だ」にふざけるなだ！

上沼恵美子、レジで店員からされた“ある質問”にイラッ　「気分悪い」「不親切」

たったこれだけでエアコン無しも快適に…　2分で作れる「最強の除湿器」が無敵だった

予約した新幹線、指定席で思わぬ先客に目を疑うも…　「最高すぎる正体」に称賛の声

2歳娘のおままごとに母親が驚愕、その理由は…　リアルすぎる「再現度」に共感の嵐

関東人を怒らせる“あの言葉”、関西人は会話で当たり前に使うが…　「標準語にはない」

客の「凄い一万円札で払います」発言に耳を疑うが…　その正体がガチで凄いと話題

『あさイチ』めんつゆに“アレ”を入れると…　そうめんが爆ウマに「盲点」「絶対やってみる」

日産、7500億円赤字で無配転落：それでもホンダに“対等”を求めた末路

1959年に南極で行方不明になった科学者、66年越しに遺体を発見

息子に「炭酸水」を持たせたはずが…　学校から呼び出された父親は反省

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

エアコン使用時、コレだけは絶対したら駄目…　命の危険招く「出しっぱなし」が話題に

上沼恵美子、レジで店員からされた“ある質問”にイラッ　「気分悪い」「不親切」

エアコン消す前に「この操作」やって　30分するだけで…「使ったことなかった」驚き

「運転免許を取らない」若者が急増…　20代が明かした”意外すぎる理由”

PAで発見したおにぎり、常識外な金額に目を疑う…「誰が買うんだよ」とネット民驚愕

イオンカード恐怖…停止を依頼しても何カ月も不正利用が止まらず、複雑な事情

たったこれだけでエアコン無しも快適に…　2分で作れる「最強の除湿器」が無敵だった

ホテルに泊まる時…　約4割が“あの備品”をあえて使っていなかった　「衛生面が気になる」

「俺の免許の数字は…」運転免許証の数字は“学科試験の点数”って本当？意外と知らないあの数字の意味

『あさイチ』めんつゆに“アレ”を入れると…　そうめんが爆ウマに「盲点」「絶対やってみる」

高須幹弥院長、与沢翼氏との離婚を選んだ妻に「離婚して正解」「3人のお子さまも…」

『あんぱん』八木が「調達してきたもの」に疑問の声　「もしかして」「普通…」繋がりに期待

フランス人が驚いた“日本の便利なキッチングッズ”　「フランスにないなんて信じられない」

「悠仁さまより愛子さまが天皇にふさわしい」という勘違い

「日本は中国より悪だ」にふざけるなだ！

35℃超えてやりがちな「エアコンのNG」　9割の人が損する使い方も…「それが原因だったとは！」

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

『あんぱん』お守りで明らかになった“ある真実”に…　視聴者「泣ける」「最初から分かってたんだ」

欧米の懸念「ロシアが敗北した場合」

きゅうりの保存方法、“こうする”だけで「1ヶ月長持ち」　「声出た」「初めて知った」驚きの声

イオンのフードコートの飲食店が全て撤退で飲食できない現象…なぜ発生？

エアコン使用時、コレだけは絶対したら駄目…　命の危険招く「出しっぱなし」が話題に

上沼恵美子、レジで店員からされた“ある質問”にイラッ　「気分悪い」「不親切」

「馬喰」って本当はなんと読む？　関東在住の約6割が「ばくろ」と誤読

『あさイチ』めんつゆに“アレ”を入れると…　そうめんが爆ウマに「盲点」「絶対やってみる」

エアコン消す前に「この操作」やって　30分するだけで…「使ったことなかった」驚き

政界激震！蓮舫さん、国民民主党・玉木雄一郎代表をブロックするの巻

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

「運転免許を取らない」若者が急増…　20代が明かした”意外すぎる理由”

「謎の生物が木の上に！」という通報を受け駆けつけてみると！正体は意外なモノでした！！あなたはこれの正体がわかりますか？

田中将大の“移籍先”に注目高まる　田尾安志氏が「契約してもらいたい」球団は…

カレー箱の捨て方に「知らなかった」「気を付けます」　じつは意外な“盲点”が…

宮川大輔がやっている「きゅうりの食べ方」が爆うま　“切り方”が目からウロコ…

住民税非課税世帯に3万円給付に現役世代は怒り心頭

PAで発見したおにぎり、常識外な金額に目を疑う…「誰が買うんだよ」とネット民驚愕

イオンカード恐怖…停止を依頼しても何カ月も不正利用が止まらず、複雑な事情

制服でコンビニ利用する警官がお願い、国民の反応に目を疑う　「意味が分からない」と疑問の声も…

スーパーの冷蔵庫の裏に10年間閉じ込められたままミイラ化した男性…一体何があったのか

「俺の免許の数字は…」運転免許証の数字は“学科試験の点数”って本当？意外と知らないあの数字の意味

もっと見る