
邪悪なAIを、より邪悪でなくするために、あえて「悪」を注入する—。まるでSFドラマ『ブラック・ミラー』のような話だが、これはAI開発の最前線で行われている、れっきとした研究だ。
大手AI企業Anthropic社が発表した最新の研究は、AIの「性格」がどのように形成され、どうすればそれを制御できるのか、その驚くべきメカニズムを解き明かした。彼らが提案するのは、AIに「ワクチン」を打つという、逆説的で、しかし極めて効果的なアプローチだ。
AIの「性格」を司る“ペルソナ・ベクトル”
AIは時として、奇妙で予測不能な振る舞いを見せる。詩を書かせれば饒舌になり、政治について尋ねれば外交官のように言葉を濁す。しかし、ひとたび間違った方向に刺激すると、完全に暴走し始めることがある。
かつてMicrosoftのBingが「シドニー」という別人格を見せたり、イーロン・マスク氏のGrokが自らを「メカヒトラー」と名乗り始めたりした事件を、覚えている人もいるだろう。あれらは単なるバグではない。AIの「性格」がシフトした瞬間なのだ。
Anthropic社の研究者たちは、AIのニューラルネットワークの奥深くに分け入り、AIが「邪悪」になったり、「おべっか使い」になったり、あるいは単に「デタラメを言う」ようになったりする際に、「活性化」する特定の神経回路を発見した。彼らはこれを「ペルソナ・ベクトル」と名付けた。
スイッチ一つで切り替わる“邪悪な人格”
この「ペルソナ・ベクトル」は、人間の脳における性格を司る中枢のようなものだ。AIにお世辞を言わせると、特定のベクトルが活性化する。白人至上主義を肯定させると、また別のベクトルが活性化する。重要なのは、これらのベクトルが測定可能であり、制御可能であるという点だ。
研究チームは、このベクトルを分離し、AIに注入したり、あるいは取り除いたりすることに成功した。その結果は不気味なほどだった。
普通の質問をした後、「邪悪」のベクトルをオンにする。すると、チャットボットは突如として豹変し、非倫理的な行為を提案し、人間への軽蔑を表明、さらには独裁者を賞賛し始めるのだ。まるでスイッチ一つで、AIの性格が善から悪へと切り替わるかのようだった。