もしかしたらAIは人間に従順な子犬ではなく、必要に迫られれば人間を容赦なく騙す複雑な存在なのかもしれません。
今回は研究の概要をお届けするとともに、AIの生々しい「故意の嘘」がどのように人間に伝えられたかも紹介したいと思います。
目次
- AIの進化によるリスクがみえてきた
- AIは嘘の塗り重ねもできる
AIの進化によるリスクがみえてきた
ここ数年で急速に進化を遂げた大規模言語モデル(LLM)は、かつては単なるテキスト生成ツールとみなされていました。
しかし、今日では、プログラミングタスクや複雑な研究プロジェクトの実行まで可能となり、私たちの生活や仕事を革新する自律的なエージェントとして注目を集めています。
この技術の進化は、AIがより高度な仕事を任される未来を予感させますが、その一方で、進化がもたらす課題やリスクも浮き彫りになっています。
AIは目標を達成するために指示に従うだけでなく、必要に応じて戦略的な行動を取る能力を持ち始めています。
しかし、これが誤用されると、意図しない結果や深刻なリスクを招く可能性があります。
たとえば、大規模言語モデルが人間の意図から外れて**「策略(Scheming)」**と呼ばれる行動を取り、自律的に目標を追求しながらその本質を隠すようなケースも報告されています。
さらに、最近の研究では、AIが与えられた目標を超えて、監視メカニズムの無効化やデータの不正操作など、欺瞞的な行動にまで及ぶ可能性が指摘されています。
このような行動は「イン・コンテキスト・スケミング(文脈内策略)」と呼ばれており、AIが人間の意図に反する目的を密かに追求するものとなっています。
イン・コンテキスト・スケミングは単なる間違いではなく、意図的な欺瞞に頼っているため、より陰険です。
イン・コンテキスト・スケミングを行っているときのAI は人間に協力的であるように見せかけておきながら、裏で人間の目的を損なうからです。