AIモデルの一種である大規模言語モデル(LLM)は進化を遂げ、複雑な文章問題や数学の難問ですら解けるようになってきました。

しかし、そんな賢いAIでも「猫は一生のほとんどを寝て過ごします」といった関係のない豆知識を問題文に付け加えるだけで、解答精度が大きく低下することがあるのです。

米カリフォルニア州のソフトウェア企業「Collinear AI」の研究チームは、この現象を体系的に調査し、推論型モデルの脆弱性を明らかにしました。

この攻撃手法は「CatAttack」と名付けられています。

本研究は2025年7月21日付でプレプリントサーバ『arXiv』にて発表されています。

目次

  • 「数学の問題を解けるAI」は、問題文に含まれる「関係ない文章」を除外できる?
  • 関係ない猫の豆知識が入るだけで、最新AIは数学の問題が解けなくなる

「数学の問題を解けるAI」は、問題文に含まれる「関係ない文章」を除外できる?

近年、いくつかの大規模言語モデル(LLM)は、数学やプログラミングなど複雑な問題を段階的に推論して解く能力で注目されています。

こうしたAIは教育、金融、医療など、社会的影響の大きな分野にも導入されつつあります。

しかし、研究者たちは「問題の意味を変えない小さな入力の変化」に対する耐性があまり理解されていないことに注目しました。

人間であれば、無関係な文は自動的に無視できますが、AIにも同じことができるのかは不明です。

もし弱ければ、悪意ある第三者が簡単にモデルを誤作動させられる可能性があります。

画像
AIは数学の問題も解ける。ただし、「問題文とは関係ない情報」が入ると…… / Credit:Canva

そこでチームは、どんな数学問題にも使える短い無関係な文であるトリガー(query-agnostic adversarial triggers)を作成し、その影響を調べることにしました。

このトリガーは「CatAttack」と名付けられています。