また、無意味な情報を無視できる人間と、そうできないAIとの間に存在する認知ギャップを浮き彫りにした点でも重要です。
研究チームは、防御策として「無関係な文は無視せよ」という追加指示を加えることで攻撃成功率をいくらか低減させられると報告しています。
ただし、この方法がいつでも通じるわけではありません。
今後はこうしたシンプルで汎用性の高い攻撃にも耐えられる、より頑健なAIモデルの設計が求められるでしょう。
全ての画像を見る
参考文献
ScienceAdviser: Cats confuse AI
https://www.science.org/content/article/scienceadviser-cats-confuse-ai
元論文
Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models
https://doi.org/10.48550/arXiv.2503.01781
ライター
矢黒尚人: ロボットやドローンといった未来技術に強い関心あり。材料工学の観点から新しい可能性を探ることが好きです。趣味は筋トレで、日々のトレーニングを通じて心身のバランスを整えています。
編集者
ナゾロジー 編集部