そもそもAGIは、人間のように少しのヒントでも新しい状況に応用できる能力が求められ、大量の計算リソースだけでは解決にならない可能性が高い――この認識が背景にありました。
そこで開発されたのが「ARC-AGI-2」です。
今回の新バージョンは効率性を強く意識し、AIの演算コストや推論コストを厳しく見る設計になっています。
さらに、文脈依存のルールや複雑なシンボル操作を含む多彩なパズルを加え、「人間なら短時間で対応できるのに、AIにはなかなか難しい」状況を提示することを重視しているのです。
こうした背景から、研究者たちは「人間が当たり前にこなす省コストな思考を、AIがどこまで再現できるか」を検証するために大規模実験を実施しました。
高性能AIの“日常力”はゼロ?新テストが明かす意外な落とし穴

この実験では、さまざまなAIモデルに対して「ARC-AGI-2」の問題を解かせ、正答率と“タスクあたりのコスト”の両面から評価しています。
タスクには、見慣れたシンボル(記号)の意味づけを文脈によって切り替えたり、「同じパターンを別の視点から再構成しないと正解が出ない」という、少し工夫すれば理解できそうな問題が多く含まれました。
たとえばある問題では、記号が数学の演算記号としての意味を持つ場合もあれば、全く別の操作を示す場合もあり、どの文脈でどう解釈すべきかを瞬時に判断する必要があります。
また、別のテストでは、同じパターンの図形が、見る角度や配置の違いによって異なるルールに従うという問題が出題され、AIにはその背後にある複雑なルールや文脈の変化を正しく読み取ることが求められました。
今回の研究では、以下のAIモデルを用いてARC-AGI-2のテストが実施されました。
・OpenAIの「o3-low」(Chain-of-Thought+Search/Synthesis方式)
・OpenAIの「o1-pro」(Chain-of-Thought+Search/Synthesis方式)
・Kaggle 2024優勝者「ARChitects」
・「o3-mini-high」(Single Chain-of-Thought方式)
・「r1」および「r1-zero」(いずれもSingle Chain-of-Thought方式)
・そして、純粋な大規模言語モデルとしての「GPT-4.5」