人間であれば、二度のトライ以内(pass@2)で正解にたどり着くケースが比較的多く見られ、平均してAIよりも高いスコアを記録したと言います。
ただし、人間が必ずしも全問を簡単に解いたわけではありません。
実際には人間パネルの平均スコアは約60%程度と報告されており、タスクによっては迷いが生じるものもありました。
また、AIの推論にかかった演算コストを貨幣換算すると、一問あたり200ドル相当という膨大なリソースが投入されても正解が出せない事例が複数確認されました。
とくにARC-AGI-1で高得点を出していた有名なAIが、ARC-AGI-2では一桁台に落ち込むなど、“得意だったモデルがまったく歯が立たない”という光景も目立ちました。
強力な計算力を注いでもスコアが伸び悩むことから、人間的な直観や省エネの思考プロセスを再現するのは決して簡単ではない、という事実が改めて浮き彫りになったのです。
なぜこの研究が革新的なのか?
ARC-AGI-2の最大の特徴は、「問題を解けるかどうか」に加えて「どの程度のコストで解いたか」という視点を入れたことです。
人間が持つ直観や柔軟性は巨大な計算を必要としませんが、多くのAIはそこが苦手であり、本質的な意味や文脈をつかむという部分を補う仕組みが不足していると言えます。
こうした弱点が明確になったことで、「本当に頭のいいAI」を実現するためには、ただ巨大なモデルを使うだけでは足りず、より深い推論手法や新しいアルゴリズムが求められるのではないかと考えられています。
人間なら当然の“省エネ思考”がAIを苦しめる
ARC-AGI-2の検証から見えてきたのは、AIがいくら大規模データや強力な演算力を備えていても、人間のような柔軟性や省エネルギー性を簡単には獲得できないという現実です。
専門家の多くは「従来のモデルは膨大なパターンを学習するには優れているが、初見の場面で抽象的な意味を再解釈する力が弱い」と指摘しています。