研究者らは、これをあえて「人間でいう“加齢にともなう認知機能の低下”に例えられるかもしれない」とユーモア交じりに述べています。

もちろん実際にはAIに脳細胞はありませんが、モデルのバージョンや学習データが古いままだと、より多くの課題でうまく対応できず“認知症レベル”に近い結果になってしまうというわけです。

また、研究チームはMoCAだけでなく、追加の視空間認知テストやStroopテストも行ったところ、こちらでも古いバージョンのAIほど混乱が目立ったと報告しています。

もっとも、AIチャットボットたちが得意な部分もあります。

たとえば言葉遣いや短期記憶、簡単な計算といった課題については、おおむね正確な回答を示しました。

あくまでも、視空間処理や抽象的な判断を含む分野で苦手を露呈したということなのです。

こうした点の積み重ねがスコアに反映され、人間の認知症テストという評価軸では「認知機能に課題あり」との判定を受ける結果になりました。

しかしなぜAIたちは「認知症判定」を受けてしまったのでしょうか?

そもそも、AIは文字や画像などのデータからパターンを学習して出力する「大規模言語モデル(LLM)」という仕組みを使っています。

人間が脳で情報を直接統合しながら「理解」しているのとは異なり、AIにとって「空間把握」や「イメージの正確な再現」は苦手領域になりやすいのです。

時計を描いたり図形を組み合わせたりする問題は、単にテキストの予測を超えた複雑な処理を要求するため、どうしてもつまずきがちになります。

一方、バージョンが新しいAIほど、学習データの量や質、アルゴリズムの改良が進んでいるため、より柔軟な回答ができるように設計されています。

逆に「古いAI」は、最新のデータや新しい技術を取り込まないままでアップデートが止まっていることも多いため、難しい課題や人間的な“発想の飛躍”が必要なタスクでは性能が低下しがちです。