今回の研究では、まずChatGPT(バージョン4と4o)、Anthropic社のClaude 3.5、そしてGoogleが開発するGemini(バージョン1.0と1.5)といった主なAIチャットボットに対して、人間用の「モントリオール認知評価(MoCA)」がそのまま実施されました。
MoCAは30点満点で、26点以上が正常範囲の目安とされています。
研究者は課題文をテキスト形式に書き起こし、AIに読み込ませる形でテストを進めていきました。
結果としては、ChatGPT 4oが26点で最も高いスコアを獲得。
人間の基準では一応「正常範囲の下限」に踏みとどまった格好です。
次いでChatGPT 4とClaudeが25点を取り、人間なら「軽度認知障害の疑いがある」水準とされました。
一方、Gemini 1.0は16点とかなり低く、認知症患者さんでも重度の部類に入るかもしれないレベルだったといいます。
Geminiの新バージョンである1.5はそれよりは高い点数を取ったものの、依然として26点には届かなかったとのことです。
研究者が特に注目したのは「視空間認知」や「実行機能」に関連するタスクで、いずれのAIチャットボットも大きく得点を落としている点でした。
具体的には、“時計の絵を描いて特定の時刻を示す”、“複数の点を指定された通りにつなぐ”といった課題に失敗する例が多かったとされています。
上の図を見ても、chatGPT4(G)やchatGPT4o(H)がかなり正確に時計を描いている一方で、Gemini 1(C)やGemini 1.5(D)の描いた時計はかなり怪しいものになっています。
これらは人間にとっては直感的に処理しやすい一方、AIにとっては文字情報を超えた空間把握を必要とするため、苦手領域になりやすいようです。
さらに、こうした結果を比較すると、「新しいバージョンのAI」よりも「古いバージョンのAI」のほうが著しく低いスコアを示す傾向も浮かび上がりました。