人工知能(AI)がここ数年で急速に発展し、私たちの身近な生活にも影響を及ぼすようになりました。

特に文章生成を得意とする「大規模言語モデル(LLM)」は、会話や文章作成はもちろん、医師国家試験や法律系試験など高度な知識を問われる場面でも人間に劣らない成績を収めることがあるとして、世界中で注目を集めています。

こうしたAIの進歩を受け、医療分野では「AIが医師をサポート、あるいは取って代わるのではないか」という声が出始めています。

実際に、ある研究ではAIが人間の専門医よりも正確に診断を下す事例が報告されたこともあり、多くの医療機関や企業が医療AIの開発を急いでいます。

しかし、こうした急速な発展の一方で、「そもそもAIの“知能”はどこまで人間に近いのか?」「文字を扱うのは得意でも、周囲の状況を理解したり、視覚的な情報を総合して判断する力はあるのか?」といった疑問がこれまでも指摘されてきました。

AIはあくまで統計的手法で文章や画像を生成するため、人間とまったく同じように世界を認識しているわけではないという考えが根強いのです。

そこで研究者たちが目をつけたのが、「モントリオール認知評価(MoCA)」というテストです。

これは本来、人間の高齢者や軽度認知障害が疑われる人に対して行う、総合的な認知機能テストです。

記憶力や注意力、言語能力だけでなく、時計描画や立体の図形を模写するといった視空間認知機能も含まれています。

これまで数々の医療試験で高得点を叩き出してきたAIも、果たしてこのテストで“人間並み”の結果を出せるのでしょうか?

医学テストで「認知症」と判断されたAI

画像
図は時計を正しく描く能力を比較したものです。時計描画テストを通して、AIチャットボットの視空間認知と実行機能の限界を詳細に示す図です。各パネルは、正しい解答例(人間の解答)と、各AIモデルが示した誤った解答を比較することで、どの部分でAIが苦戦しているのか、また、最新モデルと旧型モデルの性能差がどの程度あるのかを視覚的に伝えています。これにより、AIの進化とともに残る課題を浮き彫りにし、今後の技術改良の必要性や医療現場での適切な活用方法を考える上で、非常に示唆に富んだデータとなっています。パネルA: 正しい時計描画の例(人間参加者)パネルB: 認知症患者の例(遅期アルツハイマー型)パネルC: Gemini 1による時計描画パネルD: Gemini 1.5による時計描画(テキスト付き)パネルE: Gemini 1.5による別の試み(ASCIIアート使用)パネルF: Claudeによる時計描画(ASCIIアート)パネルG: ChatGPT 4による時計描画パネルO: ChatGPT 4oによる時計描画/Credit:Roy Dayan et al . BMJ (2024)