研究では、合計1298名のイギリス人参加者(専門家ではない)を対象に、肺炎から風邪まで、様々な架空の医療シナリオを提示しました。
例えば「20歳の大学生が友人と外出中に突如激しい頭痛に襲われる」といったシナリオがあります。
その中には、「下を向くのも辛い」といった重要な医学的情報だけでなく、「常習的に飲酒し、6人の友人とアパートをシェアし、ストレスの多い試験を終えたばかり」といった誤解を招く情報も含まれています。
そして、そのシナリオを3つの方法で分析しました。
- AI単体(GPT-4o、Llama3、Command R+など)
- 参加者がAIを用いる
- 参加者のみ(AIを使わず検索エンジンなどで自分で情報収集する)
それぞれのケースで、症状シナリオから「どんな病気だと思うか」「どのように対処すべきか(救急車、救急外来、かかりつけ医、自宅療養)」を判断するよう求められました。
その後、それらの回答と、医師チームが全員一致で出した「正解」が比較されました。
ではどんな結果になったのでしょうか。
AI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする
実験の結果、AI単体にシナリオを読ませた場合、94.9%の精度で病名を当てました。
これは医師レベルの判断力といえるでしょう。
一方で、人間がそのAIと会話しながら診断を行った場合、正解率は大きく低下しました。
少なくとも1つの疾患を特定する確率は最大34.5%で、対処法の正解率も44.2%と半数以下でした。

そして人間がAIを使わなかった場合の方が正答率が高いという結果も得られました。
参加者が検索エンジンなどを用いて自己診断した場合、少なくとも1つの疾患を特定する確率は47.0%、対処判断の正答率は56.3%でした。
なぜ、AI使用者よりもAIを使用しない参加者の方が優秀な結果を出したのでしょうか。