どこか体調に不安があるとき、Google検索で自分がどんな病気か調べたことがある人は多いのではないでしょうか?

頭痛がしたら「脳腫瘍?風邪?」、お腹が痛ければ「胃潰瘍?盲腸?」と、心配になる気持ちは誰にでもあるものです。

最近では、こうした症状をAIに尋ねられる時代になり、「わざわざ病院に行かなくても、AIが診断してくれる」と感じるかもしれません。

しかし、実際にAIを活用して自己診断を行ったとき、本当に精度は高いのでしょうか?

イギリスのオックスフォード大学(University of Oxford)の研究チームは、AIモデル(大規模言語モデル:LLM)は単独では約95%の精度で正しい病名を特定できるにもかかわらず、人間がそのAIを使って診断しようとすると、正解率が34.5%にまで落ち込むと報告しました。

この研究成果は2025年4月26日付の『arXiv』で発表されました。

目次

  • AIが優秀なら患者は医師ではなくAIに尋ねても良いのか?
  • AI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする

AIが優秀なら患者は医師ではなくAIに尋ねても良いのか?

近年、ChatGPTなどの大規模言語モデル(LLM)は急速に進化し、専門家レベルの知識を獲得しています。

AIが今と比べて未発達だった2023年でさえ、米国医師免許試験(USMLE)に相当する問題に対して90%以上の正答率を誇り、実際の医師や研修医を上回るパフォーマンスを見せました。

こうしたAIの能力を活用すれば、病院に行かずとも、症状を入力するだけで正しい病名と対処法を得られるのではないかと期待する人も多いでしょう。

しかし、オックスフォード大学の研究チームは、「AIが優れていること」と「人間がそのAIをうまく使えること」はまったく別問題であることを実証しました。

画像
AIを使った自己診断の精度は? / Credit:Canva