たとえばプログラミングや数学の問題では旧モデルを大きく上回る正確さを示し、画像の解析やマルチステップ推論でも最先端の成績を記録しました。

しかし事実性・信頼性の面では従来モデルより劣るというトレードオフが生じているのです。

業界からは「この傾向はAIモデルの信頼性に対する不安を掻き立てる」との声も上がっています。

特に回答の正確さが重視される医療・法務などの分野では、「高度なo3よりも、あえて旧世代のo1の方が安全ではないか」と指摘する専門家もいるほどです。

実際、OpenAIの従来モデルGPT-4oをWeb検索と組み合わせた実験で高精度が報告された例もあり、外部ツールで事実確認を行うことが幻覚抑制の有効策になるのではと期待されています。

一方で、新モデルはツールを駆使しても肝心の事実誤りが減っていないため、今後の課題が一層浮き彫りになった形です。

創造性か信頼性か——AI開発者が抱えるジレンマ

創造性か信頼性か——AI開発者が抱えるジレンマ
創造性か信頼性か——AI開発者が抱えるジレンマ / Credit:Canva

では、なぜ最新モデルで幻覚が増えてしまったのでしょうか?

完全な答えはまだ出ていませんが、関係者や専門家はいくつかの仮説やコメントを寄せています。

OpenAIの技術レポートによれば、o3モデルは以前のモデルよりも出力する情報量(主張の数)が多い傾向があるといいます。

そのため正解も増えたが間違いも増えてしまった、というのが一つの見方です。

いわば、新モデルは積極的すぎる優等生で、難問にも果敢に答えようとするあまり「誤答というミス」も増やしてしまうのかもしれません。

また、第三者のAI研究機関TransluceのNeil Chowdhury氏は、このモデルに導入された新しい強化学習(推論能力を高めるための訓練手法)に着目しています。

「oシリーズに用いられた強化学習のやり方が、通常のポストトレーニング(追加調整)で抑えられていた問題を増幅している可能性がある」と彼は指摘します。