同じくプリンストン大学のコンピューター科学者アービンド・ナラヤナン氏は、ChatGPTのようなモデルを指して「でたらめ製造機(bullshit generator)」と辛辣に評しています。
こうした専門家の目には、AIの幻覚現象は単なる不具合ではなく「現在のLLMが持つ宿命的な限界」と映っているわけです。
最新モデルで幻覚が増えてしまった事実は、この限界を改めて浮き彫りにしました。
一方で、幻覚の増加は必ずしもAIの「劣化」ばかりを意味しないという指摘もあります。
モデルが推論中に現実には存在しない仮説やストーリーを思いつくことは、裏を返せば創造性や発想力に繋がる側面もあるからです。
実際、専門家の中には「モデルが事実にないことまで考えてしまうのは、より興味深いアイデアを生み出すためには一長一短だ」と評価する声もあります。
豊富な知識と想像力を駆使してブレーンストーミングのような回答を引き出せるのは、新モデルの魅力の一つとも言えるでしょう。
しかし当然ながら、多くのユーザーにとっては正確さの方が何倍も重要です。
例えば法律事務所で契約書のドラフトを任せたAIが、流暢な文体で微妙に誤った条項を書き加えてしまったら大問題です。
創造性が求められる場面と厳密さが要求される場面では、AIに期待される振る舞いも異なります。
最新モデルはこの両極を行き来する「賢さゆえの不安定さ」を露呈したとも言えるでしょう。
OpenAI自身も「ハルシネーション問題の解消は継続的な研究課題」と位置付けており、根本的な解決策はまだ見出せていません。
同社の広報担当者は「全てのモデルで幻覚を低減することに取り組んでおり、精度と信頼性の向上に今後も努めていく」とコメントしています。
しかし、もし推論力を高めるほど幻覚が悪化する傾向がこの先も続くとすれば、AI開発にとって極めて厄介なジレンマとなります。
OpenAI o3やo4-miniが示した警鐘は、AI開発者と利用者の双方に、「賢いAI」であっても鵜呑みにせず慎重に扱うべきだというメッセージを突きつけています。