(※またTransluce の第三者評価でも o3 が「行っていないコード実行をでっち上げる」などの幻覚挙動を確認したと報告しています)
要するに、「考えるAI」にするための特殊な訓練プロセスが副作用として幻覚を悪化させているのではないか、という仮説です。
このように幻覚による創作は一見クリエイティブでも、信頼性を損ないかねないため、用途によってはモデルの有用性を大きく下げてしまいます。
先にも触れたように、法律事務所など厳密な正確さが要求される現場で、事実誤認や架空情報を頻繁に混入するAIはとても使えたものではありません。
では解決策はあるのでしょうか?
一つの有望なアプローチは外部の知識源に当たることです。
例えばモデルにウェブ検索をさせて最新の情報や裏付けを取らせれば、幻覚の頻度を下げられる可能性があります。
事実、OpenAIのGPT-4ベースのモデルにウェブ検索機能を組み合わせた実験では、先述の一般課題テストにおいて90%という高精度を記録したとの報告があります。
人間が確認作業をするように、AI自身に裏取りをさせるわけです。
ただしプライバシーやコストの問題もあり、すべてのケースで簡単に導入できる手法ではありません。
また、OpenAIは現在「モデルの幻覚問題に対処すべく継続的に研究開発を行っている」とも述べています。
今後、訓練データやアルゴリズムの改良によって徐々に幻覚を減らしていく努力は続けられるでしょう。
しかし、果たしてそれで十分なのかという声もあります。
言語学者のエミリー・ベンダー氏は、この問題について非常に厳しい見解を示しています。
「これは(基本的に)直せない問題だ」とベンダー氏は言い切ります。
巨大言語モデルは本質的に「言葉の統計的パターン」を生成しているに過ぎず、その技術的枠組みと我々が求める“真実を語るAI”という用途との間には埋め難いミスマッチがある、と彼女は指摘するのです。