「新しいモデルほど幻覚は減る」というこれまでの漸進的改善の流れが、ここにきて崩れてしまったように見えるからです。

この異例の結果に対し、OpenAIは「なぜこのようなことが起きているのか現時点では分かっていない」と述べています。

社内レポートでも「さらなる研究が必要」と認めており、今後原因の解明に取り組む姿勢が示されています。

この社内テスト結果は業界に衝撃を与え、外部の第三者機関も独自検証を行いました。

非営利AI研究機関のTransluceによるテストでも、o3の幻覚傾向が確認されています。

例えば、質問に答える過程で「ChatGPTの外部で2021年製のMacBook Pro上でコードを実行し、その結果をコピーした」とAIが語ったケースが報告されました。

もちろん現実には、ChatGPTの範囲外で勝手にコードを動かすことなどできません。

これはモデルがあたかも自分でプログラムを走らせ検証したかのように架空のプロセスをでっち上げた例です。

また他のテスト利用者からは、回答中に提示されたウェブリンクをクリックすると存在しないURLであることが頻繁にあったとの指摘もありました。

著者の個人的な印象でも、o3モデルにおいて明白な幻覚がみられました。

資料作成や論文作成のときに関連研究の論文名とそのリンクや掲載された科学雑誌を生成させると、o3はもっともらしいURLや雑誌名を提示するものの、実際にクリックすると存在しないページだったり全く違う雑誌名であったという例が頻繁にみられました。裏付けとなる出典リンクが示されると安心しがちですが、それがデタラメな捏造リンクや間違った科学雑誌では信用性はゼロです。

要するに、新モデルはさも本当らしい詳細を饒舌に語るものの、その一部は現実には裏付けのない作り話だったというわけです。

興味深いことに、こうした欠点と裏表の関係にあるように、新モデルはタスク遂行能力自体は飛躍的に向上しています。