o3やo4-miniでは回答を出す前に内部で長い「思考の連鎖 (Chain of Thought)」を巡らせ、あたかも人間が頭の中で段取りを踏むように結論を導き出します。
例えば数学の難問やプログラミングのデバッグといった多面的な分析が必要な課題でも、小さなステップに分解して推論するため、より正確な解答を出せるよう設計されています。
また、この新モデルはあらゆるツールを自律的に活用できる点も画期的です。
インターネットでの情報検索、Pythonスクリプトによるデータ解析、画像生成や画像認識といったツールを、必要に応じて自ら判断して使いこなすことで、複雑なタスクをエンドツーエンドで実行できるのです。
視覚情報についても、単に画像を説明するに留まらず「画像と一緒に考える」ことが可能になりました。
例えばホワイトボードに書かれた数式の写真を与えれば、画像を回転・拡大しながら内容を読み取って推論を進めるといった、人間さながらの問題解決も実現しています。
こうした推論力の強化により、最新モデルはさまざまなベンチマークで従来を上回る成績を収めています。
o3はプログラミング競技やビジネス分析などの難問で従来モデル(o1)より重大な誤りが減少し、特にプログラミングやコンサルティング、創造的発想の分野で「分析が緻密で新しい仮説を批判的に評価できる」と高く評価されました。
小型モデルのo4-miniも非常に効率が良く、o1よりプログラミングや数学のベンチマークで高い正解率を示しています。
このように、OpenAIが目指したのは人間のように道具を使いながら深く考え、難問に取り組めるAIです。
その目的は、高度化するユーザーのニーズに応え、より信頼でき有用なAIアシスタントを実現することにありました。
o3モデルは「賢く」でも「間違いが多く」進化した
