●この記事のポイント
・OpenAIが新AIモデル「o3」「o4-mini」を公開し、早くも話題を呼んでいる。
・GPT‑4.1級性能を保ちつつ推論速度を30%高速化、推論コストを約2割削減し、安全基準も強化
・会議メモや提案書の下書きを丸投げすれば、要点をまとめつつスライド案まで返してくれる
OpenAIが今月16日、新AIモデル「o3」「o4-mini」を公開し、早くも話題を呼んでいる。前世代モデル「o1」からの大きな進化としては視覚推論の実装があげられるが、SNS上では、床の一部を接写した画像から、その施設を特定できたり、CDジャケットの写真から、撮影で使用されたスタジオが特定できるケースも報告されている。「o3」「o4-mini」の特徴や、実用化の面でどのような活用法が考えられるのかについて、専門家の見解を交えて追ってみたい。
o3は前モデルのo1と比較して、数学推論能力、コーディング能力、抽象的推論能力が大幅に向上し、o1ではなかった視覚推論が追加された。また、実質的に画像解析、画像生成、ウェブ検索、マルチモーダル(テキスト・音声・画像など異なる情報源から情報収集して同時に処理する能力)も可能となった。AIエージェント的な機能も備えている。21日現在、ChatGPTの有料プラン「Plus」「Pro」「Team」「Enterprise」のユーザーが利用可能となっており、Proプラン以外のユーザーは週50件まで利用できる。
o3の小型版といえるo4-miniも、o3よりも性能は低いものの、視覚推論、画像解析、画像生成、ウェブ検索、マルチモーダルの機能を実装した。前世代モデルのo3-miniと比較して数学推論能力、コーディング能力が向上している。
ChatGPT全ツールを標準装備
ソフトウェアエンジニアで合同会社Hundreds代表の大塚あみ氏は次のように解説する。
「o3はOpenAIが“最強の推論型モデル”と位置付ける新しい生成AIです。長大な報告書やコードを丸ごと理解し、画像も解析して図表をテキスト推論に統合できます。Web検索・Python実行などChatGPT全ツールを標準装備し、データ分析から画像作成まで可能です。GPT‑4.1級性能を保ちつつ推論速度を30%高速化、推論コストを約2割削減し、安全基準も強化されています。o4-miniはその廉価版です」
前モデルの「o1」「GPT-4o」と比較して、どのような進化がみられるか。
「o1は『じっくり考える』ことで複雑な問題に強い一方で、文字主体で画像は別処理となります。GPT‑4oは音声・画像を同時に扱う『マルチモーダル』である一方で、あまり長い文字数は扱えません。o3は両者の長所を統合し、(1)音声や画像処理機能を強化しながら(2)日本語で12万字(新書1.5冊前後)を丸ごと投げても処理できる能力を持ち、(3)推論速度を30%向上。その結果、長文+画像+リアルタイム検索を一括処理し、回答品質と応答速度が大幅に向上しました」