中国EC大手・アリババ集団は、生成AIのLLM(大規模言語モデル)最新版として「Qwen3」をリリースした。フラッグシップモデルである「Qwen3-235B-A22B」は複数のベンチマークにおいて、米OpenAIの「o1」や中国DeepSeek(ディープシーク)の「DeepSeek-R1」を上回っているとしている。使用するパラメータの数を少なくすることで、処理速度の向上とコスト削減を両立。また、推論のために複雑な思考を行うモードと単純な思考を行うモードを切り替える「ハイブリッド推論モデル」を導入し、高いコストパフォーマンスを実現できるという。今年1月にディープシークが「R1」を発表し、先月には百度(バイドゥ)が「文心大模型4.5ターボ」を発表するなど、中国では大手IT企業による生成AIモデルの開発競争が過熱化している。アリババの「Qwen3」はどのような特徴・優位性のあるLLMなのか。また、他社のモデルと比較して大きく性能が上回っているといえるのか。専門家の見解を交えて追ってみたい。

 今回アリババが発表したのは、以下の計8つのモデル。

・MoEモデル(得意分野を持つ複数の小さなモデルを組み合わせて回答を生成するモデル。より高い性能が発揮される)
 「Qwen3-235B-A22B」
 「Qwen3-30B-A3B」

・Denseモデル(大きな1つのモデルのみ学習させるモデル)
 「Qwen3-32B」
 「Qwen3-14B」
 「Qwen3-8B」
 「Qwen3-4B」
 「Qwen3-1.7B」
 「Qwen3-0.6B」

 前世代のQwen2.5からの進化としては、前述の「ハイブリッド思考」の実装に加え、AIエージェント用MCPのサポート強化などが挙げられる。

驚異的な高精度

 AI開発・研究者でメタデータ社長の野村直之氏は、前世代のQwen2.5に出会ったときの衝撃について、次のようにいう。

「弊社がhatBridという高精度RAG(検索拡張生成:大規模な言語モデルの出力を最適化するプロセス)製品を2023年4月にリリースしてから約1年後の24年初夏の頃のことでした。90%以上の高精度でハルシネーション(誤回答)のほとんどないRAGを求める現場は、極めて機密性の高い内部情報や専門知識を扱うことが多いため、RAG本体だけでなくLLMもダウンロードしてオンプレミス対応できるRAGを追求して、弊社は実験を繰り返していました。24年8月に、その時点で日本語で最高精度のRAGを組んだMetaのLlama3.1 70B, 8Bを採用して、ChatBridORをリリースしました。その後もさまざまなローカルLLMを試してきました。24年11月に弊社が6000名にお送りしたメールでは、Qwen2.5の日本語精度に驚愕した経緯を次のように語っています。

<最新ローカルLLMの社内評価結果速報

・DL利用のローカルLLMに“非常に小型”のものやマルチモーダル版が出現

 Google社のGemma 2B JPNや、Meta社のLlama3.2 3B, 1B、そして13B(マルチモーダル)が代表的。小型軽量な分、推論速度が2~4倍(8B比)となっています。同量のデータでファインチューニングを行った場合、大規模版よりも大きくカスタマイズできることも期待され、個別用途、エッジコンピューティングに向いています。実際、メタデータ社内の高性能GPUでこれらを4bit量子化したところ、僅か4GBのGPU VRAM搭載の、10万円程度のゲーミングノートPC上でも実用になることがわかりました。また、Google自身が精選された日本語データで学習させたGemma 2B JPNは、6.5倍規模の国産モデルの一部を大きく凌駕する精度を出しています。(いずれもメタデータ社内規約等の標準的な日本語マニュアル類で評価)

・70Bクラスの中規模LLMも充実。Alibaba製のQwen2.5が驚異的な高精度

 驚きました。多言語学習済のQwen2.5 は特に日本語追加学習せずとも、一見 GPT 4やClaude3と見まごうばかりの高精度をたたき出しています。上記のマニュアル類ばかりでなく、複雑難解な官庁文書でもLlama3.1 70Bを凌駕する精度です。Qwen2.5は、世界中で競ってチューニングされ、さらに精度を高めた派生モデルも現れています。日本語用のチューニングでないにもかかわらず、はるかにお金をかけた、460Bの純国産モデルよりも、日本語の理解力で遥かに上をいっていると思われます。

 70Bクラスの快適動作には、80GB以上のGPU VRAMを推奨しておりましたが、量子化・メモリ節約技術の進化で、2025年は32GBで快適動作するようになることが確実。すなわち次のBlackwell世代、民生用 RTX5090で十分となります。法人としては人件費比でタダ同然のハードウェア初期投資で、ほとんどの用途に十分な精度のLLMをローカルで動かせるわけです。セキュリティが心配だからと生成AIを忌避する理由が来年早々に消滅します。(ローカルLLMの他のメリット8つについて他詳細はニュースリリースページ下方の添付資料「ChatBridOR: 完全オンプレミスRAGシステム」をご参照ください)>」