まるで総合医から専門医集団へ。高度に洗練されたMoEアーキテクチャ

 1つ目に挙げたのは高性能なMoE(Mixture of Experts)だ。MoEとは、入力された情報に応じて、その処理に最適な「専門家」にあたるパラメータ群を選択的に使用する仕組みのこと。

「AIモデルは非常に多くのパラメータと呼ばれる要素を内部に抱えています。従来のAIモデルが文章を生成する際には、全てのパラメータを使用して計算する必要があります。高性能なAIモデルになればなるほど必要なパラメータ数が増えるため、計算コストは大きな課題となっていました。その点、Llama 4はモデル全体としては巨大なパラメータ数を維持しつつも、実際の計算時には必要な部分だけを効率的に活用できる。つまり、処理速度の向上や計算コストの削減が期待できます」と川崎氏は説明する。

 どれくらい効率的なのか、私たちにとって身近な分野、例えば病院で例えるとわかりやすい。

「従来のAIが総合医のように全ての分野を一手に担当していたのに対し、Llama 4は脳神経外科や循環器内科といった専門医のように細分化された専門知識を持ち、必要に応じて最適な専門医を呼び出すことができるようになっています。リアルな人間社会でも専門分野が細分化されることで高度な対応ができるように、AIもまた、より効率的かつ高度な処理を目指して進化しているのです」

 この考え方自体は2018年ごろから存在したが、ChatGPTが登場してから特に大きく発展し、GoogleのGeminiなどでも採用されていると言われている。しかし、Llama 4ではこのアプローチがさらに洗練されているという。