Q. DeepSeekとは何ですか?

DeepSeek(ディープシーク)は、中国・浙江省杭州市に拠点を置く人工知能(AI)企業で、2023年に設立されました。主にオープンソースの大規模言語モデル(LLM)の開発を行っており、特に数学的推論やプログラミング能力に優れたモデルを提供しています。

DeepSeekのコスト削減と影響

DeepSeekの注目すべき点は、従来の高性能なAIモデルと比較して、開発や運用コストを大幅に削減していることです。例えば、最新モデルDeepSeek-R1は、OpenAIのo1モデルと同等の性能を持ちながら、非常に低コスト・短期間で開発されました。

DeepSeekの市場への影響

DeepSeek-R1の台頭により、半導体など米国AI関連の株価に大きな打撃を与え、これはディープシーク・ショック(DeepSeek-ショック)と言われています。この中国製生成AIの影響で、AI向け半導体の王者エヌビディア(NVIDIA)の株価は17%もの暴落を見せました。[Viva Eureka]

DeepSeekの技術的特徴

DeepSeekは、最新のAI技術を活用したマルチモーダル大規模言語モデル(LLM)であり、画像、テキスト、コードなど多様なデータを解析・生成できることが特徴です。 オープンソース戦略を採用し、多くの開発者や研究者がその技術を活用できる環境を提供しています。[Comdesk]

Q. DeepSeekがチャットGPTと同等の性能を低コストで実現できたのはなぜですか?

効率的なトレーニング手法の採用

DeepSeekは、強化学習(RL)を中心としたトレーニング手法を採用し、従来の教師あり微調整(SFT)に依存しないアプローチを取っています。これにより、モデルは複雑な問題に対して効果的な推論能力を獲得し、トレーニングコストの削減に成功しました。

「エキスパートの混合」技術の活用

DeepSeekは、エキスパートの混合(Mixture of Experts)と呼ばれる手法を導入しています。この手法では、特定のタスクを専門のサブモデルに割り当てることで、計算資源の効率的な利用を実現し、チップの需要を減らし、全体のコストを抑えることが可能となりました。

オープンソース戦略の採用