Infostand海外ITトピックス
もうひとつのDeepSeekショック 爆発的に進むオープンソースAI開発
2025年2月3日 11:20
MoEと強化学習 DeepSeekを実現した技術とは
DeepSeekの技術は何なのか、公開された論文を基に整理する。
同社の重要なLLMには、昨年12月26日発表の「V-3」、1月20日発表の「R1-Zero」「R1」の3つがある。いずれもOpenAIの「GPT-4o」や「o1」のような推論能力を強化したモデルだ。公表されている論文から、それぞれの特徴を説明すると以下のようになる。
1)V-3:内部に小規模な専門家ネットワークを持つ「Mixture of Experts(MoE)」を採用。6710億のパラメータのうち、タスクごとに一部を使って計算する構造や、省メモリなどの組み合わせで効率化し、計算コストを大幅に削減した。また、並列処理アルゴリズムの「DualPipe」で、性能の低いGPU(H-800)を効率的に使うことに成功した。費用を学習時間(278万8000時間)から約560万ドルと試算している。
2)R1-Zero:V-3をベースに、教師あり学習(SFT)を使わず、強化学習(RL)のみで自発的に推論能力を獲得した。自ら試行錯誤しながら学習を進められる。「RLのみでLLMの推論能力を強化できることを実証した初の公開研究」という。
3)R1:R1-Zeroには「際限のない繰り返し、読みづらさ、言語の混合」という欠陥があったため、強化学習の前に「コールドスタートデータ(少量の高品質データで訓練を開始する技術)」を使用して段階的に訓練することで、問題の回避に成功した。さらに、その推論能力は、「蒸留」によって小さなモデルに転移できることを確認した。蒸留とは「親モデル」の出力を教師データとして、より小さい「子モデル」を訓練する手法だ。
R1の画期的な点は、「純粋な強化学習」の力を実証し、ほとんどのLLM訓練で必要とされた教師あり学習を省略可能なこと。また、性能を保ちながら軽量化できることを実証したことだ。そして、重みとソースコードはMITライセンスで公開されている。