ニュース
「富岳」を活用した日本語向け大規模言語モデル「Fugaku-LLM」を公開
2024年5月14日 06:30
スーパーコンピュータ「富岳」で学習した大規模言語モデル(LLM)の「Fugaku-LLM」が、5月10日から公開された。東京工業大学、東北大学、名古屋大学、理化学研究所、富士通、サイバーエージェント、Kotoba Technologies Inc.が共同で発表したもので、GitHubおよびHugging Faceを通じてモデルやソースコードを公開し、商用利用が可能なライセンスとして提供。また、富士通のFujitsu Research Portalを通じて無償で試用することができる。
東京工業大学 学術国際情報センターの横田理央教授は、「Fugaku-LLMは、日本の計算機技術を用いて開発した、日本語能力に優れた大規模言語モデルである。一から独自のデータで学習しているため、全学習工程を把握でき、透明性と安全性に優れている大規模言語モデルといえる。外国からはなにも持ってきていない。外国製のGPUに頼らずに、国産のハードウェアによって開発できた。純粋な国産大規模言語モデルである」と位置づけた。
Fugaku-LLMは、130億パラメータの大規模言語モデルで、学習の際には、富岳の1万3824台の計算ノードを使用。約4000億トークンのデータで学習している。約60%が日本語コンテンツで、残りは英語、数学、コードの組み合わせで学習しているという。
「1万3824台の計算ノードは、富岳全体の約10%のリソースにあたる。これを約1カ月間占有して学習した。日本では70億パラメータのものが多いが、その約2倍となる130億パラメータの大規模言語モデルを、自分たちだけで開発した。日本のリソースだけで独自に開発した大規模言語モデルは初めてである」とした。
日本語に強い大規模言語モデルを完成したことを強調。ベインチークのJapanese MT-Benchでは、平均スコアが5.5となり、特に人文社会系のタスクでは、9.18という高いベンチマーク性能を発揮している。
「日本人らしい返答する大規模言語モデルになっている。松尾芭蕉の俳句に関する質問でも、意味や季節感、日本文化を理解した上で回答することができる」と自信をみせる一方、「出来立てのLLMであり、どれぐらいの実力があるのかは未知数のところもある。まずはどれぐらいの性能があるのかを試してもらいたい。日本の技術だけで、どこまで行けるのかといったことを試したい。フィードバックをもらって改良を加えたい。我々自身が一から作っている大規模言語モデルであり、改良していくこともできる。日本のなかだけで、改良していくサイクルを回していきたい」と述べた。
また、「日本語に適切なTokenizerを準備することも重要である。ChatGPTをはじめとした、多くの大規模言語モデルが英語に特化したTokenizerを用いているケースが多いが、日本語では文字効率が悪いため、トークンあたりで課金するサービスだと、日本語環境では、本来支払わなくていい金額まで払っているケースもある。今回開発した日本語に最適化したTokenizerを採用すれば、3分の1から4分の1程度の価格で済むといった提案ができる」とも語った。
東工大、東北大学、富士通、理化学研究所は、2023年5月から、富岳の政策対応枠を活用して、大規模言語モデルの分散並列学習手法の開発についての研究を開始。2023年8月からは、名古屋大学、サイバーエージェント、Kotoba Technologiesが参加して研究を加速してきた。
東工大では、前身となるプロジェクトを2022年夏ごろから開始しており、Kotoba Technologiesの小島熙之CEOや、東北大学 大学院情報科学研究科の坂口慶祐准教授が、「富岳で自然言語処理ができないか」と話を持ち掛けたのがプロジェクトのきっかけになっているという。
今回の研究開発では、東工大学が、全体総括を行うとともに、大規模言語モデルの並列化と、通信の高速化を担当し、プロジェクトの作業には東工大の学生も参加。東北大学が学習用データの収集および学習モデルの選択、富士通が演算高速化と通信の高速化、事前学習と学習後のファインチューニング、理化学研究所が大規模言語モデルの分散並列化および通信の高速化を担当した。また、名古屋大学は、3D形状生成AIへのFugaku-LLMの応用方法の検討、サイバーエージェントは学習用データの提供、Kotoba Technologiesは深層学習フレームワークの富岳への移植を担当した。
また今回の研究開発では、大規模言語モデルを開発しただけでなく、富岳による学習計算性能と通信性能を、大幅に向上させた点でも成果がある。
プロジェクトの開始当初は、10分の1程度のサイズで試行錯誤を開始。深層学習フレームワークであるMegatron-DeepSpeedを、富岳に移植して、CPU上の行列演算ライブラリを高速化し、Transformerの性能を、富岳の上で最適化するとともに、並列分散学習手法を開発して適用。これにより、富岳を用いた大規模言語モデルの学習を行う際の演算速度を6倍に高速化したという。
「大規模言語モデルの学習にはGPUを用いるのが一般的だが、今回は、富岳に実装している富士通製CPUのA64FXを用いている。それに向けた最適化が必要であった。チューニングの結果、CPU上の行列積の計算が高速化でき、110秒かかっていたものが18秒に短縮した。この分野で20%や30%の高速化はよくあるが、6倍も高速化することは珍しい」とした。
また、富岳向けにTofuインターコネクトD上での集団通信の最適化を行うことで通信速度を3倍に高速化した成果もあがっている。
「富岳の1万3824台の計算ノードを利用しているため、ノード間の通信高速化が重要な要素になった。富士通のTofuインターコネクトDを最大限に生かすように、アルゴリズを最適化するとともに、uTofuを使った高速実装を行い、結果として、3倍の高速化が可能になった」という。
今回の研究開発では、データ並列、パイプライン並列、Tensor並列の3つの分散並列学習を組み合わせており、これらのすべてにおいて、TofuインターコネクトD上での集団通信の高速化を実現。この部分を新たに開発したという。
なお、これらの成果は、今後、富岳で行われるすべての学習において活用できるとのこと。
国内には、国立研究開発法人産業技術総合研究所(産総研)が構築および運用するABCI(AI Bridging Cloud Infrastructure:AI橋渡しクラウド)があり、4352基のNVIDIA V100アクセラレータを備えた環境が用意されている。今後、NVIDIA H100 Tensor Core GPUが2000基以上採用することが明らかにされている。東工大ではこれを利用して、産総研とともに、日本語に強い大規模言語モデルとして「Swallow」を開発、公開した経緯もある。
「富岳でのプロジェクトを開始したときには、ABCIではプロジェクトで活用できる環境が用意されていなかった。今回のプロジェクトでは、富岳の政策対応枠を使用することで大規模に資源を利用することができたのが大きかった。富岳に搭載されている富士通製国産CPUによって、大規模言語モデルを学習できることを示せた。経済安全保障の観点からも重要な成果になると位置づけている。また、世界中のGPU不足が社会問題になっている点でも対応できる成果になる」とした。
今後の利用促進などへの期待について、東工大の横田教授は、「Fugaku-LLMによって、日本語や日本文化に根ざした対話などが期待される。世界に誇る富岳を活用し、日本語に特化したLLMを活用してさまざまな科学研究が行われることを期待している。AIの学習においては、NVIDIAで行う環境が整っているが、その環境を抜け出して挑戦することは大切である。富岳によって、AIに学習させ、大規模言語モデルを開発できることが実証できた。NVIDIA以外を活用するという新たな流れにつなげたい」とした。
また、会見にオンラインで参加した理化学研究所 計算科学研究センターの松岡聡センター長は、「日本にAIの技術を蓄積できた意義は大きい。マシン、ソフトウェア、アルゴリズム、データセットを、日本のなかだけで作り上げ、ハイパースケーラーでも活用できないレベルのリソースを活用し、技術スタックも確立できた。出どころがわかっているというのは、AIガバナンスにおいても大切なことである。多くの人に使ってほしい」とした。
さらに「今回は大規模言語モデルに限定した研究開発であったが、AIを活用して、サイエンスでイノベーションを起こす『AI for Science』の実現につながる根本的な技術になる。今回のAIの学習に関する技術的成果は大きく、2025年に予定している富岳の仮想空間の追加においても、この技術が活用できる。仮に2029年に、次期富岳を理化学研究所が担うのであれば、そこにも活用できるだろう。もともと富岳は大規模言語モデルの開発に向けて作られたものではないが、この分野に応用すると、技術的改善の余地があることがわかり、チューニングによって、演算速度で6倍、通信速度で3倍という高速化が図れた。次世代計算機に向けた技術力を高めることができたともいえる」と言及。
加えて、「国内の複数の研究機関や企業をまたいだ研究開発チームを確立でき、世界に比する成果をあげたことにも意味がある。単に、大規模言語モデルを開発したというだけでなく、さまざまな波及効果がある」とも述べた。
国内におけるAIの研究力向上に貢献するとともに、学術および産業の両面で、富岳の活用価値を高めるという成果が生まれたといえる。