ニュース
NTT、独自の大規模言語モデル「tsuzumi」を開発 2024年3月から商用サービスとして提供へ
2023年11月2日 06:00
日本電信電話株式会社(以下、NTT)は、独自の大規模言語モデル「tsuzumi」を開発。2024年3月から、NTTグループ発の商用サービスとして提供を開始する。
6億パラメータの超軽量版と、70億パラメータの軽量版を用意。軽量でありながら世界トップレベルの日本語処理性能を持つという。超軽量版はCPUで推論動作が可能であり、軽量版は1GPUでの推論動作が可能になる。
NTTの島田明社長は、「40年以上の自然言語処理技術研究のノウハウを結集したNTT版LLMである。日本語では各種ベンチマークにおいて世界トップクラスの性能を誇り、英語でもMetaのLLMと同程度の性能を実現。GPT-3と同等の高性能でありながら、少ない消費電力、少ないGPUで、高性能を発揮できるサステナビリティが特徴である。また、低コストでのチューニングが可能であり、業界や組織固有のデータに基づくカスタマイズや、頻繁な情報の最新化もできる。そして、図表などのさまざまな形式にも対応でき、国産モデルとしては初めて表が含まれる契約書や、請求書を読み込むことができる」と、NTT版LLMの完成度に自信をみせた。
NTTグループの中期経営戦略の最終年度となる2027年度に、年間1000億円以上の売り上げを目指すという。
tsuzumiの名称は、和楽器の「鼓」を由来としており、太鼓のなかでは小さいサイズであること、握る強さによって音が変化し、音色をカスタマイズしたり、チューニングしたりできること、日本の和楽器として、日本語に強いことなどが、NTT版LLMの特徴に似ているためと説明した。
Open AIのGPT-3が1750億パラメータであるのに対して、tsuzumiの超軽量版では約300分の1、軽量版では約25分の1と軽量化している。GPT-3規模のLLMと同程度の性能を25分の1のGPUコストで実現。学習データを3000億トークンとした場合の学習コストは、GPT-3では4億7000万円であるのに対して、tsuzumiの軽量版では1900万円、超軽量版では160万円に抑えられるほか、推論コストでは、GPT-3が1500万円であるのに対して、tsuzumiの軽量版では70万円、超軽量版では20万円に抑えられると試算した。
Rakudaベンチマークによる日本語性能の比較では、GPT-3.5に対する勝率は52.5%となり、ELYZAでは71.3%、Stability AIでは86.3%の勝率になったという。
また、業界特有のデータへの対応や図表読解が可能なため、AIの活用領域を広げ、コンタクトセンターや相談チャットボットなどによる顧客サポート領域での活用促進にもつながるという。
NTT 執行役員 研究企画部門長の木下真吾氏は、「なんでも知っている巨大なLLMではなく、専門知識を持ったLLMを作ることを目指したい。そのためにはパラメータサイズを抑えながら、言語学習データの質と量を徹底的に向上させるアプローチをとった」とし、事前学習には1兆以上のトークンを用い、日本語、英語に加えて、21言語およびプログラミング言語を学習。NTTが長年の研究で蓄積してきた翻訳、要約、対話、読解などの内製データを活用したインストラクションチューニングのほか、新規に作成した「有益さ」や「安全さ」に関する広範囲なチューニングデータも活用したという。
学習データはNTT横須賀研究開発センターに格納していたが、数百km離れた三鷹データセンターと、超低遅延のIOWN APNで接続。ローカル環境でLLM学習を行っているかのような環境を実現したという。
「大量のLLMを連携する基盤として、IOWNが重要となる。今後は、専門性や個性を持った小さなLLMの集合知による社会課題解決が可能になるだろう」と述べた。
また、「求める精度やコストの違いに柔軟に応えるため、プロンプトエンジニアリングやフルファインチューニング、アダプタチューニングという3つのチューニング方法を提供している。また、基盤モデルを複数アダプタで共有し、利用ユーザーやシーンに応じて、アダプタを切り替えたり、組み合わせたりすることが可能なマルチアダプタを採用している。さらに、マルチモーダルも特徴であり、言語による質問だけでなく、文書画像を提示した質問が可能になったり、質問者の様子を踏まえた回答が可能になったり、質問者の状況を踏まえた回答を可能にすることもできる。子供からの問い合わせであることを判断して、対応の仕方を変えるといった用途でも活用できる」とした。
NTTでは、2019年からAIガバナンスの方針を公表しており、「顧客のAIガバナンスをサポートし、安心してtsuzumiを利用できる環境構築を支援する」(NTTの島田社長)と述べた。
tsuzumiは、2023年10月から、NTTグループ内でのトライアルを開始しているほか、東京海上日動火災保険、キヤノン、京都大学医学部附属病院などと、活用に向けた取り組みを開始しているという。
東京海上日動火災保険では、事故対応部門において、全国1万人を超えるコンタクトセンターのオペレーターが、通話後に事故の状況などを登録する事務作業において、tsuzumiを採用。専門用語を理解したり、さまざまな観点から要約したりする機能を追加することで、年間80万時間かかっていたアフターコールワークを50%以上削減できると見込んでいる。
また京都大学医学部附属病院では、医師が記録したカルテの医療データを読解し、共通フォーマットに適切な表現で配置し、分析する作業にtsuzumiを活用。数万件規模の電子カルテデータを標準化、構造化できるようになり、革新的な医薬品開発やパーソナライズされた最適な医療の提供につなげることができると見込んでいる。
さらにNTTデータでは、ソフトウェア開発にtsuzumiを利用し、秘匿性を担保しつつ、コードの自動生成を実現。日本語の高い読解力により、要件定義や開発運用保守文書を、適切に自動生成できるという。NTTドコモでは、相談チャットボットにtsuzumiを採用。図表入りマニュアルも読み込み、網羅的に情報をカバーすることで、年間4000万件以上のコンタクトセンターへの問い合わせに対して、最適な回答を短時間に行えるという。具体的には、最適な提案まで14往復のやり取りが必要だったものが、2往復のやり取りが完結できると見込んでいる。NTT東日本においては、3500種類に渡る20万ページ以上の図表入りマニュアルをもとに回答を自動生成。サポートセンターにおける顧客の待ち時間を9割削減できると試算している。
tsuzumiは、2024年3月から法人顧客を対象に商用サービスを開始し、NTTデータやNTT東日本、NTT西日本、NTTコミュニケーションズなどのNTTグループ各社を通じて販売する予定だ。「6億パラメータのサイズであれば、スマホでも動かすことができ、AppleWatchで動作するところまでできている。小型化はtsuzumiが最も得意な分野になる」(NTTの木下執行役員)と述べた。
2024年4月以降は、子供の声などの読み込みを可能にしたり、日本語および英語以外の多言語対応も行うという。海外での需要やNTTグループのビジネス展開にあわせて優先する言語を選定していく。さらに今後は、中型版LLMとして、130億パラメータ以上の製品の投入も計画している。
さらに、コンタクトセンターシステム提供パートナーとして、AvayaおよびGenesysと連携。NTTテクノクロスのForeSight Voice Miningにより通話データをテキスト化し、tsuzumiで要約や応対できる提案や、NTTデータのKowlerにより、社内のナレッジデータをtsuzumiに効率的に学習させる提案、文書読解AIのLITRONとの組み合わせで、読解精度の向上が可能になるといったソリューションの提案も進める。
なお、NTTでは、2023年11月14日~17日に開催する「NTT R&D FORUM 2023―IOWN ACCELERATION」において、tsuzumiに関して12種類の展示を行うほか、同フォーラムでの基調講演や、研究者やパートナーによる特別セッションを通じて、具体的な取り組みや展望を紹介する予定だという。
NTTは、AI分野の論文数で世界12位、国内1位となっているほか、日本語による自然言語処理分野では、トップカンファレンスにおける採択数が世界で最も多く、機械翻訳分野の国際コンペティションでは世界1位を獲得した実績があることも強調した。