ニュース

NTT、大規模言語モデル「tsuzumi 2」の新モデルを発表――図表入り日本語文書の理解性能を強化

 NTT株式会社は19日、同社が開発する大規模言語モデル(LLM)「tsuzumi 2」のアップデート版となるVisionモデルを発表した。

tsuzumi 2 Visionモデル

 NTTでは、2023年11月に独自LLMの「tsuzumi」を公開。2025年10月にtsuzumi 2を提供開始しており、今回のアップデートでは視覚理解機能を強化している。

tsuzumiアップデート

 NTT サービスイノベーション総合研究所 人間情報研究所 上席特別研究員の西田京介氏は、「NTTグループはAIビジネスにおいて、アプリケーションからインフラまで一貫して提供する方針だ。その中に大規模言語モデルも含まれている。研究開発にあたっては、顧客からの要望を基盤モデルの開発に活かし、業界特化のチューニングを施してソリューションに組み込んでいる」と話す。

NTT サービスイノベーション総合研究所 人間情報研究所 上席特別研究員 西田京介氏

 tsuzumi 2は、1つのGPU(約40GBメモリ)で動作可能な軽量モデルでありながら、高い日本語の指示遂行能力を持つ点が特徴だ。利用形態はオンプレミスやプライベートクラウドが中心で、「機微情報を扱う業務のDXに活用されている」(西田氏)という。

tsuzumi 2について

 企業内では文書の電子化が進む一方、内容のデータベース化は依然として不十分で、文字と図表が混在する文書が多いと西田氏は指摘する。こうした背景を踏まえ、NTTは文書内の情報を視覚的に理解する能力の強化に注力。図表を含むビジネス文書をLLMで理解することを目指してきた。

 今回発表されたtsuzumi 2のVisionモデルでは、従来の高い日本語処理能力に加え、文字・図表の理解力をアダプター方式で拡張。これにより、図表付きの日本語ビジネス文書に対して高い理解性能を発揮できるようになった。

 NTT サービスイノベーション総合研究所 人間情報研究所 主任研究員の長谷川拓氏は、Visionモデルが同等サイズの最新オープンモデルや数倍規模のGPTシリーズなどと比較しても遜色ない能力を備えていると強調。

 「特に図表入りドキュメントやスライド、グラフ・チャートなどの理解能力において、競合モデルと同等レベルのスコアを記録している」と説明する。

tsuzumi 2 Visionモデルのベンチマークスコア
NTT サービスイノベーション総合研究所 人間情報研究所 主任研究員 長谷川拓氏

 具体的な活用例として長谷川氏は、まず社内資料への索引付与を紹介。tsuzumi 2に図表入りの資料を渡して概要と見た目を文章で解説してもらい、タグ付けまで実施することで、資料をデータベース化し、検索性を向上させることが可能になるという。

社内資料への索引付与

 また、業務問い合わせのような場面では、機器のエラー表示の内容とフローチャート画像をtsuzumi 2に渡し、何をすればいいか尋ねるだけで、tsuzumi 2が図を読み取って該当する手順にたどり着き、具体的な対応案を提案できるという。

業務問い合わせ支援

 このように、今回のアップデートは視覚理解機能の強化が中心だが、「テキスト処理能力の改善にも継続的に取り組んでいる」と西田氏は述べ、日本語の知識、解析、指示遂行、安全性の各面で、オープンモデルと同等または上回る性能を維持しているとした。また、数値情報の理解・計算能力や、外部ツールの呼び出しといった論理的な処理能力も強化したという。

 なお、新モデルは、NTTグループ各社を通じて順次サービスの提供を開始する。