ニュース

NTT、LLMにより視覚情報も含めて文書を読解する視覚読解技術を確立

三柳英樹

2024年4月15日 08:00

　日本電信電話株式会社（以下、NTT）は12日、大規模言語モデル（LLM）によって文書を視覚情報も含めて理解する視覚読解技術を実現したと発表した。実験において、文書画像を提示しながら、あらゆる質問への回答を行う人工知能（AI）の実現への可能性を示唆する結果が得られており、デジタルトランスフォーメーション（DX）におけるコア技術として期待されるとしている。また、同成果は、NTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されている。

　一般に扱う文書はテキストや視覚要素（アイコンや図表など）を含み、多様な種類・形式が存在する。こうした実世界の文書を読解し、理解する技術の実現は、AI分野における重要課題の一つとなっている。一方で、LLMを始めとする現在のAIは、人間の読解能力を超えるなど大きく発展してきたが、文書中のテキスト情報しか理解できない限界があった。この問題に対して、NTTではヒトの情報理解と同様に、文書を視覚情報から理解する技術として「視覚読解技術」を提唱し、同技術の実現を目指して研究開発を進めている。

テキストベース読解と視覚読解の比較

　NTTでは、これまでの視覚読解技術は、例えば請求書に関する情報抽出タスクのような任意のタスクに対して、対応できなかったと説明。目的のタスクごとに一定数のサンプルを用意して学習を行わない限り、所望のタスクで高い性能を出すことは難しい状況だったという。

　これに対して研究では、汎用な言語理解・生成能力を持つLLMをベースとして、任意のタスク用の学習を行わなくても応答できる、高い指示遂行能力を視覚読解モデルで実現することを目指した。具体的には、テキスト情報しか理解することができないLLMに対して、どのように文書画像に含まれる図表などの視覚情報をテキストと融合させてLLMに理解させるかが、研究で解決を目指した課題となる。

　研究ではLLMの高い推論能力を活用し、視覚的に文書を理解する新たな視覚読解技術を開発した。この実現に向けて研究では、1）文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発、2）多様な視覚読解タスクを対象とした指示遂行データセットの構築――を行った。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行することが可能となる。例えば、文書を検索・スクリーニングを行う業務、専門文献の読書補助など、オフィス作業や日常生活におけるヒトの認知が必要なシーンにおいて、LLMを活用することが可能となる。

LLMの推論能力を活用した視覚読解技術の概要

　研究においては、画像中の文字および位置（座標）、画像の特徴を定量的に表現した画像情報、指示テキストを同一空間上にマッピングし、LLMにつなぐ新たなアダプタ技術を開発した。学習時には、モデルパラメーターの大部分を占めるLLMや画像エンコーダのパラメーターを固定にし、アダプタのみを学習対象にすることで、パラメーター効率の良い学習を実現している。

　同技術のアダプタでは、Transformer構造を採用し、学習可能なトークンに対して、相互注意では画像特徴との関係性を捉え、自己注意では指示テキストや画像中の文字および位置情報との関係性を捉える。これにより、文書画像のマルチモーダルな特徴を、LLMにとって解釈しやすい情報として獲得できる。

文書画像をLLMに解釈できる形に変換を行うアダプタ技術の詳細

　また、文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとする12種類の視覚読解タスクを、ヒトの指示を基に遂行する世界最大規模の指示遂行データセットを構築した。

　これらの貢献により、未学習のタスクにおいても、目的タスクで学習を行った教師あり学習モデルの性能やGPT-4（テキスト入力のみ）、画像を理解できるLLMであるLLaVAなどに匹敵またはしのぐ高い性能を達成したとしている。

視覚読解における未学習タスクでのベンチマーク結果

　NTTでは、開発した技術は、視覚表現された文書を基に質問応答を行う技術やWeb検索など、産業上重要なサービスの発展に貢献すると説明。作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立を目指すとしている。