ニュース

NTT Com、生成AIやRAGの精度を高めるデータ構造化技術「rokadoc」のパブリックベータ版を公開

 NTTコミュニケーションズ株式会社(以下、NTT Com)は19日、生成AI・RAG向けデータ構造化技術である「rokadoc」のパブリックベータ版を公開した。rokadocのパブリックベータ版では、ドキュメント構造化機能を試用できる。パブリックベータ版の利用は無料。

 NTT Comでは、近年、生成AIと企業が保有する膨大なデータを組み合わせて活用する事例が増えている一方、企業が保有するデータの多くは非構造化データ(PDF、HTML、画像、各種文書など)のため、生成AIが正しく理解することができず、期待する検索・回答精度が得られないという課題があると説明。こうした課題を解決し、企業における生成AI利用時のデータ活用を促進することを目指して、図表を含む非構造化データを高精度で構造化データ(タグ付けされたテキストデータ)に変換するrokadocを開発した。

 rokadocを利用することで、システムや製品のマニュアルを元に質問に回答するチャットボットや、生成AIを用いた企業内ナレッジ検索時の回答精度向上への活用が期待できるとしている。

 rokadocは、非構造化データを生成AIに適した構造化データに変換する。ドキュメントのファイル形式は、Word、PowerPoint、Excel、PDFに対応し、変換したテキストは任意の生成AI技術(AIエージェントやRAG)と併用できる。

 また、ドキュメントには、テキストだけでなく多くの画像が含まれるが、rokadocは独自のレイアウト解析技術により、テキストや画像を高精度に区分けし、画像からは説明文(キャプション)を生成する。

 複雑な表構造にも対応し、例えば結合セルの有無や罫線の有無などによりバリエーションが多くあるが、rokadocはこれらの形式にも対応して、構造化されたテキストで表構造を出力する。

 さらに、rokadocをRAGの検索に適用することで、類似技術に比べて高い精度が確認されているという。

 NTT Comは今後、rokadocのパブリックベータ版を通じて、顧客課題やフィードバックを集めながら精度を高め、本格提供に向けた準備を進めていくと説明。また、自社開発のrokadocに加えて、パートナー企業と連携し、データ加工技術やデータマネジメント基盤、コンサルティングサービスなども組み合わせた統合ソリューションを、2025年度から提供開始し、企業における生成AIを用いたデータ活用を推進するとしている。