ニュース

DNP、PDFやWordなどの文書を生成AIの学習に適したデータ形式に整形する技術を開発

 大日本印刷株式会社(以下、DNP)は14日、PDFやWordなど多様なドキュメントを、生成AIの学習に適したデータ形式に整形する技術を開発したと発表した。同技術で整形したデータを生成AIが学習・参照することで、誤回答や非回答の件数を減らし、高い精度での回答を実現するとしている。

 DNPは、2023年5月に生成AIを活用できる社内環境を構築しており、今回、開発した技術を用いて、社内規定、品質マニュアル、決算短信などのドキュメントのデータを整形し、生成AIに学習・参照させて実証実験を行った。その結果、整形したデータを用いた生成AIは、従来の生成AIと比較して、誤回答を約90%削減できたという。

 この技術を活用した生成AIを利用することで、膨大なマニュアルやドキュメントを参照して業務を行う審査や、コンタクトセンターの問い合わせ対応において、高精度な回答につながり、業務効率化を実現するとしている。

整形データを学習した生成AI(右下)と学習していない生成AI(左下)との回答例の比較

 DNPは、独自の「P&I(印刷と情報)」の強みを掛け合わせ、企業・団体などの申し込み受付やコンタクトセンターなどの業務を代行するBPO事業、印刷プロセスで培った各種情報加工、文字・画像処理等の技術・ノウハウを保有している。これらの強みを生かし、生成AI向けデータ整形技術開発を開発した。

 同技術は、テキスト・画像・表組みなどが混在したドキュメントから、独自のAIモデルを使ってタイトルや本文、画像や表の内容・キャプションなどの要素ごとにコンテンツを分割し、生成AIが学習・参照しやすいデータ形式に整形する。データ整形は人手をほぼ介さずに機械処理で行うため、大量の文書も高速に処理できる。

 また、より複雑で異なるレイアウトやドキュメントに対応するためには、ドキュメントの構造を認識する継続したAIモデルの拡充が重要となるが、開発したAIモデルは、一般的なディープラーニング(深層学習)のモデルでは数百~数千ページのデータ学習が必要となるところ、数十ページのデータ学習で生成AI向けのデータを整形できる。

 DNPでは、2024年1月に、生成AIの導入や活用、生成AIに必要な学習データの加工・収集に課題を持つ企業・団体に向けて、開発した技術を提供する。また、契約書・帳票類・業務マニュアルなど、膨大なドキュメントを取り扱う自治体や金融機関に、生成AIを活用して業務のDXにつなげるサービスを開発し、企業・団体の業務改革の実現を目指すとしている。