ニュース

日立、有効活用できていない企業内の「ダークデータ」に着目した「データ抽出ソリューション」を提供

三柳英樹

2021年6月24日 08:00

　株式会社日立製作所（以下、日立）は23日、「ダークデータ」と呼ばれる、日々の企業活動で生成・蓄積されるものの有効活用できていない膨大なデータに光をあて、新たな価値を見いだす「データ抽出ソリューション」の販売を開始した。価格は個別見積もり。

　AIを活用したOCR技術の進化により、フォーマットが定型または準定型の帳票については、高精度な読み取りや情報抽出が可能となってきた。一方で、請求書や診療明細書、有価証券報告書など非定型ドキュメントは、発行元ごとに表記や様式が異なるため、読み取り・抽出の自動化が困難なケースが多く、課題となっている。

「データ抽出ソリューション」の概要図

　データ抽出ソリューションは、日立が参画する米スタンフォード大学の企業参画プログラムで開発されたAIを中核としたダークデータ分析エンジンを活用し、請求書や診療明細書といった発行元によって様式や表記が異なる非定型ドキュメントの利活用において、取得したいデータの抽出作業を自動化・高度化する。

　人が文書を読む際に、テキストだけでなく、全体のレイアウトや単語の出現位置など視覚的な情報から文書を捉えるように、AIが表や図、テキストの座標といったドキュメント内のさまざまな特徴から文書の構造全体を解析し、非定型の多種多様なドキュメントのデータ抽出に対応する。

　例えば、日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合にも、文書の構造から同じ意味を指す単語として認識できるほか、抽出対象が複数ページにまたがるドキュメントでも、対象となる項目を抽出できる。一つの区分に対して複数の項目がひも付く1：Nの関係も正しく認識するため、複雑な表のデータ抽出にも対応する。

　また、少ない教師データからAIモデルを生成できる自動ラベリング機能により、導入時のモデル構築や、追加学習・再学習といったモデルの改修にも柔軟に対応する。少ない学習データでAIモデルを生成できる「弱教師学習技術」により、データのラベリング作業を自動化するため、モデル構築のための期間短縮やコスト削減が可能となるほか、追加学習や再学習といったモデルの継続的な改善にも柔軟に対応できる。

　これらの特徴により、企業内で蓄積する膨大なデータの中から、効率的に価値あるデータを見つけ出し、生産性向上や販売力強化、コスト削減といった企業に内在するさまざまな経営課題の解決に向けて迅速なデータ利活用を支援する。

　ソリューションは、日立の専門エンジニアが、顧客の業務で扱うドキュメントに適したモデルの構築を行うなど、業務内容に応じた最適な導入・運用のコンサルティングを行う。また、他システムとのシームレスなデータ連携を可能にするAPIにより、既存のOCRシステムや業務システムとの連携を効率化する。

　日立は今後、画像や映像、音声といった、企業が保有するダークデータ全般に対応するソリューションの実現に向け、AIの抽出機能をさらに強化し、日立のLumadaソリューションの一つとして、社会や企業におけるデータ利活用による新たな価値の創出や課題解決を支援していくとしている。