ニュース

NEC、データの意味を推定することで高精度なデータ統合・検索を実現するAI技術「データ意味理解技術」を開発

 日本電気株式会社(以下、NEC)は5日、多種多様なデータの本質的な意味をAIで推定する「データ意味理解技術」を開発したと発表した。

 データ意味理解技術は、従来、専門家が時間をかけて行っていた分野や業種の異なる複数の表データの統合作業を、高速かつ高品質に自動化するもの。表データの構造と数値特性を含む、さまざまな単語のナレッジグラフを活用した独自の機械学習技術で、NECの最先端AI技術群「NEC the WISE」の1つとなる。

「データ意味理解技術」の特徴

 NECでは、近年、データ流通基盤や情報銀行など、データを部門間、企業間、さらには業界間で共有して統合することで、これまでにない横断的な分析を行う取り組みが活発になっていると説明。保有者の異なるデータを横断的に分析するには、表名や列名が統一されていない多様なデータを結合することが必要になるが、実際には作業者、企業、業界ごとの違いから、表名/列名には大きな表記揺れが存在するため、データ統合に膨大な時間がかかり、分析がすぐに開始できない、担当者ごとのスキルにばらつきが出て分析精度が悪化するなどの問題が顕在化していたという。

 こうした問題に対し、開発したデータ意味理解技術では、もともと付与されている表名や列名を手がかりとするのではなく、各データ列の数値分布の統計的な傾向を手がかりとする。具体的には、事前にナレッジグラフ内の各単語について、その単語と共起する数値を収集し、単語の数値分布を含む独自のナレッジグラフを構築する。

 同じ意味を持つ数値データは統計的な分布傾向が類似することから、数値データ列から数値の出現頻度の分布傾向を示す特徴量を算出し、ナレッジグラフ上の単語ごとの数値分布と比較する。これにより、たとえば、列名のないデータについても、「売上高」といった意味の推定が可能となる。

 さらに、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係をナレッジグラフ上のネットワーク距離(データの意味間の共起関係の強度)を活用して推定することで、高い精度での推定を実現する。

 たとえば、表データにおける数値データ列では、「29、24、23」など、それ単独では「年齢」や「気温」など様々な意味が当てはまるため、文字データ列と比べて正しい意味の推定はより困難となるが、同じ表データに「氏名」の項目が含まれていれば、ナレッジグラフから、「気温」データではなく、より関係性の強い「年齢」データであることを推定する。

 NECでは、開発した技術をオープンデータに適用したところ、専門家が30日かけていたデータ統合作業を、1時間で同等品質で実現することを確認したと説明。今後は技術をサプライチェーンに加え、データレイクといわれるさまざまな分野の形式の異なるデータが集まるデータベースや、データを一元管理するデータマネジメント基盤(DMP)、情報銀行やデータ流通プラットフォームなど、情報共有基盤への汎用的な活用を目指し、研究開発を進めていくとしている。