ニュース

富士通研究所、オープンデータへリンクを自動付与する技術を開発

 株式会社富士通研究所、富士通研究開発中心有限公司、Fujitsu Laboratories of Europe Limitedの3社は16日、国や企業が所有するデータと、世界中で公開されているLinked Open Data(LOD)との間で、同じ対象を表現するデータを発見し、リンクを自動的に付与する技術を開発したと発表した。2015年度中の実用化を目指すという。

 現在、学術・政府系を中心に、多種多様なデータがLODとしてインターネット上に公開されている。こうしたLODの個々のデータは、異なるWebサイトで公開されているデータに対しても、関連するのであればリンクを付けることが推奨されており、データ利用者はリンクをたどることで、複数のWebサイトを横断して目的のデータを利用できるようになっている。

 ただし、ほかのWebサイトのデータにリンクを付けようとしても、同じ対象を表しているのにデータ構造が異なっていたり、異なる表記で書かれていたりするため、単にキーワードの一致を調べるだけでは解決できないといった課題があるという。また従来は、複数のデータ公開サイトを横断して関連データを発見する手段がなかったことから、データ作成者があらかじめ知っているデータとのリンク付けを行うだけになってしまい、Web上に点在する数々のデータに対してリンクを付与することは困難だった。

 今回、3社が開発した技術を用いると、表記やデータ構造の類似性から同一となる対象を推定し、リンクを付けられるようになる。これによって、国が所有するデータをLODとして公開したり、企業が所有するデータを世界中のLODと組み合わせて利用したりできるようになるので、オープンデータの利用価値が高まるとのこと。

 具体的には、表記の類似度を利用してデータ構造の類似度を測定するほか、LOD内のデータ構造を利用して、同じ対象の異なる表記を収集。データ構造および表記の類似性をパラメーター化し、機械学習手法を用いて同一性を判定する。

開発したアルゴリズムの概要

 また、世界中で公開されているLODを収集し、一括検索するLOD活用基盤と連携することで、世界中のLODの中から同じ対象を表すデータを発見できるとのこと。これによって例えば、英語版のデータセットだけでなく、各国語版のデータセットに対しても同時にリンクを付与可能になるとした。

 なおLOD活用基盤としては、富士通研究所がアイルランドの研究機関The INSIGHT Centre for Data Analytics(旧名称:Digital Enterprise Research Institute)と共同開発したものを利用する予定で、富士通では、LODの検索サービスとして2014年1月中に公開する予定。

検索インターフェイスの表示例

石井 一志