ニュース

データの揺らぎを消す「データ研磨」で、ビッグデータをさらに有用に~NII

 情報・システム研究機構 国立情報学研究所(National Institute of Informatics:NII)は20日、定期記者会見を行い、ビッグデータの最新動向などについて説明した。

 NIIの宇野毅明教授は、「ビッグデータは、表層的な薄い解析を、数でカバーして大量に利用することで、複雑な事柄を理解するというもの。これはコンピュータが得意な部分でもあるこの対極にあるのが人間の分析。少数のサンプルを深く理解して全体を推測する」と説明。

 「ビッグデータのデータには、欠落やうそといったノイズが入っており、センサーから取得したデータにも粒度に差がある。ノイズ、不整合、初歩的、疎性、多様性という問題を持つ。これが、分析や可視化を複雑なものにしている」などと述べながら、これを解決する手法として、宇野教授が研究している「データ研磨」について紹介した。

NIIの宇野毅明教授
ビッグデータ流で見たデータ
新しいアプローチとして注目されるデータ研磨

 データ研磨とは、確実な根拠に基づいて、データの揺らぎを消すという手法であり、「ピンぼけの写真を、画像処理ソフトを利用して鮮明な画像に変えるようなものである」と比喩(ひゆ)。宇野教授も、アイデアそのものは簡単なものであると認めながらも、いくつかの課題があってこれまでにはなかった技術だと述べる。

 「データ研磨では、明らかにこうであろうという部分を変更することで、揺らぎがなくなり、大量の類似解をまとめることができるようになる。これにより、大量のデータから傾向や予測のまとまりが生まれる。しかし、データを変えてしまっていいのかという疑念が存在すること、密部分を網羅的に見つけるための計算に難しさがあった」とする。

 宇野教授の研究では、新たな計算のモデル化と、最新の高速アルゴリズムを利用することで課題を解決したという。

 ここでは、「友達」という仕組みを採用。ひとつのデータから見て、同じグループとして結ばれた点を「友達」を呼び、共通の「友達」を持つ多い人(データ)同士をつなげることで、まとまりが可視化できるというものだ。

 データ研磨の実験を行ったところ、買い物データから顧客が健康志向かどうかの予測精度では、グラフカット、ニューマンクラスタリングといった手法においても、精度が5%程度高まったとのこと。

 「データの分析においては、大域的なアプローチでは細かい構造が崩れること、近接グラフとグラフクラスタリングではある程度以上密な部分はグラスの中にある境目がつぶれ、クリークがたくさん生まれるといった課題がある。またグラフカットでは、密度や連結性にムラがあると巨大なクラスタができ、ニューマンクラスタリングでは密度にムラがあると少数の大規模クラスタと、大量の微細なクライスができあがる。これらの手法においても、データ研磨により、データの境目を明確化することで、データの中身がわかりやすくなり、認識精度があがる」とした。

 宇野教授は、列挙、データマイニング、最適化などに関するアルゴリズム理論の研究を行っており、その研究成果は、計算方法の改良による高速化などに応用。これにより、データ規模増加に対する計算時間の増加カーブを改善できるという。

 「従来は少ないデータ量だけで計算していたため、高速処理ができるコンピュータを利用した方が結果的に速かったが、2000年頃からヒトゲノム情報が関心を集めるなど、データ量が爆発的に増加しはじめたことで、類似性解析や数理的な検証結果から新たな手法を導き出して、分析することが求められている。大規模な並列コンピュータを使わずに分析することを研究している」という。

 だが、ビッグデータからの解析は難しく、そのままではわかりにくい部分があるとも語る。

 「ビッグデータは抽象化することで、分析結果などを分かりやすくできる。いわば『ビッグじゃないデータ』化することで、解決しやすくなる。利用者は、データの細部が知りたいのではなく、かたまりが作る全体像が知りたい。抽象化すると個別のデータは消えるが、解析精度は落ちない。抽象化された小さいデータとすることが大切である」。

 抽象化することで、かたまりという粒子を理解しやすくなり、関連性も理解しやすくなるという。また、効率的なデータ保存においても優位だという。

ビッグでないデータとの違い

 一方、昨今では、クラウドソーシングやディープラーニング、評判分析、匿名化といった技術がビッグデータに活用されているものの、一方で、記事などで紹介されている多くのトピックスが、ビッグデータによってどんなことに使えるのかという「出口」に焦点が当たっていることに触れた。

 「ビッグデータは価値を生むというのが一般的だ。だが、これまではビッグデータを使ってもうけ方を知りたいといったように結果を求める人が多かったのに対して、ここにきて、その仕組みや理由の方を知りたいという方向に揺り戻しが起こっている。ただ、この動きは、ビジネス現場でも、学術でもあまり気づかれていないのではないか」などと指摘。

 「ビッグデータを正しく理解するには、基礎の部分でどんな技術が出ているのか、どんな新たな使い方が出ているのかといったことを知ることの方が大切である。また、ビッグデータから、自分事として、主観的に価値を創出する人が不足している点も問題である。ただ、日本は、現場が問題解決をしていくといったように、現場の強さでは世界トップレベルにある。それを考えれば、ビッグデータの活用に関しては、本来は世界を牛耳っていてもいいはずだ。今後は、それを助ける技術開発が重要である」と提言した。

 そのための技術としては、当事者や利用者の主観や着目点をとらえ、それをデータ処理に的確に反映させる「インタラクション技術」、とらえた主観や着目点を抽象化および構造化する「モデリング技術」、現場での問題意識を広くカバーする「解析タスク」といった技術が求められるとした。

ビッグでないデータとの違い

大河原 克行