ニュース

NTTデータ、独自のIn-Database分析で従来比1000倍以上の高速データ分析に成功

 株式会社NTTデータおよび株式会社NTTデータ数理システムは27日、データウェアハウス(DWH)に蓄積される大量なデータに対して、より高速にデータ分析を行うためのIn-Database Analytics技術を共同で開発したと発表した。HPC環境で大規模ベンチマークを実施した結果、従来比1000倍以上の件数の高速データ分析に成功したという。

 この大規模ベンチマークでは、In-Database Analytics技術をSAPのDWH製品であるSAP IQに適用し、インテルの最新プロセッサ(Xeon E5 v3シリーズ)を搭載したx86サーバーの環境で、分析処理性能を測定した。具体的には、処理性能、拡張性を評価するため、SAP IQ上で実装している分析アルゴリズムのうち、K-meansを用いて56並列(1ノード)、560並列(10ノード)、1120並列(20ノード)の3構成で検証している。

 その結果、R言語などの従来の分析ツールや既存製品の処理限界量に比べ、1000倍以上のデータ件数が分析可能になり、単位時間内における処理速度も大幅に向上することを確認したとのこと。例えば1ノードで分析を実行した場合、R言語が分析できた処理件数は1000万件までだったが、この技術を用いることでその1000倍にあたる100億件以上のデータ件数を分析できるという。

 また、従来の分析で広く利用されるいくつかの既存製品と比較して、データ件数に対する高い処理性能も確認された。R言語が処理不可能な100億件のデータ件数でも1万6596秒(約4時間半)で分析できた。この性能を生かすと、地球の全人口約70億人の性別や年齢などの属性データを複数のグループに分類する分析を実行した場合、約4時間で処理を完了できることになる。

R言語を例とした1ノード時の性能比較(単位:秒)

 さらには、1000並列以上の大規模環境においても、サーバー数やコア数にあわせて性能向上する、高い性能拡張性が確認された。HPC環境においてノード数を1ノードから10ノード、20ノードに増加させた場合、SAP IQの並列分散処理に相乗して、10ノードで約5倍、20ノードで約10倍と、線形的に処理性能が向上する高いスケールアウト効果を確認したとしている。

 NTTデータとNTTデータ数理システムでは今後、大規模データを活用したPoC(Proof of Concept)をユーザー企業と進め、「BizXaaS BA」へのラインアップ化を含む、In-Database Analytics技術のソリューション化を目指す考え。また各種DWH製品にこの技術を適用し、マルチプラットフォーム対応を図るほか、NTTデータ数理システムのデータ分析プラットフォーム「Visual Analytics Platform」「Visual Mining Studio」と連携することにより、従来のデータ分析にとどまらず、ビジネスにおいて経営層が意思決定をする際の支援としても利用できるようにするとした。

 両者では、2015年度にIn-Database Analytics技術をソリューション化し、2020年度までに100億円の売り上げを目指す。

石井 一志