NTTとPFI、大規模データ分析基盤技術「Jubatus」を開発~OSSとして公開


 日本電信電話株式会社(以下、NTT)と株式会社プリファードインフラストラクチャー(以下、PFI)は26日、“ビッグデータ”をリアルタイムに分析処理する基盤技術「Jubatus(第1版)」を開発したと発表した。オープンソースソフト(OSS)として、10月27日より公開する。

 Jubatusは、大量データを素早く、かつ深く解析することを狙った、大規模分散リアルタイム解析フレームワーク。大量のデータを複数のサーバーに振り分け、並列かつ逐次的に処理させることで、リアルタイムの高速処理を実現している。

 また、深い解析に必要となる、高度な統計処理や機械学習を分散環境で実施するためには、複数サーバーがお互いの途中処理結果を共有する仕組みが必要となるが、これにはサーバー間通信によるボトルネックの発生リスクが伴い、通信方法を工夫しないとトータルの性能が低下するといった課題があった。

 そこでJubatusでは、複数のサーバー間で緩やかに途中処理結果を共有する「MIX処理方式」により、サーバー間での通信オーバーヘッドの削減や、安定性向上を達成したとのこと。なおこの方式は、解析処理のロジックに応じて集約計算ロジックをアレンジする「MIX計算」機能、サーバー間で途中の解析結果を答え合わせする際のデータの集め方と再分配のやり方を決める「MIXプロトコル制御」機能、サーバー障害をリカバリしたりデータがあふれる前にサーバーを追加したり、リーダーを決めたりして絶え間なくデータを処理する「メンバシップ管理」機能を組み合わせて実現している。

 加えて、共通インターフェイスの規定により、解析エンジン、解析モジュール、データストレージ方式(ローカル・分散)の柔軟な組み換えに対応。さらに、データ入力、応用解析処理、解析エンジンといったプロセス構成間のパスおよび並列実行など、柔軟で容易な定義と実行制御を可能にした。


アーキテクチャの概要Jubatusの仕組み

 適用分野としては、例として大量のSNSデータに対し、カテゴリ分け、あいまい検索、スパムフィルタリング、重要度判定などの高度な分析をリアルタイムに行うことにより、マーケティングなどに活用する「SNS分析アプリケーション」が挙げられているほか、不正検知、市場・経済・株価予測、自然災害予測、製造業の部品・材料調達予測、健康リスク予測、生命科学・自然科学上の予測技術など、広い領域での付加価値サービスの創出に貢献するとした。


SNS分析アプリケーションのイメージ
関連情報
(石井 一志)
2011/10/26 16:30