富士通研、ビッグデータの分単位での活用が可能になる並列データ処理技術


富士通研究所 クラウドコンピューティング研究センター 主任研究員 槌本裕一氏

 株式会社富士通研究所は、ビッグデータと呼ばれる蓄積された大量のデータの処理において、「大量」と「即応性」を両立するインクリメンタル方式の並列分散データ処理ミドルウェアを開発したと発表した。

 データ処理は、用途により、大量のデータを一括処理するのにすぐれたバッチ方式と、即応性にすぐれたインクリメンタル(順次)方式に大別される。バッチ方式は蓄積データ全体を処理するため、処理により、数時間から数日かかる場合もあり、処理中は最新情報を活用できないという問題がある。一方、インクリメンタル方式では、到着したデータをその都度、順次処理し、分析結果を直接アップデートするため、即応性にすぐれるが、頻度が高いと処理が追いつかず破たんするという問題がある。

 インクリメンタル方式では、データを順次処理するため、ディスクへのアクセスがランダムアクセスになり、ディスクアクセスが多発する。富士通研究所では、データの到着順やそれに続く分析処理の内容により、繰り返し処理などをグループ化。ディスク上のデータの配置を想定されるデータへのアクセス順序に従って並べ変えることで、連続アクセスとなる結果、ディスクアクセスが削減できるというミドルウェアを開発した。

 新開発したミドルウェアを適用したシステムでは、徐々に遅延が増大するこれまでの単純なインクリメンタルと比べて、ディスクアクセスを10分の1に削減。データの到着が高頻度になっても、分析結果が反映されるまでに数分を維持したという。

 富士通研究所では、この技術の適用シーンとしては、お歳暮やクリスマスなど、短期間に大きな売上げを上げる商戦期のE-コマースのレコメンデーション機能や、交通渋滞の予測システムなどを想定。今後、さらなる性能向上および実証実験を進め、2013年度中の実製品・サービスへの適用を目指す。

ビッグデータ処理において、「大量」と「即応性」の両立が重要に今回開発したのは、「大量」と「即応性」を両立するシステム

バッチ方式とインクリメンタル方式インクリメンタル方式では、ディスクアクセスが多発することが処理遅延の原因となる

新規開発した技術では、連続アクセスとなるようデータを並べ変えてディスクアクセスを削減するアクセス履歴をもとに、データの最適な配置を計算し、動的に再配置する

単純なインクリメンタル方式に比べ、ディスクアクセスは10分の1に「適応的データ局所化」のデモ。500万アクセスの後は、初期状態で100%だったディスクアクセス発生率を1.8%まで減らすことができた
関連情報