富士通研究所、業界初となるビッグデータ処理技術を開発
大量蓄積データとストリームデータの双方に対応
今回の発表の位置付け |
富士通株式会社および株式会社富士通研究所は19日、業界初となる、ビッグデータ向け高速データ処理技術を開発したと発表した。
今回開発した技術は、大量に蓄積されたデータにも、リアルタイムに流れるデータにも対応した形で、高速に処理するストリーム集計技術で、2013年度中を目標に、富士通のBigData PlatformやBigData Middleware製品への搭載を予定しているという。
ビッグデータの集計処理においては、取引データなどを定期的にまとめて一括処理を行うような「大量バッチ処理」と、値動きなどに基づいて株取引をリアルタイムに行うといった際に活用する「ストリームデータ処理」があるが、集計頻度や更新頻度の違いなど、それぞれに重視する性能が異なるため、用途に応じて処理技術を使い分ける必要があった。
「大量バッチ処理」では、並列分散処理によりスループットが重視され、数週間から数カ月単位での集計期間が対象となるが、蓄積されたデータを大量に扱うため、処理のたびにすべてを読み直す必要が生じ、演算結果を得るまでの遅延時間が長いという問題があった。
これに対して「ストリーム処理」では、数分から数秒単位での処理を行い、更新期間も同様の単位となるので、時々刻々と流れるデータを“ウインドウ”と呼ばれるバッファに保持する仕組みとなっている。処理のたびに読み直しは発生しないが、演算の種類によっては、演算結果を得るために、複合イベント処理によりウインドウ内のすべてのデータにアクセスする必要があり、ウインドウの長さに比例して1回あたりの演算時間が長くなり、レスポンスが悪くなるという課題があった。
新技術開発の背景 | 開発の動機と目的 | 新技術によって解決される技術課題 |
新技術の概要 |
今回、開発した技術は、入力されるストリームデータの中から必要な項目を無駄なく取り出す「高速パターン照合技術」と、データの読み直しや演算のやり直しを一切行うことなく、演算結果を高速に返す「演算スナップショット管理技術」の組み合わせによって実現。これにより、集計期間が長く更新頻度が多い場合にも、従来に比べて高速データ処理を可能にするという。
同社では、集計期間に50万件のデータがある場合、オープンソースの代表的な複合イベント処理エンジンに比べて、約100倍以上の高速データ処理を達成。さらに、ウインドウ長によらずにレスポンス時間が一定であることを確認したという。
高速パターン照合技術では、パターン照合により取り出すべき項目の出現位置を特定し、不要な項目を読み飛ばし、必要な項目だけを取り出す「オートマトン」と呼ばれる手法を採用することで、高速処理を実現した。従来型の、入力データの構造解析を行ってメモリ上にデータの全項目を蓄積し、その後に項目抽出処理を行うといった仕組みに比べて、大幅に高速化できる。
パターン照合は、CSVなどの定型データに加えて、非定型データにも対応しているという。
また、演算スナップショット管理技術では、あらかじめ決められた手順に従って、ソートなどに必要な演算を行いながらデータを保持し、集計結果をすぐに取り出せるように、常に演算された状態で管理しているため、合計値や平均値だけでなく、最小値、最大値、中間値もそのまま算出でき、集計期間に依存しない高速なレスポンスを実現できるという。
富士通研究所 ソフトウェアシステム研究所 インテリジェントテクノロジ研究部の稲越宏弥主任研究員は、「ハッシュ関数に基づきランダムに値を配置する方法では、ソート機能に課題があり、また、名前に基づき枝をたどった先に値を配置するツリー型では、大量のメモリが必要なため、検索にも時間がかかる。この双方の課題を解決し、利点のみを備えたのが演算スナップショット技術。ツリー型と同等の情報を保持しつつ、省メモリで、高速処理が実現できる」とその特徴を説明した。
高速パターン照合技術 | 演算スナップショット管理技術 |
同社によれば、この技術を活用して、高精度センサーデータへの活用が期待できるとのこと。例えば気象分野においては、これまで困難であった集中豪雨の詳細なエリア表示が可能になり、今後の予報に役立てるなど、長期間データにおけるリアルタイム処理が不可欠な、新たな事業領域への展開が図れるとしている。
実際に、国土交通省 水管理・国土保全局から提供を受けたXRAINのデータを活用。250メートル×250メートルによる関西地区の50万メッシュもの雨量データから、5分ごとに1億レコードのウインドウを処理し、雨域の移動を再現できることが確認できたという。
「3時間ごとの集計では浮き彫りにできなかった細かい雨域移動を確認でき、災害警戒地域を即座に検出することができる。想定外ということが起こりにくくなる」(稲越氏)。
長期・広域な積算雨量の集計に利用できるという | 粗いメッシュと密なメッシュの同時集計が可能 |
また、小売業などにおいては、売り上げデータ集計のリアルタイム性を向上させることで、無駄が少ない生産管理や在庫管理、複数の店舗をまたがる分析など、業務や管理を強化できるとのこと。
稲越氏はこれについて、「大量バッチ処理では、集計期間を長く保ったまま、更新頻度をあげることが可能であり、ストリームデータ処理では、更新頻度を高く保ったまま、集計期間をあげることができる。集計パラメータに影響されない安定したレスポンスを達成し、さらに難易度の高い集計演算を実現できる」と述べた。
POSデータのリアルタイム性を向上できる | 富士通研究所 ソフトウェアシステム研究所 インテリジェントテクノロジ研究部の稲越宏弥主任研究員 |