「情報分析」と「行動」を直結させるBI
Part 5:米国最新事情~先進企業はBAへと突き進む
■分散処理やインメモリー技術で大量データの分析を高速化
分析対象となるデータの増加に伴い、DWH製品はパフォーマンス向上に拍車をかけている。そこには分散処理やデータ圧縮、インメモリーやSSDの採用など、さまざまな工夫が見られる。主要なDWH関連製品の処理を高速化する仕組みを中心に特徴をまとめた。
スピーディーで的確な意思決定を支えるBIシステムを具現化するにあたって、DWHにはよりシビアな処理性能が要求されるようになってきた。しかも、分析対象のデータ量は増加の一途をたどっている。そんな状況下、DWH関連のベンダー各社は、独自の工夫で性能アップにしのぎを削っている。
■並列処理で性能向上を図るDWHアプライアンス
DWHに関し、このところ最もホットな話題の1つが、アプライアンス製品の急増だ。事前検証を済ませたハードとソフトを組み合わせて提供するというそれは、1つには短期導入を可能とするメリットをもたらした。さらに、そこには固有の技術力が結集されており、ギリギリまでチューニングされた環境を手に入れられるという側面も見逃せない。
主要なDWHアプライアンス製品を表5-1にまとめた。並列処理機構によって高速化やスケーラビリティを追求する動きは共通しつつも、そこに生かされている技術は各社各様だ。
【表5-1】主要なDWHアプライアンス一覧 |
日本オラクルの「Oracle Exadata Database Machine X2-8」は、汎用RDBをベースにしたアプライアンスだ。従来型のDWHの場合、ともするとストレージからDBサーバーにデータ転送する処理がボトルネックとなった。Exadataでは、40Gb/秒のInfinibandで接続することで帯域を確保するとともに、一部の処理をストレージ側に担わせることで転送データを削減。例えばテーブルをフル走査するような処理で効果を発揮する。さらにデータ圧縮も施すことでデータ転送に伴う性能劣化を防いでいる。
日本ネティーザの「TwinFin」は、最初からDWH用途に特化した独自のハードウェア処理機構を備えることで高速化を図っている。MPP(超並列処理)型で動作する検索ユニットに、ディスクから読み出した圧縮データの解凍や、列や行の絞り込み検索などを担う専用のFPGAを搭載するなどし、プロセサへの負担を減らすことで処理におけるボトルネックを解消する。
マイクロソフトが2011年2月に発表予定の「SQL Server Parallel Data Warehouse」は、同社が2008年に買収したDWHベンダー、データアレグロ社の技術を活かす。各ノードが専用ディスクを持つMPPの処理機構を CPUのコア単位に拡張した「ウルトラ・シェアドナッシング」と呼ぶ方式を採用。処理量に応じてI/Oやスループットが最適化され、結果的に高速化につながるとしている。
この分野では老舗と言える日本テラデータが2010年11月に発表したDWHアプライアンスは、3種のデータ圧縮機能を使い分け、ネットワークを流れるトラフィック量を減らす仕組みを備える。EMCジャパンが2010年12月に発表した「Greenplum Data Computing Appliance」は、大量のデータをロードする際、クラスタ内のすべてのサーバーでバランスを取りながら並列にロードする機能に特徴がある。