「Greenplum」製品群で企業のビッグ・データ活用を支援する~EMCジャパン
「Greenplum Database」と「Greenplum HD」で構造化・非構造化データ双方に対応できる |
EMCジャパン株式会社は9日、Greenplum製品に関する説明会を開催し、その特徴や今後の展開を説明した。
世の中の電子化されたデータが膨大になり、これからもそれが増えていくであろうことは、誰しもが実感しているだろう。一説によると、企業が抱えるデータは10年で50倍になるといわれているが、この“ビッグ・データ”では、データベースに格納されるような構造化されたデータではなく、音声・映像に代表されるような、非構造化データが大半を占めている。
従って、この“ビッグ・データ”を活用し、企業の競争力につなげようとした場合は、構造化データと非構造化データの両方に対応する必要があるが、EMCジャパンでは、構造化データの処理をデータウェアハウス(DWH)用データベースエンジン「Greenplum Database」で、非構造化データの処理をエンタープライズ向けHadoopソリューション「Greenplum HD」で行える点に強みがあるのだという。
現在では、さまざまなDWHソリューションが市場に出ており、それ自体は決して珍しいものではなくなったが、Greenplum Databaseはいくつかの特徴により、優れた性能を提供できるのだという。例えばGreenplum Databaseでは、複数のノードで分散処理を行う“シェアードナッシング”の仕組みを採用しており、このノード(セグメントサーバー)を並列に並べることで、リニアに性能を拡張していくことができる。
反面、一般的なシェアードナッシング方式では、データロードを行う際に、データを効率よく各ノードへ振り分けることが求められるので、膨大なデータをロードしようとすると、このローディングプロセスを担当するマスターサーバーの部分がボトルネックになる、といった弱点がある。
Greenplum Databaseでも、ユーザーからのクエリの受付と結果の提供を行う目的でマスターサーバーは存在するのだが、ローディングプロセスはマスターサーバーではなく、各セグメントサーバーがデータを取り込みながら同時に振り分けを行う仕組みのため、ボトルネックが発生しにくいのだという。この部分の性能が高いということは、大きなデータの分析を行おうとした際にも、ロードの時間を短縮でき、結果としてビッグ・データの活用を促進することにもなるわけだ。
Greenplum Databaseでは、徹底した並列処理によりロード時のボトルネックが生じにくいという | ノードを拡張すればリニアに性能が伸びる |
またGreenplum Databaseはソフトウェア製品であり、動作プラットフォームとしてコモディティ化したハードウェアを利用するという点にも、大きな価値があるのだという。具体的には、セグメントサーバーやマスターサーバーには、近年性能向上の著しいx86サーバーを使える上、インターコネクトにも、やはりコモディティ化しているGigabit Ethernet(GbE)や10GbEを利用できる。
この点について、EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 テクニカル・コンサルタントの中村完氏は、「他社は、インターコネクト部分に専用の高価なハードウェアを必要としたり、パラレル処理の部分に専用のCPUを必要としたりするが、Greenplum Databaseはすべてをコモディティのハードウェアで構築することに成功している」と述べ、低価格化と性能向上の恩恵をダイレクトに得られるとした。
EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 テクニカル・コンサルタントの中村完氏 | コモディティ化したハードウェアを用いて、スケールアウトを可能にしている点が強み |
さらに、自社で構成するのが煩わしい、すぐに使いたいというユーザー向けには、アプライアンスサーバー「Greenplum DCA」での提供も行うので、企業は事情に応じて導入形態を選択できる。セグメントサーバーを16台含む1ラック構成を基本とし、最大6ラックまでの構成に対応。逆に、ハーフラックやクォーターラックでの導入も可能だ。このほかアプライアンスでは、ラックあたりの容量を最大496TBに高めた高密度モデル「Greenplum High Capacity DCA」が提供されているほか、今後はSASとの連携が可能な「SAS High-Performance Analytics on Greenplum DCA」も製品化が予定されている。
ただしEMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部の仲田聰部長によれば、アプライアンス製品の発表から日が浅いこともあり、国内でのユーザー10社のうちアプライアンスでの利用は1社にとどまっているとのこと。仲田氏はまた、「BI/DWHはROIが算出しにくい分野のため、セグメントサーバー2台からと、スモールスタートが可能な点を評価いただいている」と述べ、現状ではソフトウェアでの提供が受け入れられているとした。
ソフトウェアとアプライアンスと、2つの提供形態を用意 | アプライアンスの中でも、複数の選択肢を提供 |
一方、EMCジャパンのポートフォリオの中で、非構造化データの分析を担当するGreenplum HDは、「エンタープライズレベルで使える企業向けのHadoopソリューション」(中村氏)。Apache Hadoopと100%の互換性を保ちながらも、コードをすべてC言語で書き直すことなどにより、3~5倍のパフォーマンスを実現している。
そして、Greenplum Databaseのセグメントサーバーが持つデータロード/アンロードの仕組みを活用すれば、Greenplum HD(あるいはApache Hadoop)のデータノードとGreenplum Databaseのセグメントサーバーの間で、データ通信を直接行うことも可能。中村氏は、これらの点を踏まえて、「データベースの構造化データは直接Greenplum Databaseで、またWebコンテンツや音声などの非構造データはGreenplum HDを介して構造化した後、Greenplum Databaseを用いて高速処理できる。今すぐ使える、現実解としての使い方を提案できる」と述べ、自社のソリューションの特徴をアピールしていた。
なおGreenplum Databaseはすでに提供されているが、Greenplum HDは現在開発中で、9月までに米国で提供開始となる予定。国内での一般提供開始は、2011年末程度になる見込みで、こちらもソフトウェアのほか、アプライアンスも製品化される。
Greenplum HDの特徴 | Greenplum DatabaseとGreenplum HDの連携 |
また今回は、分析支援プラットフォーム「Greenplum Chorus」を年内にも提供開始することも明らかにした。企業内に分散する各種のデータソースを仮想的に統合し、ユーザー部門が自ら論理的なデータマートを作り出せるようにするツールで、仲田氏は「こういう切り口でデータマートやキューブが欲しいと思っても、システム部門に要求するとリードタイムがかかってしまう。しかしGreenplum Chorusを使えば、ニアリアルタイムなデータ分析が可能になる」と、その価値を説明した。
Greenplum Chorusの特徴 | EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部の仲田聰部長 |