GreenplumとAsakusaで基幹系バッチ処理を高速化、EMCとノーチラスが協業

Hadoopの弱点を補うソリューション


 EMCジャパン株式会社は19日、オープンソースの分散処理技術「Apache Hadoop」と100%の互換性を有し、ビッグデータを超高速に分析処理する「Greenplum HD Enterprise Edition(Greenplum HD)」を発売した。併せて、ノーチラス・テクノロジーズ株式会社(ノーチラス)と協業。基幹バッチ処理向けHadoop活用フレームワーク「Asakusa」と「Greenplum HD」を組み合わせて、ミッションクリティカルな基幹系バッチ処理の高速化を実現する「Enterprise Hadoop開発運用ソリューション」を提供する。


Hadoopのアーキテクチャを再設計した「Greenplum HD」

EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部長の仲田聰氏

 Greenplum HDは、Apache Hadoopと100%互換性を保ちつつ、性能や可用性を強化した商用ディストリビューション。Javaベースの標準分散ファイルシステム「HDFS」をC/C++で再設計した「MapR FS」を採用し、ハードウェア限界性能に近いパフォーマンスを引き出せるよう再実装されている。

 「Java実行環境でのオーバーヘッドがどうしても生じてしまうHDFSに比べ、MapR FSは2~5倍の性能が実現する」(EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部長の仲田聰氏)という。

 肝心なのは「速さ」そのものではなく、高いパフォーマンスによってサーバーの台数を大幅に削減できる点だ。例えば、3倍の速さが実現できれば、サーバー300台の分散処理環境を100台までコストカットできる。

 MapR FSでは、「ミラーリング」「スナップショット」「分散NameNode」といった機能も追加。Hadoopの並列プログラミングモデル「MapReduce」のジョブを管理する「JobTracker」に独自のHA機能も追加した。

 「特にApache Hadoopでは、メタデータ管理用のNameNodeが単一障害点となっていたが、分散NameNodeによって耐障害性とスケーラビリティが向上している」(同氏)という。

 加えて、システム管理機能も強化。特にNFSによるファイルアクセスにも対応したことで、独自APIを用いるHDFSと比べ、データの入出力が容易に可能となっている。

アーキテクチャ設計と再実装による性能向上

単一障害点の完全な排除充実のシステム管理機能



基幹系向けには弱点だらけのHadoop

ノーチラス代表取締役副社長の神林飛志氏

 一方のAsakusaは、Hadoopで基幹バッチ処理を行うためのフレームワーク。Web系では多く採用されているHadoopだが、基幹システムへの適用を考えた場合、システムリソースの利用効率や信頼性において課題が多い。また、MapReduceでの開発そのものが非常にハードルの高いものでもある。

 これらを解消するため、開発手法と実装手法のギャップを減らし、Hadoopを知らないエンジニアでも開発できるようにしたのがAsakusaだ。特に外部連携を透過的に組み込めるのが特長で、もともと1カ所にあるデータを効率よく分散させるためのデータ転送ツールなどが用意されているという。

 それでもHadoopにはインフラまわりが脆弱で、基幹系バッチ処理への適用はなかなか難しいものだった。ノーチラス代表取締役副社長の神林飛志氏によれば、「例えば、ファイル取り回しのユーザービリティが低く、特にオペレーションミスに極端に弱かった。1つのミスでデータが全て消えてしまうこともあり、要件によっては、クラスタを2個用意しなければいけない場合もあった。エンタープライズ領域で分散処理を行うには、Greenplumが良い。正直、Apache Hadoopは怖くて使えない、というのが率直な感想」という。

Hadoopを知らないエンジニアでも開発が可能外部連携を透過的に組み込める



高速・高信頼性を備えた基幹系バッチ分散処理を実現

ミッションクリティカル基幹バッチシステムに最適な組み合わせ

 今回のGreenplum HDとの連携は、この弱点を克服するのが目的となる。両社が共同で提供する「Enterprise Hadoop開発運用ソリューション」では、AsakusaとGreenplum HDを組み合わせることで、高パフォーマンス・高信頼性を備えた基幹系バッチシステムの分散処理を実現する。機能面での優位性はもちろん、インストール、トレーニングなどのサポートをEMCジャパンから日本語で受けられる点も大きなメリットとなる。

 提供は19日より。EMCジャパンおよびノーチラスのパートナー(アクセンチュア、CTC、オージス総研、NSSolなど)から提供される。価格は個別見積り。サブスクリプション形式で、ノードあたりの利用料金というライセンス体系となり、参考価格は10ノードで5~600万円程度とのこと。

関連情報