Infostand海外ITトピックス

「Hadoop」をクラウドネイティブに ビッグデータ基盤モダン化の取り組み

Hadoopのネイティブクラウド化は必須

 Open Hybrid Architecture Initiativeでは、「データがどこにあっても全く関係ないアーキテクチャを届ける」(Murthy氏)という。具体的には、ストレージの疎結合、コンピューターリソースのコンテナ化、メタデータ/ガバナンス/セキュリティのためのサービスの全層での共有――などを進める。

 製品としては、Hortonworksの「Hortonworks Data Platform(HDP)」や「Hortonworks DataFlow(HDF)」、「Hortonworks DataPlane」(ハイブリッド環境におけるセキュリティ及びガバナンス)、それにIBMのプライベートクラウドのデータ環境ソフトウェア「IBM Cloud Private for Data」、Red HatのKubernetesプラットフォーム「Red Hat OpenShift」を利用する。

 まず、DataPlaneを使ってHDPとHDFのワークロードをコンテナ化し、次にHortonworksのHadoop File Systemの拡張でオブジェクトとして保存されている情報を処理するOzoneを使ってストレージとコンピューティングの分離を進める。最後に、OpenShiftで他のビッグデータサービスのコンテナ化を進める。ここではクラスタ管理の「Apache Knox」、データガバナンスの「Apache Atlas」などが対象となるようだ。

 調査会社Ovumのアナリスト、Tony Baer氏はZDNetへの寄稿で、「Hadoopをクラウドで動かすことは現時点で可能ではあるが、これがクラウドの機能を最大活用しているプラットフォームとは言えない」と指摘する。「Hadoopをクラウドネイティブにすることは単に流行に乗ることではなく、高速化することを意味する」(Baer氏)という。

 実際、現在クラウドでHadoopを動かす際、クラスタのプロビジョニングに20分以上を要するという。ワークロードやクラスタ全体をコンテナ化することでマルチテナント対応を進めれば、Hadoopワークロードの起動にあたっての効率を改善できるはずだ。

 Datanamiは、別の課題も指摘する。「クラウド、エッジ、オンプレミスに広がるハイブリッド環境の構築、実装、保守に責任を持つ開発者、管理者、アーキテクトのガイド役となる反復可能なパターンが不足している」という点だ。

 Ovumの調べでは現在、HortonworksなどHadoop基盤からのHadoopワークロードのうち、クラウドで動いているものは約25%だという。そして、「2019年には新しいビッグデータワークロードの全てがクラウドで実装されるだろう」と予想する。