仮想化道場

並列分散処理のフレームワークとなるHadoop 2.0

 10月頭にApache Software Foundationから、Apache HadoopのメジャーバージョンアップとなるApache Hadoop 2.2.0がリリースされた。以前からBeta版として提供されたが、やっとBetaがとれた状態になった。今回は、Hadoop 2.0の機能を紹介していこう。

複雑だったHadoopの開発状況

Apache Hadoop 1.xのバージョンの流れ。通常は、番号が高いと低い番号の機能をすべてカバーするが、Hadoop 1.xでは、いくつものブランチができ、機能が異なった(Clouderaのブログより)

 Hadoop 2.x系の機能を紹介する前に、現状のHadoopの開発状況を説明しよう。

 Hadoopは、Apache Softwareのトップレベルプロジェクトとして開発が進められており、多くの開発者や企業が開発を行っている。

 Hadoop 1.x系(以前は0.20.x系というバージョン名が付いていた)は、安定バージョンと言われているが、いくつかのブランチが存在したり、途中でバージョン番号が変わったりしたため、多少の混乱が見受けられた。

 Hadoop 2.x(以前は、0.2X系というバージョン名)系は、Hadoop 1.x系で起こったような不自然なブランチを作らないように開発者が努力を続け、やっとHadoop 2.2.0として正式リリースとなった。

 多くの企業では、ClouderaやHortonworksなどのベンダーがリリースしているディストリビューションを利用しているため、あまりApache Hadoopのバージョン名は気にしたことがないかもしれないが、ClouderaのCDH(Cloudera's Distribution Including Apache Hadoop) 4は、Hadoop 2.xベースになっている。またHortonworksのHDP(Hortonworks Data Platform)も、2.0からはHadoop 2.xベースになっている。

Hadoopのバージョンをわかりにくくしているのが、各社のディストリビューション。Clouderaでは、どのHadoopをベースにCDHを作成しているのか明らかにしている(Clouderaのブログより)
Hortonworksでも、自社のディストリビューションが、どのHadoopをベースに開発されているか明らかにされている(HortonworksのWebサイトより)

(山本 雅史)