インタビュー

ビッグデータからエンタープライズデータハブへClouderaは変わる

 11月に東京で開催されたClouderaのプライベートカンファレンス「Cloudera World 2014」に合わせ、米Clouderaのチーフ テクノロジスト、Eli Collins(イーライ コリンズ)氏が来日した。コリンズ氏は、Clouderaの創業時からのメンバーで、Hadoopの開発にも深くかかわっている。

 今回は、ここ数年Clouderaがコンセプトとして打ち出している「エンタープライズデータハブ」や、今後のHadoopに関して話を聞いた。

米Clouderaのチーフ テクノロジスト、Eli Collins。Hadoopの開発やロードマップの策定を担っている

エンタープライズデータハブとは?

――Clouderaが打ち出している「エンタープライズデータハブ」というコンセプトに関して説明していただけますか?

 ClouderaはHadoopというプラットフォームを提供することで、ビッグデータ処理をさまざまな企業で利用できるようにしてきました。しかし、ビッグデータ処理を行うためには、企業の内部にあるあるデータを取り出してきて、処理をするというものでした。このため、Webのアクセスログなど、限定された形での利用が中心でした。

 しかし、企業側からのリクエストを聞いていると、ビッグデータ処理を行うデータチャンク(塊)を別に用意するのではなく、企業が生むさまざまなデータを一括して格納することにより、さまざまな軸でビッグデータ処理をして、多様な分析を行えるようにしたい、というものがあります。

 例えば、今まではデータを一括処理できないということで、過去の販売データなどの生データは、年ごとにまとめられて、テープメディアなどでバックアップされていました。しかし、エンタープライズデータハブというコンセプトに従えば、すべての販売データをサーバーに保存することで、複数年での動向などを処理できるようになりました。数年間、数十年間の動向を分析することもできます。

 また、今後生み出される企業のデータを1カ所に集約すると、今までは無関係と思われていたデータとの関連性を見つけ出せるようにもなります。

 エンタープライズデータハブというコンセプトが成立したのは、HadoopにImpalaが追加されたことが大きな理由といえます。Impalaは、通常のRDBMSと同じようなクエリをHive(SQL向けのインターフェイス)よりも高速に実行します。HadoopのHDFSに対して、SQLベースの分散クエリエンジンとして処理が行えることで、既存のRDBMSを利用していた企業でもHadoopが使いやすくなったのです。

 また、HiveよりもImpalaは高速に処理されるため、今までのRBDMSに比べても遜色(そんしょく)ないパフォーマンスを実現しています。ImpalaはHiveに比べると単純な集計クエリが20-90倍の高速化が行われています。これなら、実環境においてHadoopでSQLクエリを利用しても問題ないパフォーマンスといえるでしょう。

 今後は、IoTの普及によりデータが爆発的に企業に集まってきます。例えば、ウェアラブル端末の普及により、個人の脈拍や運動量などを毎日取得することができるようになります。企業にとっては、こういったデータを集めることで、健康関連のビジネスを展開することができるでしょう。将来的に、医療関係の情報と組み合わせることで、医療ビッグデータを構成し、各種の医療ビジネスや健康ビジネスを、今までとは異なるレベルに引き上げることも可能になるでしょう。もちろん、医療情報ということで、高いセキュリティが必要になりますが。

 また、車のインテリジェント化(ITS)を進めれば、さまざまな自動車の運用情報(スピード、アクセル、ブレーキ、燃料)、カーナビや道路情報などが集まってきます。例えば運送会社なら、トラックの各種情報を集めることで、効率のいい運送ルートを割り出したり、長距離は大型トラックにして、近距離はハイブリッドやEVなどを使ったり、といったことも分析できると思います。

今後、ITはIoTへと移行していく。IoTになることで、多量のデータが生成されることになる(Cloudera World 2014の資料より。以下同じ)
IoTによりデータ量は、ムーアの法則よりも増えている。これを処理するためには、ビッグデータを効率より処理できるHadoopが必要になる

CDH 5.2での変更点

――現在ClouderaのHadoopは「CDH 5.2」にアップデートされていますが、5.2での特徴は何があるでしょうか?

 CDH 5.2は、CDH 5.0のようにHadoopにおいて大きな変更が行われているわけではありません。5.0では、MapReduceからYarnに変更されたことで、さまざまな分散処理フレームワークが利用しやすいようになりました。5.2では、5.0へとメジャーアップデートされた後に出てきたバグなどを、数多く修正しています。

 また5.2では、CDHの動作プラットフォームとしてUbuntu Trusty 14.0.4をサポートしています。今まではRed Hat Enterprise Linuxだけでしたが、多くのユーザーが使用しているUbuntuで動作が保証されたのは大きなことでしょう。

Cloudera Navigatorは、誰が、いつ、どのようにデータを操作したのかをビジュアル的に分かるようにするデータ監査ソフト
Cloudera Managerは、CDHクラスタを管理するためのツール。CHD 5.2ではマルチテナントをサポートしている
HBASEでは、セキュリティ面でセル単位でのACLがサポートされた

 Yarnに関しては、Fairスケジューラの改良、REST APIでのアプリケーションの送信とKillがサポートされました。

 このほか、HDFSの暗号化がサポートされたり、ImpalaがVer2.0にアップデートされたり、Apache SparkがVer1.1にアップデートされたりしています。

 また、Apache Foundationで開発が進められているメッセージングシステムのApache Kafka(カフカ)との連携も追加されています。Kafkaは、LinkedInなどで利用されており、秒間17万メッセージを処理するほど高い負荷に耐えられるメッセージングシステムです。

Yarnに関しても、いくつかの問題点が修正されている
Impalaも2.0にアップデートされたことで、さらにパフォーマンスもアップした
Sparkも1.1にアップデートされ、Kafkaとの連携も図られた。

 なおCDH 5.2の機能ということではないですが、10月にニューヨークで開催されたHadoop World 2014では、Microsoft、Red Hat、TeraDataなどとの提携を発表しています。特にMicrosoftとの提携では、パブリッククラウドのMicrosoft Azure上でCDHを提供することになりました(筆者注:Linux VM上で動作する)。また、Impalaを経由すれば、ExcelのPowerBIと連携することもできます。

 CDHをデプロイするCloudera Directorでは、オンプレミスのサーバーにCDHをデプロイするだけでなく、AWS上にもデプロイして管理することができます。将来的には、AWS以外のクラウドも対象にしていく予定です。

CHDには、オンプレミスサーバーだけでなく、クラウド(AWS)にまでデプロイするCloudera Directorが用意されている
Cloudera Searchは、マルチスレッドファセッティングや分散ピボットなどのサポートのほか、Deep Pagingのパフォーマンスが改善された

――米Intelとの提携で、どのように変わったでしょうか?

 Intelは、Clouderaに出資してもらっているスポンサーというだけでなく、さまざまなテクノロジーをCDHにもたらしてくれています。

 以前、IntelがディストリビューションしていたApache HadoopはCDHに統合されました。これにより、Intelプロセッサが持つ、ハードウェアによる暗号化機能、IO高速化機能などをCDHに取り入れることで、Intelプラットフォームにおいて、CDHが高いパフォーマンスを示すようになったと思います。

 今後も、Intelとは単なるスポンサーだけでなく、IoTが実現する社会において、ビッグデータ処理というデータセンターにおいて大きな役割を共同で担っていければと考えています。

CDH 5.2では、IntelプロセッサのAES-NI命令などを利用して、HDFSの暗号化を高速に行えるようになった

山本 雅史