特別企画
データの“赤方偏移”がもたらす巨大なインパクト~Amazon Redshift担当者に聞くDWH戦略
(2012/12/11 09:15)
11月27日~29日の3日間にわたり、米国ラスベガスで開催された米Amazon Web Services(以下、AWS)初の顧客向けカンファレンス「AWS re:Invent」。ここででは、23回目となる「Amazon S3」のプライスダウンや、ビッグデータ分析のためのオーケストレーションサービス「Amazon Data Pipeline」など、AWSらしい、インパクトの大きい発表がいくつか行われた。
だが、それらに増して大きな衝撃を呼んだ発表が「Amazon Redshift」のリリースだ。クラウド上での従量課金制のデータウェアハウジングを実現するこの新サービスが、同社SVPのアンディ・ジャシー(Andy Jassy)氏から発表されたとき、会場を埋めた6000人の聴衆からは、声にならない驚きの声が上がっていた。
「従来のDWHに比べて価格は1/10、パフォーマンスは10倍」(ジャシー氏)という触れ込みも、AWSのこれまでの実績から考えれば、あながち言い過ぎではないだろう。
AWSユーザーを驚かせたのみならず、おそらく既存のDWHベンダを震撼(しんかん)させたであろうAmazon Redshift。現在はまだパブリックベータの段階(プレビューの参加はAWSのサイトから可能)であり、正式なサービスローンチは2013年中とアナウンスされている。
今回、ラスベガスのre:Invent会場において、AWSでデータベースサービス部門のバイスプレジデント兼ゼネラルマネージャを務めるラジュ・グラバニ(Raju Gulavani)氏にRedshiftについてお話を伺う機会を得たので、それを交えながらAWSのデータウェアハウジング戦略に迫ってみたい。
1TBあたり年間1000ドルの価格も「破壊的というわけではない」
Redshift発表時、最も注目されたのは「1TBあたりの年間利用金額は1000ドル」(ジャシー氏)というその価格設定だ。Redshiftでは2つのタイプのノードが用意されることになっており、ひとつは2TBのディスクと16GBのRAM、もうひとつは16TBのディスクと128GBのRAMという構成になっている。
re:Inventで発表された価格(1時間あたり)は以下のとおりだ。
・オンデマンド: 0.850ドル(2TBノード)/6.80ドル(16TBノード)
・1年契約: 0.50ドル(2TBノード)/4.00ドル(16TBノード)
・3年契約: 0.228ドル(2TBノード)/1.824ドル(16TBノード)
この価格設定は、親会社のAmazon.comで行ったテストに基づいている。Amazon.comでは「32ノード、4.2TBのRAM、1.6PBのディスク」のオンプレミス環境で年間数百万ドルをかけてデータウェアハウジングを行っていたが、これの一部をRedshift環境(16TBノード×2)に移行し、長期間にわたってテスト(200万行のデータセットと6つの非常に複雑なクエリを使った分析)を行ったところ、1時間あたり約3.65ドル、年間3万2000ドル程度のコストで済んだという。
つまり16TBの1ノードあたり約1.825ドル/時間、1万6000ドル/年という計算だ。これに基づき、Redshiftの1TBあたりの年間価格は、オンデマンドなら3723ドル、1年契約なら2190ドル、3年契約なら999ドルに設定されている。
「この価格設定はたしかに高くはない。だが思いつきで設定したわけでもなく、また当然ながら競合を意識したわけでもない。テストを繰り返し、顧客にとって妥当で、かつわれわれが利益を得られるラインがこの価格だと判断した結果にすぎない」とグラバニ氏は語る。
この発表が行われたあと、数多くのメディアで「破壊的(disruptive)な価格設定」という評が掲載されたが、グラバニ氏は「われわれは破壊的であろうとしたつもりはない。ユーザーの望む環境を提供するだけだ」と語っている。なお、Redshiftは最大100ノード/1.6PBまでシングルクラスタ内でスケール可能となっているが、この数字も自社で十分に検証を繰り返した結果から導き出されたものといえる。
また興味深いのは、同じ容量のバックアップストレージを無料で提供する点だ。例えば2TBをシングルノードで利用している場合、2TBの容量のバックアップストレージ(Amazon S3)がクラスタに含まれる。1GBあたり0.125ドル/月でバックアップストレージを追加することも可能だ。
「プライマリのデータセットのバックアップはもちろん重要だが、データウェアハウジングにおいてはそれほどまでに生データのバックアップを必要としない」というのがAWSの見解だ。
PostgreSQLはデータウェアハウジングとAWSの各種サービスとの親和性が高い
パフォーマンスとスケーラビリティの向上を図るため、データウェアハウジングに大規模なマルチノード並列処理(MPP)、そしてカラム型データベースを指向する傾向はここ数年で強まる傾向にある。
RedshiftもMPPおよびカラム型を採用しているが、注目したいのはNetezzaやGreenplumなどと同様、オープンソースのRDBMSであるPostgreSQLをベースにしているという点だ。なぜAWSはPostgreSQLを選んだのか。
グラバニ氏は「PostgreSQLは非常に成熟したソフトウェア。データウェアハウジングでの実績も多く、われわれのテクノロジとも親和性が高い。特にドライバが秀逸。既存のBIツールを何ら変更することなく、そのまま連携させることができる点も非常に重要なポイント」だと語る。
RedshiftはほかのAWSサービスとの連携を前提に設計されているが、それらとの親和性が最も高いリレーショナルデータベースがPostgreSQLだったという。
RedshiftではPostgreSQLドライバ(JDBC/ODBC)を経由してBIツールからクラスタ内のリーダーノードを操作する仕組みになっており、リーダーノードとコンピュートノードの間は10Gbpsの高速ネットワークで接続されている。
すでにJaspersoftとMicroStrategyがRedshiftへの対応を表明しており、ほかのメジャーなBIベンダもこれに倣うとみられている。
青から赤へ~データウェアハウジングをオンプレミスからクラウドへ
AWSは親会社のAmazon.comと同様、「顧客の要望に添ったサービスを提供する」ことに徹底的にこだわっている。当然ながら今回のRedshiftも例外ではない。「1、2年前から、われわれの顧客からデータウェアハウジングに対する強い要望が上がっていた。低価格で使いやすく、データのストアも生成も簡単にできる環境――これはつまり、企業規模によらずデータドリブンな意思決定を行う企業が増えていることでもあり、データを100%生かしたいという需要が増えているということ」とグラバニ氏。
こうした顧客の要望を受け、誰もが使えるデータウェアハウジングをデザインすることを決めたという。もちろん、徹底的なテストを繰り返してきたことは言うまでもない。
最初のメインターゲットは、TB級のデータ分析、それもリアルタイム分析のニーズが高まっているものの既存のDWHは高くて手が出ない、というスタートアップやSMBなどだったが、「エンタープライズからの引き合いも非常に多い」とグラバニ氏は言う。
データが重要なのはどんなサイズの企業にとっても変わらない。これまで捨てていたデータをもう捨てることなく、すべてクラウドにストアし、必要なときだけ分析する。管理者はもう、ハードウェアの管理やソフトウェアのパッチ当てやバージョンアップに悩む必要はない。そんな環境が1TBあたり年間1,000ドル、10万円弱で提供される――。
Redshiftの登場は、いままで誰も想像したことがない「データをロードして、分析する、それだけのDWH環境」がエンタープライズでも実現することを意味している。
最後になぜ”Redshift”というネーミングにしたのかをグラバニ氏に聞いてみた。Redshiftの日本語訳は”赤方偏移”、光のドップラー効果を意味している。
有名な「ハッブルの法則」にあるように、高速で離れていく光源から発せられる光のスペクトルは赤くシフトしていく(逆は青くずれる)。
「現在は、ビッグオブジェクトがオンプレミスからクラウドへとすごい速さで離れていきつつある。たくさんの分析されるべきデータがインサイドからアウトサイドへと放たれていく。その動きはまさにわれわれが描く軌道そのもの。フィジカルな環境からのターニングポイントという意味を込めてRedshiftと名付けた」――。
クラウドという宇宙の中、超高速で描かれる青から赤への鮮やかなグラデーション。Redshiftがその衝撃で遠くに追いやってしまうのは、データだけではないかもしれない。