イベント

クラウドは次のフェーズへ――、「AWS re:Invent 2017」でアンディ・ジャシーCEOが示した5年間の総決算

No Blind Faith, No False Hope:データアナリティクスをより効率的に

 3つ目のカテゴリのビッグデータ/データレイクの紹介で流れた曲はフー・ファイターズの「Congregation」:ここでジャシーCEOがフィーチャーしたのは「Do you have blind faith? No false hope?(根拠なく盲信していないか? いつわりの希望を信じていないか?)」というフレーズだ。

 ビッグデータをベースにしたアナリティクスが一般化する一方で、いまだに、属人的な勘や経験に頼った判断がビジネスの重要な場面でなされることも少なくない。また、データベースと同様に、高額なDWHやBIツールがボトルネックとなり、アナリティクス環境の構築や刷新が難しく、本格的なデータアナリティクスに取り組むきっかけをつかめない企業も数多く存在していた。

 こうしたアナリティクスへの壁に対し、AWSはAmazon RedshiftやAmazon EMR(Elastic MapReduce)、Amazon Athenaなど、数多くの革新的なクラウドサービスを提供することで、データアナリティクスを身近な存在へと変えてきた。

 だが今回、ジャシーCEOが発表したのはあらたなアナリティクスのサービスではなく、S3とGlacierという、AWSの2つのオブジェクトストレージをデータレイクとしてより使いやすくするための機能強化「Amazon S3 Select」「Amazon Glacier Select」である。

 S3 SelectもGlacier Selectもその名の通り、必要なオブジェクトデータのみを標準的なSQLを使ってフィルタリング(Select)する機能だ。オブジェクト全体にアクセスする必要がなくなるため、データアクセスのパフォーマンスが最大400%と劇的に向上する。

 「これまでのオブジェクトストレージでは、一部のデータだけを使って分析したいときでも、すべてのデータを取得しなければならなかった。必要なデータだけをセレクトしてデータレイクから引き出すことで、パフォーマンスの劇的な向上と大幅なコスト削減を実現する」(ジャシーCEO)。

S3 SelectやGlacier Selectを使うことで、特定のオブジェクトデータのみに絞ったフィルタリングが可能になる。この例は、PrestoクエリをS3上でSelectのあるなしで実行したベンチマーク比較。Selectなしでは8秒、Selectありでは1.5秒という結果に

 ここで興味深いのは、ジャシーCEOがS3やGlacierを“データレイク”と呼んでいる点だ。Selectというクエリを直接実行できる機能を実装したことで、データへのピンポイントなアクセスが容易になり、S3やGlacierが単なるオブジェクトストレージからデータレイクへと進化したことをあらためて印象づけている。

 No Blind Faith, No False Hope――、かつてのような属人的な分析の時代に戻らないためにも、データレイク(congregation:母集団)としてのS3のエンハンスはこれからも期待される。

 なお、S3 Selectは現在プレビュー版で、対応リージョンはオレゴン、バージニア、シンガポール、オハイオ、アイルランドの5リージョン。近い将来、AWS SDKとPrestoに統合することが可能になる予定だ。一方Glacier Selectは東京を含む16リージョンですでにGAとなっている。