30倍から100倍速い? 大規模DWH向け「SQL Server 2008 R2 PDW」の特徴と強みをMicrosoftに聞く


米Microsoft SQL Server, データ ウェアハウジング プリンシパル プログラム グループマネージャのマーク・ティーセン氏

 日本マイクロソフト株式会社は3月10日、日本ヒューレット・パッカード株式会社(以下、日本HP)と共同で、大規模DWH(データウェアハウス)専用アプライアンス「HP Enterprise Data Warehouse Appliance」を発表した。

 SQL Serverの最上位エディション「SQL Server 2008 R2 Parallel Data Warehouse(PDW)」と、日本HPのサーバー、ストレージを組み合わせて提供する製品で、日本マイクロソフトとしては初の、MPP(Massively Parallel Processing:超大規模並列処理)技術を採用したDWHアプライアンス製品となる。

 今回は、この製品提供の背景などを、米Microsoft SQL Server, データ ウェアハウジング プリンシパル プログラム グループマネージャのマーク・ティーセン氏(編集注:肩書きは取材当時のものです)に聞いた。

 

SQL Serverに手を加えることなく並列処理を実現

SQL Server 2008 R2 PDWを利用した、HP Enterprise Data Warehouse Appliance(製品発表会より)

――そもそもの話ですが、企業を買収してまでMicrosoftがDWH製品に力を入れるのは、どういった理由からなのでしょうか?

 ご存じのように、SQL Server 2008 R2 Parallel Data Warehouse(以下、PDW)は、買収したDATAllegroの技術を使っています。市場には複数の選択肢が存在しましたが、DATAllegroがSQL Serverにフィットすると考えたから、また、並列処理のアーキテクチャが先進的なものであると判断したから、この技術が採用されました。

 SQL Serverに手を加えることなく、並列処理を使えるということが、1つのポイントでした。PDWでは、バックエンドのエンジンとして、手を加えていないEnterprise Editionのエンジンを使っているのです。これがPDWの価値といえるでしょう。

 なぜなら、SQL Serverの開発チームはこれまで通りの開発を続けられますし、PDWのチームもそれは同じだからです。

――そのDATAllegroを買収してから、Microsoftとしての製品のリリースまで2年あまりを要しています。なぜ、それほど時間がかかってしまったのでしょう?

 それは、異なるOS、異なるデータベースへの対応に、かなりのエンジニアリソースが必要だった、ということが挙げられます。

 Microsoftにとっては、当社のクオリティレベルを維持することが重要でした。スタートアップ企業だったDATAllegroと比較して、このレベルの企業では、クオリティに投資できる額がまったく違うのです。そこからも推測していただけるのではないでしょうか。

――買収後のビジネスの広がりは、以前と比べてはどうなのでしょう?

 DATAllegro時代と比べて、たくさんのお客さまにリーチできるようになりました。

 一方Microsoftとしても、PDWによって、より完全なスケールアウト型のソリューションを手に入れられたことは大きいのです。これによって、500TBを超えるDWHまでを構築できるようになりました。

 (SQL Serverを提供していた)Microsoftにとっての最後に残された部分は、エンタープライズクラスのエンドトゥエンドのソリューションを提供できるかどうか、という点でした。PDWがラインアップに加わったSQL Serverでは、ETLからDWH、そしてデスクトップで利用できるBIまでがそろったのです。

 

性能が確実にスケール、ハードウェアを選択できる強みも

――他社と異なる、PDWならではの特徴は何でしょう。

 真に、MPPに対応したソリューションであるということです。計算によって、どのくらいのパフォーマンスを出せるかということを提示可能なアーキテクチャであること、きちんと拡張していける(スケールアウトの)アーキテクチャであることですね。また、ミッションクリティカル用途で求められるサポートも含め、エンタープライズ向けのソリューションであるということも特徴です。

 また、ハードウェアに関しても選択可能である、という点が大きいのではないでしょうか。日本では、日本HPからの提供ですが、欧州ではHP以外にBULLからも提供されますし、それ以外のパートナーについても、選択可能にしていきます。

 それ以外では、エンタープライズDWHを配置する上での大規模なデータマートとして、あるいは分散型DWHの一部としても使っていただける、柔軟性のあるデプロイも可能なのです。分散したSMP(Shared Memory Parallel)の環境として、複数束ねて利用していただけるのですね。

 またMicrosoftとしては、DWHを提供するだけでなく、エンドトゥエンドのソリューションを提供できるのが差別化要因だと思っています。TCOでは当社がリーダーですし、DWHについても、またメンテナンスについても価値を提供できます。

――では、そのスケールアウト型のアプライアンスを導入しているのは、どんな企業なのでしょうか?

 IDCの調査によれば、もともと、当社はユニット数でナンバーワンのDWH企業なのです。ただ、スモールからミディアムサイズのお客さまが多かったのですが、PDWを利用することで、より大規模なユーザーに提案を行えるようになりました。

 小規模なDWHのユーザー数と比べると、大規模なユーザーの数は限られていますが、小規模から超大規模のお客さまにDWHを提供できるのは、当社のビジョンにとってはとても大事なことでした。先ほどもお話した通り、同一の技術でインテグレートできるということは、重要な価値なのです。

 かつても、ある程度のお客さまには大規模環境でも利用していただいていましたが、ただし、いつもスケーラビリティが問題とされてきました。しかし、PDWによってスケールアウトが可能になります。

 お客さまの使うデータは、どんどん大きくなっています。そして、データソースも多様になっていますし、それぞれのサイズも大きくなっています。データをロードしたい、検索したいというニーズも大きくなっています。そういったところでは、スケールアップだけでは1台で対応できる容量に限界が出るのですが、PDWでスケールアウトに対応したことにより、提案がしやすくなってきました。

――具体的な企業としては、どういったところで導入が始まっているのでしょうか?

 TAPプログラムも展開していて、いくつかのお客さまで検証されていましたが、具体的にはいえません。ただ、流通、ハイテク製造行、テレコム、金融、Web系企業の分析など、とても大きなボリュームのデータを持つ企業が対象になるでしょうね。

 ただ、データ量はPDWを選ぶ上での1つの要素でしかありません。ワークロード、同時実効性、クエリ処理、リアルタイムあるいはそれに近いロードなのか、ユーザーに対してパフォーマンスのSLAを保証するか、などといった観点から、選ぶことになるでしょう。

 ですから、48TBまでならSQL Server Fast Track Data Warehouseでも対応はできるのですが、40TB以下でもPDWを使うことはあるのではないでしょうか。お客さまの要件によっては、20TBであってもPDWの方がいいかもしれませんから、そうしたニーズに対して、どちらが適切なのかを見極め、お客さまを支援していきます。

 具体的には、プリセールスの部隊による支援のほか、無償アセスメントも提供しますし、PoC(Proof of Concept)の支援もします。日本では、大手町に機材を用意しています。

 

30倍から100倍速い?

――パフォーマンスに関して、顧客が参考になるような定量的な指標は提示できるのですか?

 SQL Serverのほかのエディションと比べた場合、PDWはMPPのアーキテクチャですから、分散実行をします。10サーバーでの実行なら、1サーバーでの実行と比較すれば10倍は単純に速くなりますね。

 分散して書き込むのでロードの処理も速くなるし、処理を分散してやるので、複数のユーザーが多数のSQLを走らせたとしても速くなる。大規模なシステムであるにもかかわらず、シングルポイントの管理を行うので管理も楽になります。

 厳密ないい方ではありませんが、TAP(Technology Adoption Program:早期導入プログラム)の中では、(それまで使っていたものよりも)30倍から100倍速いという結果が出ているのです。

関連情報