デルが手がけるオブジェクトベース・ストレージ「Dell DX6000」【後編】


 近年、急増するデータの内訳を見ると、そのほとんどは動画や画像、音声などの非構造化データであり、しかも作成されたらほとんどアクセスされずにひたすら蓄積されている。「Dell DX6000シリーズ」は、このようなタイプのデジタルデータを保管する目的で登場したオブジェクトストレージ・ソリューションである。

 今回は、デル株式会社 グローバルSMB本部 エンタープライズテクノロジストの桂島 航氏に、Dell DX6000シリーズの仕組みや魅力をお聞きした。後編では、Dell DX6000シリーズのデータ保護機構、クラウドストレージを意識した新機能、ソフトウェアベンダー(ISV)とのパートナー関係などについて取り上げる。

Dell DX6000シリーズデル株式会社 グローバルSMB本部 エンタープライズテクノロジストの桂島航氏

 

オブジェクトの複製ポリシーをメタデータ内にきめ細かく指定可能

 Dell DX6000シリーズは、異なるノード間でオブジェクトの複製を持ち合うことによりデータ全体の保護を行っている。こうしたオブジェクトの複製ポリシーは、オブジェクトごとに付与されるメタデータの中で指定される。

 ここでは、レプリカ(複製されたオブジェクト)の個数とそのレプリカを保持する期限を何パターンにもわたってきめ細かく指定できる。通常、データの重要度は時間の経過とともに低下していくので、時間がたつにつれてレプリカの数を減らしていくといった制御が一般的である。

 オブジェクトのレプリカを持たせるノードは、ノードごとのディスク使用量やアクセス負荷の状況を見ながらシステム自身が自動的に選定する。なお、Dell DX6000シリーズでは、オブジェクトを書き込んだときの応答タイミングも設定可能だ。例えば、応答性能を高めるためにレプリカを1個作成したタイミングで返すこともできれば、信頼性を高めるためにすべてのレプリカを書き終えてから返すこともできる。

 さらに、地理的に離れたクラスタ間のレプリケーションにも対応する。ただし、これは同一クラスタ内のノード間で行われる複製とは異なり、あるクラスタから別のクラスタにオブジェクトを「配信」することでレプリケーションが実行される。

 このようなクラスタ間でのレプリケーションを必要とするケースは、本社から十分離れた場所にバックアップ用クラスタを構成し、災害対策(ディザスタリカバリ)環境を構成する場合や、本社、支社、海外拠点、パートナー企業の間で大量のデータを共有する場合などが挙げられる。

 Dell DX6000シリーズでは、データの配信方式として、一対一のサイト間で複製(1:1)、1カ所から複数個所への配信(1:M)、複数個所のオブジェクトを1カ所に集約(M:1)、複数個所から複数個所への配信(M:M)など、さまざまなパターンを選択できる。


Dell DX6000シリーズでは、クラスタ内のノード間でデータを複製するだけでなく、地理的に離れた別のクラスタにデータを配信し、クラスタ間でデータのレプリケーションを実行することもできる(出典:デル株式会社、以下同様)

 

物理的に離れたクラスタ間でデータ一貫性を保証する同期レプリケーション

 オブジェクトごとの配信ポリシーは、ユーザーが定義したカスタムメタデータ上で定義される。Dell DX6000シリーズは、カスタムメタデータの中からオブジェクトの配信ポリシーを引き出し、ファイルの種類やサイズ、所有者、優先度など、さまざまな条件に基づいてサイト間のレプリケーションを実行する。

 そして、特に重要なデータを配信する場合には、同期レプリケーションが効果を発揮する。同期レプリケーションは、データを書き込んだときにオリジナルとレプリケーション先のレプリカが両方書き込まれてから応答を返す機能で、物理的に離れたクラスタ間でデータの一貫性を保証するものだ。

 なお、オブジェクトストレージは、その優れたスケーラビリティを生かし、大陸をまたがった大規模なクラスタを構成することも可能だ。このようなケースでは、地震や台風、竜巻などによる自然災害の発生傾向、さらには地政学的なリスクを考慮するために、オブジェクトごとに東京、アメリカ、ヨーロッパなど、レプリケーション先となる物理的な場所を明示的に指定できたほうが便利である。

 桂島氏は、これに対し「Dell DX6000シリーズだけでレプリケーション先の明示的な指定を行うことはできませんが、カスタムメタデータを活用し、アプリケーションのレイヤでレプリケーション先の場所を指定する仕組みを作り込むことで対応できます。将来的には、Dell DX6000シリーズ側でレプリケーション先の振り分けを支援できるようなインターフェイスを追加すべきだろうと考えています」と説明する。


Dell DX6000シリーズは、データを書き込んだときにオリジナルとレプリケーション先のレプリカが両方書き込まれてから応答を返す「同期レプリケーション」をサポートする

 

ハードウェアレベルでデータ改ざん防止を実現するImmutable Object

 オブジェクトストレージの適用分野として最もオーソドックスなのが、長期にわたって大量のデータを保管するアーカイブストレージである。業界によってはさまざまな法律に縛られることがあり、データ保持期限のきめ細かな制御、データの改ざんや消去の防止など、各種コンプライアンスに対応できる体制作りが欠かせない。

 Dell DX6000シリーズでは、メタデータ上でデータ更新や保持期限に関するポリシーを設定できる。データとメタデータの両方に対して更新可能かどうかを指定できるほか、削除不可、削除可能、自動削除という3つのレベルを期限ごとに区切って設定可能だ。

 自動削除は、設定した期限を過ぎたらストレージ自身が当該のオブジェクトを自動的に削除する機能である。これは、個人情報保護法などへの対策に応用できる。例えば、「サービス終了後、何カ月以内に個人情報を削除する」というサービス運営ポリシーを公言している場合、Dell DX6000シリーズ上で保持期限を設定しておけば確実に削除される。

 逆に、データの改ざんや削除を徹底的に防止するには、Dell DX6000シリーズが提供するハードウェアレベルの改ざん防止機能が役立つ。ここでは、オブジェクトの種類としてImmutable Objectを選択することで、データもメタデータも作成後に一切変更や削除ができなくなる。

 なお、メタデータ上で削除不可、削除可能、自動削除といったアクセス制御を行える通常のオブジェクトは、Mutable Objectと呼ばれる。法規制への対応レベルや社内のセキュリティポリシーに応じて、MutableとImmutableを使い分ければよい。

 

ハッシュの活用によってデータエラーを徹底的に検出・修復

 アーカイブストレージでは、長期間の保管においてデータの整合性が確実に保たれることも重要だ。Dell DX6000シリーズには、データの書き込みから長期間の保管に至るまで、さまざまな段階でデータの整合性チェックが実行される。

 まず、データを書き込む際には、アプリケーション側であらかじめ計算されたハッシュを一緒に送り込み、CSN上でハッシュに基づく検証が完了した段階でデータを書き込むという手順がとられる。さらに、書き込んだデータを再度読み出し、ハッシュを再計算してオリジナルのハッシュと比較してデータの整合性を保証する。

 通常、Ethernetを利用したデータ通信では、TCP/IPによるパケットの配信機構を信用し、インターコネクト上でデータエラーが起こらないことを緩く保証している。これに対し、Dell DX6000シリーズは、強度の高いハッシュアルゴリズムを利用することで、アプリケーションからストレージにデータを書き込む最中に起こりうるデータエラーを徹底的に排除している。

 そして、データを正常に書き込んだ後でも、長期にわたって保管している間に、非常に低い確率ながらデータエラーが発生する可能性が考えられる。これに対し、Dell DX6000シリーズは、定期的にハッシュを再計算してデータエラーを検出・修復することにより、保持期間の長さにかかわらずデータの整合性を確実に保証している。

 世の中にはハッシュアルゴリズムとしていくつかの選択肢があるが、Dell DX6000シリーズはMD5やSHA-1に加え、SHA-256、SHA-384、SHA-512など、かなり強固なアルゴリズムも選択できる。また、オブジェクトの作成後であっても、ハッシュアルゴリズムの変更をサポートしている。

 桂島氏は、「コンピュータの処理性能が飛躍的に向上したことで、これまで強固だと思われていたハッシュアルゴリズムがクラックされたりしています。例えば、MD5は衝突攻撃にさらされたときの脆弱性が報告されています。Dell DX6000シリーズなら、ハッシュアルゴリズムを強度の高いものへと乗り換えていけますので、長期にわたってデータの安全性を保証できるのです」と補足する。

 アーカイブストレージのアクセスパターンは、一度書き込んだら低い頻度でアクセスが発生するWORO(Write Once Read Occasionally)に分類される。このため、Dell DX6000シリーズは、一定時間アクセスがないノードのHDD群をスピンダウンさせることで、消費電力を最小限に抑えている。

 ただし、長時間電源を落としていると、HDDが再起動できなくなったり、再起動の際にデータエラーが発生する可能性も考えられる。このため、スピンダウンから一定時間が経過すると、再びスピンアップしてデータ検証を実行する仕組みを備えている。

 デルの第11世代の最新サーバー製品は、消費電力の上限値を設定するパワーキャッピングをサポートしている。Dell DX6000シリーズも同世代のサーバープラットフォームを採用しているため、クラスタを構成する各ノードでもパワーキャッピングに対応する。


Dell DX6000シリーズは、データの長期アーカイブに適した機能を豊富に備えている。ハッシュアルゴリズムの活用によってデータの整合性を維持する機能や、電力消費を最小限に抑えるパワーマネジメント機能がその代表例である

 

クラウドストレージに適した新しいネームスペース「Named Object」

 オブジェクトストレージの適用分野は、少しずつ広がってきている。その中でも特に有望視されているのが、クラウド形式でストレージサービスを提供するクラウドストレージである。例えば、Amazon Simple Storage Service(Amazon S3)のようなものがクラウドストレージサービスの代表例といえる。

 Dell DX6000シリーズは、クラウドストレージでの利用を意識し、Named Objectと呼ばれる新しいIDを用意している。システムが自己生成する128ビットのUUIDと異なり、ユーザー自身がバケツやオブジェクトの名前を付与できる。また、Amazon S3と同様に、バケツは階層構造をとらず、あくまでも横一列に並ぶ形となる。

 例えば、HTTP経由で「dx-cluster1.dell.com」というクラスタロケーション上にある、「Photo-storage」というバケツ配下の「Scene1-photo」というオブジェクトにアクセスする場合には、「http://dx-cluster1.example.com/Photo-storage/Scene1-photo」と指定する形となる。

 桂島氏は、Named Objectのメリットを「従来のオブジェクトストレージでAmazon S3のようなサービスを実現するには、ユーザーインターフェイスをアプリケーション側で作り込まなければなりません。しかし、ストレージ側にNamed Objectのようなネームスペースがあれば、サービスの開発が圧倒的に楽になります。近年、ホスティングサービスの延長線としてクラウドストレージのサービスも続々と登場していますが、Named Objectは、こうしたサービスを早く、安く、スケーラブルに立ち上げるのに役立ちます」と説明する。

 Dell DX6000シリーズは、クラウドストレージを意識した機能としてマルチテナント機能にも対応する。これは、クラスタを複数のテナントでセキュアに共有するための仕組みを提供するものだ。

 セキュリティ(アクセス権限)やネームスペースをテナントごとに管理でき、テナントの管理者から見ればクラスタを自分だけが占有しているように扱える。マルチテナント機能は、複数のユーザーやアプリケーションが共通のクラウドストレージ基盤に相乗りするような、どちらかといえば大規模のクラウドストレージサービスで威力を発揮する。

 なお、Named Objectでは、データの変更が可能なMutableのみをサポートする。クラウドストレージのような用途では、ユーザーからのデータ更新や削除を行うケースが多く、Mutableのみのサポートで実用上の問題はない。どうしてもImmutableを使用したいときには、ネームスペースとしてUUIDを採用し、アプリケーション側でクラウドストレージライクなインターフェイスを作り込むことになる。


オブジェクトストレージで広く採用されているIDはUUIDだが、Dell DX6000シリーズはクラウドストレージに適したNamed Objectも用意している。なお、Named ObjectではMutableのみがサポートされる規模の大きなクラウドストレージサービスを提供するときには、ユーザーごとのセキュアなテナント分離が可能なマルチテナント管理機能が役立つ

 

アプリケーションとの統合をサポートするDX6000向けSDKを提供

 前述のとおり、Dell DX6000シリーズとのやり取りにはHTTPのサブセットであるSCSPが使用される。Web 2.0アプリケーションでは、HTTP経由で素直にアクセスすればよいが、それ以外のアプリケーションでは、SCSP経由でデータとメタデータを適切に取り扱えるようにソフトウェアを開発する必要がある。

 Dell DX6000シリーズでは、Java、Python、C++、C#に対するソフトウェア開発キット(SDK)を用意している。ソフトウェアベンダーやエンドユーザーは、このSDKを利用することで、ECM(Enterprise Content Management)、E-Mailアーカイブ、医療分野向けのPACS(Picture Archiving and Communication Systems)など、さまざまなアプリケーションにおいてDell DX6000シリーズとの統合が実現される。

 米国では、すでにDell DX6000シリーズをサポートするISVパートナーも数を増やしている。例えば、ヘルスケアやライフサイエンスの分野ではAcuo Technologies、BridgeHead Software、TeraMedica、ファイルやE-Mailアーカイブの分野ではCommVault、Symantec、Iron Mountain(旧Minosa Systems)、STEALTH Software、ECMの分野ではStoreIQなどが挙げられる。

 桂島氏は、日本市場での取り組みに関して「欧米と日本では、お客さまが使っているソフトウェアもかなり異なっていますので、日本サイドでは日本の顧客に強いベンダーと積極的に提携を進めていきます。また、アーカイブストレージの分野だけでなく、クラウドストレージの分野でもパートナー関係を強化していきます」と説明する。


Dell DX6000シリーズへのアクセス方法は、SCSP(RESTful HTTP)経由、将来予定しているゲートウェイ製品を介したNFSやCIFS経由などさまざまな形がとれる。専用のSDKを活用することにより、アプリケーションとの統合も可能だ

 

自社のハードウェアと社外の魅力的なソフトウェアを組み合わせる

 Dell DX6000シリーズでオブジェクトストレージの機能を提供するソフトウェアは、Linuxベースで動作している。デルは、ソフトウェアの供給元をプレスリリースで開示していないばかりか、筆者の取材でも明かすことはなかった。たぶん、桂島氏はのど元まで出かかっていたはずだが、広報の目を気にしてぐっとこらえていたに違いない。

 しかし、このソフトウェアがCaringoのCAStorであることは、業界の関係者であればだいたい知っている。CaringoのWebサイト には、OEMパートナーとしてデルが記載されており、Dell DX オブジェクトストレージプラットフォームで採用されていることも明記されている。また、米デルのWebサイトで公開されているDell DX6000シリーズの技術資料には、表紙に「Powered by Caringo」と書かれていたりする。

 デル(実際のところはデル株式会社)がソフトウェアの供給元を意図的に伏せる理由はあえてせんさくしないでおくが、筆者個人としてはソフトウェアを外部から調達するビジネスモデルも十分に「価値がある」と思っている。

 通常、ユニークなストレージ技術を持つベンダーは、ソフトウェア(ストレージOSやそれと連携して動作するさまざまなインテリジェンス)こそが「命」であり、ハードウェアは大手サーバーベンダーのOEM部門などから外部調達するケースが一般的だ。

 一方、デルはハードウェアの開発・製造でここまで成長してきた企業なので、自社のハードウェアに高いバリューを持たせ、そこに魅力あるソフトウェアを外部調達して載せる形となる。別にソフトウェアの供給元を伏せる必要はなく、むしろ積極的に開示してトータルソリューションとしての価値や完成度を強くアピールすべきではなかろうか。

 デルは、プラットフォーム全体の標準化を通じて、高いコストパフォーマンスと信頼性を兼ね備えたハードウェアをこの世に出してきたが、これからは今までにない付加価値を実現する方向に向かっていくことを公言している。

 そのために、近年では企業買収にも力を入れている。例えば、ストレージ分野のテクノロジーを手に入れるため、iSCSI分野に強いEqualLogic、データ圧縮や重複排除技術を強みに持つOcarina Networks、ストレージ仮想化技術に関連するCompellent Technologiesなどを買収してきた。

 本稿において2回にわたって取り上げたDell DX6000シリーズは、単なるハードウェア屋さんではない新世代のデルを象徴する新たな取り組みといえる。今後、デルのコアコンピタンスでもある高性能なハードウェアを生かした、次世代のストレージソリューションが次々と登場することを心待ちにしたい。

関連情報