トピック

新ストレージアーキテクチャ「DASE」が「性能」と「容量」の無制限かつ非対称の拡張を実現!

AI時代に目指すべきエンタープライズストレージの"あるべき姿"とは?

企業の中でAI活用が進む中で浮上している悩ましい問題は、ストレージの"速さ"と"容量"だ。AI活用で他社に先んじるには大量データでのいち早い学習が鍵を握るが、現状のストレージでは、この要求への十分な対応が困難だ。加えて、AI活用に向けては常日頃から多種多様で膨大なデータを収集、管理しておくことが望ましいが、従来からのストレージ技術ではデータ容量の拡張に限界があることもデータ管理において悩ましい。果たして、これらの課題にどう対応すべきなのか。ネットワールドと日本ヒューレット・パッカード(HPE)、VAST Dataが、AI時代に求められるエンタープライズストレージの要件について語り合った。

VAST Data Japan Country Manager 藤井 洋介氏(左)、ネットワールド マーケティング本部 インフラマーケティング部 ストレージ課 課長代理 野田 早希氏(中)、日本ヒューレット・パッカード(HPE) パートナー・アライアンス営業統括本部 ストレージ営業部 部長 山中 伸吾氏(右)

一層の"速さ"がストレージに求められるワケ

野田 早希氏(以下、野田氏): 多様な業務のデジタル化を背景に、企業が保有するデータ量は爆発的な勢いで増加しています。改めて、その対応に向け企業でストレージ製品がどう利用され、その中でどのような課題が浮上しているのかについて教えてください。

山中 伸吾氏(以下、山中氏): ストレージ製品の歴史を振り返れば、古くはサーバーの付属品のような存在から、データ量の増大とともに独立した製品として発展し、その中で当社は20年以上にわたり、企業利用に足る信頼性と高速性を兼ね備えたブロックストレージを提供してきました。並行して、低速ながら安価なNASに代表されるファイルストレージや、高価な反面でHDDより処理がはるかに高速なフラッシュストレージなどの利用も広がり、今ではデータの利用頻度や重要性、コストを勘案した階層化や部門導入などによる使い分けが進んでいるのは周知の通りです。

その中にあって今、従来からのストレージ利用のあり方の見直しを迫る "大波"が押し寄せています。それが、生成AIをはじめとしたAI活用の広がりです。AI利用での他社との差別化の鍵が、どれほど短期間に十分なデータを学習させられるかという点にあり、その点から先進企業を中心にストレージに対して、より短期での学習完了に向けた一層の速さを求めるようになっています。

要求レベルは従来とはけた違いです。現状のストレージを普通車とすれば、まさにF1カーで、それらはこれまで大規模計算を行う研究機関などでしか使われてきませんでした。いわば、HPC専用ストレージと同等の速さが、生成AIの学習で用いる非構造化データの主要な格納先であるファイルストレージにも求められ始めているのです。

既存ストレージが避けては通れない"縛り"

山中氏: AI利用によってストレージの使い方も大きく変わります。ストレージのユーザーはこれまで人で、その観点からサイジングが実施されてきました。しかし、AI学習では究極的にはAIがユーザーです。必然的にアクセス回数は跳ね上がりますが、そうした環境であっても企業向けストレージであるのなら、当然、データを安心して、かつ確実に利用できねばなりません。

そこで現状ではAI学習用に高速ストレージを用意し、そこにデータをコピーして作業するといったことが行われています。ただ、これではデータ準備に少なからぬコストと手間、時間を要します。その無駄を排するために、F1レベルの高速さと、エンタープライズでの利用に足る信頼性と拡張性を両立し、別途のストレージの追加が無用で、既存環境でのAI学習を可能とする、これまでにないストレージ・システムが求められるようになっています。

野田:対応に向け、どのようなアプローチを採るべきなのでしょう。

藤井 洋介氏(以下、藤井氏): 単純に速さで考えればオールフラッシュですが、話はそう簡単ではありません。問題の根底には、従来のストレージは基本的にシェアードナッシングアーキテクチャが採用されており、CPU(コントローラ)とストレージは物理的に同じノードに結合されてノード間でのリソース共有は行われません。この"縛り"ゆえにストレージの性能や容量の拡張には限界があります。企業の取り扱うデータが急速に増えているというトレンドを考慮すれば、ストレージ環境での将来的な性能や容量がひっ迫するという問題は避けて通れないのです。別にストレージ環境を整備し対応する手もありますが、管理の手間とコストは当然、増してしまいます。

では、状況をどう打開するか。そこでの解として注目されているのが、VAST Dataが開発したDASE(Disaggregated Shared-Everything)アーキテクチャです。DASEではフラッシュストレージに最適化された通信プロトコル「NVMe」を拡張した遠隔のコンピューティングとストレージとの接続を可能にする「NVMe over Fabrics(NVMe-oF)」を採用し、性能と容量を別々に、かつ無制限に拡張できるようにしました。これにより、従来のストレージの拡張における様々な課題やトレードオフを解消します。今後特にAI利用でのデータ基盤に求められる無制限な性能と容量の拡張を実現できるテクノロジーです。
そして2016年創業以後、約4年間の開発期間を経て、2020年から提供を開始したのが、AIのような最新のワークロードにも対応できる「VAST Data Platform」になります。

無制限かつ非対称の拡張を実現したデータ基盤

野田氏: VAST Data Platformとはどんな製品なのでしょう。

藤井氏: VAST Data Platformは、AIやデータ集約型ワークロード処理のために最適化され、マルチプロトコル、GPUDirect アクセスが可能など、データマネジメントに必要となる機能を含んだ次世代のストレージデータプラットフォームです。その大きな特徴は、独自アーキテクチャの「DASE(Disaggregated Shared-Everything)」にあります。

まずは、NVMe-oFとシェアードエブリシングモデルによるハイパースケールアーキテクチャの採用です。クラウドライクなコンピューティングとストレージの無制限かつ非対称の拡張を実現しており、リソースの上限問題を抜本から解消しています。ゼタやエクサレベルのデータボリュームにも対応し、あらゆるコントローラからの全ストレージに対するフラットなアクセスにより、ノード間通信に起因するパフォーマンス問題も一掃しています。

「DASE(Disaggregated Shared-Everything)アーキテクチャ」の概念図

藤井氏: データ活用を支援するパイプラインの仕組みもポイントです。具体的には、VAST Data PlatformにはNASとオブジェクトストレージをサポートする「VAST DataStore」に加え、「VAST DataBase」、「VAST DataEngine」の3領域が用意されています。VAST DataStoreでは、NVIDIA GPUによるデータへの直接アクセス機能「GPUDirect Storage」をサポート、さらにはマルチプロトコルによる非構造化データの読み書きを可能にしています。VAST DataBaseでは、オールフラッシュに最適化したデータベーステーブルを構造化データとして処理します。そしてVAST DataEngineでは、VAST CNodes(アーキテクチャ概念図)に ETL/ELT、イベントブローカーなど各種アプリケーションコンテナを動作させることで、非構造化データを構造化データに変換することなどができます。このVAST DataEngineの具体的な利用方法としては、2024年10月に発表した「VAST InsightEngine with NVIDIA」があります。これはVAST DataEngine上にLLMのNVIDIA NIMを搭載することにより、データ収集から処理、分析、そしてAI推論までを一貫して行う、リアルタイムデータプラットフォームとなっています。こちらは2025年内での販売を予定しております。

一方でAIなどのデータから価値を生む活動では、データの価値自体がこれまでとは大きく変わります。そこで、「何のために使うか」という観点からのデータカタログによるデータ管理レイヤーも用意しています。このほか、容量効率に優れるQLCフラッシュと超高速なストレージクラスメモリの組み合わせや、圧縮、重複排除に加えて非構造化データの圧縮に効果的な類似性圧縮、QoSによるストレージ制御、マルチテナントといったエンタープライズストレージに求められる機能を網羅的に取り揃えています。もちろん、ダッシュボードでのシンプルで容易な運用管理も実現しています。

VAST Data Platformは、AI学習用の前処理やGPUによるデータへの直接アクセスなど、AIデータ基盤に向けた機能を提供

24時間365日のサポートでHPEに協力要請

野田氏: VAST DataとHPEは2023年5月、パートナーシップ契約の締結を発表しました。狙いはどこにありますか。

藤井氏: 我々はストレージOSとソフトウェアを提供し、ハードは当社が認定したパートナーが提供してシステムを構成します。ただ、国内での提案における悩みとして、多くのユーザー企業がサポートを重視しています。HPEとの協業は、エンタープライズ市場での長年の実績を持つ同社に、その面でぜひ協力を仰ぎたいと考えたからです。

山中氏: 我々は日本語による24時間365日の保守に対応しており、最短4時間での部品交換など、そのサポート品質には大いに自信を持っています。システムの安定稼働は企業活動の生命線であり、その点への評価は我々としても大変誇らしい。

一方で、VAST Dataとの協業は渡りに船でもありました。実は我々は、今後、目指すべきストレージアーキテクチャについて、VAST Dataと同様の構想を持っていました。ただ、ハード開発は順調に進む一方で、ファイルストレージのソフトウェア開発で苦労しており、その中で出会ったVAST Data Platformは我々がまさに求めていたソフトウェアだったのです。

結果、出来上がった製品がオールフラッシュファイルストレージの「HPE GreenLake for File Storage MP」です。

野田氏: 構成などについて教えてくれませんか。

山中氏: 稼働基盤となるハードは「HPE Alletra Storage MP」です。語尾のMPはマルチプロトコルを意味し、ストレージOSにVAST Data Platformを採用したのがHPE GreenLake for File Storage MPで、OSの選択によりブロックストレージやオブジェクトストレージとしても稼働します。

特徴はやはり、VAST Data Platformと同様の設計思想によるコントローラとストレージの分離です。従来、データの処理要件を基に複数のストレージ製品をラインナップに取り揃えてきましたが、HPE GreenLake for File Storage MPはリソースの制約が取り払われたことで、多様なニーズに単独で対応できます。

GreenLakeとの名称からクラウドサービスと捉えられがちですが、オンプレミスによる導入も可能です。販売形態として従量課金と従来からの請求方式のいずれかを選択できます。

VAST Data Platformを搭載するHPE GreenLake for File Storage MPは、コントローラノードとストレージノードを自由に拡張することができる

データ集約型の処理基盤として多角的に評価

野田氏: ネットワールドは10月、VAST Dataとディストリビューター契約を締結しました。今後の提案活動の推進に向け、現在、どのような用途での利用が多いか教えてもらえますか。

藤井氏: 当初はゲノム解析や金融領域でのビッグデータ解析のほか、アニメーションなどの大容量データの編集やレンダリングなどを皮切りに利用が進みました。ただ、この1-2年は生成AIの登場を機に、AI用GPUデータ基盤としての利用が急速に拡大しています。現状、グローバルで約450社以上で利用されており、用途別の内訳はAIやHPCでの利用が約7割、大規模ストレージ、セキュリティ・データ保護用途など、エンタープライズストレージとしての利用が約3割です。

山中氏: HPE GreenLake for File Storage MPの商談では、データ保護を狙いとした引き合いも少なからず寄せられています。バックアップソフトの保存先として、本製品を利用するという使い方です。非常に膨大なデータのバックアップとなるため、速度が非常に重視される領域です。また、購入前に事前に検証を行いたいというお客様向けに検証環境もご用意しております。

藤井氏: また、VAST Data Platformではハードの世代交代による影響を避けるため、3世代までのハードの1クラスターによる共有を実現しており、システム全体の長期的な利用が可能となります。

野田氏: 想像以上の切り口で提案を進められそうです。本日はどうもありがとうございました。