2020年1月17日 06:00
弊社刊「クラウド&データセンター完全ガイド 2020年冬号」から記事を抜粋してお届けします。「クラウド&データセンター完全ガイド」は、国内唯一のクラウド/データセンター専門誌です。クラウドサービスやデータセンターの選定・利用に携わる読者に向けて、有用な情報をタイムリーに発信しています。
発売:2019年12月23日
定価:本体2000円+税
最新の“第2世代”CPUに着目して最新のサーバー製品を概観してきたが、Part1でも紹介したとおり、現在は「ワークロードに応じた最適な処理を選ぶことで性能を確保する」という考え方が重要になってきている。そしてそれは、CPUのレベルに留まらず、サーバーのレベルにまで波及している。“どれでも大差ない”コモディティサーバーだけではなく、特定のワークロードを想定し、用途に対して最適化されたデザインの製品を提供しようというアプローチだ。ここでは、そうした用途特化型と位置付けられそうな製品群を紹介しておきたい。 text:渡邉利和
機械学習で需要が高まるGPUサーバー
AI/ML処理のニーズが高まる中、GPUに対するニーズも高まってきており、サーバーレベルでもさまざまな対応が行なわれるようになってきている。これらのトレンドは基本的に、CPUの性能向上に期待するのではなく、既存のCPUとは異なる手法で演算処理を行なうことで高速化を実現しないとニーズに応えられない、という状況に対してのものだ。ただし、現状では「GPUさえ導入すれば問題は解決する」というほどシンプルな話ではない点には注意が必要だろう。
まず第1に、GPUのコストは必ずしも安くはない点だ。GPU自体の価格もハイエンドのGPUと遜色ない価格帯だったりするし、強力な演算能力は結局のところ電力消費とほぼ比例関係になってしまうため、消費電力量の増大と、さらには冷却能力の増強の必要も出てくる。意外に見落としがちな問題としては、GPUモジュールは結構重量があったりするので、GPUを高密度に実装した場合、消費電力、発熱量に加えてラックやマシンルームの床の耐荷重が問題になることもあるようだ。ファシリティ側の制約ににも配慮しつつ、事前のサイジングを綿密に行なう必要がありそうだ。
NVIDIAの取り組み
現時点でGPUコンピューティングを主導する立場にあるのがNVIDIAだ。現時点でのデータセンター向けGPU製品としては“NVIDIA Tesla”シリーズがあり、「NVIDIA Tesla P4/P40」「同P100」「同V100」「同T4」がラインアップされている。
最新製品であるT4(写真1)は、NVIDIA CUDAコアを2560個搭載するのに加え、ディープラーニング用に最適化されたコアと言われる“Turing TENSORコア”を320個搭載し、AI推論処理向けのGPUとしての性格が強く打ち出された製品となっている。NVIDIA Tesla GPUはサーバーベンダー各社でサポートされており、購入時にGPU搭載モデルを選択することで容易に導入できる。
さらに、VDI等の仮想化環境でGPUの能力を活用することを想定した「NVIDIA仮想GPU」の提供も行なわれている。実体としてはNVIDIA仮想GPUソフトウェアがハイパーバイザー層にインストールされており、各仮想マシンからのGPUへのアクセスリクエストを整理してサーバーに実装された物理GPU(NVIDIA Tesla)に送るという形で物理GPUを仮想的に共有する仕組みだ。GPUが元々はグラフィックス処理の高速化のためにPCに搭載されていたことを考えれば、デスクトップ環境を仮想化するVDI環境で仮想GPUが必要とされるのは当然とも言える。こうした用途も、データセンターにおけるGPUの用途としては重要だろう。
NVIDIA DGX
NVIDIAでは、通常のIAサーバーやPCに組み込み可能なGPUモジュールを提供するだけではなく、GPUおよび各種ソフトウェアを組み合わせた「AI処理のためのアプライアンス」といった位置付けの製品「NVIDIA DGX」の販売も行なっている。“AIスーパーコンピューター”などとも表現されるNVIDIA DGXには、最初の世代の「NVIDIA DGX-1」(写真2)、より大規模になった「NVIDIA DGX-2」(写真3)などいくつかのバリエーションがある。
さらに、NVIDIA DGXに関しては、パートナーとの協業によるソリューション構築も行なわれている。オールフラッシュストレージで知られるPure StorageがNVIDIAおよびCiscoとのパートナーシップに基づいて製品化した「Pure Storage AIRI(AI-Ready Infrastructure)」(写真4)は、NVIDIA DGX-1とPure Storage FLASHBLADE、CiscoのNetworkスイッチを組み合わせている。この組み合わせが実現したのは、実は先進的なユーザーがDGX-1を活用する際にボトルネックにならないストレージとしてPure StorageのFLASHBLADEを選定する例が多かったことが理由になっているとされており、市場でのベストプラクティスを製品化した形になっている。
富士通の取り組み
国産ベンダーである富士通はNVIDIAとの競合を強化し、ソリューション展開に取り組んでいる。「FUJITSU Server PRIMERGY/NVIDIAコラボレーションプログラム」はその一環で、両社によるGPUコンピューティング向けプラットフォームの導入サポートを提供する。検証環境や専任のサポート要員を配置した「FUJITSU Server PRIMERGY/NVIDIAコラボレーションセンター」を東京都内に開設したほか、PRIMERGYにGPUを搭載したモデルの販売なども行なわれている。
GPU搭載サーバーの利用はクラウドサービスを利用することでも可能だが、実際のユーザーの声を聞くと、クラウドの重量課金モデルの場合、データ量や演算量が増加すると支払額が高額になるため、本格的に業務で活用する場合にはオンプレミスでシステムを導入する方がコスト削減になる例も少なくないという。そうしたニーズに対応するためにも、導入しやすい形でのGPU搭載サーバーの製品化は多くのユーザーが歓迎するところではないだろうか。
HCIの長所と短所、ベンダーの対応
HCIも、新しいITインフラの選択肢としてすっかり定着した感がある。何をもってHCIか、という点が分かりにくくなっている印象もあるが、もともとは、「事前構成済のインフラ製品」として登場したCI(Converged Infrastructure)が製品として定着していたところに、新たなコンセプトとしてSDS(Software-Defined Storage)を組み込んだのがHCIだとするのが一般的だろう。
もちろん、SDSの導入によってハードウェア構成が大きく変わっている点がポイントだ。CIの時代には、サーバー、ストレージ、ネットワークが完全に独立した個別のコンポーネントで、CIのメリットは相互接続検証が済み、組み合わせに起因する相性問題等が解決済みの状態で入手できる点が第一で、さらにはアップデート等が提供元から一元的に提供されるといった点が評価された。ただし、組み合わされているコンポーネントはそれぞれ市場で一般的に入手できるものなので、ユーザー側で同じ構成を選定して組み合わせたシステムと特に違うようには見えないというものでもあった。
一方、HCIの場合はSDSを活用するため、ストレージは独立したコンポーネントではなく、サーバー内蔵のHDD/SSDを仮想統合したストレージプールを利用する形になる。そのため、HCIを構成するコンポーネントは実質的にはサーバーのみで、必要に応じてサーバーの数を段階的に増やしていくことで負荷の増大に対応するための規模拡張が容易に行なえるスケールアウト型のアーキテクチャとなっていた点が違いと言える。
当初HCIは主にVDIのプラットフォームとして活用され、高評価を得たという経緯がある。まずVDIで運用実績を積み上げて信頼を獲得したことで、よりミッションクリティカルな用途にも採用が拡大しており、現在では構築/運用の負荷が低いことを理由にさまざまなワークロードに対応する標準的なインフラ製品として評価されるようになってきている。
その一方、HCI製品の弱点についても認識が広まってきているようだ。中でも根深い問題が、規模拡大の際に全リソースが均等に増加する、というHCIの本質に関わる部分だ。
現在、一般的なHCIの構成では、ストレージ、メモリ、ネットワークインターフェイスを備えたサーバーをモジュールとして必要なだけ追加していく、という形を採る。処理能力を支えるCPUとメモリがセットで追加され、さらにストレージやネットワーク帯域も同時に増えることでボトルネックの発生が回避できる。規模拡大の際に「どのリソースをどのくらい追加するか」といった詳細なサイジング作業が不要なので作業が容易という利点もあるのだが、逆に言えば、「CPUの演算能力には余裕があるが、ストレージが不足気味」といった形でリソース消費量が均等出ない場合には「不要なリソースまで同時に追加されてしまう」という過剰投資の原因になる場合もある。
そこで、最新のHCI製品では“コンポーザブルアーキテクチャ”の考え方を導入し、必要なリソースを必要なだけ追加できるように配慮された製品も出現している。とはいえ、あまりきめ細かくしすぎると、今度は逆にあらゆるリソース量を細かくして指定BTOでサーバーをカスタマイズして発注するようなレベルになりかねず、そのバランスをどうしていくかが今後の課題となりそうだ。
HPEの取り組み
HPEでは、HCI製品として「HPE SimpliVity」を提供中だ。元々は企業買収によって獲得した米SimpliVity社のソフトウェアを自社のIAサーバーである「HPE ProLiant」と組み合わせてHCI製品としたものだ。そのため、現在のSimpliVityの製品名は、基本的にはベースとなっているProLiantの型番と同じ数字と“Gen10”の表記が含まれている。中核となる製品は「HPE SimpliVity 380 Gen10」(写真5)で、ベースは「HPEProLiant DL380 Gen10サーバー」だと考えられる。
SimpliVityの特徴は、専用のハードウェア・アクセラレータ・カードを搭載し、そこでデータ圧縮/重複排除処理を実行することでストレージ容量を大幅に削減すると同時にネットワークを介したデータ転送の際にも転送しなくてはいけないデータ量そのものを大幅に減らせるなど、遠隔バックアップなどの際に劇的な効果を発揮する機能を実装している点だ。そして、今年新たに追加されたローエンドモデルとなる「HPE SimpliVity 325 Gen10」(写真6)では、CPUとしてAMD EPYCを搭載している。発表時点ではEPYC 7000プロセッサということで第1世代EPYCだが、32コアプロセッサの処理能力を活かしてハードウェア・アクセラレータ・カードなしでも従来製品同様の圧縮/重複排除を実現したという。従来の380ベースのノードが2Uサイズなのに対し、325では1Uサイズという点も中小規模向けとしては有利な点だろう。
富士通のHCI
富士通では、Nutanixの仮想化ソフトウェア「Nutanix Enterprise Cloud OS」をFUJITSU Server PRIMERGYにプリインストールし、ライセンスやサポートと共に提供する「Nutanix Enterprise Cloud on PRIMERGY」の発売を発表した。
富士通では、以前からPRIMERGYベースのHCI製品を“PRIMEFLEX”ブランドでラインアップしている。ベースとなるハードウェアはPRIMERGYである点は同様だが、ソフトウェアが異なる2種類のモデルが併売されている。「FUJITSU Integrated System PRIMEFLEX for VMware vSAN」はVMwareベース、「FUJITSU Integrated System PRIMEFLEX for Microsoft Azure Stack HCI」はWindowsベースとなっている。この2製品は同社の製品ラインアップの中では「垂直統合型商品」の「仮想化基盤PRIMEFLEXハイパーコンバージドインフラストラクチャ(HCI)」として位置付けられている一方、Nutanix Enterprise Cloud on PRIMERGYはPRIMERGYのソリューションという位置付けになっており、ブランドとしてもPRIMEFLEXブランドには含まれないなど、位置付けが異なっているようだ。とはいえ、現時点でHCI製品を考える上で候補となりうるソフトウェア環境をほぼ網羅した形のラインアップを整備しており、あらゆるユーザーニーズに対応できる体制が整ったと評価して良さそうだ。
エッジサーバーの急拡大
最後に、「データセンター向けサーバー」には含まれないが、最近の注目すべき動向として“エッジ向けサーバー”についても紹介しておこう。数年前から、「ITとOTの融合」や「工場等の生産現場での運用を前提とした産業用コンピュータ」が製品化されるようになってきたが、これらは基本的にはITシステムの運用環境としては過酷な条件を想定した特殊なパッケージングの製品が多かった。たとえば、埃等を吸い込むのを避けるためにファンレスで、冷却のために筐体全体が放熱フィンで覆われたようなデザインだ。一方、最近製品が増えてきた「エッジ向けサーバー」は、そこまで過酷な稼働環境は想定していない。データセンターほどの保護レベルは期待できない、というレベルで、たとえば小売店舗の事務室のような場所を想定した例が多いようだ。
サーバーメーカーの中でもHPEはいち早くエッジ向けサーバー製品に取り組んでいる。“HPE Edgeline”というブランドで異なるデザインの製品を幅広くラインアップしているが、中でも最新製品である「コンバージドエッジシステム HPE Edgeline EL8000 Converged Edge System」(写真7)は、5Gネットワークをローカルで展開する際の基地局としての利用も想定したデザインとなっている。このため、処理能力はデータセンター向けサーバーとほぼ同等水準を確保しつつ、サイズはコンパクトにまとめ、感覚的には特別な冷却システムがない一般的なオフィス等で運用可能となっている。
エッジコンピューティングはデータセンターの重要性を低下させるものではなく、今後はエッジ側で増大し続けるデータ量をデータセンターでどう支えていくか、どのように役割分担をしていくかを考えていく必要が出てくるだろう。