クラウド&データセンター完全ガイド:特集
ディープラーニング向けにGPU搭載サーバーを“時間貸し” さくらインターネット「高火力コンピューティング」
IT基盤から「ビジネス価値創出基盤」へ 「目的指向」クラウド/DCサービスの時代[Part 2]
2017年7月7日 11:30
弊社刊「クラウド&データセンター完全ガイド 2017年夏号」から記事を抜粋してお届けします。「クラウド&データセンター完全ガイド」は、国内唯一のクラウド/データセンター専門誌です。クラウドサービスやデータセンターの選定・利用に携わる読者に向けて、有用な情報をタイムリーに発信しています。
発売:2017年6月30日
定価:本体2000円+税
[Part 2] デジタル変革はITインフラから DC/クラウド事業者発の「付加価値サービス」
「データセンターが提供する付加価値サービス」と聞くと、SI/コンサルティングの「丸投げでお任せ」のイメージが思い浮かべる向きも少なくないだろう。だが、固定観念にとらわれず事業者の取り組みを見てみると、さまざまな切り口、アイデアのサービスがすでに利用可能になっている。その例として、さくらインターネットの「高火力コンピューティング」の内容を紹介する。 text:渡邉利和
ディープラーニング向けにGPU搭載サーバーを“時間貸し”
さくらインターネット「高火力コンピューティング」
さくらインターネットの「高火力コンピューティング」は、“高火力”という調理家電のような名称がまず目を惹くが、マシンラーニング(機械学習)などで求められる高い演算能力に特化したレンタルサーバーとも、HPC(High Performance Computing)クラウドサービスともとらえられるユニークなサービスだ(画面1)。
同サービスは、高度な演算処理を必要とするユーザーが、エヌビディア(NVIDIA)製GPU(Graphics Processing Units)搭載サーバーをレンタルで専有利用することができる。
同サービスユーザーは当該サーバーのroot権限を得て必要な運用管理作業を自分で実行するのが基本となっている。そのうえ、GPUの設定やアプリケーションの準備などもユーザー側で行うことが前提であり、利用には高度な技術力が要求されるサービスだとも言える。
2016年9月の提供開始時点では月額課金モデル(+初期費用)のみだったが、2017年4月からは1時間単位での時間課金モデルも用意され、試用から気軽に始められるようになった(表1、図1)。
GPUの高い演算処理能力に着目
GPUはもともとPCのグラフィックス描画を担当する専用プロセッサである。かつて、高い描画性能を要求するPC用ゲームアプリケーション市場において、高価なGPU搭載グラフィックスカードがよく売れていた時代があった。その後、家庭用ゲームマシンの高性能化やスマートフォンの普及などもあって、本来の画面描画の高速化・高精細化という点では市場が徐々に縮小していった。
その一方で、GPUの新たな用途が注目されるようになる。GPUは画面を構成する膨大な数のピクセル(画素)に対して適切なデータを生成する処理に特化している。そこで、CPUが苦手とする大量のデータに対して同時並行で演算処理を適用する処理に適用できないかという考え方が生まれた。高い演算処理能力をグラフィックス分野以外の用途に転用するGPGPU(General Purpose Computing on Graphics Processing Units)の登場である。
第3次AIブームでGPGPUの有用性を確信
「さくらの専用サーバー 高火力シリーズ」として用意されるサーバーには、グラフィックス用GPUの「NVIDIA TITAN X」搭載モデルに加えて、ハイエンド用途向けにGPGPU専用の「NVIDIA Tesla」(写真1)搭載モデルが用意される。
さくらインターネットは、正式提供の1年前から一部の先進ユーザー企業と共に高火力コンピューティングのテストを重ねていた。取り組みの背景には、「コモディティサーバーをベースとしたサービスを提供するだけで、はたして今のユーザーニーズをすべて満たせるのだろうか?」という疑問があったという。「むしろ、一般的なニーズからは外れたニッチな用途もきちんとカバーしていく必要があると考えた」(さくらインターネット 高火力チームシニアPDの須藤武文氏)
GPGPUが本格的に活用され始めたのは2000年代後半からだ。初期には東京工業大学が開発したスーパーコンピュータ「TSUBAME」にエヌビディアのGPGPUが搭載される(2008年)などのHPC分野で一定の成果はあったものの、一般的に普及するという状況にはなかった。
変化の兆しが見えてきたのが、昨今のAI技術の急速な発展だ。マシンラーニングやディープラーニング(深層学習)といったAI分野の研究成果を活用したデータ解析技術の発展により、大量のデータから新たな知見を得る道が開け、ブームとも言える状況になっていることは周知のとおりだ。これらを一般的なCPUで実行しようとすると膨大な時間を要してしまうため、GPGPUで大幅な時間短縮を図るという流れが出てきた。ニッチではあるものの、以前よりも格段に大きな広がりが生まれてきている。
さくらインターネットが行った高火力コンピューティングのテストの過程で、マシンラーニング向けのアプリケーションがGPGPUで実装されるなど、GPU活用に追い風が吹き、事業としての採算の目処が立った。これが2016年9月の高火力コンピューティングの正式提供を後押ししたという。
「スパコンのHPC」とは異なるクラウド時代のコンピューティング
一方、スパコンなどを活用するHPC分野では、突出した処理能力を膨大なコストをかけて実現するというアプローチにならざるを得ず、経済性は二の次となりがちだ。トップレベルのスパコンの開発は国家プロジェクトとなり、例えば理化学研究所のスパコン「京」は、その開発継続の可否が「事業仕分け」のかたちで国会の議案になったのをご記憶の方も多いだろう。
大規模なスパコンになると、運用コストは電気代だけでも年額数10億円というものすごい額に達する。そこで、遊休時間を極力作らずに絶え間なく計算させ続けるため、時間貸しでさまざまなユーザーがジョブを投入できるようになるのが普通だ。だが、そのスタイルは旧態依然とした「コンピュータが主役」の発想からくるものであり、運用効率の最適化が最優先され、ユーザーにとっての利便性は後手に回りがちだ。
「当社は、こうした従来型のHPCモデルを踏襲するのではなく、クラウド時代のユーザーのニーズに応える新しいコンピューティングサービスの提供を目指した。スパコンのイメージの強いHPCという言葉を避けて高火力と名付けた意図はそこにある」と須藤氏。氏の言う「クラウド時代のユーザーのニーズ」とは、マシンラーニングをはじめとする膨大な演算リソースを高いコストパフォーマンスで提供することにほかならない。
コンテナを活用したシステム基盤管理へのチャレンジ
今後の展開として、須藤氏は「コンテナ技術を活用したGPU対応のユーザーインタフェースの実装」についても検討に入っていると話す。
現在の高火力コンピューティングは、ユーザー専有型のGPU搭載サーバーのレンタルモデルだが、実際にGPUがどのくらい必要になるかは、ユーザーや処理ごとに変わってくる。したがって、「今回のこの処理に関してはGPUが2つ欲しい」「この処理になると4つ必要だ」といったリクエストがあった場合に、異なる仕様のサーバーを多数用意しておいて都度割り当てるやり方では運用管理負担がかかりすぎる。
そこで、共通仕様のサーバーを多数用意しておいて、コンテナ技術を使ってシステム基盤を分割し、ユーザーが希望したリソースを適宜割り当てられるようにできれば、より高効率な運用が可能になるわけだ。必要な処理だけを必要に応じて実行という点では、最近注目を集めるサーバーレスコンピューティングとの共通性もある。
先行する研究開発に、グーグルのコンテナクラスタ管理システム「Google Borg」プロジェクトがある(画面2)。須藤氏は「たとえ米国の後追いでも、後追いすらできなくなったら日本のIT業界はおしまいではないだろうか」との認識を示す。後追い、ないしは模倣からのスタートであっても、テクノロジーの到達ポイントを把握し続けなければ先に進むことは不可能だ。自社独自や日本発のイノベーションはもちろん価値が高いものだが、その準備としての先行事例のキャッチアップは必須という考えだ。
現在の日本のデータセンター事業者の多くは、北米をはじめとするハイパースケールクラウド事業者の攻勢にさらされたり、日々の運用に追われていたりで、イノベーティブな取り組みになかなか着手できないでいる。だが、それに甘んじているだけでは、ユーザーの“隠れたニーズ”を汲み取る新サービスの開発は難しいように思える。今後、高火力コンピューティングを発展させていくチャレンジの過程で、さくらインターネットがどのように諸課題を克服していくかには注目したいところだ。
- [Part 1] 「サービスの中身」で選ぶデータセンター/クラウド基盤
- [Part 2] デジタル時代の「付加価値データセンター」を実現するテクノロジー
- さくらインターネット「高火力コンピューティング」
- 富士通クラウドテクノロジーズ「ニフティIoTデザインセンター」
- [Part 3] 「自社構築」から「サービス利用」へOpenStackクラウド基盤の新基軸