ニュース

AI時代の計算リソースを効率的に提供するデータセンターとは~モルゲンロット中村氏

 AIやHPCに向けた計算リソースを有効利用するインフラを開発するモルゲンロット株式会社は、「分散コンピューティング基盤カンファレンス」を11月25日に主催として開催した。ワット・ビット連携や、IOWN、電力の送配電など、AI時代の計算リソースを日本で効果的に提供するためのデータセンターについて、講演が行われた。

 モルゲンロット株式会社 代表取締役CEO 中村昌道氏によるセッション「計算資源の共有から計算力の取引へ ~新しい分散コンピューティング基盤の開発~」では、同社の取り組みとソリューションについて語られた。

モルゲンロット株式会社 代表取締役CEO 中村昌道氏

さまざまな場所のデータセンターのGPUサーバーをオンデマンドに利用できる計算リソースの「取引市場」

 中村氏は背景として、AIのためのGPU利用が進むにつれて、GPUの大きな消費電力と高額なハードウェア費用が問題になっていることを挙げた。そして、クラウドサービスによりGPU計算リソースを共有するのは有効な解決方法の一つだと語った。

 ただし、クラウドサービスにはメリットと課題がある。メリットとしては、サービスの裏側を気にせず、使えるリソースを必要なときに必要なだけ拡張できることがある。ただし、データ主権などのソブリンAIを考えると、「サービスの裏側を気にしない」ことは相反する部分があると中村氏は指摘。そして、主権的かつ効率的な利用のための新しい仕組みが必要になると論じた。

 そこでモルゲンロットやいくつかの組織が考えているものとして、計算リソースの取引市場を中村氏は取り上げた。さまざまな場所のデータセンターのGPUサーバーを、利用者がオンデマンドに利用できる仕組みだ。さらに、「計算リソースは分散された形であることが望ましく、再生可能エネルギーが最大限に活用されていることも重要な要素の一つだと考えている」と同氏は付け加えた。

AIサーバーでのクラウドのメリットと課題
計算リソースの取引市場

複数のデータセンターのGPUサーバーをオンデマンドで使える「MORGENROT Cloud Bouquet」

 このGPU計算リソースの取引市場を一部体現したものとして、モルゲンロットの「MORGENROT Cloud Bouquet」を中村氏は紹介した。

 利用者から見ると、AWSやGCPなどのパブリッククラウドのように、任意のGPUサーバーを必要なときに必要なだけオンデマンドで使えるようになっている。ただしそのGPUサーバーは、モルゲンロットが保有しているものだけでなく、パートナーとなっているデータセンターが拠出する空きリソースを利用するようになっている。GPUサーバーを効率的に使えるよう仮想化する技術としては、後述する「MORGENROT Arthur」や「MORGENROT TailorNode」が使われる。

 「Uberのようなマッチングサービスに近い形で、オンデマンドに適正な価格でGPUサーバーを利用できるサービスを提供している」と中村氏は説明した。

 これは「計算力取引装置」として特許を出願中だという。さらに現在、GPUサーバーの評価指標とそれによって利用側が柔軟に選択できるようにする仕組みや、証券取引市場のようにGPUサーバーを扱える仕組みなどにも取り組んでいると中村氏は語った。

MORGENROT Cloud Bouquet
「計算力取引装置」として特許を出願中

分散されたジョブを管理する「MORGENROT Arthur」と、仮想マシンを管理する「MORGENROT TailorNode」

 取引市場だけでなく、利用者が使うためには、単純な計算リソースの上にクラウドプロバイダーのように多くの要素を作って構築する必要がある。これを中村氏は、4つのレイヤーに分けて説明した。

 最も下のレイヤー1では、物理リソースとして、GPUサーバーやストレージ、ネットワークなどが位置づけられる。その上のレイヤー2はIaaSレイヤーで、レイヤー1の物理リソースを利用するためのオーケストレーターやスケジューラーが位置づけられる。レイヤー3はPaaSレイヤーで、レイヤー1・2をもとに、AIやHPCのワークロードに最適化されたマネージド機能や自動化機能などを提供する。こうしたレイヤー1~3の基盤の上で、レイヤー4のソリューション(アプリケーション)が動く。

 「これまで、このレイヤー1から3のような基盤レイヤーは、近い場所に集まっていた。しかしGPUサーバーの時代になると、同じデータセンターでも電力の関係で隣のラックに置かれていなかったり、同じ階になかったり、さらには別のデータセンターに置かれていたりすることも普通にある。その分散された基盤を機能に落とし込んでいくための構築が重要になる」と中村氏。「さらに、サービスも裏側の基盤を無視しては効率的に動かせない。そのため、レイヤー1から4までを一気通貫で管理できる仕組みになっている必要がある」(中村氏)。

クラウドサービスとして構築するのに必要な4つのレイヤー

 そのために開発した製品の1つが、分散されたクラスタ環境を統一的に管理するツール「MORGENROT Arthur」だ。カレンダー形式でジョブを可視化するのが特徴だという。

 「たとえば、カレンダーから、GPUサーバーが週の前半に混んでいるといったことが視覚的にわかり、それによって週の前半にデータを処理して後半にそのデータを使っているといったことが見えてくる。それをもとに、利用するGPUサーバーを調整して、稼働率を上げられる」と中村氏は説明した。

 「こう説明すると簡単なものに思われるかもしれない。しかし、これまでは前述のとおり1カ所にリソースが集まっていたので、こうした管理の仕方をしようというモチベーションは多くなかったと思っている」と中村氏。「それがこの2~3年で急速に電力コストが上がってきたため、いかに効率的にGPUサービスを使っていくかを意識するようになった」(中村氏)。

MORGENROT Arthur

 また、「MORGENROT TailorNode」はより下のレイヤーの製品で、ジョブではなく仮想マシン単位でGPUサーバーを管理するツールだ。ここでもカレンダー形式でリソースを可視化する。

 「たとえば1台のサーバーに8枚のGPUが搭載されているとき、複数の利用者がそれぞれ1枚だけとか2枚だけとか使えるようにするには、仮想化が必要になる。このとき、NVLinkなどを使ってGPU同士を接続して、遠隔地でも組み合わせて使うという仕組みもある。これを理解して仮想化しないといけないが、既存の仮想化ソフトウェアではきちんとした制御ができないものもある」と中村氏は言う。

 TailorNodeでは、そうした機能も含めながら、ユーザーがどの場所のどのGPUサーバーのどのGPUをどれだけ使うかを管理する。そして、計算リソースをCloud Bouquetに拠出して取引する機能も含まれる、と中村氏は説明した。

MORGENROT TailorNode

遺伝的アルゴリズムでジョブ割り当てを最適化する実験

 こうしたプラットフォームの事例として、中村氏はモルゲンロット自身の分散計算基盤を挙げた。

 同社では、九州、長野、東京に再生可能エネルギーを活用したコンテナデータセンターを建てて、分散計算基盤を構築している。これを実際に顧客に提供して、3カ所からGPUサーバーを自由に選べて有効に使う検証を実施している。たとえば、晴天で発電量が多くなるデータセンターにジョブを移すワークロードシフトも可能だと中村氏は説明する。

モルゲンロット自身の分散計算基盤

 また、ジョブをサーバーに割り当てる際の最適化技術として、遺伝的アルゴリズムを使った多目的最適化の実験も中村氏は紹介した。目的関数は、サーバーの利用率の最大化と総消費電力の最小化。これを、FCFS(来た順の割り当て)と比較し、終了時間は少し延びるものの、高価なGPUサーバーを1台減らせる結果になったと同氏は報告した。

 「人間がこの最適化を手動で行うのはかなり難しいので、自動化できるものが必要になる」として、目的関数が適切かどうかなどを、利用者に合わせて最適化していきたいと中村氏は意義を語った。

遺伝的アルゴリズムを使ったジョブ割り当ての最適化

 中村氏は最後に改めてモルゲンロットについて、「必要な時に必要な分だけ計算力にアクセスできる世界を実現する」というミッションと、「あらゆる理想を計算力で実現し、人々の生活をより良いものにする」というビジョンを紹介して、セッションを締めくくった。

モルゲンロットのミッションとビジョン