トピック
最先端の深層学習を追求する研究開発を支える三相電源対応インテリジェントラックPDU
- 提供:
- ラリタン・ジャパン株式会社
2019年9月11日 09:00
各分野のトップを走る企業や研究機関と協業しながら、最先端のAI研究開発を行っている株式会社Preferred Networks。研究開発を促進するために独自設計のプライベート・スーパーコンピューターを保有する同社だが、2019年7月に稼働を開始した最新クラスター「MN-2」では、三相電源対応のインテリジェントラックPDUを採用することで、電源に関する諸課題の解消に役立てているという。AIの最先端を開拓するなかで、同社が直面する課題と対応策とはどのようなものか、Preferred Networks 取締役 最高技術責任者の奥田遼介氏、リサーチャーの土井裕介氏、ビジネス開発の菊池隆寛氏の三氏にお話を伺った。
最先端の研究開発で企業の技術革新を牽引
株式会社Preferred Networks(以下、PFN)は、社員数約250名のスタートアップ企業ながら、オープンソースの深層学習フレームワーク「Chainer(チェイナー)」など、深層学習のコアの技術の研究開発をはじめ、機械学習や深層学習を中心に分散コンピューティング、データ処理アーキテクチャ、ハードリアルタイムを実現するネットワーキング、ロボットなど、専門性の高い多岐にわたる技術の研究開発を行っている。
現在のビジネスの状況はどうだろうか。PFNの取締役であり最高技術責任者を務める奥田遼介氏は、「交通システム、製造業、バイオ・ヘルスケアの3つの重点事業領域を中心に、それぞれの分野で日本のトップを走る企業や研究機関と協業し、先進的な取り組みを推進しています」と話す。
たとえば交通システムでは、2014年10月からトヨタ自動車と自動運転およびコネクテッドカーに関する技術の研究開発を行っている。製造分野においては、2015 年6 月からファナックと共同研究を行い、物体認識や制御、異常検知、最適化技術を産業用ロボットや工作機械に応用している。さらにバイオ・ヘルスケアの分野では、医用画像の解析や血液によるガンの早期診断技術などをテーマに、2017年12月から国立がん研究センターなどと共同研究を行っているという。
最新のプライベート・スーパーコンピューター「MN-2」が始動
目覚ましい活躍を見せているPFNだが、その取り組みでさらに興味深いのは、さまざまな研究開発の基盤となるスーパーコンピューター(大規模クラスタシステム)を自社で設計開発し、運用していることだ。
クラウドが普及した現在、GPUを含めたスケーラブルなコンピューティングリソースをオンデマンドで調達できるようになった。ならば、そちらを利用すればよいのでは、と思うかもしれない。実際、クラウドから提供されるコンピューティングリソースやプラットフォームを基盤に、IoTやAIのシステム開発を行っている企業は数多い。さらに言えばPFN自身も、まったくクラウドを使っていないわけではない。
だが、先にも紹介したようにPFNが軸足を置いているのは、基礎的な研究開発の領域なのだ。不特定多数のユーザーのニーズを“最大公約数”で捉えたクラウドベンダーが提供する標準サービスでは、どうしても足りない部分が出てくる。
「クラウドでは最新スペックのコンピューティングリソースを必ずしも取り揃えられるとは限りませんし、インフラはベンダー任せになるので、そこにボトルネックが生じても自社で解消できないという問題があります。また、“最大公約数”の標準サービスだけを利用していたのでは、自由であるべき研究者の発想そのものを縛ってしまう恐れがあります。研究者に自由に使える最新の環境をいち早く提供する、そのために自社設計開発という結論に至ったのです」と奥田氏は語る。
さらにPFN リサーチャーの土井裕介氏も、「今後の研究開発のためにどんなコンピューティングリソースが必要となるのか――。私たち自身、さらに言えば世界中の誰にも見えていません。その在り方を模索していくこと自体が研究開発の一環であり、基盤に求められるものを明らかにするとともに、そこで直面するさまざまな課題を自らの手で解消しながら各プロジェクトを進めていく必要があるのです」と語る。
この基本方針に基づいてまず構築されたのが、NTTコミュニケーションズ社およびNTTPCコミュニケーションズ社と共同開発した「MN-1(2017年9月稼働)」およびそれを拡張した「MN-1b(2018年7月稼働)」といったプライベート・スーパーコンピューターである。
そしてさらにPFNは、最新CPUを5,760コア、最新GPU(NVIDIA V100 Tensor)を1,024基搭載した次期プライベート・スーパーコンピューター「MN-2」を自社構築し、2019年7月より稼働を開始した。国立研究開発法人海洋研究開発機構(JAMSTEC) 横浜研究所内のシミュレータ棟内に設置され、MN-1 およびMN-1bとも閉域網で接続される。ちなみにMN-2の理論上のピーク性能は、深層学習で利用される混合精度浮動小数点演算において約128PFLOPSとなる。これはMN-1bの2倍以上の処理性能だ。
また、MN-2ではGPU ノード間インターコネクトとしてRoCEv2(RDMA over Converged Ethernet Version2)を採用するとともに、1ノードあたり100G Ethernetを4本搭載。PFN独自のチューニングを行うことでマルチノードの高速処理を実現している。加えて、独自に構築した総容量10PBを超えるSDS(Software-Defined Storage)でデータアクセスを最適化することで、機械学習や深層学習の高速化を図る。
PFNはこのMN-2上でChainerを運用することで、先に述べた交通システム、製造業、バイオ・ヘルスケアなどの事業領域における研究開発をさらに加速させていく考えだ。
三相インテリジェントラックPDUで大きな安全を買うことができた
もっとも、今回のMN-2の開発ではさまざまな困難に直面したのも事実である。その1つが電源に関する問題だ。PFNでビジネス開発を担当する菊池隆寛氏は、「高電力サーバーを1ラックに4台搭載すると、その消費電力は1ラック当たり最大16KVAにも達します」と語る。
そうした中で注目したのが、JAMSTECのシミュレータ棟でサポートされていた三相交流電源である。一般家庭でも使われている通常の単相交流電源と比べ、三相交流電源はその名前のとおり常に3つの波形が流れているため、同じ電力をより少ない電流で得ることができる。ひいては配線がシンプルになり、電気損失も少なくなるというメリットがある。「三相交流電源を採用することで、電源まわりの設備コストを抑えることができます」と菊池氏は語る。
そして、この三相交流電源によるラックへの電力供給を実現すべく採用したのが、ラリタン・ジャパンの「PXインテリジェントラックPDU」である。「ラリタンのインテリジェントラックPDUはさまざまな設備でも使用実績があり、三相交流電源に対応したPDUでもグローバルのデファクトスタンダードとなっている信頼性を重視しました」と、菊池氏は選定の理由を説明する。
その上で決め手となったのがインテリジェント機能だ。ラリタンのPXインテリジェントラックPDUは各アウトレットレベルで高精度なメトリクスを取ることができ、かつPX-5000シリーズではリモートから電源を落とせる電源制御機能が標準で実装されている。様々なメトリクスを各レベルで取ることでぎりぎりまでサーバーを使うことが可能となり、稼働率を上げながらも、電源容量を使い倒せるのである。
「MN-2では、各コンピューティングリソースを常にフルパワーの負荷をかけて運用しているため、まれに想定外の問題が起こります。そうしたケースではトラブルシュートのため対象ノードの電源をいったん落とし、5~15分程度放電してから電源再投入する場合があります。この一連のオペレーションをリモートから行えるのは非常にありがたいことです」と土井氏は語る。
さらに菊池氏も、「そもそも当社にはデータセンター設備の運用監視を担うオペレーションセンターのような組織はなく、リモートハンドとなる担当者を24時間365日で常駐させられるような人的な余裕もありません。かといってJAMSTECのシミュレータ棟内では他の研究機関の重要なスーパーコンピューターも稼働しているため、MN-2に起こったトラブルが周辺のファシリティに影響を及ぼすといった迷惑をかけるようなことは絶対にあってはなりません。ラリタンのPXインテリジェントラックPDUを導入することで、『大きな安全を買うことができた』と思っています」と強調する。
ただ、このPDUの導入も、スムーズに事が運んだわけではない。実は今回のMN-2を構築するにあたってPFNは、機器の輸送やシミュレータ棟への搬入の利便性を確保するため37Uサイズのラックを特注したのだが、これが思わぬネックとなってしまった。ラリタン・ジャパンが販売している三相PDUは、フルラック(42Uサイズ)を想定されたものであったため、搭載できないのである。
「そんな私たちの事情を考慮し、ラリタン・ジャパンは早急に米国本社との交渉やPSE取得の手続きなど、日本国内で購入できる体制を整えてくれました。単なる製品輸入ではなく、正式な型番をとって保証体制を用意し、さらに商社をアレンジして商流まで整えてもらうなど多大な手間をかけてしまいましたが、こうした親身な協力のおかげで、私たちはPXインテリジェントラックPDUを無事に導入することができました」と菊池氏は語る。
PDUのインテリジェント機能は次期MN-3でさらに重要度を増していく
MN-2の稼働を開始させたばかりのPFNだが、早くも次世代のプライベート・スーパーコンピューターとなる「MN-3」を2020年春に稼働させるべく基盤づくりを進めている。
それに先駆けて開発しているのが、2018年12月開催の『SEMICON Japan 2018』で公開された「MN-Core」という独自チップである。深層学習で頻繁に行われる行列演算に最適化したもので、「電力性能(消費電力あたりの演算性能)において、世界最高クラスの1 TFLOPS/W(半精度)を実現できる見込み」(奥田氏)という。最小限の機能に特化したアプローチにより、コストを抑えながら深層学習における実効性能を高めることが可能となる。
そしてMN-3では、このMN-Coreを搭載した1,000ノードを超える専用サーバーで大規模なクラスタシステムを構成し、最終的に計算速度を2E(エクサ)FLOPSまで拡大することを目標としている。
こうしたPFNの取り組みを一言でいうならば「妥協なき試行錯誤」である。深層学習のリードタイムを少しでも短縮するためにボトルネックを解消し、それによって別の部分がボトルネックとなったら今度はそれを解消するという終わりのない営みの繰り返しだ。その結果としてPFNにおける基盤技術の開発は、ソフトウェアプラットフォーム(Chainer)の設計からクラスタシステムの構築、チップの開発へとステージを深化させてきた。
もっとも、この取り組みがそれぞれ個別のものであったなら、結局どこかで破綻してしまっていただろう。螺旋階段を上るように経験値を積み上げ、個々の取り組みにつながりを持たせながら、レイヤー間の相乗効果を生み出していく必要がある。
そうしたことからPFNは、電源に対しても強いこだわりを持って信頼性向上を追求してきたのである。「ベースとなる部分の信頼性は、どんな機器や設備を導入したかによって決まります。言葉を変えれば、下位レイヤーでしっかり信頼性を担保できていなければ、その上位レイヤーの試行錯誤は成り立ちません」と奥田氏は語る。
たとえばGPUボードの信頼性は吸気温度が非常に重要な条件となっており、その温度が少し変化しただけで故障率が上昇してしまうという。その意味で温度センシングを含めたPXインテリジェントラックPDU のインテリジェント機能は、MN-2が満たすべき信頼性をまさに根幹で支えているのである。そして、「その重要度はMN-3となっても変わることなく、むしろ高まっていきます」と奥田氏は強調する。
今後もPXインテリジェントラックPDUはPFNのプライベート・スーパーコンピューターに不可欠のファシリティとして、イノベーションを目指す研究開発を支えていくことだろう。
お問い合わせ先
ラリタン・ジャパン株式会社
URL: http://raritan.com/jp/
E-mail: sales.japan@raritan.com