ニュース
TSUBAME 3.0今夏始動へ HPC分野だけでなくビッグデータ、AIでの活用目指し
2017年2月20日 06:00
東京工業大学(以下、東工大) 学術国際情報センターは、半精度演算性能47.2ペタフロップスとなるスーパーコンピュータの新バージョン「TSUBAME 3.0」を今夏に稼働すると発表した。開発にあたって、政府調達「クラウド型ビッグデータグリーンスーパーコンピュータ」が実施され、日本SGIが落札した。東工大では、SGIが落札、NVIDIA、Intel、DataDirect Networksとともに夏の稼働に向けて開発を進める。
スーパーコンピュータは、科学技術計算に加えビッグデータ、AIなど民間で必要となる場面が増えている。特にTSUBAMEは、「みんなのスパコン」として、国家的・社会的課題に対応した課題解決のための戦略分野利用促進、これまでTSUBAMEが利用したことのない有望な分野での新規利用拡大など、共同利用サービスを提供してきた。3.0でもこの理念を継承し、共同利用制度を通じて研究者や企業の研究開発にも提供し、最先端の科学技術の発展、国際競争力強化につなげていく。
会見では、アプリケーションの例として創薬、マルチメディア認識のための深層学習、超小型衛星による地球観測画像解析が紹介された。東工大の学術国際情報センター・松岡聡教授は、「日本には優秀な研究者が多く、創薬、災害シミュレーションといったHPC分野ではスパコン活用が進んでいる。しかし、ビッグデータ、AIに関しては欧米に比べ圧倒的にプアな状況となっている。TSUBAME 3.0は、自律的にものが動く人工知能、AIの世界を実現しやすくするために開発した」と説明。民間を含めて、ビッグデータ、AI分野での利用を増やしていく意向だ。
3.0までの動向
TSUBAMEは、東工大で開発しているスーパーコンピュータ。2010年11月1日に2.0が稼働したが、当時は大規模なGPU採用による高性能と低電力の両立と、200平方メートル程度の設置面積で、高いコストパフォーマンスを実現した。さらに高性能にマッチした光ネットワーク、SSDストレージを実現した。
「2011年には、ACM Gordon Bell賞を京コンピュータと同時に受賞した。この賞は、アカデミー賞の作品賞のようなもので、TSUBAME 2.0のアプリケーションに対して賞を頂いた」(松岡教授)。
2013年9月には計算ノードが進化した「TSUBAME 2.5」を発表。全4224GPUを最新のKepler GPUにほぼ運用中断なく交換し、いくつかの技術上・運用上の問題をメーカーと共同で克服した。マシン性能についても、低コスト・短期間に2~3倍向上している。
2017年夏にリリースする「TSUBAME 3.0」は、「最先端の技術チャレンジに挑むスパコン」として開発された。2.5と比較した場合、「スパコンは複雑なので、あくまでもざっくりとした比較ではあるが、2.0と比べると5倍、2.5と比べると2~3倍高速になる。機械学習やビッグデータで活用した場合には、5~6倍の性能アップを実現する」(松岡教授)という。
松岡教授は、「ビッグデータ、AIに関してはインフラ準備といった面で日本は後れをとっている」と指摘。自動運転など今後の日本の産業にも大きく影響する分野には、ビッグデータ分析、AIなどが不可欠となることから、「こうした分野で活用されるプラットフォームを提供し、民間を含めた研究を活性化してきたい」とビッグデータ、AI分野の研究活性化が開発の狙いの1つだと強調した。
TSUBAME 3.0のシステム
TSUBAME 3.0のシステム概要は、計算ノード部にはSGIのSGI ICER XAを採用し、540台の計算ノードを収容。各計算ノードはXeon E5-2680 v4を2基、NVIDIA社製GPUのTESLA P100 for NVLink-Optimized Serversを4基、256GiBの主記憶、ネットワークインターフェイスとしてIntel製のOmni-Pathを4ポート搭載している。
ストレージシステムにはDataDirect Networksの容量15.9 PBのLustreファイルシステム、これに加えて各計算ノードにも容量2TBのNVMe対応高速SSDを搭載。計算ノードおよびストレージシステムはOmni-Pathによる高速ネットワークに接続され、またSINET5を経由し100Gbpsの速度でインターネットに接続することができる。
TSUBAME 3.0の倍精度の理論演算性能は、12.15ペタフロップスで、富士通のスーパーコンピュータ「京」を上回る世界最高レベルの性能となる。単精度での演算性能は24.3ペタフロップス、半精度での演算性能は47.2ペタフロップス。
最新GPUの採用による性能および電力効率の向上、ストレージの高速化および大容量化、計算ノードに搭載されるNVMe対応高速SSDの合算容量は1.08PBと容量、速度ともに強化され、ビッグデータアプリケーションの処理速度を大幅に加速することが可能となった。また、仮想化など多くのクラウド技術を取り入れ、わが国最高峰のサイエンスクラウドとしての役割も果たす。
システムの冷却効率も最適化され、屋外に設置される冷却塔によって外気に近い温度の冷却水を少ない電力消費で供給することができ、これを主要なプロセッサの冷却に使用する。冷却効率を示す指標の1つであるPUE(Power Usage Effectiveness)の値は1.033で、より多くの電力を冷却ではなく、計算に使用することができる。
また、TSUBAMEシリーズは、TSUBAME 1.2のTesla、TSUBAME 2.0のFermi、TSUBAME 2.5のKeplerと最新のNVIDIA製GPUをいち早く採用している。今回のTSUBAME 3.0では第4世代となるPascal GPUを採用し、高い互換性を確保している。TSUBAME 3.0のGPU数は2160で、TSUBAME2.5およびTSUBAME-KFCのGPUと併せて総数6720のGPUがGSICで稼働することになる。
TSUBAME 3.0の用途は?
実際にどんなアプリケーションで利用することができるのか、事例が紹介された。
ひとつは東工大 情報理工学院の秋山泰教授が行っている研究分野での利用。秋山教授は、疾病マーカー探索と創薬標的探索の2つの例を紹介した。東京歯科大学と共同で、健常者と歯周病患者の歯周病関連最近の分布について調査を行っているが、微生物集団のゲノムを丸ごと調べて、微生物と環境の関係を明らかにするメタゲノム解析にTSUBAMEを利用することで、「ノードのGPUを使いこなすと、計算速度がひとけた速くなる」と、研究成果を出すためのスピードが大きく変化すると指摘した。
ガン治療薬の創薬としては、タンパク質間の相互作用を予測し、細胞がガン化することを阻害するための創薬に注目が集まっていることから、TSUBAMEによるマルチGPU大規模並列計算でタンパク質間の相互作用を予測するために活用しているという。
ベンチャー企業アクセルスペースは、超小型衛星を提供するビジネスを行っているが、新たに自社で超小型衛星50機を打ち上げ、地球の状況を継続的に分析し、そのデータを販売する新ビジネス起ち上げを進めている。
「50機の衛星群によって、地球上の全陸地45%をカバーし、全世界で、毎日データ更新が実現する。それを利用して、農業をデータによって超精密に進めていくといったことが可能となるが、データが多くなるため人間の目で画像確認を行うことはほぼ不可能。機械学習で画像を処理し、ニーズに合わせたデータを顧客に活用するビジネスモデルを想定している。TSUBAMEには、衛星画像の学習とネットワークのチューニングに関して、演算処理能力に期待している」(アクセルスペース 取締役の宮下直己氏)。
なお、稼働が8月を予定していることから、半期ごとに発表されるスパコン性能のランキングISC2017に間に合うについては、「タイトなスケジュールとなるため、うまくいけば間に合うだろうが、現段階では間に合うのかはわからない」(松岡教授)という。