インタビュー

Mellanox本社エグゼクティブ・インタビュー【前編】~最新のソフトウェアソリューション

 本誌では、データセンター内の高速インターコネクト技術として注目を浴びているInfiniBandの技術動向(前編後編)についてお伝えしてきた。これらの記事を執筆するにあたり、日本国内でInfiniBand関連のソリューションを手がけているメラノックス テクノロジーズ ジャパン株式会社の協力を得たが、同時にイスラエル本社(Mellanox Technologies Ltd.)や米国(Mellanox Technologies Inc.)からエグゼクティブが来日された際にはone-on-oneによるインタビューの機会を設けていただくこともお願いしていた。

 先日、本社 最高技術責任者(CTO)のMichael Kagen氏、ワールドワイドセールス バイスプレジデントのMarc Sultzbaugh氏、スイッチ製品に関するプロダクトマーケティング責任者のAmit Katz氏が来日し、InfiniBandやEthernetに対する同社の取り組みを中心にさまざまな話を伺うことができた。本稿では、これらのインタビューの模様を対談形式にてお伝えしていく。

Mellanox Technologies Ltd. 最高技術責任者(CTO)のMichael Kagen氏
写真左はMellanox Technologies Inc. VP of Worldwide SalesのMarc Sultzbaugh氏、写真右はMellanox Technologies Ltd. Director Product Management, Switch Systems & SiliconのAmit Katz氏

広帯域・低レイテンシを最も必要とする分野からInfiniBandの採用が始まる

――InfiniBandは、1999年10月に発表されました。当時はまだPCI Expressが登場する以前だったこともあり、PCIやPCI-Xの次世代を担う内部接続用のシステムインターフェイスとして、ハイエンドサーバーからPCに至るまで、幅広いセグメントにおいてInfiniBandが採用されるとさえ言われていました。

Michael Kagen氏
 内部接続用のシステムインターフェイスに関しては、これまで広く使われてきたPCIバスのエンティティをそのまま維持できるPCI Expressが採用されています。PCI Expressは、より高速なシリアル伝送技術を採用した物理レイヤに切り替えつつも、ソフトウェアからは従来のPCIバスと同様に扱えるように設計されています。ソフトウェアへの追加投資を最小限に抑えたり、開発期間の短縮化を図るなど、さまざまな実情を踏まえた上で、業界全体がInfiniBandではなくPCI Expressを採用してきたわけです。

――内部バスに関してはPCI Expressがほぼ全面的に採用されましたが、外部バスに関してはいくつかの選択肢があります。そのひとつがInfiniBandということになりますが、登場してからしばらくの間は、HPC(High Performance Computing)を中心に、金融証券向けの高速トレーディングや自動車関連の開発業務など、いわゆるテクニカルコンピューティングの分野でしか採用されませんでした。

Michael Kagen氏
 InfiniBandは、HPC向けのインターコネクト技術として登場したわけではなく、あくまでもデータセンター内の諸問題を解決する汎用的な高性能I/Oソリューションとして登場しています。そして、データセンターに収容されるシステムのうち、広帯域・低レイテンシの通信を最も必要とする分野からInfiniBandが順次採用されていきました。それが、大学・研究機関などに導入されているHPCシステム、金融証券向けのアルゴリズム取引システム、製造業の開発環境を支える高速計算システムなどになります。

Fortune 100に属する大企業の30%以上がInfiniBandを活用したコンピュータシステムを導入している(出典:メラノックス テクノロジーズ ジャパン株式会社、以下同様)。HPCやテクニカルコンピューティングでの利用が中心だが、今後はエンタープライズIT分野にも広がっていく見込みだ

マルチコアCPU・SSD・サーバー仮想化・高速DBなど、I/Oを逼迫させる要素がInfiniBandの採用を後押し

――InfiniBandは、ここ数年でnon-HPC分野(HPC以外の分野)でも積極的に採用されるようになりました。特にエンタープライズITでの採用例が目立ってきています。

Michael Kagen氏
 non-HPCとはいっても、HPCとまったく無関係ということではなく、HPCの特性を生かせるようなHPC以外の分野をnon-HPCと呼んでいます。つまり、HPC分野から導入が始まり、そのHPC分野で求められていたような要件がテクニカルコンピューティングやエンタープライズITにも派生したことで、InfiniBandの適用範囲がさらに広がっていったということです。その背景には、多くのコンピューティングシステムにおいて、極めて高いI/O性能が求められているという事情があります。

 I/O性能の伸び率は、CPU性能やメモリ性能と比べるとかなり低く、CPUやメモリとの間に大きな性能ギャップが生まれています。これに追い打ちをかけるかのように、マルチコアCPUやフラッシュ系高速ストレージ(SSDやSSS)が登場し、システム全体の中でI/Oが大きなボトルネックとなっていきました。そして近年では、サーバー仮想化技術や高性能データベースが普及し、CPUやメモリの利用率も大きく高まっています。これは、同時にI/Oに対するニーズもいっそう厳しくなることを意味しています。

 さらに、スマートフォンやスレートなどのハンドヘルド端末が普及したことで、サーバーが扱う情報量も爆発的に増えています。InfiniBandをはじめとする高速インターコネクト技術の開発は、このようなI/Oの高速化に対するニーズが大きな原動力となっています。

――こうしたI/Oハングリーなデータセンター環境にマッチするインターコネクト技術として、InfiniBandが注目されるようになったというわけですね。

Marc Sultzbaugh氏
 はい、その通りです。そして、Mellanoxはこのようなデータセンターのニーズに応えるI/Oソリューションを提供することで成長してきた企業です。InfiniBandに関しては、常に業界に先駆けて最新の規格に基づくHCA(Host Channel Adapter)やスイッチ製品を投入しています。

 他社では、QDR(Quad Data Rate)規格までのサポートにとどまりますが、当社は最新のFDR(Fourteen Data Rate)規格に対応する製品をすでに発売しています。その帯域幅は56Gbps(4リンクの場合)に達し、システム間を接続するオープンなインターコネクト技術としては最も優れたデータ転送性能を誇ります。

 ただし、当社はお客さまが必要とするI/Oソリューションをトータルに提供することが使命ですから、InfiniBandだけに限定するつもりはありません。近年では、10Gigabit Ethernet(GbE)や40GbEにもかなり力を入れており、2011年第4四半期には10GbE NIC市場のシェアで世界第1位(24.6%、Dell'Oro Groupの調べによる)を獲得しています。

 また、InfiniBandや10/40GbEの接続ポートだけが高速になっても意味がありませんので、サーバーとHCAとの接続も高速化するために、最新のPCI Express規格をいち早くサポートしています。現在発売されている当社のアダプタ製品は、最新のサーバープラットフォーム(Intel Xeon E5-2600番台などを搭載するシステム)で利用可能なPCI Express Gen3にも対応済みです。Mellanoxは、現時点においてPCI Express Gen3に対応したネットワークソリューションを提供する業界で唯一のプロバイダとなっています。

SATAインターフェイスやSASで接続されるSSD(Solid State Drive)、PCI Expressで接続されるSSS(Solid State Storage)は、従来のHDDを大きく上回るデータ転送性能を持つ。このため、サーバー側のI/Oに対する要求がいっそう厳しいものになっている

ユーザーがInfiniBandとEthernetのどちらも柔軟に選べる環境を提供する

――40GbEの登場によってInfiniBand(56Gbps)との性能差が縮まり、いずれ40GbEが普及してくれば、ユーザーには2つの魅力的な選択肢が生まれます。今後、InfiniBandとEthernetは、どのように使い分けるべきなのでしょうか。

Marc Sultzbaugh氏
 お客さまの事情はさまざまですので、具体的な用途とそれに適したインターコネクト技術を単純に対応付けることは困難です。Mellanoxとしては、お客さま自身がInfiniBandもEthernetも柔軟に選択できるようにする環境を整えることが先決だと考えています。そして、そのような取り組みのひとつがVirtual Protocol Interconnect(VPI)です。VPIに対応したホストアダプタ用チップやスイッチ用チップは、InfiniBandとEthernetの両方をきちんとサポートしています。

 最新のホストアダプタ(Connect-3 VPIベース)は、InfiniBand QDR(40Gbps)/FDR(56Gbps)もしくは10/40GbEのどちらかで使用可能なポートが2ポート搭載されています。これにより、お客さまは既存のインフラに対する投資をしっかりと保護しながらも、これからの新しい計画に基づくインターコネクト技術を柔軟に導入できます。他社製品であれば、InfiniBandのみ、もしくはEthernetのみの接続性しか提供されませんので、使用するインターコネクト技術は完全に決め打ちの状態となります。

――Mellanoxの強みは、これからのデータセンターを支える二本柱(InfiniBandとEthernet)を上手に共存させているところにあるのでしょうか。

Michael Kagen氏
 InfiniBandとEthernetの両方を手がけている点は確かに大きな強みといえますが、Mellanoxが最もアピールしたいのは、シリコンレベル、ボードレベル、システムレベルでの接続性、さらにはケーブルやコネクター、管理ソフトウェアなど、データセンター内のI/Oにまつわるソリューションをトータルに提供していることです。近年では、InfiniBandや10/40GbEの優れたデータ転送性能を最大限に引き出す、エンドポイント向けのアクセラレーションソフトウェアにもかなり力を入れています。

Mellanoxの強みはシリコンレベル、ボードレベル、システムレベルでのソリューションを一括して提供していることである。自社開発のチップとそれを搭載したアダプタやスイッチ製品、さらにはケーブルやソフトウェアなどもトータルに手がけている

OSカーネルバイパス機能によって通信性能を最大限に引き出すVMA

――2012年1月に私が寄稿したInfiniBandの解説記事では、Mellanoxが提供するストレージソフトウェア「Storage Accelerator(VSA)」を取り上げました。それ以外にもMessaging Accelerator(VMA)やUnstructured Data Accelerator(UDA)がありますよね。

Michael Kagen氏
 VMAは、標準的なTCP/IPの処理に組み込まれている各種バッファ間のデータコピーを排除するOSカーネルバイパスの機能を提供するソフトウェアソリューションです。InfiniBand(IPoIB)やEthernet上でTCP/IPの通信を行う場合、従来ながらの実装では十分な性能が発揮されません。そこで、VMAのOSカーネルバイパス機能を活用することにより、マルチキャスト、ユニキャスト、TCP通信のスループット向上とレイテンシ削減、そしてCPUオーバーヘッドの軽減につなげられます。

 InfiniBandやRoCE(RDMA over Converged Ethernet、現時点ではロスレスの10GbEベース)との組み合わせによって、アプリケーション間のレイテンシは、UDPで1.3マイクロ秒、TCPで最小1.6マイクロ秒を達成しています(いずれも最小値)。

Marc Sultzbaugh氏
 VMAは、Memcachedに代表される分散型メモリキャッシュシステムとの組み合わせに適しています。例えば、顧客がeコマースサイトで商品の検索や購入を行う際には、バックエンドの商品・顧客データベースに対してさまざまな問い合わせを行います。

 通常、データベース内の情報はディスクストレージに保管されているため、問い合わせがあるたびに長い待ち時間が発生します。Memcachedは、高速なメモリキャッシュを活用することでデータベースへの直接的なアクセスを削減するものになります。

 しかし、Memcachedサーバーを単に設置するだけでは、フロントエンドシステム(アプリケーションサーバー)とMemcachedサーバー間の通信性能が新たなボトルネックになります。InfiniBandやRoCEの導入によって帯域幅そのものは確保できますが、TCP/IPの複雑な処理がそのままボトルネックとして残り続けます。このような環境にVMAを導入することで、Memcachedならではの優れたトランザクション性能を最大限に引き出せます。

 なお、VMAはダイナミックにリンク可能なBSD-Socketインターフェイスに準拠したライブラリを採用しており、ソケットベースのアプリケーションをシームレスにサポートします。このため、アプリケーション側の設定変更は不要で、迅速に導入することができます。

VMAは、従来のTCP/IP処理に含まれる複雑な工程を排除するOSカーネルバイパスの機能を提供するソフトウェアソリューションである
Memcachedの導入によってトランザクション性能が向上するが、Memcachedサーバーとフロントエンドサーバーとの通信速度が新たな律速因子となる。ここで、VMAを導入することにより、Memcachedサーバーのレスポンスを大きく高められる
Mellanoxの社内環境でMemcachedサーバーのトランザクション性能を計測した結果(暫定的な数値)。インターコネクトを1GbEから10GbEに変更することでトランザクション性能は向上するものの、小さなデータサイズの条件下ではTCP/IPの処理がボトルネックとなってあまり改善されていない。これに対し、10GbEとVMAを組み合わせることにより、小さなデータサイズでも高い性能向上率を達成できている

スケーラブルで効率性にも優れたHadoop環境を実現するUDA

――MellanoxのWebサイトにはまだ詳細な情報が挙がっていないようですが、もう一方のUDAのほうがいかがでしょうか。

Marc Sultzbaugh氏
 UDAは、Apache Hadoop 非構造化データに対するアクセラレーションをサポートするソフトウェアソリューションです。Hadoopは、FacebookやGoogleなどの大規模な分析インフラを支える技術として登場しましたが、最近ではさまざまな企業がWeb 2.0サービスの提供や自社のビッグデータ解析などにHadoopを活用するようになりました。FacebookやGoogleは、何百人ものエンジニアたちがHadoopの技術開発、構築、運用を行っていますが、通常の企業がそこまでのエンジニアリングリソースを確保することは不可能です。

 そこでMellanoxは、特にインターコネクトの面から、多くのお客さまがHadoopを最も効率的に使えるようにするソリューションを提供しています。それがUDAなのです。

Michael Kagen氏
 Hadoopを通じたビッグデータ解析では、並列処理の効率化が鍵を握っています。コンピューティングリソースに関しては、クラスタリングシステムによって数多くのノードを接続したり、ノード内にマルチコアCPUを導入することで並列化が可能なのですが、これらのノードを接続するインターコネクトが十分に広帯域・低レイテンシなものでなければ、ノード間の通信が新たなボトルネックを生んでしまいます。

 ここでは、InfiniBandやRoCEの導入によってノード間の通信を高速化できますが、Memcached環境と同様にインターコネクトの広帯域化だけでは満足のいく性能が引き出せません。UDAは、Hadoopのプラグインソフトウェアとして動作し、HCAやNICとHadoopプラットフォーム間の通信にOSカーネルバイパスやRDMAなどの機能を提供します。これにより、ノード間の通信効率を最大限に高められます。また、Shuffle操作と並行してReduce操作も開始することにより、HDFSを取り巻くディスクI/O性能も同時に改善されます。

 Mellanox社内の検証結果によれば、Mapper 8台、Reducer 4台、Disk 4台のHadoop構成において、ファイルサイズ20GB、ノード当たり16GBのデータを持つ環境でTerasortベンチマークを実行したところ、UDAの有無で2倍前後の性能差が出ています。UDAがない環境では、ノード間を接続するインターコネクトが1GbE、10GbE、IPoIBのいずれにおいても処理時間に差が出ませんでしたが、UDAを組み合わせることで処理時間が45%も短縮されました(つまり2倍前後の性能向上)。

 同時にCPUの負荷率も軽減されていますが、これはネットワークインターフェイスの処理に無駄なCPUリソースが使われなくなったことを意味しています。このように、UDAを組み合わせることで、優れた経済性と拡張性を併せ持ったHadoop環境を構築できるわけです。

2012年から本格的に販売を拡大していくUDA。広帯域・低レイテンシのInfiniBandやRoCEと組み合わせることで、Hadoopアプリケーションの処理能力を最大限に引き出せる
Hadoopの並列処理では、ノード間の高速通信が鍵を握る。また、Shuffle操作やHDFSのレプリケーション操作でバースト的な特性のI/O処理が集中しやすい。これらの通信にUDAを活用することで、Hadoopシステム全体の処理能力を引き上げられる
Mellanoxの社内環境でTerasortベンチマークを実行した結果。既存のHadoop環境でノード間の接続に1GbE、10GbE、IPoIBのいずれを採用しても性能差が現れなかったが、10GbEやInfiniBandとUDAを組み合わせることで処理時間が45%も短縮されている。また、ネットワークインターフェイスの処理に無駄なCPUリソースが使われなくなり、CPUの負荷率も軽減されていることが分かる

 後編では、サーバー仮想化分野に対する取り組み、省電力の重要性、Mellanoxの新しい柱であるEthernet分野での展望などを取り上げていく。