クラウド&データセンター完全ガイド:特別企画

「Yahoo! JAPAN」の安定運用とサービスの進化を支えるヤフーのサイトオペレーションの極意とは?

スパコン導入の経験を通じて、運用スキル・ノウハウをさらに高度化

弊社刊「クラウド&データセンター完全ガイド 2019年冬号」から記事を抜粋してお届けします。「クラウド&データセンター完全ガイド」は、国内唯一のクラウド/データセンター専門誌です。クラウドサービスやデータセンターの選定・利用に携わる読者に向けて、有用な情報をタイムリーに発信しています。
発売:2018年12月22日
定価:本体2000円+税

ヤフー株式会社
https://www.yahoo.co.jp/

人々の生活を豊かにし、ビジネスを促進する多彩なサービスを提供する、日本最大級のポータルサイト「Yahoo! JAPAN」。近年ではAI、ディープラーニング(深層学習)のさらなるビジネス活用に向けて、スーパーコンピューター「kukai」を独自に開発するなど、その視線は未来をも見据えている。そうした最先端技術の活用も含め、高品質かつ安定したサービスを提供していくにあたり、ヤフーではどのようなインフラ運用を実践しているのか。Yahoo! JAPANにおけるサイトオペレーションの取り組みについて探っていこう。

エンタープライズからハイパースケールまでを包含するYahoo! JAPANのインフラ

ヤフー株式会社 テクノロジーグループ システム統括本部 サイトオペレーション本部 本部長 高澤 信宏氏

 日本最大級のポータルサイト「Yahoo! JAPAN」を運営するヤフー。1996年の開設以来、20年以上にわたり、ニュースをはじめ、ショッピングやオークション、ゲーム、地図情報など、日々の生活に関する100を超えるサービスを提供してきた。近年では、動画広告やリッチコンテンツ化に加え、データのビジネス活用にも積極的に取り組んでいる。

 このように個人のみならず企業、そして社会にとっても重要なインフラとなっているYahoo! JAPANであるが、日々、安定かつ高品質なサービスを維持していくための運用が行われている。

 テクノロジーグループ システム統括本部 サイトオペレーション本部で本部長を務める高澤信宏氏は、「エンタープライズ規模からハイパースケールの領域まで、多種多様なサービスがYahoo! JAPANのシステムインフラで運用されています。これらの規模や求められる要件が異なるサービスを共に開発し、かつ、同じインフラで運用している事業者は他に例を見ないのではないでしょうか。そうした両者が混在する環境であっても高品質なサービスを提供していけるよう、インフラの安定運用に注力しています」と説明する。

安定稼働を基軸に、世の中の半歩先を見据えたインフラを構築

 それでは、Yahoo! JAPANのインフラはどのようにして運用されているのか。詳しく見ていこう。

 高澤氏は、先に述べた安定運用の実現に加えて、もう1つの重要なテーマとして「効率化」を挙げる。「Yahoo! JAPANのインフラですが、基本的な方針としてシンプルな運用による効率化を心掛けています。例えば、サーバーやストレージ、ネットワーク機器に関しても、可能な限り導入する機種を厳選し、シンプルな構成の実現に努めています。多種多様なベンダーの異なる製品を選択し、運用を行おうとしたならば、そのぶんだけ工数が増えることに加え、メーカーやベンダーとのコミュニケーションも増えかねないからです」と強調する。

 現在、Yahoo! JAPANの様々なサービスを稼働させる基盤であるサーバーは、サービス利用者の規模拡大やサービスメニューの拡充に伴い、約8万台にまで増加しているという。

 「このように膨大な数のサーバーを安定して運用できているのは、機種選定をしっかりと行い、シンプルな構成を採用しているからにほかなりません。現在でも、月に何千台という規模でサーバーが増加し続けていますが、調達、納品、設置までを迅速に行えるよう、構築フローも定型化しています」(高澤氏)

 その一方で、高澤氏は、「安定性を重視する、と言えば“守り”の姿勢に入っていると捉えられがちですが、技術面においては、世の中の半歩先を進んでいけるよう、常にチャレンジしていくことも決して忘れてはいません」と続ける。

 そうした取り組みの1つが、OCP(Open Compute Project)仕様のサーバーの導入である。OCPとは、データセンターやサーバー等のハードウェア仕様を標準化・オープンソース化し、大規模データセンターに最適なハードウェアを設計・提供するために2011年4月に発足したプロジェクトで、ヤフーもサーバー運用の効率化の一環として、歴史的に新しいOCP仕様サーバーの国内導入を他社に先駆けて実施している。

 「OCP仕様のサーバー導入の背景には、運用の効率化がありました。一般的なサーバーは前面に電源スイッチ、背面にはネットワークや電源ケーブルのインタフェースがあり、ケーブルの繋ぎ替えなどではラックの前と後ろを行ったり来たりしなければなりません。対して、OCP仕様サーバーはそれらのインタフェースが前面に配備されており、入れ替えやメンテナンスといった作業もすべて前面で行えるため、運用の負荷やコストを大きく削減できています」と、高澤氏は説明する。

リッチコンテンツ化やビッグデータ分析に伴う大容量トラフィックにも対処

 冒頭でも述べたように、近年では動画などのリッチコンテンツ化が急速に進む一方、ビッグデータの活用も進み、Yahoo! JAPANにおいてやり取りされるトラフィック量は、さらに増加の一途を辿っている。そうした大容量トラフィックを効率よく制御するためのネットワークの構築・運用についても、アップデートが進められてきた。例えば、東北から九州までの各データセンターは100Gbpsの高速専用線で接続している。加えて、東京と大阪のデータセンターはIX(Internet Exchange point:インターネット相互接続点)との接続を行っているほか、自前CDN(コンテンツ配信ネットワーク)を配置。これらの施策により、リッチコンテンツの配信についても輻輳を生じさせることなく、安定した通信が実現されている(図1)。

図1 Yahoo! JAPANのネットワークの概要図

 また、ビッグデータの活用に向けた対処についても高澤氏は、「データセンター内のサーバーと企業側のシステムを結ぶエンタープライズ向けのネットワークであれば、従来のようにセキュリティを確保しつつ標準的なネットワークを構築、運用していけばよいのですが、ビッグデータ分析などのハイパースケールの領域では、ネットワークの構成や設計が全く異なります。ビッグデータの活用ではデータセンター内のサーバー間を行き来するトラフィックが増加する傾向にあり、そうした状況にも柔軟に対処可能なネットワークを構築、運用していかなければなりません」と説明する。

 そこでヤフーでは、ハイパースケールのネットワークについて、トラフィックの増加に応じてネットワーク機器やリソースを柔軟にスケールアウト可能な「CLOS Fabric Network」の導入を2016年から推進している。これにより、今後、ますます需要が増加するビッグデータ分析等についても、十分に対応可能なネットワーク環境が整備されている。

 「このようにYahoo! JAPANでは、エンタープライズとハイパースケールの両者を混在させたネットワーク環境を構築していますが、共に安定した運用を継続できている点が強みであると考えています」(高澤氏)

レイヤー1から7まで対応可能な運用体制が強み

 続いて、Yahoo! JAPANのサービス群、およびシステム群を支える基盤となる、データセンターについても見ていこう。ヤフーの膨大なサーバー群は、福岡県北九州市の「北九州データセンター」、福島県白河市の「白河データセンター」を中心に国内数カ所の大規模データセンターで運用されている。これらの国内データセンターだけでなく、米国ワシントン州にも2カ所のデータセンターを構えており、主にYahoo! JAPANのビッグデータ分析などの用途で利用されている。

 「2014年にワシントン州でデータセンターを稼働しましたが、2018年12月にはさらに新たなデータセンターが竣工し、稼働を開始します。米国にデータセンターを設置した理由の1つは安価な電気料金で、日本と比べて6分の1程度であることから、ビッグデータ分析に必要となるマシンパワーを潤沢に使っても大幅な電力コストの削減が実現されています。また、米国にデータセンターを配備することで、BCP(事業継続計画)を強化するという側面もあります」と高澤氏は説明する。

 一方、Yahoo! JAPANが保有するマルチビッグデータを活用するための処理基盤強化を目的として、白河データセンターも2018年4月、新しく5号棟を竣工した(写真1)。同棟は環境対応型データセンターとして白河の冷涼な気候を生かし、サーバーから出る排熱を冷やすために、建屋への直接外気導入と水冷空調を組み合わせたシステムを採用している。これにより、年間のPUE値で約1.2という高い冷却効率と、建築コスト、および空調電力の抑制を実現している。これにより、マルチビッグデータ分析の推進に際して、高い電力供給と冷却性能が求められる高性能サーバーの運用にも、対応可能な環境を構築している。

写真1 2018年4月、白河データセンターに新しく竣工した5号棟(©FOTOTECA)

 「このようにヤフーのインフラ部隊は、サーバーやネットワーク、さらにはデータセンターと、OSIのレイヤー1である物理層からレイヤー7のアプリケーション層まですべてサポート可能な体制を整えていることが強みです。日本国内でこのような体制を有した事業者はなく、業務に携わるエンジニアも、日々、やりがいを感じながらインフラの運用に努めています」(高澤氏)

ディープラーニングのさらなる推進に向けスーパーコンピューター「kukai」を開発

ヤフー株式会社 テクノロジーグループ データ&サイエンス ソリューション統括本部 テクニカルディレクター 角田 直行氏

 時代の趨勢に応じて最先端の技術を採用しながらも、インフラの安定運用に努めているヤフーだが、最近の大きなトピックスとして挙げられるのが、大規模なディープラーニング(深層学習)処理を目的に開発されたスーパーコンピューター「kukai」の導入と運用である(写真2)。

 kukai開発の経緯について、テクノロジーグループ データ&サイエンスソリューション統括本部 テクニカルディレクターの角田直行氏は、次のように説明する。

 「近年、ヤフーではビッグデータを基軸とした事業を推進しており、Yahoo! JAPANの様々なサービスから得られたマルチビッグデータの活用により、さらなるサービスの拡充や顧客満足度の向上に取り組んできました。その一環として、昨今、注目を集めているAIについても取り組みを進めているのですが、その根幹となる技術の1つにディープラーニング(深層学習)があります。今後もさらにデータの増加が進み、ディープラーニングの利活用の拡大が予測される中、いずれは既存のインフラやシステム環境がボトルネックになるのでは、と危惧していました。そこで、ディープラーニングに最適なシステム環境の実現に向けて試行錯誤していたところ、私たちが求めているシステムのスペックがスーパーコンピューターに類似していることに気付きました。同時に、対外的にも分かりやすいアピールを行おうという観点からも“スパコン”の通り名を冠した、kukaiの開発に着手したのです」(角田氏)

写真2 スーパーコンピューター「kukai」

 kukaiの開発にあたって注力したのが、省電力化へのチャレンジだった。「ディープラーニングの利活用には、より多くのコンピューティングパワーが求められます。つまり、データセンターに設置する機器や処理量が増え、年間の電力コストも増加することになります。そこで、kukaiは実現目標の1つとして、電力効率の向上、すなわち省電力化を掲げました」と角田氏は話す。

 こうした目標を達成するために採用されたのが、「液浸」による冷却方式だ(写真3)。一般に冷却方式としては空冷式、水冷式がよく知られている。対して、液浸とは、電気を通さない特殊な液体(フッ素系不活性液体)に直接ハードウェアを浸すという手法で、高い冷却効率を実現するものだ。この方式を採用したことも奏功し、当初掲げた省電力化を実現。kukaiはスーパーコンピューターの省エネルギー性能を競う世界ランキング「GREEN500」で世界第2位(2017年6月でのランキング)を獲得することができた。

写真3 kukaiの冷却では、フッ素系不活性液体に直接ハードウェアを浸す「液浸」方式が採用されている

 また、性能面についても、従来、社内で利用していたGPUサーバー1台とkukaiの比較を行ったところ、kukaiは半分のリソースで約180倍の演算処理速度を実現している。これにより、大規模なディープラーニング処理を短時間で、かつ低コストで行える環境を構築することができた。

kukaiの設置、運用を通じて新たなノウハウとスキルを蓄積

 このような前人未踏の挑戦に向けて、運用を担うサイトオペレーション本部側には様々なチャレンジが求められた。実際、液浸冷却のシステムやスパコンの設置に際しては、一般のデータセンターとは異なり、耐荷重や液漏れ対策、専用の冷却配管といった大規模な対策が必要となる。そうしたことから、kukaiの設置や運用にあたり、当初はデータ&サイエンスソリューション統括本部とサイトオペレーション本部との間で様々な議論が交わされたという。

 高澤氏は、「当初は、運用を担う側として、やはり戸惑いは隠せませんでした。液浸を行うための水槽のスペースがあれば、一般的なIAサーバーを何百台も置くことができますし、また、万が一の液漏れの発生など、他システムへの影響なども考慮しなければなりません。しかし、議論を続けていく中で、最終的にヤフーとして挑戦的な取り組みを行うならば、いっそ徹底的にチャレンジしよう、という結論に至りました」と振り返る。

 実際、kukaiの配備にあたり、液浸を行う水槽をデータセンター内に設置するための場所の確保をはじめ、冷却液を室外にあるラジエーターに循環させる必要があったことから、センター内の壁面に穴をあける等、これまで経験したことのないような作業も行ったという。

 「液浸のような新しい冷却方式の採用など、kukaiの設置では様々な挑戦的な取り組みを行いましたが、その過程でより多くの経験値を積むことができたと考えています。運用効率の向上や省電力化を実現しただけでなく、半歩先から一足飛びに先へと進んだ技術に踏み込めたことで、運用エンジニアとしても先進的な取り組みにも対応可能なキャパシティを得ることができました」(高澤氏)

 現在、kukaiは社内の多様なディープラーニングの用途でフル活用されており、既に2基目となるkukaiの開発も終了、実稼働に向けた準備が進められているという。

 高澤氏は、「1基目のkukaiに隣接するかたちで2基目を設置しようとしています。1基目を設置した際にkukaiの設置や運用に関するノウハウを蓄積できたことや、これまでの密接なコミュニケーションを通じて、両部門の間での意思疎通もできていたので、2基目の設置はスムーズに進められました」と語る。

 一方、角田氏は「先にも述べたように、今回kukaiを開発したのは、ディープラーニングのさらなる利活用に向けて最適な環境を構築することでしたが、必ずしも現状のkukaiがベストの解答とは思っていません。高性能なGPUの採用など、開発当時の最新技術を駆使して作り上げたことに自負はありますが、既に数年が経ち、大きな環境の変化も生じています。今後、さらにkukaiの性能を向上させるような技術も登場してくるでしょうし、海外も含めて多くの研究開発が進んでいます。私たちとしても、乗り遅れないよう、常にキャッチアップしてきたいと考えています。そうした中で、新しい技術の導入に際して、再び運用側に苦労をかけたり議論を戦わせたりすることがあるかもしれません。しかし、互いに切磋琢磨しながら、ヤフーのシステムやサービスをブラッシュアップしていけるよう、これからも密なコミュニケーションを続けていきたいと考えています」と、今後の展開と要望を述べた。

 今後、ヤフーはさらにサービスの拡充と共に、インフラの運用をどう進化させていくのか。高澤氏は、「機器の選定から設計、設置、運用にまつわるスキルの蓄積、そして電力の削減や環境への配慮など、運用に関して安定稼働やコスト削減を実現するためのサイクルは既にできていると自負しています。この好循環をもっと円滑に回していけるような取り組みをさらに進めていきます。また、コンテンツのさらなる大容量化、ビッグデータや機械学習の活用など、顧客やエンジニアが求める新たな要件にもしっかりと対応可能なインフラを、迅速に提供できるよう努めていきたいと考えています」と、展望を語る。

 そうした中で、高澤氏は、同社のサイトオペレーションに携わるエンジニアの強みについて、こう分析する。

 「ヤフーのエンジニアは好奇心が旺盛で、しっかりと様々な事象に取り組んでいこうとするチャレンジ精紳を持っています。実際、日本ではなかなか経験ができないような案件に携わることも少なくありません。そこでは数々の困難を伴うこともありますが、責任感を持って、かつ、楽しむことができるようなエンジニアが揃っています」(高澤氏)

 また、ヤフーには約3,000名のクリエイターが在籍しているが、同社の業務に興味を持ち、共にチャレンジを行っていきたい人材を常に求めているという。「まず、私たちが求めるスキルは、コミュニケーション能力の高さです。社内、および顧客のニーズや情報を的確に理解したうえで最適な提案を行い、かつ、インフラの構築や運用に反映させられる人材をいつでも求めています」と、高澤氏はアピールした。

お問い合わせ先

ヤフー株式会社

https://www.yahoo.co.jp/