イベント

「輝け! クラウドオペレーターアワード2021」結果発表、自社の運用にも生かせる貴重な体験談を見てみよう

「Cloud Operator Days Tokyo 2021」セッションレポート

 クラウドインフラ運用技術者のための年次カンファレンスイベント「Cloud Operator Days Tokyo 2021(CODT2021)」が、8月31日まで開催されている。CODT2021では、セッションを7月14日からオンデマンド配信する形式をとっている。

 8月27日には、ライブ配信形式のイベントが開催された。基調講演と、パネルディスカッション、そしてセッションの中から選考する「輝け! クラウドオペレーターアワード2021」の授賞式が行われた。

 本稿では、「輝け! クラウドオペレーターアワード2021」の結果をレポートするとともに、受賞セッションの概要を紹介する(情報開示:筆者も審査委員の一人)。

 配信終了が近いので、興味あるセッションがあれば、今のうちに見ておこう。

CODT2021実行委員長の長谷川章博氏(AXLBIT株式会社、左)と、審査委員長の関谷勇司氏(東京大学、右)、受賞者の方々

大賞:エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ

 「大賞」を受賞したのはNTTコミュニケーションズの佐野成氏による「エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ」だ。

大賞:エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ
授賞式にリモート出席したNTTコミュニケーションズの佐野成氏

 NTTコミュニケーションズが「Enterprise Cloud 2.0」としてOpenStackにより世界13拠点で提供する仮想サーバーの基盤(仮想マシン総数が約3万5000台)で、ホストOSをバージョンアップした際の、技術的な苦労話が解説された。

 エンタープライズ向けなので、互換性を担保しないといけず、一方で仮想サーバーをほとんどコントロールできないという制約がある。その中で、ハードウェア、ホストOS、仮想化基盤、ゲストOSの組み合わせによって生じる問題が具体的に紹介された。

 アワードの選考理由としては、クラウド事業者として長期間安定してサービスを提供するためにしたこととその苦労が語られて、非常によくわかり、Cloud Operator Daysとしても本筋であることが挙げられた。

 授賞式にリモートで出席した佐野氏は「クラウドを運用していてOSのバージョンアップのはなかなか体験できないので、辛かった点をできるかぎり公開することで、ほかの方が同じ轍を踏まないようにという思いで話した」とコメントした。

「エンタープライズ向けクラウドサービスにおける大規模・商用環境でのホストOSバージョンアップ」セッションの模様

実行委員会賞:超PayPay祭による高負荷にショッピングはどのように立ち向かったか

 審査委員会とは独立してCODT2021実行委員会が選ぶ「実行委員会賞」は、ヤフー株式会社の大岩朗氏、信原有志氏、小中史人氏による「超PayPay祭による高負荷にショッピングはどのように立ち向かったか」が受賞した。

実行委員会賞:超PayPay祭による高負荷にショッピングはどのように立ち向かったか
授賞式にリモート出席したヤフー株式会社の小中氏(大岩氏と信原氏は声で出席)

 期間中にPayayで決済するとPayPayボーナスが多く付与されるセール「超PayPay祭」における運用が語られた。

 2020年11月の超PayPay祭では、最終日の最大還元率を狙ってユーザーが殺到したためカートが表示できなる不具合が発生する事態が発生。そこから1年がかりの改修計画が立てられたものの、LINEとの経営統合を記念して急遽2021年3月超PayPay祭が決定してしまったため、3か月で対策した様子が説明された。

 運用体制の見直しや、徹底した負荷試験、捌ききれない負荷への対応などが解説された。また、CPU負荷が上がりすぎてラックごと電源が落ちかけた話や、ログが流れすぎてSplunkが溢れそうになった話なども紹介された。

 アワードの選考理由としては、大規模システムの裏側を語った希少性と先進性が挙げられた。

 授賞式にリモートで出席した小中氏、大岩氏、信原氏は、「3か月という短い期間で、以前さばけなかったトラフィックをさばくために期待できる手段を採用し、その知見を発表できて本当によかった」とコメントした。

「超PayPay祭による高負荷にショッピングはどのように立ち向かったか」セッション

視聴者賞:SREのはじめ方 NTTドコモ サービスデザイン部RAFTELが実践するサービスレベルの計測と可視化

 視聴者数がいちばん多かったセッションを表彰する「視聴者賞」は、New Relic株式会社の清水毅氏とNTTドコモの宮川倫氏による「SREのはじめ方 NTTドコモ サービスデザイン部RAFTELが実践するサービスレベルの計測と可視化」が受賞した。

視聴者賞:SREのはじめ方 NTTドコモ サービスデザイン部RAFTELが実践するサービスレベルの計測と可視化
授賞式にリモート出席したNew Relic株式会社の清水毅氏
授賞式にリモート出席したNTTドコモの宮川倫氏

 このセッションは、SREの基本とNew Relicのサービスの紹介、ドコモの事例、両者の対談の3つのパートからなっていた。

 最初のパートでは、SREがフォーカスするSLIとSLOと、それに対するNew Relicのサービスとして、New Relic SLIダッシュボードなどを紹介した。

 続いてドコモの事例および対談では、ドコモのサービスが使っているAPI基盤「RAFTEL」を紹介。その運用での課題として、ツールが多すぎることや、問い合わせが多すぎることが挙げられた。そしてその解決としてNew Relicを導入し、オブザーバビリティを向上させるとともに、エラーバジェットを使って新機能をリリースするマインドが生まれたことが紹介された。

 審査委員からは、セッションの構成やユーザー企業の事例などがうまくまとまっているという声が出された。

 授賞式にリモートで出席したNew Relicの清水氏は「イベントのテーマが「運用者に光を」だったので、われわれがサポートしている運用者であるドコモの宮川さんに光をあてることができてうれしい」と、ドコモの宮川氏は「これからSREを始めたい人に見ていただけて、評価をいただたのかなと思う。少しでも参考になる部分があればうれしい」とコメントした。

「SREのはじめ方 NTTドコモ サービスデザイン部RAFTELが実践するサービスレベルの計測と可視化」セッションの模様

クラウドネイティブで組織を変えるで賞:NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)

 審査委員会からは、そのほか2つの特徴的なセッションが表彰された。

 「クラウドネイティブで組織を変えるで賞」は、KDDIの辻広志氏、木場仁美氏、山中貴司氏による「NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)」が受賞した。

クラウドネイティブで組織を変えるで賞:NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)
授賞式にリモート出席したKDDIの木場仁美氏

 このセッションでは固定電話サービスにおける、通信サービス自体というより、NFVを契機に変わったアプリ運用について紹介された。

 テレコム事業者は、限りなくダウンタイムがないことが求められる事業であることから、変化が避けられがちだという。その中でプライベートクラウド化の波が起こったことをきっかけに、自動化やInfrastructure as Code化を進めた体験が語られた。

 まずは、モニタリングの基盤を2年間かけて整備したところが出発点となったという。そのうえで、NFVのオーケストレーターを自作した事例などが紹介された。Excelでデータを管理してそれを人間が見てシステムに手入力していたのを、Gitで管理してAnsibleで投入するように変更した話なども語られた。

 アワードの選考理由としては、自動化そのものとともに、自動化を進めた組織文化の変革や、さらにGitを使ってもらうといったスキルセットの変革の取り組みが挙げられた。

 授賞式にリモートで出席した木場氏は、「夢のような話ではなく、背のびせずに自分たちで手を動かしてできたことや苦労したことありのままに話すことを意識した。同じようにコンサバな設備の運用をしている人の課題解決のヒントとなったり、仲間意識を持ってもらえたりするとうれしい」とコメントした。

「NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)」セッションの模様

地味だけど重要で賞:クラウドサービスのインシデント対応をめぐる「モヤモヤ」 ~JPCERT/CCのインシデント対応事例より~

 もう1つの「地味だけど重要で賞」は、JPCERTコーディネーションセンター(JPECRT/CC)の佐々木勇人氏による「クラウドサービスのインシデント対応をめぐる「モヤモヤ」 ~JPCERT/CCのインシデント対応事例より~」が受賞した。

地味だけど重要で賞:クラウドサービスのインシデント対応をめぐる「モヤモヤ」 ~JPCERT/CCのインシデント対応事例より~
代役で授賞式にリモート出席したJPCERT/CCの洞田慎一氏

 このセッションでは、JPCERTのインシデント事例の中からクラウド関連のものを紹介し、それに対する論点を取り上げた。

 特にSalesforceの設定不備による情報漏洩を例に、アクセス管理者はどちらなのか、アクセス権限設定を誰がどのように行うのかの共通認識が不足していることを問題提起した。さらに、改正個人情報保護法の全面執行に向けて、責任共有モデルをふまえた議論が必要ではないかと語った。

 アワードの選考理由としては、クラウドとユーザーの間の責任分界点があって、きれに分かれていると思われているが、複雑な事情などによって「モヤモヤ」してはっきりしないところがあると問題提起されていることが挙げられた。そして、CODTではクラウドオペレーター向けの苦労話やノウハウ共有が王道と思われる中で、王道ではないが大事な問題提起をしていることから賞名が付けられたことが説明された。

 代役として授賞式にリモートで出席したJPCERT/CCの洞田慎一氏は、「利用側とクラウドサービス側の間に乖離があり、誤解や気をつけないといけないポイントがあると考えている。それを今回、われわれの目線で伝えられたことがよかったと思うし、みなさんに参考にしていただけるとありがたい」とコメントした。

「クラウドサービスのインシデント対応をめぐる「モヤモヤ」 ~JPCERT/CCのインシデント対応事例より~」セッションの模様

ヤングオペレーター賞も5セッション表彰

 当初予定されていなかったが、「ヤングオペレーター賞(奨励賞)」も設けられ、5セッションが表彰された。入社1~3年目などの若手エンジニアのセッションがいくつかあり、内容も優れていたことから、急遽決まったという。

ヤングオペレーター賞(奨励賞)を受賞した5セッション

 ヤフー株式会社の中村泰大氏と高橋陽太氏による「Yahoo! JAPANのIaaSを支えるKubernetesクラスタのアップデート苦労話」は、OpenStack上でKubernetesを動かしているYahoo! JAPANの社内基盤について、そのKubernetesをバージョンアップする試みが解説された。手動によるバージョンアップから、手動+自作監視ツールと進み、一度完全自動化を試みて失敗、現在は半自動化となっているという、これまでの試行錯誤が解説された。また、Kubernetes上のアプリケーションを管理するHelmをメジャーアップデートするときのトラブルも紹介された。

「Yahoo! JAPANのIaaSを支えるKubernetesクラスタのアップデート苦労話」セッションの模様

 NTT東日本の坂齊史奈子氏による「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」では、提携業務を自動化した例が紹介された。背景としては、社内のクラウド利用増加で監視リソースの増加することで、大量のアラートが発生していたという。これを、AWS Lambdaによるサーバレス構成により、通知判断や、メール送信、記録機能を実装したことが解説された。

「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」セッションの模様

 サイバーエージェントの源波陸氏による「VictoriaMetricsによるクラスタ横断監視基盤を1年運用して得られたこと」では、社内Kubernetes as a ServiceのAKEの監視基盤について紹介された。クラスタ数300以上の監視で、Datadogのダッシュボードが乱立してメトリクスが重複していたのを、PrometheusとGrafanaで横断監視することにしたという。ただし、Prometheusのみで横断監視すると集約するPrometheusに限界がくるため、各Prometheusが収集したメトリクスをVictoriaMetricsで集約する形をとったと解説された。

「VictoriaMetricsによるクラスタ横断監視基盤を1年運用して得られたこと」セッションの模様

 楽天モバイルのオ ジャヨン氏による「Zero Touch Provisioning実現に向けた取り組み」は、モバイルネットワークの仮想化について紹介した。「短期間、低コストで高品質の基盤を作るため自動化が必要」として、仮想化による自動化を解説した。大規模プロセスを可能な限り細かく分割して構築ノウハウをAnsibleで自動化、DevOpsな開発プロセスによる迅速なPlaybook化、Playbookのテスト自動化でバグをなくす、GitLabやConflucnceによる既知のエラーの共有、失敗時の再開処理の最適化、といった取り組みが語られた。

「Zero Touch Provisioning実現に向けた取り組み」セッションの模様

 伊藤忠テクノソリューションズ(CTC)の福岡安紗美氏と永田孝哉氏による「CTC情報システム部門(入社2年目)が語るハイブリッド/マルチクラウドの活用事例」は、社内のクラウドアプリケーション利用の状況を紹介した。ハイブリッドクラウドによるファイルサーバーや、電子署名のDocuSignによる書類ワークフロー、チャットツールのSlack・Teams・Tocaro、DaaSのAzure Virtual Desktopなどの利用が語られた。

「CTC情報システム部門(入社2年目)が語るハイブリッド/マルチクラウドの活用事例」セッションの模様

そのほかのセッションから

 受賞したセッション以外からも、筆者が興味を持ったセッションを2つ紹介しよう。

 まずは、CloudNative DaysのCo-Chairの草間一人氏による「大規模オンラインカンファレンスを、コミュニティーメンバーだけで運用したらこうなった」。3月に開催されたクラウド分野の大規模カンファレンス「CloudNative Days Tokyo 2021」の技術面での裏話だ(情報開示:Cloud Native Days Tokyoの運営は株式会社インプレス)。配信を中心とするオンラインイベントのシステムを内製して、実際に運用した苦労が語られた。

 長く安定運用させるシステムは大変なのだが、カンファレンスのシステムのように短期間で大規模のものを構築し運用するというのもそれはそれで大変で、特に試験に抜け漏れがあって障害につながったりするというのが興味深かった。「大丈夫だろう、自動化しなくてもいいだろうというところが炎上する。当たり前のところは当たり前にやろう」という教訓も語られた。

「大規模オンラインカンファレンスを、コミュニティーメンバーだけで運用したらこうなった」の模様

 CircleCI合同会社の宇佐美佑氏による「Workload Orchestration “Nomad” を使いたおす」では、CI/CDプラットフォーム「CircleCI」のバックエンドシステムの一部が解説された。

 NomadはHashiCorp製のワークロードオーケストレーターで、コンテナオーケストレーションとしてはKubernetesと比較されることもある。このセッションでは、Nomadの特徴などを解説したあと、CircleCIでのNomad利用について紹介していた。

 NomadとKubernetesのハイブリッド運用になっていて、クラウド運用にKubernetesを、カスタマーのジョブの実行にNomadを使っているという話が興味深かった。

「Workload Orchestration “Nomad” を使いたおす」セッションの模様