イベント
Cloud Operator Days Tokyo 2023が開催、クロージングイベントにはOpenInfra Foundation、ぐるなびが登壇
2023年9月22日 06:15
クラウドインフラ運用技術者のための年次カンファレンスイベント「Cloud Operator Days Tokyo 2023(CODT2023)」の、基調講演を含むクロージングイベントが9月14日に都内でオフラインイベントとして開催された。
CODT2023は、8月21日からオンラインで約60のオンデマンドセッションを配信し、クロージングイベントをオフラインで開催する形式がとられた。なお、オンデマンドセッションはクロージングイベント後も9月28日までは見られるという。
クロージングイベントでは、OpenInfra Foundation(旧OpenStack Foundation)およびぐるなびによる基調講演が開かれた。また、セッションを表彰する「輝け!クラウドオペレーターアワード2023」の発表と表彰も行われた。
また、同日にはフィッシュボウル形式(参加型ディスカッション)の「Unplugged Session」が複数行われ、そのまとめも兼ねてAIOpsをテーマにしたパネルディスカッション「CODT Unplugged Panel Discussion」も壇上で行われた。
OpenInfra Foundationは「EVERYONE、EVERYTHING、EVERYWHERE」へ
1つめの基調講演は、OpenInfra Foundationの地域ハブとして2023年に誕生した「OpenInfra Asia」のDirectorのHorace Li氏による「Collaborating without Boundaries: How the OpenInfra Foundation is Building Software in Production on a Local, Regional, and Global Scale」だ。
Li氏は冒頭で、6月にカナダで開かれた「OpenInfra Summit Vancouver 2023」の模様を紹介した。パンデミック後、ひさしぶりの対面開催で、MicrosoftやNVIDIAによる基調講演が行われた。
OpenStack FoundationからOpenInfra Foundationへ
本題は、OpenInfra SummitやOpenInfra Foundationなどの「Open Infrastructure」についてだ。
まず「Open」については、「Open Source(オープンソース)」だけでなく、「Open Design(オープンな設計)」、「Open Development(オープンな開発)」、「Open Governance(オープンなガバナンス)」の4つの原則を指すとLi氏は説明した。
一方の「Infrastructure」については、ハードウェアとアプリケーションの間にあるのがinfrastructureだとして、「インフラ分野でオープンソースソフトウェアを作ることを目指す」と説明した。
OpenInfra Foundationは、もともとOpenStack Foundationとして始まった。プロプライエタリで占有されていた市場に、オープンソースのOpenStackが登場した。このときの使命は「FOR ANYONE, TO DO ANYTHIG, TO USE ANYWHERE」だったとLi氏は語る。
その後OpenStackが急成長し、内部および外部のエコシステムが拡大して、「OpenStack」から「OpenInfra」へと名前を変えた。これにより、「ANYONE(誰でも)からEVERYONE(すべての人)へ」「ANYTHING(何でも)からEVERYTHING(すべてのもの)へ」「ANYWHERE(どこでも)からEVERYWHERE(すべてのところ)へ」と変わったという「理想的すぎると思うかもしれないが、われわれは最善をつくす」とLi氏は語った。
EVERYONE:オープンソースならではのメンバーの広がり
以下、この3つのそれぞれについて説明がなされた。
「EVERYONE」としては、150人のメンバーで始まり、11万人と700以上の組織が開発や利用で関わるようになった。2022年末にはOpenStackで管理されているCPUコアの数が4000万になり、直近では4500万がプロダクション環境で活躍しているという。「これだけの短い期間でここまで大きくスケールしたのは、オープンソースならでは」とLi氏は語った。
EVERYTHING:さまざまな分野でインフラを支える
「EVERYTHING」は用途だ。RackSpaceとNASAで始まり、現在では金融やゲーム、政府、ヘルスケア、ITなどさまざまな分野でインフラを支えている。
新技術でも、仮想マシンによるセキュアなコンテナ技術「Kata Containers」がAlipayやAzureのプラットフォームで使われ、CI/CDツール「Zuul」が自動車のVolvoでソフト開発におけるゲーティング(壊れたコードのマージ阻止)に活用されているという。
さらに、OpenInfraの開発者が注目している分野として、セキュリティとプライバシー、AI、サステナビリティ、ハードウェア統合をLi氏は挙げた。
ぐるなびが体験したクラウド移行と運用形態の変化、そしてAIOpsの意義
2つの基調講演は株式会社ぐるなび CTOの岩本俊明氏による「モダン開発におけるAIOpsの重要な役割:ぐるなびが目指す効率的な運用戦略」だ。
岩本氏は、自社のクラウドやモダン開発の採用にともない運用形態をどう変えたか、そしてそこにおけるAIOps(AIの助けによる運用)の役割について語った。
柔軟性に欠けリードタイムが発生していた従来環境
ぐるなびの従来の環境は、インフラチームが払い出した仮想マシンを開発が利用し、インフラチームが選定し構築した監視システムを開発が利用する形だった。障害が起きたときは、インフラ(運用)担当にアラート通知が行き、そこから1次切り分けなどを経て開発担当にエスカレーションする。
しかし、少ない人数のインフラエンジニアで運用するため、標準化とテンプレート化の結果、柔軟性に欠けるようになった。また、限られたリソースのため、承認フローを設けたことで、リードタイムが発生する。
クラウドに移行、運用の仕事の一部が開発担当に
そこで、開発効率・生産性を向上させ、開発力を高めるために、クラウドに移行した。
それにもなって開発と運用もモダンなものにした。開発者にクラウドの機能を自由に選択する自由度を与えるとともに、開発者が自己運用できるようにした。
これにより、クラウド(AWS)上のコスト把握・最適化などの役割が開発者に移った。また、インフラをコードで管理・メンテナンスするIaC(Infrastructure as Code)により運用の一部が開発者に移った。さらに、障害時には、アプリ面のアラート通知が開発担当に行くようになった。
ただし、システム維持のための状態維持は、開発者は運用担当に比べて得意ではないという。また、アラート疲れの問題もあり、開発者には厳しいものがある。
さらに、開発生産性が向上したことで開発が活発になったことで、システムが複雑になっていく。
こうしたことから運用が大変なことになる、と岩本氏。
そして、状態把握から修正サイクルを回すために、サービスの状態を把握する「可観測性(オブザーバビリティ)」、そこから異常を検知する「異常検知」、検知したものを知らせる「通知(アラート)」が重要になると岩本氏。この3つを効果的に運用できれば運用の効率が向上すると語った。
AIOpsで運用経験を補完する
そこでAIOpsだ。限られた時間の中で最も不足しているのは「経験」であり、それをAIOpsで補完すると岩本氏は語った。
可観測性による状態把握においては、経験を元にしたログ調査を、AIOpsによって、グラフのスパイクしている箇所をクリックすると原因を調査するといった自動化や、ログのパターン自動カテゴライズが可能になる。
異常検知においては、類似している傾向のサービスを自動で検知することで、調査の時間が短縮できる。
アラートについては、変動が多いためしきい値監視はアラート疲れにつながるため、トレンドを分析して上昇や下降を検知できることが重要だという。
最後に岩本氏は、モダンな開発と運用の関係で大事なことについて語った。
まず、モニタリングツールは開発チームと運用チームで一緒に検討することだという。
次に、APM(アプリケーションパフォーマンス監視)による可視化や、ログの集約化(ログの項目名を統一するなど)だ。さらに、可視化のダッシュボードのうち、使ってないダッシュボードは定期的に消すといったことも大事だという話も出た。
そして、開発活動と開発改善のバランスを考え、開発改善の時間を確保することが最も大事だと語った。
優れたセッションを表彰する「輝け!クラウドオペレーターアワード2023」発表
「輝け!クラウドオペレーターアワード2023」授賞式では、審査委員会が選んだ「最優秀オペレーター賞」「審査員特別賞(変革編)」「審査員特別賞(挑戦編)」と、実行委員会が選んだ「実行委員会特別賞」、視聴者の人気(再生数)から選んだ「オーディエンス賞」、若手発表者を表彰する「ヤングオペレーターアワード」が発表された。
なお、審査委員会に筆者も参加していることをお断りしておく。
最優秀オペレーター賞
最優秀オペレーター賞には、株式会社スクウェア・エニックスの橋本和宏氏による「クラウドネイティブ活用でちょっと手にあまる規模のサーバーを効率的に管理しよう」が選ばれた。
仮想マシンベースの大規模なインフラの運用を、クラウドネイティブなツールなどを使って半自動から運用にした取り組みが語られた。スクウェア・エニックスのインフラの運用について具体的に紹介され、そこでの泥臭い苦労や工夫なども語られたことが評価された。
審査員特別賞(変革編)
審査員特別賞(変革編)には、BASE株式会社の大津和槻氏による「AWS Lambdaから始めるDevチームの小さなDevOps改善 ~QCDどれも諦めない運用を目指して~」が選ばれた。
ネットショップ作成サービスにおいて、Googleショッピング広告の拡張機能のサーバーをAWS Lambdaベースで作り直した体験談だ。Web APIと、そのためのライブラリ、さらにそれを実行する言語処理系について、ライフサイクル問題およびそのビジネスへの影響と、それに対するプラットフォームや運用の変革が、運用のオーナーシップをまじえて考察されたことが評価された。
審査員特別賞(挑戦編)
審査員特別賞(変革編)には東日本電信電話株式会社(NTT東日本)の山本俊氏による「内製開発のすゝめ ~NTT 東日本が取り組んだクラウド内製化開発の歩みと、社外展開の壁、持続可能な開発体制~」が選ばれた。
「運用組織こそ内製開発に挑戦すべき」をテーマに、開発を外部委託している伝統的な大企業において内製開発する挑戦が語られた。そのために、社内ITリソースから独立し、採用や文化作りまで踏み込んだ取り組みが語られたことなどが評価された。
ちなみに、副賞はNTT法により辞退とのことだった。
実行委員会特別賞
実行委員会特別賞には、合同会社DMM.comの工藤純氏による「DMMプラットフォームにゼロベースでSLO導入している取り組み 適切なSLI模索の軌跡」が選ばれた。
SLO(Service Level Objective)が明確に設定されておらず、エラーバジェットがなかった状態から、いかにSLI(Service Level Indicator)やSLOを定めたかが語られた。ユーザージャーニーをSLIに落とし込んだ道のりが語られた中でも、ユーザージャーニーとSLIが近すぎるとノイズが増えてしまうのでフィルタリングするといった実践的な話にも触れていたことも評価された。
なお、当日は工藤氏は欠席だった。
オーディエンス賞
オーディエンス賞には、New Relic株式会社の清水毅氏による「~業界初Generative AI オブザーバビリティ・アシスタント登場~ 次世代AIOpsによる運用業務の変革」が選ばれた。
これまでのAIOpsの歴史や課題、DevOpsおよびオブザーバビリティとの関係を解説したうえで、生成AIによる対話型AIをオブザーバビリティプラットフォームに組み込んだ「New Relic Grok」を紹介した。
ヤングオペレーター賞
ヤングオペレーター賞には、エヌ・ティ・ティ・コミュニケーションズ株式会社の松下意悟氏による「クラウドサービス開発を支えるGitHub Actionsを用いたデプロイメント」、SCSK株式会社の中川真歩氏による「コーディングが苦手な新卒2年目SEが、 サーバー・インフラ・クラウド運用チームから突如ノーコードローコードチームへの配属で PowerPlatformの感動と課題に触れた話」、LINE株式会社のNisha Brahmankar氏(とAnupindi Bharadwaj氏)による「A beginner's journey of operating production-level Private Cloud using OpenStack」の3つが選ばれた。
松下氏のセッションでは、デプロイAPIのない独自のプラットフォームへのデプロイフローをGitHub Actionsなどを使って構築した話が紹介された。
中川氏のセッションでは、運用エンジニアからローコード開発ツールを使った開発現場に配属された体験談が、業務整理の重要性をまじえて語られた。
Brahmankar氏のセッションでは、LINEのOpenStackベースのプライベートクラウド「Verda」と、その追加機能の開発、デプロイ、OpenStackのアッグレードなどについて語られた。
AIOpsは使えるか? パネルディスカッション
AIOpsをテーマにしたパネルディスカッション「CODT Unplugged Panel Discussion」も開かれた。全体のテーマは、AIOpsは「どこまでできていて、何が期待できる?」だ。
パネリストは、基調講演にも登壇した株式会社ぐるなび CTOの岩本俊明氏と、日本マイクロソフト株式会社の真壁徹氏、New Relic株式会社の佐々木千枝氏。モデレーターは、日本OpenStackユーザ会 会長/日本電信話株式会社の水野伸太郎氏。
同日に開催された参加型ディスカッションの「Unplugged Session」の特別版のような位置づけで、現場の生の声を生かす形で行われた。そのため、ここでは大まかな内容をレポートする。
最初のトピックは「運用のどこで使うの・使えるの?」。これについては、運用開始後の異常検知などではすでに利用されていることが、岩本氏の基調講演や、New Relicのプロダクトなどでも取り上げられている。そのほか、運用保守では予兆保全や、トラブル対応のトリアージ、トラブル発生時にIaCのコードを生成AIに読ませて確認する方法、生成AIによるカスタマー対応などが挙げられた。
次のトピックは、「実際はどこまでできる? 何ができない?」。究極ではまかせて楽をしたいが、現状ではまだ設定などの微調整が大事だという声が出た。また、モデルにうまくはまらないと使えない、モデルがどういうものか理解しないと使いこなせないという意見も出た。
その次のトピックは「使うためのハードルは?」。環境変更やログの見直し、GPUなどのことだ。これについては基本はSaaSなのでGPUは不要で、そのかわりツール選びが重要という声が出た。また、運用で使う側がモデルを作ることはないという意見もあった。
そのほか、環境やマインドセットは変える必要があり、それに合わせてツールを選ぶという話もあった。
「実際に利用しての効果と課題」、つまり運用コストは下がるかどうかというトピックも出た。これについては、長期的には下がるだろうが、ノウハウや経験が失われて運用品質が下がったということでは意味がないという意見が出た。
流行の技術について「生成系AIは使える?」というトピックも議論された。利用例としては、セキュリティ脆弱性について生成AIのインターフェイスでデータベースを調べるというものも紹介された。
また、生成AIが若手の相談相手になるという話や、生成AIが出力したコードを見て判断できるベテランにはよいが、その間の人は危機感をもったほうがいい、という意見も出た。
最後のテーマは「AI時代のオペレータ像」。運用エンジニアの物理作業は残るという声や、2人月が一瞬に変わる可能性があるという意見、仕事はなくならないが生成AIを使いこなして高い生産性を発揮する人に任されるという意見などが出された。
それを受けて水野氏は「AIOpsということで夢のある世界かと思ったら、みんな勉強しないといけないという結論になった」と、苦笑まじりでまとめた。