ニュース
クラウドインフラ運用技術者のための年次カンファレンス「Cloud Operator Days Tokyo 2024」の見所を紹介
7月16日から9月6日までオンラインで、最終日はお台場でクロージングイベントを開催
2024年7月16日 06:30
クラウドインフラ運用技術者のための年次カンファレンスイベント「Cloud Operator Days Tokyo 2024(CODT2024)」が、7月16日から9月6日まで開催される。今回のテーマは「AIの未来、運用者の現実」。
CODTは、クラウドシステムの運用者に光を当て、運用者が日々取り組んでいる新しい挑戦、成功・失敗体験、得られたノウハウなどを分かち合い、日本のオペレーターの底力を高めることを目的とする技術イベント。もともとOpenStack Days Tokyoの名前で開催されていたイベントの後継である。
オンデマンド配信とリアルイベント、今年はセッションのオフラインでの再演も
イベントは、オンラインでのオンデマンド配信と、オフラインでのクロージングイベントからなる。目標参加者数は、オンラインが2000名、クロージングイベントが300名。
7月16日から9月6日までは、約50のセッションがオンラインでオンデマンド配信される。参加費無料で、CODTのWebサイトからの事前登録制。参加登録は7月16日から。なお、1本は基本的に15分程度の予定。
そして9月6日にお台場の「docomo R&D OPENLAB ODAIBA」にて、完全オフライン形式でクロージングイベントを開催する。クロージングイベントの申し込みは9月5日10:00まで。
クロージングイベントの基調講演としては、NewsPicks社の講演と、サイバーエージェントによる国産LLM技術基盤の話、OpenInfra Foundation(旧OpenStack Foundation)の講演が予定されている。
また、主催者企画セッションとして、運用技術者によるパネルディスカッション「AIOps CTOパネル」も開催し、ぐるなびの岩本俊明氏とLIFULLの長沢翼氏が登壇を予定している。
そのほか、参加者の運用技術者たちが“ここだけの話”をワークショップ形式で語りあう「オペレータワークショップ(Unplugged セッション)」も開催する。
さらにクロージングイベントでは、オンラインで配信された中から優れた6セッションを選考し表彰する「輝け!クラウドオペレーターアワード2024」授賞式も行われる。
さらに今年の新企画としては、オンライン配信されたセッションの中から選ばれた22セッションが、クロージングイベントの中でオフラインでリアルセッションも行う「2段階発表方式」がある。
オンラインセッションと同じスピーカーと同じテーマだが、例えばオフラインでは見せ方を変えたり会場への質問を挟んだりなど、形式のアレンジは認められている。リアルセッションは、3部屋×8コマで進行する予定だ。
毎年共通のテーマ「運用に光を」
7月11日には、CODT 2024のプレス発表を兼ねたプレイベントが開催された。
CODT2024実行委員長の長谷川章博氏は、CODTを開催する意義として、運用エンジニアは、正常に動いて当然と思われがちで、問題があったら責められるなど、報われない部分があることを紹介。しかし皆が安心してシステムを使えるのは運用エンジニアのおかげということで、毎年共通のテーマである「運用に光を」を掲げた。
そしてCODTの3つの柱として、「技術者の地位向上」「知的好奇心を高める」「若手エンジニアの育成」を挙げた。
8カテゴリーのセッションから見どころを紹介
CODT 2024の注目セッションについては、水野伸太郎氏(日本OpenStackユーザ会 会長/日本電信話株式会社)が紹介した。
今回の一般公募セッションは、8トラック構成で、7月11日現在で47セッションが採択されている。前回のCODT 2023は6トラック構成だったが、今回「AIOps」「クラウドセキュリティ」「チーム作り/人材育成」の3トラックが増え、「コスト管理」が外れている。
トラック別のセッション数を見ると、例年は「運用苦労話」が多いが、今年は「監視・ログ・オブザーバビリティ」が最も多かった。また、新設され今年のイベントテーマにも入っているAIOps(運用でのAI利用)も、2位のセッション数となっている。
セッションのアブストラクトのキーワードを分析してみても、「監視」「チーム」「AI」が新たに目立っているという。
その中から水野氏がカテゴリーごとにピックアップしたセッションを紹介した。なお、水野氏もまだ内容を知らず、タイトルとアブストラクトだけの情報からのピックアップだという。
「運用苦労話(しくじり、トラシュー)」は7セッションが予定されている。その中から水野氏は、KDDI株式会社の「NFV基盤で利用しているCephクラスタのバージョンアップを内製対応した話」と、株式会社インターネットイニシアティブ(IIJ)と株式会社ビーエスピーソリューションズの「やりたくてもできない運用改革~運用をよくするとはどういうことなのか~」を取り上げた。
KDDIのセッションでは、Cephのクラスタを内製でバージョンアップしたときの課題とその解決について語られるという。また、IIJとビーエスピーソリューションズのセッションでは、運用改革の苦労話や進め方が語られるという。
「運用自動化(Dev/Ops、CI/CD、IaC)」は5セッションが予定されている。その中から水野氏は、株式会社ジェーシービー(JCB)の「二桁を超えるクレジット関連サービスが稼働中のGKEにおいて、年数回のアップグレードを習慣化した手法の紹介」を取り上げた。インフラ基盤のアップデートについて、自動化・効率化手法を組み合わせることで、年3回アップグレードを習慣化した取り組みが語られるという。
「監視・ログ・オーブザーバビリティ」は11セッションが予定されている。その中から水野氏は、日鉄ソリューションズ株式会社の「とある金融機関システムにて、カーネル初心者がLinuxカーネルコードと格闘しながらeBPFでオブザーバビリティを高めた話」を取り上げた。ミリ単位の厳しいレイテンシ目標を維持するための計測に、Linuxカーネルの中でプログラムを実行する「eBPF」を使った話が語られるという。
「OpenStack」は3セッションが予定されている。その中から水野氏は、株式会社ナベインターナショナルの「ゲノム研究者向け解析環境におけるOpenStackの活用事例」を取り上げた。ゲノム研究者の解析向けの科学技術計算環境を、OpenStackベースで作った話が語られるという。
「チーム作り/人材育成」は4セッションが予定されている。その中から水野氏は、株式会社NTTスマイルエナジーの「ベンダーに任せっきりの一人インフラチームがどんどん強くなる話」を取り上げた。ベンダーと共にワンチームを作ってきた工夫が語られるという。
「パブリッククラウド運用(AWS、Azure、GCPなど)」は5セッションが予定されている。その中から水野氏は、株式会社ブロードリーフの「クラウドコスト管理の正攻法を知りたい~FinOps Foundationに学ぶFinOpsの考え方~」と、KDDI株式会社の「俺たちのAmazon EKSバージョンアップ - au お客様向けサービスを支える Amazon EKS のバージョンアップ内製化・効率化の取り組み -」を取り上げた。
ブロードリーフのセッションでは、クラウドコスト管理のFinOpsのフレームワークについて語られるという。またKDDIのセッションでは、EKSクラスタのバージョンアップについて内製化した取り組みが語られるという。
「AIOps」は9セッションが予定されている。その中から水野氏は、ユニアデックス株式会社の「GAIOps:生成AI活用でIT運用改善~より良く活用するための7つのポイント~」と、株式会社野村総合研究所の「システム運用における生成AIの活用について」、株式会社スリーシェイクの「運用者の各領域で向き合うLLM」を取り上げた。いずれも実際に運用でAIを使っている内容が語られるという。
「クラウドセキュリティ」は3セッションが予定されている。その中から水野氏は、NTTデータグループの「次世代のクラウドセキュリティ!Confidential Computingとは」を取り上げた。CPUに搭載された機能を使って利用中のデータを守るConfidential Computingについて語られるという。
ぐるなび:アラートからRAGでナレッジを検索し合わせて通知
プレス発表を兼ねたプレイベントでは、AIOpsに取り組む企業によるセッションも開かれた。
1つめのセッションは、株式会社ぐるなび CTO 岩本俊明氏による「AIで変わる運用の未来:AIOpsによるサービス障害対応の効率化」だ。
まず岩本氏は、従来の障害対応における問題点として、新人のオンボーディングに時間がかかりすぎること、経験にもとづいた対応が多くなってしまうこと、障害対応のナレッジが散らかりすぎること、ポストモーテムの結果が生かされないことがあることを挙げた。これらは運用ナレッジが活用されづらいという問題だ。
そこで、生成AIを活用する。その事例として岩本氏は、障害ナレッジ自動通知を紹介した。これまでの障害対応においては、監視ツールからアラートが上がったとき、影響範囲や、関係者は誰か、最新のドキュメントはどれかなど、慣れた人が判断して対応する必要があった。
そこで障害ナレッジ自動通知では、検索と生成AIを組み合わせた「RAG」の手法を使う。ConfluenceやJIRA、あるいはPDFやGoogleドライブなどに散在したナレッジをVectorDBでベクトル化しておく。そしてアラートが上がったときには、それをLLMのRAGにかけてナレッジ検索する。これにより、アラート内容とともに、ナレッジからの対応方法や詳しい人の情報などを合わせて通知する。
さらに、より詳しく知りたい場合は、SlackやWebUIから質問を投げかけることで回答してもらえる。
これにより、ナレッジが新しくなればその内容が反映され、一貫した対応や関係者の特定、社内ルールへの対応などが実現されたという。
最後に岩本氏は、RAGの注意点として、精度が低い状態が続くと使用されなくなることを挙げた。そのため、RAGの精度を良くしていく必要があり、入れたら終わりではなく作った後が長い、と氏は注意を語った。
サイバーエージェント:障害対応に複数のAIエージェントを組み合わせる
2つめのセッションは、株式会社サイバーエージェント AIオペレーション室 李俊浩氏による「マルチAIエージェントで進化するAI Ops! CyberAgentの戦略と実例」だ。なお、サイバーエージェントでは、AIOpsの専任部門としてAIオペレーション室を1年前に立ち上げたという。
李氏は、監視から異常検知、原因分析、修復、レポートまでの対応の流れについて、それぞれ専門分野を持つ複数のAIエージェントを使ったマルチAIエージェントの構成を紹介した。
具体的には、セキュリティエージェント、分析AIエージェント、プログラムAIエージェントというエージェントがあり、それらに対してスーパーバイザー(親エージェント)が指示を与えたり情報を交換したりして、最終的に親エージェントがレポートを出す。
例えば、Slackで通知されたエラーメッセージを元に、スーパーバイザーがエラーを特定する指示をエラー分析エージェントに出し、その結果をまたスーパーバイザーがまとめる。
こうしたエージェントの協力動作のほか、同じ問題を複数のエージェントに与えて競わせる競争動作もできるという。
将来的には、AIが自己解決するものを目指すという。現状では、研究が社会実装まで十分に達していないため、ジュニア(新人)向けには実用性が感じられるが、知識があるシニア(ベテラン)向けには実用性に欠けるかもしれないとのことだった。