Infostand海外ITトピックス

世界を止めたAWS障害 技術的問題の裏に「組織的知識の喪失」

“アキレス腱”の「US-EAST-1」リージョン

 世界に混乱が広がる中で、AWSは20日0時38分までに障害の原因を、「DynamoDBサービスエンドポイントのDNS障害」と特定した。Tom's Guideは、DynamoDBについて「多くのアプリが情報を保存・検索する超高速デジタルファイリングキャビネットのようなもの」と解説している。“アキレス腱”とも言える極めて重要なシステムだ。

 発表によると、根本原因は「DynamoDB DNS管理システムにあった潜在的な競合条件(race condition)」で、DNSが古い構成で上書きされたためだという。AWSは「潜在的欠陥」(latent defect)だったとしている。

 そして問題はさらに悪化した。AWSによると、DNS問題を解決したあともEC2の内部サブシステムに障害が残った。これが、DynamoDBに依存していたEC2のインスタンス起動の失敗を招いた。連鎖的にNetwork Load Balancerのヘルスチェック機能に影響が及び、Lambda、CloudWatchなどのサービスでネットワーク接続問題が発生した。

 システムの一部で発生した障害が、ドミノ倒しのように全体に拡大していく「カスケード障害」である。

 AWSは発生から3時間半後の20日2時25分までに「DNS情報を復旧した」と発表したが、正常な運用に戻ったのは15時を過ぎてからだった。

 このUS-EAST-1リージョンが大きな障害を起こしたのは初めてではない。過去10年間でも、「DynamoDBからのカスケード障害」(2015年9月)、「内部DNS解決の失敗によるカスケード障害」(2021年12月)など、同じような原因の障害が発生しており、同リージョンへの依存が過度であるとの構造的問題も指摘されている。

 The Registerによると、「US-EASTは、連邦政府とヨーロッパ主権地域を除くすべてのAWS拠点における共通コントロールプレーン(中央制御基盤)のホーム」で、グローバル機能の多くが同リージョンに依存している。英Loughborough大学のScott Fairbairn博士は、「US-EAST-1への依存は、地理的に冗長性を持たせた顧客にとってさえ、単一障害点を生み出している」と警告している。