特集

KDDI、大規模障害再発防止に向けた取り組みを実施しているデータセンター「多摩センター」を公開

 KDDI株式会社およびその技術子会社となるKDDIエンジニアリング株式会社(以下両社合わせてKDDI)は、KDDIが東京都多摩市に所有している「多摩センター」において記者説明会を開催し、同社が自社の携帯電話ネットワークのために構築しているデータセンター施設を公開した。

 同社によれば、自社ネットワークの監視拠点を東京と大阪の2拠点でミラーリング運用しており、仮にどちらかの拠点が災害による被害を受けても即座に復旧できる体制を整えているという。

 KDDIは昨年の7月に61時間25分におよぶ通信障害を引き起こしており、そうした体制を整備していくことで、そうした通信障害の再発防止を実現する狙いもあるとのこと。今後は、AIを活用した障害通知などの導入も検討していると説明した。

KDDI 多摩センターのオペレーションセンター

SDN化が進んでいる通信事業者のデータセンター、大規模な障害を起こさないために安定した環境が必要に

 KDDIは、「au」(エーユー)や「povo」(ポヴォ)、「UQ」(ユーキュー)など複数のブランドで展開している、コンシューマ向けの携帯電話サービスなどが知られる大手通信会社だ。そうした携帯電話サービスのほかにも、固定電話やブロードバンド回線、クラウドサービスなどさまざまな通信サービスを個人や企業などに提供している。

 そのKDDIは、同社の携帯電話サービスのために、日本の複数の拠点にデータセンターを構築している。というのも、現代の携帯電話サービスは、従来の固定機能の通信機器に加え、汎用プロセッサーとソフトウェアの組み合わせとなるSDN(Software Defined Network)と呼ばれるソフトウェアベースの機器が混在する環境になっている。

 特に最新の通信規格である5GではSDNの比率が上がり続けており、一般的にはNFV(Network Function Virtualization)と呼ばれる、仮想化技術を利用した通信機器への切り替えが進んでいる。それにより、例えば急にネットワークの負荷が上がった時に、普段は使っていなかった仮想マシンをロードして負荷を処理するなどの使い方が可能になっており、より柔軟なネットワーク運用が可能になることがメリットとなる。

 既に多くの通信会社で、コアネットワークと呼ばれる、ユーザーのID管理を行うような機器はソフトウェアベースへの置き換えが進んでいる。KDDIはどこまで、固定機能からSDNに切り替わっているかは明らかにはしていないが、世界的にも多くの通信会社でそうしたSDN/NFVへの切り替えが進んでいる状況だ。

 今後は、RAN(Radio Access Network)と呼ばれる無線部分のSDN化(一般的にvRANなどと呼ばれる)が進んでいく方向で、KDDIでも業界標準規格「O-RAN」(O-RAN ALLIANCEで定められているvRANの標準規格)に準拠したvRANの商用導入を進めていることを本年の1月に明らかにするなどしている。

 そうした状況であるため、安定した通信サービスを提供するためには、これまで以上に堅牢なデータセンターを運営することが重要になってくる。今やスマートフォンは多くのユーザーにとって生活の中心にあるデバイスであり、それが利用できないとなると多くのユーザーの生活が成り立たないという状況であるからだ。

ユーザーの生活をつないでいる携帯電話回線

 KDDIにとって、昨年の7月2日午前から7月4日の午後まで、61時間25分にわたって発生した通信障害を発生させてしまったことは、大きな反省点であるという。KDDI株式会社 執行役員常務 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長 山本和弘氏は「昨年の7月に通信障害を起こしてしまったことを深く反省しており、それから1年が計画し、どのように再発防止の取り組みを行っているかについて説明していきたい」と述べ、KDDIとしても通信障害を二度と起こさないような体制を作ることが重要であり、多摩センターを含む複数の拠点で、再発防止に向けた体制づくりを行っていると強調した。

KDDI株式会社 執行役員常務 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長 山本和弘氏

できるだけ自動化された監視体制を構築、ワンタッチで障害から回復できる仕組みを既に導入

 KDDIエンジニアリング株式会社 運用保守事業本部 サービス運用本部長 山本智也氏は、KDDIではSDN/NFVのような仮想化技術を利用する時代に対応するため、運用管理の自動化を行っており、それによりヒューマンエラーなどが介在することをできるだけなくしていくことで、より安定した運用を目指していると説明した。

KDDIエンジニアリング株式会社 運用保守事業本部 サービス運用本部長 山本智也氏

 山本氏は「従来のネットワーク監視は言ってみれば匠の技に依存していたが、現代のネットワークは非常に複雑になっており、サービスの管理や障害時の復旧がある程度自動でできるような、スマートオペレーションという仕組みを導入している」と述べ、従来は人海戦術と属人的な技能に頼っていたネットワーク監視を、ゼロタッチ/ワンタッチ運用と呼ばれる、人間の介在をできるだけ少なくする運用に変更していると説明した。

従来の人手による運用業務からの脱却
運用業務の可視化・標準化
スマートオペレーションによる監視

 具体的には同社が「オペレーションセンター」(冒頭の写真)と呼んでいる、ネットワークセンターの稼働状況をチェックする部屋で、サービスが正常に稼働しているかを常時監視している。しかも、このオペレーションセンターには、ゼロタッチ/ワンタッチ運用の仕組みが導入されている。

 例えば、障害が発生した時には、通知が自動で表示され、「回復」ボタンをワンタッチするだけで、自動で障害が回復する。その回復ボタンを押した裏側では、例えば障害が起きている仮想マシンを落とし、その代替となるような仮想マシンを起動する、そうしたスクリプトが自動で走り、障害の回復が行われる仕組みになっている。

運用管理の自動化

 こうしたオペレーションセンターは、同社が国内に12拠点用意しているネットワークセンターのうち、東京と大阪の2カ所に置かれており、機能は完全にミラー化(同じ機能が複製され、1つの拠点の機能が失われても、もう1つの拠点に切り替えて運用が続けられること)されており、例えば東京や大阪のどちらかで大震災が発生したとしても、もう一方のオペレーションセンターが全国の拠点の監視を続けることで、サービスの運用が続けられるという仕組みになっていると、山本氏は説明した。

BCP対策
運用保守拠点体制

二度と大規模な障害を起こさないためにさまざまな取り組み、AIによる障害監視も今後導入予定

 KDDI エンジニアリング推進本部 運用管理部 副部長 水田秀之氏は、昨年7月に発生した通信障害の概要と、再発防止の取り組みに関して説明した。水田氏は「昨年7月の通信障害では61時間25分という長時間にわたり通信サービスの障害が発生し、全国のお客さまに多大なご不便とご迷惑をおかけした。その反省に立ち、作業基準の見直しや、障害検知・普及の迅速化、お客さまへの周知方法改善などの再発防止を実施している」と述べ、昨年7月に発生した通信障害の反省から、さまざまな対策を行っていることを説明した。

KDDI エンジニアリング推進本部 運用管理部 副部長 水田秀之氏

 具体的には作業手順の見直しなどが行われたほか、輻輳(ふくそう、ネットワークへのアクセスが集中して利用不能になること)対策、顧客への周知の仕組みの改善などが行われた。昨年の通信障害でもっとも大きな原因となった輻輳対策では、全国のネットワークをメッシュ(ノード間で接続/再構成を繰り返してデータの送受信を可能にする仕組み)化していたことが、輻輳が発生する大きな要因となったことに基づき、全国のネットワークを東西で分離して、東日本で輻輳が発生しても西日本には波及しないようにする仕組みが採用されているという。

 それにより、以前の状態よりも輻輳が起こりにくく、起きても対策が容易になると説明された。また、輻輳が発生しても、前出のオペレーションセンターの仕組みを活用することで、迅速な復旧を自動的に行うことが可能になっているとしている。

障害の概要
対策の取り組み
作業手順の改善
輻輳検知・制御の見直し
輻輳からの早期復旧手順

 また、現時点では導入されていないが、将来にはAIを活用した障害検知の導入も検討されているという。具体的には、過去のネットワーク関連のデータを学習データとしてAIが学習し、それから大幅に逸脱したデータが検知されると異常として監視員などに通知する仕組みになると、水田氏は説明した。

 こうした異常検知AIは、人間だと見逃してしまうようなわずかな異常も検知することが可能になるため、確実に障害を見つける助けになるだけでなく、異常検知の自動化も可能になる。それにより異常検知から復旧対策までを、すべて自動で行われるような仕組みを将来構築していきたいと、水田氏は説明した。

AI導入の検討
広報体制の見直し
代替手段の確保
訓練などの取り組み

 KDDI株式会社 エンジニアリング推進本部 ネットワーク強靱化推進室長 大石忠央氏からは、災害時でもネットワークが常時使えるような環境を実現する取り組みに関して説明が行われた。

 大石氏によれば、携帯電話回線の場合は、主に電源喪失による停電、そしてネットワークケーブルの切断などによる回線障害の2つが災害時に発生する障害の大部分で、そうなっても通信ができるような環境の実現が同社にとって重要とのこと。そのため、災害時には停電時の手段として電源車やポータブル発電機をもって基地局へ向かい、回線が切断されている場合には、衛星回線や衛星ブロードバンドサービスとして注目を集めている「Starlink」など、有線も携帯電話回線も使えない状態でも利用できる衛星通信サービスをバックボーン回線として活用することなどを説明した。

KDDI株式会社 エンジニアリング推進本部 ネットワーク強靱化推進室長 大石忠央氏
災害時早期復旧の取り組み

 今回KDDIは、Starlink回線を利用した災害対策の移動基地局を公開したほか、土砂災害などが発生していても基地局に迎えるように4輪バギーや水陸両用車などの災害用車両などを公開した。それらを活用することで、いち早く被災地の基地局へ向かい、携帯電話回線を復旧できるようにするのが同社のプランだと大石氏は説明した。

Starlinkの導入
災害時復旧の各種取り組み

 大石氏は「3.11の時に携帯電話回線を復旧した時にユーザーの方からいただいたお手紙には心揺さぶられた。お客さまの生活を支えているのだと再認識し、そうした災害時でもできるだけ早く携帯電話回線が利用できるように取り組んでいきたい」と述べ、さまざまな手段を活用して災害時の回線復旧に取り組むとした。

災害時の出動する車両
Starlink回線を利用する移動基地局
緊急車両ともなる移動基地局、災害時には緊急車両しか被災地に入れなくなるので、緊急車両であることには大きな意味がある
キャンピングカーは別にキャンプに行くわけではなく、基地局を設置するスタッフが寝泊まりするための車両
4輪バギー(手前)と水陸両用車(奥)。水陸両用車は、現状では船舶申請はされていないので、陸専用の水陸両用車
移動基地局用のアンテナソリューション。左側の背の高いアンテナが携帯電話の電波用のアンテナで、右側の2つが衛星回線用のアンテナ

災害に強いデータセンターを実現するために免震構造を導入し、CO2削減のための自然の冷気も活用している

 今回KDDIは「多摩センター」の施設に関して公開した。究極の社外秘ということでデータセンターが置かれている部屋そのものは公開されなかったが、建物の免震構造や、データセンターの空調設備などに関しての説明があった。

建物の免震構造

 そもそも東京多摩市にこの多摩センターが置かれているのは、地震多発地帯であっても、比較的地震などの影響が小さい地域であることが影響しているという。比較的高台にあり洪水などの影響もないと考えられており、さらに地盤もしっかりしていることが立地条件として最適だと判断されたのだとのこと。

 実際、多摩市にはKDDIだけでなく、他社のデータセンターも置かれており、他社もそうした理由から多摩市にデータセンターを置いていると考えられる。

 この多摩センターの1階は、建物と地面を分離する「積層ゴムアイソレータ」と呼ばれる装置の上に建物が乗っており、そのゴムが地震時に揺れを吸収することで、揺れを最小限に抑える仕組みになっている。と同時に、自動車のサスペンションを大きくしたような「オイルダンパー」も用意されており、地震時にそのダンパーが揺れを吸収することで、建物が揺れを最小限に抑える仕組みも導入された。

 こうした構造により、配管などもゴムになっていて、地面と直接接地しないようになっているほか、エレベーターも地面とは接地していない仕組みを採用するなど、ユニークな構造になっている。

積層ゴムアイソレータ
オイルダンパー
エレベーターも地面から浮いている
配管もゴムになっており、地面と接地していない

 データセンターの冷却には自然の冷気も活用されている。外気を取り込み、それにより水を冷却する。その冷却された水はデータセンターが設置されているフロアに配管で循環するようになっており、その冷却水の冷気で部屋全体を冷却する。そして今度は温水になった水が屋上に用意されている熱交換器(要するにラジエーター)に戻され、再び冷却されて循環する――、といった冷却方法をとっている。そしてデータセンターから排出された熱は、吹き抜けになっている建物の中央から自然の風を利用して外に排出される。特に外気温が低い冬には大きな効果があるということで、CO2の削減などに効果があるということだった。

熱交換器が置かれている屋上の部屋
建物の内部に用意されている吹き抜けから自然に排熱される仕組み