クラウドユーザーとベンダーへの教訓 Gmailのデータ消失障害


 GoogleのGmailで一部ユーザーのメールが消失するという障害が起こった。幸い数日で復旧し、混乱は収拾しつつある。Googleによると、影響を受けたユーザーは1%にも届かないというが、総ユーザー数1億7000万人という巨大サービスでは、わずかな割合といっても相当な数だ。

 Googleというトップ企業のクラウドのサービスゆえに、安心して使っていたユーザーも肝を冷やしたことだろう。この事件は、ユーザー、そしてベンダーにさまざまな教訓を残している。

アップデートのバグでメールデータが消失

 Googleが公式に障害を認めたのは27日午後(日本時間2月28日の午前5時すぎ)。Googleの各種サービスの状況を知らせるダッシュボード「Apps Status Dashboard」に、ユーザーの申告を受けてGmailの障害を調査中であることを報告した。その1時間後、調査は継続中であるが、影響を受けたユーザーの比率は0.29%であると追加している。

 Googleのエンジニアリング担当副社長、Ben Treynor氏はその日の公式ブログで、より詳しい状況を報告。電子メールはのデータは失われてはいないと説明してユーザーの不安の解消を図った。同氏によると、原因はストレージソフトウェアのアップデートで「予期しない」バグが発生したためで、「問題に気づき、すぐに新しいソフトウェアの実装を停止し、旧バージョンに戻した」という。

 また、Googleは複数のデータセンターでデータのコピーを複数作成しているが、バグは複数のコピーに影響したという。そして、バグの影響を受けないテープストレージから復旧しているため、当初予想したよりも時間がかかっていると説明した。

 その言葉通り、テープからの復旧は予想を超える作業だったようだ。3月1日付のApps Status Dashboardでは「10時間以内に全ユーザーの問題が解決する見通し」としていたが、結局のところ、復旧には、それからさらに丸2日を要した。

 Googleは完全復旧するまでの間、Apps Status Dashboardで定期的に状況を報告した。そして、影響しているユーザーは0.08%(28日、午後12時40分)、0.02%(3月1日、午前3時)、0.012%(同、午前6時15分)と減っていった。比率はわずかだが、Gmailのユーザーは推定約1億7000万人と言われており、最初の報告の0.28%だと48万人、0.08%では13万6000人、0.012%では2万400人となる。

 一方、この障害では、影響を受けたユーザーの比率が少ないことが裏目に出たようだ。というのも、(1)最初に気づいたユーザーが、Google側に原因があると推測するまでに時間がかかった、(2)さらに、Googleに原因があるとの推測で、同社にコンタクトをとって確認するまでに時間がかかった――という経過をたどったからだ。

情報求め、知恵を出し合うユーザー

 障害が認知されるまでの経過は次のようなものだった。2月27日、GoogleのHelp Forumに呆然としたユーザーから「メールもフォルダもなくなってしまった。なぜこうなったのか? どうすればよいのか?」という第1報が寄せられる。文面からは、クラウド側で何かが起こったとは想像していないことがわかる。これに対し、最初は「ハッキングされたのでは?」などといった書き込みが返された。

 しかしその後、「自分にも同じことが起こっている。他にも同じような報告があるようだ」「すべて同じ時間帯に起こっている」などとユーザー間で情報を伝え合うようになり、次第に「Google側に何か問題が起こっているのではないか」との見方が広がってゆく。

 だが、Googleにどうやってコンタクトをとればよいのだろう。

 あるユーザーは大文字で「GOOGLE SUPPORT HELP PLEASE」と、別のユーザーは「WHERE'S GOOGLE SUPPORT??? HELLO? Anybody out there?」と書き込んでいる。不安が怒りに転じていることがわかる。

 「どうすればGoogleが問題に気づいてくれるだろう?」と、あるユーザーが書き込む。すると「全員が問い合わせフォームに書き込んで、Googleに送ればさすがに気がつくのでは」という意見が出る。さらに、「#Google #Apps #gMailを使ってツイートしよう」「Google従業員を知っているからメールしてみた」「FacebookでGoogleに勤務する友達にメッセージを送った」など、次々に対策が出てきた。

 その間にも、「10年分の電子メール(1万7000通)がなくなった。しかも、何が起こっているのかだれにもわからないのか?」と、新たに異常に気づいたユーザーが当惑のコメントを寄せている。こうして、最初のメッセージに対する書き込みは1000件近くに膨らんだ。

少数ユーザーの声が迅速に伝わるサービスを

 システムの可用性に100%はない。Gmailの障害は2009年にも発生している。クラウドの旗振り役であるGoogleは、複数のデータセンターでバックアップをとるなどの障害対策を講じている。それでも、「予期しないバグ」がある。それが今回の障害だ。

 The Registerは「盲目的にクラウドベースのサービスを信じるのではなく、重要なメッセージはバックアップする必要がある」とアドバイスする。それでも「ローカルにあるデータの方が損失の危険が高いが」と付け加える。TechCrunchも同様に「クラウドに依存しすぎると危険だ」と警告。これまでも折りに触れて指摘されてきた自衛策を改めて強調している。

 Huffington Postは、Googleが顧客サポートの電話窓口を用意していなかったことを問題視。「Maps、Gmail、Docsなどのアプリでヘルプを探すのは、出口の見えない迷路に入り込んだようなものだ」と指摘している。

 Googleは、いったん問題が伝わった後は、Apps Status Dashboardで定期的に状況を報告しており、この点は評価できるだろう。Apps Status Dashboardは以前の障害の経験から生まれたものだが、Googleが障害に気づいてない場合に報告できる手段を用意していなかった。サービスとしては、いまだ十分でなかったと言える。今回の障害は、「0.08%のユーザー」が悲鳴を上げたことで伝わったが、「比率がさらに低くなると果たして伝わっただろうか?」という疑問も出てくる。

 これまで、Google以外にも、Amazon、Microsoftなどいくつかのクラウドサービスで、大小さまざまの障害が発生してきた。かといってクラウドのトレンドに変わりはなく、多くのユーザーがクラウドのリスクよりもメリットを評価している状態だ。ユーザーは今後、経験を積みながら、賢くクラウドを使いこなすことを学んでいくだろう。もちろん、クラウドサービスのベンダーにも最大限のサービス改善を期待したい。

関連情報
(岡田陽子=Infostand)
2011/3/7 10:09