クラウドの問題を再度クローズアップ-世界のサービスの5%をダウンさせたGoogle


 またしてもGoogleのサービスに大規模な障害が起こった。検索が利用できないだけでなく、Gmailをはじめとするさまざまなサービスが世界中で使えなくなるというトラブルである。データもサービスも“雲の向こう側”に置くクラウドコンピューティングの弱点を浮き彫りにするものだが、ことGoogleとなるとその影響も大きい。今回、世界のアクセスの5%が利用できないという事態になったという。

 Googleの大規模障害は、太平洋標準時で5月14日の午前7時15分に発生。約2時間にわたって断続的に続いたようだ。この間、米国や欧州地区を中心にGoogle検索、「Gmail」「Google Docs」「Google Calender」「Google Maps」「Google Analytics」「You Tube」などのインターネットサービスで遅延や遮断が見られた。幸い、日本には、あまり影響は出なかったもようだ。

 Googleの運行担当上級副社長、Urs Hoelzle氏は5時間後の12時15分付で公式ブログを発表、「システムエラーによってアジア地区でトラフィックが高まった」と説明。こうした問題が再発しないよう最善を尽くすと述べた。同氏によると、この障害で「Googleユーザーの約14%」が影響を受けたという。

 問題は、その「Googleユーザー」の規模だ。セキュリティベンダーのArbor Networksは、北米の大手ISP10社のインターネットトラフィックの推移を示すグラフとともに、Googleの障害が発生した時間、トラフィックが15Gbpsから1Gbpsに減速。この時間にユーザーがアクセスしたサービスのうち5%が利用できない、もしくは遅延の状態だった、と推測している。Googleがインターネット空間で、いかに大きな存在となっているかを裏付けるものだ。

 またGoogleの障害は、一般ユーザーだけではなく、AdSenseなどのGoogleの広告サービスを利用するサードパーティのサイトにも少なからず影響を与える。ほかにGoogleのアプリケーションを全社的に導入している企業ユーザーもいる。直接、業務に支障をきたしたわけだ。

 Hoelzle氏は、今回の障害を飛行機のフライトに例え、「ニューヨークからサンフランシスコに向かうはずが、アジアの空港に迂回させられ、結局予想よりも到着が遅れたような」と説明している。だが、速さに慣れたインターネットユーザーには、思うようにサービスが使えないとなると、それだけで我慢できないのである。

 Googleの大規模障害は初めてではない。今年だけでも、1月末のエラー表示、2月と3月のGmail障害など、複数の障害が報告されている。ユーザー増に伴い、障害が与える影響や余波も大きくなっている。さらに、この障害の後、5月18日にもGoogle Newsが遅延・ダウンしている。

 次のパラダイムとして注目を集めているクラウドサービスだが、実際に利用されるようになるにつれて、問題となったケースも増えている。Googleだけでなく、Amazon.comの「Simple Storage Service(S3)」、Microsoftの「Azure」のプレビュー版などでも障害が発生しており、クラウドの負の要素を露呈している。

 今回のGoogleの障害についてのメディアの論調は厳しい。PC Weekはクラウドを「信用しすぎないように」と警告するとともに、個人ユーザーにバックアップなどの自己防衛対策をとるよう推奨している。なかでも、Enderle Groupのアナリスト、Rob Enderle氏はeWeekの取材に対し、「(このような事態は)きちんとシステム運用されている大企業ではありえない」と厳しく批判。「Googleは、エンタープライズ分野に詳しい人からのインプットが必要だ」と皮肉っている。

 Googleは昨年10月、Gmailの有料ユーザーに99.9%の可用性を約束するサービス保証を、「Google Apps」の他のサービス(Google Calender、Google Docsなど)にも拡大すると発表した。信頼性改善の取り組みで、99.9%のアップタイムが実現できなければ、払い戻しを行うというものだ。また、「Google Apps Status Dashboard」として、稼働状況を伝えるダッシュボードの提供も始めている。

 だが絶対にトラブルが起こらないような完璧なシステムをつくるのは不可能かもしれない。一方で、クラウドへの移行も、もはや止めることのできない流れとなってきている。今後、クラウドプロバイダとユーザーの間で、サービスの質/価格/サポート内容とユーザーの許容レベルを、相互に探りながら、クラウドの位置づけがより明確になってゆくと考えられる。

 今回のシステム障害で特徴的だったのは、Twitterでのリアルタイムのやりとりだ。疑問に思ったユーザーのつぶやきが、Twitter内にあふれ、「♯Googlefail」というタグで情報を交換しあった。これは、障害発生時、何が起こっているか調べるすべを持たないユーザーが、原因が障害によるものであるのかを確認し、どの程度続くのかを見極めたいという心境を表したものだろう。



関連情報
(岡田陽子=Infostand)
2009/5/25 09:05