富士通研究所、クラウドコンピューティング時代に向けた障害対処技術を開発

クラウドシステムの障害検知から解決までを自動実行

　株式会社富士通研究所は2月23日、クラウドシステムの障害予兆の検知から障害原因の絞り込み、さらに障害解決までの一連の処理を自動で実行する新技術を、他社に先駆けて開発したと発表した。本格的なクラウドコンピューティング時代に向け、情報分析力と情報収集力の向上を図る目的という。

　新技術の発表に先立ち、常務取締役の近間輝美氏が、クラウドコンピューティング時代に向けた、富士通研究所の技術開発の取り組みについて説明。「当社では、ヒューマンセントリックなネットワーク社会を実現することを目指し、ICTを活用したさまざまな技術開発を進めているが、クラウドコンピューティングはそのための重要なインフラ基盤になると考えている。クラウドの世界は、現在まだ出発点であり、今後、パブリックからハイブリッド、そして、複数のクラウドが高度に融合する利用形態へと進展していくだろう。また、これにともないクラウドによるビジネス領域も、企業の業務システムにとどまらず、ITCが普及していない現場のフロントシステム、さらには社会システムへと広がっていくと見ている」と、クラウドを取り巻く市場環境への見解を述べた。

　今後のクラウドシステムの進展で求められる要件として近間氏は、「最適コストでの構築・運用」「環境変化に柔軟に対応」「クラウド連携機能」を挙げ、「これらのクラウドニーズに応えるため、当社では、クラウドアプリケーションの開発・実行環境、監視・運用管理・自動化、インフラ構築・制御機能などに関する技術を、ほかのアプリケーションやハードウェアと連携しながら研究開発を進めている。今回発表する新技術もその1つであり、当社がこれまで蓄積してきた経験や知恵を生かし、他社とはひと味違う独自のサービスを提供するための基盤技術になると位置付けている」とした。


常務取締役の近間輝美氏	クラウド活用によるヒューマンセントリックな社会	クラウド利用形態の進展


クラウドによる新ビジネス領域の拡大	富士通研究所が開発中のクラウド技術の一覧

　今回、同社が開発した新技術は、クラウドシステムにおいて障害が顕在化する前に検知し、事前に回避を行うというもの。クラウドシステムを監視して、障害予兆の検知、障害原因の絞り込み、障害原因の解決までを自動実行する技術となっている。

　フェロークラウドコンピューティング研究センター長の坂下善隆氏は、「これまでの社会システムは、障害が発生した場合、その発生直後から対処を行っていた。しかし、ヒューマンセントリックな社会基盤を支えるクラウドシステムでは、24時間365日、安全かつ安定してサービスを提供することが求められる。さらに、クラウドシステムは、大規模化・複雑化する特徴をもつため、発生した障害の影響が広範囲に広がりやすく、障害の原因を調べる際にも多くの工数と時間がかかっていた。そこで、こうした障害対応の課題を解決するために、従来のような事後対処ではなく事前回避を可能とする技術を開発した」と、新技術の開発背景を説明した。


社会基盤を支えるクラウド	フェロークラウドコンピューティング研究センター長の坂下善隆氏	障害対処の考え方が事後対処から事前回避へと変化するという

システムメッセージの分析による障害の予知

メッセージが出力されない潜在障害の予知

クラウド障害対処技術体系

　具体的には、障害予兆の検知では、障害の種類によって、「システムメッセージの分析による障害の予知」と「メッセージが出力されない潜在障害の予知」の2つの技術を開発。まず、「システムメッセージの分析による障害の予知」では、障害時の直前に出力されるメッセージに特定のパターンがあることに注目し、障害の予兆を検知する。発生したメッセージと、過去に発生した障害時のメッセージのパターンを比較することで、障害の予兆が発生しているかどうかを判断する。過去に発生したメッセージパターンは、ベイズ学習（証拠に基づいて、その原因となった事象を推定するための確率論的方法）により、事例ごとに重みづけを行うことによって、高い精度で障害予兆を検知することができるという。

　一方、「メッセージが出力されない潜在障害の予知」では、サーバーとシステムをつなぐネットワーク上を流れる通信パケットを収集・分析。ロスや再送、遅延時間など、通信パケットレベルでの微細な変化を分析することで、障害の検出を行う。例えば、担当者のミスによりサーバーなどの機器設定で誤った設定をしてしまった場合、サーバー自身は設定通りに動作して、システムメッセージが出力されないため、通信パケットレベルでの検出手法が有効となる。今回の新技術では、クラウドのような大規模システムを監視するために、10Gbpsの高速通信に対応し、ネットワークやサーバーシステムの障害をリアルタイムで検出することが可能となった。

　障害原因を絞り込む技術としては、検出された障害予兆に対して、予兆を発生させている最も疑わしい個所を推定する。具体的には、観測された症状を起点とし、ネットワークやシステムの構成情報を使って症状の原因へさかのぼっていき、複数の起点からさかのぼった結果を重ね合わせ、最も重なりの大きい個所や、正常動作が確認できない個所を最も疑わしいと推定するという。

　障害原因の解決では、絞り込まれた障害原因に対して、障害対処履歴などの過去のノウハウを活用し、運用管理者に適切な対処方法を提示する。障害は、過去に発生したものが再発している場合が多いため、過去の障害事例とその対処履歴を再利用できるように形式化し、ノウハウとして蓄積。これにより、障害原因を解決するための対処方法を即座に提示することができる。

　これらの技術を活用することで、ユーザーはクラウドシステムで障害が起こる前に迅速な対応が可能となる。さらに、障害の検出から解決までが自動的に行われるため、運用管理者の負担軽減、および利用者の信頼性向上を図り、継続的に運用できるクラウドシステムを実現する。

　なお、同社の社内システムに新技術を適用したところ、実際に障害が発生する前に誤設定を検出できたほか、障害解決の際も、従来平均で15分かかっていた障害対処を1分程度で対応できたという。今後富士通では、この成果を基に、2010年10月から開始される「オンデマンド仮想システムサービス」や「LCM監視サービス」に対して、順次、新技術の適用を進めていく予定。

（唐沢正和）

2010/2/23 16:53