- 障害を予知し事前に回避する新しいクラウド障害対処技術
本格的なクラウド・コンピューティング時代に向けて、富士通研究所は、高信頼なクラウドサービスを低コストで実現するために、障害を予知して事前に回避する新しいクラウド障害対処技術を開発しました。
クラウド・コンピューティングは、企業活動の基盤のみならず、私たちの日常生活に欠かせない社会インフラを支えるICTサービスとして、さまざまなシーンで利用されることが期待されます。
広く言われているクラウド・コンピューティングの利点として、サービス利用者の観点からは「ハードウェアやファシリティの準備が不要である」「必要な時に必要なだけすぐ使える」「料金は利用した分だけでいい」といったことが挙げられます。さらに、システム運用者の観点からも、「運用コストを省力化/最適化できる」「標準化によって迅速に対処できる」「新サービスの提供が容易である」といったことが挙げられます。
こうした期待にこたえられる一方、クラウド・コンピューティングには次のような特徴もあります。1つは、独立して稼働している既存システムをデータセンターや企業情報システムに集約することによるシステムの「大規模化」、もう1つは、仮想化技術によって多数のサービスが同一物理サーバ上で動作することによるシステム構成や依存関係の「複雑化」です。このことは、クラウド・コンピューティングはひとたび障害が発生するとその影響が広範囲に拡大しやすいといった事態を招くことも考えられ、従来よりも迅速な障害対処が求められます。
従来型システムの障害対処は、「事後対処型」でした。アクションは発生直後から始まり、その時点までの大量のシステムメッセージを分析して重要なメッセージを洗い出したり、人的リソースを投入して業務への影響度を推測したりしていました。本来、複数のシステム基盤を支えるクラウド・コンピューティングにあっては、一瞬のサービス停止も許されません。また、社会インフラのような大規模かつセキュアなシステムに対して冗長構成などの高コストな障害対処をおこなっていては、“経済性”というクラウド・コンピューティングの大きなメリットをサービス利用者に提供することができなくなります。従って、大規模かつ複雑化されたクラウド・コンピューティングでは、「事前回避型」を目指し、障害が顕在化する前に予兆を捉え、大問題にならないうちに対処する技術の開発を進めています。
そこで富士通研究所では、障害の監視から予兆検知、診断、対処までのPDCAサイクルを独自に構築し、事前回避型の障害対処技術を開発しました。本技術は、ネットワークの振る舞いや既知の障害データの分析をもとに障害発生の予兆を検知して原因を絞り込み、問題解決までを迅速化するとともに、メッセージパターンの自動学習によって障害対処サイクルの適用拡大と精度向上を可能にします。

前述のPDCAサイクルにおいて、次のような障害予知および事前解決技術を開発しました。
障害時のメッセージに特定のパターンがあることに着目し、過去の運用・障害報告や、構築・試験時に得られたログをもとに、障害メッセージパターンデータベースを作成。実運用時に発生するメッセージをオンラインでマッチングさせることにより、予兆を早期に検知します。
本データベースは、「ベイズ学習(注1)」を用いてメッセージパターンを重み付けし、障害に関係のあるパターンのみを自動抽出します。そのため、人がパターン定義を書き込むといった作業を必要とせず、またメッセージの形式や内容に依存しないため、マルチベンダー環境下でも利用することができます。

予兆が出始めてから障害発生に至るまでの期間が障害ごとに異なるため、監視期間を一定にしてしまうと、異常性の低いメッセージパターンまで検知したり、逆に重要な予兆を検知できないといった問題が生じます。そのため、重み付け時に、障害ごとの監視期間を調整する技術の開発もおこないました。
本データベースは成長型データベースであり、既存のメッセージパターンの繰り返し学習や、実運用時の追加学習によって自動更新されることから、データベースの経験知が増えていくに従ってカバーできる予兆が拡大し、また検知精度も向上していきます。
人間のミスでシステムに誤った設定をした場合、システムはその設定どおりに振る舞うため、エラーメッセージを出さず、障害が潜在化することがあります。こうした潜在的な障害を検知するために、通信パケットを収集・解析し、ネットワークや機器の品質/性能をリアルタイムで監視します。本技術は10ギガbpsの高速通信に対応しており、パケットのロスや遅延など、微細な振る舞いをもとに誤った設定を可視化することが可能です。

前述の方法で予兆を検知できると、次は解決に向けた原因の特定が急務です。そこで、すべての異常について症状の起点から逆にたどっていった結果を重ね合わせ、重なりの多い箇所を絞り込むまでの処理を一連で自動的におこないます。このとき、構成管理データベース(CMDB)の構成情報を、IPアドレスに依存しない抽象化した形で用いるため、アドレス変更をおこなっても容易に対応することが可能です。

障害は過去に発生したものが再発する場合が多いことから、対処履歴を再利用することで効率化/省力化がはかれます。そこで、過去の障害事例を「シンプトンデータベース(注2)」に蓄積し、誰もが利用できるノウハウとして形式知化します。シンプトンデータベース上の各対処履歴は、「症状」「処方(対処法)」「メタ情報」などで構成されており、例えば「アプリ停止」といった症状に対して、対処法は「サーバ$Xからファイル$Y採取」のようにサーバ名やファイル名を限定しない、抽象的な手順で記述しています。これをCMDBと連携させることにより、「サーバ10.254.XX.XXからファイル/var/adm/messages採取」といった具体的なアクションに変換し、システム運用者に提示します。こうすることにより、構成変更による影響を吸収し、手順の再利用化を可能にしています。

本技術を富士通の社内システムで試行したところ、実際に障害が発生する前に誤ったネットワーク設定を検出することができました。さらに、これまで非定型であった製品Q&Aの障害対応ノウハウのうち、63%を定型化することができたほか、窓口業務において平均で16分かかっていた障害対処を1分30秒程度に短縮することも可能になりました。
今後は、館林システムセンターの「オンデマンド仮想システムサービス」および富士通LCMサービスセンターの「システム監視サービス」などへ順次適用し、本格運用を始動します。
今回開発したPDCAサイクルに基づく障害対処技術は、富士通がこれまで蓄積してきた、そしてこれから蓄積していくノウハウを最大限に活かす技術であり、富士通のクラウドサービスに限らず、お客様が利用しているクラウドサービスから社会インフラまで、さまざまなクラウド・コンピューティングに適用できる手法です。
クラウド・コンピューティングの利用形態は、データセンターを共用利用する「パブリッククラウド」から、企業が占有利用する「プライベートクラウド」へ広がり、将来的には、多様な環境を自由に組み合わせた「高度に融合するクラウド・コンピューティング」の世界がやってきます。富士通研究所はこの融合するクラウド・コンピューティングを見据えて、障害対処技術をはじめとし、クラウド技術を牽引する最先端の研究開発に尽力します。
[2010年5月1日 公開]
栗本鐵工所様が、富士通とともに取り組んだ、グローバル競争を勝ち抜くための「遠隔保守」についてご紹介します。
NKSJひまわり生命保険株式会社様が、富士通とともに取り組んだ、システム連携基盤を活用し実現した、統合コストの最小化についてご紹介します。