JPWO2012117549A1 - 障害解析装置、そのシステム、およびその方法 - Google Patents

障害解析装置、そのシステム、およびその方法 Download PDF

Info

Publication number
JPWO2012117549A1
JPWO2012117549A1 JP2013502114A JP2013502114A JPWO2012117549A1 JP WO2012117549 A1 JPWO2012117549 A1 JP WO2012117549A1 JP 2013502114 A JP2013502114 A JP 2013502114A JP 2013502114 A JP2013502114 A JP 2013502114A JP WO2012117549 A1 JPWO2012117549 A1 JP WO2012117549A1
Authority
JP
Japan
Prior art keywords
failure analysis
failure
distribution
router
mahalanobis distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013502114A
Other languages
English (en)
Other versions
JP5666685B2 (ja
Inventor
功 下川
功 下川
俊明 垂井
俊明 垂井
啓生 宮本
啓生 宮本
馬場 智宏
智宏 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2012117549A1 publication Critical patent/JPWO2012117549A1/ja
Application granted granted Critical
Publication of JP5666685B2 publication Critical patent/JP5666685B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

ネットワークトモグラヒィ技術においては、障害がおきた場所、障害要因を特定することができず、また情報量が少ないため誤検知も多い。IMF102は被検対象である各ルータ105からAFM(Aggregated Flow Mining)等を用いてフロー毎の情報を取得して、ルータ毎に、フロー毎の差分やスループット等の統計情報の分布を取り、各分布に対して基準分布の期待値に対するマハラノビスの距離を計算し、分布を包括的に判断して異常判定を行う。異常判定を行うに当り、比較対象である分布の正常値はAFMから取得し、随時フィードバックをかけて更新する。また他のルータの異常判定結果を判断した上で比較対象である基準分布の平均値及び標準偏差の期待値の更新を行う。

Description

本発明は、大多数の有線ノードを処理し、障害解析を行う装置に関するものである。
昨今、大規模な分散処理ネットワークシステムにおいて、最も大きな課題は可用性である。24時間、365日、実質ノンストップで稼働しなければ、分散処理ネットワークシステムを基幹業務で用いることは難しい。特に、分散処理ネットワークシステムの可用性を上げるためには、分散処理ネットワークシステムに対する信頼性及び情報処理の高速応答性の向上を図ることが必須となる。
現行、通信の信頼性の向上を図るために、アプリケーションは分散処理を施され、またネットワークシステムとして、大部分のシステムは冗長構成を取っている。しかし、分散処理ネットワークシステムを用いたサービスの拡大は、トラヒックの飛躍的な増大を招き、分散処理を行いかつ冗長構成をとるデータセンタ及びネットワークシステムにおいて、消費電力の増大が今後懸念されている。そこで、低消費電力化を図るために、信頼性を確保しつつ肥大化したネットワークを効率よく縮退し、最適に仮想サーバや仮想スイッチを再配置することが必要であり、そのためには、障害解析技術が必須である。このような障害解析手法の従来技術として、ネットワークトモグラヒィを用いて状態変化を探知する技術を開示する特許文献1や、特許文献2がある。
特開2007-201646号公報 特開2005-189163号公報 特開2006-314077号公報
上述の管理サーバの制御により、定期的に最適に仮想サーバや仮想スイッチを再配置するための制御トリガーの一つとして通信効率が利用できる。通信効率が悪いネットワークでは、再送も多く、そのようなネットワーク上に仮想サーバや仮想スイッチを再配置すると消費電力の増大が懸念されるからである。そのため、ネットワークシステムにおいて障害箇所であるルータ及びサーバ等を素早く特定し、障害箇所であるルータやサーバを、仮想サーバや仮想スイッチの再配置を行う管理サーバへと通知し、管理サーバが仮想サーバや仮想スイッチの再配置を行い、無駄な消費電力の浪費を避けることが必須である。
障害解析に関する特許文献1のネットワークトモグラヒィとは、外部からプローブ(Probe)パケットを送信し、Probeパケットの遅延等の解析パラメータを用いて、状態変化を探知するものである。このネットワークトモグラヒィにおける技術課題は、ネットワークトポロジーの外部からProbeパケットを送信することで、ネットワークトポロジー内部の事象を推定するものであり、取得できる解析パラメータが少なくかつ実フロー(Flow)の情報でないため、解析できる障害や事象が限定され、また検知結果が障害でない可能性がある。
遅延データにて状態変化を検知した場合を例に挙げる。遅延データのみの状態変化を探知してアラートを送信した場合、ネットワークシステムにおいて、遅延が増大した原因として各ルータがキューイングして発生した遅延である可能性もあり、検知結果が障害でない可能性がある。また遅延の揺らぎのみで状態変化を判断して、アラートを送信するために、アプリケーションの送信開始、アプリケーションの送信停止等の急激な状態変化が発生する場合等、障害でない場合でもアラートが送信される。このように遅延の急激な状態変化のみで管理サーバへとアラートを送信した場合は、障害が発生していない場合でもアラートが送信され、管理サーバが管理するアラートが過多状態へと陥り、管理サーバでのシステムに対する異常判定が困難となる。また障害箇所も特定し難く、トモグラヒィの結果を用いて、管理サーバが仮想スイッチや仮想サーバの再配置を行うことは困難である。
また特許文献2に記載してある異常判定装置では、異常検知に当り、制御の煩雑化は取り除けるが、前もって正常時のデータを保持しておく必要がある。ネットワークシステムのように、常時トラヒックの状況が変化し、多様化した障害が発生するシステムには、正常と判断できるパラメータを前もって計測することは難しい。このように異常と判定する際に、比較対象となる基準値の定義が難しい。
本発明の目的は、障害箇所の詳細な特定及び障害検知に対する誤検知率を減らし、アラート過多状態を回避し、かつ正確にシステムに対する異常判定を行うことが可能な障害解析装置、システム、及び方法を提供することにある。
上記の目的を達成するため、本発明においては、ネットワーク上の複数のルータが接続される障害解析装置であって、各ルータが取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、受信したデータ群を蓄積する蓄積部と、蓄積したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行い、各ルータの異常判定にて全ルータの異常判定に用いる基準分布の平均値及び標準偏差の期待値の更新を移動平均にて行う障害解析部を備える障害解析装置を提供する。
また、上記の目的を達成するため、本発明においては、ネットワークの障害解析システムであって、ネットワーク上に、ノードが接続される複数のルータと、複数のルータに接続される障害解析装置とを備え、障害解析装置は、ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、受信したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える障害解析システムを提供する。
更に、上記の目的を達成するため、本発明においては、ネットワーク上の複数のルータに接続されるノードにおける障害解析方法であって、ノードは、ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信し、受信したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析方法を提供する。
本発明によれば、大量に送信されるデータ群を少なくとも一つの解析パラメータちし、この解析パラメータの分布に関して、基準分布の期待値に対するマハラノビスの距離を算出し、解析パラメータ分布においての基準分布の期待値に対するマハラノビスの距離を用いて包括的に異常判定を行うので、適切に判定を行える。
また異常判定を行うに当り、比較対象である基準分布の期待値を情報収集障害解析装置が管理しているルータ毎の異常判定結果から判断して更新する。システム全体の状態を判断して比較対象である基準分布の期待値の更新を行うため、より適切な異常判定を行うことができる。
さらに、線形事象から非線形事象への移行の有無で異常判定を行うために、比較対象である基準値を固定する必要性はない。
実施例1におけるデータセンタ内におけるシステム概要図である。 実施例1におけるWAN上におけるシステム概要図である。 実施例1におけるAFMのパケットの一例を示す概要図である。 実施例1における比較検証を行うための概要を説明する図である。 実施例1の改良構成における基準分布をフィードバックする方法の概要説明図である。 実施例1における異常フローを検出する概要図である。 実施例2における3次元においてマハラノビスの距離を検査する方法の概要説明図である。 各実施例の障害解析システムにおけるIMFの一機能構成を説明するための機能ブロック図である。 各実施例におけるIMFのフローチャート図である。 各実施例におけるIMF内部のブロック構成の一例を示す図である。 各実施例におけるIMFが管理するテーブルの一例を示す図である。 各実施例における廃棄率のデータのグラフを示す図である。 各実施例における廃棄率のデータのテーブル図である。 各実施例におけるスループットのデータのグラフを示す図である。 各実施例におけるスループットのデータを示す図である。 各実施例における平均パケットサイズのデータのグラフを示す図である。 各実施例における平均パケットサイズのデータを示す図である。 各実施例における3次元マハラノビスの距離のデータのグラフ図を示す図である。 各実施例における3次元マハラノビスの距離のデータを示す図である。 各実施例における廃棄率のデータのグラフを示す図である。 各実施例における廃棄率のデータを示す図である。 各実施例におけるスループットのデータのグラフを示す図である。 各実施例におけるスループットのデータを示す図である。 各実施例における平均パケットサイズのデータのグラフを示す図である。 各実施例における平均パケットサイズのデータを示す図である。 各実施例における3次元マハラノビスの距離のデータのグラフを示す図である。 各実施例における3次元マハラノビスの距離のデータを示す図である。 実施例5におけるAFMのパラメータである異なり数を説明する図である。 実施例5におけるAFMのパラメータである異なり数を説明する図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットを説明したグラフ図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットを説明した図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットを説明したグラフ図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットを説明した図である。
以下、本発明の具体的な実施例を図面に基づき説明する。
図1に第1の実施例のデータセンタ内で障害解析を実行する管理システムの概略構成図を示す。本明細書においては、被検対象である各ルータから送信されるAFM(Aggregated Flow Mining)等の情報を収集し、解析する障害解析装置をIMF(Integrated Mining of Flow)と定義する。なお、AFM技術に関しては、池田他、「大規模エッジルータと高速トラヒックモニタリング」、信学会技報、vol.109、no.421、IA2009-90、PP47-52、Feb.2010、或いは渡辺他、特開2006-314077号公報等を参照されたい。
図1の構成は、統合管理サーバがデータセンタ内部の仮想サーバ及び仮想スイッチを制御、管理するシステムを示しており、101はクライアント(Client)、102は障害解析装置(Integrated Mining of Flow:IMF)、103は統合管理サーバ、104はサーバ、105はルータを示している。この管理システムおいて、管理サーバ103はルータ105やサーバ104等の装置の異常を検知した上で、システムの制御を行う。ここで各ルータ105やサーバ104の状態変化を探知するために、ある時間内にルータ105を経由したパケット量等、各ルータ105の状態変化を解析するための統計パラメータを取得することが必須となる。
なお、図1において、管理システム上の、クライアント101、IMF 102、統合管理サーバ103、サーバ104、ルータ105等の間の各種の結線中、両方向の細実線は相互間の通信線を、太実線は通信線上を各種情報の流れを示している。同図から明らかなように、各ルータ105からIMF 102に通信線を介してAFMが送られることを示している。またクライアント101、サーバ104、ルータ105に各種のコントロールコマンド(Control Command)が送られることを示している。本明細書において、これらのネットワーク上の各要素は、通信制御装置として機能するルータ以外をノードと総称する場合がある。特に断らない限り、図2以降のシステム構成図においても同様である。
本実施例の管理システムにおいては、各ルータ105の状態変化を解析するめの統計パラメータを取得する手段としてAFM(Aggregated Flow Mining)を例に上げた。AFMは、上述の文献等で明らかなように、ルータ等の通信制御装置が、大量のトラヒックの中から、ネットワークの正常な運用を妨げる異常フローや特徴的なフローを、運用者がいち早く見つけ出せる統計情報を提供する。また別の統計情報を取得する手法としてSNMP(Simple Network Management Protocol)がある。しかし、SNMPはMIB(Management Information Base)を使うため、統計情報を管理者へと送信する場合、SNMPとMIBとの情報交換が低速なためリアルタイムな統計情報を管理者へと送信することができない。またSNMPの統計情報は、ルータ105のキューの情報等、情報としては荒い情報が多い。
AFMはSNMPとは違い、トラヒックの中から異常フローや特徴的なフローに関しての統計情報を管理者へと送信することに特化したプロトコルであり、SNMPのMIBのようなデータベースを持たず、データベースを記憶部であるRAM(Random Access Memory)上に持ち、ハッシュ(hash)関数を用いて統計情報を検索し、高速な情報交換を行うために、制御に当り動作のオーバヘッドが少なく、大容量のトラヒックを取り扱うことが可能である。またAFMは、フロー毎の情報を取り扱うためにSNMPに比べより詳細な情報を取得することが可能である。
本実施例のシステムは、システム全体を統合管理する統合管理サーバ103と、複数のルータ105から送信されるAFMを収集し、AFMの情報からトラヒックの状態変化を探知するIMF 102、クライアント101、及びサーバ104から構成される。各ルータ105は、AFMをIMF 102へと送信する。AFMはルータが持つ各ポートをミラーリングして、ミラーリングした情報を集約してパケットに格納してIMF 102へと送信するため、ルータ105を経由するトラヒックには影響を与えない。
IMF 102はAFMをルータ105毎に収集して、AFMのデータを差分化することで、ルータ毎の障害解析を行う。ここでIMF 102のハード的な性能も限られているために、IMF 102の管理できるルータの台数も限られている。よってシステム中に複数のIMF 102が存在することが想定される。IMF 102は障害解析を行うに当り、IMF 102が管理しているルータ105の因果関係を考慮して、管理している全ルータ105の障害判定に基づいて、障害判定を行うに当り比較対象となる基準分布の期待値の更新を行う。各々のIMF 102は通信制御装置である各ルータから送信されるAFMを収集し、ルータ105毎に障害解析を行い、アラート(Alert)を統合管理サーバ103へと送信する。アラートを受信した統合管理サーバ103は、ネットワーク上に最適に仮想スイッチや仮想サーバを配置するための制御を行う。図1に示すデータセンタ内部の管理サーバ103は、サーバ104間やデータセンタ間で仮想サーバの移動や仮想スイッチの再配置の制御を行う。
図2は、本実施例のWAN上の管理システムの一例を示す構成図である。統合管理サーバ201は、WAN上にある仮想サーバ及び仮想スイッチを制御、管理するシステムである。図1同様、図2においても、統合管理サーバ201は、太実線で示されるIMF203から送信されるアラート(Alert)を元に、データセンタ204A、204B間やサーバ間で、仮想サーバ及び仮想スイッチを最適に配置するための制御を行う。なお、図2において、両方向矢印の点線は、各クライアント205とデータセンタ204A、204B間のフロー(Flow A、Flow B、Flow C)を示している。
システム全体としては、図1に示すデータセンタ内部の統合管理サーバ103、図2に示すWAN上の統合管理サーバ201は互いに連携を取り、ネットワーク全体の制御を行う。WAN上にある統合管理サーバ201を統合管理サーバの親管理サーバとして定義し、データセンタ側にある管理サーバ103を子管理サーバとして定義する。親管理サーバ201では、最適化するための制御の手段を選択するのみで、制御自体は子管理サーバ103が行う。親管理サーバ201は定期的に、IMF203から送信される情報等を基に、最適化のアルゴリズムを実行するように、子管理サーバ103へと問い合わせる。
図3に、本実施例で用いるAFMの情報を伝達するAFMパケットのフォーマットの一例を示す。一般のフロー(Flow)は、IPヘッダやTCP/UDP(Transmission Control Protocol/User Datagram Protocol)ヘッダに含まれるアイテムの内、5-tuple(送信元IPアドレス、宛先IPアドレス、プロトコル、送信元ポート番号、宛先ポート番号)の値が一致しているパケットの集まりと定義されることが多い。AFMではこの考え方を拡張し、任意のn-tupleが一致しているパケットの集合を集約フローと定義し、この集約フロー単位にパケット数やバイト数等の統計情報を収集する。集約フローの概念を導入すると、例えばDDoS(Distribute Denial of Service)攻撃やネットワークスキャンのような1対nホスト間を流れるトラヒックを単一フローと見なしてその統計情報を得られるようになり、ネットワーク上を流れるトラヒックの振る舞いをより簡単に把握できるようになる。
図3のAFMパケット300は、フロー種別301、アイテム数302、ペイロード長303、パケット数304、バイト数305、計測時間306、取得時刻307等から構成され、異常フローを探知するに当り、必要な情報をIMF102、203へと送信する。
図4は、本実施例におけるIMF102、203が障害解析を行う場合における異常判定方法を説明するための図である。なお、IMF102、203の内部構成の具体的実施例は、後で図10を用いて説明する。IMFは障害を解析するに当たり、ネットワーク上に流れるトラヒックが正常か異常かを判断する必要がある。本実施例においては、ネットワーク上に流れるフロー全体の状態が正常か異常かを判断する手法を用いる。図4では、ある時刻におけるネットワーク上において、全フローの解析パラメータ測定値を用いてプロットした分布を示す。図4の横軸はデータ値を縦軸は確率密度を示す。
始めに、図4上に、比較対象となる基準分布401の平均値と標準偏差を、初期値として設定する。これらの分布は、フロー毎の分布を示している。例えば、解析パラメータとして、ネットワークトラヒックを定義した場合において、ネットワークトラヒックの平均値として32[kbit/s]、標準偏差として32[kbit/s]を設定する。この値は、平成22年9月に総務省、総合通信基盤局が提示している、日本における1契約者当りのトラヒック量である32[kbit/s]程度の値に基づくものである。
続いて、IMF102、203は、ネットワーク上に流れているトラヒックの異常判定を行うために、各ルータ105のAFMから必要な統計情報を取得する。その後、取得した各データに関して、基準分布に対してのマハラノビスの距離の絶対値を計算する。
マハラノビスの距離の式は下式の通りである。
D=(x-平均)/標準偏差 [a.u.]・・・・・・・・・・・・・・(1)
式(1)からマハラノビスの距離の値が0から十分離れた値であれば、比較対象である基準分布から逸脱したデータとなることが解る。分布に関して、各フローのマハラノビスの距離を計算後に、全フローのマハラノビスの距離の平均値を計算する。計算したマハラノビスの距離の平均値が、図4の分布402に示すように、2以上の分布に関しては、もし分布が正規分布に従うのであれば、有意水準5%で有意でないと推測できる。つまり、5%の確率で発生した異常分布とみなすことができる。このようにして、分布の異常を探知することにより、AFMを送付したルータを流れるトラヒック全体の分布から、異常であるかを検知することができる。
図5は、以上説明した実施例1におけるマハラノビスの距離を用いたトラヒックの異常判定方法の精度向上のための変形実施例を説明するための図である。トラヒックは刻々と移り変わるために、トラヒックにおいての正常値を定義するのは難しい。本変形例は、後で説明するIMF102、203の処理部で行う異常判定において、比較基準となる基準分布を常にフィードバックをかけて更新する方法に関する。すなわち、比較対象である基準分布501の期待値を更新する手法である。本変形例では、リアルタイムに収集したデータの分布に関して、過去のデータを基に定義した基準分布の分布の平均値及び標準偏差を比較してマハラノビスの距離を計算する。
IMF102、203でAFMのデータを収集し、収集したデータの分布に関して、平均及び標準偏差を算出し、基準分布の平均値及び標準偏差の移動平均を取得する。
移動平均の計算式を下式2、3に示す。
平均の移動平均=(基準分布の平均+AFMで取得したデータ分布の平均)/2
・・・・・・・・・・・・・・・・・・・・・・・・・・(2)
標準偏差の移動平均=
(基準分布の標準偏差+AFMで取得したデータ分布の標準偏差)/2
・・・・・・・・・・・・・・・・・・・・・・・・・・(3)
上記求めた式2、3から、フィードバック後の平均の移動平均を新たな基準分の平均として定義し、標準偏差の移動平均を新たな基準分布の標準偏差として定義する。図5に、フィードバック後の期待値平均(丸1、丸2)を例示し、期待値平均(丸2)に対する異常分布の平均を例示した。
この過去のデータを基に新たに定義した基準分布501を基にして、新たにリアルタイムに取得したAFMのデータと比較検証を行う。比較検証を行うに当り設定した基準分布の平均及び標準偏差を基に、新たに取得したAFMのデータに関してマハラノビスの距離の計算を行う。計算したマハラノビスの距離の平均値が2以上の分布に関しては、もし分布が正規分布に従うのであれば、有意水準5%で有意でないと推測でき、5%の確率で発生した異常分布502と推測する。
このように、基準分布の平均値と標準偏差に関してフィードバックをかけ、移動平均を取りながら更新し、移動平均から大幅に外れた分布を異常分布と推定することにより、線形の現象から大幅に外れた異常事象が発生したと推定する。通常は、呼の発生等の事象はほぼ独立に発生する。しかし、急激に事象の相関が高くなった場合は、通常では考慮できないイベントが発生したと捉えることができる。例えば、軸としてトラヒックを例に上げるのであれば、通常では発生しないイベントが発生し、急激に複数のトラヒックが上昇する。その通常では発生しないイベントとして例えば、正月の午前0時に明治神宮で家族や友達に携帯電話で一斉に通信し、携帯電話が音信不通になるような、急激に相関値が上昇するイベントである。
本変形例においては、フィードバックを行うに当り、基準分布として線形事象を定義しているために、非線形事象である異常事象に関して移動平均は更新しない。つまり、異常が発生したと判定された場合には、測定された値によって、基準分布が更新されることを抑圧する。またIMF 102、203が管理している各ルータにおいて、ルータの内1つでも異常事象が発生したならば、管理している他のルータの基準分布の平均値と標準偏差値のフィードバックを行わない。つまりシステム内の他のルータとの因果関係を考慮し、比較対象である基準分布の平均値と標準偏差値の期待値の更新を行う。また、基準分布の平均値と標準偏差値の期待値の更新を行うに当り、IMF 102、203が管理しているルータが1台の場合は、その1台の異常判定で基準分布の期待値の更新は行う。本変形例により、トラヒックをリアルタイムに追従し、トラフィックの正常値を更新することができ、ネットワーク上を流れるトラヒック全体の分布に対する、正確な異常判定を行うことができる。
続いて図6を用い、トラヒック全体において、状態が異常であると判定した場合に、異常を引き起こしている障害要因を特定する方法を説明する。図6はAFMから取得した統計データの中から異常トラヒックを特定する手法を説明する図である。同図において、横軸はフロー番号、縦軸は各フローのデータ値を示している。
異常フロー(603)を特定するための評価式を下式に示す。
Avg(基準分布)+2σ(基準分布)<フローのデータ ・・・・(4)
AFMを用いて計測した分布を異常分布と判定した場合、上式のように基準分布の平均値601及び標準偏差σ 602から、基準分布の平均値601から2σ以上のトラヒックを異常トラヒックと推定する。図6では、この異常フロー603の特定に当って、2σを閾値として例示しているが、これはIMF 102、203の管理者が設定できるパラメータである。今回主な閾値として2σを例に上げているが、これは分布が正規分布に従うのであれば、有意水準5%であり、想定していたトラヒックモデルに対して5%の確率でしか発生しないフローであり、これを異常フローであると推定する。つまり、本実施例においては、これらの異常フローが原因で異常分布が引き起こされたと判定する。
このように、常にトラヒックの状況をモニタリングし、そのトラヒック状況に関して、フィードバックをかけて学習し、その学習した基準分布とリアルタイムのトラヒックとを比較する。比較検証を行うに当たり、解析パラメータ毎に
続いて、実施例2として、多次元解析による障害解析システムについて説明する。障害解析システムにおける異常判定方法においては、誤検知を防ぐために異常判定の精度をあげる必要がある。誤検知が多い解析では、管理サーバへと送信されるアラート(Alert)が過多になり、管理サーバの誤動作やダウンを引き起こしてしまう可能性が高い。
図7は、マハラノビスの距離を用いた3次元解析に基づく障害解析システムの概要図を示す図である。同図において採用する軸は、スループット701、平均パケットサイズ702、廃棄率703を3つの軸として上げる。これらの軸毎に前述のように、AFMで取得したデータに対して、基準分布の平均値及び標準偏差を用いてマハラノビスの距離の計算を行う。また軸毎に求めたマハラノビスの距離に関して、更に3次元の距離を計算する。
本実施例においては、計算式を下式として定義する。
3次元マハラノビスの距離=sqrt(α*x2+β*y2+γ*z2)・・・(5)
α+β+γ=3 ・・・・・・・・・・・・・・・・・・・・・(6)
ここで、x軸は廃棄率のマハラノビスの距離、y軸を平均パケットサイズのマハラノビスの距離、z軸をスループットのマハラノビスの距離として定義する。ここでα、β、γは、各軸の重みであり、各障害に対して各軸の重みのパラメータを変化させることで、障害に対するより正しい検知が可能となる。上記式に基づいて、3次元のマハラノビスの距離を計算し、その後、3次元のマハラノビスの距離を用いて異常判定を行う。3次元のマハラノビスの距離の閾値として、3.5を定義する。
これは、各軸に関して、異常と見なす閾値は2.0であり、その閾値に関して、3次元へと換算した場合は、下式として定義することができる。
sqrt(22 + 22 + 22)=2*sqrt(3)≒3.5 ・・・・・・・・・・(7)
として定義することができる。
本実施例においては、この閾値を用いて、3次元のマハラノビスの距離の平均値を計算した場合に、平均値が3.5を超えているかで異常判定を行う。このように異常判定を行う次元数を増やすことにより、包括的に障害判定を行える。
1次元の軸の異常判定で発生する誤検知に関しても、包括的に多次元の軸で異常判定を行うために正確な判定を行うことができる。例えば、ある1軸の分布は異常と判定され、他の2軸の分布が異常と判定されない場合において、包括的に3次元で判断すると異常でないと判定される。このように、1次元で異常判定を行うと発生してしまう誤検知を3次元で異常判定を行うことで防ぐことが可能となる。以上説明した実施例2では、3次元にて異常判定を行うことを例に上げたが、これは2次元にも縮小が可能であるし、また4次元、5次元等、高次元へと拡張することも可能となる。
続いて、図8〜図10を用いて、上述した各実施例における、IMF102、203の具体的な構成例とその動作処理を説明する。
図8は、IMF102、203の機能処理の一例を説明するためのブロック図である。まず、IMFが制御を行うに当り、比較対象である基準分布の初期値を設定する(801)。その後、IMFは各ルータのAFMを用いて統計的処理を行うためのデータを収集する(802)。各軸に対して、基準分布に対してのマハラノビスの距離の計算をルータ毎に行い、その後、管理しているルータ毎の異常判定を行う(803)。もし、管理しているルータ内に異常分布を検知したルータが存在するのであれば、IMFが管理している全てのルータに対して、基準分布の期待値の更新を行わない。その後、異常が検知されたのであれば、管理サーバへとアラートを送信する(804)。または、管理している全てのルータにおいて、異常が検知されないのであれば基準分布の期待値の更新を行う(805)。なお、この基準分布の期待値の更新(805)が上述した実施例1のフィードバックを用いる変形例に対応していることは言うまでもない。このように管理しているルータの相互関係で依存関係を考慮しながら各ルータで比較検証を行うための基準分布の期待値の更新の有無を決めることで、より誤検知を減らしていく。
図9は、IMF102、203の制御方式の一例を説明するためのフローチャートを示す。IMF102、203は、制御に当り、まず初めに初期値として各ルータの各軸の基準値として平均及び標準偏差を設定する(901)。設定後に、IMFを起動し各ルータからAFMにてフロー毎のデータを取得する(902)。AFMは各ルータの統計情報を収集し、その情報をIMFへと送信する。IMFは取得した情報を内部のデータベースへと格納する。N秒間、各ルータから送信されるAFMの情報を格納する(903)。ルータ毎に振り分けた解析パラメータを用いてM次元マハラノビスの距離を求めて異常判定を行い、異常判定の結果を基に管理しているルータにおいて1台でも異常があったならば基準値の期待値の更新を行わない(905)。ここで、M次元とは、1以上の全ての次元を意味することはいうまでもなく、2以上は実施例2の多次元に対応する。異常が検知されたならば、管理サーバへとアラートを送信する(907)。もし、管理しているルータにおいて全ルータが異常判定において正常であった場合は、基準値の期待値の更新を行う(906)。この更新(906)は図8の更新(805)に対応する。
図10に各実施例の障害解析システムにおけるIMF102、203の一実施例の構成図を示す。IMF1000はサーバであり、通常のコンピュータ構成を備えており、処理部を構成する中央処理部(Central Processing Unit:CPU)1002、記憶部を構成するRAM(Random Access Memory)1003とHDD(Hard Disk Drive)1009、及びNIF(Network Interface)1001を備える。RAM1003に、受信部として機能する受信プログラム1007、送信部として機能する送信プログラム1008、蓄積部として機能する蓄積プログラム1006、障害解析部として機能する障害解析プログラム1004、アラート作成部として機能するアラート作成プログラム1005を記憶する。IMF 1000ではこれらの機能部を構成する各プログラムを、CPU 1002がHDD 1009に記憶されたプログラム1011から逐次読み出し、RAM上 1003に展開して駆動する。
なお、本明細書においては、上述したIMF以外の、図1、図2中の障害解析システムを構成する各要素の内部構成の説明を省略するが、クライアント101、205、管理サーバ103、201、サーバ104、更にはルータ105、202等も全て図10に示すコンピュータの基本構成を備えている。なお、2つ以上の異なるネットワークを相互接続する通信制御装置であるルータ105、202は、パケットバッファ、経路テーブル、フロー制御部等の通常のネットワーク上の通信制御装置としての構成に加え、上述したIMF102、203に送出するAFMを生成する機能を実現するための機能ブロック、プログラムを備えており、処理部によるプログラム実行によりAFMを生成して、IMF102、203に送出する。このようなAFM生成機能を備えた通信制御装置の構成の一例は、上述した特開2006-314077号公報に詳述されている。
図10の受信プログラム1007は、各ルータから送信されるAFMを、NIF(Network Interface)1001を経由して受信する受信部として機能ブロックする。送信プログラム1008は、管理サーバへと発行するアラート(Alert)やルータに対して発行するコマンドを送信する送信部として機能するブロックである。蓄積プログラム1006は、AFMから受信した統計情報をデータベース1010上の管理テーブルに対応したデータへと加工後に、データベース1010へと格納する。管理テーブル上のパラメータとしては、統計情報をルータ毎に振り分け、振り分けられた統計情報を、障害毎に解析パラメータを振り分け、管理テーブルを作成する。またIMF1000が管理しているルータ間の因果関係を知るために、NMS(Network Management System)からネットワーク全体のトポロジー情報をデータベースへと格納する。
障害解析プログラム1004は、データベース1010上にある管理テーブルから解析パラメータを取得し、解析パラメータ毎の基準分布に対してのマハラノビスの距離を計算した上で、包括的に障害毎に解析を行う。各ルータに対して異常判定を行い、管理しているルータ内において、一つでも異常があるルータが存在したならば、上述の通り、管理している全てのルータの基準値の期待値の更新を行わない。また、管理している全ルータにおいて異常判定がなされない場合は、全てのルータの基準分布の期待値の更新を行う。
アラート作成部として機能するアラート作成プログラム1005は、障害解析プログラム1004にて異常と判定されたルータのIPアドレス、また異常を引き起こしたフローのsourceのIPアドレス、destinationのIPアドレスをアラートパケットに内包し、管理サーバへと送信する。またアラートに関して、アラートのレベル・段階を定義、決定する。決定するアラートレベルの例として、3段階に分けた場合は、ネットワークが輻輳により遮断されたり、配線が劣化して断線されるような障害に対してはアラートレベルが最も高い危険アラート、フローの微小な廃棄が発生する事象や、スループットが上昇する等の事象に関しては注意アラート、特にネットワークとして障害が発生していない場合に関しては、安全アラートを送信する。
図11にIMF1000がデータベース1010で管理する管理テーブル1101の一例を示す。管理テーブル1101は、ルータ毎に、ルータ毎の比較対象となる基準分布及びルータを経由するフローのデータ群から構成される。基準分布として、各種解析パラメータの分布の平均及び標準偏差が記載している。今回は、解析パラメータ1102として、平均パケットサイズ(Average Packet Size)、スループット(Throughput)、廃棄率(Drop Ratio)を例に上げる。これらの分布に関して、基準分布となる平均及び標準偏差がテーブル1101上に管理されている。
またフロー毎(Flow 1、Flow 2 - - - )の情報も格納している。フロー毎の情報としては、解析パラメータである、平均パケットサイズ(Average Packet Size)、スループット(Throughput)、廃棄率(Drop Ratio)に加え、Source IP、Destination IP、Source Port、Destination Portを情報として格納している。これらのフロー毎の情報を基に、IMFの蓄積プログラム部1006おいて、現状の解析パラメータに関して統計分布を計算し管理テーブル1101を更新する。
図12A、12B〜図15A、15Bに、上述した各実施例より、AFMから送信された統計情報として、廃棄率、スループット、平均パケットサイズのデータ及び、IMF内で計算した基準分布に対してのマハラノビスの距離の計算結果を示した。計算結果は全て絶対値である。
図12A、12Bに廃棄率の結果を示すグラフ1201とデータ1202をそれぞれ示す。以下、図20A、20Bを除き、同様にグラフとそのデータを示している。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を0.2、標準偏差を0.2として設定した。今回例に上げた廃棄率に関して、基準分布に対してのマハラノビスの距離の平均値は0.99ある。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、廃棄率の分布は正常と判断する。今回、基準分布の平均値を0.2、標準偏差を0.2として設定したが、この値に今回は理論的な根拠はない。また異常フローとしては、フロー番号が9のフローがマハラノビスの距離が2.5であり、2以上の値を取るために異常なフローと特定する。
図13A、13Bにスループットの結果1301、1302を示す。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を200[Mbit/s]、標準偏差を200[Mibt/s]として設定した。今回例に上げたスループットに関して、マハラノビスの距離の平均値は2.59である。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以下の確率で発生する分布であるため、スループットの分布は異常と判断する。また異常フローとしては、フロー番号が2、3、4のフローが、マハラノビスの距離が6.5であり、2以上の値を取るために異常なフローと特定する。
図14 A、14Bに平均パケットサイズの結果1401、1402を示す。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を300、標準偏差を300として設定した。今回例に上げた平均パケットサイズに関して、マハラノビスの距離の平均値は0.88である。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、スループットの分布は正常と判断する。また異常フローとしては、フロー番号が2のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。
図15A、15Bは、廃棄率、スループット、平均パケットサイズ、3つの軸のマハラノビスの距離を用いて包括的かつ3次元に異常判定を行う手法を説明したグラフ1501と、そのデータ1502を示している。今回例に上げたマハラノビスの距離の3次元化に関して、マハラノビスの距離を3次元化した値の平均値は3.41である。これは1次元の分布において、異常判定するための閾値を2σ賭した場合、3次元のマハラノビスの距離の閾値値がsqrt(2*2+2*2+2*2)=2sqrt(3)=3.46≒3.5のために、分布が正規分布に従うとしたならば、有意水準95%の確率で発生する分布であるため、今回の状態分布は正常と判断する。異常と判断した場合は、原因及び検知した先のルータのIPを内包したパケット(アラート)を管理サーバへと送信する。IMFは、ルータが送信するAFMの統計情報を用いて、ルータ毎に包括的な障害解析を行い、他のルータの因果関係を考慮し、IMFが管理している全ルータが正常と判定された時に、基準分布の平均値及び標準偏差の期待値を更新することで、より正確に異常を判定できることが可能となる。
図16A、16B〜図19A、19Bに、異常判定を行う場合において、基準分布の平均値及び標準偏差の期待値を更新した場合において、基準分布に対してのマハラノビスの距離の計算結果を示すグラフとデータである。計算結果は全て絶対値である。上記の結果は、予測に基づいたサンプル結果であり、実測値ではない。
図16A、16Bに廃棄率の結果1601、1602を示す。廃棄率に関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は0.95となる。前回の期待値に対してのマハラノビスの距離は0.99であった。マハラノビスの距離は0から十分に大きい値であれば、基準分布の平均と標準偏差から逸脱した値と捉える事ができる。今回は、基準分布の平均値の期待値及び標準偏差の期待値が更新されたため、各データに対するマハラノビスの距離が減少したと考えられる。また更新した基準分布の期待値に対して、異常と判定される場合の廃棄率のデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、4〜9の6本のフローが廃棄率として、0.9という値を示した時である。
図17A、17Bにスループットの結果1701、1702を示す。スループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は1.27となる。更新する前の期待値に対してのマハラノビスの距離は2.62であった。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、マハラノビスの距離が減少したと考えられる。また基準分布の平均値及び標準偏差の期待値を更新する前は、スループットは異常分布と判定されていたのが、同じ分布であっても期待値を更新した場合は正常と判定される。また更新した基準分布に対して、異常と示すスループットのデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、2〜8の7本のフローで、スループット1.5[Gbit/s]という値を示した時である。
図18A、18Bに平均パケットサイズの結果1801、1802を示す。平均パケットサイズに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は0.82となる。前回の期待値に対してのマハラノビスの距離は0.88であった。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、マハラノビスの距離が減少したと考えられる。また更新した基準分布に対して、異常と示すスループットのデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、2〜4の3本のフローで、平均パケットサイズ1000[byte]という値を示した時である。
図19A、19Bに3次元のマハラノビスの距離の評価結果1901、1902を示す。3次元のマハラノビスの距離に関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、更新前に比べ、基準分布の平均値より2σ離れた異常分布として判定されるためには、データとしてかなり逸脱した値を必要とされる。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、基準分布の平均値及び標準偏差の期待値が更新する前に算出したマハラノビスの距離が大きい値は、今回の判定においては、マハラノビスの距離の値が小さくなっていることが分かる。つまり前回、誤検知の可能性を内包した結果に対して、今回はより正常な値に近づき、フィードバックを行うことでより適切な異常判定を行えることが分かる。
以上説明したように、ルータ等の被検対象より得られるデータ群は、複数の解析パラメータに分割される時系列のデータ群であり、これらの時系列のデータ群を基に、解析パラメータ毎に対する基準分布の平均値及び標準偏差の期待値を、フィードバックをかけて更新する。基準分布の平均値及び標準偏差の期待値に関して、初期パラメータは、経験則に基づいて設定する。また障害毎に解析パラメータを割り当て、割り当てられた3次元等の複数の解析パラメータの基準分布に対するマハラノビスの距離を算出し、包括的に異常判定を行う。
このようにして、複数のパラメータを用いた上で異常判定を行い、各ルータ間の因果関係を考慮した上で、各ルータの判定結果を基に更に基準分布の平均値及び標準偏差の期待値に関してフィードバックをかけて更新するために、ある一つのルータが異常検知を行った場合に、他のルータも一斉に異常検知を出力し、情報収集障害解析装置から管理サーバへと送信するアラートが過多状態となることを防止することができる。また、解析パラメータ数を3次元以上に増やすことで、限りなく誤検知をなくし適切な判定を得ることが可能となる。
続いて、第3の実施例に関して説明する。本実施例においては、上述した障害解析装置・システムにおいて、基準分布の平均値と標準偏差の期待値を更新する場合において、基準分布の平均値と標準偏差を、次に各ルータが送信するAFMの統計情報を用いて、単純移動平均に代え加重移動平均にて新たに更新する。
基準分布の平均と標準偏差の期待値の移動平均は下式で示される。
基準分布の平均の期待値の移動平均=
(α*基準分布の平均の期待値+β*AFMで取得したデータ分布の平均)/2
・・・・・・・・・・・・・・・・・・・・・・・・・・(8)
基準分布の標準偏差の期待値の移動平均=(α*基準分布の標準偏差の期待値
+β*AFMで取得したデータ分布の標準偏差)/2 ・・(9)
α+β=1 ・・・・・・・・・・・・・・・・・・・・・・(10)
上記の式を用いて、基準分布の平均値及び標準偏差の期待値を更新する。上記式の平均値及び標準偏差の期待値を更新する場合は、IMFが管理しているルータ間の因果関係を考慮し、管理している全ルータが正常の場合のみに基準分布の平均値及び標準偏差の期待値を更新する。この実施例の動作に関して説明する。システム構成は、上述した実施例1、2と同様であるのでここでは、説明を省略する。
(8)〜(10)式を用いて、基準分布の平均値及び標準偏差の期待値を更新するに当り、α値、β値、それぞれの比率を変化させる。α、βに関して、
β=1/マハラノビスの距離 ・・・・・・・・・・・・・・(11)
if(マハラノビスの距離<1) マハラノビスの距離=1・・(11a)
α=1-β ・・・・・・・・・・・・・・・・・・・・・・(12)
上記の式を用いて、基準分布の平均値及び標準偏差の加重平均を取得する。このように加重平均を取ることにより、比較基準となる基準分布の平均値及び標準偏差に関して逸脱度合いが高いデータを重要視せず、基準分布の平均値及び標準偏差により近いデータを重要視する。このように、逸脱度合いに対応して移動平均を取ることにより、比較基準となる基準分布を正常分布と見なすことができる。上記式の平均値及び標準偏差の期待値を更新する場合は、IMFが管理しているルータ間の因果関係を考慮し、管理している全ルータが正常の場合のみに基準分布の平均値及び標準偏差の期待値を更新する。
本実施例においては、実施例1の障害解析装置・システムに対して、基準分布の平均及び標準偏差の初期値を設定せずに、ネットワークに接続し、AFMを用いてN秒間ネットワークの状態を把握し、その時に取得したAFMのデータを基準分布の平均及び標準偏差の初期値として設定するものである。このようにネットワークの状況を学習した上で、基準分布の平均値及び標準偏差の初期値を自動的に設定することは、基準分布の平均値及び標準偏差の初期値を管理者がシステムの状況を推測した上で設定する必要はない。また、基準分布の初期値として、平均値を0として、システムの最大許容値を標準偏差として設定する手法も考えられる。この場合は、N秒間基準分布の移動平均を取った場合は、基準分布は最大許容値から現状駆動している値の分布へと収束していく可能性が考えられる。
次に、第5の実施例について説明する。本実施例においては、実施例1、2で説明した障害解析装置・システムにおいて、IMFが障害解析を行うに当り、異常判定にもちいる解析パラメータとして下式を定義する。
TCPのスループット/異なり数[Mbit/s] ・・・・・・・・・・(13)
ここで異なり数について説明する。図20A、20Bは、異なり数を説明する図である。ルータから状態変化を検知するための解析パラメータを取得する手段としてAFMを例に上げた。AFMでは、集約フローの概念を導入している。例えば5-tuple(送信元IPアドレス、宛先IPアドレス、プロトコル、送信元ポート番号、宛先ポート番号)の内、図20A、20Bに示すように、2-tupleが一致するパケットからなる集約フローを例上げる。このように1対n通信を1つの集約フローと見なすと、2-tupleに含まれないアイテムに何種類の異なる値が現れたかという「異なり数」と呼ぶ新たな統計量も定義することができる。AFMでは、この異なり数も統計情報の一部として収集する。図20A、20Bは、集約フローとして、一致させる2-tupleの組として、それぞれ(送信元IPアドレス、プロトコル)2001、または(宛先IPアドレス、プロトコル)2002の場合を示している。2-tupleの組として(送信元IPアドレス、プロトコル)の場合は、あるPCが複数のサーバにTCP通信で接続していることが想定される。2-tupleの組として(宛先IPアドレス、プロトコル)の場合は、サーバが複数のクライアントから送信されたTCP通信を受信していることが想定される。上記のパラメータの概念は、異なり数は(送信元IPアドレス、プロトコルがTCP)に対する異なり数や、(宛先IPアドレス、プロトコルがTCP)に対する異なり数である。異なり数が(送信元IPアドレス、プロトコルがTCP)に対する異なり数である場合は、クライアントがあるPCに接続し、接続しているTCP通信において、TCP1通信当りの平均スループットである。この値が大きい値を示すのであれば、あるPCが複数のサーバに大容量なTCP通信で接続していることが想定される。
このように大容量のTCP通信で、複数のサーバにアクセスする場合、著しくネットワークの効率を減少させる。また接続先のサーバがダウンしてしまう可能性が高い。上記のようなパラメータを定義することで、悪意のあるユーザ、もしくは通常ユーザにはあり得ない通信を行っているユーザを特定することができる。異なり数が(宛先IPアドレス、プロトコルがTCP)に対する異なり数である場合は、サーバに接続しているTCP通信において、TCP1通信当りの平均スループットである。このように複数かつ大容量のTCP通信で、サーバにアクセスする場合、サーバがダウンしてしまう可能性が高い。上記のようなパラメータを定義することで、ダウンしてしまう可能性があるサーバを特定することができる。
上記の実施例において下式のようなパラメータを定義する実施例も考えられる。
UDPのスループット/異なり数[Mbit/s] ・・・・・・・・(14)
また上記の実施例において下式のようなパラメータを定義する実施例も考えられる。
TCPのスループット/異なり数[Mbit/s]
+UDPのスループット/異なり数[Mbit/s] ・・(15)
図21A、21Bに式(13)に関しての結果2101、2102を示す。図21 A、21Bに示す結果は(Source IPAddress、Protocol)を固定した場合において、Destination IPAddressの異なり数毎に対するスループットの結果である。これはクライアントが複数のサーバへと接続している状況を想定でき、サーバへと接続しているフローの平均スループットを示している。この値が高い値を示しているならば、大容量に複数のサーバへと接続しているクライアントと想定でき、クライアントがシステム全体の性能劣化を引き起こしている可能性がある。異なり数毎のスループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は1.592となる。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、スループットの分布は正常と判断する。
また異常フローとしては、Source IPAddress=192.168.30.6、Source IPAddress=192.168.30.7のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。図21A、21Bに示した結果を、先程示した多次元解析において、1つ次元として定義する。
図22A、22Bに式(13)に関しての結果2201、2202を示す。図22A、22B 1に示す結果は(Destination IPAddress、Protocol)を固定した場合において、Source IPAddressの異なり数毎に対するスループットの結果である。これはサーバが複数のクライアントへと接続している状況を想定でき、サーバがクライアントへと接続しているフローの平均スループットを示している。この値が高い値を示しているならば、大容量に複数のクライアントへと接続しているサーバと想定でき、そのサーバがシステム全体の性能劣化を引き起こしている可能性がある。異なり数毎のスループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は2.81となる。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以下の確率で発生する分布であるため、スループットの分布は異常と判断する。
また異常フローとしては、Source IPAddress=192.168.10.1、Source IPAddress=192.168.10.2、Source IPAddress=192.168.10.8のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。図22A、22Bに示した結果を、先程示した多次元解析において、1つ次元として定義すれば良い。
以上詳述した本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
更に、上述した各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良いことは言うまでもない。
101 クライアントPC
102 IMF
103 統合管理サーバ
104 サーバPC
105 ルータ
201 統合管理サーバ
202 ルータ
203 IMF
204 データセンタ
205 クライアントPC
301 UDPヘッダ
302 AFMヘッダ
303 AFM統計ペイロード
304 バージョン番号
305 統計ペイロード数
306 Reserved
307 バージョン番号
308 AFMエージェントID
401 基準分布
402 異常分布
501 基準分布
502 異常分布
601 基準分布の平均
602 基準分布の標準偏差
603 異常フロー
701 スループットのマハラノビスの距離
702 平均パケットサイズのマハラノビスの距離
703 廃棄率のマハラノビスの距離
801 基準分布の初期設定
802 N秒間AFMからデータ取得
803 管理している全ルータの異常判定
804 アラート送信
805 基準分布の期待値の更新
901 初期値として、各ルータの各軸の基準値として平均及び標準偏差を設定 902 各ルータからAFMにてデータを取得
903 N秒経過?
904 軸毎に分布のマハラノビスの距離の検定
905 ルータ毎にM次元のマハラノビスの距離に対して検定異常or全部正常? 906 管理サーバへアラート送信
907 ルータ毎に軸毎の基準値である平均及び標準偏差を更新
1001 NIF
1002 MPU
1003 RAM
1004 障害解析プログラム
1005 アラート作成プログラム
1006 蓄積プログラム
1007 受信プログラム
1008 送信プログラム
1009 HDD
1010 DB
1101 廃棄率グラフ
1102 廃棄率のデータ
1201 廃棄率グラフ
1202 廃棄率のデータ
1301 スループットグラフ
1302 スループットのデータ
1401 平均パケットサイズグラフ
1402 平均パケットサイズのデータ
1501 3次元マハラノビスの距離グラフ
1502 3次元マハラノビスの距離のデータ表
1601 廃棄率グラフ
1602 廃棄率のデータ
1701 スループットグラフ
1702 スループットのデータ
1801 平均パケットサイズグラフ
1802 平均パケットサイズのデータ
1901 3次元マハラノビスの距離グラフ
1902 3次元マハラノビスの距離のデータ表
2001 送信元IPアドレスを固定した場合の異なり数
2002 宛先元IPアドレスを固定した場合の異なり数
2101 (Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループット
2102 (Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットのデータ
2201 (Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループット
2202 (Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットのデータ

Claims (15)

  1. ネットワーク上の複数のルータに接続される障害解析装置であって、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、
    受信した前記データ群を蓄積する蓄積部と、
    蓄積したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える、
    ことを特徴とする障害解析装置。
  2. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析装置。
  3. 請求項1に記載の障害解析装置であって、
    アラート作成部を更に備え、
    前記アラート作成部は、前記障害解析部が前記異常判定により特定した障害要因及び障害個所から、外部に送信するアラートの段階を決定する、
    ことを特徴とする障害解析装置。
  4. 請求項2に記載の障害解析装置であって、
    前記障害解析部は、
    異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を加重移動平均で行う際、加重平均を取るデータに対する重みを前記マハラノビスの距離に反比例した値にて行う、
    ことを特徴とする障害解析装置。
  5. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    前記ルータ毎の異常判定にて、一定期間前記ルータから前記データ群を収集し、収集した前記データ群から異常判定に用いる前記基準分布の平均値及び標準偏差を計算し、前記基準分布の初期値とする、
    ことを特徴とする障害解析装置。
  6. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎の前記データ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、TCPスループット/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    ことを特徴とする障害解析装置。
  7. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎の前記データ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、UDPスループット/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    ことを特徴とする障害解析装置。
  8. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎のデータ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、(TCPスループット+UDPスループット)/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    こと特徴とする障害解析装置。
  9. ネットワークの障害解析システムであって、
    前記ネットワーク上に、ノードが接続される複数のルータと、複数の前記ルータに接続される障害解析装置とを備え、
    前記障害解析装置は、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、
    受信したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える、
    ことを特徴とする障害解析システム。
  10. 請求項9に記載の障害解析システムであって、
    前記障害解析部は、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析システム。
  11. 請求項9に記載の障害解析システムであって、
    前記障害解析部を備えた前記ノードは、アラート作成部を更に備え、
    前記アラート作成部は、前記障害解析部が前記異常判定により特定した障害要因及び障害個所から、送信するアラートの段階を決定する、
    ことを特徴とする障害解析システム。
  12. 請求項11に記載の障害解析システムであって、
    前記ネットワーク上に、前記障害解析部を備えた前記ノードに接続される管理サーバを更に備え、
    前記アラート作成部を備えた前記ノードは、
    前記アラート作成部が段階を決定した前記アラートを前記管理サーバへと送信する送信部を備える、
    ことを特徴とする障害解析システム。
  13. ネットワーク上の複数のルータに接続されるノードにおける障害解析方法であって、
    前記ノードは、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信し、
    受信したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う、
    ことを特徴とする障害解析方法。
  14. 請求項13に記載の障害解析方法であって、
    前記ノードは、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析方。
  15. 請求項14に記載の障害解析方法であって、
    前記ノードは、
    異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を加重移動平均で行う際、加重平均を取るデータに対する重みを前記マハラノビスの距離に反比例した値にて行う、
    ことを特徴とする障害解析方法。
JP2013502114A 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法 Expired - Fee Related JP5666685B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/054886 WO2012117549A1 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法

Publications (2)

Publication Number Publication Date
JPWO2012117549A1 true JPWO2012117549A1 (ja) 2014-07-07
JP5666685B2 JP5666685B2 (ja) 2015-02-12

Family

ID=46757509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013502114A Expired - Fee Related JP5666685B2 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法

Country Status (4)

Country Link
US (1) US9065728B2 (ja)
JP (1) JP5666685B2 (ja)
CN (1) CN103081407B (ja)
WO (1) WO2012117549A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9374270B2 (en) * 2012-06-06 2016-06-21 Juniper Networks, Inc. Multicast service in virtual networks
US9898317B2 (en) 2012-06-06 2018-02-20 Juniper Networks, Inc. Physical path determination for virtual network packet flows
JP5987701B2 (ja) * 2013-01-16 2016-09-07 富士通株式会社 通信監視装置、予測方法及び予測プログラム
JP5958354B2 (ja) 2013-01-16 2016-07-27 富士通株式会社 通信監視装置、発生予測方法及び発生予測プログラム
GB2536317A (en) * 2013-11-29 2016-09-14 Hitachi Ltd Management system and method for assisting event root cause analysis
US9276871B1 (en) * 2014-03-20 2016-03-01 Cisco Technology, Inc. LISP stretched subnet mode for data center migrations
US9479457B2 (en) 2014-03-31 2016-10-25 Juniper Networks, Inc. High-performance, scalable and drop-free data center switch fabric
US20150333998A1 (en) * 2014-05-15 2015-11-19 Futurewei Technologies, Inc. System and Method for Anomaly Detection
JP6362992B2 (ja) * 2014-10-20 2018-07-25 三菱日立パワーシステムズ株式会社 熱交換器の監視装置及び熱交換器の監視方法
JP6317685B2 (ja) * 2015-02-09 2018-04-25 日本電信電話株式会社 通信監視システム、通信監視方法およびプログラム
JP6440203B2 (ja) 2015-09-02 2018-12-19 Kddi株式会社 ネットワーク監視システム、ネットワーク監視方法およびプログラム
US10958559B2 (en) 2016-06-15 2021-03-23 Juniper Networks, Inc. Scaled inter-domain metrics for link state protocols
US10243840B2 (en) 2017-03-01 2019-03-26 Juniper Networks, Inc. Network interface card switching for virtual networks
JP7188950B2 (ja) * 2018-09-20 2022-12-13 株式会社Screenホールディングス データ処理方法およびデータ処理プログラム
JP7179663B2 (ja) * 2019-03-28 2022-11-29 三菱重工業株式会社 プラント監視装置、プラント監視方法、及びプログラム
CN110207996A (zh) * 2019-04-19 2019-09-06 中国神华能源股份有限公司 燃气轮机故障预警方法和装置
CN113454950A (zh) * 2019-05-15 2021-09-28 阿里巴巴集团控股有限公司 基于流量统计的网络设备及链路实时故障检测方法和系统
US10999183B2 (en) 2019-08-12 2021-05-04 Juniper Networks, Inc. Link state routing protocol adjacency state machine
WO2021171526A1 (ja) * 2020-02-27 2021-09-02 日本電信電話株式会社 付与装置、付与方法及び付与プログラム
CN112636974B (zh) * 2020-12-22 2022-08-02 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
TWI785718B (zh) * 2021-08-04 2022-12-01 中華電信股份有限公司 電信網路的自我修復系統和自我修復方法
CN114666577B (zh) * 2022-05-24 2022-09-02 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置
CN116662794B (zh) * 2023-08-02 2023-11-10 成都凯天电子股份有限公司 一种考虑数据分布更新的振动异常监测方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
US8239687B2 (en) * 2003-11-12 2012-08-07 The Trustees Of Columbia University In The City Of New York Apparatus method and medium for tracing the origin of network transmissions using n-gram distribution of data
JP4250075B2 (ja) 2003-12-26 2009-04-08 株式会社リコー 画像形成装置
US7203431B2 (en) 2003-12-26 2007-04-10 Ricoh Company, Ltd. Abnormality determining method, abnormality determining apparatus, and image forming apparatus
JP4547342B2 (ja) 2005-04-06 2010-09-22 アラクサラネットワークス株式会社 ネットワーク制御装置と制御システム並びに制御方法
US7694338B1 (en) * 2005-06-03 2010-04-06 Sprint Communications Company L.P. Shared tap DOS-attack protection
JP4089719B2 (ja) * 2005-09-09 2008-05-28 沖電気工業株式会社 異常検出システム,異常管理装置,異常管理方法,プローブおよびそのプログラム
JP4594869B2 (ja) 2006-01-24 2010-12-08 富士通株式会社 状態監視装置
WO2007101117A2 (en) * 2006-02-23 2007-09-07 Asankya Networks, Inc. Systems and methods of network monitoring
US8533819B2 (en) * 2006-09-29 2013-09-10 At&T Intellectual Property Ii, L.P. Method and apparatus for detecting compromised host computers
JP4324189B2 (ja) * 2006-11-01 2009-09-02 日本電信電話株式会社 異常トラヒック検出方法およびその装置およびプログラム
WO2008052291A2 (en) * 2006-11-03 2008-05-08 Intelliguard I.T. Pty Ltd System and process for detecting anomalous network traffic
EP2118810B1 (en) * 2007-02-05 2012-08-15 Andrew Corporation System and method for optimizing location estimate of mobile unit
KR20090089034A (ko) * 2008-02-18 2009-08-21 삼성전자주식회사 아이피 통신 시스템에서 비정상동작 아이피 패킷 검출을위한 장치 및 방법

Also Published As

Publication number Publication date
WO2012117549A1 (ja) 2012-09-07
JP5666685B2 (ja) 2015-02-12
CN103081407B (zh) 2015-11-25
US20130329571A1 (en) 2013-12-12
CN103081407A (zh) 2013-05-01
US9065728B2 (en) 2015-06-23

Similar Documents

Publication Publication Date Title
JP5666685B2 (ja) 障害解析装置、そのシステム、およびその方法
EP1418705B1 (en) Network monitoring system using packet sequence numbers
US8601155B2 (en) Telemetry stream performance analysis and optimization
US8443074B2 (en) Constructing an inference graph for a network
JP4727275B2 (ja) 高速トラヒック測定および解析の方法論とプロトコル
Lu et al. Modeling and taming parallel tcp on the wide area network
EP1367771B1 (en) Passive network monitoring system
Teixeira et al. Traffic matrix reloaded: Impact of routing changes
US20130191829A1 (en) Computer system, virtual server alignment method, and alignment control apparatus
EP3154224B1 (en) Systems and methods for maintaining network service levels
KR20180120558A (ko) 딥러닝 기반 통신망 장비의 장애 예측 시스템 및 방법
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
US20130179568A1 (en) Method and apparatus for analysis of the operation of a communication system using events
US11171869B2 (en) Microburst detection and management
Zhuang et al. Data collection with accuracy-aware congestion control in sensor networks
JP2014168283A (ja) 通信システム、ネットワーク監視装置、及びネットワーク監視方法
JP6220625B2 (ja) 遅延監視システムおよび遅延監視方法
KR20150090216A (ko) 암호화된 세션 모니터링
WO2015182629A1 (ja) 監視システム、監視装置及び監視プログラム
KR20220029142A (ko) Sdn 컨트롤러 서버 및 이의 sdn 기반 네트워크 트래픽 사용량 분석 방법
JP2009199556A (ja) 通信監視装置、通信監視方法、コンピュータプログラム、そのシステム
Wu et al. Lossdetection: Real-time packet loss monitoring system for sampled traffic data
JP4158480B2 (ja) ネットワーク品質劣化判断システム
Lan et al. Passive overall packet loss estimation at the border of an ISP

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140819

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141210

R150 Certificate of patent or registration of utility model

Ref document number: 5666685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees