WO2023281595A1 - 障害推定装置、方法およびプログラム - Google Patents

障害推定装置、方法およびプログラム Download PDF

Info

Publication number
WO2023281595A1
WO2023281595A1 PCT/JP2021/025340 JP2021025340W WO2023281595A1 WO 2023281595 A1 WO2023281595 A1 WO 2023281595A1 JP 2021025340 W JP2021025340 W JP 2021025340W WO 2023281595 A1 WO2023281595 A1 WO 2023281595A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
alarm
alarm information
rule
estimation
Prior art date
Application number
PCT/JP2021/025340
Other languages
English (en)
French (fr)
Inventor
憲男 山本
俊介 金井
晴久 野末
文香 浅井
テキ リ
健一 田山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/025340 priority Critical patent/WO2023281595A1/ja
Priority to JP2023532894A priority patent/JPWO2023281595A1/ja
Publication of WO2023281595A1 publication Critical patent/WO2023281595A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Definitions

  • a fault estimating device defines fault information that indicates details of a fault that occurs in a communication network, and a plurality of alarm information that occur at different timings related to the fault occurrence.
  • the fault location estimation function unit 14 compares the generated alarm with the group of alarms that characterize the fault already recorded in the rule DB 12c, and at least one of the generated alarms is one of the alarms in the group of alarms characterized by the rule. When any one of them matches, the process of estimating the degree of certainty indicating the possibility that the content of the failure that occurred has occurred is executed in the estimation target time span defined by the matching rule. If at least one of the generated alarms matches any one of the alarms in the alarm group characterized by a plurality of rules, the failure location estimation function unit 14 determines the estimated target time defined by each applicable rule. The longest time width among the widths is set as the estimation target time width used in the estimation process, and using this estimation target time width, the process of estimating the degree of certainty of the details of the fault that has occurred is executed.
  • device D monitors the occurrence of alarm D
  • device E monitors the occurrence of alarm E
  • device F monitors the occurrence of alarm F. That is, the alarm group consisting of alarms D, E, and F is the alarm group characterizing fault Y.
  • the device D monitors the generation of the alarm D
  • the device E monitors the generation of the alarm E
  • the device G monitors the generation of the alarm G.
  • the alarm group consisting of alarms D, E, and G is the alarm group characterizing fault Z.
  • FIG. 4 is a diagram illustrating a first example of estimation processing by the failure location estimation device according to one embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a second example of estimation processing by the failure location estimation device according to one embodiment of the present invention.
  • An example of estimation processing by the failure location estimation function unit 14 will be described in (1) to (5) below. (1) When an alarm group included in a rule occurs, that is, when a new failure occurs, at least one of a plurality of alarms newly generated sequentially along the time series is stored in the rule DB 12c. When responding to an alarm defined by one of the rules for each content, the failure location estimation function unit 14 selects one or more rules that define the first generated alarm among the corresponding alarms. read out.
  • the estimated target time span Iy and the estimated target time span Iz defined by each rule are compared, and the relatively long estimated target time span Iy is used in the estimation process. It is set as the estimated target time width to be used.
  • the failure point estimation function unit 14 outputs information indicating the details of the failure estimated in S26 and the degree of certainty (S28).
  • the date and time of occurrence of alarm D defined by rules Y and Z which has the oldest date and time of occurrence, is determined as The estimation process is executed again as a starting point.
  • the estimation target time width Iy defined by rule Y and the estimation target time width Iz defined by rule Z are compared, and the longer estimation target time width, here, the estimation target defined by rule Z
  • the target time width Iz is set, and the estimated target time width Iz is used to re-execute the estimation process.
  • the set estimated target time width Iz is longer than the alarm generation width (see symbol b in FIG. 8), which is the time from the generation timing of alarm D to the generation timing of alarm G when failure Z occurs.
  • the estimation target time width Ix 1 obtained by doubling the estimation target time width Ix set in (2-1) is newly used in the estimation process.
  • This estimation target time width Ix1 is used to re-execute the estimation process.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一実施形態に係る障害推定装置は、通信ネットワークで発生する障害の内容が示される障害情報と、前記障害の発生に係り異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義されるルールが記憶される記憶装置にアクセス可能な装置であって、新たに発生した障害に伴って発生した複数のアラーム情報の最初の発生タイミングから最後の発生タイミングまでのアラーム発生時間に応じた推定対象時間を、前記発生した障害に応じた障害情報が定義される前記ルールに設定する設定部と、前記設定部による設定後に新たに発生した複数のアラーム情報のうち、当該アラーム情報が定義されるルールに設定された推定対象時間の開始から終了までの間に発生したアラーム情報の数に基づいて、新たに発生した障害の内容を推定する推定部と、を有する。

Description

障害推定装置、方法およびプログラム
 本発明の実施形態は、障害推定装置、方法およびプログラムに関する。
 障害事例データベース(database(DB))に登録されている他の障害ケース(failure case)と重複しないように、障害ケース毎にユニーク(unique)な障害イベント(event)の組合せを抽出し、特徴的な障害イベントとして、障害の要因である箇所を判定可能であるルール(rule)を自動で作成及び修正する技術がある(例えば特許文献1を参照)。
日本国特開2018-028778号公報
 上記のような技術では、一般的には、オペレータ(operator(操作者))が入力した、障害イベントが発生したと当該オペレータが判断したときの障害日時などから一定の推定対象時間幅(推定対象時間帯または推定対象期間と称されることがある。)に係るイベントが抽出されて、障害を特徴付けるイベント情報、例えばアラーム(alarm)情報(単にアラームと称されることがある。)がルールとして記録される技術がある。 
 そして、このような技術では、一定の推定対象時間幅に含まれるアラーム群とルールに記録された障害を特徴付けるアラーム群とが比較されることで、障害が発生したこと、および当該発生した障害の内容が判定される。
 一方で、障害の発生に伴って監視される最初のアラームが発生したタイミング(timing)から最後のアラームが発生したタイミングまでの時間幅であるアラーム発生幅(アラーム発生間隔、アラーム発生時間帯、アラーム発生期間、またはアラーム発生時間と称されることがある。)は、発生した障害の内容または障害発生時の環境要因により異なるため、障害の発生に伴って監視されるアラーム群の一部が推定対象時間幅に含まれずに、アラーム群とルール定義との一致割合が比較的低い状態で障害の発生および当該障害の内容が推定されてしまい、実際には未発生である障害が発生したことが推定されてしまうことがある。このような推定がなされると、推定された結果を取り除くための無駄な切り分け作業が発生する場合がある。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、通信ネットワークで発生した障害を高い精度で推定することができるようにした障害推定装置、方法およびプログラムを提供することにある。
 本発明の一態様に係る障害推定装置は、通信ネットワークで発生する障害の内容が示される障害情報と、前記障害の発生に係り異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義されるルールが記憶される記憶装置にアクセス可能な装置であって、新たに発生した障害に伴って発生した複数のアラーム情報の最初の発生タイミングから最後の発生タイミングまでのアラーム発生時間に応じた推定対象時間を、前記発生した障害に応じた障害情報が定義される前記ルールに設定する設定部と、前記設定部による設定後に新たに発生した複数のアラーム情報のうち、当該アラーム情報が定義されるルールに設定された推定対象時間の開始から終了までの間に発生したアラーム情報の数に基づいて、新たに発生した障害の内容を推定する推定部と、を備える。
 本発明の一態様に係る障害推定方法は、通信ネットワークで発生する障害の内容が示される障害情報と、前記障害の発生に係り異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義されるルールが記憶される記憶装置にアクセス可能な障害推定装置により行われる方法であって、新たに発生した障害に伴って発生した複数のアラーム情報の最初の発生タイミングから最後の発生タイミングまでのアラーム発生時間に応じた推定対象時間を、前記発生した障害に応じた障害情報が定義される前記ルールに設定することと、前記設定がされた後に新たに発生した複数のアラーム情報のうち、当該アラーム情報が定義されるルールに設定された推定対象時間の開始から終了までの間に発生したアラーム情報の数に基づいて、新たに発生した障害の内容を推定することと、を備える。
 本発明によれば、通信ネットワークで発生した障害を高い精度で推定することができる。
図1は、本発明の一実施形態に係る障害箇所推定システム(system)の適用例を示す図である。 図2は、本発明の一実施形態に係る障害箇所推定システムの障害箇所推定装置の機能構成例を示すブロック図(block diagram)である。 図3は、本発明の一実施形態に係る障害箇所推定装置によるルール学習処理の一例を説明する図である。 図4は、本発明の一実施形態に係る障害箇所推定装置による推定処理の第1の例を説明する図である。 図5は、本発明の一実施形態に係る障害箇所推定装置による推定処理の第2の例を説明する図である。 図6は、本発明の一実施形態に係る障害箇所推定装置による推定対象時間幅の設定に係る処理の手順の一例を示すフローチャート(flowchart)である。 図7は、本発明の一実施形態に係る障害箇所推定装置による推定処理の手順の一例を示すフローチャートである。 図8は、本発明の一実施形態に係る障害箇所推定装置による推定処理におけるアラーム発生幅と推定対象時間幅との比較の第1の例を示す図である。 図9は、本発明の一実施形態に係る障害箇所推定装置による推定処理におけるアラーム発生幅と推定対象時間幅との比較の第2の例を示す図である。 図10は、本発明の一実施形態に係る障害箇所推定装置のハードウエア(hardware)構成の一例を示すブロック図である。
 以下、図面を参照しながら、この発明に係わる一実施形態を説明する。 
 本発明の一実施形態は、ルール毎に障害の内容の推定に係る推定対象時間幅を定め、ルールに完全適合する障害イベントの組合せが発生した場合に、最初の対象イベントが発生したタイミングから最後の対象イベントが発生したタイミングまでの時間幅を計算し、複数回の同じ障害において上記計算された時間幅のうち最大値を当該ルールの推定対象時間幅に設定し、この時間幅を用いて、障害が発生したことの可能性を示す値である確信度が高い障害イベントのみが推定されることを可能とするものである。上記ルールは、通信ネットワークで発生する障害の内容が示される障害情報と、障害の発生に係り、各々が異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義される。
 図1は、本発明の一実施形態に係る障害箇所推定システムの適用例を示す図である。 
 図1に示された例では、本発明の一実施形態に係る障害箇所推定システムは、サーバ(server)およびGUI(Graphical User Interface)端末を有し、スイッチングハブ(switching hub)を介して監視対象の通信ネットワーク(network(NW))(以下、単にネットワークと称されることがある。)と通信可能に接続され、この通信ネットワークを監視する監視システムとも通信可能に接続される。上記サーバは通信ネットワークにおける障害箇所を推定する障害箇所推定装置(障害種別推定装置または障害推定装置と称されることがある。)として機能する。なお、障害箇所推定システムは、障害種別推定システムまたは障害推定システムと称されることがあり、障害箇所推定装置は、障害種別推定装置または障害推定装置と称されることがある。
 監視システムは、スイッチングハブを介して監視対象の通信ネットワークと通信可能に接続され、この通信ネットワークを監視して、ネットワーク機器から監視システムに出力されるイベント情報、例えばネットワークの異常を示す異常アラーム情報、ネットワークの復旧を示す復旧アラーム情報、および例えばメモリ(memory)使用量が一定の閾値を超えたときの注意を促す注意アラーム情報などの各種アラーム情報をサーバに定期的に送信する。
 サーバは、監視システムから受信したアラーム情報のうちネットワークの障害の発生に伴うアラーム情報に基づいて、ネットワークにおける発生した障害の内容の推定に用いられるルールを生成し、また、このルールを用いてネットワークにおける障害の内容を推定する。以下では、上記障害の内容は、主に障害発生箇所であるとして説明するが、これに限らず、例えば障害が発生した機器、場所、および障害の種別などが含まれ得る。 
 GUI端末では、上記障害箇所の推定結果およびこの障害に対する対処案などが表示され得る。
 図2は、本発明の一実施形態に係る障害箇所推定システムの障害箇所推定装置の機能構成例を示すブロック図である。 
 図2に示されるように、本発明の一実施形態に係る障害箇所推定システムの障害箇所推定装置10は、データ取込部11、記憶部12、ルール学習制御部13、障害箇所推定機能部14、対処方法管理機能部15、およびAPI(Application Programming Interface(アプリケーションプログラミングインタフェース))部16を有する。
 データ取込部11は、図1に示された監視システムからの複数のアラーム情報であるアラーム群を取り込んだり、監視システムまたはその他の機器からの監視対象のネットワーク構成情報を取り込んだりする。
 記憶部12は、アラーム情報DB(Database(データベース))12a、ネットワーク構成情報DB12b、ルールDB12c、および障害履歴対処履歴DB12dを有する。 
 上記取り込まれたアラーム群はアラーム情報DB12aに記憶され、上記取り込まれたネットワーク構成情報はネットワーク構成情報DB12bに記憶される。
 ルール学習制御部13は、ネットワークに、ある内容の初回の障害が発生したときに、この発生した障害の内容を特徴付けるアラーム群に基づいて、障害の内容の推定に用いられるルールを、上記障害の内容の推定に係るルールとして生成する。 
 また、ルール学習制御部13は、当該アラーム群を構成する各々のアラームのうち最初のアラームが発生した時刻から最後のアラームが発生した時刻までの時間間隔であるアラーム発生幅に相当する時間幅を、障害の内容の推定に用いられる推定対象時間幅に設定して、上記生成されたルールに含めてルールDB12cに記録する。この設定により、上記生成されたルールでは、障害情報、アラーム情報、および推定対象時間幅が紐付けられて定義される。
 また、ルール学習制御部13にて、上記初回の障害の内容と同じ内容の障害、すなわち2回目以降の障害が発生したときに、発生した障害を特徴付けるアラーム群を構成する各々のアラームのうち最初のアラームが発生した時刻から最後のアラームが発生した時刻までの時間であるアラーム発生幅の値と、上記ルールDB12cに既に記録されている、同じ種別の障害に係るルールで設定される推定対象時間幅の値とを比較し、長い方の値を、上記同じ障害に係るルールにおける新たな推定対象時間幅として設定する。 
 つまり、2回目以降の障害が発生したときに、ルールDB12cに既に記録されているルールの推定対象時間幅が更新され得る。
 障害箇所推定機能部14は、発生したアラームとルールDB12cに既に記録されている障害を特徴付けるアラーム群とを比較し、発生したアラームの少なくとも1つが、上記ルールで特徴付けられるアラーム群の各アラームのいずれかに一致する際には、この一致したルールで定義される推定対象時間幅にて、上記発生した障害の内容が発生したことの可能性を示す確信度の推定処理を実行する。 
 もし、上記発生したアラームの少なくとも1つが複数のルールで特徴付けられるアラーム群における各アラームのいずれかに一致するときは、障害箇所推定機能部14は、該当する各ルールで定義される推定対象時間幅の中で最も長い時間幅を推定処理に用いられる推定対象時間幅に設定して、この推定対象時間幅を用いて、上記発生した障害の内容の確信度の推定処理を実行する。
 また、上記の推定の結果で示される確信度が比較的低い、例えば100%でない場合または100%未満の閾値を下回る場合には、上記比較に用いられた推定対象時間幅を延ばし、この延ばされた推定対象時間幅を用いて、上記アラーム発生幅との比較による推定処理を再度実行する。
 対処方法管理機能部15は、オペレータの入力操作などに従って、障害履歴対処履歴DB12dに、発生した障害に対する新たな対処方法を書き込んだり、障害履歴対処履歴DB12dに記録される、既存の対処履歴を読み出したりする。API部16は、障害箇所推定装置10内の各部の機能を実現したり外部との入出力を実現したりするAPIを有する。
 図3は、本発明の一実施形態に係る障害箇所推定装置によるルール学習処理の一例を説明する図である。 
 本実施形態では、障害箇所推定機能部14による推定処理が行われる際の前提条件として、例えば障害の種別ごとの下記のルール(1),(2),および(3)がルールDB12cに記憶される。なお、下記のルールにおけるアラーム発生幅は、ルールDB12cに記憶される情報としては必須ではない。
 ここでは、ネットワークにおいて障害Xが発生したことにより、機器AにてアラームАの発生が監視され、機器BにてアラームBの発生が監視され、機器CにてアラームCの発生が監視される。すなわち、アラームA,B,およびCで成るアラーム群は、障害Xを特徴付けるアラーム群である。
 また、ネットワークにおいて障害Yが発生したことにより、機器DにてアラームDの発生が監視され、機器EにてアラームEの発生が監視され、機器FにてアラームFの発生が監視される。すなわち、アラームD,E,およびFで成るアラーム群は、障害Yを特徴付けるアラーム群である。
 また、ネットワークにおいて障害Zが発生したことにより、機器DにてアラームDの発生が監視され、機器EにてアラームEの発生が監視され、機器GにてアラームGの発生が監視される。すなわち、アラームD,E,およびGで成るアラーム群は、障害Zを特徴付けるアラーム群である。
 (1) 障害Xを特徴付けるアラーム群(アラームA,B,およびC)、アラーム発生幅Ixpn、推定対象時間幅Ix
 (2) 障害Yを特徴付けるアラーム群(アラームD,E,およびF)、アラーム発生幅Iypn、推定対象時間幅Iy
 (3) 障害Zを特徴付けるアラーム群(アラームD,E,およびG)、アラーム発生幅Izpn、推定対象時間幅Iz
 n:発生回数
 次に、上記各ルールで定義される推定対象時間幅の設定について説明する。各ルールにおける推定対象時間幅は、例えば以下の手順(1)~(3)に従ってルール学習制御部13により設定され得る。
 (1) 1回目の障害Xが発生したときに、ルール学習制御部13は、障害Xを特徴付けるアラーム群(アラームA,B,およびC)からの障害の種別の推定に用いられるルールを作成し、アラーム群A,B,およびCに係る時間であるアラーム発生幅Ixp1を計算し、この計算の結果を障害Xに係るルールに含めてルールDB12cに記録する。この障害Xは、上記ルール(1)で定義される障害情報に対応する。
 ここでは、1回目に発生した障害Xを特徴付けるアラーム群は、アラームA、アラームB、およびアラームCの順で発生する各アラームの集合である。 
 すなわち、上記のアラーム発生幅Ixp1は、アラーム群(アラームA,B,およびC)のうち最初に発生したアラームAの発生タイミングから最後に発生したアラームCの発生タイミングまでの時間である。
 (2) 2回目以降、ここでは2回目からn回目までの障害Xが発生したときに、ルール学習制御部13は、ルール再学習、すなわち障害の種別と発生アラームの種別との紐付けを指定する処理において、発生した障害Xの各々におけるアラーム発生幅Ixp2,・・・,Ixpnを計算し、この計算の結果を障害Xに係るルールに含めてルールDB12cに記録する。
 図3に示された例では、2回目に発生した障害Xを特徴付けるアラーム群は、アラームB、アラームA、およびアラームCの順で発生する各アラームの集合である。すなわち、上記のアラーム発生幅Ixp2は、アラーム群(アラームB,A,およびC)のうち最初に発生したアラームBの発生タイミングから最後に発生したアラームCの発生タイミングまでの時間である。
 また、図3に示された例では、n回目に発生した障害Xを特徴付けるアラーム群は、アラームC、アラームB、およびアラームAの順で発生する各アラームの集合である。すなわち、上記のアラーム発生幅Ixpnは、アラーム群(アラームC,B,およびA)のうち最初に発生したアラームCの発生タイミングから最後に発生したアラームAの発生タイミングまでの時間である。
 (3) ルール学習制御部13は、下記の式(1)のように、上記(1)および(2)で計算した、過去のアラーム発生幅のうち最大値に相当する時間幅を、障害Xに係る推定対象時間幅Ixに設定して(図3の符号a参照)、この設定の結果を障害Xに係るルールに含めてルールDB12cに記録する。
 Ix= MAX(Ixp1, Ixp2, …,Ixpn) …式(1)
 障害Xと同様に、ルール学習制御部13は、下記の式(2)のように、1回目からn回目の障害Yが発生したときのアラーム発生幅Iyp1, Iyp2, ・・・,Iypnを計算し、この計算されたアラーム発生幅の最大値に相当する時間幅を、障害Yに係る推定対象時間幅Iyとして設定し、この設定の結果を障害Yに係るルールに含めてルールDB12cに記録する。 
 また、障害XおよびYと同様に、ルール学習制御部13は、下記の式(3)のように、1回目からn回目の障害Zが発生したときのアラーム発生幅Izp1, Izp2, ・・・,Izpnを計算し、この計算されたアラーム発生幅の最大値に相当する時間幅を、障害Zに係る推定対象時間幅Izとして計算し、この設定の結果を障害Zに係るルールに含めてルールDB12cに記録する。 
 Iy= MAX(Iyp1, Iyp2, …,Iypn) …式(2)
 Iz= MAX(Izp1, Izp2, …,Izpn) …式(3)
 図4は、本発明の一実施形態に係る障害箇所推定装置による推定処理の第1の例を説明する図である。図5は、本発明の一実施形態に係る障害箇所推定装置による推定処理の第2の例を説明する図である。 
 障害箇所推定機能部14による推定処理の例を以下の(1)~(5)にて説明する。 
 (1) ルールに含まれるアラーム群が発生した際、すなわち新たに障害が発生したときに時系列に沿って新たに順次発生した複数のアラームのうち少なくとも1つが、ルールDB12cに記憶される、障害の内容ごとの各ルールのいずれかで定義されるアラームに対応するときに、障害箇所推定機能部14は、上記対応するアラームのうち最初に発生したアラームが定義される1つまたは複数のルールを読み出す。
 図4に示された例では、新たに発生したアラームは、アラームA,B,C,D,E,およびFの順で発生する。そして、ルールDB12cに記憶されるルールのうち、最初に発生したアラームAを含むアラーム群(アラームA、B、およびC)および推定対象時間幅Ixが定義されて障害Xに係るルールが読み出される。
 そして、障害箇所推定機能部14は、上記発生したアラーム群に含まれる各アラームのうち最初に発生したアラームの発生日時を起点として、上記読み出したルールで定義される推定対象時間幅Ixを推定処理に用いられる推定対象時間幅として設定し、この設定された推定対象時間幅を用いて、新たに発生した障害の種別の推定処理を実行する。
 また、新たに発生したアラームのうち最初に発生したアラームが定義される複数のルールがルールDB12cに記憶される場合は、障害箇所推定機能部14は、これらのルールで定義される推定対象時間幅のうち最大値を、推定処理に用いられる推定対象時間幅に設定して推定処理を実行する。
 (2) 上記推定処理の結果、障害Xの確信度、すなわち発生した障害が障害Xであることの確信度が100%であれば、障害箇所推定機能部14は、その旨の推定結果を出力し、処理を終了する。
 ここでは、推定対象時間幅Ixの起点が、上記最初に発生したアラームAの発生日時に揃えられ、上記設定された推定対象時間幅Ixの起点から終点までの時間は、上記アラームAが発生したタイミングからアラームCが発生したタイミングまでの時間を含む。よって、推定対象時間幅Ixに係るアラームのうちアラームA,B,およびCは、上記読み出されたルールで定義されるアラームA乃至Cの全てに一致する、すなわち読み出されたルールで定義される各アラームの全てが、推定対象時間幅Ixに係るアラームに含まれるので、障害Xの確信度は100%であると計算される。
 (3) 障害箇所推定機能部14は、上記新たに発生したアラームA乃至Fから、上記計算された確信度に係る障害Xを特徴付けるアラームA乃至Cを取り除き、この取り除かれた後のアラームD乃至Fを対象として、上記推定処理が実行される。
 図4に示された例では、取り除かれた後のアラームは、アラームD,E,およびFの順で発生する。そして、ルールDB12cに記憶されるルールのうち、最初に発生したアラームDを含むアラーム群(アラームD、E、およびF)および推定対象時間幅Iyが定義されて障害Yに係るルール、およびアラームDを含むアラーム群(アラームD、E、およびG)および推定対象時間幅Izが定義されて障害Zに係るルールがそれぞれ読み出される。
 ここでは読み出されたルールが2つのルールであるので、各々のルールで定義される推定対象時間幅Iyおよび推定対象時間幅Izが比較され、比較的長い推定対象時間幅Iyが、推定処理に用いられる推定対象時間幅として設定される。
 ここでは、この設定された推定対象時間幅Iyの起点が、上記最初に発生したアラームDの発生日時に揃えられ、推定対象時間幅Iyの起点から終点までの時間は、上記アラームDが発生したタイミングからアラームFが発生したタイミングまでの時間を含む。よって、推定対象時間幅Iyに係るアラームD乃至Fは、上記読み出されたルールで定義されるアラームD乃至Fの全てに一致する、すなわち読み出されたルールで定義される各アラームの全てが、推定対象時間幅Iyに係るアラームに含まれるので、障害Yの確信度は100%であると計算される。
 (4) また、上記設定された推定対象時間幅Ixが比較的短いことに起因して、上記(2)での推定処理の結果、障害Xの確信度が100%でないとき、図5に示されるように、障害箇所推定機能部14は、推定対象時間幅Ixをn倍に伸ばした推定対象時間幅Ixを生成し、この推定対象時間幅Ixを用いて、上記推定処理を再度実行する。
 この推定処理の結果、障害Xの確信度が依然として100%でないとき、図5に示されるように、障害箇所推定機能部14は、推定対象時間幅Ixを更にn倍に伸ばした推定対象時間幅Ixを生成し、この推定対象時間幅Ixを用いて、上記推定処理を再度実行する。
 (5) 上記(4)の推定処理の結果、障害Xの確信度が100%になれば、障害箇所推定機能部14は、その旨の推定結果を出力し、処理を終了する。
 但し、上記(4)での再度の推定処理が所定の回数にわたり実行される、または当初に設定された推定対象時間幅から所定の最大の推定対象時間幅まで延ばされた推定対象時間幅を用いた推定処理が実行されても、この推定処理により求められた確信度が100%でないときは、障害箇所推定機能部14は、以後の推定処理を行なわずに、処理を終了し、結果を出力する。
 図6は、本発明の一実施形態に係る障害箇所推定装置による推定対象時間幅の設定に係る処理の手順の一例を示すフローチャートである。 
 ここでは、ルールで定義される推定対象時間幅がルール学習制御部13により設定される処理について説明する。 
 まず、障害箇所推定装置10のデータ取込部11は、ネットワークでの障害の発生に伴う、外部からのアラーム情報、すなわちアラーム群を取り込み、このアラーム情報をアラーム情報DB12aに記録する(S11)。
 ルール学習制御部13は、S11で記録されたアラーム群に含まれるアラームの組み合わせが、ルールDB12cに既に記録される各ルールで定義されるアラーム群の組み合わせに含まれないとき、すなわち初回で取り込まれた組み合わせであるか否かを判定する(S12)。
 S12でYesと判定されたときで、上記発生した障害を特徴付けるアラームがあるとき(S13のYes)は、ルール学習制御部13は、上記取り込まれたアラーム情報の種別が定義されて、発生した障害の推定に用いられるルールを作成する(S14)。 
 この作成では、上記定義されたアラーム情報であるアラーム群を構成する各々のアラームのうち最初に発生したアラームの発生タイミングから最後に発生したアラームの発生タイミングまでの時間に対応するアラーム発生幅が計算される。
 ルール学習制御部13は、この計算されたアラーム発生幅に相当する時間幅を、上記作成されるルールで定義される推定対象時間幅として設定する(S15)。 
 一方で、新たに発生したアラーム群が上記記録されたときで、S12でNoと判定されたとき、すなわち同じ内容の2回目以降のアラームが発生したときは、ルール学習制御部13は、ルールの再学習、すなわち障害の内容と発生したアラーム群との紐付けに係る変更に移る(S16)。 
 そしてルール学習制御部13は、上記新たに発生したアラーム群に係るアラーム発生幅と、既にルールDB12cに記録される、上記新たに発生したアラーム群により特徴付けられる障害に係るルールで定義される推定対象時間幅とを比較する(S17)。
 この推定対象時間幅が、比較対象であるアラーム発生幅以上の時間幅であるときは(S17のYes)、ルール学習制御部13は、当該ルールで定義される推定対象時間幅を変更しない(S18)。
 一方で、S17でNoと判定されたとき、すなわちS17で比較されたアラーム発生幅が、比較対象である推定対象時間幅を超える時間幅であるときは、ルール学習制御部13は、このアラーム発生幅に相当する時間幅を、比較対象である推定対象時間幅に代わる新たな推定対象時間幅に設定、この設定された推定対象時間幅を該当のルールに定義付ける(S19)。S15、S16、またはS17が終了したとき、またはS13でNoと判定されたときは、推定対象時間幅の設定に係る処理が終了する。
 図7は、本発明の一実施形態に係る障害箇所推定装置による推定処理の手順の一例を示すフローチャートである。 
 ここでは、障害箇所推定機能部14による、障害の内容の推定処理について説明する。 
 まず、障害箇所推定装置10のデータ取込部11は、ネットワークでの障害の発生に伴う、外部からのアラーム情報、すなわちアラーム群を取り込み、このアラーム情報をアラーム情報DB12aに記録する(S21)。
 障害箇所推定機能部14は、S21で記録されたアラーム群に含まれる各アラームの少なくとも1つが、ルールDB12cに既に記録されている何れかのルールに定義されたアラーム群の各アラームのいずれかに一致するとき、すなわち障害を特徴付けるアラームが発生したのか否かを判定する(S22)。
 S22でYesと判定されたとき、障害箇所推定機能部14は、S21で記録されたアラーム群に含まれるアラームのうち、発生日時が最も古い、すなわち最初に発生したアラームが、ルールDB12cに既に記録される単独のルールのみで定義されるアラームであるか否かを判定する(S23)。
 S23でYesと判定されたとき、障害箇所推定機能部14は、当該単独のルールで定義される推定対象時間幅を推定処理に用いられる推定対象時間幅として設定し、この推定対象時間幅が定義されるルール、すなわち上記単独のルールを特定する(S24)。
 一方で、S23でNoと判定されたとき、すなわちS21で記録されたアラーム群に含まれるアラームのうち、発生日時が最も古いアラームが、ルールDB12cに既に記録される複数のルールの各々で定義されるアラームであると判定されたとき、障害箇所推定機能部14は、各々のルールで定義される推定対象時間幅のうち最大値を、推定処理に用いられる推定対象時間幅として設定し、この推定対象時間幅が定義されるルールを特定する(S25)。
 S24またはS25の後、障害箇所推定機能部14は、S21で記録されたアラーム群に含まれるアラームのうち最初に発生したアラームの発生日時を起点として、この発生日時からS24またはS25で設定された推定対象時間幅に相当する時間が経過するまでの時間に発生するアラームで、上記特定されたルールで定義されるアラームの数をカウントすることで、S21で記録されたアラーム群の発生の元となる障害の内容およびその確信度の推定処理を行なう(S26)。
 S26で推定された確信度が100%であるとき、すなわちS21で記録されたアラーム群に含まれるアラームのうち最初に発生したアラームの発生日時を起点として、この発生日時から上記設定された推定対象時間幅に相当する時間が経過するまでの時間に、S21で記録されたアラーム群に含まれるアラームのうち、S24またはS25で特定されたルールで定義されるアラームの全てに対応するアラームが発生したときは(S27のYes)、障害箇所推定機能部14は、S26で推定された障害の内容および確信度が示される情報を出力する(S28)。
 一方で、S26で推定された確信度が100%でないとき、すなわちS21で記録されたアラーム群に含まれるアラームのうち最初に発生したアラームの発生日時を起点として、この発生日時から上記設定された推定対象時間幅に相当する時間が経過するまでの時間に、S21で記録されたアラーム群に含まれるアラームのうち、S24またはS25で特定されたルールで定義されるアラームの全部でない一部に対応するアラームが発生したときは(S27のNo)、障害箇所推定機能部14は、S24またはS25で設定された推定対象時間幅をn倍した値を、推定処理に用いられる新たな推定対象時間幅として設定する(S29)。
 ここで、障害箇所推定機能部14は、S21での記録がなされた後で、S26での推定処理が、推定処理の許容の回数である所定の回数にわたって繰り返されていないか否か、または、S29で設定された現在の推定対象時間幅が所定の最大の推定対象時間幅でないか否かを判定する(S30)。
 S30でYesと判定されたとき、すなわちS26での推定処理が再度行われることが許容されるときは、S26に戻る。 
 一方、S30でNoと判定されたとき、すなわち、さらなる推定処理を行なわずに一連の処理を終了すべきであるときは、S28に進み、直近の推定処理で推定された障害の内容および100%でない確信度が示される情報を出力する。
 S28の後、障害箇所推定機能部14は、S21で記録されたアラーム情報から、当該障害を特徴付けるアラーム、すなわちS24またはS25で特定されたルールで定義されるアラームの全てが取り除かれたアラーム群を、以降の処理に用いられるアラーム群に設定する(S31)。S31の後は、S22に戻り、S31で取り除かれた後のアラームを対象とした各処理がなされる。S22でNoと判定されたときは、推定処理が終了する。
 図8は、本発明の一実施形態に係る障害箇所推定装置による推定処理におけるアラーム発生幅と推定対象時間幅との比較の第1の例を示す図である。
 ここでは、推定処理の具体例について説明する。
 まず、障害Xを特徴付けるアラームがアラームA,B,およびCであるルール(ルールXと称されることがある。)、障害Yを特徴付けるアラームがアラームD,E,およびFであるルール(ルールYと称されることがある。)、および障害Zを特徴付けるアラームがアラームD,E,およびGであるルール(ルールZと称されることがある。)が予め学習されてルールDB12cに記録されているとする。
 そして、図8に示されるように、アラームA,B,C,D,E,G,およびZ、すなわち障害Xと障害Zとが発生したときのアラームが含まれるアラーム群が取り込まれたとして、以下の処理(1-1)、(1-2)、(1―3)、および(1-4)が実行される。
 (1-1) 発生日時が最も古く、かつ障害Xに係るルールXで定義される、アラームAの発生日時を起点に、当該ルールXで定義される推定対象時間幅Ix、ここでは上記アラームA,B,C,Z,およびDの全ての発生タイミングが含まれ得る時間幅が設定され、この設定された推定対象時間幅Ixが用いられて、発生した障害の内容の推定処理が実行される。 
 この設定された推定対象時間幅Ixは、障害Xが発生したときのアラームAの発生タイミングからアラームCの発生タイミングまでの時間であるアラーム発生幅(図8の符号a参照)より長い。
 この推定処理の結果、上記設定された推定対象時間幅Ixの開始から終了までの間に、当該推定対象時間幅Ixが定義されるルールXで定義されるアラームA,B,およびCの全てと同じアラームが発生すると判定される。 
 この結果、発生した可能性がある障害は障害Xであり、この障害Xが発生したことの確信度が100%であると判定され、当該判定の結果が出力される。
 (1-2) そして、上記取り込まれたアラーム群、すなわちアラームA,B,C,D,E,G,およびZでなるアラーム群から、(1-1)で推定された障害Xを特徴付けるアラーム群、すなわちアラームA,B,およびCでなるアラーム群が、以降の処理の対象のアラーム群から取り除かれる。
 (1-3) 上記取り除かれた後の残りのアラーム群に含まれるアラームD,E,G,およびZにおいて、発生日時が最も古く、かつルールYおよびZで定義されるアラームDの発生日時を起点として推定処理が再度実行される。 
 この推定処理ではルールYで定義される推定対象時間幅Iyと、ルールZで定義される推定対象時間幅Izとが比較され、長い方の推定対象時間幅、ここではルールZで定義される推定対象時間幅Izが設定され、この推定対象時間幅Izが用いられて、推定処理が再度実行される。 
 この設定された推定対象時間幅Izは、障害Zが発生したときのアラームDの発生タイミングからアラームGの発生タイミングまでの時間であるアラーム発生幅(図8の符号b参照)より長い。
 この再度の推定処理の結果、上記設定された推定対象時間幅Izの開始から終了までの間に、当該推定対象時間幅Izが定義されるルールZで定義されるアラームD,E,およびGの全てと同じアラームが発生すると判定される。 
 この結果、上記障害Xに加えて、発生した可能性がある障害は障害Zであり、この障害Zが発生したことの確信度が100%であると判定され、当該判定の結果がさらに出力される。
 (1-4) そして、上記取り除かれた後の残りのアラーム群、すなわちアラームZ,D,E,およびGでなるアラーム群から、(1-3)で推定された障害Zを特徴付けるアラーム群、すなわちアラームD,EおよびGでなるアラーム群が、以降の処理の対象のアラーム群から取り除かれる。
 この取り除かれた後のアラーム群、すなわちアラームZのみでなるアラーム群は、学習済のルールで定義されるアラームに該当しないため、一連の処理が終了する。
 図9は、本発明の一実施形態に係る障害箇所推定装置による推定処理におけるアラーム発生幅と推定対象時間幅との比較の第2の例を示す図である。
 この図9に示された例では、図8に示された例と比較して、当初に設定された推定対象時間幅が短い。
 まず、図8に示された例と同様に、障害Xを特徴付けるアラームがアラームA,B,およびCであるルールX、障害Yを特徴付けるアラームがアラームD,E,およびFであるルールY、および障害Zを特徴付けるアラームがアラームD,E,およびGであるルールZが予め学習されてルールDB12cに記録されているとする。
 そして、図9に示されるように、アラームA,B,C,D,E,およびG、すなわち障害Xと障害Zとが発生したときのアラームが含まれるアラーム群が取り込まれたとして、以下の処理(2-1)および(2-2)が実行される。
 (2-1) 発生日時が最も古く、かつ障害Xに係るルールXで定義される、アラームAの発生日時を起点に、当該ルールXで定義される推定対象時間幅Ix、ここでは上記障害Xを特徴付ける一部のアラームAおよびBの発生タイミングが含まれ得る時間幅が、推定処理に用いられる推定対象時間幅として設定され、この設定された推定対象時間幅Ixが用いられて、発生した障害の内容の推定処理が実行される。この設定された推定対象時間幅Ixは、障害Xが発生したときのアラームAの発生タイミングからアラームCの発生タイミングまでの時間であるアラーム発生幅(図9の符号a参照)より短い。
 この推定処理の結果、上記設定された推定対象時間幅Ixの開始から終了までの間に、当該推定対象時間幅Ixが定義されるルールXで定義されるアラームA,B,およびCのうち、アラームAおよびBが発生すると判定される。 
 この結果、ルールXで定義されるアラームの数が3つであるのに対し、推定対象時間幅Ixの開始から終了までの間に発生した、ルールXで定義されるアラームと同じアラームの数は2つであるため、発生した可能性がある障害は障害Xであり、この障害Xが発生したことの確信度は66.7%であると判定される。
 (2-2) (2-1)の結果を受けて、この(2-1)で設定された推定対象時間幅Ixを2倍にした推定対象時間幅Ix1が、推定処理に用いられる新たな推定対象時間幅として設定され、この推定対象時間幅Ix1が用いられて、推定処理が再度実行される。
 この再度の推定処理の結果、上記新たに設定された推定対象時間幅Ix1の開始から終了までの間に、当該推定対象時間幅Ix1の変更前の推定対象時間幅Ixが定義されるルールXで定義されるアラームA,B,およびCの全てと同じアラームが発生すると判定される。 
 この結果、発生した可能性がある障害は上記障害Xであり、この障害Xが発生したことの新たな確信度は100%であると判定され、当該判定の結果が出力される。
 以降、障害Zが発生したときのアラームDの発生タイミングからアラームGの発生タイミングまでの時間であるアラーム発生幅(図9の符号b参照)に係る、図8に示された例で説明した処理(1-2),(1―3),および(1-4)と同様の処理が実行される。
 本発明の一実施形態では、障害発生時に、この障害を特徴付けるアラームが発生するアラーム発生幅が求められ、このアラーム発生幅が、複数のルールで定義されるアラーム発生幅であるときは、各々のルールで定義されるアラーム発生幅の最大値が推定対象時間幅として設定される。 
 そして、新たに発生したアラームが定義されるルールで定義される推定対象時間幅が用いられて、発生した障害の推定処理が実行される。
 本発明の一実施形態では、高い確信度により、発生した障害が推定されるので、実際には発生していない障害の無駄な切り分け作業が防止でき、障害復旧時間の短縮化に寄与することができる。
 また、推定対象時間幅が、発生したアラームに係るアラーム発生幅より短いために、発生した障害の確信度が比較的低いときに、推定対象時間幅を一度に大幅に延ばすのではなくn倍に限って延ばし、また推定処理の繰り返し回数の最大値、および延ばした推定対象時間幅の最大値を予め設定しておくことで、処理性能の負荷を軽減させることができる。
 図10は、本発明の一実施形態に係る障害箇所推定装置のハードウエア構成の一例を示すブロック図である。 
 図10に示された例では、上記の実施形態に係る障害箇所推定装置10は、例えばサーバコンピュータ(server computer)またはパーソナルコンピュータ(personal computer)により構成され、CPU等のハードウエアプロセッサ(hardware processor)111Aを有する。そして、このハードウエアプロセッサ111Aに対し、プログラムメモリ(program memory)111B、データメモリ(data memory)112、入出力インタフェース(interface)113及び通信インタフェース114が、バス(bus)120を介して接続される。
 通信インタフェース114は、例えば1つ以上の無線の通信インタフェースユニット(interface unit)を含んでおり、通信ネットワークNWとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線LAN(Local Area Network)などの小電力無線データ通信規格が採用されたインタフェースが使用される。
 入出力インタフェース113には、障害箇所推定装置10に付設される、利用者などにより用いられる入力デバイス(device)30および出力デバイス40が接続される。 
 入出力インタフェース113は、キーボード(keyboard)、タッチパネル(touch panel)、タッチパッド(touchpad)、マウス(mouse)等の入力デバイス30を通じて利用者などにより入力された操作データを取り込むとともに、出力データを液晶または有機EL(Electro Luminescence)等が用いられた表示デバイスを含む出力デバイス40へ出力して表示させる処理を行なうことができる。なお、入力デバイス30および出力デバイス40には、障害箇所推定装置10に内蔵されたデバイスが使用されてもよく、また、ネットワークNWを介して障害箇所推定装置10と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。
 プログラムメモリ111Bは、非一時的な有形の記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリ(non-volatile memory)と、ROM(Read Only Memory)等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納され得る。
 データメモリ112は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリ(volatile memory)とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データまたは情報が記憶される為に用いられ得る。
 本発明の一実施形態に係る障害箇所推定装置10は、ソフトウエア(software)による処理機能部として、図2に示されるデータ取込部11、ルール学習制御部13、障害箇所推定機能部14、対処方法管理機能部15、およびAPI部16を有するデータ処理装置として構成され得る。
 障害箇所推定装置10の各部によるワークメモリなどとしても用いられる記憶部12は、図10に示されたデータメモリ112が用いられることで構成され得る。ただし、これらの構成される記憶領域は障害箇所推定装置10内に必須の構成ではなく、例えば、USB(Universal Serial Bus)メモリなどの外付け記憶媒体、又はクラウド(cloud)に配置されたデータベースサーバ(database server)等の記憶装置に設けられた領域であってもよく、上記記憶媒体または記憶装置に障害箇所推定装置10がアクセス可能な構成であってもよい。
 上記のデータ取込部11、ルール学習制御部13、障害箇所推定機能部14、対処方法管理機能部15、およびAPI部16の各部における処理機能部は、いずれも、プログラムメモリ111Bに格納されたプログラムを上記ハードウエアプロセッサ111Aにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路(ASIC(Application Specific Integrated Circuit))またはFPGA(Field-Programmable Gate Array)などの集積回路を含む、他の多様な形式によって実現されてもよい。
 また、各実施形態に記載された手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク(Floppy disk)、ハードディスク(hard disk)等)、光ディスク(optical disc)(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ(Flash memory)等)等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブル(table)、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
  10…障害箇所推定装置
  11…データ取込部
  12…記憶部
  12a…アラーム情報DB
  12b…ネットワーク構成情報DB
  12c…ルールDB
  13…ルール学習制御部
  14…障害箇所推定機能部
  15…対処方法管理機能部

Claims (8)

  1.  通信ネットワークで発生する障害の内容が示される障害情報と、前記障害の発生に係り異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義されるルールが記憶される記憶装置にアクセス可能な装置であって、
     新たに発生した障害に伴って発生した複数のアラーム情報の最初の発生タイミングから最後の発生タイミングまでのアラーム発生時間に応じた推定対象時間を、前記発生した障害に応じた障害情報が定義される前記ルールに設定する設定部と、
     前記設定部による設定後に新たに発生した複数のアラーム情報のうち、当該アラーム情報が定義されるルールに設定された推定対象時間の開始から終了までの間に発生したアラーム情報の数に基づいて、新たに発生した障害の内容を推定する推定部と、
     を備える障害推定装置。
  2.   前記障害の発生に伴って異なるタイミングで発生した新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報に係る障害が、前記記憶装置に既に記憶されるルールで定義される障害でないときに、前記取得された複数のアラーム情報の各々が発生したタイミングのうち最初のタイミングから最後のタイミングまでの時間であるアラーム発生時間を計算し、
      前記計算されたアラーム発生時間を、前記障害の内容の推定に用いられる推定対象時間として設定し、
      前記新たな複数のアラーム情報により特徴付けられる障害の内容、および前記設定された推定対象時間が紐付けられて定義される新たなルールを生成して前記記憶装置に記憶させる、ルール生成部をさらに備え、
     前記設定部は、
      前記通信ネットワークの障害の発生に係り異なるタイミングで発生した新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報に係る障害が、前記記憶装置に既に記憶されるルールで定義される障害であるときに、当該取得されたアラーム情報の組み合わせに係る前記アラーム発生時間を計算し、
      当該計算されたアラーム発生時間と、同じ内容の障害に係り前記記憶装置に記憶されるルールで定義される推定対象時間とを比較し、長い方の時間を当該ルールにおける新たな推定対象時間に設定し、
     前記推定部は、
      前記通信ネットワークの新たな障害の発生に係り異なるタイミングで発生する新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報の少なくとも1つが、前記記憶装置に記憶される何れかのルールで定義されるアラーム情報に含まれるときに、当該ルールで定義される障害情報および推定対象時間を取得し、
      前記取得された複数のアラーム情報のうち、前記取得された推定対象時間が経過するまでの時間に発生したアラーム情報の数を求め、
      前記求められた数に基づいて、前記取得された障害情報で示される障害が発生したことの可能性を示す値を推定する、
     請求項1に記載の障害推定装置。
  3.  前記推定部は、
      前記取得された複数のアラーム情報の各々が発生したタイミングのうち最先のタイミングを起点として前記取得された推定対象時間が経過するまでの時間に発生したアラーム情報の数に基づいて、前記取得された障害情報で示される障害が発生したことの可能性を示す値を推定する、
     請求項2に記載の障害推定装置。
  4.  前記推定部は、
      前記取得された推定対象時間が経過するまでの時間に発生したアラーム情報の数が、前記取得された推定対象時間が定義されるルールにおける複数のアラーム情報の数の全てでないときに前記取得された推定対象時間を増加させ、
      前記取得された複数のアラーム情報の各々が発生したタイミングのうち最初のタイミングから最後のタイミングまでの時間であるアラーム発生時間と、前記増加させた推定対象時間とに基づいて、前記増加させた推定対象時間が経過するまでの時間に発生したアラーム情報の数を再度求める、
     請求項2に記載の障害推定装置。
  5.  通信ネットワークで発生する障害の内容が示される障害情報と、前記障害の発生に係り異なるタイミングで発生する複数のアラーム情報と、が紐付けられて定義されるルールが記憶される記憶装置にアクセス可能な障害推定装置により行われる方法であって、
     新たに発生した障害に伴って発生した複数のアラーム情報の最初の発生タイミングから最後の発生タイミングまでのアラーム発生時間に応じた推定対象時間を、前記発生した障害に応じた障害情報が定義される前記ルールに設定することと、
     前記設定がされた後に新たに発生した複数のアラーム情報のうち、当該アラーム情報が定義されるルールに設定された推定対象時間の開始から終了までの間に発生したアラーム情報の数に基づいて、新たに発生した障害の内容を推定することと、
     を備える障害推定方法。
  6.   前記障害の発生に伴って異なるタイミングで発生した新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報に係る障害が、前記記憶装置に既に記憶されるルールで定義される障害でないときに、前記取得された複数のアラーム情報の各々が発生したタイミングのうち最初のタイミングから最後のタイミングまでの時間であるアラーム発生時間を計算し、
      前記計算されたアラーム発生時間を、前記障害の内容の推定に用いられる推定対象時間として設定し、
      前記新たな複数のアラーム情報により特徴付けられる障害の内容、および前記設定された推定対象時間が紐付けられて定義される新たなルールを生成して前記記憶装置に記憶させることをさらに備え、
     前記設定することは、
      前記通信ネットワークの障害の発生に係り異なるタイミングで発生した新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報に係る障害が、前記記憶装置に既に記憶されるルールで定義される障害であるときに、当該取得されたアラーム情報の組み合わせに係る前記アラーム発生時間を計算し、
      当該計算されたアラーム発生時間と、同じ内容の障害に係り前記記憶装置に記憶されるルールで定義される推定対象時間とを比較し、長い方の時間を当該ルールにおける新たな推定対象時間に設定することを含み、
     前記推定することは、
      前記通信ネットワークの新たな障害の発生に係り異なるタイミングで発生する新たな複数のアラーム情報を取得し、
      前記取得された複数のアラーム情報の少なくとも1つが、前記記憶装置に記憶される何れかのルールで定義されるアラーム情報に含まれるときに、当該ルールで定義される障害情報および推定対象時間を取得し、
      前記取得された複数のアラーム情報のうち、前記取得された推定対象時間が経過するまでの時間に発生したアラーム情報の数を求め、
      前記求められた数に基づいて、前記取得された障害情報で示される障害が発生したことの可能性が示される値を推定することを含む、
     請求項5に記載の障害推定方法。
  7.  前記推定することは、
      前記取得された複数のアラーム情報の各々が発生したタイミングのうち最先のタイミングを起点として前記取得された推定対象時間が経過するまでの時間に発生したアラーム情報の数に基づいて、前記取得された障害情報で示される障害が発生したことの可能性を示す値を推定する、ことを含む
     請求項6に記載の障害推定方法。
  8.  請求項1乃至4のいずれか1項に記載の障害推定装置の前記各部としてプロセッサを機能させる障害推定処理プログラム。
PCT/JP2021/025340 2021-07-05 2021-07-05 障害推定装置、方法およびプログラム WO2023281595A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/025340 WO2023281595A1 (ja) 2021-07-05 2021-07-05 障害推定装置、方法およびプログラム
JP2023532894A JPWO2023281595A1 (ja) 2021-07-05 2021-07-05

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025340 WO2023281595A1 (ja) 2021-07-05 2021-07-05 障害推定装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023281595A1 true WO2023281595A1 (ja) 2023-01-12

Family

ID=84801417

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025340 WO2023281595A1 (ja) 2021-07-05 2021-07-05 障害推定装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023281595A1 (ja)
WO (1) WO2023281595A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2010011093A (ja) * 2008-06-27 2010-01-14 Hitachi Ltd 分散システム
WO2021053801A1 (ja) * 2019-09-19 2021-03-25 日本電信電話株式会社 情報分析装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2010011093A (ja) * 2008-06-27 2010-01-14 Hitachi Ltd 分散システム
WO2021053801A1 (ja) * 2019-09-19 2021-03-25 日本電信電話株式会社 情報分析装置、方法およびプログラム

Also Published As

Publication number Publication date
JPWO2023281595A1 (ja) 2023-01-12

Similar Documents

Publication Publication Date Title
JP5459325B2 (ja) キャッシュ装置、キャッシュプログラム、及び通信装置
US20150205657A1 (en) Predicting failure of a storage device
US8863110B2 (en) Firmware updating system and method
US20150193336A1 (en) Computing device and method for recording system event logs of computing device
US20200033928A1 (en) Method of periodically recording for events
US9396061B1 (en) Automated repair of storage system components via data analytics
JP7046501B2 (ja) ストレージシステム、装置およびストレージシステムの方法
US10049023B1 (en) Optimizing application recovery in unmanaged clusters
JP4239989B2 (ja) 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム
US10083088B1 (en) Managing backup copies in cascaded data volumes
US20130024466A1 (en) System event logging system
US20150286548A1 (en) Information processing device and method
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
US20070288604A1 (en) Method for determining optimal number of connections in multi-connection download configuration
WO2023281595A1 (ja) 障害推定装置、方法およびプログラム
US11914466B2 (en) Systems and methods for pause-correct-replay workflow customization
US20160203056A1 (en) Apparatus, snapshot management method, and recording medium
JP7380830B2 (ja) 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム
JP7327493B2 (ja) 異常対処支援装置、方法およびプログラム
US8798982B2 (en) Information processing device, information processing method, and program
JP5836316B2 (ja) 障害監視システム、障害監視方法、及び障害監視プログラム
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
US10951472B2 (en) Information processing device and information processing system
US9244723B2 (en) Medium, method, and apparatus

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2023532894

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE