JPWO2009122525A1 - トラブル対処システム、方法およびそのためのプログラム - Google Patents

トラブル対処システム、方法およびそのためのプログラム Download PDF

Info

Publication number
JPWO2009122525A1
JPWO2009122525A1 JP2010505184A JP2010505184A JPWO2009122525A1 JP WO2009122525 A1 JPWO2009122525 A1 JP WO2009122525A1 JP 2010505184 A JP2010505184 A JP 2010505184A JP 2010505184 A JP2010505184 A JP 2010505184A JP WO2009122525 A1 JPWO2009122525 A1 JP WO2009122525A1
Authority
JP
Japan
Prior art keywords
trouble
symptom
configuration information
database
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010505184A
Other languages
English (en)
Other versions
JP5141762B2 (ja
Inventor
幸洋 渡辺
幸洋 渡辺
松本 安英
安英 松本
邦昭 嶋田
邦昭 嶋田
裕二 和田
裕二 和田
松原 正純
正純 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009122525A1 publication Critical patent/JPWO2009122525A1/ja
Application granted granted Critical
Publication of JP5141762B2 publication Critical patent/JP5141762B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

ITシステムのトラブルの症状を入力すると該症状に対する対処を出力するトラブル対処システムは、ITシステムの構成情報を集めた第1データベースと、トラブルの症状と該症状を解決する対処を含むトラブル事例を集めた第2データベースと、第1データベースと第2データベースとから構成情報をキーにトラブル事例の構成情報を導出して格納する第1記憶部と、入力されたトラブルを発生したITシステムの構成情報とトラブル事例の構成情報との間の類似度を算出する構成情報類似度算出部と、トラブルを発生したITシステムに対する対処を前記類似度と共に提示する出力部とを有する。

Description

本発明はITシステムにおけるトラブルに対処するためのトラブル対処システム、方法およびそのためのプログラムに関し、特にITシステムの運用管理に適用され、トラブルに対してITシステムの状況に応じた複数の対処を選択可能なトラブル対処システム、方法およびそのためのプログラムに関する。
一般的に、ITシステムのトラブル対処においては、レスポンス低下などの障害(トラブル)を検知した場合、一般的に障害箇所に関係する情報を採取して解析することを繰り返して問題の原因を特定する方法がとられている。
従来、採取すべき情報は、トラブル対処を行う担当者自身が持っているノウハウによって決定していた。このため、トラブル対処には担当者に高度なスキルが要求され、担当者のスキルによってはトラブルの解決までに長期間を要するなど、時間やコストの面で問題があった。
特許文献1は、管理者のスキルによらずネットワークのトラブルの部位を特定する伝送ネットワークシステムを提供することを目的とする発明を開示している。特許文献1に記載の伝送ネットワークシステムは、ネットワークを構成する複数の構成要素についての故障を検出し警報情報を発する複数の検出部と、伝送ネットワークシステムの複数の構成要素と複数の構成要素を階層分けして予め設定した複数のネットワーク要素との対応関係を示す情報を予め格納した対応関係格納部と、複数のネットワーク要素間の故障の波及関係を示す情報を格納した波及関係格納部とを備える。また同伝送ネットワークシステムは、検出部の発した警報情報から故障点の含まれるネットワーク要素を絞り込む絞り込み手段と、絞り込み手段の絞り込んだネットワーク要素と、対応関係格納部および波及関係格納部に格納されている情報から故障点を特定する故障点特定手段とを備える。
しかしながら、特許文献1に記載の発明は、伝送ネットワークシステム内の故障を検出し警報情報を発して故障点を特定するものであり、担当者が故障の症状を入力することで過去に発生した故障に対して蓄積した対処事例から担当者に対処候補を提示するものではない。それゆえ、特許文献1に記載の発明は、過去に発生した故障に対する対処事例を蓄積しないので、学習機能がなく故障の検出能力が向上しない。
近年、担当者のスキルによらず短時間にトラブルを解決する「トラブル対処システム」が考案されている。このトラブル対処システムは、短時間にトラブルを解決するために、トラブル対処を行う担当者に特有なノウハウ等の暗黙な知識を、担当者等の共有知識として利用可能にするものである。このトラブル対処システムは、過去のトラブル対処事例等から作成されたトラブル対処知識を蓄積し、担当者がトラブルの現象等の症状を表現する情報を入力すると、蓄積したトラブル対処知識を検索し、担当者に現象と相関のある原因や対処の候補を提示する。しかしながら、トラブルに対し、複数の原因および対処の候補がある場合、担当者はどの対処候補から対処を試行すべきかを決定しなければならず、トラブルの原因をつきとめるまで繰り返し対処候補を選択しなければならない。
現状のトラブル対処システムでは、過去のトラブル対処の知識を蓄積するほど、担当者がトラブルの現象等の情報、すなわち症状を入力した時に提示される対処候補の数も多くなり、それが「検索ノイズ」となって、本当に必要な対処を見つけるのが困難であるという問題がある。ここで、「検索ノイズ」とは候補の中で担当者が選択したくない、つまり症状を解決しない対処を言う。結局のところ、多数の対処候補から、担当者のノウハウによって試行の順序を決定しているのが現状であり、短時間で故障に対処することができないという問題がある。
特開2003−179601号公報
本発明は、上記問題を解決するためになされたものであり、短時間に故障に対処するため、担当者が故障の症状を入力することで過去に発生した故障に対して蓄積した対処事例から担当者に的中率の高い対処候補を提示し故障箇所を特定するトラブル対処システム、方法およびそのためのプログラムを提供することを目的とする。
上記目的を達成する第1形態のトラブル対処システム、方法およびそのためのプログラムは、ITシステムのトラブル発生時に、過去に発生したトラブル事例から推測される複数の対処について、現在トラブルが発生しているITシステムの構成が類似しているITシステムを、入力されたトラブルを発生したITシステムの構成情報と過去のトラブル事例の構成情報との間の類似度を算出する構成情報類似度算出部により求め、求めたITシステムのトラブルに対する対処候補を優先的に提示する。
上記目的を達成する第2形態のトラブル対処システム、方法およびそのためのプログラムは、過去のトラブル事例からトラブルの症状とトラブルの原因となったレイヤとの症状−レイヤ関連情報を求め、現在発生している症状からトラブルの原因である可能性の高いレイヤを推定し、当該レイヤにおいて、トラブルが発生しているITシステムの構成と過去のトラブル事例内のITシステムの構成とを比較し、構成が類似したITシステムの事例を導出し、導出したITシステムのトラブルに対する対処候補を優先的に提示する。
上記目的を達成する第1形態のトラブル対処システムでは、構成の類似度を求めることによって多数の対処から関連性の高い対処を候補として絞り込むことができる。このため、従来技術と比べて検索ノイズを抑えて関連度の高い対処候補のみを提示できる。
また、第1形態のトラブル対処システムによれば、従来は担当者のノウハウによって試行の順序を決定していたものが、構成の似ているITシステムで発生したトラブル事例に基づく対処を優先的に試行できるようになり、トラブル対処に要する時間が大幅に短縮できる。
上記目的を達成する第2形態のトラブル対処システムでは、症状が発生しているレイヤについて構成の類似度を求めるため、他のレイヤの構成が異なっていても対処の候補とすることができ、全ての構成が一致した対処のみを検索していた従来技術と比べて検索ノイズを抑えつつより多くの対処候補を提示できる。
第1実施形態のトラブル対処システムのブロック構成図である。 第2実施形態のトラブル対処システムのブロック構成図である。 第1実施形態のトラブル対処システムにおける処理を示すフローチャートである。 第2実施形態のトラブル対処システムにおける処理を示すフローチャートである。 図3および図4に示すフローチャートにおけるステップS7による処理の具体例を示す図である。 第1実施形態のトラブル対処システムによるトラブル対処知識と構成情報の関連付けを説明する図である。 第2実施形態のトラブル対処システムによる症状とレイヤの関連付け算出方法を説明する図である。 (A)はITシステムの物理接続構成の具体例を示す図であり、(B)は物理接続構成のレイヤで類似度計算マトリクスを作成する方法を示す図である。 (A)はITシステムのネットワーク接続構成の具体例を示す図であり、(B)はネットワーク接続構成のレイヤで類似度計算マトリクスを作成する方法を示す図である。 症状から対処に関する情報を検索する具体例を示す図であり、(A)は症状から候補となる対処知識の情報を検索する例を示す図であり、(B)は症状と原因からレイヤの生起確率の情報を検索する例を示す図である。 症状と対処の構成の類似度を算出する具体例を示す図であり、(A)はトラブルが発生した環境における構成のマトリクスを算出する例を示す図であり、(B)は対処知識と関連付けられた構成のシステムIDから導かれるマトリクスとの類似度を算出する例を示す図である。 症状と対処の機器の数が異なる場合の相関を算出する具体例を示す図であり、(A)は機器の数が少ない方に合わせて相関を求める例を示す図であり、(B)は対処知識と関連付けられた構成のシステムIDから導かれるマトリクスとの相関を求める例を示す図である。 得点算出の具体例を示す図である。 提示の一実施例を示す図である。
符号の説明
11 入力部
12 第2記憶部
13 対処検索部
14 第1記憶部
15 構成情報類似度算出部
16 対処提示順序決定部
17 出力部
18 原因レイヤ算出部
19 第3記憶部
20 第1データベース
30 第2データベース
100、200 トラブル対処システム
図1は第1実施形態のトラブル対処システムのブロック構成図である。図1に示すITシステムのトラブルに対処するためのトラブル対処システム(以下、対処システムと記す)100は、ITシステム内に設置されてもよいが、ITシステム外部にITシステムと通信ネットワークを介さずに設置される。対処システム100は、トラブルの症状および障害発生システムの構成情報を入力する入力部11と、ITシステムの構成情報を記憶する第1データベース20と、トラブルの症状とその症状を解決する対処を含む過去のトラブル事例を格納する第2データベース30とを有する。第1データベース20はITシステムのレイヤ毎の構成情報を集めて格納されている。
また、対処システム100は、第1データベース20と第2データベース30とからITシステムの構成情報をキーにトラブル事例の構成情報を導出して格納する第1記憶部14と、第1データベース20と第2データベース30とから対処をキーにITシステムのトラブル対処知識を導出して格納する第2記憶部12とを有する。
対処システム100は、さらに、入力部11から入力されたトラブルの症状110をキーに第2記憶部12に格納されたトラブル対処知識を検索する対処検索部13と、入力されたトラブルを発生したITシステムの構成情報とトラブル事例の構成情報との間の類似度を算出する構成情報類似度算出部15と、構成情報類似度算出部15により算出された構成情報の類似度に基づき対処検索部13により検索された対処に順位づけを行う対処提示順序決定部16を有する。
また、対処システム100は、ITシステムのトラブル発生時に、入力部11からトラブル発生システムの構成情報111が入力されると、過去に発生したトラブル事例から推測される複数の対処について、現在障害が発生しているITシステムと構成が似たITシステムの事例から導かれる原因および対処方法170を優先的に運用の担当者に提示する出力部17を有する。出力部17は、トラブルを発生したITシステムに対する対処を類似度と共に提示できる。
第1実施形態のトラブル対処システム100は、構成類似度算出部15で構成情報の類似性を算出し、対処提示順序決定部16で対処方法を絞込みし順序付けた後、出力部17から原因と対処方法を運用の担当者に提示する。
図2は第2実施形態のトラブル対処システムのブロック構成図である。図2に示すように、第2実施形態のトラブル対処システム200は、図1に示す第1実施形態のトラブル対処システム100に加えて、原因レイヤ算出部18と症状−レイヤの関連情報を格納する第3記憶部19とを有する。
原因レイヤ算出部18は、第2データベース30から、トラブルの症状とそのトラブルの原因となったレイヤとの症状−レイヤ関連情報を算出し、その症状−レイヤ関連情報内で同一症状を有する各レイヤの生起確率を算出する。
第3記憶部19は、過去のトラブル事例から、障害の症状と、障害の原因となったレイヤの関連を保持する症状−レイヤ関連情報を格納する。
第2実施形態のトラブル対処システム200は、ITシステムのトラブル発生時に、入力部11からトラブル発生システムの構成情報111が入力されると、原因レイヤ算出部18により、現在障害が発生しているITシステムのトラブルの症状と第3記憶部19に格納された症状−レイヤ関連情報とから障害の原因である可能性の高いレイヤを推定し、推定したレイヤについて構成類似度算出部15で障害が発生しているITシステムと過去のトラブル事例の構成を比較し、対処提示順序決定部16でレイヤに関連付けて対処方法を絞込みし順序付けた後、出力部17から構成が似たITシステムの事例から導かれた原因と対処方法170を優先的に運用の担当者に提示する。
トラブル対処システム200において、対処提示順序決定部16は、構成情報類似度算出部15により算出された類似度と原因レイヤ算出部18により算出された生起確率とから対処検索部13により検索された対処に順位づけを行う。
原因レイヤ算出部18は、生起確率を、症状−レイヤ関連情報内で同一症状を有する各レイヤの症状発生回数をその総数で除算して求める。
出力部17は、類似度と生起確率とを乗算して求めた得点を提示する。
類似度は、入力されたトラブルを発生したITシステムの構成情報を表現する第1マトリクスとトラブル事例の構成情報のうち対処に関連付けられた構成情報を表現する第2マトリクスとの相関として求められる。この相関は、例えばピアソンの積率相関係数の算出式を用いて求められる。
図3は第1実施形態のトラブル対処システムにおける処理を示すフローチャートである。第1実施形態のトラブル対処システムは以下のように処理を実行する。
ステップS1で、入力部11からトラブルの症状110の入力を受ける。
ステップS2で、症状から症状に対する対処方法の候補(以下、対処候補と記す)となる対処知識を複数検索する。
ステップS3〜5で、構成情報の類似度をレイヤ毎に算出する。
ステップS3で、トラブルが発生したITシステムの環境の構成情報を取得する。
ステップS4で、対処候補に関連づけられた構成情報を第1記憶部14から取得する。
ステップS5で、構成情報類似度算出部15によりトラブル発生環境の構成情報と、対処知識に関連付けられた構成情報の類似度を、レイヤ毎に算出する。
ステップS6で、構成の類似度から、対処候補の得点を算出し、優先度を決定する。この得点の算出方法については後で説明する。
ステップS7で、対処提示順序決定部16により求めた得点の順に対処候補を出力部17により担当者に提示する。
図4は第2実施形態のトラブル対処システムにおける処理を示すフローチャートである。第2実施形態のトラブル対処システムは、第1実施形態のトラブル対処システムにおけるステップS3〜5に加えて下記のステップS13の処理を実行し、ステップS6の処理に代えてステップS16の処理を実行する。
ステップS13で、原因レイヤ算出部18により症状と原因レイヤの関連を算出する。
ステップS16で、構成の類似度とレイヤの関連から、対処候補の得点を算出し、優先度を決定する。
図5は図3および図4に示すフローチャートにおけるステップS7による処理の具体例を示す図である。左側の列の「トラブル対処知識ID」には症状に対するトラブル対処知識の識別データが、中央の列の「得点」にはそのトラブル対処知識を用いることによる症状に対する対処の成功率が、右側の列の「対処」にはそのトラブル対処知識の内容、すなわち症状に対する対処方法がそれぞれ示されている。図6から対処の成功率が高い順に示されていることが分かる。
図6は第1実施形態のトラブル対処システムによるトラブル対処知識と構成情報の関連付けを説明する図である。上段の表は図1および図2に示す第2データベース30に格納される過去のトラブル事例のデータベースを示す。下段の表は図1および図2に示す第1記憶部14に格納されるトラブル事例の構成情報のデータベースを示す。
上段の表において、左列から右列の順に第1列にインシデントIDが、第2列にITシステムの構成情報を識別するシステムIDが、第3列にトラブルの内容を示す症状が、第4列に症状の詳細が、第5列にトラブルの原因が、第6列にトラブルに対する対処方法が、第7列にトラブルが発生したレイヤが、それぞれ示されている。上段の表は第6行以降の事例を省略し第1〜5行に各事例のみを示す。
下段の表において、左列から右列の順に第1列にトラブル対処知識IDが、第2列にトラブルの症状が、第3列にITシステムの構成情報を識別するシステムIDが、第4列に症状に対する対処方法が、それぞれ示されている。下段の表は上段の表の第1〜5行の事例に対応する対処知識を第1〜5行に示している。従来は下段の表において、第3列にITシステムの構成情報を識別するシステムIDが提示されない。
図1および図2に示すように、第1データベース20に格納されるシステムの構成情報のデータベースと第2データベース30に格納される過去のトラブル事例のデータベースとから第2記憶部12に格納されるトラブル対処知識のデータベースが導出される。
図7は第2実施形態のトラブル対処システムによる症状とレイヤの関連付け算出方法を説明する図である。上段の表は図1および2に示す第2データベース30に格納される過去のトラブル事例のデータベースを示す。下段の表は図1および2に示す第3記憶部18に格納される症状−レイヤ関連情報のデータベースを示す。上段の表は図6の上段の表と同じであるので説明は省略する。
下段の表において、左列から右列の順に第1列にトラブルの症状が、第2列に生起確率が、第3列にレイヤが、それぞれ示されている。下段の表は上段の表の第1〜4行の例における症状とレイヤがどれだけ関連しているかを示す生起確率とレイヤの情報を第1〜4行に示している。
下段の表から判るように、第1列に示す「サーバ起動不可」という症状に対する対処方法は全部で1件であり、ハードウェア構成のレイヤに対してのみ1件行われているので生起確率は1.00となる。第2〜4列に示す「ソフトウェア接続の切断」という症状に対する対処方法は全部で4件であり、ハードウェア構成のレイヤに対して2件、ネットワーク接続構成のレイヤに対して1件、ソフトウェア構成のレイヤに対して1件であるので生起確率は第2列で0.25、第3列で0.50、第4列で0.25となる。
図8の(A)はITシステムの物理接続構成の具体例を示す図であり、図8の(B)は物理接続構成のレイヤで類似度計算マトリクスを作成する方法を示す図である。ITシステムは、OS、ミドルウェアおよびアプリケーションプログラムを含むソフトウェア、その上に設けられた通信ネットワーク、さらにその上に接続されるサーバやルータ等のスイッチを含むハードウェアの3つのレイヤから階層構造に構成されている。レイヤはITシステムの種々の構成形態と言える。
ITシステムのレイヤには他に物理接続構成およびシステムの機器構成のレイヤ等がある。物理接続構成はハードウェアを構成する機器間の接続関係を示す情報であり、システムの機器構成はITシステムを構成する機器の種類と数を示す情報である。
図8の(A)に示すITシステムの物理接続構成の具体例では、ITシステムのハードウェア構成は8つのサーバ(Svr-a、Svr-b、Svr-c、Svr-d、Svr-e、Svr-f、Svr-g、Svr-h)と2つのスイッチ(SwC、SwD)からなり、図示のようにサーバおよびスイッチの機器が接続されている。スイッチにはルータまたはハブ等の機器がある。
図8の(B)は物理接続構成のレイヤにおいて、図7の上段に示すインシデントIDとして007-0620-1802-020が発生したときにITシステムのシステムIDがT-db-020である物理接続構成のマトリクスの作成例を示す。図8の(B)に示すマトリクスは、ITシステムの構成情報を具体的に表現している。
物理接続構成のレイヤで類似度を計算するためのマトリクス作成方法は下記の第1〜3ステップを実行することにより達成される。
第1ステップ:物理接続構成情報から、過去のトラブル事例のあったITシステムの物理接続構成を参照し、任意のレイヤにおける機器(ノード)の物理接続構成をコンピュータ、ルータおよびハブ等の機器であるノードとノード間を接続するリンクで作成する。端的には、図8の(A)を作図する。
第2ステップ:ノードを接続の多い順にソートする。
第3ステップ:図8の(B)に示す行の最上段および列の最左端に上記8つのサーバと2つのスイッチからなる物理接続構成のレイヤでマトリクスが出力され、ノード間が接続されている場合は1が設定され、接続されていない場合は0が設定される。
図9の(A)はITシステムのネットワーク接続構成の具体例を示す図であり、図9の(B)はネットワーク接続構成のレイヤで類似度計算マトリクスを作成する方法を示す図である。
図9の(A)に示すITシステムのネットワーク接続構成の具体例では、ITシステムのネットワーク接続構成は8つのサーバ(Svr-a、Svr-b、Svr-c、Svr-d、Svr-e、Svr-f、Svr-g、Svr-h)からなり、図示のようにサーバが接続されている。サーバSvr-a、Svr-b、Svr-c、Svr-dはウェブサーバ(WEB)であり、サーバSvr-e、Svr-fは所定のアプリケーション(APL)を提供するサーバであり、サーバSvr-g、Svr-hはデータベースを格納するサーバ(DB)である。
図9の(B)はハードウェア構成のレイヤにおいて、図7の上段に示すインシデントIDとして007-0620-1802-020が発生したときにITシステムのシステムIDがT-db-020であるネットワーク接続構成マトリクスの作成例を示す。図9の(B)に示すマトリクスは、ITシステムの構成情報を具体的に表現している。
ネットワーク接続構成のレイヤで類似度を計算するためのマトリクス作成方法は下記の第1〜3ステップを実行することにより達成される。
第1ステップ:ネットワーク接続構成情報から、過去のトラブル事例のあったITシステムのネットワーク接続構成を参照し、任意のレイヤにおける機器(ノード)のネットワーク接続構成をサーバ間を接続するリンクで作成する。端的には、図9の(A)を作図する。
第2ステップ:ノードを接続の多い順にソートする。
第3ステップ:図9の(B)に示す行の最上段および列の最左端に上記8つのサーバからなるネットワーク接続構成のレイヤでマトリクスが出力され、ノード間が接続されている場合は1が設定され、接続されていない場合は0が設定される。
図10は症状から対処に関する情報を検索する具体例を示す図であり、(A)は症状から候補となる対処知識の情報を検索する例を示す図であり、(B)は症状と原因からレイヤの生起確率の情報を検索する例を示す図である。
図10の(A)に示すように、症状「サーバ起動不可」が入力されたとき、第2データベース30からトラブル対処知識IDがSympton-001の1つの候補となる対処知識が検索され、症状「ソフトウェア接続の切断」が入力されたとき、第2データベース30からトラブル対処知識IDがSympton-002〜Sympton-005の4つの候補となる対処知識が検索される。また、図10の(A)に示す表は第1記憶部14に格納される。
図10の(B)に示すように、症状「サーバ起動不可」が入力されたとき、第2データベース30から原因となるレイヤ「ハードウェア構成」が1つ検索され、症状「ソフトウェア接続の切断」が入力されたとき、第2データベース30から原因となるレイヤ「ハードウェア構成」が1つ、「ネットワーク構成」が2つ、「ソフトウェア構成」が1つ検索される。また、図10の(B)に示す表は第3記憶部18に格納される。
症状「サーバ起動不可」に対しては原因となるレイヤは1つであるので生起確率は1.00となり、症状「ソフトウェア接続の切断」に対しては原因となるレイヤは4つであるので、レイヤ「ハードウェア構成」の生起確率が0.25、レイヤ「ネットワーク構成」の生起確率が0.5、レイヤ「ソフトウェア構成」の生起確率が0.25となる。
図11は症状と対処の構成の類似度を算出する具体例を示す図であり、(A)はトラブルが発生した環境における構成のマトリクスを算出する例を示す図であり、(B)は対処知識と関連付けられた構成のシステムIDから導かれるマトリクスとの類似度を算出する例を示す図である。
図11の(A)に示すマトリクスは図9の(B)に示すマトリクスにおいてSvr-a=0でSvr-f=0、Svr-f=0でSvr-a=0である点、すなわちSvr-aとSvr-fとが接続されていない点を除き同一であり、図11の(B)に示すマトリクスは図9の(B)に示すマトリクスと同一である。つまり、サーバSvr-a〜Svr-h間の接続関係が同一である。また、図11の(B)はシステムIDがT-db-020でレイヤがネットワーク接続構成の場合のマトリクスを示す。
図11の(A)に示すマトリクスを集団X、図11の(B)に示すマトリクスを集団Yとする。
集団XおよびYの相関係数ρX,Yの算出方法はピアソンの積率相関係数の算出式にしたがって以下の通り求められる。
相関係数ρX,Yは、
ρX,Y=cov (X,Y)/σX・σY
ただし、集団XおよびYの共分散cov(X,Y)は、
cov(X,Y) =(1/n)Σ(XiX)(Yiy)である。
ここで、XおよびYは変数である。
変数XおよびYの標準偏差σx、σyの二乗σx 2、σy 2は、
σx 2=(1/n)Σ(XiX2
および
σy 2=(1/n)Σ(Yiy2
で表される。
ここで、μXおよびμyはそれぞれ母集団X、Yの平均値である。
上記算出方法により図11の(A)に示すマトリクスの集団Xと図11の(B)に示すマトリクスの集団Yから求めた相関係数ρX,Yは0.92884であり、これが集団Xと集団Yの類似度を示す。
図12は症状と対処の機器の数が異なる場合の相関を算出する具体例を示す図であり、(A)は機器の数が少ない方に合わせて相関を求める例を示す図であり、(B)は対処知識と関連付けられた構成のシステムIDから導かれるマトリクスとの相関を求める例を示す図である。また、図12の(B)はシステムIDがT-db-027でレイヤがネットワーク接続構成の場合のマトリクスを示す。
図12の(A)は症状と対処の機器の数が異なる場合、例えば機器10台と機器8台の場合に機器の数が少ない8台の方に合わせて作成された8×8のマトリクスを示し、図12の(B)は図13の(A)に示すマトリクス8×8を7×7のマトリクスに変換した例を示す。上記算出方法により図12の(A)に示すマトリクスと図12の(B)に示すマトリクスから求めた相関係数ρX,Y、すなわち類似度は、0.90830である。
図13は得点算出の具体例を示す図である。図13に示す表において、左から順の各列にトラブル対処知識ID、症状、システムID、対処、レイヤ、類似度(相関係数)、生起確率、得点(スコア)および提示順序の各データが示されている。
図13は4つのトラブル対処知識IDであるSympton-002〜Sympton-005の各々に対し、図10の(B)に示す症状「ソフトウェア接続の切断」と原因となるレイヤ「ソフトウェア構成」、「ネットワーク接続構成」、「物理接続構成」、「ハードウェア構成」および「システムの機器構成」とから検索したレイヤの生起確率に加えて類似度および類似度と生起確率の積として算出される得点(スコア)を合わせてレイヤ毎に提示する表を示す。また、提示順序は得点の高い順に順位付けして提示する。
図13の表からトラブル対処知識IDがSympton-002〜Sympton-005のそれぞれに対し得点を検索し、最も得点の高いSympton-002を選択したときの対処方法が画面500の右下のウィンドウに表示されている。従来は「得点」を表示しないので、どの対処方法からトラブル解決を始めてよいか判らなかったが、本実施形態によれば「得点」の高い順にトラブル対処候補が表示されるので、トラブル解決の時間短縮を図ることができる。
図14は提示の一実施例を示す図である。図14に示す画面500の左上のウィンドウ510にはシステムと症状を入力する領域が示されている。画面500の右下のウィンドウ520には検索結果が示されている。
以上の実施形態の説明において「提示」すると記したが、これはITシステム運用の担当者が自身のコンピュータを用いて「確認のために示す」という意味であり、具体的には「ディスプレイに表示する」か「プリンタでプリントアウトする」ことである。

Claims (12)

  1. ITシステムのトラブルの症状を入力すると該症状に対する対処を出力するトラブル対処システムにおいて、
    前記ITシステムの構成情報を集めた第1データベースと、
    前記トラブルの症状と該症状を解決する対処を含むトラブル事例を集めた第2データベースと、
    前記第1データベースと前記第2データベースとから前記構成情報をキーにトラブル事例の構成情報を導出して格納する第1記憶部と、
    入力されたトラブルを発生したITシステムの構成情報と前記トラブル事例の構成情報との間の類似度を算出する構成情報類似度算出部と、
    前記トラブルを発生したITシステムに対する対処を前記類似度と共に提示する出力部と、
    を備えたトラブル対処システム。
  2. 前記第1データベースは前記ITシステムのレイヤ毎の構成情報を集めてなる、
    請求項1に記載のトラブル対処システム。
  3. 前記第1データベースと前記第2データベースとから対処をキーにITシステムのトラブル対処知識を導出して格納する第2記憶部と、
    入力部から入力されたトラブルの症状をキーに前記第2記憶部に格納されたトラブル対処知識を検索する対処検索部と、
    前記構成情報類似度算出部により算出された構成情報の類似度に基づき前記対処検索部により検索された対処に順位づけを行う対処提示順序決定部を備えた、
    請求項1または2に記載のトラブル対処システム。
  4. 第2データベースから、トラブルの症状と該トラブルの原因となったレイヤとの症状−レイヤ関連情報を算出し、該症状−レイヤ関連情報内で同一症状を有する各レイヤの生起確率を算出する原因レイヤ算出部と、
    前記症状−レイヤ関連情報を格納する第3記憶部と、を備え、
    前記対処提示順序決定部は、
    前記構成情報類似度算出部により算出された類似度と前記原因レイヤ算出部により算出された生起確率とから前記対処検索部により検索された対処に順位づけを行う、
    請求項2または3に記載のトラブル対処システム。
  5. 前記原因レイヤ算出部は、前記生起確率を、前記症状−レイヤ関連情報内で同一症状を有する各レイヤの該症状発生回数をその総数で除算して求める、
    請求項4に記載のトラブル対処システム。
  6. 前記出力部は、前記類似度と前記生起確率とを乗算して求めた得点を提示する、
    請求項5に記載のトラブル対処システム。
  7. 前記類似度は、
    前記入力されたトラブルを発生したITシステムの構成情報を表現する第1マトリクスと前記トラブル事例の構成情報のうち対処に関連付けられた構成情報を表現する第2マトリクスとの相関として求められる、
    請求項1乃至6の何れか1項に記載のトラブル対処システム。
  8. 前記相関は、ピアソンの積率相関係数の算出式を用いて求められる、
    請求項7に記載のトラブル対処システム。
  9. ITシステムのトラブルの症状を入力すると該症状に対する対処を出力するトラブル対処方法において、
    前記ITシステムの構成情報を集めた第1データベースを作成する第1ステップと、
    前記トラブルの症状と該症状を解決する対処を含むトラブル事例を集めた第2データベースを作成する第2ステップと、
    前記第1データベースと前記第2データベースとから前記構成情報をキーにトラブル事例の構成情報を導出して第2記憶部に格納する第3ステップと、
    入力されたトラブルを発生したITシステムの構成情報と前記トラブル事例の構成情報との間の構成情報類似度を算出する第4ステップと、
    前記トラブルを発生したITシステムに対する対処を前記類似度と共に提示する第5ステップと、
    を備えたトラブル対処方法。
  10. 前記第1データベースと前記第2データベースとから対処をキーにITシステムのトラブル対処知識を導出して第2記憶部に格納する第6ステップと、
    入力部から入力されたトラブルの症状をキーに前記第2記憶部に格納されたトラブル対処知識を検索する第7ステップと、
    前記第4ステップで算出された構成情報の類似度に基づき前記第7ステップで検索された対処に順位づけを行う第8ステップと、
    第2データベースから、トラブルの症状と該トラブルの原因となったレイヤとの症状−レイヤ関連情報を算出し、該症状−レイヤ関連情報内で同一症状を有する各レイヤの生起確率を算出する第9ステップと、
    前記症状−レイヤ関連情報を第3記憶部に格納する第10ステップと、を備え、
    前記第8ステップは、
    前記第4ステップで算出された類似度と前記第9ステップで算出された生起確率とから前記第7ステップで検索された対処に順位づけを行う、
    請求項9に記載のトラブル対処方法。
  11. ITシステムのトラブルの症状を入力すると該症状に対する対処を出力するトラブル対処方法をコンピュータに実行させるプログラムにおいて、
    前記ITシステムの構成情報を集めた第1データベースを作成する第1ステップと、
    前記トラブルの症状と該症状を解決する対処を含むトラブル事例を集めた第2データベースを作成する第2ステップと、
    前記第1データベースと前記第2データベースとから前記構成情報をキーにトラブル事例の構成情報を導出して第2記憶部に格納する第3ステップと、
    入力されたトラブルを発生したITシステムの構成情報と前記トラブル事例の構成情報との間の構成情報類似度を算出する第4ステップと、
    前記トラブルを発生したITシステムに対する対処を前記類似度と共に提示する第5ステップと、
    をコンピュータに実行させるトラブル対処プログラム。
  12. 前記第1データベースと前記第2データベースとから対処をキーにITシステムのトラブル対処知識を導出して第2記憶部に格納する第6ステップと、
    入力部から入力されたトラブルの症状をキーに前記第2記憶部に格納されたトラブル対処知識を検索する第7ステップと、
    前記第4ステップで算出された構成情報の類似度に基づき前記第7ステップで検索された対処に順位づけを行う第8ステップと、
    第2データベースから、トラブルの症状と該トラブルの原因となったレイヤとの症状−レイヤ関連情報を算出し、該症状−レイヤ関連情報内で同一症状を有する各レイヤの生起確率を算出する第9ステップと、
    前記症状−レイヤ関連情報を第3記憶部に格納する第10ステップと、
    をコンピュータに実行させ、かつ
    前記第8ステップにおいて、前記第4ステップで算出された類似度と前記第9ステップで算出された生起確率とから前記第7ステップで検索された対処に順位づけを行うようにコンピュータに実行させる請求項11に記載のトラブル対処プログラム。
JP2010505184A 2008-03-31 2008-03-31 トラブル対処システム、方法およびそのためのプログラム Expired - Fee Related JP5141762B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/056397 WO2009122525A1 (ja) 2008-03-31 2008-03-31 トラブル対処システム、方法およびそのためのプログラム

Publications (2)

Publication Number Publication Date
JPWO2009122525A1 true JPWO2009122525A1 (ja) 2011-07-28
JP5141762B2 JP5141762B2 (ja) 2013-02-13

Family

ID=41134946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010505184A Expired - Fee Related JP5141762B2 (ja) 2008-03-31 2008-03-31 トラブル対処システム、方法およびそのためのプログラム

Country Status (3)

Country Link
US (1) US8171344B2 (ja)
JP (1) JP5141762B2 (ja)
WO (1) WO2009122525A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5439775B2 (ja) * 2008-09-17 2014-03-12 富士通株式会社 障害対応プログラム、障害対応装置、及び障害対応システム
US8381038B2 (en) * 2009-05-26 2013-02-19 Hitachi, Ltd. Management server and management system
US8635337B2 (en) * 2011-08-18 2014-01-21 Honeywell International Inc. System and method of troubleshooting
JP5849824B2 (ja) * 2012-03-29 2016-02-03 富士通株式会社 システム調達支援方法、装置及びプログラム
US9372786B1 (en) * 2012-06-13 2016-06-21 Amazon Technologies, Inc. Constructing state-transition functions for mobile devices
JP6024448B2 (ja) * 2012-12-26 2016-11-16 富士通株式会社 情報処理プログラム、情報処理方法及び装置
WO2014103071A1 (ja) * 2012-12-28 2014-07-03 富士通株式会社 対処方法作成プログラム、対処方法作成方法、及び情報処理装置
JP6041727B2 (ja) * 2013-03-26 2016-12-14 株式会社富士通エフサス 管理装置、管理方法及び管理プログラム
US9619311B2 (en) * 2013-11-26 2017-04-11 International Business Machines Corporation Error identification and handling in storage area networks
JP6387777B2 (ja) * 2014-06-13 2018-09-12 富士通株式会社 評価プログラム、評価方法、および評価装置
JP6488680B2 (ja) * 2014-12-04 2019-03-27 富士電機株式会社 省エネ対策事例提供システム、そのプログラム
US9742625B2 (en) * 2015-08-12 2017-08-22 Servicenow, Inc. Automated electronic computing and communication system event analysis and management
JP6528669B2 (ja) * 2015-12-14 2019-06-12 富士通株式会社 予兆検知プログラム、装置、及び方法
JP6579995B2 (ja) * 2016-04-26 2019-09-25 三菱電機株式会社 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム
JP6798181B2 (ja) * 2016-08-01 2020-12-09 富士ゼロックス株式会社 障害解消支援サーバ装置及びシステム並びにプログラム
JP2019086930A (ja) * 2017-11-06 2019-06-06 富士通株式会社 インシデント検索プログラム、インシデント検索方法およびインシデント検索装置
US10693745B2 (en) 2018-02-27 2020-06-23 Servicenow, Inc. Defining and enforcing operational associations between configuration item classes in managed networks
US10225160B1 (en) * 2018-02-27 2019-03-05 Servicenow, Inc. Defining and enforcing operational associations between configuration item classes in managed networks
WO2019221461A1 (ko) * 2018-05-18 2019-11-21 주식회사 케이티 네트워크 장애 원인 분석 장치 및 방법
JP2020135007A (ja) * 2019-02-13 2020-08-31 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
US20230073643A1 (en) * 2021-09-03 2023-03-09 Sap Se Predicting Events Based On Time Series Data
JP7457743B2 (ja) 2022-03-22 2024-03-28 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、プログラム及び記録媒体

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2249398B (en) * 1990-09-08 1995-04-19 Genrad Ltd Fault identification system
WO1992020026A1 (en) * 1991-05-03 1992-11-12 Storage Technology Corporation Knowledge based resource management
JP2952124B2 (ja) * 1992-11-25 1999-09-20 富士写真フイルム株式会社 写真処理機の故障診断システム
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6076083A (en) * 1995-08-20 2000-06-13 Baker; Michelle Diagnostic system utilizing a Bayesian network model having link weights updated experimentally
US5799148A (en) * 1996-12-23 1998-08-25 General Electric Company System and method for estimating a measure of confidence in a match generated from a case-based reasoning system
US5944839A (en) * 1997-03-19 1999-08-31 Symantec Corporation System and method for automatically maintaining a computer system
JPH11219213A (ja) * 1998-02-03 1999-08-10 Hitachi Ltd 故障解析方法および装置
US6473659B1 (en) * 1998-04-10 2002-10-29 General Electric Company System and method for integrating a plurality of diagnostic related information
US7146536B2 (en) * 2000-08-04 2006-12-05 Sun Microsystems, Inc. Fact collection for product knowledge management
JP2003179601A (ja) 2001-12-10 2003-06-27 Hitachi Ltd 伝送ネットワークシステム、伝送ネットワーク監視システム、および、故障点診断方法
US6918055B2 (en) * 2002-03-26 2005-07-12 Sun Microsystems, Inc. Service operations on a computer system
US20040019672A1 (en) * 2002-04-10 2004-01-29 Saumitra Das Method and system for managing computer systems
US7133866B2 (en) * 2002-10-02 2006-11-07 Hewlett-Packard Development Company, L.P. Method and apparatus for matching customer symptoms with a database of content solutions
EP1416439A1 (en) * 2002-10-31 2004-05-06 Sap Ag Identifying solutions to computer problems by expert system using contexts and distinguishing versions
US7137041B2 (en) * 2003-06-20 2006-11-14 International Business Machines Corporation Methods, systems and computer program products for resolving problems in an application program utilizing a situational representation of component status
US7409593B2 (en) * 2003-06-30 2008-08-05 At&T Delaware Intellectual Property, Inc. Automated diagnosis for computer networks
JP4728565B2 (ja) * 2003-07-16 2011-07-20 日本電気株式会社 障害復旧装置および障害復旧方法ならびにプログラム
US7089250B2 (en) * 2003-10-08 2006-08-08 International Business Machines Corporation Method and system for associating events
US20050097396A1 (en) * 2003-10-20 2005-05-05 International Business Machines Corporation System and method for root cause linking of trouble tickets
US7328376B2 (en) * 2003-10-31 2008-02-05 Sun Microsystems, Inc. Error reporting to diagnostic engines based on their diagnostic capabilities
US7031879B1 (en) * 2004-02-10 2006-04-18 Unisys Corporation System and method for determining dependencies between system resource performance characteristics
JP4445300B2 (ja) * 2004-03-18 2010-04-07 富士通株式会社 ネットワーク障害推定方法及びネットワーク障害推定装置
EP1607866A1 (en) * 2004-06-15 2005-12-21 Hewlett-Packard Development Company, L.P. System and method for remote computer support service with solution function updates
US7379846B1 (en) * 2004-06-29 2008-05-27 Sun Microsystems, Inc. System and method for automated problem diagnosis
US7389444B2 (en) * 2004-07-27 2008-06-17 Microsoft Corporation Method and system for troubleshooting a misconfiguration of a computer system based on product support services information
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
JP2006099249A (ja) * 2004-09-28 2006-04-13 Fujitsu Ltd 障害管理装置および障害管理方法
US7954090B1 (en) * 2004-12-21 2011-05-31 Zenprise, Inc. Systems and methods for detecting behavioral features of software application deployments for automated deployment management
DE602005004886T2 (de) * 2005-01-26 2009-02-19 Oce-Technologies B.V. Automatische Leistungsanalyse und Fehlerbeseitigung
JP4519044B2 (ja) * 2005-09-27 2010-08-04 株式会社日立製作所 遠隔保守診断システム及び遠隔保守診断方法
US7500142B1 (en) * 2005-12-20 2009-03-03 International Business Machines Corporation Preliminary classification of events to facilitate cause-based analysis
US7523349B2 (en) * 2006-08-25 2009-04-21 Accenture Global Services Gmbh Data visualization for diagnosing computing systems
US7529974B2 (en) * 2006-11-30 2009-05-05 Microsoft Corporation Grouping failures to infer common causes
WO2008114863A1 (ja) * 2007-03-22 2008-09-25 Nec Corporation 診断装置

Also Published As

Publication number Publication date
JP5141762B2 (ja) 2013-02-13
US8171344B2 (en) 2012-05-01
US20110016355A1 (en) 2011-01-20
WO2009122525A1 (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
JP5141762B2 (ja) トラブル対処システム、方法およびそのためのプログラム
CN110288004B (zh) 一种基于日志语义挖掘的系统故障诊断方法及装置
US9632861B1 (en) Computer-implemented method, system, and storage medium
JP5274652B2 (ja) 原因分析構成変更のための方法および装置
US9652318B2 (en) System and method for automatically managing fault events of data center
US20120278663A1 (en) Operation management apparatus, operation management method, and program storage medium
WO2014196129A1 (ja) 障害分析装置、障害分析方法、および、記録媒体
JP2005346331A (ja) 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
CN104903866A (zh) 对事件根本原因的分析予以支援的管理系统以及方法
US10248517B2 (en) Computer-implemented method, information processing device, and recording medium
JPWO2012127588A1 (ja) 対処支援プログラム、対処支援装置および対処支援方法
JP6280862B2 (ja) イベント分析システムおよび方法
CN106294076A (zh) 一种服务器关联故障预测方法及其系统
JP2021099582A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2011134094A (ja) トラブル対処プログラム及びトラブル対処方法
EP2862101A1 (en) Method and a consistency checker for finding data inconsistencies in a data repository
JP5417264B2 (ja) 分析情報提供方法
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP5395719B2 (ja) 障害原因解析システムにおけるルール生成装置及びそのプログラム
JP5803246B2 (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
JP2011186706A (ja) 情報処理装置、情報処理方法およびプログラム
CN113296994B (zh) 一种基于国产计算平台的故障诊断系统及方法
US9684556B2 (en) Method and apparatus for a self-adjusting calibrator
JP2003085003A (ja) 障害復旧援助方法、及び、障害復旧援助システム
JP7377670B2 (ja) プラント運転支援システム、プラント運転支援方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141762

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees