JPWO2014097598A1 - リスク分析を行う情報処理装置及びリスク分析方法 - Google Patents

リスク分析を行う情報処理装置及びリスク分析方法 Download PDF

Info

Publication number
JPWO2014097598A1
JPWO2014097598A1 JP2014552925A JP2014552925A JPWO2014097598A1 JP WO2014097598 A1 JPWO2014097598 A1 JP WO2014097598A1 JP 2014552925 A JP2014552925 A JP 2014552925A JP 2014552925 A JP2014552925 A JP 2014552925A JP WO2014097598 A1 JPWO2014097598 A1 JP WO2014097598A1
Authority
JP
Japan
Prior art keywords
risk
service
risk factor
component
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014552925A
Other languages
English (en)
Inventor
義晴 前野
義晴 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014097598A1 publication Critical patent/JPWO2014097598A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本発明は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示する情報処理装置を提供する。その情報処理装置は、リスク要因を持つ構成要素とその構成要素の状態に影響を受ける他の構成要素との関係を示す情報、リスク要因のそれぞれの特性を示す情報、及びサービスとそれらの構成要素との対応を示す情報とに基づいて、それらのサービスのそれぞれへの、それらのリスク要因のそれぞれに対応する、サービス影響度を算出する手段と、算出したサービス影響度に基づいて特定のリスク要因と他のリスク要因との間の類似性を算出し、算出した類似性に基づいて、構成要素識別情報の集合を生成し、出力する手段と、を備える。

Description

本発明は、システムのリスク分析を行う情報処理装置、リスク分析方法及びそのためのプログラムに関する。
システムのリスクを分析する様々な技術及びその関連技術が知られている。
例えば、可用性予測モデルを管理するシステムに係わる技術が知られている。可用性予測モデルは、「可用性を算出、検証、分析するための数学的なモデル」、計算式、パラメータ及び「システムの構成や挙動に関連する様々な情報」を含む。可用性予測の基本機能は、システム全体の稼働率を予測する機能である。
特に、ハードウェアについては、フォールトツリー(Fault tree)などの数学的なモデルを用いて部品の特性からシステム全体の故障の可能性を分析する方法が広く知られている。一方、ソフトウェアについては、数学的なモデルで状態の遷移を記述し、シミュレーションで遷移を再現して可用性を分析する手法が用いられることが多い。その数学的なモデルは、例えば、確率的ペトリネット(Stochastic Petri Network)や確率的報酬ネット(Stochastic reward network)などである。
可用性(Availability)は、ある一定期間のうち、利用者がサービスを利用できる割合を表す。その可用性は、稼働率と同義で用いられる。例えば、1日のうち平均的に1分だけ利用できない時間帯がある場合の可用性は、1−1÷(24×60)=0.9993(99.93%)となる。一般に、可用性は、障害が発生する時間間隔(平均故障間隔:MTBF(Mean Time Between Failure))と、障害が復旧するまでの時間(平均復旧時間:MTTR(Mean Time To Repair))とから決定される。
確率的ペトリネットや確率的報酬ネットの技術を用いて、可用性予測モデルから可用性の算出や検証を行う一例を説明する。
図17は、情報システムの状態遷移を定義する確率的ペトリネットの一例を示す。その情報システムの構成は、アプリケーションAP1が仮想サーバVM1上で稼働し、仮想サーバVM1が物理サーバPS1上で稼働しているものとする。仮想サーバは仮想マシンとも呼ばれる。以後、仮想サーバ(仮想マシン)をVM(Virtual Machine)とも表記する。尚、その仮想サーバは、ハイパーバイザではなく、利用者に割り当てられて利用者がアクセスできる一般の仮想サーバ、つまり、ユーザVMのことである。ここで、ハイパーバイザは、データセンタ管理者のみがアクセスできる仮想サーバの制御プログラムを指す。物理サーバPS1は、そこで仮想サーバVM1が実行されている、物理的なコンピュータである。
図17に示す確率的ペトリネットにおいて、定義された状態のそれぞれは、角丸四角形の箱で表される。
例えば、正常に運転している状態を示す「物理サーバPS1稼働中」、「仮想サーバVM1稼働中」及び「アプリケーションAP1稼働中」のそれぞれの状態が、定義されている。また、何らかの障害が発生している状態を示す「物理サーバPS1停止中」、「仮想サーバVM1停止中」及び「アプリケーションAP1停止中」のそれぞれの状態が、定義されている。
また、その確率的ペトリネットにおいて、定義された遷移のそれぞれは、遷移を引き起こす事象及びその遷移の遷移確率を示す長方形の黒く塗りつぶした箱と、遷移の方向を示す矢印とで表される。
図17に示す確率的ペトリネットでは、TC671は、以下を示す。第1に、その物理サーバPS1が稼働中の場合には故障率λVM1の確率で、「仮想サーバVM1稼働中」の状態から「仮想サーバVM1停止中」の状態へ遷移が起こることが定義されている。第2に、物理サーバPS1が停止中の場合には「1」の確率で、「仮想サーバVM1稼働中」の状態から「仮想サーバVM1停止中」の状態へ遷移が起こることが定義されている。
また、その確率的ペトリネットでは、TC672は、以下を示す。第1に、物理サーバPS1が稼動中の場合には復旧率μVM1の確率で、「仮想サーバVM1停止中」の状態から「仮想サーバVM1稼働中」の状態へ遷移が起こることが定義されている。第2に、物理サーバPS1が停止中の場合には「0」の確率で、「仮想サーバVM1停止中」の状態から「仮想サーバVM1稼働中」の状態へ遷移が起こることが定義されている。
また、その確率的ペトリネットでは、TC673は、以下を示す。第1に、仮想サーバVM1が稼働中の場合には故障率λAP1の確率で、「アプリケーションAP1稼働中」の状態から「アプリケーションAP1停止中」の状態へ遷移が起こることが定義されている。第2に、仮想サーバVM1が停止中の場合には「1」の確率で、「アプリケーションAP1稼働中」の状態から「アプリケーションAP1停止中」の状態へ遷移が起こることが定義されている。
また、その確率的ペトリネットでは、TC674は、以下を示す。第1に、仮想サーバVM1が稼動中の場合には復旧率μAP1の確率で、「アプリケーションAP1停止中」の状態から「アプリケーションAP1稼働中」の状態へ遷移が起こることが定義されている。第2に、仮想サーバVM1が停止中の場合には「0」の確率で、「アプリケーションAP1停止中」の状態から「アプリケーションAP1稼働中」の状態へ遷移が起こることが定義されている。
このような確率的ペトリネットに基づいてシミュレーションを行うことにより、システムの可用性を分析することができる。例えば、充分な時間が経過した後に、「アプリケーション停止中」の状態に遷移している確率から、可用性の値を算出することができる。尚、単純には「アプリケーション停止中」の状態を障害とみなすが、一般的には、可用性の値は障害または稼動の定義に依存して変わる。一般的に、確率的ペトリネットに記述される各状態や各遷移は、データセンタ管理者がサーバインフラの特性とそのサーバインフラに関わるデータセンタ運用手順までを加味した上で、そのデータセンタ管理者によってひとつひとつ作成される。そのため、運用手順に応じて、様々な可用性予測モデルが作成される。
このように作成される可用性予測モデルを管理する様々な方法が提案されている。例えば、特許文献1は、可用性予測モデルを管理するシステムに係わる技術の一例を開示する。特許文献1の方法は、システムを構成する構成要素の特性と、監視情報とに基づいて、システム全体の稼働率を予測する方法を開示する。ここで、その特性は、システムを構成する個々のコンピュータにおいて、障害が発生する割合や障害の修復に掛かる時間などである。また、その監視情報は、そのシステムの稼働中の障害に関する情報である。
特許文献2は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献2の方法は、ソフトウェア及びハードウェアに係わるシステム構成情報に基づいて、故障の判定を行うためのフォールトツリー(Fault Tree)を合成する。そして、その方法は、そのソフトウェア及びそのハードウェアに係わる故障情報を分析した結果に基づいて故障モードに対応する不稼働率を算出する。次に、その方法は、そのフォールトツリーとその不稼働率とに基づいて、システム稼働率を算出する。次に、その方法は、算出したシステム稼働率が基準値を満たしているかどうかを判定する。更に、その方法は、その判定結果に基づいて、システム稼働率の上昇に関係する基本事象を抽出する。次に、その方法は、抽出した基本事象の不稼働率の低下が可能か否かに基づいて、新たな不稼働率等の再設定処理を行う。
特許文献3は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献3の方法は、可用性をはじめとして、機能、構成、セキュリティ、性能等に関する情報をアプリケーションプログラムやアプリケーションサービスのインストール時にメタデータとして登録しておく。そして、その方法は、その後の構成管理、障害検出、診断、復旧などの分析に、そのメタデータを用いる。
特許文献4は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献4の方法は、故障が起こるたびに、故障が継続した時間と故障によりサービスを利用できなかった利用者数を記憶する。そして、その方法は、これらのデータを蓄積し、故障時間の割合、利用者1人あたりの故障を被った割合、及び実績不稼働率などを算出する。
特許文献5は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献5の方法は、システム構成情報に基づいて、リソースを利用するサービスを特定し、その特定したサービスにおいて、そのリソースと同一の機能を有する同等リソースを特定する。次に、その方法は、その同等リソースの状態及びその数に基づいて、そのリソースがサービスに及ぼす影響度を算出する。次に、その方法は、そのサービスの重要度及び算出した影響度に基づいて、そのリソースの優先度を算出する。尚、そのシステム構成情報は、各リソースの機能、その稼動状態、各サービスが利用するリソース及びサービスにおけるリソース間の関係を定義した情報である。
特許文献6は、特定の仮想資源を提供している物理資源を発見する技術の、一例を開示する。特許文献6の方法は、環境センサーにより出力されたセンサデータを受け取る。ここで、そのセンサデータは、物理資源の動作に関連するプロパティ値の変化を表すデータである。次に、その方法は、そのセンサデータからパターンを抽出する。次に、その方法は、そのパターンを、特定の仮想資源から生成されたことが既知である識別子パターンと比較し、それらの一致が発見された場合に、その物理資源が特定の仮想資源を提供するために利用されていることを検出する。
特表2008−532170号公報 特開2006−127464号公報 特表2007−509404号公報 特開2005−080104号公報 特開2008−217285号公報 特開2012−094129号公報
しかしながら、上述した特許文献に記載された技術においては、サービスを提供するシステムにおいて、そのサービスの可用性を向上させるために同時に取り除くのが望ましい複数のリスク要因を、適切に提示することができないという問題点がある。
その同時に取り除くのが望ましい複数のリスク要因を適切に提示することができない理由は、上述の特許文献が開示する技術のいずれも、以下の手段を備えていないからである。その手段は、そのサービスの実行に対して複数のリスク要因のそれぞれが与える影響の関連性に基づいて、複数のリスク要因を提示する手段である。
具体的には、サービスを提供するシステムに複数のリスク要因が内在する場合、そのシステムにおけるそのサービスの可用性を改善するためには、そのサービスの実行に係るリスク要因を、全て或いは可能な範囲で、同時に取り除く必要がある。
例えば、あるサービスは、ある物理サーバ上のある仮想サーバで動作するあるアプリケーションプログラムによって実行される。そのような場合、その物理サーバに関しては、機器の冗長化や信頼性の高い別の機器との交換を行って実質的にリスク要因を取り除くことができる。一方、その仮想サーバやそのアプリケーションプログラムにもリスク要因は内在する。従って、そのサービスに対する可用性を改善するためには、これらのリスク要因も取り除かれることが望ましい。
しかし、上述の特許文献に記載された技術は、それらの複数のリスク要因を適切に抽出し、提示する手段を備えていない。
本発明の目的は、上述した問題点を解決するリスク分析装置、リスク分析方法及びそのためのプログラムを提供することにある。
本発明の一様態におけるリスク分析装置は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出手段と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成手段と、を含む。
本発明の一様態におけるリスク分析方法は、コンピュータが、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する。
本発明の一様態におけるコンピュータ読み取り可能な不揮発性非一時的記録媒体は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、をコンピュータに実行させるプログラムを記録する。
本発明は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示することが可能になるという効果がある。
図1は、本発明の第1の実施形態に係るリスク分析装置の構成を示すブロック図である。 図2は、第1の実施形態におけるリスク分析の対象となるシステムの構成の一例を示す図である。 図3は、第1の実施形態における管理記憶部を含むリスク分析装置の構成を示すブロック図である。 図4は、第1の実施形態におけるリスク要因影響管理表の一例を示す図である。 図5は、第1の実施形態における構成要素特性管理表の一例を示す図である。 図6は、第1の実施形態におけるサービス管理表の一例を示す図である。 図7は、第1の実施形態に係るリスク分析装置を実現するコンピュータのハードウェア構成を示すブロック図である。 図8は、第1の実施形態におけるリスク分析装置の動作を示すフローチャートである。 図9は、第1の実施形態におけるアプリケーション影響度の算出結果の一例である。 図10は、第1の実施形態におけるサービス影響度の算出結果の一例である。 図11は、第1の実施形態における類似性の指標である距離の算出結果の一例である。 図12は、本発明の第2の実施形態に係るリスク分析装置の構成を示すブロック図である。 図13は、第2の実施形態におけるサービス管理表の一例を示す図である。 図14は、その必須度でサービス影響度を重み付けし、総合影響度を算出した場合の例を示す図である。 図15は、本発明の第3の実施形態に係るリスク分析装置の構成を示すブロック図である。 図16は、第3の実施形態におけるリスク要因影響管理表の一例を示す図である。 図17は、確率的ペトリネットの一例を示す図である。
本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施の形態において、同様の機能を備える構成要素には同様の符号が与えられている。
<<<第1の実施形態>>>
図1は、本発明の第1の実施形態に係るリスク分析装置100の構成を示すブロック図である。
図1を参照すると、本実施形態に係るリスク分析装置100は、影響度算出部110と、リスクグループ生成部120とを含む。
図2は、本実施形態におけるリスク分析の対象となる、システムの構成の一例を示す図である。
図2に示すシステムは、物理サーバ(PS1)と物理サーバ(PS2)とを備える。物理サーバ(PS1)には、仮想サーバ(VM1)と仮想サーバ(VM2)とが配置されている。物理サーバ(PS2)には、仮想サーバ(VM3)と仮想サーバ(VM4)とが配置されている。仮想サーバ(VM1)上では、アプリケーションプログラム(AP1)が動作する。仮想サーバ(VM2)上では、アプリケーションプログラム(AP2)とアプリケーションプログラム(AP3)とが動作する。仮想サーバ(VM3)上では、アプリケーションプログラム(AP4)が動作する。仮想サーバ(VM4)上では、アプリケーションプログラム(AP5)とアプリケーションプログラム(AP6)とが動作する。ここで、()内は、それらの構成要素の、それぞれの識別子を示す。以後、()を省略して、例えば「物理サーバPS1」のように記載する。
図2に示すシステムにおいては、物理サーバPS1、物理サーバPS2、仮想サーバVM1、仮想サーバVM2、仮想サーバVM3及び仮想サーバVM4のそれぞれにリスク要因が内在する。また、そのシステムにおいては、アプリケーションAP1、アプリケーションAP2、アプリケーションAP3、アプリケーションAP4、アプリケーションAP5及びアプリケーションAP6のそれぞれにもリスク要因が内在する。
図2に示すシステムは、アプリケーションAP1とアプリケーションAP4とを利用して、サービスSV1を提供する。また、そのシステムは、アプリケーションAP1とアプリケーションAP2とアプリケーションAP3とを利用して、サービスSV2を提供する。更に、そのシステムは、アプリケーションAP4とアプリケーションAP5とアプリケーションAP6とを利用して、サービスSV3を提供する。
次に、第1の実施形態におけるリスク分析装置100が含む各構成要素について説明する。尚、図1に示す構成要素は、ハードウェア単位の構成要素でも、コンピュータ装置の機能単位に分割された構成要素でもよい。ここでは、図1に示す構成要素は、コンピュータ装置の機能単位に分割された構成要素として説明する。
===影響度算出部110===
影響度算出部110は、リスク要因影響情報、構成要素特性情報、及びサービス情報に基づいて、システムが提供するサービスのそれぞれへの、そのシステムに内在するリスク要因のそれぞれに対応する影響度(以後、サービス影響度と呼ぶ)を算出する。そのシステムは、例えば、図2に示すシステムである。
尚、影響度算出部110は、例えば、外部の図示しないデータベースに格納された、リスク要因影響情報、構成要素特性情報、及びサービス情報を取得してもよい。
そのリスク要因影響情報は、そのサービスを提供するシステムに含まれる、第1の構成要素と第2の構成要素との関係を示す情報である。その第1の構成要素は、そのリスク要因を持つ構成要素である。その第2の構成要素は、その第1の構成要素の状態(リスク要因に起因する状態)に影響を受ける構成要素である。尚、第2の構成要素は、同時に第1の構成要素であってもよい。
ここで、その「影響」は、例えば「仮想サーバVM1と仮想サーバVM1に影響を受けるアプリケーションAP1との関係」を例とした場合、以下のように定義される。
例えば、図17に示す確率的ペトリネットにおいて、「アプリケーションAP1稼働中」状態から「アプリケーションAP1停止中」状態への遷移が、仮想サーバVM1が稼働中の場合に、故障率λAP1の確率で起こるものとしている。また、その確率的ペトリネットにおいて、「アプリケーションAP1稼働中」状態から「アプリケーションAP1停止中」状態への遷移が、仮想サーバVM1が停止中の場合に、100%の確率で起こるものとしている。
このように、その「影響」は、仮想サーバVM1(第1の構成要素)の状態(稼働中/停止中)に応じて、アプリケーションAP1(第2の構成要素)の状態が異なるという「影響」である。そして、仮想サーバVM1の状態(稼働中/停止中)は、仮想サーバVM1の持つリスク要因に起因する状態である。
その構成要素特性情報は、それらの第1の構成要素のそれぞれが含むリスク要因の特性を示す情報である。
ここで、そのリスク要因の特性は、各構成要素の故障及び復旧に関する理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数及び復旧成功数などである。或いは、そのリスク要因特性は、それらの値を任意に組み合わせて算出する値であってもよい。
例えば、「構成要素の故障率」及び「構成要素の復旧率」は、0から1までの連続な実数値をとる。これらの値は、確率的ペトリネットを応用した可用性予測モデルの状態遷移確率に用いる値(λAP1、λVM1とμAP1、μVM1)と、同じ値(故障率λと復旧率μ)が利用されてよい。
また、そのサービス情報は、システムが提供するサービスと上述の第2の構成要素との対応を示す情報である。
===リスクグループ生成部120===
リスクグループ生成部120は、影響度算出部110が算出したサービス影響度に基づいて、リスク要因間の類似性を算出する。そして、リスクグループ生成部120は、その類似性に基づいて選択したリスク要因に対応する、構成要素を示す識別情報の集合を出力する。以後、「リスクグループ生成部120が選択したリスク要因に対応する、構成要素を含む識別情報の集合」を「リスク要因グループ」と呼ぶ。
具体的には、リスクグループ生成部120は、影響度算出部110が算出したサービス影響度に基づいて、特定のリスク要因と他のリスク要因の類似性を示す値を算出する。その類似性は、それらのリスク要因のそれぞれに対応するサービス影響度に基づいて算出される距離である。
次に、リスクグループ生成部120は、それらの類似性に基づいて、所定の閾値を満たすリスク要因を選択する。所定の閾値は、例えば、特定の距離を示す値であってよい。続けて、リスクグループ生成部120は、その選択したリスク要因とその特定のリスク要因とに対応する、構成要素を含む識別情報の集合(リスク要因グループ)を生成し、出力する。換言すると、リスク要因グループは、特定のリスク要因と他のリスク要因との間の類似性に基づいて選択したリスク要因に対応する、構成要素を示す識別情報の集合を少なくとも含む情報であり、その類似性は、サービス影響度に基づいて算出される。
例えば、リスクグループ生成部120は、このリスク要因グループを同時に取り除くべきリスク要因を示すものとして、ディスプレイ(不図示)に表示したり、ファイル(不図示)に出力したりしてよい。
以上が、リスク分析装置100が含む各構成要素についての説明である。
図3は、リスク分析装置101の構成を示す図である。図3に示すように、リスク分析装置101は、リスク分析装置100の構成に加えて、管理表記億部130を更に含む。
===管理表記億部130===
管理表記億部130は、リスク要因影響管理表150、構成要素特性管理表160及びサービス管理表170を記憶する。即ち、リスク分析装置101は、上述のリスク要因影響情報、構成要素特性情報、及びサービス情報の記憶手段を更に含むリスク分析装置100に相当する。
管理表記億部130が保持する各管理表の内容は、図示しないネットワークを経由してリスク分析装置101が読み込んだデータでよい。また、その内容は、人間の管理者によって、図示しない入力手段から直接入力されたデータでもよい。その図示しない手段は、後述の図7に示す入力部704であってよい。
===リスク要因影響管理表150===
図4は、図2に示すシステムに対応するリスク要因影響管理表150の一例を示す図である。リスク要因影響管理表150は、複数のリスク要因影響情報エントリ151を含む。リスク要因影響情報エントリ151は、リスク要因を持つ構成要素のそれぞれの識別子(リスク要因保有構成要素識別子)と、その構成要素から影響を受ける他の構成要素のそれぞれの識別子(被影響構成要素識別子)との組から成る。
例えば、リスク要因影響情報エントリ151の1行目は、物理サーバPS1に内在するリスク要因が仮想サーバVM1及び仮想サーバVM2に影響することを示す。このような、複数の機器(構成要素)の動作に影響を与え、これらの機器(構成要素)に同時に障害を引き起こすことで、ユーザサービスの実行に影響を与える可能性を持つリスク要因は、共有リスク要因とも呼ばれる。但し、本実施形態では、その共有リスク要因を、単にリスク要因とも記載する。
尚、本実施形態では、上述の共通リスク要因を持つ構成要素の識別子を、リスク要因保有構成要素識別子としている。しかし、アプリケーションAPkのような、共通リスク要因でないリスク要因を持つ構成要素の、識別子をリスク要因保有構成要素識別子として含めてもよい。
それらの構成要素が持つリスク要因は、例えば、その構成要素が停止するような、故障や障害によって発生させられる。その構成要素は、例えば、物理サーバ、仮想サーバ或いはルータなどである。更に、その構成要素は、アプリケーションプログラムを機器の一種と捉えて、アプリケーションプログラムであってもよい。また、これらの構成要素の識別子は、「仮想サーバの識別子」、「ルータの識別子」、「アプリケーションプログラムの識別子」など、ひとつひとつの機器(構成要素)を特定できるリソース識別子を使用する。
リスク要因が影響する機器(構成要素)も、物理サーバ、仮想サーバ、ルータ或いは、アプリケーションプログラムなどである。
また、1つの機器が複数のリスク要因を持つ場合、それらのリスク要因のそれぞれを持つ、異なる構成要素が擬似的に定義されてもよい。即ち、本明細書の各実施形態においては、構成要素とリスク要因とが1対1に対応しているように説明している。しかし、各実施形態は、物理的或いは論理的な機器とリスク要因とが1対1に対応するように限定するものではない。
尚、リスク要因影響管理表150は、関係データベース(relational database)にテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、リスク要因影響管理表150は、リスク要因影響管理表150に新しい項目を逐次的に追記すること、及びリスク要因影響管理表150に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
===構成要素特性管理表160===
図5は、図2に示すシステムに対応する構成要素特性管理表160の一例を示す図である。構成要素特性管理表160は、複数の構成要素特性情報エントリ161を含む。構成要素特性情報エントリ161は、リスク要因を持つ構成要素のそれぞれの識別子(リスク要因保有構成要素識別子)と、そのリスク要因の特性(図5では、故障率λ)との組から成る。
図5に示す故障率λは、例えば、確率的ペトリネットを応用した可用性予測モデルの状態遷移確率に用いる故障率λの小数第2位までの値を、整数値に変換したものである。
尚、構成要素特性管理表160は、関係データベースにテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、構成要素特性管理表160は、構成要素特性管理表160に新しい項目を逐次的に追記すること、及び構成要素特性管理表160に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
===サービス管理表170===
図6は、図2に示すシステムに対応するサービス管理表170の一例を示す図である。サービス管理表170は、複数のサービス情報エントリ171を含む。サービス情報エントリ171は、システムが提供するサービスの識別子であるサービス識別子と、それらのサービスのそれぞれに対応する第2の構成要素との組から成る。ここで、第2の構成要素は、例えば、アプリケーションプログラムである。
尚、サービス管理表170は、関係データベースにテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、サービス管理表170は、サービス管理表170に新しい項目を逐次的に追記すること、及びサービス管理表170に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
以上が、リスク分析装置100とリスク分析装置101との機能単位の各構成要素についての説明である。
次に、リスク分析装置100及びリスク分析装置101のハードウェア単位の構成要素について説明する。
図7は、本実施形態におけるリスク分析装置100やリスク分析装置101を実現するコンピュータ700のハードウェア構成を示す図である。
図7に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。コンピュータ700は、プロセッサとも呼ばれる。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体であってもよい。
CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の全体の動作を制御する。また、CPU701は、例えば記憶装置703に装着された記録媒体707から、プログラムやデータを読み込み、読み込んだプログラムやデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図8に示すフローチャートの動作をコンピュータ700に実行させるプログラムである。
そして、CPU701は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1及び図3に示す影響度算出部110及びリスクグループ生成部120として各種の処理を実行する。
尚、CPU701は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部702にプログラムやデータをダウンロードしてもよい。
記憶部702は、プログラムやデータを記憶する。記憶部702は、管理表記億部130を含んでよい。
記憶装置703は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、記録媒体707を含む。記憶装置703(記録媒体707)は、プログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、データを記憶してもよい。記憶装置703は、管理表記億部130を含んでよい。
入力部704は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部704は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルなどでもよい。
出力部705は、例えばディスプレイで実現され、出力を確認するために用いられる。
通信部706は、外部とのインタフェースを実現する。通信部706は、影響度算出部110、リスクグループ生成部120及び管理表記億部130の一部として含まれる。
以上説明したように、図1に示すリスク分析装置100及び図3に示すリスク分析装置101の機能単位のブロックは、図7に示すハードウェア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給され、CPU701は、記録媒体707に格納されたプログラムのコードを読み出して実行するようにしてもよい。或いは、CPU701は、記録媒体707に格納されたプログラムのコードを、記憶部702、記憶装置703またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するプログラム(ソフトウェア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
以上が、本実施形態におけるリスク分析装置100及びリスク分析装置101を実現するコンピュータ700の、ハードウェア単位の各構成要素についての説明である。
次に本実施形態の動作について、図1〜図11を参照して詳細に説明する。
尚、以後の説明において、図2に示す物理サーバPS1及び物理サーバPS2は、物理サーバPSiとも記載する。この場合、iは、1及び2である。仮想サーバVM1、仮想サーバVM2、仮想サーバVM3及び仮想サーバVM4は、仮想サーバVMjとも記載する。この場合、jは、1、2、3及び4である。アプリケーションAP1、アプリケーションAP2、アプリケーションAP3、アプリケーションAP4、アプリケーションAP5及びアプリケーションAP6は、アプリケーションAPkとも記載する。この場合、kは、1、2、3、4、5及び6である。また、サービスSV1、サービスSV2及びサービスSV3は、サービスSVmとも記載する。この場合、mは、1、2及び3である。
図8は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPUによるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
影響度算出部110は、リスク要因影響管理表150と構成要素特性管理表160とに基づいて、アプリケーションAPkのそれぞれに対する、物理サーバPSi及び仮想サーバVMjごとのアプリケーション影響度を算出する(S601)。
影響度算出部110は、物理サーバPSiについては、例えば、以下に示す式1を利用し、アプリケーション影響度(PSi→APk)を算出する。
アプリケーション影響度(PSi→APk)=λPSi+λVMj+λAPk ・・・(式1)
但し、λPSiは、構成要素特性管理表160の物理サーバPSiの故障率λである。
同様に、λVMjは仮想サーバVMjの故障率λであり、λAPkはアプリケーションAPkの故障率である。以下も同様である。
ここで、アプリケーション影響度(PSi→APk)は、物理サーバPSiのリスク要因がアプリケーションAPkの動作に与える影響を示す値である。式1は、物理サーバPSiが仮想サーバVMjに影響を与え、その仮想サーバがアプリケーションAPkに影響を与えるものとして、アプリケーション影響度(PSi→APk)を算出する式である。アプリケーションプログラムが当該物理サーバから影響を受けない場合には、アプリケーション影響度は「0」とする。
影響度算出部110は、いずれの物理サーバPSiが、いずれのアプリケーションAPkに影響を与えるかを、リスク要因影響管理表150を参照することで、判断する。
図4のリスク要因影響管理表150を参照すると、例えば、物理サーバPS1は仮想サーバVM1に影響を与え、仮想サーバVM1はアプリケーションAP1に影響を与える。従って、影響度算出部110は、式1に基づいて、アプリケーション影響度(PS1→AP1)=λPS1+λVM1+λAP1=1+2+3=6を算出する。
また、影響度算出部110は、仮想サーバVMjについては、例えば、以下に示す式2を利用し、アプリケーション影響度(PSi→APk)の場合と同様にして、アプリケーション影響度(VMj→APk)を算出する。
アプリケーション影響度(VMj→APk)=λVMj+λAPk ・・・(式2)
図9は、図2のシステムに対応する「アプリケーション影響度の算出結果」の例を示す図である。図9は、影響度算出部110が、図4に示すリスク要因影響管理表150及び図5に示す構成要素特性管理表160に基づいて、式1及び式2を利用してアプリケーション影響度を算出した結果である。図9において、第1列に示す識別子は、リスク要因保有構成要素識別子であり、第1行に示す識別子は、影響を受けるアプリケーションの識別子である。例えば、第2列の第2行の数値がアプリケーション影響度(PS1→AP1)を示す。
次に、影響度算出部110は、サービス管理表170と算出したアプリケーション影響度とに基づいて、リスク要因保有構成要素識別子に対応するリスク要因ごとにサービス影響度を計算する(S602)。そのサービス影響度は、リスク要因のそれぞれに対応する、サービスSVkのそれぞれへの影響度である。
影響度算出部110は、物理サーバPSiについては、例えば、以下に示す式3を利用し、サービス影響度(PSi→SVm)を算出する。
サービス影響度(PSi→SVm)=Σアプリケーション影響度(PSi→APx) ・・・(式3)
但し、Σは、SVmが使用する全てのアプリケーションAPkについてのアプリケーション影響度(PSi→APx)の総和を示す。
また、影響度算出部110は、仮想サーバVMjについては、例えば、以下に示す式4を利用し、サービス影響度(VMj→SVm)を算出する。
サービス影響度(VMj→SVm)=Σアプリケーション影響度(VMj→APx) ・・・(式4)
但し、Σは、VMj使用する全てのアプリケーションAPkについてのアプリケーション影響度(VMj→APx)の総和を示す。
図10は、影響度算出部110が、図6に示すサービス管理表170及び図9に示すアプリケーション影響度の算出結果に基づいて、式3及び式4を利用して算出した、図2のシステムに対応する「サービス影響度の算出結果」の例を示す図である。図10において、第1列に示す識別子は、リスク要因保有構成要素識別子であり、第2列から第4列の第1行に示す識別子は、影響を受けるサービスの識別子である。例えば、第2列の第2行の数値は、サービス影響度(PS1→SV1)を示す。尚、図10の表の第5列については後述する。
次に、リスクグループ生成部120は、算出したサービス影響度に基づいて、総合影響度を算出する(S603)。
リスクグループ生成部120は、物理サーバPSiについては、例えば、以下に示す式5を利用し、総合影響度(PSi)を算出する。
総合影響度(PSi)=Σサービス影響度(PSi→SVm) ・・・(式5)
但し、Σは、全てのサービスSVmについてのサービス影響度(PSi→SVm)の総和を示す。
また、リスクグループ生成部120は、仮想サーバVMjについては、例えば、以下に示す式6を利用し、総合影響度(VMj)を算出する。
総合影響度(VMj)=Σサービス影響度(VMj→SVm) ・・・(式6)
但し、Σは、全てのサービスSVmについてのサービス影響度(VMj→SVm)の総和を示す。
図10の第5列は、サービス影響度の算出結果に基づいて、リスクグループ生成部120が式5及び式6を利用して算出した総合影響度(PSi)の例を示す。
次に、リスクグループ生成部120は、算出したサービス影響度に基づいて、式7を利用して、総合影響度の最も大きなリスク要因に対する、各リスク要因の距離を算出する(S604)。この場合、「総合影響度の最も大きなリスク要因」が、上述の特定のリスク要因である。
リスクグループ生成部120は、例えば、以下に示す式7を利用し、距離(ij)を算出する。ここで、距離(ij)は、最大のリスク要因に対する、物理サーバPSiまたは仮想サーバVMjのそれぞれに内在する、リスク要因の類似性の評価値である。距離の小さいリスク要因が、類似性の高いリスク要因である。
距離(ij)=Σ{サービス影響度max−サービス影響度(ij)} ・・・(式7)
但し、「サービス影響度max」は、サービス影響度(PSi→SVm)及びサービス影響度(VMj→SVm)の内の、最大のサービス影響度(図10に示す例の場合、物理サーバPS2の「25」)を示す。サービス影響度(ij)は、「サービス影響度max」を除く、サービス影響度(PSi→SVm)及びサービス影響度(VMj→SVm)のそれぞれである。また、Σは、全てのサービスSVmについての{サービス影響度max−サービス影響度(ij)}の総和を示す。
式7は、サービス影響度をユークリッド空間のベクトルとみなした場合の、そのベクトル間の幾何学的な距離を算出する式である。リスクグループ生成部120は、マンハッタン距離や一般化したマハラノビス距離を算出してもよい。
図11は、リスクグループ生成部120が図10に示すサービス影響度の算出結果に基づいて式7を利用して算出した、図2のシステムに対応する距離(ij)の算出結果の例を示す図である。図11において、第1列に示す識別子がリスク要因保有構成要素識別子、第2列から第4列がサービスごとの距離、及び第5列が距離(ij)である。
次に、リスクグループ生成部120は、リスク要因グループを生成し、出力する(S605)。ここで、リスクグループ生成部120は、算出した距離(ij)が閾値以下のサービス影響度(ij)に対応するリスク要因と、サービス影響度maxに対応するリスク要因とを選択する。そして、リスクグループ生成部120は、それらの選択したリスク要因に対応する構成要素識別子からなるリスク要因グループを生成する。
[実施形態1の変形例]
リスクグループ生成部120は、S604において、最大の総合影響度に対応するリスク要因に替えて、任意のリスク要因を特定のリスク要因としてよい。任意のリスク要因は、例えば、入力部704を介して管理者が指定したリスク要因である。この場合、S603における総合影響度の算出の処理は、不要である。
即ち、リスクグループ生成部120は、S604において、算出したサービス影響度に基づいて、式7を利用して、その任意のリスク要因に対する、各リスク要因の距離を算出する。
次に、リスクグループ生成部120は、S605において、算出した距離(ij)が閾値以下のサービス影響度(ij)に対応するリスク要因と、その任意のリスク要因とを選択する。そして、リスクグループ生成部120は、選択したそれらのリスク要因に対応する構成要素識別子の集合を含む、リスク要因グループを生成し、出力する。
本変形例によれば、例えばどのリスク要因を取り除くかが既に決まっている場合に、そのリスク要因と同時に取り除くべきリスク要因とを示すリスク要因グループを出力することができる。
また、リスクグループ生成部120は、全てのリスク要因のそれぞれについて、S604及びS605の処理を施し、全てのリスク要因のそれぞれを特定のリスク要因とするリスク要因グループのそれぞれを出力してもよい。
管理者は、こうして得た複数のリスク要因グループを利用して、柔軟に、リスク要因を取り除く計画を立案することができる。
上述した本実施形態における第1の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示することを可能にする点である。
その理由は、以下の構成を備えるからである。第1に、影響度算出部110が、サービスのそれぞれへの、リスク要因のそれぞれに対応する、サービス影響度を算出する。第2に、リスクグループ生成部120が、それらのサービス影響度に基づいてリスク要因間の類似性(類似性を示す評価値)を算出し、その類似性に基づいてリスク要因グループを生成し、出力する。
上述した本実施形態における第2の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、可用性向上の効果を最大にする観点で、より適切に提示することを可能にする点である。
その理由は、リスクグループ生成部120が、最大の総合影響度に対応するリスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
上述した本実施形態における第3の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、管理者の意図に対応する観点で、より適切に提示することを可能にする点である。
その理由は、リスクグループ生成部120が、管理者によって任意に指定されたリスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
上述した本実施形態における第4の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、柔軟なリスク除去計画立案の観点で、より適切に提示することを可能にする点である。
その理由は、リスクグループ生成部120が、全てのリスク要因のそれぞれについて、各リスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図12は、本発明の第2の実施形態に係るリスク分析装置200の構成を示すブロック図である。
図12を参照すると、本実施形態におけるリスク分析装置200は、第1の実施形態のリスク分析装置100と比べて、リスクグループ生成部120を、リスクグループ生成部220に替えた点が異なる。
===リスクグループ生成部220===
リスクグループ生成部220は、サービスごとの特性を示すサービス特性でサービス影響度を重み付けし、総合影響度を算出する。ここで、そのサービス特性は、例えば、サービスのそれぞれの、システム全体にとっての重要性である必須度である。その必須度は、例えば、0から1までの連続な実数値をとり、値が大きいほど、必須の度合いが高いことを示す。
その必須度は、例えば、サービスを利用するユーザに約束しているサービス品質に基づいて、決定される。例えば、サービスの稼働率についてのサービス品質に「極めて高い稼働率」、「比較的高い稼働率」、「概ね安定的な稼働率」の3段階がある場合、これらのサービス品質それぞれに対応するサービスの必須度は1.0、0.6、0.4に設定されてよい。また、必須度は、サービスを利用するユーザが支払う利用料金に基づいて決定されてもよい。例えば、利用料金が月額10000円、6000円、5000円の3つのサービスがある場合、それらのサービスのそれぞれの必須度は1.0、0.6、0.5に設定されてよい。
図13は、必須度を更に含むサービス情報エントリ271からなるサービス管理表270の一例を示す図である。
図14は、その必須度でサービス影響度を重み付けし、総合影響度を算出した場合の例を示す図である。図14に示すように最大の総合影響度(15.2)に対応するリスク要因保有構成要素識別子はPS1である。
上述した本実施形態における効果は、第1の実施形態の効果に加えて、複数のリスク要因を、サービス特性への対応の観点で、より適切に提示することを可能にする点である。その複数のリスク要因は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因である。
その理由は、リスクグループ生成部220が、サービス特性でサービス影響度を重み付けし、総合影響度を算出したからである。
<<<第3の実施形態>>>
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図15は、本発明の第3の実施形態に係るリスク分析装置300の構成を示すブロック図である。
図15を参照すると、本実施形態におけるリスク分析装置300は、第1の実施形態のリスク分析装置100と比べて、リスクグループ生成部120を、リスクグループ生成部320に替えた点が異なる。
===リスクグループ生成部320===
リスクグループ生成部320は、リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、コスト限度値とに基づいて、リスク要因グループを生成する。ここで、コスト限度値は、それらのコストの合計の限度を示す値である。換言すると、リスクグループ生成部320は、除去コスト情報に基づいて、リスク要因グループに含まれるリスク要因のコストの合計が、指定されたコスト限度値を超えないようにリスク要因グループを生成する。
具体的には、リスクグループ生成部320は、リスク要因を除去するコストの合計値がコスト限度値を越えない範囲で、距離(ij)の小さい順にリスク要因を選択し、リスク要因グループを生成する。即ち、リスクグループ生成部320は、与えられたコスト限度値の範囲内で、類似性の高いリスク要因を同時に取り除くための、リスク要因グループを生成する。
そのコストは、リスク要因のそれぞれを除去する場合に必要な費用、時間、期間、作業人数及びこれらを任意に組み合わせて算出される値の、いずれかであってよい。
例えば、そのコストが機器の交換などの費用である場合、そのコスト限度値は費用を示す値である。そのコストが機器の交換などの作業時間である場合、そのコスト限度値は時間を示す値である。また、そのコストが機器の交換などの作業に従事する技術者の人数である場合、そのコスト限度値は人数を示す値である。
リスクグループ生成部320は、例えば、管理者が図7に示す入力部704を介してリスク分析装置300に入力したそのコスト限度値を利用する。或いは、リスクグループ生成部320は、図7に示す通信部706を介して、外部からそのコスト限度値を取得してもよい。
図16は、除去コスト情報であるコストを含むリスク要因影響情報エントリ351からなるリスク要因影響管理表350の一例を示す図である。
例えば、図10に示すサービス影響度の算出結果の例において、最大の総合影響度に対応するリスク要因を持つ構成要素は、物理サーバPS2である。そして、図11に示す距離の算出結果の例において、物理サーバPS2のリスク要因との距離が近い順のリスク要因を持つ構成要素は、仮想サーバVM4、仮想サーバVM3、仮想サーバVM1、仮想サーバVM2、物理サーバPS1である。
ここで、コスト限度値が例えば「15」であるとする。この場合、リスクグループ生成部320は、物理サーバPS2(コストが、「11」)及び仮想サーバVM4(コストが、「3」)のそれぞれの識別子を含む、リスク要因グループを生成する。
また、コスト限度値が例えば「20」であるとする。この場合、リスクグループ生成部320は、物理サーバPS2(コストが、「11」)、仮想サーバVM4(コストが、「3」)及び仮想サーバVM3(コストが、「6」)のそれぞれの識別子を含む、リスク要因グループを生成する。
上述した本実施形態における効果は、第1の実施形態の効果に加えて、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、そのコストの観点で、より適切に提示することを可能にする点である。
その理由は、リスクグループ生成部320が、除去コスト情報に基づいて、リスク要因グループに含まれるリスク要因のコストの合計が、コスト限度値を超えないようにリスク要因グループを生成したからである。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてもよい。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であってもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてもよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1) サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出部と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成部と、を含むリスク分析装置。
(付記2) 前記類似性は、前記リスク要因のそれぞれに対応するサービス影響度間の距離であることを特徴とする付記1記載のリスク分析装置。
(付記3) 前記距離は、ユークリッド距離、マンハッタン距離、マハラノビス距離及びこれらの距離を任意に組み合わせて算出される値の、いずれかであることを特徴とする付記2記載のリスク分析装置。
(付記4) 前記リスクグループ生成部は、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記1乃至3のいずれかに1つに記載のリスク分析装置。
(付記5) 前記リスクグループ生成部は、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出することを特徴とする付記4記載のリスク分析装置。
(付記6) 前記リスクグループ生成部は、外部から指定された前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記1乃至5のいずれか1つに記載のリスク分析装置。
(付記7) 前記リスク要因の特性は、故障及び復旧のそれぞれの理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数、復旧成功数、及びこれらを任意に組み合わせて算出される値の、いずれかであることを特徴とする付記1乃至6のいずれか1つに記載のリスク分析装置。
(付記8)前記リスクグループ生成部は、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成することを特徴とする付記1乃至7のいずれか1つに記載のリスク分析装置。
(付記9)前記コストは、前記リスク要因を除去する場合に必要な費用、時間、期間、作業人数及びこれらを任意に組み合わせて算出される値の、いずれかである
ことを特徴とする付記8記載のリスク分析装置。
(付記10) 前記リスク要因影響情報、前記構成要素特性情報及び前記サービス情報の任意のいずれかの入力を受け付ける入力部を更に含むことを特徴とする付記1乃至9のいずれか1つに記載のリスク分析装置。
(付記11) コンピュータが、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスク分析方法。
(付記12) 前記類似性を算出する場合に、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記11記載のリスク分析方法。
(付記13) 前記総合影響度を算出する場合に、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出することを特徴とする付記12記載のリスク分析方法。
(付記14) 前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する場合に、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記情報を生成することを特徴とする付記11乃至13のいずれか1つに記載のリスク分析方法。
(付記15) サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、をコンピュータに実行させるプログラム。
(付記16) 前記類似性を算出する場合に、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出する処理をコンピュータに実行させることを特徴とする付記15記載のプログラム。
(付記17) 前記総合影響度を算出する場合に、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出する処理をコンピュータに実行させることを特徴とする付記16記載のプログラム。
(付記18) 前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する場合に、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記情報を生成する処理をコンピュータに実行させることを特徴とする付記15乃至17のいずれか1つに記載のプログラム。
(付記19)
プロセッサとプロセッサが影響度算出部及びリスクグループ生成部として動作するための、プロセッサによって実行される命令を保持する記憶部とを含み、前記影響度算出部は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記リスクグループ生成部は、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する、リスク分析装置。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年12月17日に出願された日本出願特願2012−275077を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、システムのリスク分析を行うリスク分析装置、リスク分析方法及びそのためのプログラムに適用できる。
100 リスク分析装置
101 リスク分析装置
110 影響度算出部
120 リスクグループ生成部
130 管理表記億部
150 リスク要因影響管理表
151 リスク要因影響情報エントリ
160 構成要素特性管理表
161 構成要素特性情報エントリ
170 サービス管理表
171 サービス情報エントリ
200 リスク分析装置
220 リスクグループ生成部
270 サービス管理表
271 サービス情報エントリ
300 リスク分析装置
320 リスクグループ生成部
350 リスク要因影響管理表
351 リスク要因影響情報エントリ
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体

Claims (10)

  1. サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出手段と、
    前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成手段と、を含む
    リスク分析装置。
  2. 前記類似性は、前記リスク要因のそれぞれに対応するサービス影響度間の距離である
    ことを特徴とする請求項1記載のリスク分析装置。
  3. 前記リスクグループ生成手段は、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出する
    ことを特徴とする請求項1または2に記載のリスク分析装置。
  4. 前記リスクグループ生成手段は、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出する
    ことを特徴とする請求項3記載のリスク分析装置。
  5. 前記リスクグループ生成手段は、外部から指定された前記リスク要因と他の前記リスク要因との間の前記類似性を算出する
    ことを特徴とする請求項1乃至4のいずれか1項に記載のリスク分析装置。
  6. 前記リスク要因の特性は、故障及び復旧のそれぞれの理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数、復旧成功数、及びこれらを任意に組み合わせて算出される値の、いずれかである
    ことを特徴とする請求項1乃至5のいずれか1項に記載のリスク分析装置。
  7. 前記リスクグループ生成手段は、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する
    ことを特徴とする請求項1乃至6のいずれか1項に記載のリスク分析装置。
  8. 前記リスク要因影響情報、前記構成要素特性情報及び前記サービス情報の任意のいずれかの入力を受け付ける入力手段を更に含む
    ことを特徴とする請求項1乃至7のいずれか1項に記載のリスク分析装置。
  9. コンピュータが、
    サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、
    前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する
    リスク分析方法。
  10. サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出する処理と、
    前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、を
    コンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
JP2014552925A 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法 Pending JPWO2014097598A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012275077 2012-12-17
JP2012275077 2012-12-17
PCT/JP2013/007372 WO2014097598A1 (ja) 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法

Publications (1)

Publication Number Publication Date
JPWO2014097598A1 true JPWO2014097598A1 (ja) 2017-01-12

Family

ID=50977960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552925A Pending JPWO2014097598A1 (ja) 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法

Country Status (3)

Country Link
US (1) US9898525B2 (ja)
JP (1) JPWO2014097598A1 (ja)
WO (1) WO2014097598A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124470A1 (en) * 2014-06-03 2017-05-04 Nec Corporation Sequence of causes estimation device, sequence of causes estimation method, and recording medium in which sequence of causes estimation program is stored
JP7239828B2 (ja) * 2019-08-02 2023-03-15 富士通株式会社 システム管理方法、システム管理プログラム、およびシステム管理装置
JP6973544B2 (ja) * 2020-03-31 2021-12-01 株式会社Sumco 状態判定装置、状態判定方法、及び状態判定プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7212986B1 (en) * 1999-06-16 2007-05-01 Metier, Ltd. Method and apparatus for planning and monitoring multiple tasks based on user defined criteria and predictive ability
JP2005080104A (ja) 2003-09-02 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> ネットワーク信頼性推定方法及び装置
US7103874B2 (en) 2003-10-23 2006-09-05 Microsoft Corporation Model-based management of computer systems and distributed applications
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
JP4174497B2 (ja) 2004-09-30 2008-10-29 東芝ソリューション株式会社 情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラム
US20060111934A1 (en) * 2004-11-08 2006-05-25 Meggs Anthony F Virtual share exchange apparatus and method
US20060235783A1 (en) * 2005-02-22 2006-10-19 Scott Ryles Predicting risk and return for a portfolio of entertainment projects
US20060190369A1 (en) * 2005-02-22 2006-08-24 Scott Ryles Predicting risk and return for a portfolio of entertainment projects
WO2006092806A1 (en) 2005-03-03 2006-09-08 Hewlett-Packard Development Company, L.P. Computer qc module testing monitor
JP4669487B2 (ja) 2007-03-02 2011-04-13 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法
US20100016743A1 (en) * 2008-07-17 2010-01-21 Syed Zeeshan H Identifying Groups of Patients with Similar Physiological Characteristics and Risk Profiles
CA3081708C (en) * 2009-10-19 2023-10-03 Theranos Ip Company, Llc Integrated health data capture and analysis system
US8244481B2 (en) * 2009-12-09 2012-08-14 Toyota Motor Engineering & Manufacturing North America, Inc. Methods for utilizing paint formulations based on paint component risk scores
JP2011165118A (ja) * 2010-02-15 2011-08-25 Hitachi Ltd プロジェクト支援方法及びその装置並びにその実行プログラム
CA2806053A1 (en) * 2010-07-22 2012-01-26 University Of Florida Research Foundation, Inc. Classification using correntropy
GB2484967B (en) 2010-10-28 2017-01-04 Fujitsu Ltd Method, apparatus, and program for the discovery of resources in a computing environment
JP5267749B2 (ja) 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US20130013344A1 (en) * 2011-07-08 2013-01-10 Ernstberger Kelly A Systems and methods for determining optional insurance coverages
US20130332249A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation Optimal supplementary award allocation
US20140149174A1 (en) * 2012-11-26 2014-05-29 International Business Machines Corporation Financial Risk Analytics for Service Contracts

Also Published As

Publication number Publication date
US20150370886A1 (en) 2015-12-24
US9898525B2 (en) 2018-02-20
WO2014097598A1 (ja) 2014-06-26

Similar Documents

Publication Publication Date Title
CN110574338B (zh) 根本原因发现方法及系统
US20150161385A1 (en) Memory Management Parameters Derived from System Modeling
US20130283090A1 (en) Monitoring and resolving deadlocks, contention, runaway cpu and other virtual machine production issues
US10592368B2 (en) Missing values imputation of sequential data
US11483319B2 (en) Security model
US11151505B1 (en) Automatic analysis of organization process/operations data
US20160026453A1 (en) Patch process ensuring high availability of cloud application
RU2699054C2 (ru) Восстановление доступа для использования основанной на облаке услуги после отказа системы
Bai et al. Impact of service function aging on the dependability for MEC service function chain
CN103677806A (zh) 用于系统管理的方法和系统
CN114371857A (zh) 数字孪生使能的资产性能和升级管理
WO2014097598A1 (ja) リスク分析を行う情報処理装置及びリスク分析方法
WO2014188638A1 (ja) 共有リスクグループ管理システム、共有リスクグループ管理方法および共有リスクグループ管理プログラム
US9235423B2 (en) Availability evaluation device and availability evaluation method
US9823998B2 (en) Trace recovery via statistical reasoning
US11205092B2 (en) Clustering simulation failures for triage and debugging
CN111448551B (zh) 跟踪来自远程设备的应用活动数据并生成用于远程设备的校正动作数据结构的方法和系统
US11416801B2 (en) Analyzing value-related data to identify an error in the value-related data and/or a source of the error
JPWO2014002557A1 (ja) 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
JPWO2013114911A1 (ja) リスク評価システム、リスク評価方法、及びプログラム
US20220335318A1 (en) Dynamic anomaly forecasting from execution logs
US20210286785A1 (en) Graph-based application performance optimization platform for cloud computing environment
JP5814874B2 (ja) コンピュータ装置及びリソース使用量予測方法及びプログラム
JPWO2015146081A1 (ja) リスク管理装置、リスク管理プログラムを記録する記録媒体、及びリスク管理方法
JP2016139984A (ja) ネットワーク評価システム及びネットワーク評価方法