WO2016125387A1 - 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム - Google Patents

障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム Download PDF

Info

Publication number
WO2016125387A1
WO2016125387A1 PCT/JP2015/084672 JP2015084672W WO2016125387A1 WO 2016125387 A1 WO2016125387 A1 WO 2016125387A1 JP 2015084672 W JP2015084672 W JP 2015084672W WO 2016125387 A1 WO2016125387 A1 WO 2016125387A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual network
failure
network device
notification
priority
Prior art date
Application number
PCT/JP2015/084672
Other languages
English (en)
French (fr)
Inventor
直哉 吉川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/547,993 priority Critical patent/US10417101B2/en
Priority to EP15881204.0A priority patent/EP3255843A4/en
Priority to JP2016573197A priority patent/JP6418255B2/ja
Publication of WO2016125387A1 publication Critical patent/WO2016125387A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得部と、前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置部とを備える障害監視装置。

Description

障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム
 本発明は、障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラムに関する。
 近年、ネットワーク環境の構築にあたり、NFV(Network Functions Virtualization)などの仮想ネットワークシステムが提案されている。仮想ネットワークシステムとは、物理機器に実装された仮想機器にネットワーク機器としての処理を実行させることで、ネットワークを仮想化するものである。以下、ネットワーク機器としての処理を実行する仮想機器を、仮想ネットワーク機器という。
 特許文献1には、物理ネットワークシステムにおいて、複数のネットワーク機器が検出した障害情報に基づいて障害原因となる障害箇所を特定する技術が開示されている。
特開平10-303897号公報
 物理ネットワークシステムにおいては、特許文献1に開示された技術に基づいて適切な復旧処置をとることができる。
 他方、仮想ネットワークシステムにおいては、特許文献1に開示された技術に基づいて適切な復旧処置をとることができない可能性がある。例えば、仮想ネットワーク機器がハードウェア障害を検出することができないために、物理機器において、ハードウェア障害が、仮想ネットワーク機器のソフトウェアの障害として検知される可能性がある。また例えば、ある仮想ネットワーク機器の冗長機能が他の仮想ネットワーク機器に実装されるなどの依存関係を有する場合に、当該依存関係を管理する管理装置が障害を検知することができないために、適切な復旧処置をとることが出来ない可能性がある。
 本発明の目的は、上述した課題を解決する障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラムを提供することにある。
 本発明は、仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得部と、前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置部とを備える障害監視装置を提供する。
 本発明は、仮想ネットワーク機器を実装する物理機器と、上記障害監視装置とを備える仮想ネットワークシステムも提供する。
 本発明は、仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得ステップと、前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置ステップとを有する障害監視方法も提供する。
 本発明は、コンピュータを、仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得部、前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置部として機能させるプログラムも提供する。
 本発明によれば、障害監視装置は、仮想ネットワークシステムにおいて適切な復旧処置をとることができる。
一実施形態に係る仮想ネットワークシステムの構成を示す概略ブロック図である。 一実施形態に係る障害監視装置の構成を示す概略ブロック図である。 一実施形態に係る障害監視方法の手順を示すフローチャートである。 障害監視装置の基本構成を示す概略ブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、図面を参照しながら実施形態について詳しく説明する。
 図1は、一実施形態に係る仮想ネットワークシステムの構成を示す概略ブロック図である。本実施形態では、仮想ネットワークシステム1がNFVアーキテクチャを採用する場合について説明する。なお、他の実施形態に係る仮想ネットワークシステム1は、NFVアーキテクチャ以外の構成により実現されるものでも良い。
 本実施形態に係る仮想ネットワークシステム1は、複数のNFVI(Network Functions Virtualization Infrastructure)101と、Or-Vi(Orchestrator-Virtualized Infrastructure Manager)102と、障害監視装置300とを備える。
 NFVI101は、1つまたは複数のVNFC(Virtual Network Function Component)201を実装する物理機器である。
 VNFC201は、VNF(Virtual Network Function)202の一部の機能を実現する仮想機器である。
 VNF202は、MME(Mobility Management Entity)、S-GW(Serving Gateway)、P-GW(PDN Gateway)などのネットワーク機器の機能を有する仮想機器である。なお、VNF202は、同一のNFVI101に実装されたVNFC201の組み合わせによって実現されても良いし、異なるNFVI101に実装されたVNFC201の組み合わせによって実現されても良い。
 Or-Vi102は、VNFC201およびVNF202を管理する仮想ネットワーク機器であるNFVO(NFV Orchestrator)203、VIM(Virtualized Infrastructure Manager)204、および、VNFM(VNF Manager)205を実装する物理機器である。
 本実施形態では、NFVO203、VIM204およびVNFM205が一つのOr-Vi102に実装される場合について説明するが、他の実施形態に係る仮想ネットワークシステム1が複数のOr-Vi102を備える場合、NFVO203、VIM204およびVNFM205は、異なるOr-Vi102に実装されても良い。
 障害監視装置300は、仮想ネットワークシステム1の障害を監視する。
 NFVI101、Or-Vi102、および障害監視装置300は、それぞれ物理ネットワークを介して互いに接続される。
 以下、ハードウェアを備える装置であるNFVI101およびOr-Vi102を総称して物理機器100といい、物理機器100によって実現される仮想的な装置であるVNFC201、VNF202、NFVO203、VIM204、およびVNFM205を、仮想ネットワーク機器200という。
 図2は、一実施形態に係る障害監視装置の構成(ソフトウェアで実現できる)を示す概略ブロック図である。
 障害監視装置300は、仮想ネットワーク通信部301、物理ネットワーク通信部302、構成記憶部303、優先度記憶部304、通知取得部305、指示部306、結果取得部307、復旧処置部308、および、通知部309を備える。
 仮想ネットワーク通信部301は、仮想ネットワークを介して仮想ネットワーク機器200との通信を行う。
 物理ネットワーク通信部302は、物理ネットワークを介して物理機器100との通信を行う。
 構成記憶部303は、依存関係にある仮想ネットワーク機器200どうしを関連付けて格納する仮想レイヤテーブルと、仮想ネットワーク機器200と当該仮想ネットワーク機器200を実装する物理機器100とを関連付けて格納するマッピングテーブルとを記憶する。
 依存関係にある仮想ネットワーク機器200の例としては、VNF202と当該VNF202を構成するVNFC201との関係、VNF202と当該VNF202を管理するNFVO203、VIM204、またはVNFM205との関係、および冗長機能を発揮するVNF202どうしの関係などが挙げられる。
 つまり、仮想レイヤテーブルは、仮想ネットワーク機器200と、当該仮想ネットワーク機器200と依存関係を有する他の仮想ネットワーク機器200とを関連付けて格納するテーブルである。
 優先度記憶部304は、機器の種別および障害の種別の間の組み合わせと、当該組み合わせに対する障害対応の優先度とを関連付けて記憶する。優先度記憶部304が記憶する優先度の順番は、仮想ネットワークシステム1の管理者によって任意に設定される。
 なお、一般的には、仮想ネットワーク機器200の優先順位は物理機器100の優先順位より低く設定されると良い。これは、仮想ネットワーク機器200にエラーが発生した場合に、当該仮想ネットワーク機器200を実装する物理機器100の障害を優先的に検出するためである。
 例えば、優先度記憶部304は、優先度が高い順に、NFVI101のハードウェア障害、NFVI101のネットワーク障害、NFVI101のソフトウェア障害、VNF202のハードウェア障害、VNF202のネットワーク障害、および、VNF202のソフトウェア障害、を記憶する。
 なお、仮想ネットワーク機器200は一般的にハードウェア障害を検出しないが、仮想化リソースからダイレクトに物理リソースを使用する場合(例えば、PCI PassThrough(ホストシステムのPCI(Peripheral Component Interconnect)デバイスを仮想ゲストへ接続する技術)を使用する場合)に、ハードウェア障害を検出する場合がある。
 また、利用者によって既に接続している仮想ネットワークに係る障害の優先度は、利用者によってまだ接続されていない(例えば、セッション確立段階にある)仮想ネットワークに係る障害の優先度より高く設定されると良い。これにより、利用者の利便性を損なう可能性のある障害を優先的に検出するためである。
 通知取得部305は、仮想ネットワーク機器200および物理機器100から、障害の通知を取得する。
 指示部306は、仮想ネットワーク機器200および物理機器100に対し、障害の有無の検出の指示を出力する。
 結果取得部307は、仮想ネットワーク機器200および物理機器100に対し、指示に基づく障害の検出結果を取得する。
 復旧処置部308は、仮想ネットワーク機器200および物理機器100に対し、復旧処置を実施する。具体的には、復旧処置部308は、障害が検出された仮想ネットワーク機器200および物理機器100のうち最も優先度が高い物から順に復旧処置を実施する。
 通知部309は、復旧処置を実施する機器と依存関係を有する仮想ネットワーク機器200および物理機器100に、当該機器に障害が発生したことを通知する。
 次に、本実施形態に係る障害監視装置300の動作について説明する。
 図3は、一実施形態に係る障害監視方法の手順を示すフローチャートである。
 仮想ネットワーク機器200または物理機器100は、自機の障害を検出すると、障害の発生を示す通知を出力する。当該通知には、自機を示す識別情報と障害の種別を示す情報とが含まれる。障害監視装置300の通知取得部305は、仮想ネットワーク機器200または物理機器100から障害の発生を示す通知を取得する(ステップS1)。
 次に、指示部306は、通知取得部305が取得した通知に基づいて、障害が発生した機器および障害の種別を特定する(ステップS2)。
 次に、指示部306は、優先度記憶部304を参照し、通知を出力した機器の種別および当該機器の障害の種別に関連付けられた障害対応の優先度を特定する(ステップS3)。次に、指示部306は、当該優先度より高い優先度に関連付けられた機器の種別と障害の種別の組み合わせが存在するか否かを判定する(ステップS4)。
 より高い優先度に関連付けられた機器の種別と障害の種別の組み合わせが存在する場合(ステップS4:YES)、指示部306は、構成記憶部303が記憶する仮想レイヤテーブルおよびマッピングテーブルを参照し、通知を受信した機器に関連付けられた機器のうち最も障害対応の優先度が高い機器を特定する(ステップS5)。次に、指示部306は、特定した機器に対し、当該優先度に関連付けられた種別の障害についての検出の指示を出力する(ステップS6)。
 これにより、障害監視装置300によって特定された機器は、指定された種別の障害について障害検出処理を実施し、検出結果を障害監視装置300に送信する。
 障害監視装置300の結果取得部307は、指示部306が特定した機器から障害の検出結果を取得する(ステップS7)。そして、結果取得部307は、当該検出結果が障害がある旨を示すものであるか否かを判定する(ステップS8)。
 検出結果が障害がない旨を示す場合(ステップS8:NO)、指示部306は、優先度記憶部304および構成記憶部303を参照し、最後に特定した優先度の次に高い優先度に関連付けられた機器が存在するか否かを判定する(ステップS9)。次に高い優先度に関連付けられた機器が存在する場合(ステップS9:YES)、指示部306は、次に高い優先度に関連付けられた機器を特定し(ステップS10)、ステップS6に戻り、当該機器に障害検出指示を出力する。
 つまり、指示部306は、通知を取得した機器に関連付けて構成記憶部303が記憶する機器のうち、障害対応の優先度が高いものから順に、障害の有無の検出の指示を出力する。
 他方、ステップS8において検出結果が障害がある旨を示す場合(ステップS8:YES)、復旧処置部308は、当該検出結果を送信した機器の復旧処置を実行する(ステップS11)。
 また、ステップS4において、通知を送信した機器に係る優先度より優先度が高い機器および障害がない場合(ステップS4:NO)、またはステップS9において、検出結果を送信した機器に係る優先度の次に優先度が高い機器が無い場合(ステップS9:NO)、復旧処置部308は、ステップS2で特定した機器の復旧処置を実行する(ステップS11)。
 復旧処置の例としては、当該仮想ネットワーク機器200または物理機器100をリブートする処理、または、当該仮想ネットワーク機器200を他の物理機器100で動作させる処理などが挙げられる。
 次に、通知部309は、構成記憶部303が記憶する仮想レイヤテーブルを参照し、復旧処置の対象となる機器と依存関係を有する仮想ネットワーク機器200を特定する(ステップS12)。次に、通知部309は、特定した仮想ネットワーク機器200に対し、障害の発生を通知する(ステップS13)。
 つまり、通知部309は、障害が発生した機器を構成要素とするグループの他の構成要素に、当該障害の発生を通知する。障害が発生した機器を構成要素とするグループの例としては、複数のVNFC201から構成され、VNFM205によって管理されるVNF202、および複数のVNF202から構成されNFVO203によって管理される冗長構成などが挙げられる。
 これにより、当該グループに属する他の仮想ネットワーク機器200が、障害が発生した仮想ネットワーク機器200の代替処理を実行することなどにより、当該グループの機能を確保することができる。
 このように、本実施形態に係る障害監視装置300は、障害の通知を取得した機器を実装する物理機器100および、当該機器と依存関係を有する仮想ネットワーク機器200のうち、障害対応の優先度が最も高いものについて復旧処置を実行する。これにより、障害監視装置300は、障害の原因となっている機器について、復旧処置を試みることができる。
 また、仮想ネットワークシステム1において、ある機器に障害が発生した場合、当該機器に関連する複数の機器が、障害を検知する。例えば、NFVI101のNIC(Network Interface Card)に障害が発生した場合、当該NFVI101、当該NFVI101が実装するVNFC201、当該VNFC201と仮想ネットワークを介して接続される他のVNFC201など、複数の機器が障害を検知する。
 このとき、必ずしも障害の発生元であるNFVI101からの障害の通知が、最初に障害監視装置300に到達するとは限らない。障害監視装置300が障害の通知の到達順に復旧処置を試みる場合、VNFC201のリブートや、仮想ネットワークの再構築などの復旧処置がなされるが、NFVI101に障害の原因があるため、これらの復旧処置によっては障害を解消することができない。
 また、VNFC201をリブートしている間は当該VNFC201を使用することができず、仮想ネットワークを再構築している間は当該仮想ネットワークを使用することができないため、仮想ネットワークの可用性が低下する。
 これに対し、本実施形態によれば、障害監視装置300は、障害の通知に基づいて障害の原因となる機器を特定し、当該機器に対して復旧処置を行う。これにより、障害監視装置300は、仮想ネットワークシステム1の可用性の低下を最小限に抑えつつ、仮想ネットワークシステム1を復旧させることができる。
 また、本実施形態によれば、障害監視装置300は、ある機器に障害が発生した場合、当該機器に関連する機器であって障害を検出していない他の機器に、障害の検出の指示を出力する。これにより、まだ障害を検出していない機器に対し、臨時に障害検出処理を実行させ、当該機器に障害があった場合の復旧処置を早期に実行することができる。
 なお、他の実施形態に係る障害監視装置300は、障害の検出の指示を出力しなくても良い。この場合、障害監視装置300は、優先度が高い他の機器が定期的な障害検出処理を実行するまで復旧処置を待機しても良い。
 また、本実施形態によれば、障害監視装置300は、ある機器に障害が発生した場合、当該機器と依存関係を有する他の機器に、障害の発生を通知する。これにより、障害が発生した機器と依存関係を有する他の機器に、当該機器の冗長機能を発動させるなどの処置を実行させることができる。
 なお、一般的なクラウドシステムでは、ひとつのVM(Virtual Machine)がひとつのアプリケーションで構成されることが基本であり、VM間の依存関係を考慮した障害情報の管理がなされない。
 以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。
 例えば、上述した実施形態に係る構成記憶部303は、仮想レイヤテーブルとマッピングテーブルの両方を記憶するが、これに限られない。例えば、他の実施形態に係る構成記憶部303は、仮想レイヤテーブルかマッピングテーブルかの何れか一方のみを記憶しても良い。
 構成記憶部303が仮想レイヤテーブルを記憶している場合、障害監視装置300は、少なくとも依存関係を有する他の仮想ネットワーク機器200に障害の原因がある場合に、適切に復旧処置を行うことができる。
 構成記憶部303がマッピングテーブルを記憶している場合、障害監視装置300は、少なくとも仮想ネットワーク機器200を実装する物理機器100に障害の原因がある場合に、適切に復旧処置を行うことができる。
 また、上述した実施形態に係る障害監視装置300は、構成記憶部303および優先度記憶部304を備えるが、これに限られない。例えば、他の実施形態に係る障害監視装置300は、構成記憶部303および優先度記憶部304を備えず、他の装置(例えばデータベース装置)が記憶する情報に基づいて、上述した処理を実行しても良い。
《基本構成》
 図4は、本発明による障害監視装置の基本構成を示す概略ブロック図である。
 上述した実施形態では、障害監視装置300の一実施形態として図2に示す構成について説明したが、障害監視装置300の基本構成は、図4に示すとおりである。
 すなわち、障害監視装置300は、通知取得部305および復旧処置部308を基本構成とする。
 通知取得部305は、仮想ネットワーク機器200から、障害が発生した旨を示す通知を取得する。
 復旧処置部308は、通知を取得した仮想ネットワーク機器200、当該仮想ネットワーク機器200を実装する物理機器100、および当該仮想ネットワーク機器200と依存関係を有する他の仮想ネットワーク機器200のうち、障害対応の優先度が最も高いものについて復旧処置を実行する。
 これにより、障害監視装置300は、仮想ネットワークシステム1において適切な復旧処置をとることができる。
 図5は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 コンピュータ900は、CPU901、主記憶装置902、補助記憶装置903、インタフェース904を備える。
 上述の障害監視装置300は、コンピュータ900に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置903に記憶されている。CPU901は、プログラムを補助記憶装置903から読み出して主記憶装置902に展開し、当該プログラムに従って上記処理を実行する。また、CPU901は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置902に確保する。
 なお、少なくとも1つの実施形態において、補助記憶装置903は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース904を介して接続される磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ900に配信される場合、配信を受けたコンピュータ900が当該プログラムを主記憶装置902に展開し、上記処理を実行しても良い。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。
 さらに、当該プログラムは、前述した機能を補助記憶装置903に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
 この出願は、2015年2月6日に出願された日本出願特願2015-021838号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明による障害監視装置によれば、仮想ネットワークシステムにおいて適切な復旧処置をとることができる。
 1 仮想ネットワークシステム
 100 物理機器
 200 仮想ネットワーク機器
 300 障害監視装置
 301 仮想ネットワーク通信部
 302 物理ネットワーク通信部
 303 構成記憶部
 304 優先度記憶部
 305 通知取得部
 306 指示部
 307 結果取得部
 308 復旧処置部
 309 通知部

Claims (8)

  1.  仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得部と、
     前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置部と
     を備える障害監視装置。
  2.  仮想ネットワーク機器と、当該仮想ネットワーク機器を実装する物理機器および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器の少なくとも何れか一方とを関連付けて記憶する構成記憶部をさらに備え、
     前記復旧処置部が、前記通知を取得した前記仮想ネットワーク機器、および、前記構成記憶部が当該仮想ネットワーク機器に関連付けて記憶する機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する
     請求項1に記載の障害監視装置。
  3.  前記構成記憶部が前記通知を取得した前記仮想ネットワーク機器に関連付けて記憶する機器に、障害の有無の検出の指示を出力する指示部と、
     前記指示部が指示した機器から障害の有無の検出結果を取得する結果取得部とをさらに備え、
     前記復旧処置部が、前記通知を取得した前記仮想ネットワーク機器、および、障害がある旨を示す検出結果を取得した前記機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する
     請求項2に記載の障害監視装置。
  4.  前記指示部が、前記構成記憶部が前記通知を取得した前記仮想ネットワーク機器に関連付けて記憶する機器のうち、障害対応の優先度が高いものから順に、障害の有無の検出の指示を出力する
     請求項3に記載の障害監視装置。
  5.  前記構成記憶部の記憶する各機器の種別および障害の種別の間の組み合わせと、当該組み合わせに対する障害対応の優先度とを関連付けて記憶する優先度記憶部をさらに備え、
     前記優先度において、仮想ネットワーク機器に関する障害対応の優先度が、物理機器に関する障害対応の優先度より低い
     請求項2から請求項4の何れか1項に記載の障害監視装置。
  6.  仮想ネットワーク機器を実装する物理機器と、
     請求項1から請求項5の何れか1項に記載の障害監視装置と
     を備える仮想ネットワークシステム。
  7.  仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得ステップと、
     前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置ステップと
     を有する障害監視方法。
  8.  コンピュータを、
     仮想ネットワーク機器から障害が発生した旨を示す通知を取得する通知取得部、
     前記通知を取得した前記仮想ネットワーク機器、当該仮想ネットワーク機器を実装する物理機器、および当該仮想ネットワーク機器と依存関係を有する他の仮想ネットワーク機器のうち、障害対応の優先度が最も高いものについて復旧処置を実行する復旧処置部
     として機能させるためのプログラム。
PCT/JP2015/084672 2015-02-06 2015-12-10 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム WO2016125387A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/547,993 US10417101B2 (en) 2015-02-06 2015-12-10 Fault monitoring device, virtual network system, and fault monitoring method
EP15881204.0A EP3255843A4 (en) 2015-02-06 2015-12-10 Failure monitoring device, virtual network system, failure monitoring method and program
JP2016573197A JP6418255B2 (ja) 2015-02-06 2015-12-10 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-021838 2015-02-06
JP2015021838 2015-02-06

Publications (1)

Publication Number Publication Date
WO2016125387A1 true WO2016125387A1 (ja) 2016-08-11

Family

ID=56563744

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/084672 WO2016125387A1 (ja) 2015-02-06 2015-12-10 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム

Country Status (4)

Country Link
US (1) US10417101B2 (ja)
EP (1) EP3255843A4 (ja)
JP (1) JP6418255B2 (ja)
WO (1) WO2016125387A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132827A (zh) * 2016-11-30 2018-06-08 华为技术有限公司 一种网络切片资源映射方法、相关设备及系统
JPWO2018180613A1 (ja) * 2017-03-29 2019-12-12 日本電気株式会社 仮想ネットワークシステム、vim、仮想ネットワーク制御方法、および記録媒体
WO2021033255A1 (ja) * 2019-08-20 2021-02-25 日本電信電話株式会社 処理装置、処理システム、処理方法、および処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10880370B2 (en) 2018-11-27 2020-12-29 At&T Intellectual Property I, L.P. Virtual network manager system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086516A (ja) * 2008-09-04 2010-04-15 Hitachi Ltd 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
JP2012038028A (ja) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd インシデント管理システム、障害影響範囲可視化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099770B2 (ja) 1997-04-30 2000-10-16 日本電気株式会社 ネットワーク監視システムにおける障害情報管理方式
US6108300A (en) * 1997-05-02 2000-08-22 Cisco Technology, Inc Method and apparatus for transparently providing a failover network device
US5989060A (en) * 1997-05-02 1999-11-23 Cisco Technology System and method for direct communication with a backup network device via a failover cable
US8549364B2 (en) * 2009-02-18 2013-10-01 Vmware, Inc. Failure detection and recovery of host computers in a cluster
US9268642B2 (en) * 2012-08-24 2016-02-23 Vmware, Inc. Protecting paired virtual machines

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086516A (ja) * 2008-09-04 2010-04-15 Hitachi Ltd 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
JP2012038028A (ja) * 2010-08-05 2012-02-23 Nomura Research Institute Ltd インシデント管理システム、障害影響範囲可視化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KENGO KAWASHIMA ET AL.: "Evaluating Integrated Monitoring Method for Cloud Infrastructure", IEICE TECHNICAL REPORT, vol. 113, no. 23, 2 May 2013 (2013-05-02), pages 145 - 150, XP009500232 *
See also references of EP3255843A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132827A (zh) * 2016-11-30 2018-06-08 华为技术有限公司 一种网络切片资源映射方法、相关设备及系统
JPWO2018180613A1 (ja) * 2017-03-29 2019-12-12 日本電気株式会社 仮想ネットワークシステム、vim、仮想ネットワーク制御方法、および記録媒体
US11093353B2 (en) 2017-03-29 2021-08-17 Nec Corporation Virtual network system, VIM, virtual network control method and recording medium
WO2021033255A1 (ja) * 2019-08-20 2021-02-25 日本電信電話株式会社 処理装置、処理システム、処理方法、および処理プログラム
JPWO2021033255A1 (ja) * 2019-08-20 2021-02-25
JP7260820B2 (ja) 2019-08-20 2023-04-19 日本電信電話株式会社 処理装置、処理システム、処理方法、および処理プログラム
US11936514B2 (en) 2019-08-20 2024-03-19 Nippon Telegraph And Telephone Corporation Processing apparatus, processing system, processing method and processing program

Also Published As

Publication number Publication date
US10417101B2 (en) 2019-09-17
EP3255843A1 (en) 2017-12-13
JP6418255B2 (ja) 2018-11-07
JPWO2016125387A1 (ja) 2017-11-24
US20180024898A1 (en) 2018-01-25
EP3255843A4 (en) 2018-01-03

Similar Documents

Publication Publication Date Title
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US10404795B2 (en) Virtual machine high availability using shared storage during network isolation
US8707083B2 (en) Virtualized cluster communication system
US8413144B1 (en) Providing application-aware high availability of virtual machines
US9977704B1 (en) Automated backup and replication of virtual machine data centers
US9804927B2 (en) Virtual machine distributed checkpointing
JP5536878B2 (ja) ファイバ・チャネル・ファブリックへのアクセスの変更
US8893147B2 (en) Providing a virtualized replication and high availability environment including a replication and high availability engine
US8874954B1 (en) Compatibility of high availability clusters supporting application failover with shared storage in a virtualization environment without sacrificing on virtualization features
US9473400B1 (en) Server-side failover between dedicated VNIC servers
US9058265B2 (en) Automated fault and recovery system
JP6418255B2 (ja) 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム
US20090070761A1 (en) System and method for data communication with data link backup
WO2016165304A1 (zh) 一种实例节点管理的方法及管理设备
WO2018058942A1 (zh) 一种数据处理方法以及备份服务器
US9817739B1 (en) Method to restore a virtual environment based on a state of applications/tiers
US9703651B2 (en) Providing availability of an agent virtual computing instance during a storage failure
US9183092B1 (en) Avoidance of dependency issues in network-based service startup workflows
US8661089B2 (en) VIOS cluster alert framework
Guay et al. Early experiences with live migration of SR-IOV enabled InfiniBand
US10528375B2 (en) Maintaining security system information in virtualized computing environments
Kawahara et al. The Continuity of Out-of-band Remote Management across Virtual Machine Migration in Clouds
US9405605B1 (en) Correction of dependency issues in network-based service remedial workflows
JP2018169920A (ja) 管理装置、管理方法及び管理プログラム
CN107608766A (zh) 一种虚拟化跨平台ha系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15881204

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016573197

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15547993

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015881204

Country of ref document: EP