JPWO2017168484A1 - 管理計算機および性能劣化予兆検知方法 - Google Patents

管理計算機および性能劣化予兆検知方法 Download PDF

Info

Publication number
JPWO2017168484A1
JPWO2017168484A1 JP2018507814A JP2018507814A JPWO2017168484A1 JP WO2017168484 A1 JPWO2017168484 A1 JP WO2017168484A1 JP 2018507814 A JP2018507814 A JP 2018507814A JP 2018507814 A JP2018507814 A JP 2018507814A JP WO2017168484 A1 JPWO2017168484 A1 JP WO2017168484A1
Authority
JP
Japan
Prior art keywords
operation information
reference value
group
virtual
autoscale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018507814A
Other languages
English (en)
Other versions
JP6578055B2 (ja
Inventor
水野 潤
潤 水野
貴志 爲重
貴志 爲重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017168484A1 publication Critical patent/JPWO2017168484A1/ja
Application granted granted Critical
Publication of JP6578055B2 publication Critical patent/JP6578055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3404Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本発明の管理計算機は、仮想演算部の生成と破棄が短期間で繰り返される場合でも、性能劣化の予兆を検知する。管理計算機1は、一つ以上の計算機2と計算機に仮想的に設けられる一つ以上の仮想演算部4とを含む情報システムの性能劣化の予兆を検知して管理する。管理計算機は、仮想演算部の数を自動的に調整するオートスケールの管理単位であるオートスケールグループ5に属する全ての仮想演算部から稼働情報を取得する稼働情報取得部P10と、稼働情報取得部の取得した各稼働情報から、オートスケールグループ毎に、性能劣化の予兆を検知するための基準値を生成する基準値生成部P11と、基準値生成部の生成した基準値と稼働情報取得部の取得した仮想演算部の稼働情報とから、各仮想演算部の性能劣化の予兆を検知する検知部P12と、を備える。

Description

本発明は、管理計算機および性能劣化予兆検知方法に関する。
近年の情報システムでは、負荷の増大に応じて仮想マシンなどを増加させる、いわゆるオートスケーリングが実現されている。さらに、コンテナ技術の普及によって、インスタンスデプロイの時間が短縮されたため、オートスケールの対象はスケールアウトだけでなく、スケールインにも広がっている。このため、短期間にスケールインとスケールアウトを繰り返す運用も行われ始めている。
ところで、情報システムの性能は、運用を続けるうちに劣化する場合がある。そこで、情報システムの性能劣化に対応すべく、情報システムの通常状態を学習したベースラインを用いて、性能劣化の予兆を検知する技術が提案されている(特許文献1)。特許文献1では、性能監視のためのしきい値設定が困難であるということから、情報システムの通常時の振る舞いを統計処理することでベースラインを生成する。
特開2004−164637号公報
情報システムの負荷には周期性があるため、通常、ベースラインを作成するには一週間以上の稼働情報が必要である。しかし、最近のサーバ仮想化技術では、スケールインとスケールアウトが繰り返し発生するため、性能劣化の監視対象であるインスタンスが短期間で破棄される。ベースライン生成に必要な稼働情報(例えば一週間分の稼働情報)を得ることができないため、ベースラインを生成できない。
これは、コンテナ技術を用いたオートスケーリングに限った話ではなく、仮想マシンや物理マシンを用いたオートスケーリングでも、頻繁にスケールイン・スケールアウトが繰り返されれば発生する課題である。このように従来技術では、ベースラインを生成できないため、通常の振る舞いと異なることを発見できず、情報システムの性能劣化の予兆を検知できない。
本発明は上記の課題に鑑みてなされたもので、その目的は、仮想演算部の生成と破棄が短期間で繰り返される場合でも、性能劣化の予兆を検知できるようにした管理計算機および性能劣化予兆検知方法を提供することにある。
上記課題を解決すべく、本発明に従う管理計算機は、一つ以上の計算機と計算機に仮想的に設けられる一つ以上の仮想演算部とを含む情報システムの性能劣化の予兆を検知して管理する管理計算機であって、仮想演算部の数を自動的に調整するオートスケールの管理単位であるオートスケールグループに属する全ての仮想演算部から稼働情報を取得する稼働情報取得部と、稼働情報取得部の取得した各稼働情報から、オートスケールグループ毎に、性能劣化の予兆を検知するための基準値を生成する基準値生成部と、基準値生成部の生成した基準値と稼働情報取得部の取得した仮想演算部の稼働情報とから、各仮想演算部の性能劣化の予兆を検知する検知部と、を備える。
本発明によれば、オートスケールグループ内の全ての仮想演算部の稼働情報に基づいて性能劣化の予兆を検知するための基準値を生成することができ、この基準値と稼働情報を比較することで性能劣化の予兆があるか検知することができる。この結果、情報システムの信頼性を向上することができる。
本実施形態の全体概要を示す説明図である。 情報システムおよび管理計算機を含む全体システムの構成図である。 計算機の構成を示す図である。 複製制御部の構成を示す図である。 複製制御部が保持する、オートスケールグループを管理するテーブルの構成を示す図である。 複製制御部で動作する、死活監視プログラムの処理概要を表すフローチャートである。 複製制御部で動作する、スケール管理プログラムの処理概要を表すフローチャートである。 管理サーバの構成を示す図である。 管理サーバが保持する、コンテナ稼働情報を管理するテーブルの構成を示す図である。 管理サーバが保持する、総量稼働情報を管理するテーブルの構成を示す図である。 管理サーバが保持する、平均稼働情報を管理するテーブルの構成を示す図である。 管理サーバが保持する、総量ベースラインを管理するテーブルの構成を示す図である。 管理サーバが保持する、平均ベースラインを管理するテーブルの構成を示す図である。 管理サーバで動作する、稼働情報取得プログラムの処理概要を表すフローチャートである。 管理サーバで動作する、ベースライン生成プログラムの処理概要を表すフローチャートである。 管理サーバで動作する、性能劣化予兆プログラムの処理概要を表すフローチャートである。 管理サーバで動作する、対処プログラムの処理概要を表すフローチャートである。 第2実施例に係る管理サーバの構成を示す図である。 管理サーバが保持する、情報システム内の計算機を管理するテーブルの構成を示す図である。 管理サーバが保持する、オートスケールグループ内で計算機のグレード別に分けたグループを管理するテーブルの構成を示す図である。 管理サーバで動作する、グループ生成プログラムの処理概要を表すフローチャートである。 第3実施例に係り、フェイルオーバの関係にある複数の情報システムの全体構成を示す図である。
以下、図面に基づいて、本発明の実施の形態を説明する。以下に述べるように、本実施形態は、スケールインとスケールアウトが頻繁に繰り返されるために、ベースラインを生成する前に監視対象のインスタンスが消滅してしまう環境下において、性能劣化の予兆を検知できるようにする。仮想演算部は、インスタンス(コンテナ)に限らず、仮想マシンでもよい。また、仮想演算部に代えて物理計算機に適用することも可能である。
本実施形態では、同一のオートスケールグループに属する全ての監視対象インスタンスは、疑似的に同一のインスタンスであるとみなす。本実施形態では、同一オートスケールグループ内の全てのインスタンスの稼働情報から、「基準値」としてのベースライン(総量ベースラインと平均ベースライン)を作成する。
本実施形態では、オートスケールグループに属するインスタンスの稼働情報の総量(総量稼働情報)と総量ベースラインとを比較し、総量稼働情報が総量ベースラインを外れた場合は、性能劣化の予兆を検知したと判断する。本実施形態では、情報システムに総量ベースライン違反を発見すると、スケールアウトを指示する。これにより、総量ベースラインに違反したオートスケールグループに属するインスタンスの数が増加するため、性能が向上する。
本実施形態では、オートスケールグループ内の各インスタンスの稼働情報の平均値と平均ベースラインとを比較し、各インスタンスの稼働情報が平均ベースラインを外れた場合も、性能劣化の予兆を検知したと判断する。この場合、平均ベースライン違反を検出されたインスタンスを破棄し、同様のインスタンスを再生成する。これにより、情報システムの性能が回復する。
図1は、本実施形態の全体概要を示す説明図である。図1に示す構成は、本発明の理解および実施に必要な程度で本実施形態の概要を示しており、本発明の範囲は図示の構成に限定されない。
「管理計算機」としての管理サーバ1は、情報システムの性能劣化の予兆を監視し、性能劣化の予兆を検知した場合は対策を実施する。情報システムは、例えば、一つ以上の計算機2と、計算機2に設けられる一つ以上の仮想演算部4と、仮想演算部4の生成および破棄を制御する複製制御装置3とを備える。
仮想演算部4は、例えば、インスタンス、コンテナ、仮想マシンのように構成され、計算機2の物理的コンピュータ資源を用いて演算処理する。仮想演算部4は、例えば、アプリケーションプログラム、ミドルウェア、ライブラリ(またはオペレーティングシステム)などを含んで構成される。仮想演算部4は、インスタンスやコンテナのように計算機2のオペレーティングシステム上で作動してもよいし、ハイパバイザにより管理される仮想マシンのように計算機2のオペレーティングシステムとは異なるオペレーティングシステム上で作動してもよい。仮想演算部4は、仮想サーバと呼び代えてもよい。後述の実施例では、仮想演算部4の例としてコンテナをあげる。
なお、図中では、計算機2、仮想演算部4など複数存在する要素を区別可能とするために符号に括弧付きの数字を添えている。しかし、複数の要素を特に区別する必要が無い場合、括弧付きの数字を省略して表現する。例えば、仮想演算部4(1)〜4(4)は、区別する必要がない場合、仮想演算部4と呼ぶ。
複製制御装置(Relication Controller)3は、情報システム内での仮想演算部4の生成および破棄を制御する。複製制御装置3は、「起動用管理情報」としてのイメージ40を一つ以上保持しており、同一のイメージ40から複数の仮想演算部4を生成したり、同一のイメージ40から生成された複数の仮想演算部4の中からいずれか一つまたは複数を破棄したりする。イメージ40とは、仮想演算部4を生成(起動)するために用いる管理情報であり、仮想演算部4の構成を定義するテンプレートである。複製制御装置3は、スケール管理部P31により、仮想演算部4の数を制御する。
ここで、複製制御装置3は、オートスケールグループ5ごとに、仮想演算部4の生成や破棄を管理する。オートスケールグループ5とは、オートスケールを実行する管理単位である。オートスケールとは、指示に応じて、仮想演算部4の数を自動的に調整する処理である。図1の例では、それぞれ別々の計算機2上に設けられた仮想演算部4から、複数のオートスケールグループ5が形成される様子を示す。オートスケールグループ5内の各仮想演算部4は、同一のイメージ40から生成される。
図1には、複数のオートスケールグループ5(1),5(2)が示されている。第1のオートスケールグループ5(1)は、計算機2(1)に設けられた仮想演算部4(1)と、他の計算機2(2)に設けられた仮想演算部4(3)とを含んで構成される。第2のオートスケールグループ5(2)は、計算機2(1)に設けられた仮想演算部4(2)と、他の計算機2(2)に設けられた仮想演算部4(3)とを含んで構成される。換言すれば、オートスケールグループ5は、異なる計算機2に設けられた仮想演算部4から構成することができる。
管理サーバ1は、仮想演算部4の稼働する情報システムにおける性能劣化の予兆を検知する。管理サーバ1は、性能劣化の予兆を検知すると、システム管理者などに通知することもできる。さらに管理サーバ1は、性能劣化の予兆を検知すると、所定の指示を複製制御装置3に与えることで、その性能劣化に対処させることもできる。
管理サーバ1の機能構成の例を述べる。管理サーバ1は、例えば、稼働情報取得部P10、ベースライン生成部P11、性能劣化予兆検知部P12、対処部P13を備えることができる。これら機能P10〜P13は、後述のように、管理サーバ1に記憶させたコンピュータプログラムにより実現される。図1では、コンピュータプログラムと機能との対応関係の例を明らかにすべく、対応するコンピュータプログラムと機能に同一の符号を付している。なお、各機能P10〜P13は、コンピュータプログラムに代えて、またはコンピュータプログラムと共に、ハードウェア回路を用いて実現してもよい。
稼働情報取得部P10は、各計算機2から、その計算機2上で稼働する各仮想演算部4の稼働情報を取得する。稼働情報取得部P10は、複製制御装置3からオートスケールグループ5の構成に関する情報を取得しており、各計算機2から取得した仮想演算部4の稼働情報をオートスケールグループ毎に分類して管理することができる。複製制御装置3が各計算機2から各仮想演算部4の稼働情報を収集できる場合、稼働情報取得部P10は、複製制御装置3を介して各仮想演算部4の稼働情報を取得してもよい。
ベースライン生成部P11は、「基準値生成部」の例である。ベースライン生成部P11は、稼働情報取得部P10の取得した稼働情報に基づいて、オートスケールグループ毎に、ベースラインを生成する。ベースラインとは、仮想演算部4の性能劣化の予兆(情報システムの性能劣化の予兆)を検知するための基準となる値である。ベースラインは、所定の幅(上限値、下限値)を有しており、稼働情報が所定の幅に収まらない場合、性能劣化の予兆であると判定することができる。
ベースラインには、総量ベースラインと、平均ベースラインがある。総量ベースラインとは、オートスケールグループ5内の全ての仮想演算部4の稼働情報の総量(合計値)から算出される基準値であり、オートスケールグループごとに算出される。総量ベースラインは、オートスケールグループ5内の仮想演算部4の稼働情報の総量と比較される。
平均ベースラインとは、オートスケールグループ5内の各仮想演算部4の稼働情報の平均から算出される基準値であり、オートスケールグループごとに算出される。平均ベースラインは、オートスケールグループ5内の各仮想演算部4の稼働情報のそれぞれと比較される。
性能劣化予兆検知部P12は、「検知部」の例である。以下、検知部P12または予兆検知部P12と呼ぶことがある。性能劣化予兆検知部P12は、仮想演算部4の稼働情報とベースラインとを比較することで、対象の仮想演算部4に性能劣化の予兆があるか否かを判定する。
詳しくは、予兆検知部P12は、オートスケールグループ5毎に、オートスケールグループ5について算出された総量ベースラインと、そのオートスケールグループ5内の全ての仮想演算部4の稼働情報の総量とを比較する。予兆検知部P12は、稼働情報の総量が総量ベースラインに収まっている場合、性能劣化の予兆は検知されていないと判定し、稼働情報の総量が総量ベースラインから外れている場合、性能劣化の予兆が検知されたと判定する。
さらに、予兆検知部P12は、オートスケールグループ5について算出された平均ベースラインと、そのオートスケールグループ5内の各仮想演算部4の稼働情報とをそれぞれ比較する。予兆検知部P12は、仮想演算部4の稼働情報が平均ベースラインに収まっている場合、性能劣化の予兆は検知されていないと判定し、稼働情報が平均ベースラインから外れている場合、性能劣化の予兆が検知されたと判定する。
予兆検知部P12は、性能劣化の予兆を検知すると、システム管理者などのユーザの使用する端末6に向けてアラートを送信する。
対処部P13は、予兆検知部P12が性能劣化の予兆を検知すると、検知された性能劣化の予兆に対処すべく、所定の対策を実施する。
詳しくは、対処部P13は、オートスケールグループ5内の各仮想演算部4の稼働情報の総量が総量ベースラインから外れた場合、複製制御装置3に対して、スケールアウトの実施を指示する。
オートスケールグループ5内の稼働情報の総量が総量ベースラインから外れている場合(例えば、稼働情報の総量が総量ベースラインの上限を超えた場合)、そのオートスケールグループ5の担当する処理に割り当てられている仮想演算部4の数が足りないことを意味する。そこで、対処部P13は、複製制御装置3に対して、処理能力が不足気味のオートスケールグループ5について、仮想演算部4を所定台数追加するよう指示する。複製制御装置3は、スケールアウト対象のオートスケールグループ5に対応するイメージ40を用いて仮想演算部4を所定台数生成し、これら所定台数の仮想演算部4をスケールアウト対象のオートスケールグループ5に追加する。
対処部P13は、オートスケールグループ5内のいずれかの仮想演算部4の稼働情報が平均ベースラインから外れている場合(稼働情報が平均ベースラインの上限を超えた場合、または平均ベースラインの下限を下回った場合)、仮想演算部4が過負荷状態または停止状態等であると考えられる。そこで、対処部P13は、予兆の検知された仮想演算部4が設けられている計算機2に対し、再デプロイを指示する。指示された計算機2は、性能劣化の予兆が検知された仮想演算部4を破棄し、破棄した仮想演算部4と同じイメージ40から新たに仮想演算部4を生成し、起動させる。
このように構成される本実施形態によれば、オートスケールグループを構成する各仮想演算部4の稼働情報から、ベースラインを生成することができる。この結果、本実施形態では、仮想演算部の生成と破棄が短期間で繰り返される情報システムに対しても、性能劣化の予兆を検知することができる。
本実施形態では、管理サーバ1は、オートスケールの管理単位であるオートスケールグループ5内の各仮想演算部4を擬似的に同一の仮想演算部であるとみなすため、ベースラインの生成に必要な稼働情報を取得することができる。オートスケールグループ5は、共通のイメージ40から生成される仮想演算部4により構成されるため、オートスケールグループ5内の仮想演算部4を一つの仮想演算部であると考えても不都合はない。
本実施形態では、管理サーバ1は、オートスケールグループ5を構成する全ての仮想演算部4を一つの仮想演算部4とみなすことで、総量ベースラインおよび平均ベースラインをそれぞれ生成することができる。そして、管理サーバ1は、総量ベースラインとオートスケールグループ5内の各仮想演算部4の稼働情報の総量を比較することで、そのオートスケールグループ5に過負荷状態や、処理能力の不足状態が生じつつあるかを事前に検知することができる。
さらに、管理サーバ1は、平均ベースラインとオートスケールグループ5内の各仮想演算部4の稼働情報を比較することで、オートスケールグループ5内において作動停止中または処理能力の低い仮想演算部4を個別に検知することができる。
本実施形態の管理サーバ1は、総量ベースラインと総量稼働情報とを比較することで、同一のイメージ40から生成されるコンテナ4の管理単位であるオートスケールグループごとに性能劣化の予兆を判定することができる。さらに本実施形態の管理サーバ1は、平均ベースラインと稼働情報とを比較することで、オートスケールグループ5内の各仮想演算部4の性能劣化の予兆を個別に判定することもできる。
本実施形態では、管理サーバ1は、総量ベースラインに違反するオートスケールグループ5については、スケールアウトの実施を指示するため、性能劣化の発生を抑制することができる。さらに、管理サーバ1は、平均ベースラインに違反する仮想演算部4については作り直すため、これによっても性能劣化の発生を抑制できる。総量ベースラインに基づく性能監視とその対処と、平均ベースラインに基づく性能監視とその対処とは、いずれか一方だけを実施してもよいし、両方を同時または異なる時間で実施してもよい。
図2〜図17を用いて第1実施例を説明する。図2は、情報システムと情報システムの性能を管理する管理サーバ1とを含む全体システムの構成図である。
全体システムは、例えば、少なくとも一つの管理サーバ1と、少なくとも一つの計算機2と、少なくとも一つの複製制御装置と、複数のコンテナ4と、少なくとも一つのオートスケールグループ5を備える。さらに、全体システムは、システム管理者などのユーザが使用する端末6と、NAS(Network Attached Storage)のようなストレージシステム7を備えることもできる。図2に示す構成のうち、少なくとも計算機2および複製制御装置3が、管理サーバ1による性能管理対象の情報システムを構成する。各装置1〜3,6,7は、例えばLAN(Local Area Network)やインターネットなどの通信ネットワークCN1を介して双方向通信可能に接続されている。
コンテナ4は、図1で述べた仮想演算部4の一例である。対応関係を明らかにすべく、コンテナと仮想演算部には、同じ符号「4」を付している。コンテナ4は、コンテナ技術を用いて作成される論理的コンテナである。以下の説明では、コンテナ4を、コンテナインスタンス4と呼ぶこともある。
図3は、計算機2の構成を示した図である。計算機2は、例えば、CPU(Central Processing Unit)21、メモリ22、記憶装置23、通信ポート24、入力装置25、出力装置26を備える。
記憶装置23は、例えばハードディスクドライブまたはフラッシュメモリなどから形成されており、オペレーティングシステム、ライブラリ、アプリケーションプログラムなどを記憶している。CPU21は、記憶装置23からメモリ22へ転送させたコンピュータプログラムを実行することで、コンテナ4を作動させたり、コンテナ4のデプロイおよび破棄等を管理する。
通信ポート24は、通信ネットワークCN1を介して管理サーバ1および複製制御装置3と通信するためのものである。入力装置25は、例えば、キーボードやタッチパネルなどの情報入力装置を含む。出力装置26は、例えば、ディスプレイなどの情報出力装置を含む。入力装置25は、情報入力装置以外の他の装置からの信号を受け取る回路を備えてもよい。出力装置26は、情報出力装置以外の他の装置へ信号を出力する回路を備えてもよい。
メモリ22上では、プロセスの一つとしてコンテナ4が動作する。計算機2は、複製制御装置3や管理サーバ1からの指示を受けると、その指示に基づいて、コンテナ4をデプロイしたり、または破棄したりする。さらに、計算機2は、管理サーバ1からコンテナ4の稼働情報を取得するように指示されると、コンテナ4の稼働情報を取得して管理サーバ1へ応答する。
図4は、複製制御装置3の構成を示した図である。複製制御装置3は、例えば、CPU31、メモリ32、記憶装置33、通信ポート34、入力装置35、出力装置36を備えることができる。
ハードディスクドライブやフラッシュメモリなどから構成される記憶装置33には、コンピュータプログラムと管理情報が記憶されている。コンピュータプログラムとしては、例えば、死活監視プログラムP30と、スケジュール管理プログラムP31がある。管理情報としては、例えば、オートスケールグループを管理するためのオートスケールグループテーブルT30がある。
CPU31は、記憶装置33に記憶されたコンピュータプログラムをメモリ32に読み出して実行することで、複製制御装置3としての機能を実現する。通信ポート34は、通信ネットワークCN1を介して、各計算機2および管理サーバ1と通信するためのものである。入力装置35はユーザ等からの入力を受け付ける装置であり、出力装置36はユーザ等へ情報を提供する装置である。
図5を用いて、オートスケールグループテーブルT30について説明する。オートスケールグループテーブルT30は、情報システム内のオートスケールグループ5を管理するテーブルである。本テーブルT30を含めて以下に述べる各テーブルは、管理テーブルであるが、単にテーブルと表記する。
オートスケールグループテーブルT30は、例えば、オートスケールグループID C301、コンテナID C302、計算機情報C303、デプロイ時の引数C304を対応付けて管理する。
オートスケールグループID C301は、各オートスケールグループ5を一意に特定する識別情報の欄である。コンテナID C302は、各コンテナ4を一意に特定する識別情報の欄である。計算機情報C303は、各計算機2を一意に特定する識別情報の欄である。デプロイ時の引数C304は、コンテナ4(コンテナインスタンス)をデプロイした際の引数を保持する欄である。オートスケールグループテーブルT30では、コンテナ毎にレコードが作られる。
図6は、死活監視プログラムP30の処理を示すフローチャートである。死活監視プログラムP30は、オートスケールグループテーブルT30に保持しているコンテナ4の全てについて、定期的に死活の監視結果を確認する。以下、動作の主体を死活監視プログラムP30として説明するが、これに代えて、死活監視部P30または複製制御装置3を動作主体として説明することもできる。
死活監視プログラムP30は、オートスケールグループテーブルT30で保持するコンテナ4のうち、死活を確認していないコンテナ4があるか確認する(S300)。
死活監視プログラムP30は、死活が未確認のコンテナ4があると判定すると(S300:YES)、そのコンテナ4の死活を計算機2へ問い合わせる(S301)。詳しくは、死活監視プログラムP30は、オートスケールグループテーブルT30のコンテナID 302の欄と計算機情報C303の欄とを参照することで、死活を問い合わせるべき計算機2を特定する。死活監視プログラムP30は、その特定した計算機2に対して、コンテナIDを明示してポーリングすることで、そのコンテナIDを持つコンテナ4の死活を問い合わせる(S301)。
死活監視プログラムP30は、死んでいるコンテナ4があるか、すなわち停止中のコンテナ4があるか判定する(S302)。死活監視プログラムP30は、死んでいるコンテナ4を発見すると(S302:YES)、オートスケールグループテーブルT30のデプロイ時の引数C304の欄を参照し、その欄に設定された引数を用いてコンテナをデプロイする(S303)。
死活監視プログラムP30は、死んでいるコンテナ4が一つも無い場合(S302:NO)、ステップS300へ戻り、死活監視の終了していないコンテナ4が残っているか判定する(S300)。死活監視プログラムP30は、全てのコンテナ4について死活監視を終了すると(S300:NO)、本処理を終了する。
図7は、スケール管理プログラムP31の処理を示すフローチャートである。スケール管理プログラムP31は、管理サーバ1や入力装置35から入力される指示に従って、オートスケールグループ5の構成を制御する。以下、スケール管理プログラムP31が動作主体であるとして述べるが、これに代えて、スケール管理部P31または複製制御装置3を動作主体として説明することもできる。
スケール管理プログラムP31は、オートスケールグループIDとスケール数(コンテナ数)を含むスケール変更指示を受信する(S310)。スケール管理プログラムP31は、指定されたオートスケールグループ5のスケール数N1と、指示されたスケール数N2とを比較する(S311)。詳しくは、スケール管理プログラムP31は、オートスケールグループテーブルT30を参照して、指定されたオートスケールグループ5で動作中のコンテナ4の数を現在のスケール数N1として把握し、そのスケール数N1と受信したスケール数N2とを比較する。
スケール管理プログラムP31は、現在のスケール数N1と受信したスケール数N2とが異なっているか判定する(S302)。スケール管理プログラムP31は、現在のスケール数N1と受信したスケール数N2とが一致する場合(S312:NO)、スケール数を変化させる必要はないため、本処理を終了する。
スケール管理プログラムP31は、現在のスケール数N1と受信したスケール数N2が異なっている場合(S312:YES)、現在のスケール数N1の方が受信したスケール数N2よりも大きいか判定する(S313)。
スケール管理プログラムP31は、現在のスケール数N1(稼働中のコンテナ数)の方が受信したスケール数N2(指示されたコンテナ数)よりも大きい場合(S313:YES)、スケールインを実施する(S314)。すなわち、スケール管理プログラムP31は、計算機2に対し、差分(=N1−N2)の個数だけコンテナ4を破棄するように指示する(S314)。スケール管理プログラムP31は、破棄させたコンテナ4に対応するレコードをオートスケールグループテーブルT30から削除する(S314)。
スケール管理プログラムP31は、現在のスケール数N1の方が受信したスケール数N2よりも小さい場合(S313:NO)、スケールアウトを実施する(S315)。すなわち、スケール管理プログラムP31は、計算機2に対し、差分(=N2−N1)の個数だけコンテナ4のデプロイを指示し、デプロイしたコンテナ4に該当するレコードをオートスケールグループテーブルT30へ追加する(S315)。
図8は、管理サーバ1の構成を示した図である。管理サーバ1は、例えば、CPU11、メモリ12、記憶装置13、通信ポート14、入力装置15、出力装置16を備えて構成されている。
通信ポート14は通信ネットワークCN1を介して各計算機2および複製制御装置3と通信するためのものである。入力装置15は、例えばキーボードやタッチパネル等のように、ユーザからの入力等を受け付ける装置である。出力装置16は、例えばディスプレイのように、ユーザへ提示する情報を出力する装置である。
記憶装置13には、コンピュータプログラムP11〜P13と、管理テーブルT10〜T14が記憶されている。コンピュータプログラムとしては、稼働情報取得プログラムP10、ベースライン生成プログラムP11、性能劣化予兆検知プログラムP12、対処プログラムP13がある。管理テーブルとしては、コンテナ稼働情報テーブルT10、総量稼働情報テーブルT11、平均稼働情報テーブルT12、総量ベースラインテーブルT13、平均ベースラインテーブルT14がある。CPU11は、記憶装置13に記憶されたコンピュータプログラムをメモリ12に読み出して実行することで、性能管理のための所定の機能を実現する。
図9は、コンテナ稼働情報テーブルT10を示す。コンテナ稼働情報テーブルT10は、各コンテナ4の稼働情報を管理するテーブルである。コンテナ稼働情報テーブルT10は、例えば、時刻C101、オートスケールグループID C102、コンテナID C103、CPU利用量C104、メモリ利用量C105、ネットワーク利用量C106、IO利用量C107を対応付けて管理する。コンテナ稼働情報テーブルT10は、コンテナ毎にレコードが作成される。
時刻C101は、稼働情報(CPU利用量、メモリ利用量、ネットワーク利用量、IO利用量)を計測した日時を記憶する欄である。オートスケールグループID C102は、計測対象のコンテナ4が属しているオートスケールグループ5を特定する識別情報を記憶する欄である。図中では、オートスケールグループを「ASグループ」と表記する場合がある。コンテナID C103は、計測対象のコンテナ4を特定する識別情報を記憶する欄である。
CPU利用量C104は、コンテナ稼働情報の一種であり、コンテナ4が計算機2のCPU21を利用する量(GHz)を記憶する欄である。メモリ利用量C105は、コンテナ稼働情報の一例であり、コンテナ4が計算機2のメモリ22を利用する量(MB)を記憶する欄である。ネットワーク利用量C106は、コンテナ稼働情報の一種であり、コンテナ4が通信ネットワークCN1(または図示せぬ他の通信ネットワーク)を利用して通信する量(Mbps)を記憶する欄である。図中では、ネットワークをNWと表示する場合がある。IO利用量C107は、コンテナ稼働情報の一種であり、コンテナ4に入力される情報およびコンテナ4が出力する情報の回数(IOPS)を記憶する欄である。図9に示すコンテナ稼働情報C104〜C107は一例であって、本実施形態では、図示したコンテナ稼働情報に限定しない。図示したコンテナ稼働情報の一部を用いてもよいし、図示せぬ稼働情報を新たに加えてもよい。
図10を用いて、総量稼働情報テーブルT11について説明する。総量稼働情報テーブルT11は、オートスケールグループ5内の全てのコンテナ4の稼働情報の総量を管理するテーブルである。
総量稼働情報テーブルT11は、例えば、時刻C111、オートスケールグループID C112、CPU利用量C113、メモリ利用量C114、ネットワーク利用量C115、IO利用量C116を対応付けて管理する。総量稼働情報テーブルT11は、計測時刻毎に、かつオートスケールグループ毎に、レコードが作成される。
時刻C111は、稼働情報(CPU利用量、メモリ利用量、ネットワーク利用量、IO利用量)の計測日時を記憶する欄である。オートスケールグループID C112は、計測対象のオートスケールグループ5を特定する識別情報を記憶する欄である。
CPU利用量C113は、オートスケールグループ5内の各コンテナ4が計算機2のCPU21を利用する総量(GHz)を記憶する欄である。メモリ利用量C114は、オートスケールグループ5内の各コンテナ4が計算機2のメモリ22を利用する総量(MB)を記憶する欄である。ネットワーク利用量C115は、オートスケールグループ5内の各コンテナ4が通信ネットワークCN1(または図示せぬ他の通信ネットワーク)を利用して通信する総量(Mbps)を記憶する欄である。IO利用量C116は、オートスケールグループ5内の各コンテナ4の入力情報および出力情報の回数(IOPS)を記憶する欄である。
図11を用いて、平均稼働情報テーブルT12について説明する。平均稼働情報テーブルT12は、オートスケールグループ5内の各コンテナ4の稼働情報の平均を管理するテーブルである。平均稼働情報テーブルT12は、計測時刻毎に、かつオートスケールグループ毎に、レコードが作成される。
平均稼働情報テーブルT12は、例えば、時刻C121、オートスケールグループID C122、CPU利用量C123、メモリ利用量C124、ネットワーク利用量C125、IO利用量C126を対応付けて管理する。
時刻C121は、稼働情報(CPU利用量、メモリ利用量、ネットワーク利用量、IO利用量)の計測日時を記憶する欄である。オートスケールグループID C122は、計測対象のオートスケールグループ5を特定する識別情報を記憶する欄である。
CPU利用量C123は、オートスケールグループ5内の各コンテナ4が計算機2のCPU21を利用する平均値(GHz)を記憶する欄である。メモリ利用量C124は、オートスケールグループ5内の各コンテナ4が計算機2のメモリ22を利用する平均値(MB)を記憶する欄である。ネットワーク利用量C125は、オートスケールグループ5内の各コンテナ4が通信ネットワークCN1(または図示せぬ他の通信ネットワーク)を利用して通信する平均量(Mbps)を記憶する欄である。IO利用量C126は、オートスケールグループ5内の各コンテナ4の入力情報および出力情報の平均回数(IOPS)を記憶する欄である。
図12を用いて、総量ベースラインテーブルT13について説明する。総量ベースラインテーブルT13は、総量稼働情報に基づいて生成される総量ベースラインを管理するテーブルである。
総量ベースラインテーブルT13は、例えば、週周期C131、オートスケールグループID C132、CPU利用量C133、メモリ利用量C134、ネットワーク利用量C135、IO利用量C136を対応付けて管理する。総量ベースラインテーブルT13は、周期毎に、かつオートスケールグループ毎にレコードが作成される。
週周期C131は、ベースラインの週周期を保持する欄である。図12に示す例では、毎週月曜日に、かつオートスケールグループ毎に、総量ベースラインを作成することがわかる。
オートスケールグループID C132は、ベースラインの対象となるオートスケールグループ5を特定する識別情報を記憶する欄である。CPU利用量C133は、オートスケールグループ5内の各コンテナ4が計算機2のCPU21を利用する総量のベースライン(GHz)を記憶する欄である。メモリ利用量C134は、オートスケールグループ5内の各コンテナ4が計算機2のメモリ22を利用する総量のベースライン(MB)を記憶する欄である。ネットワーク利用量C135は、オートスケールグループ5内の各コンテナ4が通信ネットワークCN1(または図示せぬ他の通信ネットワーク)を利用して通信する総量のベースライン(Mbps)を記憶する欄である。IO利用量C136は、オートスケールグループ5内の各コンテナ4の入力情報および出力情報の回数のベースライン(IOPS)を記憶する欄である。
図12を用いて、平均ベースラインテーブルT14について説明する。平均ベースラインテーブルT14は、稼働情報の平均に基づいて生成される平均ベースラインを管理するテーブルである。平均ベースラインテーブルT14は、周期毎に、かつオートスケールグループ毎に、レコードが作成される。
平均ベースラインテーブルT14は、例えば、週周期C141、オートスケールグループID C142、CPU利用量C143、メモリ利用量C144、ネットワーク利用量C145、IO利用量C146を対応付けて管理する。
週周期C141は、平均ベースラインの週周期を保持する欄である。オートスケールグループID C142は、ベースラインの対象となるオートスケールグループ5を特定する識別情報を記憶する欄である。CPU利用量C143は、オートスケールグループ5内の各コンテナ4が計算機2のCPU21を利用する平均ベースライン(GHz)を記憶する欄である。メモリ利用量C144は、オートスケールグループ5内の各コンテナ4が計算機2のメモリ22を利用する平均ベースライン(MB)を記憶する欄である。ネットワーク利用量C145は、オートスケールグループ5内の各コンテナ4が通信ネットワークCN1(または図示せぬ他の通信ネットワーク)を利用して通信する平均ベースライン(Mbps)を記憶する欄である。IO利用量C146は、オートスケールグループ5内の各コンテナ4の入力情報および出力情報の平均ベースライン(IOPS)を記憶する欄である。
図14は、稼働情報取得プログラムP10の処理を示すフローチャートである。稼働情報取得プログラムP10は、毎週一定時刻などのように定期的に、計算機2からコンテナ4の稼働情報を取得する。動作の主体を稼働情報取得プログラムP10として説明するが、これに代えて、稼働情報取得部P10または管理サーバ1を動作主体として説明することもできる。
稼働情報取得プログラムP10は、複製制御装置3からオートスケールグループテーブルT30の情報を取得する(S100)。稼働情報取得プログラムP10は、オートスケールグループテーブルT30に記載された各コンテナ4のうち、稼働情報を取得していないコンテナが存在するか確認する(S101)。
稼働情報取得プログラムP10は、稼働情報を取得していないコンテナ4がある場合(S101:YES)、そのコンテナ4の稼働情報を計算機2から取得して、コンテナ稼働情報テーブルT10へ保存し(S102)、ステップS100へ戻る。
稼働情報取得プログラムP10は、全てのコンテナ4から稼働情報を取得すると(S101:NO)、所定の統計処理を実施していないオートスケールグループ5が存在するか確認する(S103)。所定の統計処理とは、ここでは例えば、各稼働情報の総量を算出する処理、および各稼働情報の平均を算出する処理である。
稼働情報取得プログラムP10は、未処理のオートスケールグループ5がある場合(S103:YES)、その未処理のオートスケールグループ5に含まれる各コンテナ4の稼働情報の総和を計算し、総量稼働情報テーブルT11に保存する(S104)。さらに、稼働情報取得プログラムP10は、その未処理のオートスケールグループ5に含まれる各コンテナ4の稼働情報の平均を計算し、平均稼働情報テーブルT12に保存する(S105)。その後、稼働情報取得プログラムP10は、ステップS103へ戻る。
図15は、ベースライン生成プログラムP11の処理を示すフローチャートである。ベースライン生成プログラムP11は、定期的に、オートスケールグループ毎の、総量ベースラインおよび平均ベースラインを生成する。ここでは動作の主体をベースライン生成プログラムP11として説明するが、これに代えて、ベースライン生成部P11または管理サーバ1を動作主体として説明することもできる。
ベースライン生成プログラムP11は、複製制御装置3からオートスケールグループテーブルT30の情報を取得する(S110)。ベースライン生成プログラムP11は、オートスケールグループ5のうちベースラインを更新していないオートスケールグループ5があるか確認する(S111)。
ベースライン生成プログラムP11は、ベースラインを更新していないオートスケールグループ5がある場合(S111:YES)、総量稼働情報テーブルT11に記録された稼働情報を用いて総量ベースラインを生成し、総量ベースラインテーブルT13へ保存する(S112)。
ベースライン生成プログラムP11は、平均稼働情報テーブルT12の稼働情報を用いて平均ベースラインを生成し、平均ベースラインテーブルT14に保存し(S113)、ステップS111へ戻る。
ベースライン生成プログラムP11は、全てのオートスケールグループ5について、総量ベースラインおよび平均ベースラインを更新すると(S111:NO)、本処理を終了する。
図16は、性能劣化予兆検知プログラムP12の処理を示すフローチャートである。性能劣化予兆検知プログラムP12は、稼働情報取得プログラムP10が稼働情報を収集すると、性能劣化(性能障害)の予兆が発生していないか確認する。ここでは動作の主体を性能劣化予兆検知プログラムP12として説明するが、これに代えて、性能劣化予兆検知部P12または管理サーバ1を動作主体として説明することもできる。なお、性能劣化予兆検知プログラムP12を、予兆検知プログラムP12と呼ぶ場合がある。
性能劣化予兆検知プログラムP12は、複製制御装置3からオートスケールグループテーブルT30の情報を取得する(S120)。予兆検知プログラムP12は、各オートスケールグループ5のうち、性能劣化の予兆を判断していないオートスケールグループ5があるか確認する(S121)。
予兆検知プログラムP12は、未判断のオートスケールグループ5がある場合(S121:YES)、総量ベースラインテーブルT13で保持する総量ベースラインと、総量稼働情報テーブルT11で保持する総量稼働情報とを比較する(S122)。なお、図中では、総量稼働情報を「DT」と、総量ベースラインの中央値を「BLT」と略記する場合がある。
予兆検知プログラムP12は、オートスケールグループ5の総量稼働情報の値が、総量ベースラインの範囲内に収まっているか確認する(S123)。図12に示すように、総量ベースラインは、例えば、その中央値に対して±3σの幅を持っている。中央値から3σを差し引いた値が下限値であり、中央値に3σを加えた値が上限値である。
予兆検知プログラムP12は、総量稼働情報の値が総量ベースラインの範囲内に収まっている場合(S123:YES)、ステップS121へ戻る。予兆検知プログラムP12は、総量稼働情報の値が総量ベースラインの範囲内に収まっていない場合(S123:NO)、性能劣化の予兆を検知したことを示す総量ベースライン違反のアラートを発行し(S124)、ステップS121へ戻る。
換言すれば、予兆検知プログラムP12は、総量稼働情報の値が総量ベースラインの範囲外にあるか否かを監視しており(S123)、総量稼働情報の値が総量ベースラインの範囲外にある場合にアラートを出力する(S124)。
予兆検知プログラムP12は、全てのオートスケールグループ5について性能劣化の予兆があるか否かを判定し終えると(S121:NO)、各コンテナ4のうち、性能劣化の予兆を判断していないコンテナ4があるか確認する(S125)。
予兆検知プログラムP12は、未判断のコンテナ4がある場合(S125:YES)、平均ベースラインテーブルT14で保持する平均ベースラインと、コンテナ稼働情報テーブルT10で保持する稼働情報とを比較する(S126)。図中では、平均稼働情報を「DA」と、平均ベースラインを「BLA」と略記する場合がある。
予兆検知プログラムP12は、コンテナ4の稼働情報の値が、平均ベースラインの範囲内に収まっているか確認する(S127)。図13に示すように、平均ベースラインは、例えば、その中央値に対して±3σの幅を持っている。中央値から3σを差し引いた値が下限値であり、中央値に3σを加えた値が上限値である。
予兆検知プログラムP12は、稼働情報の値が平均ベースラインの範囲内に収まっている場合(S127:YES)、ステップS125へ戻る。予兆検知プログラムP12は、稼働情報の値が平均ベースラインの範囲内に収まっていない場合(S127:NO)、性能劣化の予兆を検知したことを示す平均ベースライン違反のアラートを発行し(S128)、ステップS125へ戻る。
換言すれば、予兆検知プログラムP12は、稼働情報の値が平均ベースラインの範囲外にあるか否かを監視しており(S127)、稼働情報の値が平均ベースラインの範囲外にある場合にアラートを出力する(S128)。
図17は、対処プログラムP13の処理を示すフローチャートである。対処プログラムP13は、性能劣化予兆検知プログラムP12が発行したアラートを受け取ると、そのアラートに合致した対策を実施する。ここでは動作の主体を対処プログラムP13として説明するが、これに代えて、対処部P13または管理サーバ1を動作主体として説明することもできる。
対処プログラムP13は、性能劣化予兆検知プログラムP12が発行したアラートを受信する(S130)。図中では、総量ベースライン違反のアラート(総量アラートとも呼ぶ)を「AT」と、平均ベースライン違反のアラート(平均アラートとも呼ぶ)を「AA」と略記する場合がある。
対処プログラムP13は、受信したアラートの種類が、総量ベースライン違反のアラートと平均ベースライン違反のアラートとの両方であるか判定する(S131)。対処プログラムP13は、総量ベースライン違反のアラートと平均ベースライン違反のアラートとの両方のアラートを同時に受信した場合(S131:YES)、各アラートに対応すべく所定の対策をそれぞれ実施する。
すなわち、対処プログラムP13は、総量ベースライン違反のアラートに対応すべく、複製制御装置3に対し、スケールアウトの指示を出す(S132)。複製制御装置3が、総量ベースライン違反のアラートが発行されたオートスケールグループ5に対してスケールアウトを実行すると、そのオートスケールグループ5にコンテナ4が新たに追加されるため、オートスケールグループとしての処理能力が改善する。
続いて対処プログラムP13は、平均ベースライン違反のアラートに対応すべく、アラートの発行されたコンテナ4が設けられている計算機2に対し、コンテナ4の作り直しを指示する(S133)。
詳しくは、対処プログラムP13は、アラートの発行されたコンテナ4と同じ引数(同一イメージ40)で、計算機2に新たにコンテナ4を生成させる。そして、対処プログラムP13は、アラートの原因となったコンテナ4を破棄する。
対処プログラムP13は、総量ベースライン違反のアラートと平均ベースライン違反のアラートの両方のアラートを同時に受信していない場合(S131:NO)、総量ベースライン違反のアラートをステップS130で受信したか確認する(S134)。
対処プログラムP13は、ステップS130で受信したアラートが総量ベースライン違反のアラートである場合(S134:YES)、複製制御装置3に対し、スケールアウトを実行するよう指示する(S135)。
対処プログラムP13は、ステップS130で受信したアラートが総量ベースライン違反のアラートではない場合(S134:NO)、そのアラートが平均ベースライン違反のアラートであるか確認する(S136)。
対処プログラムP13は、ステップS130で受信したアラートが平均ベースライン違反のアラートの場合(S136:YES)、計算機2に対し、コンテナ4の作り直しを要求する。すなわち、ステップS133で述べたと同様に、対処プログラムP13は、平均ベースライン違反のアラートの発生原因となったコンテナと同じ引数でコンテナをデプロイするよう、計算機2に指示する。さらに、対処プログラムP13は、平均ベースライン違反のアラートの発生原因となったコンテナを破棄するよう、計算機2に指示する。
このように構成される本実施例によれば、監視対象のコンテナ4(インスタンス)の生存期間がベースライン生成期間より短い環境の情報システムにおいても、ベースラインを生成でき、そのベースラインを用いて性能劣化の予兆を検出することができ、性能劣化の予兆に対して事前に対応することもできる。
すなわち本実施例では、コンテナ4の寿命がベースライン作成のためには短い環境下であっても、ベースライン作成上、同じオートスケールグループ5に属する各コンテナ4を擬似的に同一のコンテナ4であるとみなすため、性能劣化を予兆するためのベースラインを得ることができる。これにより、情報システムの性能劣化の予兆を検知できるため、信頼性が向上する。
オートスケールグループ5は、同一イメージ40から生成されるコンテナ4のみから構成されるため、ベースライン作成の観点において、同一オートスケールグループ5内の各コンテナ4を同一コンテナとみなすことができる。
本実施例では、総量ベースラインと総量稼働情報を比較することで、オートスケールグループ単位の性能劣化の予兆を検知することができ、さらに、平均ベースラインと各コンテナ4の稼働情報を比較することで、コンテナ単位の性能劣化の予兆を検知することができる。従って、オートスケールグループ単位またはコンテナ単位の少なくともいずれか一方または両方で、性能劣化の予兆を検知できる。
本実施例では、性能劣化の予兆を検知すると、その予兆に適した対策を自動的に実施できるため、性能の劣化を未然に抑制することができ、信頼性が向上する。
なお、本実施例では、複製制御装置3と管理サーバ1を別々の計算機で構成しているが、これに代えて、同一の計算機において複製制御装置の処理と管理サーバの処理とを実行する構成としてもよい。
また、本実施例では、論理的存在であるコンテナ4を監視対象としているが、監視対象はコンテナ4に限定するものではなく、仮想サーバや物理サーバ(ベアメタル)であってもよい。ここで、物理サーバにおけるデプロイは、PXE(Preboot Execution Environment)等のネットワークブートの仕組みを用いて、イメージ管理サーバ上のOSイメージを使用して起動する。
また、本実施例では、監視対象の稼働情報をCPU利用量、メモリ利用量、ネットワーク利用量、IO利用量としているが、稼働情報の種別はこれらに限定するものではなく、稼働情報として取得できるものであれば、他の種類の稼働情報であってもよい。
図18〜図21を用いて第2実施例を説明する。本実施例を含む以下の各実施例は第1実施例の変形例に相当するため、第1実施例との相違を中心に述べる。本実施例では、コンテナ4の設けられている各計算機2の性能差を考慮して、ベースラインを作成するためのグループを管理する。
図18は、本実施例の管理サーバ1Aの構成例を示す。本実施例の管理サーバ1Aは、図8で述べた管理サーバ1とほぼ同様の構成を有するが、記憶装置13に記憶されるコンピュータプログラムP10A,P11A,P12Aが第1実施例のコンピュータプログラムP10,P11,P12と異なる。さらに、本実施例の管理サーバ1Aは、グループ生成プログラムP14と、計算機テーブルT15およびグレード別グループテーブルT16を記憶装置13に保持している。
図19は、情報システム内の各計算機2のグレードを管理する計算機テーブルT15の構成を示す。計算機テーブルT15は、例えば、計算機2を一意に特定する計算機情報を記憶する欄C151と、計算機2の性能を表すグレードを記憶する欄C152とを対応付けて構成される。計算機テーブルT15は、計算機毎にレコードが作られる。
図20は、同一オートスケールグループ5内の計算機2をそのグレード別に分けて管理するグレード別グループテーブルT16の構成を示す。グレード別グループとは、同一のオートスケールグループ5内に属する計算機2をグレード別に分類することで形成される、仮想的なオートスケールグループである。
グレード別グループテーブルT16は、例えば、グループID C161、オートスケールグループID C162、コンテナID C163、計算機情報C164、デプロイ時の引数C165を対応付けて管理する。
グループID C161は、オートスケールグループ5内に存在するグレード別グループを一意に特定する識別情報である。オートスケールグループID C162は、オートスケールグループ5を一意に特定する識別情報である。コンテナID C163は、コンテナ4を一意に特定する識別情報である。計算機情報C164は、コンテナ4が設けられている計算機2を特定する情報である。デプロイ時の引数C165は、コンテナID C163で特定されるコンテナ4を再び作成する場合に使用する管理情報である。グレード別グループテーブルT16は、コンテナ毎にレコードが作られる。
図21は、グループ生成プログラムP14の処理を示すフローチャートである。ここでは動作の主体をグループ生成プログラムP14として述べるが、これに代えて、グループ生成部P14または管理サーバ1Aを動作主体としてもよい。
グループ生成プログラムP14は、複製制御装置3からオートスケールグループテーブルT30の情報を取得する(S140)。グループ生成プログラムP14は、オートスケールグループ5のうち、グレード別のグループを生成していないオートスケールグループ5があるか確認する(S141)。
グループ生成プログラムP14は、グレード別のグループ生成処理を行っていないオートスケールグループ5がある場合(S141:YES)、そのオートスケールグループ5内に、グレードの異なる計算機2に設けられたコンテナ4が含まれているか確認する(S142)。詳しくは、グループ生成プログラムP14は、オートスケールグループテーブルT30の計算機情報の欄C303と計算機テーブルT15の計算機情報の欄C151とを照合することで、同一オートスケールグループ中に別グレードの計算機を利用するコンテナが存在するか判定する(S142)。
グループ生成プログラムP14は、同一オートスケールグループ中に別グレードの計算機2を利用するコンテナ4が存在する場合(S142:YES)、同一オートスケールグループであって、かつ同一グレードの計算機を利用するコンテナ4からグレード別グループを作成する(S143)。
グループ生成プログラムP14は、同一オートスケールグループ中に別グレードの計算機2を利用するコンテナ4が存在しない場合(S142:NO)、オートスケールグループに一致するグルーピングでグレード別グループを生成する(S144)。ステップS144では、形式的にグレード別グループを生成するが、その実態はオートスケールグループと同一である。
グループ生成プログラムP14は、ステップS141へ戻り、オートスケールグループ5のうちグレード別のグループ生成処理を行っていないものがあるか確認する。グループ生成プログラムP14は、すべてのオートスケールグループ5についてグレード別のグループ生成処理を実施すると(S141:NO)、処理を終了する。
例えば図19、図20の例で説明する。コンテナID「Cont001」「Cont002」を持つコンテナ4は、オートスケールグループID「AS01」が同一であり、かつ計算機2のグレードも共に「Gold」で同一である。したがって、コンテナID「Cont001」[Cont002]を持つ2つのコンテナ4は、、いずれも、同一のグレード別グループ「AS01a」に属する。
これに対し、オートスケールグループ「AS02」に含まれる2つのコンテナ(Cont003,Cont004)は、それぞれ計算機2のグレードが異なる。一方のコンテナ(Cont003)の設けられた計算機(C1)のグレードは「Gold」であるが、他方のコンテナ(Cont004)の設けられた計算機(C3)のグレードは「Silver」である。
そこで、オートスケールグループ「AS02」は、グレード別のグループ「AS02a」,「AS02b」に仮想的に分割される。ベースラインの生成や性能劣化の予兆検知などは、グレード別に分割されたオートスケールグループ単位で実行される。
このように構成される本実施例も第1実施例と同様の作用効果を奏する。本実施例では、同一のオートスケールグループ内に計算機のグレード別のグループを仮想的に生成し、そのグレード別のオートスケールグループ単位でベースラインなどを生成する。これにより、本実施例によれば、均一な性能の計算機上で動作するコンテナ群から、総量ベースラインと平均ベースラインを生成できる。この結果、本実施例では、不均一な性能の計算機で構成されており、かつ、監視対象のコンテナの生存期間がベースライン生成期間より短い環境の情報システムにおいても、ベースラインを生成して、性能劣化の予兆を検出することができ、性能劣化の予兆に対して事前に対応が可能となる。
図22を用いて第3実施例を説明する。本実施例は、サイト間で稼働情報などを引き継ぐ場合を説明する。
図22は、複数の情報システムを切り替え可能に接続したフェイルオーバシステムの全体図である。通常時に使用されるプライマリサイトST1と異常時に使用されるセカンダリサイトST2とは、サイト間ネットワークCN2を介して接続されている。各サイト内の構成は、基本的に同一であるため、説明を省略する。
何らかの障害が生じた場合、プライマリサイトST1からセカンダリサイトST2へ稼働システムが切り替えられる。セカンダリサイトST2は、プライマリサイトST1で稼働していたコンテナ群と同一のコンテナ群を、通常時から備えることもできる(ホットスタンバイ)。または、セカンダリサイトST2は、障害発生時に、プライマリサイトST1で稼働していたコンテナ群と同一のコンテナ群を起動させることもできる(コールドスタンバイ)。
プライマリサイトST1からセカンダリサイトST2へ切り替える場合、プライマリサイトST1の管理サーバ1からセカンダリサイトST2の管理サーバ1に、コンテナ稼働情報テーブルT10などを送信する。これにより、セカンダリサイトST2の管理サーバ1は、稼働実績の無いコンテナ群について速やかにベースラインを生成したり、性能劣化の予兆を検知したりすることができる。
プライマリサイトST1からセカンダリサイトST2へ、コンテナ稼働情報テーブルT10に加えて、総量稼働情報テーブルT11、平均稼働情報テーブルT12、総量ベースラインテーブルT13、平均ベースラインテーブルT14も送信すれば、セカンダリサイトST2の管理サーバ1での演算処理の負荷を軽減できる。
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに、本実施例では、フェイルオーバシステムに適用することで、フェイルオーバ時に速やかに性能劣化の予兆の監視を開始することができ、信頼性が向上する。なお、障害が修復されて、セカンダリサイトST2からプライマリサイトST1へ切り替える場合(フェイルバック時)、セカンダリサイトST2の管理サーバ1からプライマリサイトST1の管理サーバ1に、セカンダリサイトST2のコンテナ稼働情報テーブルT10などを送信することもできる。これにより、プライマリサイトST1に切り替わった場合も、早期に性能劣化の予兆検知を開始することができる。
なお、本発明は、上記各実施例に限定されず、様々な変形例を含む。例えば、上記各実施例は本発明を分かりやすく説明したものであり、本発明は実施例で説明した全ての構成を備える必要はない。実施例で述べた構成の少なくとも一部を、他の構成に変更したり、削除したりすることができる。さらに、実施例に新構成を追加することもできる。
実施例で述べた機能や処理などの一部または全部を、ハードウェア回路として実現してもよいし、ソフトウェアとして実現してもよい。コンピュータプログラムや各種データは、計算機内の記憶装置に限らず、計算機外部の記憶装置へ格納してもよい。
1,1A:管理サーバ(管理計算機)、2:計算機、3:複製制御装置、4:コンテナ(仮想演算部)、5:オートスケールグループ、40:イメージ、P10:稼働情報取得部、P11:ベースライン生成部、P12:性能劣化予兆検知部、P13:対処部

Claims (15)

  1. 一つ以上の計算機と前記計算機に仮想的に設けられる一つ以上の仮想演算部とを含む情報システムの性能劣化の予兆を検知して管理する管理計算機であって、
    前記仮想演算部の数を自動的に調整するオートスケールの管理単位であるオートスケールグループに属する全ての仮想演算部から稼働情報を取得する稼働情報取得部と、
    前記稼働情報取得部の取得した前記各稼働情報から、オートスケールグループ毎に、性能劣化の予兆を検知するための基準値を生成する基準値生成部と、
    前記基準値生成部の生成した前記基準値と前記稼働情報取得部の取得した前記仮想演算部の稼働情報とから、前記各仮想演算部の性能劣化の予兆を検知する検知部と、
    を備える管理計算機。
  2. 前記基準値生成部は、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の平均に基づいて、前記基準値としての平均基準値を生成する、
    請求項1に記載の管理計算機。
  3. 前記検知部は、前記オートスケールグループ毎に、オートスケールグループに属する各仮想演算部の稼働情報と前記平均基準値とをそれぞれ比較して、性能劣化の予兆を検知する、
    請求項2に記載の管理計算機。
  4. 予兆の検知された性能劣化へ対処する対処部を備えており、
    前記検知部が、前記オートスケールグループ内の全ての仮想演算部のうち稼働情報が前記平均基準値から外れている仮想演算部について性能劣化の予兆を検知したと判定すると、その仮想演算部を再起動する、
    請求項3に記載の管理計算機。
  5. 前記基準値生成部は、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量に基づいて、前記基準値としての総量基準値を生成する、
    請求項4に記載の管理計算機。
  6. 前記検知部は、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量と前記総量基準値とを比較して、性能劣化の予兆を検知する、
    請求項5に記載の管理計算機。
  7. 予兆の検知された性能劣化へ対処する対処部を備えており、
    前記検知部が、前記稼働情報の総量が前記総量基準値から外れており、性能劣化の予兆を検知した場合に、前記対処部はスケールアウトの実行を指示する、
    請求項6に記載の管理計算機。
  8. 前記基準値生成部は、
    前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量に基づいて、前記基準値としての総量基準値を生成するか、
    または、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の平均に基づいて、前記基準値としての平均基準値を生成し、
    前記検知部は、
    前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量と前記総量基準値とを比較して、性能劣化の予兆を検知するか、
    または、前記オートスケールグループ毎に、オートスケールグループに属する各仮想演算部の稼働情報と前記平均基準値とをそれぞれ比較して、性能劣化の予兆を検知し、
    予兆の検知された性能劣化へ対処する対処部を備えており、
    前記対処部は、
    前記検知部が、前記稼働情報の総量が前記総量基準値から外れており、性能劣化の予兆を検知した場合に、スケールアウトの実行を指示し、
    前記検知部が、前記オートスケールグループ内の全ての仮想演算部のうち、稼働情報が前記平均基準値から外れている仮想演算部について性能劣化の予兆を検知したと判定すると、その仮想演算部を再起動する、
    請求項1に記載の管理計算機。
  9. 前記オートスケールグループ内の前記仮想演算部は、同一の起動用管理情報から生成されている、
    請求項1〜8のいずれか一項に記載の管理計算機。
  10. 前記基準値生成部は、前記オートスケールグループ内に性能の異なる計算機が含まれている場合は、前記オートスケールグループ内において前記計算機の性能毎のグループについて、性能劣化の予兆を検知するための基準値を生成する、
    請求項1〜8のいずれか一項に記載の管理計算機。
  11. フェイルオーバの開始前に、他サイトの管理計算機に向けて、少なくとも前記基準値を送信する、
    請求項10に記載の管理計算機。
  12. 一つ以上の計算機と前記計算機に仮想的に設けられる一つ以上の仮想演算部を含む情報システムの性能劣化の予兆を管理計算機により検知して管理する性能劣化方法であって、
    前記管理計算機は、
    前記仮想演算部の数を自動的に調整するオートスケールの管理単位であるオートスケールグループに属する全ての仮想演算部から稼働情報を取得するステップと、
    前記取得した前記各稼働情報から、オートスケールグループ毎に、性能劣化の予兆を検知するための基準値を生成するステップと、
    前記生成した前記基準値と前記取得した前記仮想演算部の稼働情報とから、前記各仮想演算部の性能劣化の予兆を検知するステップと、
    を実行する性能劣化方法。
  13. さらに、予兆の検知された性能劣化へ対処するステップを備える、
    請求項12に記載の性能劣化方法。
  14. 前記基準値を生成するステップは、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量に基づいて、前記基準値としての総量基準値を生成し、
    前記性能劣化の予兆を検知するステップは、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の総量と前記総量基準値とを比較して、性能劣化の予兆を検知し、
    前記性能劣化へ対処するステップは、前記稼働情報の総量が前記総量基準値から外れており、性能劣化の予兆が検知された場合に、スケールアウトの実行を指示する、
    請求項13に記載の性能劣化方法。
  15. 前記基準値を生成するステップは、前記オートスケールグループ毎に、オートスケールグループに属する全ての仮想演算部の稼働情報の平均に基づいて、前記基準値としての平均基準値を生成し、
    前記性能劣化の予兆を検知するステップは、前記オートスケールグループ毎に、オートスケールグループに属する各仮想演算部の稼働情報と前記平均基準値とをそれぞれ比較して、性能劣化の予兆を検知し、
    前記性能劣化へ対処するステップは、前記オートスケールグループ内の全ての仮想演算部のうち、稼働情報が前記平均基準値から外れている仮想演算部について性能劣化の予兆が検知されると、その仮想演算部を再起動する、
    請求項13に記載の性能劣化方法。
JP2018507814A 2016-03-28 2016-03-28 管理計算機および性能劣化予兆検知方法 Active JP6578055B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/059801 WO2017168484A1 (ja) 2016-03-28 2016-03-28 管理計算機および性能劣化予兆検知方法

Publications (2)

Publication Number Publication Date
JPWO2017168484A1 true JPWO2017168484A1 (ja) 2018-07-12
JP6578055B2 JP6578055B2 (ja) 2019-09-18

Family

ID=59963587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018507814A Active JP6578055B2 (ja) 2016-03-28 2016-03-28 管理計算機および性能劣化予兆検知方法

Country Status (3)

Country Link
US (1) US20180203784A1 (ja)
JP (1) JP6578055B2 (ja)
WO (1) WO2017168484A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126927B2 (en) * 2017-11-24 2021-09-21 Amazon Technologies, Inc. Auto-scaling hosted machine learning models for production inference
JP7286995B2 (ja) * 2019-02-19 2023-06-06 日本電気株式会社 監視システム、監視方法および監視プログラム
US10972548B2 (en) * 2019-09-09 2021-04-06 International Business Machines Corporation Distributed system deployment
JP7331581B2 (ja) * 2019-09-24 2023-08-23 日本電気株式会社 監視装置、監視方法、およびプログラム
JP7552433B2 (ja) 2021-02-25 2024-09-18 富士通株式会社 コンテナ管理方法およびコンテナ管理プログラム
JPWO2023084777A1 (ja) * 2021-11-15 2023-05-19

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243162A (ja) * 2010-05-21 2011-12-01 Mitsubishi Electric Corp 台数制御装置、台数制御方法及び台数制御プログラム
JP2012208781A (ja) * 2011-03-30 2012-10-25 Internatl Business Mach Corp <Ibm> 情報処理システム、情報処理装置、スケーリング方法、プログラムおよび記録媒体
JP2014078166A (ja) * 2012-10-11 2014-05-01 Fujitsu Frontech Ltd 情報処理装置、ログ出力制御方法、およびログ出力制御プログラム
JP2014219859A (ja) * 2013-05-09 2014-11-20 日本電信電話株式会社 分散処理システムおよび分散処理方法
JP2014229253A (ja) * 2013-05-27 2014-12-08 株式会社エヌ・ティ・ティ・データ マシン管理システム、管理サーバ、マシン管理方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120071205A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 가상머신 서버와 노드 운영방법 및 그 장치
JP6248560B2 (ja) * 2013-11-13 2017-12-20 富士通株式会社 管理プログラム、管理方法、および管理装置
JP6440203B2 (ja) * 2015-09-02 2018-12-19 Kddi株式会社 ネットワーク監視システム、ネットワーク監視方法およびプログラム
US10521315B2 (en) * 2016-02-23 2019-12-31 Vmware, Inc. High availability handling network segmentation in a cluster

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243162A (ja) * 2010-05-21 2011-12-01 Mitsubishi Electric Corp 台数制御装置、台数制御方法及び台数制御プログラム
JP2012208781A (ja) * 2011-03-30 2012-10-25 Internatl Business Mach Corp <Ibm> 情報処理システム、情報処理装置、スケーリング方法、プログラムおよび記録媒体
JP2014078166A (ja) * 2012-10-11 2014-05-01 Fujitsu Frontech Ltd 情報処理装置、ログ出力制御方法、およびログ出力制御プログラム
JP2014219859A (ja) * 2013-05-09 2014-11-20 日本電信電話株式会社 分散処理システムおよび分散処理方法
JP2014229253A (ja) * 2013-05-27 2014-12-08 株式会社エヌ・ティ・ティ・データ マシン管理システム、管理サーバ、マシン管理方法、及びプログラム

Also Published As

Publication number Publication date
WO2017168484A1 (ja) 2017-10-05
US20180203784A1 (en) 2018-07-19
JP6578055B2 (ja) 2019-09-18

Similar Documents

Publication Publication Date Title
JP6578055B2 (ja) 管理計算機および性能劣化予兆検知方法
JP5834939B2 (ja) プログラム、仮想マシン制御方法、情報処理装置および情報処理システム
CN109815049B (zh) 节点宕机恢复方法、装置、电子设备及存储介质
JP5967215B2 (ja) 情報処理装置、プログラムおよび仮想マシン移動方法
US9229840B2 (en) Managing traces to capture data for memory regions in a memory
JP5305040B2 (ja) サーバ計算機の切替方法、管理計算機及びプログラム
JP2017201470A (ja) 設定支援プログラム、設定支援方法及び設定支援装置
CN114564284B (zh) 虚拟机的数据备份方法、计算机设备及存储介质
Huang et al. Metastable failures in the wild
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
CN111800304A (zh) 进程运行的监测方法、存储介质和虚拟装置
CN108292342A (zh) 向固件中的侵入的通知
CN112199240A (zh) 一种节点故障时进行节点切换的方法及相关设备
CN110457907A (zh) 一种固件程序检测方法和装置
JP6124644B2 (ja) 情報処理装置および情報処理システム
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
TWI652622B (zh) 電子計算裝置、調整一記憶體回收函式之觸發機制之方法及其電腦程式產品
TWI469573B (zh) 系統錯誤處理方法與使用其之伺服器系統
CN114327662A (zh) 操作系统的处理方法及装置、存储介质和处理器
CN111090491A (zh) 虚拟机任务状态的恢复方法、装置及电子设备
WO2020242688A1 (en) Computing device operational control using monitored energy storage device health parameters
CN117971564B (zh) 数据恢复方法、装置、计算机设备及存储介质
US10776036B2 (en) System and method for efficient restore
JP7048890B2 (ja) 情報処理装置、情報収集プログラム及び情報収集方法
WO2019167157A1 (ja) リソース制御装置、リソース制御方法及びリソース制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190823

R150 Certificate of patent or registration of utility model

Ref document number: 6578055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150