WO2011043447A1 - 運用監視装置、運用監視方法及びプログラム記憶媒体 - Google Patents

運用監視装置、運用監視方法及びプログラム記憶媒体 Download PDF

Info

Publication number
WO2011043447A1
WO2011043447A1 PCT/JP2010/067704 JP2010067704W WO2011043447A1 WO 2011043447 A1 WO2011043447 A1 WO 2011043447A1 JP 2010067704 W JP2010067704 W JP 2010067704W WO 2011043447 A1 WO2011043447 A1 WO 2011043447A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance information
representative
collection
performance
operation monitoring
Prior art date
Application number
PCT/JP2010/067704
Other languages
English (en)
French (fr)
Inventor
亜紀子 井伊
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to CN201080045376.4A priority Critical patent/CN102576326B/zh
Priority to JP2011535469A priority patent/JP5527324B2/ja
Priority to EP10822117.7A priority patent/EP2487593B1/en
Priority to US13/057,849 priority patent/US20110218770A1/en
Publication of WO2011043447A1 publication Critical patent/WO2011043447A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3096Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents wherein the means or processing minimize the use of computing system or of computing system component resources, e.g. non-intrusive monitoring which minimizes the probe effect: sniffing, intercepting, indirectly deriving the monitored data from other directly available data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Definitions

  • the present invention relates to an operation monitoring apparatus, an operation monitoring method, and a program storage medium for monitoring a plurality of types of performance information of an operation monitoring target machine.
  • An operation monitoring apparatus and an operation monitoring method for monitoring a plurality of types of performance information of an operation monitoring target machine are known. Normally, in this type of operation monitoring apparatus, a threshold is set for each of a plurality of types of performance information, and whether or not each piece of performance information exceeds the threshold is monitored. Then, when any performance information exceeds a threshold, the operation monitoring apparatus detects this as an abnormality and notifies the administrator of the abnormality.
  • various types of performance information must be collected at short intervals in order to perform more accurate operation monitoring. For this reason, there is a problem that the load for collecting performance information is increased.
  • performance information with strong correlation is grouped, representative performance information is selected from the grouped performance information, and the selected performance information is focused on.
  • An operation monitoring apparatus for monitoring has been proposed (see, for example, JP-A-2003-263342). According to such an operation monitoring apparatus, since the performance information to be collected is limited, there is an advantage that the load for collecting the performance information is reduced.
  • An object of the present invention is to solve the above-mentioned problems, group a plurality of types of performance information, and in an operation monitoring apparatus that mainly monitors representative performance information among the grouped performance information. It is an object of the present invention to provide an operation monitoring apparatus, an operation monitoring method, and a program storage medium that can efficiently monitor abnormalities in performance information other than the representative without increasing the monitoring load at the time.
  • the operation monitoring apparatus of the present invention includes a performance information collecting unit that collects a plurality of types of performance information of an operation monitoring target machine, a performance analysis unit that analyzes the performance information collected by the performance information collecting unit, and the operation monitoring target Among the performance information grouped by the performance information grouping means, the performance information grouping means for grouping a plurality of types of the performance information of the machine based on a predetermined condition, for the representative performance information, The performance information collecting unit collects the performance information at a predetermined interval. For performance information other than the representative, the collection by the performance information collecting unit is stopped, or the performance information collection is performed at an interval longer than the representative performance information.
  • the performance information other than the representative is collected. For it, or to start collection by the performance information collection means, or includes a monitoring condition changing means for collecting the performance information collection means in normal interval shorter than the time.
  • the operation monitoring method of the present invention collects a plurality of types of performance information of the operation monitoring target machine, analyzes the collected performance information, and uses the plurality of types of performance information of the operation monitoring target machine based on a predetermined condition.
  • the representative performance information is controlled to have a predetermined interval for collecting the performance information, and the performance information other than the representative is the performance information.
  • the collection by the collection procedure is stopped, or the performance information collection interval is controlled to be longer than the representative performance information, and the variation rate or variation amount of the representative performance information is further controlled.
  • the performance information other than the representative is started to be collected by the performance information collection procedure, or the performance information collection interval is passed. Controlled to be shorter intervals than when.
  • the program recording medium of the present invention collects a plurality of types of performance information of the operation monitoring target machine in a computer, analyzes the collected performance information, and sets the plurality of types of performance information of the operation monitoring target machine to a predetermined condition.
  • the interval for collecting the performance information is controlled to be a predetermined interval, and for the performance information other than the representative, The collection by the performance information collection procedure is stopped, or the performance information collection interval is controlled to be longer than the representative performance information, and the variation rate of the representative performance information is further controlled.
  • the fluctuation amount exceeds a predetermined threshold, for performance information other than the representative, collection by the performance information collection procedure is started, or the performance information Recording the operation monitoring program for executing processing for controlling the interval for collecting broadcast so that normal interval shorter than the time.
  • a plurality of types of performance information are grouped, and the monitoring load during normal operation is increased in an operation monitoring apparatus that focuses on representative performance information among the grouped performance information. Therefore, it is possible to efficiently monitor abnormalities in performance information other than the representative.
  • processing operations executed by the operation monitoring apparatus and operation monitoring method of the present invention described below are realized by processing, means, and functions executed by a computer in accordance with instructions of a program (software).
  • a program software
  • the operation monitoring apparatus of the present invention is configured by a host computer (operation monitoring target machine) and a monitoring manager that are communicably connected via a network
  • the operation monitoring program of the present invention is a program for a host computer
  • the operation monitoring apparatus of the present invention is configured by dividing the program into the monitoring manager program and installing each program in the host computer computer and the monitoring manager computer.
  • the operation monitoring apparatus of the present invention is configured by installing the operation monitoring program of the present invention on the host computer computer. Is done. Also, install the monitoring manager program on multiple monitoring manager computers for distributed processing, or monitor and monitor multiple host computer computers with the host computer program installed on one monitoring manager. Also good.
  • each process and means in the present invention are realized by specific means in which the program and the computer cooperate.
  • all or part of the program is provided by, for example, a magnetic disk, optical disk, semiconductor memory, or any other computer-readable recording medium, and the program read from the recording medium is installed in the computer and executed.
  • the program can also be loaded and executed directly on a computer through a communication line without using a recording medium.
  • FIG. 1 is a block diagram showing a basic configuration of an operation monitoring apparatus according to an embodiment of the present invention.
  • the operation monitoring apparatus according to the present embodiment includes, for example, a host computer 1 that is an operation monitoring target machine and a monitoring manager 2 that is communicably connected to the host computer 1.
  • the operation monitoring apparatus of this embodiment includes a performance information collection unit 11 that collects a plurality of types of performance information of the host computer 1, and a performance analysis unit 21 that analyzes the performance information collected by the performance information collection unit 11.
  • a performance information grouping unit 22 that groups a plurality of types of performance information of the host computer 1 based on a predetermined condition, and a monitoring condition that changes the type of performance information collected by the performance information collection unit 11 and the collection interval Change units 12 and 23.
  • the monitoring condition changing units 12 and 23 cause the performance information collecting unit 11 to collect representative performance information among the performance information grouped by the performance information grouping unit 22 at a predetermined interval. Further, the monitoring condition changing units 12 and 23 stop collecting performance information other than the representative by the performance information collecting unit 11 or collect it in the performance information collecting unit 11 at intervals longer than the representative performance information.
  • the monitoring condition changing units 12 and 23 start collecting performance information other than the representative by the performance information collecting unit 11
  • the performance information collection unit 11 collects the information at intervals shorter than normal.
  • a plurality of types of performance information can be grouped, and representative performance information among the grouped performance information can be intensively monitored. Thereby, the monitoring load at the normal time can be reduced.
  • the representative performance information greatly fluctuates, monitoring of performance information other than the representative can be started or the monitoring interval can be shortened. This makes it possible to efficiently monitor abnormalities in performance information other than the representative without increasing the normal monitoring load.
  • FIG. 2 is a block diagram showing a specific configuration of the operation monitoring apparatus according to the present embodiment.
  • the operation monitoring apparatus according to the present embodiment includes a host computer 1 and a monitoring manager 2.
  • the host computer 1 includes a performance information collection unit 11 and a monitoring condition change unit 12.
  • the monitoring manager 2 includes a performance analysis unit 21, a performance information grouping unit 22, a monitoring condition changing unit 23, a grouping information storage unit 24, and an administrator dialogue unit 25.
  • the performance information collection unit 11 of the host computer 1 collects multiple types of performance information of the host computer 1.
  • the performance information collection unit 11 collects business processing time such as WEB service and business service executed on the host computer 1, CPU load of the machine, memory usage rate, and the like.
  • the monitoring condition changing unit 12 of the host computer 1 changes the type of performance information collected by the performance information collecting unit 11 and the performance information collection interval in response to an instruction from the monitoring condition changing unit 23 provided in the monitoring manager 2.
  • the performance analysis unit 21 of the monitoring manager 2 analyzes the performance information collected by the performance information collection unit 11 of the host computer 1. For example, the performance analysis unit 21 analyzes the variation rate with respect to the predetermined performance information, determines that an abnormality occurs when the variation rate exceeds a predetermined threshold, and reports an abnormality to the administrator or the like.
  • the performance analysis unit 21 calculates a conversion function between a plurality of pieces of performance information and generates a predetermined correlation model.
  • the performance information grouping unit 22 of the monitoring manager 2 refers to the correlation model generated by the performance analysis unit 21 and groups performance information having a strong correlation. Then, the performance information grouping unit 22 registers the grouped performance information in the grouping information storage unit 24.
  • the administrator dialogue unit 25 of the monitoring manager 2 indicates the type of performance information grouped by the performance information grouping unit 22 to the administrator or the like, and causes the type of performance information to be representative in the group to be selected. The type of representative performance information selected by the administrator or the like is registered in the grouping information storage unit 24.
  • the administrator dialogue unit 25 collects performance information that is representative during normal times, whether or not performance information other than the representative is collected during normal times, collection interval of performance information other than the representative during normal times, and representative performance Lets the administrator select various monitoring conditions such as the collection interval of performance information other than the representative when information changes.
  • Various monitoring conditions selected by the administrator or the like are registered in the grouping information storage unit 24.
  • the monitoring condition changing unit 23 of the monitoring manager 2 periodically checks information on grouping information and monitoring conditions registered in the grouping information storage unit 24. Then, the monitoring condition changing unit 23 transmits the changed monitoring condition to the monitoring condition changing unit 12 of the host computer 1 in accordance with newly registered content or updated content, and is collected by the performance information collecting unit 11. Change the type of performance information to be collected and the collection interval.
  • the monitoring condition changing unit 23 also transmits the changed monitoring condition to the monitoring condition changing unit 12 of the host computer 1 even when there is an instruction to change the monitoring condition from the performance analysis unit 21. Change the type of performance information to be collected and the collection interval. Accordingly, the monitoring condition changing unit 23 can cause the performance information collecting unit 11 to collect representative performance information among the performance information grouped by the performance information grouping unit 22 at a predetermined interval. Further, the monitoring condition changing unit 23 causes the performance information collecting unit 11 to stop collecting performance information other than the representative, or to collect the performance information collecting unit 11 at intervals longer than the representative performance information. Can do.
  • FIG. 3 is a block diagram showing a detailed configuration of the performance analysis unit 21 of the operation monitoring apparatus according to the embodiment of the present invention.
  • the performance analysis unit 21 of the present embodiment includes an information collection unit 211, a performance information storage unit 212, a correlation model generation unit 213, a correlation model storage unit 214, and a performance value variation rate analysis unit. 215 and a performance prediction unit 216.
  • the information collection unit 211 receives the performance information collected by the performance information collection unit 11 of the host computer 1 and accumulates it in the performance information accumulation unit 212.
  • the correlation model generation unit 213 extracts performance information for a certain period from the performance information storage unit 212 and calculates a time-series conversion function between any two pieces of performance information, thereby indicating performance information indicating the operation state of the host computer 1.
  • a predetermined correlation model is generated (see FIG. 4).
  • the correlation model storage unit 214 stores the correlation model generated by the correlation model generation unit 213.
  • the performance information grouping unit 22 groups performance information having a strong correlation based on the conversion function of the correlation model accumulated here.
  • the performance value variation rate analysis unit 215 acquires the monitoring condition set by the administrator or the like from the grouping information storage unit 24, and monitors the variation in the representative performance information. Specifically, the performance value fluctuation rate analysis unit 215 obtains performance information from the performance information storage unit 212 at a predetermined interval for the representative performance information, and calculates the fluctuation rate. Then, the performance value variation rate analysis unit 215, when the variation rate of the representative performance information exceeds a predetermined threshold, the monitoring condition change unit so as to change the monitoring condition for performance information other than the representative of the same group. 23 and 12, and the type and collection interval of performance information collected by the performance information collection unit 11 are changed.
  • the performance prediction unit 216 predicts performance information other than the representative based on the conversion function stored in the correlation model storage unit 214 and the measured value of the representative performance information. According to such a performance prediction unit 216, even when the performance information collection unit 11 does not collect performance information other than the representative, it is possible to show the predicted performance value to the administrator. For example, when the performance information collecting unit 11 is collecting performance information other than the representative, the performance information other than the representative acquired is shown to the administrator, and the performance information collecting unit 11 collects the performance information other than the representative. If not, performance information other than the representative predicted by the performance prediction unit 216 can be shown to the administrator or the like. Next, processing procedures of various processes executed in the operation monitoring apparatus according to the present embodiment will be described with reference to FIGS. FIG.
  • step S101 the correlation model generation unit 213 of the performance analysis unit 21 reads the performance information history from the performance information storage unit 212 (step S101), and unanalyzed performance information is stored. It is determined whether or not there is (step S102).
  • step S102 the correlation model generation unit 213 calculates a conversion function between other performance information regarding the unanalyzed performance information (step S103), and the function An error in approximation is calculated (step S104), and a correlation model is added to the correlation model storage unit 214 (step S105).
  • FIG. 5 is a flowchart showing an administrator interaction process of the operation monitoring apparatus according to the embodiment of the present invention.
  • the administrator interaction unit 25 displays the types of performance information grouped by the performance information grouping unit 22 on the administrator screen (step S201). Let the administrator etc. select the type of performance information that is representative in the group.
  • step S202 / Yes when a selection operation by an administrator or the like is performed (step S202 / Yes), the type of representative performance information selected is registered in the grouping information storage unit 24 (step S203).
  • the administrator dialogue unit 25 becomes a representative performance information collection interval at the normal time, whether or not performance information other than the representative is collected at the normal time, a collection interval of performance information other than the representative at the normal time, and the representative.
  • Various monitoring conditions such as the collection interval of performance information other than the representative when the performance information fluctuates are displayed on the administrator screen (step S204), and the administrator or the like is allowed to select various monitoring conditions.
  • the selected various monitoring conditions are registered in the grouping information storage unit 24 (step S206).
  • FIG. 6 is a flowchart showing monitoring condition change processing of the operation monitoring apparatus according to the embodiment of the present invention.
  • the monitoring condition changing unit 23 performs grouping information registered in the grouping information accumulating unit 24 and monitoring conditions (normal condition monitoring condition and fluctuation condition monitoring condition). ) Is periodically confirmed (step S301). Further, the monitoring condition changing unit 23 determines whether or not the variation rate of the representative performance information has exceeded a predetermined threshold based on the monitoring condition changing instruction from the performance analyzing unit 21 (step S302). Here, when it is determined that the variation rate of the representative performance information does not exceed the predetermined threshold (No in step S302), the monitoring condition changing unit 23 sets the normal monitoring condition to the monitoring condition of the host computer 1. The data is transmitted to the changing unit 12 and the performance information collecting unit 11 collects performance information under normal monitoring conditions (step S303).
  • FIG. 7 is a flowchart showing the performance information display process of the operation monitoring apparatus according to the embodiment of the present invention. As shown in this figure, in the performance information display process, first, it is determined whether or not there is a performance display request from an administrator or the like (step S401).
  • step S402 when it is determined that there is a performance display request from an administrator or the like, it is determined whether or not the performance information for which the display request has been made is representative performance information (step S402). If it is determined that the performance information is representative (step S402 / Yes), the representative performance information actually acquired by the performance information collection unit 11 is displayed on the administrator screen (step S403). On the other hand, when it is determined that the performance information is not representative (step S402 / No), it is determined whether or not the performance information collection unit 11 is collecting performance information other than the representative (step S404). If it is determined that the performance information collection unit 11 is collecting performance information other than the representative (Yes in step S404), the performance information other than the representative actually acquired by the performance information collection unit 11 is for the administrator.
  • FIG. 8 is a block diagram illustrating a usage example of the operation monitoring apparatus according to the embodiment of the present invention.
  • the usage example shown in this figure shows a case where a plurality of host computers 1 are monitored by one monitoring manager 2. In this case, a host computer program is installed in each of the plurality of host computers 1, and a monitoring manager program is installed in the monitoring manager 2.
  • FIG. 8 is a block diagram illustrating a usage example of the operation monitoring apparatus according to the embodiment of the present invention.
  • the usage example shown in this figure shows a case where a plurality of host computers 1 are monitored by one monitoring manager 2. In this case, a host computer program is installed in each of the plurality of host computers 1, and a monitoring manager program is installed in the monitoring manager 2.
  • FIG. 8 is a block diagram illustrating a usage example of the operation monitoring apparatus according to the embodiment of the present invention.
  • the usage example shown in this figure shows a case where a plurality of host computers 1 are monitored by one monitoring manager 2. In this case, a host computer program is installed
  • FIG. 9 is an explanatory diagram illustrating an example of performance information grouped in the operation monitoring apparatus according to the embodiment of the present invention.
  • the CPU load, the processing time of the business 1 and the memory usage rate A are monitored as performance information.
  • Each piece of performance information changes with time series, and this piece of performance information is collected by the performance information collection unit 11 of the host computer 1 and provided to the performance analysis unit 21 of the monitoring manager 2.
  • the performance analysis unit 21 accumulates each piece of performance information and generates a predetermined correlation model based on the accumulated performance information.
  • the performance information grouping unit 22 of the monitoring manager 2 groups the performance information on the assumption that there is a correlation between the CPU load of the host computer 1, the processing time of the business 1, and the memory usage rate A.
  • the administrator dialogue unit 25 presents the grouped performance information types to the administrator or the like. As a result, the administrator or the like can select the type of performance information that is representative in the group. Here, it is assumed that the CPU load is selected as representative performance information. With respect to representative CPU load performance data, collection of performance information is continued at regular intervals. In addition, the administrator or the like is required to select performance information monitoring conditions other than the CPU load represented in the group.
  • the administrator or the like monitors the processing time of the business 1 at a time interval that is three times longer than the monitoring interval for monitoring the CPU load.
  • a selection operation is performed so that monitoring is not performed unless there is a change in the representative CPU load.
  • the administrator or the like has the same time interval as the monitoring interval for monitoring the CPU load for the processing time of the business 1 and the memory usage rate A The selection operation is performed so that monitoring is performed at.
  • the monitoring condition selected by the administrator or the like is notified from the administrator dialogue unit 25 to the performance information grouping unit 22.
  • the performance information grouping unit 22 registers the monitoring condition selected by the administrator or the like in the grouping information storage unit 24.
  • the monitoring condition changing unit 23 periodically checks the information, and in accordance with newly registered contents and updated contents, the host computer The changed monitoring condition is transmitted to one monitoring condition changing unit 12.
  • FIG. 10 is an explanatory diagram illustrating an example of operation monitoring performed by the operation monitoring apparatus according to the embodiment of the present invention.
  • the performance value fluctuation rate analysis unit 215 of the monitoring manager 2 determines whether the fluctuation rate of the representative CPU load exceeds a predetermined threshold value. Judging.
  • the monitoring condition changing unit 23 monitors all the performance information in the group registered in the grouping information storage unit 24.
  • the monitoring condition changing unit 12 of the host computer 1 is notified to monitor based on the condition. As a result, the type of performance information collected by the performance information collection unit 11 and the collection interval are changed.
  • FIG. 11 is an explanatory diagram illustrating an example of performance prediction performed by the operation monitoring apparatus according to the embodiment of the present invention.
  • the representative performance information is assumed to be the CPU load, and the administrator wants to check the performance information 2 when the monitoring condition is set so that the performance information 2 is not monitored in normal times. There is a case.
  • the performance prediction unit 216 of the present embodiment acquires the conversion function of the performance information 2 that is not monitored from the correlation model storage unit 214, acquires the performance data of the representative CPU load, and receives the performance information from both. 2 measurement values are calculated and presented to the administrator.
  • the performance information collection unit 11 that collects a plurality of types of performance information of the operation monitoring target machine
  • the performance analysis unit 21 that analyzes the performance information collected by the performance information collection unit 11.
  • a performance information grouping unit 22 that groups a plurality of types of performance information of operation monitoring target machines based on a predetermined condition, and a monitor that changes the type of performance information collected by the performance information collection unit 11 and the collection interval.
  • the monitoring condition changing units 12 and 23 collect performance information at a predetermined interval. Let the part 11 collect. Further, performance information other than the representative is collected by the performance information collecting unit 11 or is collected by the performance information collecting unit 11 at a longer interval than the representative performance information. Furthermore, when the fluctuation rate or fluctuation amount of representative performance information exceeds a predetermined threshold, collection of performance information other than the representative by the performance information collection unit 11 is started, or an interval shorter than normal time The performance information collecting unit 11 collects the data.
  • the performance analysis unit 21 calculates a conversion function between a plurality of types of performance information, and the performance information grouping unit 22 groups performance information having a strong correlation based on the conversion function.
  • the performance information of the entire group can be accurately grasped.
  • the performance prediction unit 216 predicts performance information other than the representative based on the representative performance information and the conversion function, the performance information collection unit 11 does not collect performance information other than the representative.
  • the predicted value of performance information other than the representative can be shown to the administrator.
  • the operation monitoring apparatus shows the performance information other than the representative acquired to the administrator or the like, and the performance information collection unit 11 is not the representative.
  • performance information other than the representative predicted by the performance prediction unit 216 is shown to the administrator or the like.
  • the performance information required by the administrator etc. can be presented regardless of whether or not monitoring is performed, and at the time of monitoring execution, the actual measured value is shown instead of the predicted value, thereby increasing the accuracy of the presented data value. Can do.
  • the administrator dialogue unit 25 is configured to represent the type of representative performance information, the collection interval of representative performance information during normal time, whether or not to collect performance information other than the representative during normal time, At least one of the collection interval of performance information other than the representative and the collection interval of performance information other than the representative when the representative performance information fluctuates is set according to a setting operation by an administrator or the like.
  • the monitoring conditions can be arbitrarily changed according to the business to be monitored, the host computer 1 to be monitored, the monitoring manager 2 to be monitored, etc., and appropriate operation monitoring can be performed.
  • the present invention is applied to an operation monitoring apparatus, an operation monitoring method, and an operation monitoring program for monitoring a plurality of types of performance information of an operation monitoring target machine.
  • INDUSTRIAL APPLICABILITY The present invention monitors various performances of information processing apparatuses that provide information communication services such as WEB services and business services, and is particularly useful in the field where monitoring information is accurately monitored and monitoring load is required to be reduced. It is.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

複数種類の性能情報をグループ化するとともに、グループ化された性能情報のうち、代表となる性能情報を重点的に監視する運用監視装置において、通常時の監視負荷を増大させることなく、代表以外の性能情報の異常も効率良く監視する。  監視条件変更部12、23は、性能情報グループ化部22によってグループ化された性能情報のうち、代表となる性能情報については、所定の間隔で性能情報収集部11に収集させ、代表以外の性能情報については、性能情報収集部11による収集を停止させるか、或いは、代表となる性能情報よりも長い間隔で性能情報収集部11に収集させ、さらに、代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合は、代表以外の性能情報について、性能情報収集部11による収集を開始させるか、或いは、通常時よりも短い間隔で性能情報収集部11に収集させる。

Description

運用監視装置、運用監視方法及びプログラム記憶媒体
 本発明は、運用監視対象マシンの複数種類の性能情報を監視する運用監視装置、運用監視方法及びプログラム記憶媒体に関する。
 運用監視対象マシンの複数種類の性能情報を監視する運用監視装置や運用監視方法が知られている。通常、この種の運用監視装置では、複数種類の性能情報毎に閾値を設定し、各性能情報が閾値を超えた否かを監視している。そして、運用監視装置は、いずれかの性能情報が閾値を超えた場合に、これを異常として検出し、管理者に異常報知を行う。
 しかしながら、この種の運用監視装置では、より正確な運用監視を行おうとすると、多種の性能情報を短い間隔で収集しなければならない。
 このため、性能情報を収集するための負荷が高くなってしまうという問題があった。
 そこで、複数種類の性能情報のうち、相関関係の強い性能情報をグループ化するとともに、グループ化された性能情報の中から代表となる性能情報を選出し、該選出された性能情報を重点的に監視する運用監視装置が提案されている(例えば、特開2003−263342号公報参照)。
 このような運用監視装置によれば、収集する性能情報が限定されるので、性能情報を収集するための負荷が低減されるという利点がある。
 しかしながら、相関関係が強い性能情報をグループ化したとしても、グループ内の各性能情報がすべての変動領域で相関するとは限らない。
 このため、代表となる性能情報のみを監視することとした場合には、代表以外の性能情報の異常を見逃すおそれがある。
 このような異常の見逃しは、代表となる性能情報を、状況に応じて動的に選出することにより、ある程度まで減らすことは可能と考えられる。しかしながら、そのようにすると、代表となる性能情報を状況に応じて動的に選出するための負荷が加わることになり、却って監視負荷を低減させるという本来の目的を達成することが困難になる。
 本発明の目的は、上述した課題を解決し、複数種類の性能情報をグループ化するとともに、グループ化された性能情報のうち、代表となる性能情報を重点的に監視する運用監視装置において、通常時の監視負荷を増大させることなく、代表以外の性能情報の異常も効率良く監視することができる運用監視装置、運用監視方法及びプログラム記憶媒体の提供を目的とする。
 本発明の運用監視装置は、運用監視対象マシンの複数種類の性能情報を収集する性能情報収集手段と、前記性能情報収集手段が収集した前記性能情報を分析する性能分析手段と、前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化する性能情報グループ化手段と、前記性能情報グループ化手段によってグループ化された前記性能情報のうち、代表となる性能情報については、所定の間隔で前記性能情報収集手段に収集させ、代表以外の性能情報については、前記性能情報収集手段による収集を停止させるか、或いは、前記代表となる性能情報よりも長い間隔で前記性能情報収集手段に収集させ、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合は、前記代表以外の性能情報について、前記性能情報収集手段による収集を開始させるか、或いは、通常時よりも短い間隔で前記性能情報収集手段に収集させる監視条件変更手段とを含む。
 本発明の運用監視方法は、運用監視対象マシンの複数種類の性能情報を収集し、収集した前記性能情報を分析し、前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化し、グループ化された前記性能情報のうち、代表となる性能情報については、前記性能情報を収集する間隔を所定の間隔となるように制御し、代表以外の性能情報については、前記性能情報収集手順による収集を停止するか、或いは、前記性能情報を収集する間隔を前記代表となる性能情報よりも長い間隔となるように制御し、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合、前記代表以外の性能情報については、前記性能情報収集手順による収集を開始するか、或いは、前記性能情報を収集する間隔を通常時よりも短い間隔となるように制御する。
 本発明のプログラム記録媒体は、コンピュータに、運用監視対象マシンの複数種類の性能情報を収集し、収集した前記性能情報を分析し、前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化し、グループ化された前記性能情報のうち、代表となる性能情報については、前記性能情報を収集する間隔を所定の間隔となるように制御し、代表以外の性能情報については、前記性能情報収集手順による収集を停止するか、或いは、前記性能情報を収集する間隔を前記代表となる性能情報よりも長い間隔となるように制御し、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合、前記代表以外の性能情報については、前記性能情報収集手順による収集を開始するか、或いは、前記性能情報を収集する間隔を通常時よりも短い間隔となるように制御する処理を実行させる運用監視プログラムを記録する。
 本発明によれば、複数種類の性能情報をグループ化するとともに、グループ化された性能情報のうち、代表となる性能情報を重点的に監視する運用監視装置において、通常時の監視負荷を増大させることなく、代表以外の性能情報の異常も効率良く監視することができる。
本発明の実施形態に係る運用監視装置の基本的な構成を示すブロック図である。 本発明の実施形態に係る運用監視装置の具体的な構成を示すブロック図である。 本発明の実施形態に係る運用監視装置の性能分析部の構成を示すブロック図である。 本発明の実施形態に係る運用監視装置の相関モデル生成処理を示すフローチャートである。 本発明の実施形態に係る運用監視装置の管理者対話処理を示すフローチャートである。 本発明の実施形態に係る運用監視装置の監視条件変更処理を示すフローチャートである。 本発明の実施形態に係る運用監視装置の性能情報表示処理を示すフローチャートである。 本発明の実施形態に係る運用監視装置の使用例を示すブロック図である。 本発明の実施形態に係る運用監視装置においてグループ化される性能情報の例を示す説明図である。 本発明の実施形態に係る運用監視装置が行う運用監視の例を示す説明図である。 本発明の実施形態に係る運用監視装置が行う性能予測の例を示す説明図である。
 以下、本発明の運用監視装置、運用監視方法及び運用監視プログラムの実施形態について、図面を参照して説明する。
 ここで、以下に示す本発明の運用監視装置及び運用監視方法で実行される処理動作は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。
 例えば、ネットワークを介して通信可能に接続されるホスト計算機(運用監視対象マシン)と監視マネージャで本発明の運用監視装置を構成する場合は、本発明の運用監視プログラムを、ホスト計算機用プログラムと、監視マネージャ用プログラムとに分けるとともに、各プログラムを、ホスト計算機用コンピュータ及び監視マネージャ用コンピュータにそれぞれインストールすることにより、本発明の運用監視装置が構成される。
 また、ホスト計算機(運用監視対象マシン)のみで本発明の運用監視装置を構成する場合は、本発明の運用監視プログラムを、ホスト計算機用コンピュータにインストールすることにより、本発明の運用監視装置が構成される。
 また、監視マネージャ用プログラムを複数の監視マネージャ用コンピュータにインストールして分散処理を行ったり、ホスト計算機用プログラムがインストールされた複数のホスト計算機用コンピュータを一台の監視マネージャで運用監視するようにしてもよい。
 このように、本発明における各処理や手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。
 なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
 図1は、本発明の実施形態に係る運用監視装置の基本的な構成を示すブロック図である。
 この図に示すように、本実施形態に係る運用監視装置は、例えば、運用監視対象マシンとなるホスト計算機1と、ホスト計算機1と通信可能に接続される監視マネージャ2とを含む。
 具体的には、本実施形態の運用監視装置は、ホスト計算機1の複数種類の性能情報を収集する性能情報収集部11と、性能情報収集部11が収集した性能情報を分析する性能分析部21と、ホスト計算機1の複数種類の性能情報を所定の条件にもとづいてグループ化する性能情報グループ化部22と、性能情報収集部11が収集する性能情報の種類及び収集する間隔を変更する監視条件変更部12、23とを含む。
 そして、監視条件変更部12、23は、性能情報グループ化部22によってグループ化された性能情報のうち、代表となる性能情報については、所定の間隔で性能情報収集部11に収集させる。
 また、監視条件変更部12、23は、代表以外の性能情報については、性能情報収集部11による収集を停止させるか、或いは、代表となる性能情報よりも長い間隔で性能情報収集部11に収集させる。
 さらに、監視条件変更部12、23は、代表となる性能情報の変動率(又は変動量)が所定の閾値を超えた場合は、代表以外の性能情報について、性能情報収集部11による収集を開始させるか、或いは、通常時よりも短い間隔で性能情報収集部11に収集させる。
 このような運用監視装置によれば、複数種類の性能情報をグループ化するとともに、グループ化された性能情報のうち、代表となる性能情報を重点的に監視することができる。
 これにより、通常時の監視負荷を低減させることができる。
 また、代表となる性能情報が大きく変動した場合は、代表以外の性能情報についても監視を開始したり、監視間隔を短くしたりすることができる。
 これにより、通常時の監視負荷を増大させることなく、代表以外の性能情報の異常も効率良く監視することができる。
 以下、本実施形態に係る運用監視装置の具体的な構成について、図2及び図3を参照して説明する。
 図2は、本実施形態に係る運用監視装置の具体的な構成を示すブロック図である。
 この図に示すように、本実施形態に係る運用監視装置は、ホスト計算機1と監視マネージャ2とを含む。ホスト計算機1は、性能情報収集部11及び監視条件変更部12を含む。監視マネージャ2は、性能分析部21、性能情報グループ化部22、監視条件変更部23、グループ化情報蓄積部24及び管理者対話部25を含む。
 ホスト計算機1の性能情報収集部11は、ホスト計算機1の複数種類の性能情報を収集する。例えば、性能情報収集部11は、ホスト計算機1において実行されるWEBサービス、業務サービスなどの業務処理時間、マシンのCPU負荷、メモリ使用率などを収集する。
 ホスト計算機1の監視条件変更部12は、監視マネージャ2に設けられる監視条件変更部23からの指示に応じて、性能情報収集部11が収集する性能情報の種類や、性能情報の収集間隔を変更する。
 監視マネージャ2の性能分析部21は、ホスト計算機1の性能情報収集部11が集めた性能情報を分析する。例えば、性能分析部21は、所定の性能情報に関して変動率を分析し、変動率が所定の閾値を超えた場合に異常と判断し、管理者等への異常報告等を行う。
 また、性能分析部21は、複数の性能情報間の変換関数を算出し、所定の相関モデルを生成する。
 監視マネージャ2の性能情報グループ化部22は、性能分析部21が生成した相関モデルを参照し、相関関係が強い性能情報をグループ化する。そして、性能情報グループ化部22は、グループ化された性能情報を、グループ化情報蓄積部24へ登録する。
 監視マネージャ2の管理者対話部25は、性能情報グループ化部22によってグループ化された性能情報の種類を管理者等に示し、グループ内で代表となる性能情報の種類を選択させる。そして、管理者等によって選択された代表となる性能情報の種類は、グループ化情報蓄積部24へ登録される。
 また、管理者対話部25は、通常時における代表となる性能情報の収集間隔、通常時における代表以外の性能情報の収集の有無、通常時における代表以外の性能情報の収集間隔、代表となる性能情報の変動時における代表以外の性能情報の収集間隔などの各種監視条件を管理者に選択させる。そして、管理者等によって選択された各種監視条件は、グループ化情報蓄積部24へ登録される。
 監視マネージャ2の監視条件変更部23は、グループ化情報蓄積部24へ登録されたグループ化情報や監視条件について、定期的に情報を確認する。そして、監視条件変更部23は、新たに登録された内容や更新された内容に沿って、ホスト計算機1の監視条件変更部12に変更された監視条件を伝達し、性能情報収集部11により収集する性能情報の種類や収集間隔を変更する。
 また、監視条件変更部23は、性能分析部21から監視条件の変更指示があった場合も、ホスト計算機1の監視条件変更部12に変更された監視条件を伝達し、性能情報収集部11により収集する性能情報の種類や収集間隔を変更する。
 これにより、監視条件変更部23は、性能情報グループ化部22によってグループ化された性能情報のうち、代表となる性能情報については、所定の間隔で性能情報収集部11に収集させることができる。
 また、監視条件変更部23は、代表以外の性能情報については、性能情報収集部11による収集を停止させるか、或いは、代表となる性能情報よりも長い間隔で性能情報収集部11に収集させることができる。
 さらに、監視条件変更部23は、代表となる性能情報の変動率(又は変動量)が所定の閾値を超えた場合は、代表以外の性能情報について、性能情報収集部11による収集を開始させるか、或いは、通常時よりも短い間隔で性能情報収集部11に収集させることができる。
 図3は、本発明の実施形態に係る運用監視装置の性能分析部21の詳細構成を示すブロック図である。
 この図に示すように、本実施形態の性能分析部21は、情報収集部211と、性能情報蓄積部212と、相関モデル生成部213と、相関モデル蓄積部214と、性能値変動率解析部215と、性能予測部216とを含む。
 情報収集部211は、ホスト計算機1の性能情報収集部11が収集した性能情報を受け取り、性能情報蓄積部212に蓄積する。
 相関モデル生成部213は、性能情報蓄積部212から一定期間の性能情報を取り出し、任意の2つの性能情報間の時系列の変換関数を算出することで、ホスト計算機1の運用状態を示す性能情報間の所定の相関モデルを生成する(図4参照)。
 相関モデル蓄積部214は、相関モデル生成部213が生成した相関モデルを蓄積する。
 そして、性能情報グループ化部22は、ここに蓄積された相関モデルの変換関数にもとづいて相関関係が強い性能情報をグループ化する。
 性能値変動率解析部215は、管理者等によって設定された監視条件をグループ化情報蓄積部24から取得し、代表となる性能情報の変動を監視する。
 具体的には、性能値変動率解析部215は、代表となる性能情報について、性能情報蓄積部212から所定の間隔で性能情報を取得し、その変動率を計算する。
 そして、性能値変動率解析部215は、代表となる性能情報の変動率が所定の閾値を超えた場合は、同じグループの代表以外の性能情報について、監視条件を変更するように監視条件変更部23、12に通知し、性能情報収集部11が収集する性能情報の種類及び収集間隔を変更する。
 性能予測部216は、代表以外の性能情報を、相関モデル蓄積部214に蓄積された変換関数と、代表となる性能情報の計測値にもとづいて予測する。
 このような性能予測部216によれば、性能情報収集部11が代表以外の性能情報を収集していないときであっても、その予測性能値を管理者に示すことが可能になる。
 例えば、性能情報収集部11が代表以外の性能情報を収集しているときは、実際に取得した代表以外の性能情報を管理者等に示し、性能情報収集部11が代表以外の性能情報を収集していないときは、性能予測部216が予測した代表以外の性能情報を管理者等に示すことができる。
 次に、本実施形態に係る運用監視装置において実行される各種処理の処理手順について、図4~図7を参照して説明する。
 図4は、本発明の実施形態に係る運用監視装置の相関モデル生成処理を示すフローチャートである。
 この図に示すように、相関モデル生成処理では、まず、性能分析部21の相関モデル生成部213は、性能情報蓄積部212から性能情報履歴を読み込むとともに(ステップS101)、未分析の性能情報があるか否かを判断する(ステップS102)。
 ここで、未分析の性能情報があると判断した場合は、相関モデル生成部213は、未分析の性能情報に関し、他の性能情報との間の変換関数を算出するとともに(ステップS103)、関数近似での誤差を算出し(ステップS104)、相関モデル蓄積部214に相関モデルを追加する(ステップS105)。
 以上の一連の処理(ステップS102~S105)は、未分析の性能情報がなくなるまで繰り返される。
 図5は、本発明の実施形態に係る運用監視装置の管理者対話処理を示すフローチャートである。
 この図に示すように、管理者対話処理では、まず、管理者対話部25が、性能情報グループ化部22によってグループ化された性能情報の種類を管理者用画面に表示し(ステップS201)、管理者等にグループ内で代表となる性能情報の種類を選択させる。ここで、管理者等による選択操作が行われると(ステップS202/Yes)、選択された代表となる性能情報の種類がグループ化情報蓄積部24へ登録される(ステップS203)。
 次に、管理者対話部25は、通常時における代表となる性能情報の収集間隔、通常時における代表以外の性能情報の収集の有無、通常時における代表以外の性能情報の収集間隔、代表となる性能情報の変動時における代表以外の性能情報の収集間隔などの各種監視条件を管理者用画面に表示し(ステップS204)、管理者等に各種監視条件を選択させる。
 ここで、管理者等による選択操作が行われると(ステップS205/Yes)、選択された各種監視条件がグループ化情報蓄積部24へ登録される(ステップS206)。
 図6は、本発明の実施形態に係る運用監視装置の監視条件変更処理を示すフローチャートである。
 この図に示すように、監視条件変更処理では、まず、監視条件変更部23が、グループ化情報蓄積部24へ登録されたグループ化情報や監視条件(通常時用監視条件及び変動時用監視条件)について、定期的に情報を確認する(ステップS301)。
 また、監視条件変更部23は、代表となる性能情報の変動率が所定の閾値を超えたか否かを、性能分析部21からの監視条件変更指示にもとづいて判断する(ステップS302)。
 ここで、代表となる性能情報の変動率が所定の閾値を超えていないと判断した場合は(ステップS302/No)、監視条件変更部23は、通常時用監視条件をホスト計算機1の監視条件変更部12に伝達し、通常時の監視条件で性能情報収集部11に性能情報を収集させる(ステップS303)。
 一方、代表となる性能情報の変動率が所定の閾値を超えたと判断された場合は(ステップS302/Yes)、監視条件変更部23は、変動時用監視条件をホスト計算機1の監視条件変更部12に伝達し、変動時の監視条件で性能情報収集部11に性能情報を収集させる(ステップS304)。
 図7は、本発明の実施形態に係る運用監視装置の性能情報表示処理を示すフローチャートである。
 この図に示すように、性能情報表示処理では、まず、管理者等からの性能表示要求の有無が判断される(ステップS401)。
 ここで、管理者等から性能表示要求があると判断された場合は、表示要求があった性能情報が代表となる性能情報であるか否かが判断される(ステップS402)。
 そして、代表となる性能情報であると判断された場合は(ステップS402/Yes)、性能情報収集部11が実際に取得した代表となる性能情報が管理者用画面に表示される(ステップS403)。
 一方、代表となる性能情報ではないと判断された場合は(ステップS402/No)、性能情報収集部11が代表以外の性能情報を収集しているか否かが判断される(ステップS404)。そして、性能情報収集部11が代表以外の性能情報を収集していると判断された場合は(ステップS404/Yes)、性能情報収集部11が実際に取得した代表以外の性能情報が管理者用画面に表示される(ステップS403)。
 また、性能情報収集部11が代表以外の性能情報を収集していないと判断された場合は(ステップS404/No)、性能予測部216が予測した代表以外の性能情報が管理者用画面に表示される(S405)。
 次に、本発明の実施形態に係る運用監視装置の動作について、図8~図11を参照して説明する。
 図8は、本発明の実施形態に係る運用監視装置の使用例を示すブロック図である。
 この図に示す使用例は、複数のホスト計算機1を一台の監視マネージャ2で運用監視する場合を示している。この場合、複数のホスト計算機1のそれぞれには、ホスト計算機用プログラムがインストールされ、監視マネージャ2には、監視マネージャ用プログラムがインストールされるものとする。
 図9は、本発明の実施形態に係る運用監視装置においてグループ化される性能情報の例を示す説明図である。
 この図に示す例では、ホスト計算機1の複数種類の性能情報のうち、CPU負荷、業務1の処理時間及びメモリ使用率Aが性能情報として監視されている。
 各性能情報は、時系列によって変化しており、こられの性能情報は、ホスト計算機1の性能情報収集部11により収集され、監視マネージャ2の性能分析部21に提供される。
 性能分析部21は、各性能情報を蓄積するとともに、蓄積された性能情報を元に所定の相関モデルを生成する。
 監視マネージャ2の性能情報グループ化部22は、ホスト計算機1のCPU負荷、業務1の処理時間及びメモリ使用率Aについて相関関係があるとして、これらの性能情報をグループ化する。
 管理者対話部25は、グループ化された性能情報の種類を管理者等に提示する。これにより、管理者等は、グループ内の代表となる性能情報の種類を選択することができる。
 ここでは、CPU負荷が代表となる性能情報として選択されたとする。代表となったCPU負荷の性能データについては、一定間隔で性能情報の収集が継続される。
 また、グループ内で代表となったCPU負荷以外の性能情報の監視条件についても、管理者等に選択が求められる。
 例えば、管理者等は、通常時用監視条件として、業務1の処理時間については、CPU負荷を監視する監視間隔の3倍の長い時間間隔で監視を行うようにし、メモリ使用率Aについては、代表のCPU負荷に変動が無い限り監視を行わないように選択操作を行う。
 また、例えば、管理者等は、変更時用監視条件として、代表のCPU負荷に変動がある場合、業務1の処理時間とメモリ使用率Aとについて、CPU負荷を監視する監視間隔と同じ時間間隔で監視を行うように選択操作を行う。
 管理者等によって選択された監視条件は、管理者対話部25から性能情報グループ化部22へ通知される。
 性能情報グループ化部22は、管理者等によって選択された監視条件をグループ化情報蓄積部24へ登録する。
 グループ化情報蓄積部24へ登録されたグループ化情報及び監視条件について、監視条件変更部23は定期的に情報を確認し、新たに登録された内容や、更新された内容に沿って、ホスト計算機1の監視条件変更部12へ変更された監視条件を伝達する。これによって、性能情報収集部11が収集する性能情報の種類及び収集間隔が変更される。
 図10は、本発明の実施形態に係る運用監視装置が行う運用監視の例を示す説明図である。
 この図に示すように、CPU負荷がt1時間の経過時点から変動した場合、監視マネージャ2の性能値変動率解析部215は、代表となるCPU負荷の変動率が所定の閾値を超えたか否かを判断する。
 ここで、代表となるCPU負荷の変動率が所定の閾値を超えた場合は、監視条件変更部23は、グループ化情報蓄積部24に登録されたグループ内の性能情報全てについて、変動時用監視条件にもとづいて監視を行うようにホスト計算機1の監視条件変更部12に通知する。これによって、性能情報収集部11が収集する性能情報の種類及び収集間隔が変更される。
 また、代表となるCPU負荷の変動率が、t2時間の経過時点で所定の閾値以下になると、グループ化情報蓄積部24に登録された通常時用の監視条件にもとづき、業務1の処理時間の監視間隔を3倍に、メモリ使用率Aを監視しないように監視条件が元に戻される。
 図11は、本発明の実施形態に係る運用監視装置が行う性能予測の例を示す説明図である。
 この図に示すように、代表となる性能情報をCPU負荷とし、通常時は、性能情報2を監視しないように監視条件が設定されている場合において、管理者等が性能情報2を確認したいというケースがある。
 この場合、本実施形態の性能予測部216は、監視されていない性能情報2の変換関数を相関モデル蓄積部214から取得するとともに、代表であるCPU負荷の性能データを取得し、両者から性能情報2の計測値を算出し、管理者等に提示する。
 以上説明したように、本実施形態によれば、運用監視対象マシンの複数種類の性能情報を収集する性能情報収集部11と、性能情報収集部11が収集した性能情報を分析する性能分析部21と、運用監視対象マシンの複数種類の性能情報を所定の条件にもとづいてグループ化する性能情報グループ化部22と、性能情報収集部11が収集する性能情報の種類及び収集する間隔を変更する監視条件変更部12、23とを含み、監視条件変更部12、23が、性能情報グループ化部22によってグループ化された性能情報のうち、代表となる性能情報については、所定の間隔で性能情報収集部11に収集させる。また、代表以外の性能情報については、性能情報収集部11による収集を停止させるか、或いは、代表となる性能情報よりも長い間隔で性能情報収集部11に収集させる。さらに、代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合は、代表以外の性能情報について、性能情報収集部11による収集を開始させるか、或いは、通常時よりも短い間隔で性能情報収集部11に収集させる。
 これによって、複数種類の性能情報をグループ化し、グループ化された性能情報のうち、代表となる性能情報を重点的に監視する運用監視装置において、通常時の監視負荷を増大させることなく、代表以外の性能情報の異常も効率良く監視することができる。
 また、性能分析部21が、複数種類の性能情報間の変換関数を算出し、性能情報グループ化部22が、前記変換関数にもとづいて相関関係の強い性能情報をグループ化するので、複数種類の性能情報をグループ化し、グループ化された性能情報のうち、代表となる性能情報を重点的に監視する運用監視装置において、グループ全体の性能情報を精度良く把握することができる。
 また、性能予測部216が、代表以外の性能情報を、代表となる性能情報及び前記変換関数にもとづいて予測するので、性能情報収集部11が代表以外の性能情報を収集していないときであっても、代表以外の性能情報の予測値を管理者に示すことができる。
 また、運用監視装置は、性能情報収集部11が代表以外の性能情報を収集しているときは、実際に取得した代表以外の性能情報を管理者等に示し、性能情報収集部11が代表以外の性能情報を収集していないときは、性能予測部216が予測した代表以外の性能情報を管理者等に示す。これによって、監視の有無に拘わらず、管理者等が要求する性能情報を提示できるとともに、監視実行時には、予測値ではなく実際の測定値を示すことにより、提示するデータ値の精度を高くすることができる。
 さらに、本実施形態では、管理者対話部25は、代表となる性能情報の種類、通常時における代表となる性能情報の収集間隔、通常時における代表以外の性能情報の収集の有無、通常時における代表以外の性能情報の収集間隔、代表となる性能情報の変動時における代表以外の性能情報の収集間隔のうち、少なくとも一つを管理者等の設定操作に応じて設定する。これによって、監視対象となる業務、監視対象となるホスト計算機1、監視を行う監視マネージャ2などに応じて監視条件を任意に変更し、適切な運用監視を行うことができる。
 以上、本発明について、実施形態を示して説明したが、本発明は、上述した実施形態にのみ限定されるものではなく、特許請求の範囲内で種々の変更が可能であることは言うまでもない。
 この出願は、2009年10月8日に出願された日本出願特願2009−233994を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、運用監視対象マシンの複数種類の性能情報を監視する運用監視装置、運用監視方法及び運用監視プログラムに適用される。本発明は、例えば、WEBサービスや業務サービスといった情報通信サービスを提供する情報処理装置などの各種性能を監視し、特に、性能情報を正確に監視しつつ、監視負荷の低減が求められる分野において有用である。
 1 ホスト計算機
 2 監視マネージャ
 11 性能情報収集部
 12 監視条件変更部
 21 性能分析部
 22 性能情報グループ化部
 23 監視条件変更部
 24 グループ化情報蓄積部
 25 管理者対話部
 211 情報収集部
 212 性能情報蓄積部
 213 相関モデル生成部
 214 相関モデル蓄積部
 215 性能値変動率解析部
 216 性能予測部

Claims (15)

  1.  運用監視対象マシンの複数種類の性能情報を収集する性能情報収集手段と、
     前記性能情報収集手段が収集した前記性能情報を分析する性能分析手段と、
     前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化する性能情報グループ化手段と、
     前記性能情報グループ化手段によってグループ化された前記性能情報のうち、代表となる性能情報については、所定の間隔で前記性能情報収集手段に収集させ、代表以外の性能情報については、前記性能情報収集手段による収集を停止させるが、或いは、前記代表となる性能情報よりも長い間隔で前記性能情報収集手段に収集させ、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合は、前記代表以外の性能情報について、前記性能情報収集手段による収集を開始させるか、或いは、通常時よりも短い間隔で前記性能情報収集手段に収集させる監視条件変更手段と
    を含む運用監視装置。
  2.  前記性能分析手段が、複数種類の前記性能情報間の変換関数を算出し、
     前記性能情報グループ化手段が、前記変換関数にもとづいて相関関係の強い前記性能情報をグループ化する
    請求項1記載の運用監視装置。
  3.  さらに、前記代表以外の性能情報を、前記代表となる性能情報及び前記変換関数にもとづいて予測する性能予測手段
    を含む請求項2記載の運用監視装置。
  4.  前記性能情報収集手段が前記代表以外の性能情報を収集しているときは、実際に取得した前記代表以外の性能情報を管理者に示し、前記性能情報収集手段が前記代表以外の性能情報を収集していないときは、前記性能予測手段により予測された前記代表以外の性能情報を管理者に示す
    請求項3記載の運用監視装置。
  5.  さらに、前記代表となる性能情報の種類、通常時における前記代表となる性能情報の収集間隔、通常時における前記代表以外の性能情報の収集の有無、通常時における前記代表以外の性能情報の収集間隔、前記代表となる性能情報の変動時における前記代表以外の性能情報の収集間隔のうち、少なくとも一つを管理者の設定操作に応じて設定する管理者対話手段
    を含む請求項1乃至4のいずれかに記載の運用監視装置。
  6.  運用監視対象マシンの複数種類の性能情報を収集し、
     収集した前記性能情報を分析し、
     前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化し、
     グループ化された前記性能情報のうち、代表となる性能情報については、前記性能情報を収集する間隔を所定の間隔となるように制御し、代表以外の性能情報については、前記性能情報収集手順による収集を停止するか、或いは、前記性能情報を収集する間隔を前記代表となる性能情報よりも長い間隔となるように制御し、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合、前記代表以外の性能情報については、前記性能情報収集手順による収集を開始するか、或いは、前記性能情報を収集する間隔を通常時よりも短い間隔となるように制御する
    運用監視方法。
  7.  収集した前記性能情報を分析する場合、複数種類の前記性能情報間の変換関数を算出し、
     複数種類の前記性能情報をグループ化する場合、前記変換関数にもとづいて相関関係の強い前記性能情報をグループ化する
    請求項6記載の運用監視方法。
  8.  さらに、前記代表以外の性能情報を、前記代表となる性能情報及び前記変換関数にもとづいて予測する
    請求項7記載の運用監視方法。
  9.  前記性能情報収集手段が前記代表以外の性能情報を収集しているときは、実際に取得した前記代表以外の性能情報を管理者に示し、前記性能情報収集手段が前記代表以外の性能情報を収集していないときは、前記代表となる性能情報及び前記変換関数にもとづいて予測された前記代表以外の性能情報を管理者に示す
    請求項8記載の運用監視方法。
  10.  さらに、前記代表となる性能情報の種類、通常時における前記代表となる性能情報の収集間隔、通常時における前記代表以外の性能情報の収集の有無、通常時における前記代表以外の性能情報の収集間隔、前記代表となる性能情報の変動時における前記代表以外の性能情報の収集間隔のうち、少なくとも一つを管理者の設定操作に応じて設定する
    請求項6乃至9のいずれかに記載の運用監視方法。
  11.  コンピュータに、
     運用監視対象マシンの複数種類の性能情報を収集し、
     収集した前記性能情報を分析し、
     前記運用監視対象マシンの複数種類の前記性能情報を所定の条件にもとづいてグループ化し、
     グループ化された前記性能情報のうち、代表となる性能情報については、前記性能情報を収集する間隔を所定の間隔となるように制御し、代表以外の性能情報については、前記性能情報収集手順による収集を停止するか、或いは、前記性能情報を収集する間隔を前記代表となる性能情報よりも長い間隔となるように制御し、さらに、前記代表となる性能情報の変動率又は変動量が所定の閾値を超えた場合、前記代表以外の性能情報については、前記性能情報収集手順による収集を開始するか、或いは、前記性能情報を収集する間隔を通常時よりも短い間隔となるように制御する
    処理を実行させる運用監視プログラムを記録したプログラム記録媒体。
  12.  収集した前記性能情報を分析する場合、複数種類の前記性能情報間の変換関数を算出し、
     複数種類の前記性能情報をグループ化する場合、前記変換関数にもとづいて相関関係の強い前記性能情報をグループ化する
    前記運用監視プログラムを記録した請求項11記載のプログラム記録媒体。
  13.  さらに、前記代表以外の性能情報を、前記代表となる性能情報及び前記変換関数にもとづいて予測する
    前記運用監視プログラムを記録した請求項12記載のプログラム記録媒体。
  14.  前記性能情報収集手段が前記代表以外の性能情報を収集しているときは、実際に取得した前記代表以外の性能情報を管理者に示し、前記性能情報収集手段が前記代表以外の性能情報を収集していないときは、前記代表となる性能情報及び前記変換関数にもとづいて予測された前記代表以外の性能情報を管理者に示す
    前記運用監視プログラムを記録した請求項13記載のプログラム記録媒体。
  15.  さらに、前記代表となる性能情報の種類、通常時における前記代表となる性能情報の収集間隔、通常時における前記代表以外の性能情報の収集の有無、通常時における前記代表以外の性能情報の収集間隔、前記代表となる性能情報の変動時における前記代表以外の性能情報の収集間隔のうち、少なくとも一つを管理者の設定操作に応じて設定する
    前記運用監視プログラムを記録した請求項11乃至14のいずれかに記載のプログラム記録媒体。
PCT/JP2010/067704 2009-10-08 2010-10-04 運用監視装置、運用監視方法及びプログラム記憶媒体 WO2011043447A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201080045376.4A CN102576326B (zh) 2009-10-08 2010-10-04 操作监测设备、操作监测方法和程序存储介质
JP2011535469A JP5527324B2 (ja) 2009-10-08 2010-10-04 運用監視装置、運用監視方法及びプログラム記憶媒体
EP10822117.7A EP2487593B1 (en) 2009-10-08 2010-10-04 Operational surveillance device, operational surveillance method and program storage medium
US13/057,849 US20110218770A1 (en) 2009-10-08 2010-10-04 Operation monitoring device, an operation monitoring method and a program storing medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-233994 2009-10-08
JP2009233994 2009-10-08

Publications (1)

Publication Number Publication Date
WO2011043447A1 true WO2011043447A1 (ja) 2011-04-14

Family

ID=43856897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/067704 WO2011043447A1 (ja) 2009-10-08 2010-10-04 運用監視装置、運用監視方法及びプログラム記憶媒体

Country Status (5)

Country Link
US (1) US20110218770A1 (ja)
EP (1) EP2487593B1 (ja)
JP (1) JP5527324B2 (ja)
CN (1) CN102576326B (ja)
WO (1) WO2011043447A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5703407B1 (ja) * 2014-03-28 2015-04-22 株式会社日立ハイテクノロジーズ 情報処理装置、情報処理方法、情報システムおよびプログラム
JP2016177358A (ja) * 2015-03-18 2016-10-06 キヤノン株式会社 情報処理装置およびその制御方法
JP2019144799A (ja) * 2018-02-20 2019-08-29 コニカミノルタ株式会社 情報処理システム、情報処理装置、情報処理プログラム、および、情報処理サーバ
JP2021101278A (ja) * 2019-12-24 2021-07-08 富士通株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10491650B1 (en) * 2012-02-06 2019-11-26 Amazon Technologies, Inc. Monitoring performance of computing devices
US10848408B2 (en) * 2015-03-26 2020-11-24 Vmware, Inc. Methods and apparatus to control computing resource utilization of monitoring agents
US9923965B2 (en) 2015-06-05 2018-03-20 International Business Machines Corporation Storage mirroring over wide area network circuits with dynamic on-demand capacity
CN106301883B (zh) * 2015-06-26 2019-09-03 精工爱普生株式会社 网络系统、以及网络系统的控制方法
WO2017020973A1 (en) * 2015-08-03 2017-02-09 Missio B.V. Data loggger and sampling and encoding methods for use in a data logger
US9923784B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Data transfer using flexible dynamic elastic network service provider relationships
US10057327B2 (en) 2015-11-25 2018-08-21 International Business Machines Corporation Controlled transfer of data over an elastic network
US9923839B2 (en) * 2015-11-25 2018-03-20 International Business Machines Corporation Configuring resources to exploit elastic network capability
US10177993B2 (en) 2015-11-25 2019-01-08 International Business Machines Corporation Event-based data transfer scheduling using elastic network optimization criteria
US10581680B2 (en) 2015-11-25 2020-03-03 International Business Machines Corporation Dynamic configuration of network features
US10216441B2 (en) 2015-11-25 2019-02-26 International Business Machines Corporation Dynamic quality of service for storage I/O port allocation
JP6648546B2 (ja) * 2016-02-09 2020-02-14 富士通株式会社 情報処理装置、性能データ収集プログラムおよび性能データ収集方法
US10719247B2 (en) * 2018-03-20 2020-07-21 Kabushiki Kaisha Toshiba Information processing device, information processing method, estimation device, estimation method, and computer program product
JP6800904B2 (ja) 2018-03-20 2020-12-16 株式会社東芝 モデル生成装置、情報処理装置、モデル生成方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099294A (ja) * 2001-09-26 2003-04-04 Keyence Corp データ記録装置
JP2003263342A (ja) 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
JP2006018369A (ja) * 2004-06-30 2006-01-19 Hitachi Electronics Service Co Ltd システム改善支援システム
JP2006338543A (ja) * 2005-06-03 2006-12-14 Hitachi Ltd 監視システムおよび監視方法
JP2009233994A (ja) 2008-03-27 2009-10-15 Daikyonishikawa Corp ティアライン付スラッシュ成形表皮材の成形方法及び成形装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3818901B2 (ja) * 2000-12-21 2006-09-06 富士通株式会社 記録媒体、ネットワーク監視装置、および、プログラム
JP4841982B2 (ja) * 2006-03-20 2011-12-21 富士通株式会社 性能情報収集方法、装置、及びプログラム
US8176167B2 (en) * 2006-12-05 2012-05-08 Qualcomm Incorporated Methods and apparaus for requesting wireless communication device performance data and providing the data in optimal file size
CN101339596A (zh) * 2008-08-26 2009-01-07 腾讯科技(深圳)有限公司 一种对计算机软件系统进行保护的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099294A (ja) * 2001-09-26 2003-04-04 Keyence Corp データ記録装置
JP2003263342A (ja) 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
JP2006018369A (ja) * 2004-06-30 2006-01-19 Hitachi Electronics Service Co Ltd システム改善支援システム
JP2006338543A (ja) * 2005-06-03 2006-12-14 Hitachi Ltd 監視システムおよび監視方法
JP2009233994A (ja) 2008-03-27 2009-10-15 Daikyonishikawa Corp ティアライン付スラッシュ成形表皮材の成形方法及び成形装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5703407B1 (ja) * 2014-03-28 2015-04-22 株式会社日立ハイテクノロジーズ 情報処理装置、情報処理方法、情報システムおよびプログラム
JP2016177358A (ja) * 2015-03-18 2016-10-06 キヤノン株式会社 情報処理装置およびその制御方法
JP2019144799A (ja) * 2018-02-20 2019-08-29 コニカミノルタ株式会社 情報処理システム、情報処理装置、情報処理プログラム、および、情報処理サーバ
JP7067108B2 (ja) 2018-02-20 2022-05-16 コニカミノルタ株式会社 情報処理システム、情報処理装置、および、情報処理プログラム
JP2021101278A (ja) * 2019-12-24 2021-07-08 富士通株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP7360036B2 (ja) 2019-12-24 2023-10-12 富士通株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム

Also Published As

Publication number Publication date
CN102576326B (zh) 2015-08-19
JP5527324B2 (ja) 2014-06-18
JPWO2011043447A1 (ja) 2013-03-04
CN102576326A (zh) 2012-07-11
EP2487593A4 (en) 2017-06-21
EP2487593A1 (en) 2012-08-15
US20110218770A1 (en) 2011-09-08
EP2487593B1 (en) 2019-05-29

Similar Documents

Publication Publication Date Title
JP5527324B2 (ja) 運用監視装置、運用監視方法及びプログラム記憶媒体
CN107925612B (zh) 网络监视系统、网络监视方法和计算机可读介质
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
JP5736881B2 (ja) ログ収集システム、装置、方法及びプログラム
JP5375829B2 (ja) 運用管理装置、運用管理方法、および運用管理プログラム
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
EP2678783B1 (en) Network event management
JP5418610B2 (ja) 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
WO2011083687A1 (ja) 運用管理装置、運用管理方法、及びプログラム記憶媒体
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP2016015171A (ja) 運用管理装置、運用管理方法、及びプログラム
JP4572251B2 (ja) 計算機システム、計算機システムの障害の予兆検知方法及びプログラム
WO2017150286A1 (ja) システム分析装置、システム分析方法、及び、コンピュータ読み取り可能な記録媒体
JP2007207117A (ja) 性能監視装置、性能監視方法及びプログラム
JP2016146020A (ja) データ分析システム及び分析方法
JP6667664B2 (ja) プラント管理装置、プラント管理方法、およびプログラム
JP4761229B2 (ja) 運用管理装置、運用管理方法ならびにプログラム
JP7038629B2 (ja) 機器状態監視装置及びプログラム
KR101021657B1 (ko) 디바이스 장애 원격관리 시스템
JP2009053795A (ja) 生産制御システム
JP7204044B2 (ja) 状態検知システム
JP2009232144A (ja) 故障推定装置
CN117948319A (zh) 一种液压系统状态预测方法、装置、设备及存储介质
CN117192278A (zh) 基于参量和环境变量的故障预测系统及方法
CN115686890A (zh) 一种处理器故障提前预警方法、系统、电子设备及介质

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080045376.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 13057849

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10822117

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011535469

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2010822117

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE