WO2013035264A1 - 監視装置、監視方法およびプログラム - Google Patents

監視装置、監視方法およびプログラム Download PDF

Info

Publication number
WO2013035264A1
WO2013035264A1 PCT/JP2012/005355 JP2012005355W WO2013035264A1 WO 2013035264 A1 WO2013035264 A1 WO 2013035264A1 JP 2012005355 W JP2012005355 W JP 2012005355W WO 2013035264 A1 WO2013035264 A1 WO 2013035264A1
Authority
WO
WIPO (PCT)
Prior art keywords
inspection
monitoring
conversion
group
value
Prior art date
Application number
PCT/JP2012/005355
Other languages
English (en)
French (fr)
Inventor
悠 吉田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2013035264A1 publication Critical patent/WO2013035264A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Definitions

  • the present invention relates to a monitoring device, a monitoring method, and a program.
  • IT services various methods for monitoring the status (operating status, etc.) of IT devices such as servers, storages, network devices, and various services (hereinafter referred to as “IT services”) realized using these devices have been provided. Yes.
  • a monitoring system acquires information (monitoring messages, etc.) indicating the status of a monitoring target (IT service, IT device, etc.) in real time and outputs the information via a display or the like.
  • information indicating the status of the monitoring target
  • the information indicating the status of the monitoring target includes information indicating that a failure has occurred in the monitoring target, and various inspection items (responses) performed every predetermined time to confirm the operating status of the monitoring target. Test results of time, CPU usage, etc.).
  • Patent Document 1 when a predetermined event occurs in the video monitoring system, there is a device monitoring system that distributes a message for notifying the occurrence of the event, and is used by a plurality of different users.
  • the monitoring terminal device When an event occurs in the monitoring terminal device and the video monitoring system, according to the notification level of the event, the monitoring terminal device is configured to notify any of the monitoring terminal devices of the occurrence of the event.
  • a device monitoring system having a monitoring device for determining whether to distribute a message is disclosed.
  • Patent Document 2 discloses an information processing apparatus connected via a network to a plurality of data transfer apparatuses to which different identifiers are assigned for each apparatus, and includes network configuration information indicating a connection relationship between the plurality of data transfer apparatuses.
  • a failure message including information on the stored storage unit and the identifier, failure occurrence date and time, and failure type is received from the plurality of data transfer devices, these messages are stored in the storage unit, and the plurality of failure messages are stored.
  • a predetermined score is assigned to the two failure messages, and the source of the two failure messages is referred to by referring to the network configuration information
  • the number of hops between the two devices is determined, and the smaller the number of hops, the larger the score is added to the score of the two failure messages. It is determined that the relationship between the two failure messages is higher as the sum of the numbers is larger, and the types of failures indicated by the two failure messages within the predetermined time are in the failure occurrence order of the two failure messages.
  • An information processing apparatus is disclosed that includes a control unit that determines whether or not to generate a rule that deletes a message that is later in sequence when it occurs.
  • the present inventor has found the following problems in the means for providing information to the monitoring operator.
  • the monitoring operator may monitor multiple monitoring targets in parallel. In such a case, an enormous amount of information is provided to the monitoring operator.
  • the monitoring operator must check the information indicating that a failure has occurred in the system and the information indicating that the test result is not good (failure information) without overlooking, and take appropriate measures as necessary. .
  • the monitoring operator may overlook the defect information.
  • some inspection items are executed for multiple monitoring targets. Some inspection items have different performance requirements for a plurality of monitoring targets. For example, the response time required for the first monitoring target may be different from the response time required for the second monitoring target. For this reason, even if the inspection results have exactly the same value, there is a possibility that the information is defect information for one monitoring target but is not defect information for the other monitoring target. That is, the monitoring operator needs to confirm the inspection results for each monitoring target after appropriately grasping the required performance of each of the plurality of monitoring targets.
  • an object of the present invention is to provide an information providing means for reducing the inconvenience that a monitoring operator who monitors a plurality of monitoring objects in parallel overlooks defect information.
  • inspection result acquisition means for acquiring inspection results of a plurality of inspection items performed on each of a plurality of monitoring objects, and a conversion indicating the status of each of the inspection items of each of the monitoring objects on the same scale
  • Conversion rule holding means for holding a conversion rule for calculating a value using the inspection result, the inspection result acquired by the inspection result acquisition means, and the conversion value using the conversion rule
  • the plurality of inspection items are classified into a plurality of groups, and evaluation is performed using the converted values of the inspection items classified into each group for each group.
  • a group-by-group evaluation unit that calculates a value, and an output unit that outputs the evaluation value in association with each of the monitoring targets.
  • Common test item is present at least one member, the conversion rule holding means, the common inspection plurality holding monitoring device at least one of the conversion rules in the fields is provided.
  • the computer has the same situation as each of the inspection items of the monitoring target, the inspection result acquiring means for acquiring the inspection results of the plurality of inspection items performed on each of the plurality of monitoring targets.
  • Conversion rule holding means for holding a conversion rule for calculating the conversion value indicated by the scale using the inspection result, the inspection result acquired by the inspection result acquisition means, and the conversion rule using the conversion rule Conversion means for calculating a conversion value, classifying the plurality of inspection items into a plurality of groups for each of the monitoring targets, and using the conversion values of the inspection items classified into each group for each group And an evaluation unit for each group that calculates an evaluation value, and an output unit that outputs the evaluation value in association with each of the monitoring targets.
  • the inspection result acquisition step for acquiring the inspection results of the plurality of inspection items performed on each of the plurality of monitoring objects, and the status of each of the inspection items of each of the monitoring objects on the same scale
  • a conversion rule for calculating a conversion value to be calculated using the inspection result a conversion step of calculating the conversion value using the inspection result acquired in the inspection result acquisition step, and each monitoring target
  • a computer executing an output step of outputting the evaluation value in association with each of the monitoring targets, and the plurality of inspection items are performed on the plurality of monitoring targets. That common test item at least one exists, at least one of the conversion rules in the common test item monitoring method of plurality of are provided.
  • the present invention it is possible to reduce the inconvenience that the monitoring operator who monitors a plurality of monitoring targets in parallel overlooks the defect information.
  • the apparatus includes an arbitrary computer CPU, memory, and a program loaded in the memory (a program stored in the memory in advance from the stage of shipping the apparatus, a storage medium such as a CD, and the like on the Internet). And a storage unit such as a hard disk for storing the program, and a network connection interface, and any combination of hardware and software. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
  • each device is described as being realized by one device, but the means for realizing it is not limited to this. That is, it may be a physically separated configuration or a logically separated configuration.
  • the monitoring apparatus acquires the inspection results of a plurality of inspection items (response time, CPU usage rate, service life and death, etc.) performed for each of a plurality of monitoring targets. And the monitoring apparatus expresses the present condition of each inspection item of each monitoring object by the value of the same scale using the acquired inspection result.
  • a plurality of inspection items response time, CPU usage rate, service life and death, etc.
  • the test result of response time is indicated in “seconds”.
  • the CPU usage rate is indicated by “%”.
  • the life and death of the service is indicated by a binary value of “life or death”.
  • the monitoring device uses the inspection results of the plurality of inspection items indicated in various units as described above to indicate the current state of each inspection item to be monitored with the same scale, for example, a value of 50 points (conversion value). Express.
  • the monitoring device calculates a reference value (eg, 40 points) from the response time “1 second”.
  • a reference value eg, 40 points
  • the monitoring device calculates a reference value (eg, 40 points) from the CPU usage rate “50%”.
  • a level hereinafter referred to as “alert level” that serves as a guideline for whether or not to generate an alert for each inspection item is converted into a guideline value.
  • the alert level may differ for each monitoring target.
  • the first monitoring target needs to generate an alert when the response time exceeds 1 second, but the second monitoring target needs to generate an alert when the response time exceeds 1.5 seconds.
  • the monitoring apparatus has a conversion rule for converting the response time (inspection result) of the first monitoring target into a conversion value, and a conversion rule for converting the response time (inspection result) of the second monitoring target into a conversion value.
  • Each test result can be converted into a converted value according to each conversion rule.
  • the monitoring device does not provide the inspection result of each inspection item to the monitoring operator as it is, but performs the following processing using the conversion value calculated as described above.
  • the monitoring device classifies a plurality of inspection items into a plurality of groups for each monitoring target. Then, the monitoring device specifies the lowest value among the converted values of the inspection items classified into each group. Next, the monitoring apparatus determines the specified minimum value as the evaluation value of the group. Then, the monitoring device provides the evaluation value of each group to the monitoring operator for each monitoring target.
  • FIG. 1 is an example of a functional block diagram of the monitoring device 1 of the present embodiment.
  • the monitoring device 1 of the present embodiment includes an inspection result acquisition unit 10, a conversion rule holding unit 20, a conversion unit 30, a group evaluation unit 40, and an output unit 50.
  • the monitoring device 1 may further include a comprehensive evaluation unit 60.
  • the inspection result acquisition unit 10 acquires inspection results of a plurality of inspection items performed for each of a plurality of monitoring targets.
  • “Monitoring target” corresponds to IT devices such as servers, storages, and network devices, and various IT services realized using such IT devices. The number of monitoring targets monitored in parallel is a design matter.
  • the “inspection item” includes all items for monitoring the operating state of the monitoring target. For example, the service response time, the CPU usage rate, the redundant configuration guarantee for checking the status of the redundant configuration, and the life and death of each IT device are inspected.
  • the inspection of a plurality of inspection items is carried out regularly or intermittently. Then, when the inspection item is inspected, the inspection result acquisition unit 10 can acquire the inspection result in real time.
  • the conversion rule holding unit 20 holds a conversion rule for converting the inspection results of each of the plurality of inspection items into conversion values indicated by the same scale.
  • the scale of the conversion value is not particularly limited, and may be, for example, a perfect score of 50 points, a perfect score of 100 points, or a five-step evaluation from A to E. In the following, the inspection result is converted to a scale of 50 points.
  • a predetermined level (alert level) of each of a plurality of inspection items becomes the same conversion value (reference value).
  • the “predetermined level” may be a level different from the alert level.
  • the predetermined level may be a level at which the monitoring operator needs to report the inspection result of each inspection item to a predetermined user (supervisor). In the following, it is assumed that the predetermined level is an alert level.
  • the monitoring device calculates a reference value (eg, 40 points) from the response time “1 second”. Keep it. Further, when it is necessary to generate an alert when the redundant configuration of the first monitoring target falls below “n-duplication (active system)”, the monitoring apparatus determines the reference value from the redundant configuration “n-duplication (active system)”. A conversion rule for which (example: 40 points) is calculated is held.
  • the conversion rule holding unit 20 can hold a plurality of at least one conversion rule in such common inspection items.
  • the inspection item “response time” is a common inspection item that is performed for both the first and second monitoring targets.
  • the conversion rule holding unit 20 can hold a conversion rule for converting the response time into a converted value for each of the first and second monitoring targets.
  • the contents of each conversion rule may be different.
  • the conversion rule holding unit 20 can hold a plurality of conversion rules corresponding to each. .
  • FIG. 5 shows an example of the conversion rule held by the conversion rule holding unit 20.
  • a conversion rule ID and a conversion rule are described in association with each inspection item.
  • a plurality of conversion rules are associated with the response time, which is a common inspection item.
  • conversion rule holding unit 20 holds a plurality of conversion rules for converting the inspection result of the common inspection item in this way, any one conversion rule is set for each monitoring target to be inspected for the common inspection item.
  • conversion rule-monitoring target correspondence information Is stored (conversion rule-monitoring target correspondence information).
  • FIG. 6 shows an example of conversion rule-monitoring target correspondence information. According to the conversion rule-monitoring target correspondence information shown in FIG. 6, the response time check result acquired from the monitoring target ID “000001” can be converted into a conversion value according to the conversion rule of the conversion rule ID [0000A]. It is shown.
  • the details of the conversion rules are design matters and are not particularly limited.
  • the conversion rule may be a function that calculates a conversion value when an inspection result is substituted.
  • the conversion rule may be a rule for calculating the conversion value using only the latest inspection result, or the conversion value is calculated by reflecting not only the latest inspection result but also the past inspection result. It may be a rule to do.
  • an example of the conversion rule will be described.
  • a system including a firewall (FW), a load balancer (LB), five web servers (Web01 to 05), and a database (DB) as shown in FIG. 4 is a monitoring target.
  • Webs 01 to 05 have a redundant configuration. Further, it is assumed that the Webs 01 to 05 have a function of automatically recovering (automatic recovery function) when a failure occurs in the system.
  • the inspection result of the inspection item “individual device (Web01) life and death” is “death (stop)”. Since Web01 is one of redundant configurations and has an automatic recovery function, stopping Web01 does not directly affect the operation of the system. For this reason, it is not necessary to generate an alert immediately when Web01 is stopped. However, when Web01 repeatedly stops and automatically recovers, it is considered that inspection is necessary, so it is better to generate an alert.
  • the conversion rule in such a case is that a conversion value obtained by subtracting a predetermined value (here, “5 points”) from a full score (here, “50 points”) when the Web01 inspection result becomes “dead (stopped)”. 45 points) may be calculated. After that, even if Web01 automatically recovers, the converted value (45 points) is not changed as it is, and when the inspection result becomes “dead (stopped)” again, the converted value (5 points) is subtracted from the converted value (5 points). 40 points) may be calculated. According to such a conversion rule, “40 points (reference value)” is calculated when Web01 repeats “stop-automatic recovery” a predetermined number of times.
  • the inspection result of the inspection item “redundant configuration guarantee” becomes “quadruple (active system)”.
  • the system has no problem as long as the redundant configuration of the quadruple (active system) is maintained, and it is necessary to generate an alert when the system deteriorates to the triple (active system).
  • the conversion rule in such a case is that the conversion value when the redundant configuration is 5-fold (active system) is a perfect score (here, “50 points”), and in the case of 4-fold (current system), “ “40 points (reference value)”, “30 points” for triple (active) system, “20” for double (active) system, and “1” for one web server in operation. “10 points”, or “0 points” may be calculated when all web servers are stopped.
  • the conversion unit 30 converts the inspection result acquired by the inspection result acquisition unit 10 into a conversion value using a conversion rule.
  • the conversion rule holding unit 20 holds a plurality of conversion rules for converting the inspection result of the common inspection item
  • the conversion unit 30 identifies the monitoring target for which the inspection result has been performed, and then associates it with the identified monitoring target using the conversion rule-monitoring target correspondence information (see FIG. 6).
  • a conversion rule is specified, and then the inspection result is converted into a converted value using the specified conversion rule.
  • the group-by-group evaluation unit 40 classifies a plurality of inspection items into a plurality of groups. Then, the group-by-group evaluation unit 40 calculates the evaluation value of each group using the converted value of the inspection item classified into each group for each monitoring target.
  • the group-by-group evaluation unit 40 immediately affects a plurality of inspection items when the inspection result of the inspection item does not satisfy a predetermined condition (for example, when a failure occurs), to a user who uses the monitoring target. May be classified into a group (immediate impact G) that has an impact and a group (future impact G) that does not affect immediately but may have a future impact.
  • a predetermined condition is a design matter.
  • the inspection items “service response time”, “service life / death”, “network performance”, and the like may be classified as an immediate effect G.
  • one of a plurality of IT devices in a redundant configuration stops (Each device alive), maintains a certain level even if the redundancy of the redundant configuration decreases (redundant configuration guarantee), Even if some of the performance index values of the infrastructure are different from normal (correlation destruction level), or the resource usage is tight (resource capacity), the user who uses the service immediately Is considered to have no effect. However, if the state is continued, the situation further deteriorates and there is a possibility of affecting the user in the future. Therefore, the inspection items “life and death of each redundantly configured device”, “redundant configuration guaranteed”, “correlation destruction degree”, “resource capacity”, and the like may be classified as a future impact G.
  • the group evaluation unit 40 holds in advance information (see FIG. 7) for identifying the inspection items classified into each of a plurality of groups, and uses the information to classify the plurality of inspection items into each group. May be. Note that the above example of group classification is merely an example, and classification into other attribute groups is also possible. In addition, the number of groups to be classified is a design matter, and can be classified into other numbers of groups.
  • the group-by-group evaluation unit 40 classifies a plurality of inspection items into an immediate effect G and a future effect G.
  • the group-by-group evaluation unit 40 identifies the minimum value among the converted values of the inspection items classified into each group for each monitoring target, and calculates the minimum value as the evaluation value of the group. That is, the group-by-group evaluation unit 40 sets the converted value of the item with the worst inspection result among the inspection items classified into each group as the evaluation value of the group (hereinafter, “group evaluation value”).
  • the group evaluation unit 40 holds data as shown in FIG. In the data shown in FIG. 8, a conversion value calculated based on the latest inspection result of each inspection item to be monitored is recorded in the “conversion value” column. In the “group” column, the name of the group into which each inspection item is classified is recorded in association with each inspection item.
  • the conversion value marked in the “minimum value” column means the lowest value in each group to be monitored.
  • the redundant configuration guarantee conversion value is the lowest value among the plurality of inspection items classified into the future impact G of the monitoring target ID “000001”. In such a case, the group evaluation unit 40 determines the evaluation value of the future impact G of the monitoring target ID “000001” as “41 points”.
  • the group-by-group evaluation unit 40 acquires the conversion value and updates the data shown in FIG. it can. Then, the group evaluation value is recalculated according to the updated contents. Such processing can be performed in real time.
  • the group-by-group evaluation unit 40 can store not only conversion values calculated based on the latest inspection result of each inspection item to be monitored but also past conversion values.
  • the comprehensive evaluation unit 60 calculates a comprehensive evaluation value for each monitoring target by using the group evaluation value of each monitoring target. Specifically, the comprehensive evaluation unit 60 calculates the lowest value among the group evaluation values of each monitoring target as the comprehensive evaluation value of the monitoring target. That is, the comprehensive evaluation unit 60 sets the evaluation value of the group with the worst evaluation among the group evaluation values of each monitoring target as the comprehensive evaluation value of the monitoring target.
  • the comprehensive evaluation unit 60 receives the group evaluation value of each group to be monitored from the group-by-group evaluation unit 40, and creates and holds data as shown in FIG. And the comprehensive evaluation part 60 can calculate the comprehensive evaluation value of each monitoring object using the said data. In addition, the comprehensive evaluation part 60 will update the content of the predetermined location of the data shown in FIG. 9, if the new evaluation value of a certain group of the monitoring object is acquired from the evaluation part 40 for every group. Then, the comprehensive evaluation unit 60 recalculates the comprehensive evaluation value using the updated data.
  • the output unit 50 outputs the evaluation value of each group for each monitoring target. That is, when the output unit 50 acquires the group evaluation value of each group to be monitored from the group-by-group evaluation unit 40, the output unit 50 outputs the acquired group evaluation value in association with each monitoring target. Note that the output unit 50 can simultaneously output a plurality of monitoring target group evaluation values.
  • the output unit 50 can output a comprehensive evaluation value for each monitoring target in addition to or instead of the evaluation value of each group. That is, when the output unit 50 acquires the comprehensive evaluation value of each monitoring target from the comprehensive evaluation unit 60, the output unit 50 can output the comprehensive evaluation value in association with each monitoring target. Note that the output unit 50 can simultaneously output a plurality of monitoring target comprehensive evaluation values.
  • the output means by the output unit 50 is not particularly limited, and can be realized by using any output device such as a display, a printing device, a mailer, and a FAX.
  • FIG. 2 shows an example of output contents by the output unit 50.
  • the name of the monitoring target is described in the monitoring target column.
  • the comprehensive evaluation value of each monitoring target is described in the column of comprehensive evaluation
  • the group evaluation value of each group of each monitoring target is described in each column of immediate effect G and future effect G. ing.
  • the output unit 50 may change the display content on the display in real time according to the update. it can.
  • the output unit 50 may be able to display such information using other methods such as graphs and figures.
  • the monitoring apparatus can be realized, for example, by installing the following program in a computer.
  • Computer Inspection result acquisition means for acquiring inspection results of a plurality of inspection items to be performed on each of a plurality of monitoring targets;
  • Conversion rule holding means for holding conversion rules for calculating conversion values indicating the status of each of the inspection items of each of the monitoring targets on the same scale, using the inspection results;
  • the plurality of inspection items are classified into a plurality of groups, and an evaluation value is calculated by using the converted values of the inspection items classified into the respective groups for each group.
  • Output means for outputting the evaluation value in association with each of the monitoring targets; And function as Among the plurality of inspection items, there is at least one common inspection item to be performed on the plurality of monitoring targets, A program capable of causing the conversion rule holding unit to hold a plurality of at least one conversion rule among the common inspection items.
  • FIG. 3 is a flowchart illustrating an example of a processing flow of the monitoring method of the present embodiment.
  • the output unit 50 displays an overall evaluation value, an immediate influence G, and a group evaluation value of a future influence G for each of a plurality of monitoring objects as shown in FIG. Is output to the display. If some or all of the total evaluation value and group evaluation value have not been calculated at that time, the field may be left blank, or information such as “Not evaluated” may be displayed. May be.
  • the inspection result acquisition unit 10 acquires inspection results of a plurality of inspection items performed on each of the plurality of monitoring targets (S10).
  • the inspection result acquisition unit 10 can acquire the inspection result in real time when the inspection is executed.
  • the inspection result acquisition unit 10 acquires the inspection result of the response time of the first monitoring target (monitoring target ID “000001”).
  • the search item “service response time” is a common inspection item executed for a plurality of monitoring targets, and the conversion rule holding unit 20 holds a plurality of conversion rules for converting the inspection result of the common inspection item. It is assumed that the conversion rule-monitoring target correspondence information (see FIG. 6) is held (see FIG. 5).
  • the conversion unit 30 calculates a conversion value using the inspection result acquired in S10 and the conversion rule held by the conversion rule holding unit 20 (S20).
  • the conversion unit 30 first identifies to which monitoring target the inspection result of the service response time is implemented.
  • the conversion unit 30 specifies that the process has been performed on the first monitoring target (monitoring target ID “000001”). Thereafter, the conversion unit 30 uses the conversion rule-monitoring target correspondence information (see FIG. 6) held by the conversion rule holding unit 20 to be associated with the first monitoring target (monitoring target ID “000001”).
  • the conversion rule of the common inspection item (service response time) is specified.
  • the conversion unit 30 specifies the conversion rule with the conversion rule ID “0000A”. Thereafter, the conversion unit 30 takes out the conversion rule with the conversion rule ID “0000A” (see FIG. 5), and uses the conversion rule and the inspection result of the service response time acquired in S10 to calculate the conversion value. calculate.
  • the group-by-group evaluation unit 40 classifies a plurality of inspection items into a plurality of groups for each monitoring target, and calculates an evaluation value by using a converted value of the inspection item classified into each group for each group. (S30).
  • the group-by-group evaluation unit 40 holds data (see FIG. 8) that records the latest inspection results (list of inspection results) for each of a plurality of inspection items for each monitoring target.
  • the group-by-group evaluation unit 40 acquires the conversion value, and updates predetermined information in the data shown in FIG. 8 to the new conversion value.
  • the group evaluation unit 40 updates the conversion value of the inspection item “service response time” associated with the monitoring target ID “000001” to a new conversion value.
  • the evaluation value of the updated monitoring target group is recalculated.
  • the group evaluation unit 40 recalculates the evaluation value of the immediate influence G of the monitoring target ID “000001”.
  • the comprehensive evaluation unit 60 may update the data shown in FIG. 9 as necessary, and recalculate the comprehensive evaluation value.
  • the comprehensive evaluation unit 60 updates the value of the corresponding portion of the data shown in FIG. Then, the comprehensive evaluation unit 60 recalculates the comprehensive evaluation value of the monitoring target ID “000001” in accordance with the updated contents.
  • the output unit 50 changes the display on the display (see FIG. 2) to the updated new value (S40).
  • the monitoring apparatus does not provide the monitoring operator with the inspection results of each of the plurality of inspection items of the plurality of monitoring targets, but categorizes them into a plurality of groups and calculates the evaluation value of each group, Provide the value to the monitoring operator. For this reason, the amount of information provided to the monitoring operator can be reduced.
  • each group is evaluated based on the inspection result of the inspection items classified into each group. Specifically, after all the inspection items are converted into conversion values indicated by the same scale, the lowest value among the conversion values of the inspection items classified into each group is calculated as the evaluation value of the group. According to this embodiment, it is possible to suppress the inconvenience that the monitoring operator overlooks important information that the inspection result of a certain inspection item has reached a predetermined level (eg, alert level).
  • a predetermined level eg, alert level
  • the amount of information to be confirmed by the monitoring operator can be further reduced by calculating the comprehensive evaluation of each monitoring target (the comprehensive evaluation unit 60) and providing it to the monitoring operator.

Abstract

複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得部(10)と、監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、検査結果を利用して算出するための変換ルールを保持する変換ルール保持部(20)と、検査結果取得部(10)が取得した検査結果、及び、変換ルールを利用して変換値を算出する変換部(30)と、監視対象毎に、複数の検査項目を複数のグループに分類し、グループ毎に、各々のグループに分類される検査項目の変換値を利用して、評価値を算出するグループ毎評価部(40)と、監視対象各々に関連付けて評価値を出力する出力部(50)と、を有する監視装置(1)。

Description

監視装置、監視方法およびプログラム
 本発明は、監視装置、監視方法およびプログラムに関する。
 近年、サーバやストレージ、ネットワーク機器といったIT機器や、これらを用いて実現される様々なサービス(以下、「ITサービス」)の状態(稼動状態等)を監視するための様々な方法が提供されている。
 例えば、監視用のシステム(以下、「監視システム」)が、監視対象(ITサービス、IT機器等)の状態を示す情報(監視メッセージ等)をリアルタイムに取得し、ディスプレイ等を介して出力する。そして、監視オペレータが、当該情報をモニタする方法などがある。なお、監視対象の状態を示す情報の中には、監視対象に障害が発生したことを示す情報や、監視対象の稼動状態を確認するために所定時間おきに実施される様々な検査項目(応答時間、CPU使用率等)の検査結果などが含まれる。
 特許文献1には、映像モニタリングシステムにおいて所定の事象が発生した場合に、当該事象の発生を通知するためのメッセージを配信する機器監視システムであって、異なる複数の使用者によって使用される複数の監視端末装置と、前記映像モニタリングシステムにおいてある事象が発生した場合に、当該事象の通知レベルに応じて、前記複数の監視端末装置のうちいずれの監視端末装置に当該事象の発生を通知するためのメッセージを配信するかを決定する監視装置とを有する機器監視システムが開示されている。
 特許文献2には、装置毎に異なる識別子が割り当てられた複数のデータ転送装置とネットワークを介して接続される情報処理装置であって、前記複数のデータ転送装置の接続関係を示すネットワーク構成情報が格納された記憶部と、前記識別子、障害発生日時および障害の種類の情報を含む障害メッセージを前記複数のデータ転送装置から受信すると、これらのメッセージを前記記憶部に格納し、該複数の障害メッセージのうち2つの障害メッセージの前記障害発生日時が所定の時間内であれば、該2つの障害メッセージに所定の点数を付与し、前記ネットワーク構成情報を参照して該2つの障害メッセージの送信元となる2つの装置間のホップ数を調べ、該ホップ数が少ないほど大きい点数を前記2つの障害メッセージの得点に加算し、点数の合計値が大きいほど前記2つの障害メッセージの関連性が高いと判定し、前記所定の時間内に前記2つの障害メッセージのそれぞれが示す種類の障害が該2つの障害メッセージの障害発生順序で発生すると順序が後の方のメッセージを削除する旨のルールを生成するか否かを決定する制御部と、を有する情報処理装置が開示されている。
特開2009-089229号公報 特開2009-253358号公報
 本発明者は、監視オペレータへの情報提供手段において、以下のような課題を見出した。
 監視オペレータは、複数の監視対象を並行して監視する場合がある。かかる場合、膨大な量の情報が、監視オペレータに提供されることとなる。
 当然、監視オペレータは、システムに障害が発生していることを示す情報や検査結果が良くないことを示す情報(不具合情報)は見落とさず確認し、必要に応じて適切な対応を取らなければならない。しかし、提供される情報量が多い場合、監視オペレータは不具合情報を見落としてしまう恐れがある。
 また、複数の検査項目の中には、複数の監視対象に対して実行されるものがある。そして、このような検査項目の中には、複数の監視対象各々の要求性能が異なるものがある。例えば、第1の監視対象に要求される応答時間と、第2の監視対象に要求される応答時間が異なる場合がある。このため、検査結果が全く同じ値であっても、一方の監視対象にとっては不具合情報であるが、他方の監視対象にとっては不具合情報でない場合があり得る。すなわち、監視オペレータは、複数の監視対象各々の要求性能を適切に把握したうえで、監視対象毎の検査結果を確認する必要がある。
 しかし、監視対象及び検査項目が多数ある場合、監視ユーザが把握すべき情報は膨大な量となり、確認作業は面倒なものとなる。また、このような作業に気を取られているうちに、他の不具合情報を見落としてしまうなどの不都合が発生し得る。
 そこで、本発明では、複数の監視対象を並行して監視する監視オペレータが、不具合情報を見落とす不都合を軽減する情報提供手段を提供することを課題とする。
 本発明によれば、複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得手段と、前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルールを保持する変換ルール保持手段と、前記検査結果取得手段が取得した前記検査結果、及び、前記変換ルールを利用して前記変換値を算出する変換手段と、前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価手段と、前記監視対象各々に関連付けて前記評価値を出力する出力手段と、を有し、前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、前記変換ルール保持手段は、前記共通検査項目の中の少なくとも1つの前記変換ルールを複数保持する監視装置が提供される。
 また、本発明によれば、コンピュータを、複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得手段、前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルールを保持する変換ルール保持手段、前記検査結果取得手段が取得した前記検査結果、及び、前記変換ルールを利用して前記変換値を算出する変換手段、前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価手段、前記監視対象各々に関連付けて前記評価値を出力する出力手段、として機能させるとともに、前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、前記変換ルール保持手段に、前記共通検査項目の中の少なくとも1つの前記変換ルールを複数保持させることができるプログラムが提供される。
 また、本発明によれば、複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得ステップと、前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルール、及び、前記検査結果取得ステップで取得した前記検査結果を利用して前記変換値を算出する変換ステップと、前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価ステップと、前記監視対象各々に関連付けて前記評価値を出力する出力ステップと、をコンピュータが実行し、前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、前記共通検査項目の中の少なくとも1つの前記変換ルールは複数存在する監視方法が提供される。
 本発明によれば、複数の監視対象を並行して監視する監視オペレータが不具合情報を見落とす不都合を軽減することができる。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の監視装置の機能ブロック図の一例である。 本実施形態の監視装置が出力する内容の一例である。 本実施形態の監視方法の処理の流れの一例を示すフローチャートである。 本実施形態の変換ルールの一例を説明するための図である。 本実施形態の監視装置が保持するデータの一例である。 本実施形態の監視装置が保持するデータの一例である。 本実施形態の監視装置が保持するデータの一例である。 本実施形態の監視装置が保持するデータの一例である。 本実施形態の監視装置が保持するデータの一例である。
 以下、本発明の実施の形態について図面を用いて説明する。
 なお、本実施形態の装置は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
 まず、本実施形態の概要について説明する。
 本実施形態の監視装置は、複数の監視対象各々に対して実施される複数の検査項目(応答時間、CPU使用率、サービス死活等)の検査結果を取得する。そして、監視装置は、取得した検査結果を利用して、各監視対象の各検査項目の現状を、同じスケールの値で表現する。
 例えば、応答時間の検査結果は「秒」で示される。また、CPU使用率は「%」で示される。さらに、サービスの死活は「生又は死」の2値で示される。監視装置は、このような様々な単位で示される複数の検査項目の検査結果を利用して、各監視対象の各検査項目の現状を、同じスケール、例えば50点満点の値(変換値)で表現する。
 なお、「同じスケールで示す」とは、複数の検査項目各々の所定のレベルが、同じ変換値(以下、「目安値」)になることも意味する。
 例えば、第1の監視対象の応答時間が1秒を超えるとアラートを発生させる必要がある場合、監視装置は、応答時間「1秒」から目安値(例:40点)を算出する。また、第1の監視対象のCPU使用率が50%を超えるとアラートを発生させる必要がある場合、監視装置は、CPU使用率「50%」から目安値(例:40点)を算出する。この例の場合、各検査項目のアラートを発生させるか否かの目安となるレベル(以下、「アラートレベル」)が、目安値に変換されている。
 なお、同じ検査項目であっても、監視対象毎にアラートレベルが異なる場合がある。例えば、第1の監視対象は応答時間が1秒を超えるとアラートを発生させる必要があるが、第2の監視対象は応答時間が1.5秒を超えるとアラートを発生させる必要があるような場合がある。このため、監視装置は、第1の監視対象の応答時間(検査結果)を変換値に変換する変換ルールと、第2の監視対象の応答時間(検査結果)を変換値に変換する変換ルールを別々に保持しておき、各々の変換ルールに従い、各々の検査結果を変換値に変換することができる。
 そして、監視装置は、各検査項目の検査結果をそのまま監視オペレータに提供するのでなく、上述のようにして算出した変換値を利用して、以下のような処理を行う。
 まず、監視装置は、監視対象毎に、複数の検査項目を複数のグループに分類する。そして、監視装置は、各グループに分類される検査項目の変換値の中の最低値を特定する。次いで、監視装置は、特定した最低値を、当該グループの評価値として決定する。そして、監視装置は、監視対象毎に、各グループの評価値を監視オペレータに提供する。
 以下、このような本実施形態の監視装置の詳細な構成について説明する。図1は、本実施形態の監視装置1の機能ブロック図の一例である。
 図1に示すように、本実施形態の監視装置1は、検査結果取得部10と、変換ルール保持部20と、変換部30と、グループ毎評価部40と、出力部50とを有する。なお、監視装置1は、さらに、総合評価部60を有してもよい。
 検査結果取得部10は、複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する。「監視対象」は、サーバやストレージ、ネットワーク機器といったIT機器類や、このようなIT機器を用いて実現される様々なITサービスなどが該当する。なお、並行して監視する監視対象の数は設計的事項である。
 「検査項目」は、監視対象の稼動状態を監視するためのあらゆる項目が該当し、例えば、サービス応答時間、CPU使用率、冗長構成の状態を検査する冗長構成保障、各IT機器の死活を検査する個別機器死活、各サービスの死活を検査するサービス死活、サービスにアクセスするためのネットワーク性能を検査するネットワーク帯域容量、サービスを構成するインフラストラクチャの正常性や障害リスクを検査する相関破壊度、サービス品質を維持するためのインフラ容量を検査するリソース容量などであってもよい。監視対象各々に対してどのような検査項目の検査を行うかは、設計的事項である。
 なお、複数の検査項目の検査は、定期的又は間欠的に実施される。そして、検査結果取得部10は、上記検査項目の検査が実行されると、その検査結果をリアルタイムに取得することができる。
 このような検査結果取得部10の構成は従来技術に準じて実現できるので、ここでの説明は省略する。
 変換ルール保持部20は、複数の検査項目各々の検査結果を、同じスケールで示す変換値に変換する変換ルールを保持する。変換値のスケールは特段制限されず、例えば50点満点、100点満点などであってもよいし、A乃至Eの5段階評価であってもよい。以下は、検査結果を50点満点のスケールに変換するものとする。
 なお、「同じスケールで示す」とは、複数の検査項目各々の所定のレベル(アラートレベル)が、同じ変換値(目安値)になることも意味する。なお、上記「所定のレベル」は、アラートレベルと異なるレベルであってもよい。例えば、上記所定のレベルは、監視オペレータが所定のユーザ(監督者)に各検査項目の検査結果を報告する必要があるレベルであってもよい。以下では、上記所定のレベルは、アラートレベルであるものとする。
 例えば、第1の監視対象の応答時間が1秒を超えるとアラートを発生させる必要がある場合、監視装置は、応答時間「1秒」から目安値(例:40点)が算出される変換ルールを保持しておく。また、第1の監視対象の冗長構成が「n重化(現用系)」を下回るとアラートを発生させる必要がある場合、監視装置は、冗長構成「n重化(現用系)」から目安値(例:40点)が算出される変換ルールを保持しておく。
 なお、複数の検査項目の中には、複数の監視対象に対して実施される共通検査項目が少なくとも1つ存在する。変換ルール保持部20は、このような共通検査項目の中の少なくとも1つの変換ルールを、複数保持することができる。例えば、検査項目「応答時間」が、第1及び第2の監視対象何れに対しても実施される共通検査項目であるとする。かかる場合、変換ルール保持部20は、応答時間を変換値に変換する変換ルールを、第1及び第2の監視対象毎に保持することができる。当然、各々の変換ルールの内容は、異なるものであってよい。このように構成した場合、第1及び第2の監視対象各々のアラートレベルが異なる場合であっても、変換ルール保持部20は、各々に応じた複数の変換ルールを保持しておくことができる。
 ここで、図5に、変換ルール保持部20が保持する変換ルールの一例を示す。図5に示すデータでは、各検査項目に対応付けて、変換ルールID及び変換ルールが記載されている。なお、共通検査項目である応答時間には、複数の変換ルールが対応付けて記載されている。
 なお、変換ルール保持部20は、このように共通検査項目の検査結果を変換する変換ルールを複数保持する場合、その共通検査項目の検査を実行される監視対象各々に、いずれか1つの変換ルールを対応付けた情報(変換ルール-監視対象対応情報)を保持しておく。図6に、変換ルール-監視対象対応情報の一例を示す。図6に示す変換ルール-監視対象対応情報によれば、監視対象ID「000001」から取得した応答時間の検査結果は、変換ルールID[0000A]の変換ルールに従い、変換値に変換されることが示されている。
 ここで、変換ルールの詳細は設計的事項であり、特段制限されない。例えば、変換ルールは、検査結果を代入されると変換値を算出する関数であってもよい。なお、変換ルールは、最新の検査結果のみを用いて変換値を算出するルールであってもよいし、または、最新の検査結果のみならず、過去の検査結果をも反映させて変換値を算出するルールであってもよい。以下、変換ルールの一例を説明する。
 当該例においては、図4に示すような、ファイアウォール(FW)、ロードバランサ(LB)、5つのウェブサーバ(Web01乃至05)、及び、データベース(DB)で構成されているシステムが監視対象であるとする。なお、Web01乃至05は冗長構成となっている。また、Web01乃至05は、システムに障害が発生した場合、自動復旧する機能(自動復旧機能)が備わっているとする。
 例えば、当該システムにおいて、Web01が停止したとする。かかる場合、検査項目「個別機器(Web01)死活」の検査結果は「死(停止)」となる。なお、Web01は冗長構成の1つであり、また、自動復旧の機能が備わっているため、Web01の停止が、直接、システムの稼働に大きな影響を及ぼすことはない。このため、Web01の停止により直ちにアラートを発生させる必要はない。しかし、Web01が停止及び自動復旧を繰り返す場合、検査が必要であると考えられるので、アラートを発生させた方がよい。
 このような場合の変換ルールは、Web01の検査結果が「死(停止)」になると、満点(ここでは「50点」)から所定の値(ここでは「5点」)を減点した変換値(45点)を算出するように定められていてもよい。そして、その後Web01が自動復旧しても変換値(45点)はそのまま変更せず、再び検査結果が「死(停止)」になると、そこから所定の値(5点)を減点した変換値(40点)を算出するようにしてもよい。このような変換ルールによれば、Web01が「停止-自動復旧」を所定回数繰り返した時点で、「40点(目安値)」が算出されることとなる。
 また、Web01が停止すると、検査項目「冗長構成保障」の検査結果は「4重化(現用系)」となる。ここで、当該システムは、4重化(現用系)の冗長構成が保たれていれば問題なく、3重化(現用系)まで悪化すると、アラートを発生させる必要があるものとする。
 このような場合の変換ルールは、冗長構成が5重化(現用系)の場合の変換値は満点(ここでは「50点」とする)であり、4重化(現用系)の場合は「40点(目安値)」、3重化(現用系)の場合は「30点」、2重化(現用系)の場合は「20点」、稼動しているウェブサーバが1つの場合は「10点」、すべてのウェブサーバが停止した場合は「0点」が算出されるようなものであってもよい。
 図1に戻り、変換部30は、検査結果取得部10が取得した検査結果を、変換ルールを利用して変換値に変換する。なお、検査結果取得部10が共通検査項目の検査結果を取得した場合であって、変換ルール保持部20が当該共通検査項目の検査結果を変換する変換ルールを複数保持している場合、変換部30は、検査結果がどの監視対象に対して実施されたものかを識別した後、上記変換ルール-監視対象対応情報(図6参照)を利用して、識別した監視対象に対応付けられている変換ルールを特定し、その後、特定した変換ルールを利用して検査結果を変換値に変換する。
 グループ毎評価部40は、複数の検査項目を複数のグループに分類する。そして、グループ毎評価部40は、監視対象毎に、各グループに分類される検査項目の変換値を利用して、各グループの評価値を算出する。
 まず、グループ毎評価部40が複数の検査項目を複数のグループに分類する構成について説明する。
 例えば、グループ毎評価部40は、複数の検査項目を、当該検査項目の検査結果が所定の条件を満たさない場合(例:障害が発生している場合)、監視対象を利用するユーザに直ちに影響を及ぼすグループ(即時影響G)と、直ちには影響しないが将来的に影響を及ぼす可能性があるグループ(将来影響G)とに分類してもよい。所定の条件は設計的事項である。
 例えば、サービス応答時間が所定のレベルを下回ったり(サービス応答時間)、サービスが停止したり(サービス死活)、サービスにアクセスするためのネットワークの品質が低下したり(ネットワーク性能)すると、当該サービスを利用するユーザに直ちに影響を及ぼすと考えられる。このため、検査項目「サービス応答時間」、「サービス死活」、「ネットワーク性能」などは、即時影響Gに分類されてもよい。
 また、冗長構成となっている複数のIT機器の中の1つが停止したり(各機器死活)、冗長構成の多重度が低下しても一定のレベルを維持していたり(冗長構成保障)、インフラストラクチャの性能指標値の一部の挙動が通常とは異なっていたり(相関破壊度)、リソースの利用量が許容量をひっ迫していても(リソース容量)、当該サービスを利用するユーザに直ちには影響しないと考えられる。しかし、当該状態が継続されると、状況がさらに悪化し、将来的にユーザに影響を及ぼす可能性がある。このため、検査項目「冗長構成の機器各々の死活」、「冗長構成保障」、「相関破壊度」、「リソース容量」などは、将来影響Gに分類されてもよい。
 グループ毎評価部40は、予め、複数のグループ各々に分類される検査項目を識別する情報(図7参照)を保持しておき、当該情報を利用して、複数の検査項目を各グループに分類してもよい。なお、上記グループ分類の例はあくまで一例であり、その他の属性のグループに分類することもできる。また、分類するグループの数は設計的事項であり、その他の数のグループに分類することもできる。以下では、グループ毎評価部40は、複数の検査項目を、即時影響Gと将来影響Gとに分類するものとする。
 次に、グループ毎評価部40が、監視対象毎に、各グループに分類される検査項目の変換値を利用して、各グループの評価値を算出する構成について説明する。
 グループ毎評価部40は、監視対象毎に、各グループに分類される検査項目の変換値の中の最低値を特定し、当該最低値を、当該グループの評価値として算出する。すなわち、グループ毎評価部40は、各グループに分類される検査項目の中の検査結果が最も悪い項目の変換値を、当該グループの評価値(以下、「グループ評価値」)とする。
 例えば、グループ毎評価部40は、図8に示すようなデータを保持しておく。図8に示すデータにおいて、「変換値」の欄には、各監視対象の各検査項目の最新の検査結果に基づいて算出された変換値が記録されている。また、「グループ」の欄には、各検査項目に対応付けて、各検査項目が分類されるグループの名称が記録されている。そして、「最低値」の欄にマークが付されている変換値は、各監視対象の各グループの中の最低値であることを意味している。図8に示す例の場合、監視対象ID「000001」の将来影響Gに分類される複数の検査項目の内、冗長構成保障の変換値が最低値であることを示している。かかる場合、グループ毎評価部40は、監視対象ID「000001」の将来影響Gの評価値を、「41点」と決定する。
 グループ毎評価部40は、検査結果取得部10が検査結果を取得し、変換部30がその検査結果を変換値に変換すると、その変換値を取得し、図8に示すデータを更新することができる。そして、更新後の内容に従い、グループ評価値を算出し直す。このような処理は、リアルタイムに行うことができる。
 なお、グループ毎評価部40は、各監視対象の各検査項目の最新の検査結果に基づいて算出された変換値のみならず、過去の変換値も記憶しておくこともできる。
 総合評価部60は、監視対象毎に、各監視対象のグループ評価値を利用して、総合評価値を算出する。具体的には、総合評価部60は、各監視対象のグループ評価値の中の最低値を、その監視対象の総合評価値として算出する。すなわち、総合評価部60は、各監視対象のグループ評価値の中の最も評価が悪いグループの評価値を、当該監視対象の総合評価値とする。
 例えば、総合評価部60は、グループ毎評価部40から各監視対象の各グループのグループ評価値を受取り、図9に示すようなデータを作成して保持しておく。そして、総合評価部60は、当該データを利用して、各監視対象の総合評価値を算出することができる。なお、総合評価部60は、グループ毎評価部40からある監視対象のあるグループの新たな評価値を取得すると、図9に示すデータの所定箇所の内容を更新する。そして、総合評価部60は更新後のデータを利用して、総合評価値を算出し直す。
 出力部50は、監視対象毎に、グループ各々の評価値を出力する。すなわち、出力部50は、グループ毎評価部40から各監視対象の各グループのグループ評価値を取得すると、各監視対象に対応付けて、取得したグループ評価値を出力する。なお、出力部50は、複数の監視対象のグループ評価値を同時に出力することができる。
 また、出力部50は、グループ各々の評価値に加えて、又は、代えて、監視対象毎に総合評価値を出力することができる。すなわち、出力部50は、総合評価部60から各監視対象の総合評価値を取得すると、各監視対象に対応付けて、その総合評価値を出力することができる。なお、出力部50は、複数の監視対象の総合評価値を同時に出力することができる。
 出力部50による出力手段は特段制限されず、ディスプレイ、印刷装置、メーラ、FAX等のあらゆる出力装置を利用して実現することができる。
 ここで、図2に、出力部50による出力内容の一例を示す。図2に示す例では、監視対象の欄に監視対象の名称が記載されている。そして、各監視対象に対応付けて、総合評価の欄に各監視対象の総合評価値が記載され、即時影響G及び将来影響G各々の欄に各監視対象の各グループのグループ評価値が記載されている。出力部50は、図2に示す情報をディスプレイに出力中に、総合評価値及びグループ評価値の中のいずれかが更新されると、当該更新に従い、ディスプレイにおける表示内容をリアルタイムに変更することができる。なお、図2に示す複数の監視対象は、総合評価の結果が良い順に配列されているが、当該配列順を、即時影響Gの結果が良い順や、将来影響Gの結果が良い順に配列し直すことができてもよい。また、出力部50は、グラフ、図形等、その他の手法を活用して、これらの情報を表示できてもよい。
 本実施形態の監視装置は、例えば、以下のプログラムをコンピュータにインストールすることで実現することができる。
 コンピュータを、
 複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得手段、
 前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルールを保持する変換ルール保持手段、
 前記検査結果取得手段が取得した前記検査結果、及び、前記変換ルールを利用して前記変換値を算出する変換手段、
 前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価手段、
 前記監視対象各々に関連付けて前記評価値を出力する出力手段、
として機能させるとともに、
 前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、
 前記変換ルール保持手段に、前記共通検査項目の中の少なくとも1つの前記変換ルールを複数保持させることができるプログラム。
 次に、本実施形態の監視方法について説明する。図3は、本実施形態の監視方法の処理の流れの一例を示すフローチャートである。
 まず、本実施形態の監視装置1を起動すると、出力部50は、図2に示すような、複数の監視対象各々の総合評価値、即時影響G及び将来影響Gのグループ評価値を表示するインタフェースをディスプレイに出力する。なお、当該時点において、総合評価値及びグループ評価値の中の一部または全部の値が算出されていない場合、その欄はブランクにしたり、または、「未評価」等の情報を表示しておいてもよい。
 その後、検査結果取得部10は、複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する(S10)。なお、検査結果取得部10は、検査が実行されると、その検査結果をリアルタイムに取得することができる。
 ここでは、検査結果取得部10は、第1の監視対象(監視対象ID「000001」)の応答時間の検査結果を取得したとする。なお、検索項目「サービス応答時間」は複数の監視対象に対して実行される共通検査項目であり、変換ルール保持部20は、当該共通検査項目の検査結果を変換する変換ルールを複数保持するとともに(図5参照)、上記変換ルール-監視対象対応情報(図6参照)を保持しているものとする。
 S10の後、変換部30は、S10で取得された検査結果、及び、変換ルール保持部20が保持する変換ルールを利用して、変換値を算出する(S20)。
 変換部30は、まず、上記サービス応答時間の検査結果がどの監視対象に対して実施されたものかを特定する。ここでは、変換部30は、第1の監視対象(監視対象ID「000001」)に対して実施されたことを特定する。その後、変換部30は、変換ルール保持部20が保持する変換ルール-監視対象対応情報(図6参照)を利用して、第1の監視対象(監視対象ID「000001」)に対応付けられている当該共通検査項目(サービス応答時間)の変換ルールを特定する。ここでは、変換部30は、変換ルールID「0000A」の変換ルールを特定する。その後、変換部30は、変換ルールID「0000A」の変換ルールを取り出し(図5参照)、当該変換ルール、及び、S10で取得された上記サービス応答時間の検査結果を利用して、変換値を算出する。
 その後、グループ毎評価部40は、監視対象毎に、複数の検査項目を複数のグループに分類し、グループ毎に各々のグループに分類される検査項目の変換値を利用して評価値を算出する(S30)。
 まず、グループ毎評価部40は、監視対象毎に、複数の検査項目各々の最新の検査結果(検査結果一覧)を記録したデータ(図8参照)を保持している。そして、S20で新たな変換値が算出されると、グループ毎評価部40はその変換値を取得し、図8に示すデータの中の所定の情報を、当該新たな変換値に更新する。ここでは、グループ毎評価部40は、監視対象ID「000001」に対応付けられている検査項目「サービス応答時間」の変換値を、新たな変換値に更新する。そして、更新された監視対象のグループの評価値を算出し直す。ここでは、グループ毎評価部40は、監視対象ID「000001」の即時影響Gの評価値を算出し直す。
 なお、その後、総合評価部60が、図9に示すデータを必要に応じて更新し、総合評価値を算出し直してもよい。ここでは、S30において、監視対象ID「000001」の即時影響Gの評価値が変更された場合、総合評価部60は、図9に示すデータの該当箇所の値を更新する。そして、総合評価部60は、更新後の内容に従い、監視対象ID「000001」の総合評価値を算出し直す。
 その後、出力部50は、ディスプレイの表示(図2参照)を、更新された新たな値に変更する(S40)。
 次に、本実施形態の作用効果について説明する。
 本実施形態の監視装置は、複数の監視対象の複数の検査項目各々の検査結果を監視オペレータに提供するのでなく、これらを複数のグループに分類して各グループの評価値を算出し、当該評価値を監視オペレータに提供する。このため、監視オペレータに提供する情報の量を軽減することができる。
 また、各グループの評価は、各グループに分類される検査項目の検査結果に基づいて行われる。具体的には、全ての検査項目を同じスケールで示す変換値に変換した後、各グループに分類される検査項目の変換値の中の最低値を、当該グループの評価値として算出する。このような本実施形態によれば、ある検査項目の検査結果が所定のレベル(例:アラートレベル)に達しているという重要な情報を、監視オペレータが見落とすという不都合を抑制することができる。
 さらに、各監視対象の総合評価を算出し(総合評価部60)、監視オペレータに提供することで、監視オペレータが確認すべき情報の量を、さらに軽減することができる。
 この出願は、2011年9月5日に出願された日本特許出願特願2011-192643号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (7)

  1.  複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得手段と、
     前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルールを保持する変換ルール保持手段と、
     前記検査結果取得手段が取得した前記検査結果、及び、前記変換ルールを利用して前記変換値を算出する変換手段と、
     前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価手段と、
     前記監視対象各々に関連付けて前記評価値を出力する出力手段と、を有し、
     前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、
     前記変換ルール保持手段は、前記共通検査項目の中の少なくとも1つの前記変換ルールを複数保持する監視装置。
  2.  請求項1に記載の監視装置において、
     前記グループ毎評価手段は、各グループに分類される前記検査項目の前記変換値の中の最低値を、前記評価値として算出する監視装置。
  3.  請求項1または2に記載の監視装置において、
     前記監視対象毎に、前記グループ各々の前記評価値を利用して、総合評価値を算出する総合評価手段をさらに有し、
     前記出力手段は、前記グループ各々の前記評価値に加えて又は代えて、前記監視対象毎に前記総合評価値を出力する監視装置。
  4.  請求項3に記載の監視装置において、
     前記総合評価手段は、各監視対象の前記評価値の中の最低値を、前記総合評価値として算出する監視装置。
  5.  請求項1から4のいずれか1項に記載の監視装置において、
     前記グループ毎評価手段は、前記複数の検査項目を、当該検査項目の前記検査結果が所定の条件を満たさない場合、前記監視対象を利用するユーザに直ちに影響を及ぼすグループと、直ちには影響しないが将来的に影響を及ぼす可能性があるグループとに分類する監視装置。
  6.  コンピュータを、
     複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得手段、
     前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルールを保持する変換ルール保持手段、
     前記検査結果取得手段が取得した前記検査結果、及び、前記変換ルールを利用して前記変換値を算出する変換手段、
     前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価手段、
     前記監視対象各々に関連付けて前記評価値を出力する出力手段、
    として機能させるとともに、
     前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、
     前記変換ルール保持手段に、前記共通検査項目の中の少なくとも1つの前記変換ルールを複数保持させることができるプログラム。
  7.  複数の監視対象各々に対して実施される複数の検査項目の検査結果を取得する検査結果取得ステップと、
     前記監視対象各々の前記検査項目各々の状況を同じスケールで示す変換値を、前記検査結果を利用して算出するための変換ルール、及び、前記検査結果取得ステップで取得した前記検査結果を利用して前記変換値を算出する変換ステップと、
     前記監視対象毎に、前記複数の検査項目を複数のグループに分類し、前記グループ毎に、各々のグループに分類される前記検査項目の前記変換値を利用して、評価値を算出するグループ毎評価ステップと、
     前記監視対象各々に関連付けて前記評価値を出力する出力ステップと、
    をコンピュータが実行し、
     前記複数の検査項目の中には、複数の前記監視対象に対して実施される共通検査項目が少なくとも1つ存在し、前記共通検査項目の中の少なくとも1つの前記変換ルールは複数存在する監視方法。
PCT/JP2012/005355 2011-09-05 2012-08-27 監視装置、監視方法およびプログラム WO2013035264A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-192643 2011-09-05
JP2011192643 2011-09-05

Publications (1)

Publication Number Publication Date
WO2013035264A1 true WO2013035264A1 (ja) 2013-03-14

Family

ID=47831741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/005355 WO2013035264A1 (ja) 2011-09-05 2012-08-27 監視装置、監視方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2013035264A1 (ja)
WO (1) WO2013035264A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016199503A1 (ja) * 2015-06-09 2016-12-15 コニカミノルタ株式会社 被監視者監視システムの親装置および該親装置の動作状態監視方法、被監視者監視システムの子装置および該子装置の動作状態監視方法、ならびに、該被監視者監視システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207173A (ja) * 2006-02-06 2007-08-16 Fujitsu Ltd 性能分析プログラム、性能分析方法、および性能分析装置
JP2008146591A (ja) * 2006-12-13 2008-06-26 Toshiba Corp 異常兆候検出装置および方法
JP2009211658A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害検知装置、障害検知方法及びそのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207173A (ja) * 2006-02-06 2007-08-16 Fujitsu Ltd 性能分析プログラム、性能分析方法、および性能分析装置
JP2008146591A (ja) * 2006-12-13 2008-06-26 Toshiba Corp 異常兆候検出装置および方法
JP2009211658A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害検知装置、障害検知方法及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016199503A1 (ja) * 2015-06-09 2016-12-15 コニカミノルタ株式会社 被監視者監視システムの親装置および該親装置の動作状態監視方法、被監視者監視システムの子装置および該子装置の動作状態監視方法、ならびに、該被監視者監視システム
JP6103162B1 (ja) * 2015-06-09 2017-03-29 コニカミノルタ株式会社 被監視者監視システムの親装置および該親装置の動作状態監視方法、被監視者監視システムの子装置および該子装置の動作状態監視方法、ならびに、該被監視者監視システム

Also Published As

Publication number Publication date
JPWO2013035264A1 (ja) 2015-03-23

Similar Documents

Publication Publication Date Title
JP5732767B2 (ja) 処理装置,処理方法,処理用プログラム,同プログラムを記録したコンピュータ読取可能な記録媒体
US7523357B2 (en) Monitoring system and method
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
US9032247B2 (en) Intermediate database management layer
US20200057714A1 (en) Testing data changes in production systems
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
JP2020004338A (ja) 監視装置,監視制御方法および情報処理装置
US8032789B2 (en) Apparatus maintenance system and method
JP6002856B2 (ja) 監視システム、及び、監視方法
CN103516811A (zh) 一种云存储系统中工控机工作状态的监控方法
JP2010231293A (ja) 監視装置
WO2013035266A1 (ja) 監視装置、監視方法およびプログラム
WO2013035264A1 (ja) 監視装置、監視方法およびプログラム
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
JP2003330758A (ja) 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム
US7363364B2 (en) Methods, systems, and products for verifying integrity of web-server served content
US9594622B2 (en) Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
JPH05260049A (ja) ネットワークシステムにおける故障管理方法
JP2013206105A (ja) 情報処理システム、保守方法及びプログラム
JP2020030628A (ja) 監視システム、監視方法および監視プログラム
JP2016057658A (ja) 障害情報管理システムおよび障害情報管理方法
US9965340B2 (en) Graph-enhanced event management
CN106953759B (zh) 集群控制方法和集群控制设备
JP2012174079A (ja) 機器管理システム
US20180204127A1 (en) Management of building energy systems through quantification of reliability

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12830818

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013532419

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12830818

Country of ref document: EP

Kind code of ref document: A1