WO2011101887A1 - 管理システム及び管理システムの制御方法 - Google Patents

管理システム及び管理システムの制御方法 Download PDF

Info

Publication number
WO2011101887A1
WO2011101887A1 PCT/JP2010/000960 JP2010000960W WO2011101887A1 WO 2011101887 A1 WO2011101887 A1 WO 2011101887A1 JP 2010000960 W JP2010000960 W JP 2010000960W WO 2011101887 A1 WO2011101887 A1 WO 2011101887A1
Authority
WO
WIPO (PCT)
Prior art keywords
monitoring
monitoring target
target object
state
monitored
Prior art date
Application number
PCT/JP2010/000960
Other languages
English (en)
French (fr)
Inventor
阿多恵美子
黒田沢希
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2010/000960 priority Critical patent/WO2011101887A1/ja
Priority to US12/742,897 priority patent/US8555189B2/en
Publication of WO2011101887A1 publication Critical patent/WO2011101887A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Definitions

  • the present invention relates to a management system and a control method for the management system.
  • a system is known in which an operation monitoring server monitors the operating status of a video distribution server at regular intervals and issues a warning when a failure is detected (Patent Document 1). Furthermore, a technique is also known in which a management server monitors a communication port in a system and selects an alternative communication port when a failure occurs in a certain communication port (Patent Document 2).
  • each node in the system is individually monitored, and the monitoring state of each node is not linked. For example, even when one node and the other node are related to each other, the monitoring state of one node and the monitoring state of the other node are not linked. Therefore, when the user changes the monitoring state of one node, the user needs to manually change the monitoring state of the other node. For this reason, the prior art has poor user convenience.
  • each node is uniformly monitored, and it is difficult to set the monitoring method individually. Therefore, for example, even when a cable is pulled out of the apparatus for maintenance work, a warning may be output as a link down occurs. In the prior art, even an event that is clearly recognized by the user is detected as a failure, so that the user's usability is low. Further, for example, when a large number of failures recognized by the user occur due to a relatively wide range of maintenance work, the real failure may be buried in the failure and the user's discovery may be delayed.
  • an object of the present invention is to provide a management system and a management system control method capable of improving user-friendliness.
  • Another object of the present invention is to provide a management system capable of setting a monitoring method for each monitoring target object and to link monitoring methods between related monitoring target objects, and a control method for the management system. Is to provide. Further objects of the present invention will become clear from the description of the embodiments described later.
  • a management system for monitoring the state of a computer system, and the computer system includes a plurality of monitoring target objects to be monitored.
  • the management system includes a microprocessor, a memory for storing a program read and executed by the microprocessor, a communication interface for the microprocessor to communicate with each monitored object, and the microprocessor between the user and the user. And a user interface for exchanging information.
  • the microprocessor reads and executes a program to set a monitoring method for each monitoring target object, an information acquisition unit that acquires information from each monitoring target object via a communication interface, Based on a monitoring method and information acquired from each monitored object, a monitoring unit that monitors each monitored object and outputs the monitoring result via a user interface, and a first monitor included in each monitored object
  • a monitoring method changing unit for changing.
  • the monitoring method includes a notification setting for determining whether or not to output a predetermined notification based on information acquired from the monitoring target object.
  • the changing unit matches the notification setting for the second monitoring target object with the notification setting for the first monitoring target object.
  • the monitoring method changing unit searches the monitoring target objects related to the first monitoring target object from among the monitoring target objects as candidates for the second monitoring target object, and the searched candidates A monitoring target object selected by the user from among the two is set as a second monitoring target object.
  • the monitoring method changing unit searches the monitoring target objects directly related to the first monitoring target object among the monitoring target objects as candidates, or selects the first of the monitoring target objects. Both the monitoring target object directly related to one monitoring target object and the monitoring target object directly related to the monitoring target object are searched as candidates.
  • the plurality of monitoring target objects include a host machine and a virtual machine generated by a virtualization mechanism that operates on the host machine, and the first monitoring target object is
  • the first notification setting for the host machine is changed to a setting that does not output a predetermined notification
  • the second monitoring target object is a virtual machine
  • the second monitoring target object is a virtual machine.
  • the notification setting is changed to a setting that does not output a predetermined notification.
  • the plurality of monitoring target objects include a host machine and a virtualization mechanism that operates on the host machine and generates a virtual machine.
  • the object is a virtual machine
  • the second monitoring target object is a virtualization mechanism
  • the monitoring method changing unit when the first notification setting for the virtual machine is changed to a setting that does not output a predetermined notification, the virtualization mechanism Is changed to a setting that does not output a predetermined notification.
  • the plurality of monitoring target objects include a switching device having a communication port, the first monitoring target object is a switching device, and the second monitoring target object is a communication port.
  • the monitoring method changing unit changes the second notification setting for the communication port to a setting for not outputting the predetermined notification when the first notification setting for the switching device is changed to a setting for not outputting the predetermined notification.
  • the plurality of monitoring target objects include a switch device having a communication port and another device having another communication port connected to the communication port.
  • the monitoring target object is a communication port
  • the second monitoring target object is another communication port
  • the monitoring method changing unit changes the first notification setting for the communication port to a setting that does not output a predetermined notification.
  • the second notification setting for other communication ports is changed to a setting that does not output a predetermined notification.
  • the monitoring method monitors the state of the monitoring target object via information acquired by the information acquisition unit, and outputs a predetermined notification when a failure is detected. 1 mode, a second mode in which the state of the monitored object is not monitored, and a third mode in which the current state of the monitored object is determined to be normal regardless of whether the current state is normal are included. Yes.
  • the third mode shifts to the first mode when the state of the monitoring target object is changed.
  • the plurality of monitoring target objects include a plurality of node devices and component devices that constitute a part of each node device. Whether or not to acquire information about the state of the predetermined attribute among the plurality of attributes through the information acquisition unit, and by comparing the information about the state of the predetermined attribute and a predetermined threshold, Whether or not to determine can be set for each component device.
  • a control method for a management system is a method for controlling a management system that monitors a monitoring target object to be monitored.
  • the computer system includes a plurality of monitoring target objects, and each monitoring target object is Set the monitoring method, acquire information from each monitored object, monitor each monitored object based on each monitoring method and information acquired from each monitored object, and send the monitoring result via the user interface Output, determine whether the monitoring method set for the first monitoring target object included in each monitoring target object has been changed, and if the monitoring method for the first monitoring target object has been changed, The second monitored object related to the first monitored object among the objects Detects, the set monitoring method in the second monitoring target object, to match the monitoring method of the first monitoring target object.
  • a control method for a management system is a method for controlling a management system that monitors the state of a computer system.
  • the computer system includes a plurality of monitoring target objects to be monitored, and monitors each monitoring target object. For monitoring, a first mode that outputs a predetermined notification when a failure is detected in the monitored object, a second mode that does not monitor the state of the monitored object, and the current state of the monitored object is normal
  • the third mode shifts to the first mode when the state of the monitoring target object is changed.
  • the plurality of monitoring target objects include a plurality of node devices and component devices that constitute a part of each node device. Whether to acquire information on the state of the predetermined attribute among the plurality of attributes, and whether to determine the state of the predetermined attribute by comparing the information on the state of the predetermined attribute with a predetermined threshold; Can be set for each component device.
  • all or part of the present invention can be configured as a computer system and distributed via a recording medium or a communication medium.
  • FIG. 1 is a diagram showing an outline of the embodiment.
  • FIG. 2 is an overall configuration diagram including the management system.
  • FIG. 3 is a block diagram of the monitoring device.
  • FIG. 4 is a diagram showing the structure of the database.
  • FIG. 5 is a diagram illustrating a relationship among nodes, components, and metrics.
  • FIG. 6 is a diagram illustrating the relationship between the monitoring mode, the non-monitoring mode, and the maintenance mode.
  • FIG. 7 is a flowchart showing the overall flow of monitoring.
  • FIG. 8 is a configuration example of the node table.
  • FIG. 9 is a configuration example of the component table.
  • FIG. 10 is a configuration example of the metric common setting table.
  • FIG. 11 is a configuration example of the performance information table.
  • FIG. 12 is a configuration example of the switch port table.
  • FIG. 13 is a configuration example of a LAN port table.
  • FIG. 14 is a configuration example of a virtual machine table.
  • FIG. 15 is a diagram illustrating a method for changing a component monitoring state.
  • FIG. 16 is a flowchart of the failure detection process.
  • FIG. 17 is an explanatory diagram showing combinations of control methods for monitoring metrics.
  • FIG. 18 shows an example of a screen for monitoring metrics with a common setting.
  • FIG. 19 is a diagram illustrating how common settings are applied.
  • FIG. 20 is a diagram illustrating a state in which metric monitoring is individually set.
  • FIG. 21 is a flowchart showing processing for updating performance information.
  • FIG. 22 shows an example of an event list screen.
  • FIG. 23 is a flowchart of the graph display process.
  • FIG. 15 is a diagram illustrating a method for changing a component monitoring state.
  • FIG. 16 is a flowchart of the failure detection process.
  • FIG. 17 is an explanatory diagram showing combinations
  • FIG. 24 is an example of a screen for displaying a metric graph.
  • FIG. 25 is a diagram illustrating a combination pattern of component monitoring control and metric monitoring control.
  • FIG. 26 is a diagram illustrating a state in which some of the multiple metrics included in the component are not monitored.
  • FIG. 27 is a diagram schematically illustrating how a user intentionally separates some components from a node.
  • FIG. 28 is a diagram schematically illustrating how a user performs maintenance work.
  • FIG. 29 is a diagram illustrating a state in which the monitoring of the virtualization mechanism is stopped in conjunction with the stop of the guest OS.
  • FIG. 32 is an example of a screen for selecting a related node whose monitoring state is to be changed.
  • FIG. 33 is an example of a screen for selecting a monitoring state interlocking method according to the second embodiment.
  • FIG. 34 is an explanatory diagram showing a range in which nodes are extracted by each interlocking method.
  • FIG. 35 shows an example of a screen when selecting from related nodes in all layers.
  • FIG. 36 shows an example of a screen when selecting from all nodes in the system.
  • FIG. 37 is a flowchart of processing for linking the monitoring state of the switch and the monitoring state of the switch port according to the third embodiment.
  • FIG. 38 is a diagram illustrating how the component table changes in accordance with the change in the node table.
  • FIG. 38 is a diagram illustrating how the component table changes in accordance with the change in the node table.
  • FIG. 40 is a diagram illustrating a state in which a component table, a switch port table, and a LAN port table are updated in conjunction with each other.
  • a monitoring method is set for each monitoring target object (node and component). Furthermore, in the present invention, when the monitoring method of one of the monitoring target objects related to each other is changed, the monitoring method of the other monitoring target object is also changed in conjunction with it. Furthermore, in the present invention, a special mode is provided to prevent unnecessary alarms from being output during maintenance work. In the embodiment described later, the monitoring target object may be referred to as “IT resource”.
  • FIG. 1 is an explanatory diagram showing an overall outline of the present embodiment.
  • FIG. 1 is described to the extent necessary to understand and implement the present invention. The scope of the present invention is not limited to the configuration shown in FIG. Features not described in FIG. 1 will be clarified in the examples described later.
  • the management system 1 monitors the status of the monitoring target objects 2A, 2B, 2C, etc. included in the computer system, and outputs an alarm if necessary. Before describing the management system 1, nodes and components as monitoring target objects will be described first.
  • the monitored object includes a node and one or a plurality of components constituting the node.
  • a node is an element constituting a communication network, and examples thereof include a server 2A, a switch 2B, and a storage 2C. When there is no need to distinguish between them, the whole is referred to as “node 2”.
  • the server 2A includes, for example, a communication port 2A1, a virtualization mechanism 2A2, and a virtual machine 2A3.
  • the communication port 2A1 is a component for communicating with other nodes such as the switch 2B.
  • the virtualization mechanism 2A2 is a component for constructing the virtual machine 2A3 on the OS (operating system) of the server 2A.
  • the virtual machine 2A3 is a server provided virtually on the server 2A.
  • the virtual machine 2A3 is handled as a node different from the server 2A.
  • the server 2A can also be provided with other components, such as a microprocessor, memory, and a file system, for example.
  • the switch 2B includes a plurality of switch ports 2B1 and 2B2. Each switch port 2B1, 2B2 is a component for communicating with other nodes in the computer system.
  • the switch 2B can include other components such as a microprocessor and a memory, for example.
  • the storage 2C includes, for example, a communication port 2C1, a microprocessor 2C2, and a hard disk drive 2C3.
  • the communication port 2C1 is a component for communicating with other nodes such as the switch 2B.
  • the microprocessor 2C2 is a component that controls the operation of the storage 2C.
  • the hard disk drive 2C3 is a component for storing data.
  • the configuration of the management system 1 will be described.
  • the management system 1 includes, for example, a microprocessor 3, a memory 4, a communication interface 5, and a user interface 6.
  • the management system 1 can be configured from a single computer or can be configured by linking a plurality of computers.
  • the communication interface 5 is a device for communicating with each node 2A-2C via the communication network CN.
  • the user interface 6 is a device for exchanging information with the user.
  • the user interface 6 includes an information output device for providing information to the user and an information input device for the user to input information.
  • Examples of the information output device include a display device or a printer.
  • Examples of the information input device include a keyboard, a pointing device, a touch panel, and a microphone.
  • the microprocessor 3 implements predetermined functions 3A, 3B, 3C, 3D by reading and executing various computer programs stored in the memory 4.
  • the monitoring method setting unit 3A is a function for individually setting a monitoring method for each node and each component.
  • the monitoring method includes, for example, three modes.
  • the first mode is a mode for monitoring the state of each node or each component.
  • the first mode can be referred to as a monitoring mode.
  • an alarm as a “predetermined notification” is output.
  • the second mode is a mode in which the state of each node or each component is not monitored.
  • the second mode can be referred to as a non-monitoring mode.
  • the third mode is a mode in which it is determined to be normal regardless of whether the current state of the monitored node or component is normal. Since the third mode can be suitably used in the maintenance work as will be described later, it can be called a maintenance mode.
  • the third mode shifts to the first mode when the state of the node or component further changes. In the case of transition to the first mode, if an abnormality has occurred in the node or component whose state has changed, an alarm is output.
  • the information acquisition unit 3B is a function that collects information from each node and each component.
  • the collected information can be stored in the memory 4 or a hard disk drive (not shown).
  • the monitoring unit 3C is a function for monitoring each node and each component based on the monitoring method set by the monitoring method setting unit 3A and the information collected by the information acquisition unit 3B. Further, the monitoring unit 3C causes the monitoring result to be output via the user interface 6.
  • the monitoring method changing unit 3D is a function for linking the monitoring state between nodes or components that are related to each other among the nodes or components.
  • the monitoring method of one node is changed, the monitoring method of the other one node is changed accordingly.
  • the monitoring method for the other node is changed so as to coincide with the monitoring method for one node.
  • the monitoring method changing unit 3D changes the other monitoring method by following one monitoring method between the related nodes or components.
  • the monitoring state can be linked between the nodes, but also the monitoring state can be linked between the node and the component and between the components.
  • the user individually sets a monitoring method for each node and each component.
  • the monitoring unit 3C determines whether a failure or a performance degradation has occurred based on information from each node or each component. When the occurrence of a failure or the like is detected, the monitoring unit 3C notifies the user via the user interface 6.
  • the user may remove some nodes or some components from the system, for example, for maintenance work.
  • the user changes the monitoring state of the node or component to be removed to either the second mode (non-monitoring mode) or the third mode (maintenance mode) in advance.
  • the monitoring method changing unit 3D extracts other nodes or components related to the node or component whose monitoring state has been changed from within the computer system.
  • the extracted node or component is presented to the user via the user interface 6.
  • the user selects a node or component whose monitoring state is to be changed from the presented nodes or components.
  • the monitoring state of the node or the monitoring state of the component selected by the user is changed according to the monitoring state of the node or the monitoring state of the component whose monitoring state is changed first for maintenance work or the like.
  • the monitoring method can be set for each node or each component, user convenience is improved.
  • a node that is not scheduled to be used can be set to a non-monitoring mode, or a part of a plurality of components of the node can be set to a non-monitoring mode. Therefore, it is possible to prevent an unnecessary alarm from being output, and it is possible to prevent a real failure from being buried in an unnecessary alarm.
  • the monitoring state can be linked between related nodes or components. Therefore, the user does not need to manually change the monitoring state of the related node or component, and the usability of the user is improved.
  • the monitoring method is normal regardless of the first mode for monitoring a node or component, the second mode for not monitoring a node or component, and the current state of the node or component.
  • Three modes are prepared: a third mode for judging (or judging that there is no abnormality). Therefore, the user can set an appropriate mode for each node and each component, and the usability of the user is improved.
  • the third mode shifts to the first mode when the state of the node or component further changes, it can be suitably used during maintenance work.
  • the user sets the monitoring state of the node or component that is the target of the maintenance work to the third mode before the start of the maintenance work.
  • the user does not need to manually change the monitoring state of the node or component set to the third mode to the first mode.
  • the user can leave the monitoring state of the node or component subjected to the maintenance work in the third mode. If an abnormality occurs due to a change in the state of the node or component that is the object of the maintenance work, the mode is automatically switched from the third mode to the first mode, and an alarm is output. Therefore, user convenience is improved.
  • this embodiment will be described in detail.
  • FIG. 2 shows an overall outline of the system in this embodiment. First, the correspondence relationship with FIG. 1 will be described.
  • the monitoring device 10 is in the management system 1, the servers 21A and 21B are in the node 2A, the switch 22 is in the node 2B, the storage 23 is in the node 2C, and the communication network CN1 is in the communication network. Each corresponds to CN.
  • control unit 130, the user interface unit 110, and the database processing unit 120 shown in FIG. 3 cooperate to implement the monitoring method setting unit 3A, the monitoring unit 3C, and the monitoring method changing unit 3D.
  • the information acquisition unit 140 illustrated in FIG. 3 corresponds to the information acquisition unit 3B.
  • a user interface unit 110 illustrated in FIG. 3 corresponds to the user interface 6.
  • FIG. 2 shows a plurality of servers as nodes.
  • One server 21A generates a virtual server (214A).
  • the server 21A includes a communication port 210A, a microprocessor 211A, a host OS 212A, a plurality of virtualization mechanisms 213A, and a plurality of guest OSs 214A.
  • the virtualization mechanism 213A is a component of the host OS 212A.
  • the virtualization mechanism 213A is software that generates the guest OS 214A on the host OS.
  • the host OS 212A is one node.
  • the guest OS 214A is one node different from the host OS 212A.
  • the communication port 210A and the microprocessor 211A are components that constitute the server 21A.
  • the guest OS 214A can also be called a virtual server or a virtual machine that is virtually generated.
  • Another server 21B includes a communication port 210B, a microprocessor 211B, and a hard disk drive 215B.
  • the communication port 210B, the microprocessor 211B, and the hard disk drive 215B are components that constitute the server 21B.
  • server 21 when there is no need to distinguish between the server 21A and the server 21B, they are referred to as “server 21”. Similarly, they may be referred to as “microprocessor 211” and “communication port 210”.
  • the switch 22 is a node that connects a plurality of servers 21 and a plurality of storages 23 in the computer system so that they can communicate with each other.
  • the switch 22 has a plurality of communication ports 220 (switch ports 220) as components.
  • the storage 23 is a node that stores data used by the server 21.
  • the storage 23 includes a communication port 230, a microprocessor 231, and a hard disk drive 232 as components.
  • the monitoring device 10 is communicably connected to each server 21, the switch 22, and the storage 23 via the first communication network CN1.
  • the server 21, the switch 22 and the storage 23 are connected via the communication network CN2.
  • the first communication network CN1 is a management communication network, and is configured as a LAN (Local Area Network), for example.
  • the second communication network CN2 is an I / O (Input / Output) communication network, and is configured, for example, as FC_SAN (Fibre-Channel_Storage-Area-Network) or IP_SAN (Internet-Protocol_SAN). A configuration using a single communication network may be used.
  • FIG. 3 is a block diagram showing the configuration of the monitoring device 10.
  • the monitoring device 10 as a “management system” is configured as a computer device including a microprocessor, a memory, a communication interface, and the like.
  • the monitoring device 10 includes, for example, a user interface unit 110, a database processing unit 120, a control unit 130, an information acquisition unit 140, and a database 150.
  • the user interface unit 110 is a function for exchanging information with the user.
  • the user interface unit 110 is connected to the database processing unit 120 and the control unit 130, respectively. Conditions input from the user are transmitted to the database processing unit 120 or the control unit 130 via the user interface unit 110. The result of processing in the database processing unit 120 or the control unit 130 is notified to the user via the user interface unit 110.
  • the structure which provides information to a user using an email etc. may be sufficient.
  • the database processing unit 120 is a function for controlling the database 150.
  • the database processing unit 120 acquires the data requested from the user interface unit 110 from the database 150 and returns it to the user interface unit 110. Further, the database processing unit 120 updates the database 150 in response to a request from the control unit 130.
  • the control unit 130 is a function for controlling the operation of the monitoring device 10.
  • the control unit 130 processes information input from the user interface unit 110 or the information acquisition unit 140.
  • the control unit 130 updates the database 150 via the database processing unit 120 or provides information to the user via the user interface unit 110.
  • the information acquisition unit 140 is a function for acquiring information from nodes and components in the computer system 20.
  • the nodes and components in the computer system 20 can be collectively referred to as IT (Information Technology) resources.
  • the monitoring apparatus 10 does not need to have the user interface unit 110 directly.
  • an operation terminal for operating the monitoring device 10 may be connected to the monitoring device 10 and an operation from the user may be accepted or notified to the user via the operation terminal.
  • the display terminal and the operation terminal may be connected to the monitoring device 10, or only the display terminal may be connected to the monitoring device 10, and the operation may use the input device of the monitoring device 10.
  • the monitoring device 10 does not need to be configured as a single computer device, and one monitoring device 10 may be configured from a plurality of computer devices.
  • FIG. 4 shows the configuration of the database 150.
  • a node table 151 for example, a node table 151, a component table 152, a metric common setting table 153, a performance information table 154, a switch port table 155, a LAN port table 156, and a virtual machine table 157 are stored. Is done.
  • the configuration of each table 151-157 will be described later.
  • the configuration of the database 150 and the configurations of the tables 151 to 157 are not limited to the illustrated example.
  • one table can be composed of a plurality of tables, or a plurality of tables can be combined into one table.
  • each information used in the present embodiment may have a data structure other than a table, a list, and a queue.
  • the expressions “identification information”, “identifier”, “ID”, and “name” are used, but these expressions can be replaced with each other.
  • FIG. 5 schematically shows the relationship between nodes, components, and metrics.
  • a node that is a component of a computer system includes one or more components.
  • a component may comprise one or more metrics.
  • nodes include a server 21, a switch 22, and a storage 23.
  • the component include a microprocessor, a communication port (switch port, LAN port), a memory, a hard disk drive, and a virtualization mechanism.
  • Metric is a standard for measurement or a judgment index.
  • the metric can include a CPU operation rate.
  • metrics can include read load, write load, disk transfer time (average value, and so on).
  • the metric may include packet reception amount (average value, the same applies hereinafter), bucket transmission amount (average value, the same applies hereinafter), and the like.
  • the monitoring apparatus 10 determines whether or not an abnormality has occurred in each component by monitoring the metric of each component.
  • FIG. 6 schematically shows a component monitoring method by the monitoring apparatus 10.
  • the component monitoring method includes the following three states (modes).
  • the first state is a monitoring state as the “first mode”.
  • the second state is a non-monitoring state as the “second mode”.
  • the third state is a maintenance state as the “third mode”.
  • the monitoring device 10 monitors based on information collected from the component.
  • the monitoring device 10 outputs an alarm when the metric value exceeds a predetermined threshold value or falls below the predetermined threshold value.
  • the monitoring device 10 When the component is set to the non-monitoring state, the monitoring device 10 does not monitor the component. The monitoring device 10 ignores the information collected from the component, does not compare the metric value with the threshold value, and does not output an alarm.
  • the monitoring apparatus 10 treats the component as normal. That is, even when a failure signal such as a link down is detected from the component, the monitoring apparatus 10 treats the component as normal.
  • the maintenance state is changed to the monitoring state.
  • the monitoring device 10 outputs an alarm.
  • FIG. 7 is a flowchart showing the overall flow of the monitoring method.
  • Each processing described below is realized by the microprocessor reading and executing each program stored in the memory. Therefore, the subject of each process below may be a program or a microprocessor. Alternatively, the subject of each of the following processes can be described as a monitoring device, a controller, a server, or the like.
  • each program can be installed on a file server via a program distribution server for distributing the program.
  • each program fixed to the recording medium may be read by a file server and installed.
  • the user sets a monitoring method for each IT resource (each node and each component) (S10).
  • a monitoring state monitoring mode
  • a non-monitoring state non-monitoring mode
  • a maintenance state maintenance mode
  • the user can set an appropriate monitoring method according to the situation. For example, when normal monitoring is desired, the user sets the IT resource to the monitoring state. For example, when an unused IT resource is removed from the computer system 20, the user sets the IT resource to a non-monitoring state. Thus, even when the unused IT resource is disconnected from the computer system 20, no alarm is output from the monitoring device 10.
  • the user sets the IT resource that is the object of the maintenance work to the maintenance state.
  • the actual state of the IT resource that is the maintenance work target is “abnormal”.
  • the monitoring device 10 treats the IT resource set in the maintenance state as normal, no alarm is output. As described above, even when the user performs maintenance work such as component replacement, an alarm for the IT resource set in the maintenance state is not output.
  • the monitoring device 10 When the maintenance work is completed, the actual state of the IT resource automatically shifts from “abnormal” to “normal”. Therefore, it is not necessary for the user to manually return the maintenance target IT resource to the monitoring state after the maintenance work. If a failure occurs in the IT resource after the maintenance work, the monitoring device 10 outputs an alarm.
  • the user can set a metric monitoring method for each component (S11).
  • the metric monitoring method includes, for example, setting whether to perform graph display or whether to perform event notification.
  • the monitoring apparatus 10 can display the time change of the performance information (metric information) collected from the components in a graph. Furthermore, the monitoring device 10 can compare the performance information collected from the component with a predetermined threshold value and notify the occurrence of an event.
  • the graph display and event notification are provided to the user via the user interface unit 110.
  • the monitoring apparatus 10 acquires information from each IT resource in the computer system 20 via the information acquisition unit 140 and stores it (S12).
  • the monitoring device 10 displays a graph indicating changes in performance information in accordance with the contents set in S11 (S13).
  • the monitoring device 10 notifies an event or outputs an alarm based on the state of the IT resource (S14).
  • FIG. 8 shows the node table 151.
  • the node table 151 is a table for managing each node.
  • the node table 151 includes, for example, a node ID 1510, a node name 1511, a type 1512, a status 1513, a monitoring status 1514, a common setting 1515, and a virtual server host ID 1516.
  • the node ID 1510 is information for uniquely identifying each node in the computer system.
  • the node name 1511 is the name of the node.
  • a type 1512 indicates the type of the node. Examples of the node type include a server, a switch, and a storage.
  • a state 1513 indicates the state of the node. Examples of the state 1513 include “normal” and “abnormal”.
  • the monitoring state 1514 indicates the monitoring method set for the node. As described above, values that can be set in the monitoring state 1514 include “monitoring”, “non-monitoring”, and “maintenance”.
  • the common setting 1515 indicates whether or not “metric common setting” described later is applied.
  • the virtual server host ID 1516 is information for specifying the host on which the virtual server is provided. When the node is a virtually constructed server (also called a virtual server or a virtual OS), the node on which the virtual server is provided is specified.
  • FIG. 9 shows the component table 152.
  • the component table 152 is a table for managing each component.
  • the component table 152 includes, for example, a component ID 1520, a component name 1521, a type 1522, a node ID 1523, a state 1524, a monitoring state 1525, and a common setting 1525.
  • the component ID 1520 is information for uniquely identifying the component within the computer system.
  • the component name 1521 is the name of the component.
  • a type 1522 indicates the type of the component. Examples of the component type include a microprocessor, a hard disk drive, and a virtualization mechanism (VM in the figure).
  • the node ID 1523 is information for specifying the node to which the component belongs.
  • a state 1524 indicates the state of the component. There are normal and abnormal component states.
  • a monitoring state 1525 indicates a component monitoring method. There are three types of component monitoring methods: “monitoring”, “non-monitoring”, and “maintenance”.
  • the common setting 1526 is information indicating whether to apply the metric common setting.
  • FIG. 10 shows the metric common setting table 153.
  • the metric common setting table 153 manages setting values for each metric type.
  • the metric common setting table 153 includes, for example, a metric type 1530, a graph display 1531, an event notification 1532, a warning threshold value 1533, and an abnormal threshold value 1534.
  • the metric type 1530 is information indicating the metric type. Metric types include, for example, “CPU operation rate”, “packet reception amount”, “packet transmission amount”, “disk write load”, “disk read load”, and the like.
  • the graph display 1531 is a flag indicating whether or not information related to metrics (performance information) is displayed in a graph. “True” is set when displaying a graph, and “false” is set when not displaying a graph.
  • the event notification 1533 is a flag indicating whether to notify when an event occurs. “True” is set when an event is notified, and “false” is set when no event is notified.
  • the warning threshold 1533 indicates a threshold for outputting a warning as an event. If the metric value exceeds or falls below the warning threshold, a warning is output. For example, when the metric type is a microprocessor operating rate, a warning is output when the microprocessor operating rate exceeds 80%. Further, for example, when the metric type is the remaining memory capacity, a warning is output when the remaining memory capacity is less than 1000 MB.
  • the abnormality threshold value 1534 indicates a threshold value for outputting an abnormality warning as another event. Abnormal warnings are more urgent than normal warnings. If the metric value exceeds the abnormal threshold or if the metric value falls below the abnormal threshold, an abnormal warning is output. In the above example, when the microprocessor operating rate exceeds 90%, an abnormality warning is output. When the remaining memory capacity is less than 500 MB, an abnormality warning is output. When the event notification 1532 is set to “false”, the warning threshold value 1533 and the abnormal threshold value 1534 cannot be set.
  • FIG. 11 shows the performance information table 154.
  • the performance information table 154 shows a method for managing performance information collected from nodes and components (IT resources).
  • the performance information table 154 includes, for example, a component ID 1540, a metric ID 1541, a metric type 1542, a status 1543, a graph display 1544, and an event notification 1545.
  • Component ID 1540 is information that identifies the component for which performance information has been acquired.
  • the metric ID 1541 is information for identifying performance information acquired from the component.
  • the metric type 1542 indicates the type of performance information.
  • a state 1543 indicates whether the performance information is normal or abnormal.
  • the graph display 1544 indicates whether performance information is displayed in a graph.
  • the event notification 1545 indicates whether or not to notify an event regarding performance information.
  • FIG. 12 shows the switch port table 155.
  • the switch port table 155 is a table that manages each communication port (switch port) of the switch 22.
  • the switch port table 155 includes, for example, a port ID 1550, a component ID 1551, and a MAC address 1552.
  • the port ID 1550 is information for identifying each switch port.
  • the component ID 1551 is information for specifying a component having a switch port (that is, the switch 22).
  • the MAC address 1552 indicates a MAC (Media Access Control) address assigned to the switch port.
  • FIG. 13 shows the LAN port table 156.
  • the LAN port table 156 is a table for managing communication ports (LAN ports) of the server 21 or the storage 23. In this embodiment, it is called a LAN port, but the configuration of the communication network may be other than the LAN.
  • the LAN port table 156 includes, for example, a port ID 1560, a component ID 1561, a MAC address 1562, and a MAC address 1563 of a connection destination switch port.
  • the port ID 1560 is information for identifying the LAN port.
  • the component ID 1561 is information for specifying a device (server or storage) having a LAN port.
  • the MAC address 1562 indicates a MAC address assigned to the LAN port.
  • the MAC address 1563 of the connection destination switch port is the MAC address of the switch port to which the LAN port is connected.
  • the switch port table 155 may have a column for managing the MAC address of the LAN port to which the switch port is connected. In the case of the configuration, the MAC address column 1563 of the connection destination switch port can be removed from the LAN port table 156.
  • FIG. 14 shows the virtual machine table 157.
  • the virtual machine table 157 is a table for managing the virtualization mechanism 213A.
  • the virtual machine table 157 includes, for example, a virtual machine ID 1570, a component ID 1571, a virtual server name 1572, and a host node ID 1573.
  • the virtual machine ID 1570 is information for identifying each virtual machine (that is, the virtualization mechanism).
  • the component ID 1571 indicates the component ID assigned to the virtual machine.
  • the virtual server name 1572 is a name for specifying a virtual server provided on the virtual machine.
  • the host node ID 1573 is information for specifying the host on which the virtual machine is provided.
  • FIG. 15 shows a state in which the monitoring method can be set for each component and the setting content can be changed later.
  • a component list screen G10 (1) shown on the upper side of FIG. 15 shows a state before the setting is changed.
  • Another component list screen G10 (2) shown at the bottom of FIG. 15 shows a state after the setting is changed.
  • the component list screens G10 (1) and G10 (2) are presented to the user via the user interface unit 110.
  • the component list screen G10 is a screen for displaying a list of names and states of the components in the computer system.
  • the user right-clicks the column indicating the status of “component 1” to display the menu M10 in order to change the monitoring method of “component 1”.
  • the menu M10 displays three states that can be selected as a monitoring method. Note that the current monitoring method can be displayed in an unselectable manner.
  • “monitoring” is set as the current monitoring method of “component 1”, and the user changes the monitoring method from “monitoring” to “non-monitoring”.
  • a part related to the description may be extracted from each table and displayed.
  • the monitoring apparatus 10 When the user selects “non-monitoring” from the menu M10 for selecting a monitoring method, the monitoring apparatus 10 rewrites the monitoring state 1525 of the component table 152 to “non-monitoring”. As a result, the component list screen G10 (2) displays the state of “component 1” with “not monitored”.
  • FIG. 16 is a flowchart showing a process for detecting a failure.
  • the monitoring device 10 acquires information on each IT resource via the information acquisition unit 140 (S20). In the figure, components and nodes are shown, but here they may be called IT resources.
  • the monitoring apparatus 10 determines whether a failure has occurred in the IT resource by comparing the acquired information with a predetermined threshold (S21). If no failure has occurred (S21: NO), this process ends.
  • the monitoring device 10 determines whether or not the non-monitoring mode is set for the IT resource in which the failure has been detected (S22). When the non-monitoring mode is set (S22: YES), this process ends.
  • the monitoring apparatus 10 determines whether the maintenance mode is set for the IT resource (S23). When the maintenance mode is not set (S23: NO), since the monitoring mode is set for the IT resource, the monitoring device 10 notifies the user of an event corresponding to the type and degree of failure (S24). .
  • the monitoring apparatus 10 determines whether or not the state of the IT resource has changed from the previous state (S25). When the state of the IT resource set in the maintenance mode has not been changed (S25: NO), this process ends.
  • the monitoring apparatus 10 switches the maintenance mode to the monitoring mode, and ends this process (S26). Note that S25 and S26 are not necessary in the case of a configuration that automatically shifts from the maintenance mode to the monitoring mode after the maintenance is completed.
  • the monitoring device 10 does not notify the event. Thereby, notification of unnecessary events is suppressed, and the user's attention can be gathered for important events that the user should grasp.
  • FIG. 17 shows metric monitoring control.
  • the table in FIG. 17 is an explanatory table for showing the configuration of the metric monitoring control, and does not actually exist and is not stored in the monitoring device 10.
  • the method for monitoring the metric differs depending on the combination of C100 whether to acquire performance information and C101 whether to determine the metric state. As a result, the notification content C102 to the user is also different.
  • the metric state is determined by comparing the acquired performance information with a predetermined threshold.
  • the monitoring apparatus 10 displays a graph of the performance information, and further notifies the user of the occurrence of the event.
  • the monitoring apparatus 10 displays the performance information graph but does not notify the event.
  • the monitoring device 10 performs neither graph display nor event notification. This is because the performance information is not acquired, so that a graph cannot be created or compared with a threshold value.
  • FIG. 18 shows a metric common setting screen G20.
  • This screen G20 is a screen for applying the metric monitoring method shown in FIG. 17 to a plurality of metrics.
  • the metric common setting screen G20 includes, for example, a graph display field GP20, an event notification field GP21, a metric type field GP22, a warning threshold value field GP23, and an abnormal threshold value field GP24.
  • the metric type column GP22 displays the metric type.
  • the warning threshold value column GP23 displays a threshold value for issuing a warning for the metric.
  • the abnormal threshold value column GP24 displays a threshold value for issuing a notification that the metric is abnormal.
  • the graph is displayed but the event is not notified. Since the event is not notified, the warning threshold value column GP23 and the abnormal threshold value column GP24 may be blank. In FIG. 18, threshold values are displayed for reference.
  • the warning threshold value column GP23 and the abnormal threshold value column GP24 can be blank, but for convenience, examples of threshold values are displayed.
  • Metric type 1 is, for example, a microprocessor operation rate.
  • Metric type 2 is, for example, the remaining memory capacity.
  • Metric type 3 is, for example, a bucket reception amount or a bucket transmission amount. As shown in FIG. 18, in this embodiment, the metric monitoring method is classified for each metric type, thereby reducing the setting effort by the user.
  • FIG. 19 shows a state in which the common metric setting is applied to an entire node.
  • a monitoring node list screen G30 is shown on the lower side of FIG.
  • the monitoring node list screen G30 is a screen for displaying a list of the status of each node being monitored.
  • the monitoring node list screen G30 includes, for example, a node name column GP30, a node type column GP31, a status column GP32, and a performance column GP33.
  • the node name column GP30 displays the name of the node.
  • the node type column GP31 displays the node type.
  • the status column GP32 displays whether the node status is normal or abnormal.
  • the performance column GP33 displays whether the metric state regarding the node is normal or abnormal.
  • the user selects a desired node (for example, the node with node ID 001) and right-clicks. Thereby, the menu M20 for applying the metric common setting is displayed on the screen.
  • the setting content (the content of the metric monitoring control) defined in the metric common setting table 153 is applied to the entire selected node.
  • “apply” is set in the common setting 1515 of the node selected by the user.
  • FIG. 20 shows a metric list screen G40 when the common metric setting is applied to the entire node in FIG.
  • the metric common setting is applied to the entire node with the node ID 001. Therefore, a common value is set for each of the plurality of metrics included in the node.
  • the metric list screen G40 includes, for example, a graph display column GP40, an event notification column GP41, a metric name column GP42, and a status column GP43.
  • the graph display column GP40 indicates whether or not to display a graph. When a check mark is set, it indicates that a graph is displayed.
  • the event notification column GP41 indicates whether or not to notify an event. When a check mark is set, it indicates that an event is notified.
  • the metric name column GP42 indicates the metric name and metric type.
  • the status column GP43 indicates whether or not the metric is normal.
  • the user can set the monitoring method for the entire node including a plurality of metrics in a batch, which improves usability. Further, the user can manually change some of the common metric settings.
  • the monitoring apparatus 10 changes the value of the graph display 1544 corresponding to the metric ID for which the check mark has been removed by the user to “false” (S31).
  • common monitoring settings prepared in advance can be collectively applied to a plurality of metrics of the same type, and a part of the commonly set values can be applied to the user's preference. It can be changed according to. Thereby, the user's usability improves.
  • FIG. 21 is a flowchart showing a performance information update process.
  • the monitoring apparatus 10 acquires the setting value of the graph display 1544 and the setting value of the event notification 1545 for each metric from the performance information table 154 (S40).
  • the monitoring apparatus 10 determines whether or not a graph display is set for each metric (S41).
  • the monitoring device 10 stores the latest performance information for the metrics for which the graph display is set (S41: YES) (S42).
  • the monitoring apparatus 10 determines whether event notification is set (S43). When notification of an event is set (S43: YES), the metric state is determined by comparing the performance information with a threshold (S44). If the metric state is normal (S45: YES), this process ends. When the metric state is abnormal (S45: NO), the monitoring device 10 notifies the event (S46).
  • FIG. 22 shows a screen G50 for notifying the user of the event occurrence.
  • the event list screen G50 displays one or more events occurring in the computer system in a list format.
  • the event list screen G50 includes, for example, a status column GP50, an event column GP51, and a resource column GP52.
  • the status column GP50 indicates whether the metric is normal or abnormal.
  • the event column GP51 shows the contents of the event.
  • the resource column GP52 indicates the resource (node, component) in which the event has occurred.
  • the user can easily confirm where and what event is occurring in the computer system by looking at the event list screen G50.
  • the resource monitoring method is set to either the non-monitoring mode or the maintenance mode, even if a failure is found in the resource, it is not displayed on the event list screen G50. This is because the failure that occurs in the IT resource set to the non-monitoring mode or the maintenance mode is a scheduled failure, and the user clearly recognizes the occurrence of the failure. Accordingly, only events that are not clearly recognized by the user are displayed on the event list screen G50.
  • FIG. 23 is a flowchart showing the graph display process.
  • the monitoring apparatus 10 acquires the setting value of the graph display 1544 and the setting value of the event notification from the performance information table 154 (S50).
  • the monitoring apparatus 10 displays a line indicating the threshold on the graph (S52).
  • the monitoring apparatus 10 determines whether the graph display is set (S53).
  • the monitoring device 10 creates a graph indicating the time change of the performance information and outputs it from the user interface unit 110 (S54).
  • FIG. 24 shows a graph display of performance information.
  • FIG. 24 shows a case where the states of five types of metrics from metric 1 to metric 5 can be displayed.
  • Metrics 1 and 4 specify both event notification and graph display. Therefore, in the graphs GP60 and GP63 of the metrics 1 and 4, a line indicating the threshold value Th and a line indicating the time change of the performance information are displayed at the same time. In metric 2, only the graph display is designated, so in the metric 2 graph GP61, only the line indicating the time change of the performance information is displayed, and the line indicating the threshold is not displayed.
  • metrics 3 and 5 are set so that neither graph display nor event notification is performed. Therefore, in the graphs GP62 and GP64 corresponding to the metrics 3 and 5, neither the line indicating the threshold Th nor the line indicating the time change of the performance information is displayed.
  • the user when a plurality of metrics to be monitored are set, only the metrics for which the graph display is set are graphed. Further, only the metric graph for which the event notification is set is displayed with the line indicating the threshold superimposed.
  • the user can relatively easily determine what is the metric to be monitored, what the status of each metric is, how the threshold is set, and the like. I can grasp it.
  • FIG. 25 is an explanatory diagram showing a method of combining component monitoring control and metric monitoring control.
  • the table shown in FIG. 25 is used to explain a combination of monitoring controls, and is not a table that the monitoring device 10 actually includes.
  • monitoring mode there are three types of component monitoring control methods: monitoring mode, non-monitoring mode, and maintenance mode.
  • the maintenance mode is a mode that pretends to be normal temporarily, and its operation is the same as the monitoring mode. Therefore, in FIG. 25, the maintenance mode is included in the monitoring mode.
  • metric monitoring control method As described in FIG. 17, it is possible to select whether to display a graph (that is, whether to acquire performance information) and whether to notify an event. As a result, there are three methods for monitoring the metric: (display graph, notify event), (display graph, do not notify event), and (not display graph, do not notify event). As described above, there is no combination of (not displaying a graph, notifying an event). Since performance information for determining whether or not an event has occurred cannot be acquired, there is no such combination.
  • no graph In the case of (no graph display, no event notification), no graph is displayed and no event is notified in any of the monitoring mode, maintenance mode and non-monitoring mode.
  • FIG. 26 shows the relationship between the monitoring method for the entire component and the monitoring method for multiple metrics included in the component.
  • the monitoring method for a certain component is set to the monitoring mode.
  • a graph is displayed and an event is notified. Therefore, each metric included in the component is set to a value (displayed in a graph, notify an event) in accordance with the component monitoring method.
  • the user can change the monitoring method for some metrics from the component monitoring method. As described in FIG. 20, the user can select a desired monitoring method by simply adding or removing a check mark from the graph display column GP40 or event notification column GP41 of the desired metric on the metric list screen G40. Can be changed.
  • this embodiment is configured as described above, the following effects are obtained.
  • a monitoring method can be set for each IT resource, it is possible to set a monitoring method in accordance with the situation, thereby improving user convenience.
  • FIG. 27 shows a state of failure detection in intentional work.
  • FIG. 27 illustrates a case where an unused component is removed from a node.
  • a certain node includes component 1 and component 2, and both components 1 and 2 are monitored. Since one component 2 is not used, it is assumed that the user attempts to intentionally disconnect the unused component 2. If the configuration is such that only one monitoring method can be applied to all of the node and the two components, intentional disconnection of the component 2 is detected as the occurrence of a failure.
  • the user can stop monitoring of the component 2 by changing the monitoring method of the component 2 scheduled to be detached to the non-monitoring mode in advance. . Therefore, even when the unused component 2 is disconnected from the node, it is not detected as a failure.
  • FIG. 28 shows the case of maintenance work.
  • the user when the node and the two components 1 and 2 are monitored, when the user performs maintenance work on the component 2, it may be detected that a failure has occurred. For example, the user may remove the component 2 from the node or stop energizing the component 2.
  • the user can change the monitoring method of the maintenance target component 2 to the maintenance mode before the start of the maintenance work.
  • the maintenance mode it is assumed that the operation is normal and is not detected as a failure.
  • the monitoring method of the component 2 is automatically switched from the maintenance mode to the monitoring mode.
  • a maintenance mode for maintenance work is prepared, and after the maintenance work is completed, the maintenance mode is automatically switched to the monitoring mode. Therefore, it is possible to prevent a useless alarm from being output during the maintenance work, and to improve the efficiency of the maintenance work. Furthermore, it is not necessary to manually switch from the maintenance mode to the monitoring mode after the maintenance work, and the user-friendliness is improved. Furthermore, since the failure that occurs after the maintenance work can be detected, the reliability of the monitoring device is improved.
  • a second embodiment will be described with reference to FIGS.
  • This embodiment corresponds to a modification of the first embodiment. Therefore, the difference from the first embodiment will be mainly described.
  • the monitoring method of the other IT resource is changed in accordance with the change.
  • IT resources related to each other a combination of a guest OS and a virtualization mechanism and a combination of a host OS and a guest OS will be described as examples.
  • a host OS 212 which is a node, is provided with a virtualization mechanism 213 as a component.
  • the virtualization mechanism 213 is provided with a guest OS 214 as another node.
  • the state of the virtualization mechanism 213 provided with the guest OS 214 also changes.
  • the virtualization mechanism 213 is set to the monitoring mode, it is determined that a failure has occurred in the virtualization mechanism 213 that is a component of the host OS 212 due to the stop of the guest OS 214.
  • the virtualization mechanism 213 related to the guest OS 214 is also automatically switched to the non-monitoring mode.
  • the guest OS 214 is stopped, it is possible to prevent the virtualization mechanism 213 from detecting a failure.
  • FIG. 30 is a flowchart of processing for changing the monitoring state (monitoring method).
  • this processing a case where the monitoring state of a component is made to follow a change in the monitoring state of a node will be described as an example.
  • the monitoring device 10 updates the monitoring state of the change target node in the node table 151 (S60).
  • a node whose monitoring state has been changed may be abbreviated as a target node.
  • the target node corresponds to a “first monitoring target object”.
  • the monitoring apparatus 10 determines whether the target node is the host OS 212 (S61). When the target node is not the host OS 212 (S61: NO), the monitoring apparatus 10 determines whether or not a record corresponding to the target node exists in the virtual machine table 157 (S62). Here, since the case where the guest OS 214 is the target node has been described, it is determined as YES in S62.
  • the monitoring apparatus 10 acquires the component ID 1571 related to the target node from the virtual machine table 157 (S62).
  • the component here, the guest OS
  • the monitoring apparatus 10 determines whether or not the acquired component ID is registered in the component table 152 (S63).
  • the monitoring apparatus 10 changes the monitoring state 1525 set to the component ID 1520 in the component table 152 to S60. To match the monitoring state of the target node (guest OS 214) changed in (S65).
  • FIG. 31 is a flowchart showing details of S66 in FIG.
  • the monitoring apparatus 10 identifies the guest OS 214 provided on the host OS 212 whose monitoring state is changed by referring to the node table 151 (S660).
  • the monitoring apparatus 10 causes the user interface unit 110 to output the specified guest OS 214 as a “node related to the target node” (S661).
  • the user selects the guest OS 214 that causes the monitoring state change of the host OS 212 to follow the guest OS 214 displayed on the user interface unit 110.
  • the monitoring apparatus 10 matches the monitoring state of the selected guest OS 214 with the monitoring state of the host OS 212 (S663).
  • FIG. 32 shows a screen G70 for selecting a node related to the target node (hereinafter referred to as related node).
  • related node On the upper side of the screen G70, a target node column GP70 for displaying a node to be changed is provided.
  • related node display columns GP71 and GP72 for displaying related nodes related to the target node are provided below the target node column GP70.
  • the user can select a related node that follows a change in the monitoring state of the target node by selecting a desired related node and setting a check mark.
  • the monitoring device 10 matches the monitoring state of the selected related node (guest OS) with the monitoring state of the target node (host OS) (S663).
  • This embodiment configured in this way also has the same effects as the first embodiment because the monitoring state can be individually set for each IT resource. Furthermore, in this embodiment, when the monitoring state of one IT resource is changed between related IT resources, the monitoring state of the other IT resource is made to coincide with the monitoring state of one IT resource. Therefore, in this embodiment, it is possible to further reduce the output of unnecessary alarms and improve the user-friendliness. Since the user does not need to manually detect the related IT resource and manually change the monitoring state, the usability of the user is further improved.
  • FIG. 33 shows a screen G80 for selecting a method for searching for related nodes.
  • a plurality of search methods GP80 to GP83 are displayed on the search method selection screen G80. The user selects any one of the search methods and operates the OK button.
  • the first search method GP80 is a method for searching for another node located immediately below the target node.
  • the search method can also be called, for example, an extraction method for extracting candidates for linking the monitoring state.
  • the second search method GP81 is a method for searching not only other nodes located immediately below the target node but also other nodes in all layers connected to the target node.
  • the third search method GP82 is a method for searching all other nodes in the computer system.
  • the fourth search method GP83 is a method that does not link the monitoring status of the target node with the monitoring status of the other nodes.
  • the third search method and the fourth search method are not exactly methods for searching related nodes, but are handled as a kind of method for searching related nodes for convenience.
  • FIG. 34 schematically shows a difference in search range according to each of the search methods described above. It is assumed that the target node is “host OS1”. In the first search method, the virtualization mechanisms VM1 and VM2 and the guest OS1 and guest OS2 that are located immediately below the host OS1 are extracted. The user selects from VM1, VM2, guest OS1, and guest OS2, and links the monitoring state to the host OS1.
  • nodes related to the directly related nodes are also extracted.
  • one related node 1 connected to one guest OS1 and the other related node 2 connected to the other guest OS2 are extracted.
  • Specific examples of the related node include the switch 22 or the storage 23.
  • the third search method all nodes in the computer system are searched.
  • the other host OS 2, virtualization mechanism VM 3, VM 4, guest OS 3, guest OS 4, switch 22, and storage 23 are also extracted.
  • no node is linked to the change in the monitoring status of the target node, so no one is extracted.
  • FIG. 35 shows a selection screen G90 by the second search method.
  • the selection screen by the first search method is as shown in FIG.
  • related node display columns GP91 and GP93 for displaying each related node located immediately below the target node are displayed below the target node column GP90 indicating the target node. Is provided.
  • related node display fields GP92 and GP94 for displaying other related nodes related to the related nodes are provided below the related node display fields GP91 and GP93.
  • FIG. 36 shows a selection screen G100 by the third search method. On this selection screen G100, one node group related to the target node and all other node groups not related to the target node are all displayed.
  • the selection screen G100 includes a target node display column GP100, columns GP101 and GP103 indicating related nodes located immediately below the target node, and a column GP102 indicating other related nodes related to the related nodes. , GP104.
  • other nodes GP105 to GP109 are also provided on the selection screen G100.
  • check marks are set for all nodes displayed on the screen G100. For example, the user can also uncheck a node that is considered unnecessary.
  • FIG. 37 is a flowchart illustrating processing for changing the monitoring state.
  • FIG. 38 shows a state in which when the switch monitoring state is changed to the non-monitoring mode, the monitoring state of each switch port of the switch is also changed to the non-monitoring mode.
  • the monitoring device 10 updates the monitoring status 1514 of the target node registered in the node table 151 according to the user operation (S70).
  • the monitoring apparatus 10 determines whether or not the type of the node whose monitoring state is to be changed is a switch (S71).
  • S71 the type of the node whose monitoring state is to be changed.
  • the monitoring apparatus 10 refers to the component table 152 (S72) and identifies all switch ports provided in the switch (S73).
  • the monitoring apparatus 10 matches the monitoring state of all switch ports specified in S73 with the monitoring state of the switch (S74). Configuring this embodiment like this also achieves the same operational effects as the second embodiment.
  • FIG. 39 shows a flowchart of a process for changing the monitoring state.
  • FIG. 40 shows how the monitoring state of the other communication port connected to one communication port is also changed to the non-monitoring state when the monitoring state of one communication port is changed to the non-monitoring state.
  • the monitoring device 10 changes the monitoring status 1525 of the target component to the non-monitoring mode in the component table 152 (S80).
  • the monitoring apparatus 10 determines whether the target component is a switch port (S81).
  • S81 the target component is a switch port
  • the monitoring apparatus 10 acquires the MAC address of the switch port that is the target component from the switch port table 155 (S82).
  • the monitoring apparatus 10 refers to the LAN port table 156 and acquires the component ID of the LAN port having the MAC address corresponding to the MAC address of the switch port (S83).
  • the monitoring apparatus 10 matches the monitoring state of the counterpart component (here, the LAN port) with the monitoring state of the target component (here, the switch port) (S84). Configuring this embodiment like this also achieves the same effects as the second embodiment.
  • the monitoring state can be changed between the storage and the components constituting the storage.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 本発明は、複数の監視対象オブジェクト毎に監視方法を設定できる。 サーバ等のノードと、ノードに含まれるコンポーネントとは、監視対象オブジェクトである。情報取得部140は、各監視対象オブジェクトから情報を取得する。制御部130は、ユーザにより各監視対象オブジェクト毎に設定される監視方法に基づいて、各監視対象オブジェクトの状態を監視し、障害を検出した場合は警報を出力する。互いに関連する監視対象オブジェクト間では、監視状態が連動するようになっている。

Description

管理システム及び管理システムの制御方法
 本発明は、管理システム及び管理システムの制御方法に関する。
 運用監視サーバが映像配信サーバの稼働状況を一定時間毎に監視し、障害の発生を検知した場合には、警告を発するようにしたシステムは知られている(特許文献1)。さらに、管理サーバがシステム内の通信ポートを監視し、ある通信ポートに障害が発生した場合には、代替通信ポートを選択するようにした技術も知られている(特許文献2)。
特開2009-187230号公報 特開2007-087266号公報
 従来技術では、システム内の各ノードをそれぞれ個別に監視しており、各ノードの監視状態が連動していない。例えば、一方のノードと他方のノードとが互いに関係する場合でも、一方のノードの監視状態と他方のノードの監視状態とが連携していない。従って、ユーザは、一方のノードの監視状態を変更した場合には、他方のノードの監視状態を手動で変更する必要がある。このため、従来技術は、ユーザの使い勝手が悪い。
 さらに、従来技術では、各ノードを一律に画一的に監視しており、監視方法を個別に設定するのが難しい。従って、例えば、保守作業のために装置からケーブルを引き抜いた場合でも、リンクダウンの発生であるとして警告が出力される場合がある。従来技術では、ユーザが明確に認識している事象までもが障害として検出されるため、ユーザの使い勝手が低い。さらに、例えば、比較的広範囲の保守作業のために、ユーザの認識している障害が多数発生した場合、本当の障害がその中に埋もれてしまい、ユーザの発見が遅れる可能性もある。
 そこで、本発明の目的は、ユーザの使い勝手を向上できるようにした管理システム及び管理システムの制御方法を提供することにある。本発明の他の目的は、監視対象オブジェクト毎に監視方法を設定することができ、かつ、関連する監視対象オブジェクト間の監視方法を連動させることができるようにした管理システム及び管理システムの制御方法を提供することにある。本発明の更なる目的は、後述する実施形態の記載から明らかになるであろう。
 上記課題を解決すべく、本発明の第1観点に従う管理システムは、コンピュータシステムの状態を監視するための管理システムであって、コンピュータシステムは、監視対象となる監視対象オブジェクトを複数含む。管理システムは、マイクロプロセッサと、マイクロプロセッサにより読み出されて実行されるプログラムを記憶するためのメモリと、マイクロプロセッサが各監視対象オブジェクトと通信するための通信インターフェースと、マイクロプロセッサがユーザとの間で情報を交換するためのユーザインターフェースと、を含む。マイクロプロセッサは、プログラムを読み込んで実行することにより、各監視対象オブジェクト毎に監視方法を設定する監視方法設定部と、通信インターフェースを介して各監視対象オブジェクトから情報を取得する情報取得部と、各監視方法と各監視対象オブジェクトから取得される情報とに基づいて、各監視対象オブジェクトを監視し、それら監視結果をユーザインターフェースを介して出力させる監視部と、各監視対象オブジェクトに含まれる第1監視対象オブジェクトに設定された監視方法が変更される場合には、各監視対象オブジェクトに含まれる、第1監視対象オブジェクトに関連する第2監視対象オブジェクトに設定された監視方法を、変更に追従して変更させるための、監視方法変更部と、をそれぞれ実現させる。
 第2観点では、第1観点において、監視方法には、監視対象オブジェクトから取得される情報に基づいて所定の通知を出力するか否かを判定するための通知設定が含まれており、監視方法変更部は、第1監視対象オブジェクトについての通知設定が変更された場合、第2監視対象オブジェクトについての通知設定を、第1監視対象オブジェクトについての通知設定に一致させる。
 第3観点では、第2観点において、監視方法変更部は、各監視対象オブジェクトの中から第1監視対象オブジェクトに関連する監視対象オブジェクトを第2監視対象オブジェクトの候補として検索し、検索された候補の中からユーザにより選択される監視対象オブジェクトを、第2監視対象オブジェクトとする。
 第4観点では、第3観点において、監視方法変更部は、各監視対象オブジェクトのうち第1監視対象オブジェクトに直接関連する監視対象オブジェクトを候補として検索するか、あるいは、各監視対象オブジェクトのうち第1監視対象オブジェクトに直接関連する監視対象オブジェクト及び当該監視対象オブジェクトに直接関連する監視対象オブジェクトの両方を候補として検索するようになっている。
 第5観点では、第2観点において、複数の監視対象オブジェクトには、ホストマシンと、ホストマシン上で作動する仮想化機構により生成される仮想マシンとが含まれており、第1監視対象オブジェクトはホストマシンであり、第2監視対象オブジェクトは仮想マシンであり、監視方法変更部は、ホストマシンについての第1通知設定が所定の通知を出力しない設定に変更された場合、仮想マシンについての第2通知設定を所定の通知を出力しない設定に変更させる。
 第6観点では、第2観点において、複数の監視対象オブジェクトには、ホストマシンと、ホストマシン上で作動し、仮想マシンを生成するための仮想化機構とが含まれており、第1監視対象オブジェクトは仮想マシンであり、第2監視対象オブジェクトは仮想化機構であり、監視方法変更部は、仮想マシンについての第1通知設定が所定の通知を出力しない設定に変更された場合、仮想化機構についての第2通知設定を所定の通知を出力しない設定に変更させる。
 第7観点では、第2観点において、複数の監視対象オブジェクトには、通信ポートを有するスイッチ装置が含まれており、第1監視対象オブジェクトはスイッチ装置であり、第2監視対象オブジェクトは通信ポートであり、監視方法変更部は、スイッチ装置についての第1通知設定が所定の通知を出力しない設定に変更された場合、通信ポートについての第2通知設定を所定の通知を出力しない設定に変更させる。
 第8観点では、第2観点において、複数の監視対象オブジェクトには、通信ポートを有するスイッチ装置と、通信ポートに接続される他の通信ポートを有する他の装置とが含まれており、第1監視対象オブジェクトは通信ポートであり、第2監視対象オブジェクトは他の通信ポートであり、監視方法変更部は、通信ポートについての第1通知設定が所定の通知を出力しない設定に変更された場合、他の通信ポートについての第2通知設定を所定の通知を出力しない設定に変更させる。
 第9観点では、第2観点において、監視方法には、監視対象オブジェクトの状態を、情報取得部により取得される情報を介して監視し、障害が検出された場合は所定の通知を出力させる第1モードと、監視対象オブジェクトの状態を監視しない第2モードと、監視対象オブジェクトの現在の状態が正常であるか否かを問わずに、正常であると判定する第3モードとが含まれている。
 第10観点では、第9観点において、第3モードは、監視対象オブジェクトの状態が変更された場合には、第1モードに移行するようになっている。
 第11観点では、第2観点において、複数の監視対象オブジェクトには、複数のノード装置と、各ノード装置の一部を構成するコンポーネント装置とが含まれており、監視方法では、各コンポーネント装置の有する複数の属性のうち所定の属性の状態に関する情報を情報取得部を介して取得するか否かと、所定の属性の状態に関する情報と所定の閾値とを比較することにより、所定の属性の状態を判定するか否かと、を各コンポーネント装置毎に設定することができる。
 第12観点に従う管理システムの制御方法は、監視対象となる監視対象オブジェクトを監視する管理システムを制御するための方法であって、コンピュータシステムは、監視対象オブジェクトを複数含み、各監視対象オブジェクト毎に監視方法を設定し、各監視対象オブジェクトから情報を取得し、各監視方法と各監視対象オブジェクトから取得される情報とに基づいて、各監視対象オブジェクトを監視し、監視結果をユーザインターフェースを介して出力させ、各監視対象オブジェクトに含まれる第1監視対象オブジェクトに設定された監視方法が変更されたか否かを判定し、第1監視対象オブジェクトの監視方法が変更された場合には、各監視対象オブジェクトの中から、第1監視対象オブジェクトに関連する第2監視対象オブジェクトを検出し、第2監視対象オブジェクトに設定された監視方法を、第1監視対象オブジェクトの監視方法に一致させる。
 第13観点に従う管理システムの制御方法は、コンピュータシステムの状態を監視する管理システムを制御する方法であって、コンピュータシステムは、監視対象となる監視対象オブジェクトを複数含み、各監視対象オブジェクトを監視するための監視方法は、監視対象オブジェクトに障害が検出された場合は所定の通知を出力させる第1モードと、監視対象オブジェクトの状態を監視しない第2モードと、監視対象オブジェクトの現在の状態が正常であるか否かを問わずに、正常であると判定する第3モードとが含まれており、各監視対象オブジェクト毎に、監視方法の有する複数のモードの中からいずれか一つのモードを設定し、各監視対象オブジェクトから情報を取得し、設定されたモードと各監視対象オブジェクトから取得される情報とに基づいて、各監視対象オブジェクトを監視し、監視結果を出力させる。
 第14観点では、第13観点において、第3モードは、監視対象オブジェクトの状態が変更された場合に、第1モードに移行するようになっている。
 第15観点では、第14観点において、複数の監視対象オブジェクトには、複数のノード装置と、各ノード装置の一部を構成するコンポーネント装置とが含まれており、監視方法では、各コンポーネント装置の有する複数の属性のうち所定の属性の状態に関する情報を取得するか否かと、所定の属性の状態に関する情報と所定の閾値とを比較することにより、所定の属性の状態を判定するか否かと、を各コンポーネント装置毎に設定することができる。
 なお、上記観点の組合せ以外の他の組合せも本発明の範囲に含まれる。さらに、本発明の全部または一部をコンピュータシステムとして構成し、記録媒体または通信媒体を介して流通させることもできる。
図1は、実施形態の概要を示す図である。 図2は、管理システムを含む全体構成図である。 図3は、監視装置のブロック図である。 図4は、データベースの構成を示す図である。 図5は、ノードとコンポーネントとメトリックの関係を示す図である。 図6は、監視モードと非監視モードとメンテナンスモードとの関係を示す図である。 図7は、監視の全体の流れを示すフローチャートである。 図8は、ノードテーブルの構成例である。 図9は、コンポーネントテーブルの構成例である。 図10は、メトリック共通設定テーブルの構成例である。 図11は、性能情報テーブルの構成例である。 図12は、スイッチポートテーブルの構成例である。 図13は、LANポートテーブルの構成例である。 図14は、仮想マシンテーブルの構成例である。 図15は、コンポーネントの監視状態の変更方法を示す図である。 図16は、障害検知処理のフローチャートである。 図17は、メトリックを監視するための制御方法の組合せを示す説明図である。 図18は、メトリックを共通の設定で監視するための画面例を示す。 図19は、共通設定が適用される様子を示す図である。 図20は、メトリックの監視を個別設定する様子を示す図である。 図21は、性能情報を更新する処理を示すフローチャートである。 図22は、イベント一覧画面の例を示す。 図23は、グラフ表示処理のフローチャートである。 図24は、メトリックをグラフ表示する画面例である。 図25は、コンポーネントの監視制御とメトリックの監視制御との組合せパターンを説明する図である。 図26は、コンポーネントの有する複数メトリックのうち一部のメトリックを監視しない様子を示す図である。 図27は、ユーザがノードから一部のコンポーネントを意図的に切り離す様子を模式的に示す図。 図28は、ユーザがメンテナンス作業を行う様子を模式的に示す図。 図29は、ゲストOSの停止に連動させて仮想化機構の監視を停止させる様子を示す図。 図30は、監視状態を変更させる処理のフローチャート。 図31は、図30中のS66の詳細を示すフローチャート。 図32は、監視状態を変更させる関連ノードを選択する画面例。 図33は、第2実施例に係り、監視状態の連動方法を選択するための画面の例。 図34は、各連動方法によりノードが抽出される範囲を示す説明図。 図35は、全階層の関連ノードの中から選択する場合の画面例。 図36は、システム内の全ノードの中から選択する場合の画面例。 図37は、第3実施例に係り、スイッチの監視状態とスイッチポートの監視状態とを連動させる処理のフローチャート。 図38は、ノードテーブルの変化に応じてコンポーネントテーブルが変化する様子を示す図。 図39は、第4実施例に係り、一方の通信ポートの監視状態と、一方の通信ポートに接続される他方の通信ポートの監視状態とを連動させるための処理を示すフローチャート。 図40は、コンポーネントテーブルとスイッチポートテーブル及びLANポートテーブルが連動して更新される様子を示す図。
 以下、図面に基づいて、本発明の実施の形態を説明する。本発明は、後述のように、各監視対象オブジェクト(ノード及びコンポーネント)毎に監視方法を設定する。さらに、本発明では、互いに関連する監視対象オブジェクトのうち一方の監視対象オブジェクトの監視方法が変更された場合には、他方の監視対象オブジェクトの監視方法も連動して変更させる。さらに、本発明では、メンテナンス作業中に不要な警報が出力されるのを防止するために特別なモードを備えている。なお、後述の実施例では、監視対象オブジェクトのことを「ITリソース」と呼ぶことがある。
 図1は、本実施形態の全体概要を示す説明図である。図1は、本発明の理解及び実施に必要な程度で記載されている。本発明の範囲は、図1に記載の構成に限定されない。図1に記載されていない特徴は、後述の実施例で明らかにされる。
 管理システム1は、コンピュータシステムに含まれる監視対象オブジェクト2A,2B,2C等の状態を監視し、必要な場合には警報を出力する。管理システム1を説明する前に、先に監視対象オブジェクトとしてのノード及びコンポーネントを説明する。
 監視対象オブジェクトには、ノードと、ノードを構成する一つまたは複数のコンポーネントとが含まれる。ノードとは、通信ネットワークを構成する要素であり、例えば、サーバ2A、スイッチ2B、ストレージ2C等を挙げることができる。特に区別する必要が無い場合、全体として「ノード2」と呼ぶ。
 サーバ2Aは、例えば、通信ポート2A1と、仮想化機構2A2と、仮想マシン2A3とを備える。通信ポート2A1は、スイッチ2B等の他のノードと通信するためのコンポーネントである。仮想化機構2A2は、サーバ2AのOS(オペレーティングシステム)上に、仮想マシン2A3を構築するためのコンポーネントである。仮想マシン2A3は、サーバ2Aに仮想的に設けられるサーバである。仮想マシン2A3は、サーバ2Aとは別のノードとして扱われる。なお、後述の実施例に示すように、サーバ2Aは、例えば、マイクロプロセッサ、メモリ、ファイルシステム等の他のコンポーネントを備えることもできる。
 スイッチ2Bは、複数のスイッチポート2B1,2B2を備える。各スイッチポート2B1,2B2は、コンピュータシステム内の他のノードと通信するためのコンポーネントである。なお、スイッチ2Bは、例えば、マイクロプロセッサ、メモリ等の他のコンポーネントを備えることもできる。
 ストレージ2Cは、例えば、通信ポート2C1と、マイクロプロセッサ2C2と、ハードディスクドライブ2C3とを備える。通信ポート2C1は、スイッチ2B等の他のノードと通信するためのコンポーネントである。マイクロプロセッサ2C2は、ストレージ2Cの動作を制御するコンポーネントである。ハードディスクドライブ2C3は、データを記憶するためのコンポーネントである。
 管理システム1の構成を説明する。管理システム1は、例えば、マイクロプロセッサ3と、メモリ4と、通信インターフェース5と、ユーザインターフェース6とを備える。管理システム1は、一つのコンピュータから構成することもできるし、複数のコンピュータを連携させて構成することもできる。
 通信インターフェース5は、各ノード2A-2Cと通信ネットワークCNを介して通信するための装置である。
 ユーザインターフェース6は、ユーザと情報を交換するための装置である。ユーザインターフェース6は、ユーザに情報を提供するための情報出力装置と、ユーザが情報を入力するための情報入力装置とを備える。情報出力装置としては、ディスプレイ装置またはプリンタ等を挙げることができる。情報入力装置としては、キーボード、ポインティングデバイス、タッチパネル、マイクロフォン等を挙げることができる。
 マイクロプロセッサ3は、メモリ4に記憶された各種コンピュータプログラムを読み込んで実行することにより、所定の機能3A,3B,3C,3Dを実現させる。監視方法設定部3Aは、各ノード及び各コンポーネント毎に監視方法を個別に設定するための機能である。
 監視方法は、例えば3つのモードを含む。第1モードは、各ノードまたは各コンポーネントの状態を監視するモードである。第1モードは監視モードと呼ぶことができる。第1モードでは、障害を検知した場合または性能情報が閾値を超えた場合に、「所定の通知」としての警報を出力する。第2モードは、各ノードまたは各コンポーネントの状態を監視しないモードである。第2モードは、非監視モードと呼ぶことができる。
 第3モードは、監視対象であるノードまたはコンポーネントの現在の状態が正常であるか否かを問わずに、正常であると判定するモードである。第3モードは、後述のようにメンテナンス作業において好適に用いることができるため、メンテナンスモードと呼ぶことができる。第3モードは、ノードまたはコンポーネントの状態がさらに変化した場合に、第1モードに移行する。第1モードに移行した場合に、状態の変化したノードまたはコンポーネントに異常が生じているならば、警報が出力される。
 情報取得部3Bは、各ノード及び各コンポーネントから情報を収集する機能である。収集された情報は、メモリ4または図示せぬハードディスクドライブ内に記憶させることができる。
 監視部3Cは、監視方法設定部3Aにより設定される監視方法と情報取得部3Bにより収集される情報とに基づいて、各ノード及び各コンポーネントをそれぞれ監視するための機能である。さらに、監視部3Cは、監視結果をユーザインターフェース6を介して出力させる。
 監視方法変更部3Dは、各ノードまたは各コンポーネントのうち互いに関連するノードまたはコンポーネント間で、監視状態を連動させるための機能である。一つのノードと他の一つのノードとが関連する場合、一つのノードの監視方法が変更されると、それに合わせて他の一つのノードの監視方法も変更される。一つのノードの監視方法と一致するようにして、他の一つのノードの監視方法が変更される。
 例えば、一つのノードの監視方法が第1モードから第2モードに切り替えられた場合、他の一つのノードの監視方法も第2モードに切り替えられる。つまり、監視方法変更部3Dは、関連するノードまたはコンポーネント間において、一方の監視方法に追従させて他方の監視方法を変更させる。なお、後述のように、ノード間で監視状態を連動させるだけでなく、ノードとコンポーネントの間、コンポーネント同士の間で、それぞれ監視状態を連動させることもできる。
 本実施形態では、ユーザは、各ノード及び各コンポーネントについて、それぞれ個別に監視方法を設定する。監視部3Cは、各ノードまたは各コンポーネントからの情報に基づいて、障害または性能低下等が生じたか否かを判定する。監視部3Cは、障害等の発生が検出されると、ユーザインターフェース6を介してユーザに通知する。
 ユーザは、例えば、メンテナンス作業のために、一部のノードまたは一部のコンポーネントをシステムから取り外すことがある。そのメンテナンス作業の際に、ユーザは、取り外し対象のノードまたはコンポーネントの監視状態を、あらかじめ第2モード(非監視モード)または第3モード(メンテナンスモード)のいずれかに変更する。
 監視方法変更部3Dは、監視状態の変更されたノードまたはコンポーネントに関連する、他のノードまたはコンポーネントを、コンピュータシステム内から抽出する。抽出されたノードまたはコンポーネントは、ユーザインターフェース6を介して、ユーザに提示される。ユーザは、提示されたノードまたはコンポーネントの中から、監視状態を変更させるノードまたはコンポーネントを選択する。ユーザにより選択されたノードの監視状態またはコンポーネントの監視状態は、メンテナンス作業等のために最初に監視状態の変更されたノードの監視状態またはコンポーネントの監視状態に合わせて変更される。
 このように構成される本実施形態では、各ノードまたは各コンポーネント毎に監視方法を設定することができるため、ユーザの使い勝手が向上する。例えば、使用する予定の無いノードを監視しないモードに設定したり、ノードの有する複数コンポーネントのうち一部のコンポーネントについて、監視しないモードに設定することができる。従って、不要な警報が出力されるのを未然に防止でき、本当の障害発生が不要な警報の中に埋もれてしまうのを防止できる。
 さらに、本実施形態では、関連するノード間またはコンポーネント間で、監視状態を連動させることができる。従って、ユーザは、関連するノードまたはコンポーネントの監視状態を手動で変更する必要がなく、ユーザの使い勝手が向上する。
 さらに、本実施形態では、監視方法の中に、ノードまたはコンポーネントを監視する第1モードと、ノードまたはコンポーネントを監視しない第2モードと、ノードまたはコンポーネントの現在の状態を問わずに正常であると判断する(または、異常ではないと判断する)第3モードとの3つのモードを用意している。従って、ユーザは、各ノード及び各コンポーネントにそれぞれ適切なモードを設定することができ、ユーザの使い勝手が向上する。
 さらに、第3モードは、ノードまたはコンポーネントの状態がさらに変化した場合に第1モードに移行するため、メンテナンス作業時に好適に用いることができる。例えば、ユーザは、メンテナンス作業の開始前に、メンテナンス作業の対象となっているノードまたはコンポーネントの監視状態を第3モードに設定する。メンテナンス作業が終了した場合、ユーザは、第3モードに設定されたノードまたはコンポーネントの監視状態を第1モードに手動で変更する必要はない。ユーザは、メンテナンス作業の対象となったノードまたはコンポーネントの監視状態を第3モードにしたままで放置することができる。もしも、メンテナンス作業の対象となったノードまたはコンポーネントの状態が変化して異常が生じた場合、第3モードから第1モードに自動的に切り替り、警報が出力される。従って、ユーザの使い勝手が向上する。以下、本実施形態を詳細に説明する。
 図2は、本実施例におけるシステムの全体概要を示す。先に図1との対応関係を説明すると、監視装置10は管理システム1に、サーバ21A,21Bはノード2Aに、スイッチ22はノード2Bに、ストレージ23はノード2Cに、通信ネットワークCN1は通信ネットワークCNに、それぞれ対応する。
 さらに、図3に示す制御部130とユーザインターフェース部110とデータベース処理部120が協働することにより、監視方法設定部3Aと監視部3Cと監視方法変更部3Dとが実現される。図3に示す情報取得部140は、情報取得部3Bに対応する。図3に示すユーザインターフェース部110は、ユーザインターフェース6に対応する。
 図2には、ノードとしてのサーバが複数示されている。一つのサーバ21Aは、仮想サーバ(214A)を生成する。サーバ21Aは、通信ポート210Aと、マイクロプロセッサ211Aと、ホストOS212Aと、複数の仮想化機構213Aと、複数のゲストOS214Aとを備える。
 仮想化機構213Aは、ホストOS212Aの有するコンポーネントである。仮想化機構213Aは、ホストOS上にゲストOS214Aを生成するソフトウェアである。ホストOS212Aは一つのノードである。ゲストOS214Aは、ホストOS212Aとは別の一つのノードである。なお、通信ポート210A及びマイクロプロセッサ211Aは、サーバ21Aを構成するコンポーネントである。ゲストOS214Aは、仮想的に生成される仮想サーバ、または、仮想マシンと呼ぶこともできる。
 他の一つのサーバ21Bは、通信ポート210Bと、マイクロプロセッサ211Bと、ハードディスクドライブ215Bとを備える。それら通信ポート210B、マイクロプロセッサ211B及びハードディスクドライブ215Bは、サーバ21Bを構成するコンポーネントである。
 以下の説明では、サーバ21Aとサーバ21Bとを区別する必要が無い場合、「サーバ21」と呼ぶ。同様に、「マイクロプロセッサ211」、「通信ポート210」と呼ぶことがある。
 スイッチ22は、コンピュータシステム内の複数のサーバ21と複数のストレージ23とを通信可能に接続するノードである。スイッチ22は、コンポーネントとして、複数の通信ポート220(スイッチポート220)を有する。
 ストレージ23は、サーバ21により使用されるデータを記憶するノードである。ストレージ23は、コンポーネントとして、通信ポート230と、マイクロプロセッサ231と、ハードディスクドライブ232とを有する。
 監視装置10は、第1通信ネットワークCN1を介して、各サーバ21とスイッチ22とストレージ23とに通信可能に接続されている。サーバ21とスイッチ22とストレージ23とは、通信ネットワークCN2を介して接続される。第1通信ネットワークCN1は、管理用の通信ネットワークであり、例えば、LAN(Local Area Network)のように構成される。第2通信ネットワークCN2は、I/O(Input/Output)用の通信ネットワークであり、例えば、FC_SAN(Fibre Channel_Storage Area Network)またはIP_SAN(Internet Protocol_SAN)のように構成される。なお、単一の通信ネットワークを用いる構成でもよい。
 図3は、監視装置10の構成を示すブロック図である。「管理システム」としての監視装置10は、図1で述べたように、マイクロプロセッサ、メモリ及び通信インターフェース等を備えるコンピュータ装置として構成される。
 監視装置10は、例えば、ユーザインターフェース部110と、データベース処理部120と、制御部130と、情報取得部140と、データベース150とを備える。
 ユーザインターフェース部110は、ユーザと情報を交換するための機能である。ユーザインターフェース部110は、データベース処理部120と、制御部130とにそれぞれ接続されている。ユーザから入力された条件等は、ユーザインターフェース部110を介して、データベース処理部120または制御部130に伝達される。データベース処理部120または制御部130での処理結果等は、ユーザインターフェース部110を介して、ユーザに通知される。なお、電子メール等を用いて、ユーザに情報を提供する構成でもよい。
 データベース処理部120は、データベース150を制御するための機能である。データベース処理部120は、ユーザインターフェース部110から要求されたデータをデータベース150から取得して、ユーザインターフェース部110に返す。さらに、データベース処理部120は、制御部130からの要求に応じて、データベース150を更新等させる。
 制御部130は、監視装置10の動作を制御する機能である。制御部130は、ユーザインターフェース部110または情報取得部140から入力される情報を処理する。制御部130は、データベース処理部120を介してデータベース150を更新させたり、または、ユーザインターフェース部110を介してユーザに情報を提供する。
 情報取得部140は、コンピュータシステム20内のノード及びコンポーネントから情報を取得するための機能である。なお、コンピュータシステム20内のノード及びコンポーネントを、IT(Information Technology )リソースと総称することができる。
 なお、監視装置10は、ユーザインターフェース部110を直接有する必要はない。例えば、監視装置10を操作するための操作端末を監視装置10に接続し、その操作端末を介してユーザからの操作を受け入れたり、ユーザに通知する構成としてもよい。なお、表示用端末と操作用端末とを監視装置10に接続する構成、表示用端末のみを監視装置10に接続し、操作は監視装置10の入力装置を使用する構成でもよい。さらに、監視装置10は、単一のコンピュータ装置として構成される必要はなく、複数のコンピュータ装置から一つの監視装置10を構成してもよい。
 図4は、データベース150の構成を示す。データベース150には、例えば、ノードテーブル151と、コンポーネントテーブル152と、メトリック共通設定テーブル153と、性能情報テーブル154と、スイッチポートテーブル155と、LANポートテーブル156と、仮想マシンテーブル157と、が記憶される。各テーブル151-157の構成は、後述する。なお、データベース150の構成及び各テーブル151-157の構成は、図示の例に限定されない。例えば、一つのテーブルを複数のテーブルから構成したり、または、複数のテーブルを一つのテーブルにまとめたりすることもできる。
 なお、以下、本実施例で使用される情報の構成を説明するために、「テーブル」、「リスト」、「キュー」等の用語を用いるが、情報の構成はそれらの形式に限定されない。つまり、本実施例で使用される各情報は、テーブル、リスト、キュー以外のデータ構造であってもよい。さらに、各情報の内容を説明するために、「識別情報」、「識別子」、「ID」、「名称」という表現を使用するが、それらの表現は互いに置換可能である。
 図5は、ノードとコンポーネント及びメトリックの関係を模式的に示す。コンピュータシステムの構成要素であるノードは、一つ以上のコンポーネントを含む。コンポーネントは、一つまたは複数のメトリックを備える場合がある。
 ノードとしては、例えば、サーバ21、スイッチ22、ストレージ23等を挙げることができる。コンポーネントとしては、例えば、マイクロプロセッサ、通信ポート(スイッチポート、LANポート)、メモリ、ハードディスクドライブ、仮想化機構等を挙げることができる。
 メトリックとは、測定のための基準、または、判断指標である。例えば、コンポーネントがマイクロプロセッサである場合、メトリックとして、CPU稼働率等を挙げることができる。コンポーネントがハードディスクドライブの場合、メトリックとして、読み出し負荷、書込み負荷、ディスク転送時間(平均値。以下同様。)等を挙げることができる。コンポーネントが通信ポートである場合、メトリックとして、パケット受信量(平均値。以下同様。)、バケット送信量(平均値。以下同様。)等を挙げることができる。監視装置10は、各コンポーネントのメトリックを監視することにより、各コンポーネントに異常が生じたか否かを判定する。
 図6は、監視装置10によるコンポーネントの監視方法を模式的に示す。コンポーネントの監視方法は、以下の3つの状態(モード)を含む。第1の状態は、「第1モード」としての監視状態である。第2の状態は、「第2モード」としての非監視状態である。第3の状態は、「第3モード」としてのメンテナンス状態である。
 コンポーネントが監視状態に設定されると、監視装置10は、そのコンポーネントから収集される情報に基づいて監視する。監視装置10は、メトリックの値が所定の閾値を超えた場合、または、所定の閾値を下回った場合に、警報を出力する。
 コンポーネントが非監視状態に設定されると、監視装置10は、そのコンポーネントを監視しない。監視装置10は、そのコンポーネントから収集される情報を無視し、メトリックの値と閾値とを比較せず、警報も出力しない。
 コンポーネントがメンテナンス状態に設定されると、監視装置10は、そのコンポーネントを正常であるとして取り扱う。つまり、そのコンポーネントからリンクダウン等の障害信号が検出された場合でも、監視装置10は、そのコンポーネントは正常であるとして扱う。メンテナンス状態にあるコンポーネントの状態がさらに変更すると、メンテナンス状態から監視状態に移行する。そのコンポーネントに障害が発生している場合、監視装置10は、警報を出力する。
 監視状態と非監視状態との間で双方向の移行が可能である。監視状態からメンテナンス状態への移行、及び、メンテナンス状態から監視状態への移行も可能である。上述の通り、メンテナンス状態から監視状態への移行は、コンポーネント状態の変化を契機として自動的に行うことができる。メンテナンス状態から非監視状態への移行は可能である。非監視状態からメンテナンス状態に移行することはできない。非監視状態からは監視状態にのみ移行できる。なお、上述の監視方法の状態遷移は、例示であって、本発明は図6に示す例に限定されない。
 図7は、監視方法の全体の流れを示すフローチャートである。以下に述べる各処理は、メモリに記憶された各プログラムをマイクロプロセッサが読み込んで実行することにより実現される。従って、以下の各処理の主語は、プログラムであってもよいし、マイクロプロセッサであってもよい。あるいは、以下の各処理の主語を監視装置、コントローラまたはサーバ等として、説明することもできる。
 なお、各プログラムの全部または一部を専用ハードウェア回路として実現する構成でもよい。各プログラムは、プログラムを配布するためのプログラム配布サーバを介して、ファイルサーバにインストールさせることができる。さらに、記録媒体に固定された各プログラムを、ファイルサーバに読み込ませてインストールさせてもよい。
 図7に示すように、まず、ユーザは、各ITリソース(各ノード及び各コンポーネント)毎に、監視方法を設定する(S10)。監視方法の種類としては、監視状態(監視モード)、非監視状態(非監視モード)、メンテナンス状態(メンテナンスモード)の3つが予め用意されている。
 ユーザは、状況に応じて適切な監視方法を設定することができる。例えば、通常の監視を希望する場合、ユーザは、そのITリソースを監視状態に設定する。例えば、使用されていないITリソースをコンピュータシステム20から取り除く場合、ユーザは、そのITリソースを非監視状態に設定する。これにより、その未使用ITリソースをコンピュータシステム20から切り離した場合でも、監視装置10から警報は出力されない。
 さらに例えば、メンテナンス作業の場合、ユーザは、メンテナンス作業の対象であるITリソースをメンテナンス状態に設定する。メンテナンス作業中は、メンテナンス作業対象であるITリソースの実際の状態は「異常」である。しかし、監視装置10は、メンテナンス状態に設定されたITリソースを正常なものとして取り扱うため、警報は出力されない。このように、ユーザが部品交換等のメンテナンス作業をした場合でも、メンテナンス状態に設定されたITリソースについての警報は出力されない。
 メンテナンス作業が終了すると、そのITリソースの実際の状態は「異常」から「正常」に自動的に移行する。従って、メンテナンス作業後に、ユーザが手動操作で、メンテナンス対象のITリソースを監視状態に戻す必要はない。メンテナンス作業後に、そのITリソースに障害が発生した場合、監視装置10は、警報を出力する。
 続いて、ユーザは、各コンポーネントについてメトリックの監視方法を設定することができる(S11)。メトリックの監視方法には、例えば、グラフ表示を行うか否か、イベント通知を行うか否か、の設定が含まれる。監視装置10は、コンポーネントから収集した性能情報(メトリック用の情報)の時間変化をグラフ表示させることができる。さらに、監視装置10は、コンポーネントから収集される性能情報と所定の閾値とを比較し、イベントの発生を通知することができる。グラフ表示及びイベント通知は、ユーザインターフェース部110を介してユーザに提供される。
 監視装置10は、情報取得部140を介してコンピュータシステム20内の各ITリソースから情報を取得し、記憶する(S12)。監視装置10は、S11で設定された内容に従って、性能情報の変化を示すグラフを表示する(S13)。監視装置10は、ITリソースの状態に基づいて、イベントを通知したり、警報を出力する(S14)。
 図8は、ノードテーブル151を示す。ノードテーブル151は、各ノードを管理するためのテーブルである。ノードテーブル151は、例えば、ノードID1510と、ノード名1511と、種別1512と、状態1513と、監視状態1514と、共通設定1515と、仮想サーバホストID1516とを含む。
 ノードID1510は、各ノードをコンピュータシステム内で一意に識別する情報である。ノード名1511は、ノードの名称である。種別1512は、ノードの種別を示す。ノード種別としては、例えば、サーバ、スイッチ、ストレージ等がある。状態1513は、ノードの状態を示す。状態1513としては、例えば、「正常」、「異常」がある。監視状態1514は、ノードに設定された監視方法を示す。監視状態1514に設定可能な値としては、上述の通り、「監視」、「非監視」、「メンテナンス」がある。共通設定1515は、後述の「メトリック共通設定」を適用するか否かを示す。仮想サーバホストID1516は、仮想サーバの設けられているホストを特定するための情報である。ノードが仮想的に構築されたサーバ(仮想サーバ、または、仮想OSとも呼ぶ)である場合、その仮想サーバが設けられているノードを特定する。
 図9は、コンポーネントテーブル152を示す。コンポーネントテーブル152は、各コンポーネントを管理するためのテーブルである。コンポーネントテーブル152は、例えば、コンポーネントID1520と、コンポーネント名1521と、種別1522と、ノードID1523と、状態1524と、監視状態1525と、共通設定1525とを、含む。
 コンポーネントID1520は、コンポーネントをコンピュータシステム内で一意に識別する情報である。コンポーネント名1521は、コンポーネントの名称である。種別1522は、コンポーネントの種別を示す。コンポーネント種別としては、例えば、マイクロプロセッサ、ハードディスクドライブ、仮想化機構(図中、VM)等がある。ノードID1523は、コンポーネントが所属するノードを特定する情報である。状態1524は、コンポーネントの状態を示す。コンポーネント状態には、正常と異常がある。監視状態1525は、コンポーネントの監視方法を示す。コンポーネントの監視方法としては、「監視」、「非監視」、「メンテナンス」の3種類を挙げることができる。共通設定1526は、メトリック共通設定を適用するか否かを示す情報である。
 図10は、メトリック共通設定テーブル153を示す。メトリック共通設定テーブル153は、各メトリックのタイプ毎に、設定値を管理する。メトリック共通設定テーブル153は、例えば、メトリックタイプ1530と、グラフ表示1531と、イベント通知1532と、警告閾値1533と、異常閾値1534とを含む。
 メトリックタイプ1530は、メトリックのタイプを示す情報である。メトリックのタイプとしては、例えば、「CPU稼働率」、「パケット受信量」、「パケット送信量」、「ディスク書込み負荷」、「ディスク読み出し負荷」等がある。グラフ表示1531は、メトリックに関する情報(性能情報)をグラフ表示するか否かを示すフラグである。グラフ表示する場合は「true」が設定され、グラフ表示しない場合は「false」が設定される。
 イベント通知1533は、イベント発生時に通知するか否かを示すフラグである。イベント通知する場合は「true」が設定され、イベント通知しない場合は「false」が設定される。
 警告閾値1533は、イベントとしての警告を出力するための閾値を示す。メトリックの値が警告閾値を超えた場合、または、下回った場合、警告が出力される。例えば、メトリックタイプがマイクロプロセッサ稼働率である場合、マイクロプロセッサ稼働率が80%を超えると、警告が出力される。さらに例えば、メトリックタイプがメモリ残量の場合、メモリ残量が1000MBを下回った場合に、警告が出力される。
 異常閾値1534は、他のイベントとしての異常警告を出力するための閾値を示す。異常警告は、通常の警告よりも緊急性が高い。メトリックの値が異常閾値を超えた場合、または、異常閾値を下回った婆、異常警告が出力される。上記の例では、マイクロプロセッサ稼働率が90%を超えると、異常警告が出力される。メモリ残量が500MBを下回った場合、異常警告が出力される。イベント通知1532が「false」に設定されている場合、警告閾値1533と異常閾値1534には値を設定できない。
 図11は、性能情報テーブル154を示す。性能情報テーブル154は、ノード及びコンポーネント(ITリソース)から収集された性能情報の管理方法を示す。性能情報テーブル154は、例えば、コンポーネントID1540と、メトリックID1541と、メトリックタイプ1542と、状態1543と、グラフ表示1544と、イベント通知1545とを含む。
 コンポーネントID1540は、性能情報の取得されたコンポーネントを特定する情報である。メトリックID1541は、コンポーネントから取得された性能情報を識別するための情報である。メトリックタイプ1542は、性能情報の種別を示す。状態1543は、性能情報が正常であるか異常であるかを示す。グラフ表示1544は、性能情報をグラフ表示するか否かを示す。イベント通知1545は、性能情報についてのイベントを通知するか否かを示す。
 図12は、スイッチポートテーブル155を示す。スイッチポートテーブル155は、スイッチ22の有する各通信ポート(スイッチポート)を管理するテーブルである。
 スイッチポートテーブル155は、例えば、ポートID1550と、コンポーネントID1551と、MACアドレス1552とを含む。ポートID1550は、各スイッチポートを識別するための情報である。コンポーネントID1551は、スイッチポートを有するコンポーネント(つまり、スイッチ22)を特定する情報である。MACアドレス1552は、スイッチポートに割り当てられているMAC(Media Access Control)アドレスを示す。
 図13は、LANポートテーブル156を示す。LANポートテーブル156は、サーバ21またはストレージ23の有する通信ポート(LANポート)を管理するためのテーブルである。なお、本実施例では、LANポートと呼ぶが、通信ネットワークの構成はLAN以外であってもよい。
 LANポートテーブル156は、例えば、ポートID1560と、コンポーネントID1561と、MACアドレス1562と、接続先のスイッチポートのMACアドレス1563とを含む。ポートID1560は、LANポートを識別するための情報である。コンポーネントID1561は、LANポートを有する装置(サーバまたはストレージ)を特定するための情報である。MACアドレス1562は、LANポートに割り当てられているMACアドレスを示す。接続先スイッチポートのMACアドレス1563は、LANポートの接続されるスイッチポートの有するMACアドレスである。なお、スイッチポートテーブル155に、スイッチポートが接続されているLANポートのMACアドレスを管理するための欄を設ける構成でもよい。その構成の場合は、LANポートテーブル156から、接続先スイッチポートのMACアドレス欄1563を取り除くことができる。
 図14は、仮想マシンテーブル157を示す。仮想マシンテーブル157は、仮想化機構213Aを管理するテーブルである。仮想マシンテーブル157は、例えば、仮想マシンID1570と、コンポーネントID1571と、仮想サーバ名1572と、ホストノードID1573とを含む。
 仮想マシンID1570は、各仮想マシン(つまり、仮想化機構)を識別するための情報である。コンポーネントID1571は、仮想マシンに割り当てられているコンポーネントIDを示す。仮想サーバ名1572は、仮想マシン上に設けられている仮想サーバを特定するための名称である。ホストノードID1573は、仮想マシンが設けられているホストを特定するための情報である。
 図15は、各コンポーネント毎に監視方法を設定でき、かつ、設定内容を後から変更することができる様子を示す。図15の上側に示すコンポーネント一覧画面G10(1)は、設定変更前の様子を示す。図15の下側に示す他のコンポーネント一覧画面G10(2)は、設定変更後の様子を示す。コンポーネント一覧画面G10(1),G10(2)は、ユーザインターフェース部110を介してユーザに提示される。コンポーネント一覧画面G10は、コンピュータシステム内の各コンポーネントの名称及び状態を一覧表示させるための画面である。
 画面G10(1)に示す例では、ユーザは、「コンポーネント1」の監視方法を変更すべく、「コンポーネント1」の状態を示す欄を右クリックし、メニューM10を表示させる。そのメニューM10には、監視方法として選択可能な3つの状態が表示される。なお、現在の監視方法は選択不能に表示させることができる。ここでは、「コンポーネント1」の現在の監視方法として「監視」が設定されており、ユーザは、監視方法を「監視」から「非監視」に変更する場合を説明する。以下の説明では、各テーブルのうち説明に関係する部分を抜き出して表示することがある。
 ユーザが監視方法を選択するためのメニューM10から「非監視」を選択すると、監視装置10は、コンポーネントテーブル152の監視状態1525を「非監視」に書き換えさせる。これにより、コンポーネント一覧画面G10(2)は、「コンポーネント1」の状態を「非監視」にして表示させる。
 図16は、障害を検知するための処理を示すフローチャートである。監視装置10は、各ITリソースの情報を情報取得部140を介して取得する(S20)。図中では、コンポーネント及びノードと示すが、ここでは、ITリソースと呼ぶ場合がある。監視装置10は、取得した情報と所定の閾値とを比較することにより、そのITリソースに障害が発生しているか否かを判定する(S21)。障害が発生していない場合(S21:NO)、本処理は終了する。
 障害が発生している場合(S21:YES)、監視装置10は、障害発生の検出されたITリソースに非監視モードが設定されているか否かを判定する(S22)。非監視モードが設定されている場合(S22:YES)、本処理は終了する。
 障害の発生しているITリソースに非監視モードが設定されていない場合(S22:NO)、監視装置10は、そのITリソースにメンテナンスモードが設定されているか否かを判定する(S23)。メンテナンスモードが設定されていない場合(S23:NO)、そのITリソースには監視モードが設定されているため、監視装置10は、障害の種類及び程度に応じたイベントをユーザに通知する(S24)。
 障害の検出されたITリソースにメンテナンスモードが設定されている場合(S23:YES)、監視装置10は、そのITリソースの状態が前回の状態から変化したか否かを判定する(S25)。メンテナンスモードに設定されているITリソースの状態が変更されていない場合(S25:NO)、本処理を終了する。
 メンテナンスモードに設定されている場合(S25:YES)、監視装置10は、メンテナンスモードを監視モードに切り替えさせて、本処理を終了する(S26)。なお、メンテナンス終了後に自動的にメンテナンスモードから監視モードに移行させる構成の場合、S25及びS26は不要となる。
 いずれにせよ、ITリソースがメンテナンスモードに設定されている場合、そのITリソースで検出される障害は、ユーザの予期している障害である。従って、監視装置10はイベントを通知しない。これにより、不要なイベントの通知が抑制され、ユーザの把握すべき重要なイベントにユーザの注意を集めることができる。
 図17は、メトリックの監視制御を示す。図17のテーブルは、メトリック監視制御の構成を示すための説明用テーブルであり、実際には存在せず、監視装置10内に記憶されていない。
 メトリックを監視するための方法は、性能情報を取得するか否かC100と、メトリック状態の判定を行うか否かC101との組合せによって異なる。その結果、ユーザへの通知内容C102も相違する。
 性能情報を取得する場合、メトリック状態を判定する、または、メトリック状態を判定しない、のいずれか一つを選択できる。メトリック状態を判定する場合、取得した性能情報と所定の閾値とを比較してメトリック状態が判定される。性能情報を取得してメトリック状態を判定する場合、監視装置10は、性能情報のグラフを表示し、さらに、イベントの発生をユーザに通知する。
 性能情報を取得するが、メトリック状態の判定を行わない場合、監視装置10は、性能情報のグラフを表示するが、イベントは通知しない。
 性能情報を取得しない場合、メトリック状態の判定を行うことはできない。監視装置10は、グラフ表示もイベント通知のいずれも行わない。性能情報を取得していないため、グラフを作成することも閾値と比較することもできないためである。
 図18は、メトリック共通設定画面G20を示す。この画面G20は、図17に示したメトリックの監視方法を複数のメトリックに適用するための画面である。
 メトリック共通設定画面G20は、例えば、グラフ表示欄GP20と、イベント通知欄GP21と、メトリックタイプ欄GP22と、警告閾値欄GP23と、異常閾値欄GP24とを含む。
 グラフ表示欄GP20がチェックされた場合は、グラフ表示を行うことを意味する。同様に、イベント通知欄GP21がチェックされた場合は、イベント通知が行われることを意味する。メトリックタイプ欄GP22は、メトリックのタイプを表示する。警告閾値欄GP23は、そのメトリックについて警告を発するための閾値を表示する。異常閾値欄GP24は、そのメトリックが異常である旨を発するための閾値を表示する。
 図18に示す例では、メトリックタイプ「タイプ1」の場合、グラフ表示及びイベント通知が行われる。さらも、「タイプ1」の場合、メトリックタイプに関する性能情報の値が80%を超えると警告が発せられ、90%を超えると異常警報が発せられる。
 メトリックタイプ「タイプ2」の場合、グラフ表示は行われるが、イベントは通知されない。なお、イベントは通知されないため、警告閾値欄GP23及び異常閾値欄GP24は空欄であってもよい。図18では、参考のために閾値を表示している。
 メトリックタイプ「タイプ3」の場合、グラフも表示されないし、イベントも通知されない。前記同様に、警告閾値欄GP23及び異常閾値欄GP24は空欄にすることができるが、便宜上、閾値の例を表示させている。
 メトリックタイプ1は、例えば、マイクロプロセッサ稼働率である。メトリックタイプ2は、例えば、メモリ残量である。メトリックタイプ3は、例えば、バケット受信量またはバケット送信量である。図18に示すように、本実施例では、メトリックの監視方法をメトリックタイプ毎に類型化しておき、ユーザによる設定の手間を軽減する。
 図19は、あるノードの全体にメトリック共通設定を適用する様子を示す。図19の下側には、監視ノード一覧画面G30が示されている。監視ノード一覧画面G30は、監視されている各ノードの状態等を一覧表示する画面である。監視ノード一覧画面G30は、例えば、ノード名欄GP30と、ノード種別欄GP31と、状態欄GP32と、性能欄GP33とを含む。
 ノード名欄GP30は、ノードの名称を表示する。ノード種別欄GP31は、ノードの種別を表示する。状態欄GP32は、ノードの状態が正常であるか異常であるかを表示する。性能欄GP33は、そのノードに関するメトリックの状態が正常であるか異常であるかを表示する。
 ユーザは、所望のノード(例えば、ノードID001のノード)を選択して右クリックする。これにより、メトリック共通設定を適用させるためのメニューM20が画面に表示される。ユーザがメトリック共通設定の適用を指示すると、メトリック共通設定テーブル153で定義されている設定内容(メトリックの監視制御の内容)が、選択されたノードの全体に適用される。ノードテーブル151では、ユーザにより選択されたノードの共通設定1515に「適用」と設定される。
 図20は、図19でメトリック共通設定がノード全体に適用された場合の、メトリック一覧画面G40を示す。図19の例では、ノードID001のノード全体に、メトリック共通設定が適用された。そのため、そのノードに含まれる複数のメトリックは、そのタイプ別に共通の値が設定される。
 メトリック一覧画面G40は、例えば、グラフ表示欄GP40と、イベント通知欄GP41と、メトリック名欄GP42と、状態欄GP43とを含む。グラフ表示欄GP40は、グラフ表示するか否かを示す。チェックマークが設定されている場合は、グラフ表示することを示す。イベント通知欄GP41は、イベントを通知するか否かを示す。チェックマークが設定されている場合、イベントを通知することを示す。メトリック名欄GP42は、メトリックの名称とメトリックタイプを示す。状態欄GP43は、メトリックが正常であるか否かを示す。
 図18にも示すように、メトリックタイプ1では、グラフ表示及びイベント通知を行い、メトリックタイプ2ではグラフ表示のみを行い、メトリックタイプ3ではグラフ表示もイベント通知も行わない。メトリック共通設定がノード全体に適用された場合、図20の画面G40に示すように、メトリックタイプ1のメトリック1及びメトリック4では、グラフ表示及びイベント通知が行われる。メトリックタイプ2のメトリック2及びメトリック5では、グラフ表示のみが行われる。メトリックタイプ3のメトリック3では、グラフ表示もイベント通知も行われない。
 このように、ユーザは、複数のメトリックを含むノードの全体について、一括して監視方法を設定することができ、使い勝手が向上する。さらに、ユーザは、メトリック共通設定の一部を手動で変更することもできる。
 例えば、メトリック5のグラフ表示を止めさせたい場合、ユーザは、メトリック5のグラフ表示欄GP40のチェックマークを外す(S30)。監視装置10は、性能情報テーブル154のうち、ユーザによりチェックマークの外されたメトリックIDに対応するグラフ表示1544の値を「false」に変更させる(S31)。
 このように、本実施例では、同一タイプの複数メトリックに、予め用意された共通の監視設定を一括して適用することができ、さらに、共通に設定された値の一部を、ユーザの好みに応じて変更させることができる。これにより、ユーザの使い勝手が向上する。
 図21は、性能情報の更新処理を示すフローチャートである。監視装置10は、性能情報テーブル154から、各メトリック毎のグラフ表示1544の設定値及びイベント通知1545の設定値を、それぞれ取得する(S40)。
 監視装置10は、各メトリックについてグラフ表示が設定されているか否かを判定する(S41)。監視装置10は、グラフの表示が設定されているメトリックについて(S41:YES)、その最新の性能情報を記憶させる(S42)。
 監視装置10は、イベントの通知が設定されているか否かを判定する(S43)。イベントを通知することが設定されている場合(S43:YES)、性能情報と閾値とを比較してメトリック状態を判定する(S44)。メトリック状態が正常の場合(S45:YES)、本処理を終了する。メトリック状態が異常の場合(S45:NO)、監視装置10は、イベントを通知させる(S46)。
 図22は、イベント発生をユーザに通知するための画面G50を示す。イベント一覧画面G50は、コンピュータシステム内で発生した一つまたは複数のイベントを、一覧形式で表示する。イベント一覧画面G50は、例えば、状態欄GP50と、イベント欄GP51と、リソース欄GP52とを含む。
 状態欄GP50は、メトリックが正常であるか異常であるかを示す。イベント欄GP51は、イベントの内容を示す。リソース欄GP52は、イベントの発生したリソース(ノード、コンポーネント)を示す。
 ユーザは、イベント一覧画面G50を見ることにより、コンピュータシステム内のどこでどのようなイベントが生じているのかを容易に確認することができる。上述の通り、リソースの監視方法が非監視モードまたはメンテナンスモードのいずれかに設定されている場合、そのリソースで障害が発見された場合でも、イベント一覧画面G50には表示されない。非監視モードまたはメンテナンスモードに設定されているITリソースで生じる障害は、予定された障害であり、ユーザはその障害発生を明確に認識しているためである。従って、イベント一覧画面G50には、ユーザが明確に認識していないイベントのみが表示される。
 図23は、グラフ表示処理を示すフローチャートである。監視装置10は、性能情報テーブル154からグラフ表示1544の設定値及びイベント通知の設定値をそれぞれ取得する(S50)。
 イベントの通知が設定されている場合(S51:YES)、監視装置10は、閾値を示す線をグラフに表示させる(S52)。イベントを通知しない場合(S51:NO)、または、閾値を示す線をグラフに表示させた場合(S52)、監視装置10は、グラフ表示が設定されているか否かを判定する(S53)。グラフの表示が設定されている場合(S53:YES)、監視装置10は、性能情報の時間変化を示すグラフを作成し、ユーザインターフェース部110から出力させる(S54)。
 図24は、性能情報のグラフ表示を示す。図24では、メトリック1からメトリック5までの5種類のメトリックの状態を表示可能な場合を示している。メトリック1,4は、イベント通知及びグラフ表示の両方が指定されている。従って、それらメトリック1,4のグラフGP60,GP63では、閾値Thを示す線と、性能情報の時間変化を示す線とが同時に表示される。メトリック2では、グラフ表示のみが指定されているため、メトリック2のグラフGP61では、性能情報の時間変化を示す線のみが表示され、閾値を示す線は表示されない。
 これに対し、メトリック3,5では、グラフ表示もイベント通知も行われない設定になっている。従って、メトリック3,5に対応するグラフGP62,GP64では、閾値Thを示す線も性能情報の時間変化を示す線もいずれも表示されない。
 このように、本実施例では、複数の監視対象のメトリックが設定されている場合、グラフ表示の設定がされているメトリックのみグラフ化される。さらに、イベント通知が設定されているメトリックのグラフにのみ、閾値を示す線が重ねて表示される。ユーザは、メトリック別のグラフ表示画面G60を見ることにより、監視対象のメトリックが何であるか、それら各メトリックの状態がどうなっているか、閾値はどのように設定されているか等を比較的簡単に把握することができる。
 図25は、コンポーネントの監視制御とメトリックの監視制御との組合せ方法を示す説明図である。図25に示すテーブルは、監視制御の組合せを説明するために用いられるもので、監視装置10が実際に備えているテーブルではない。
 コンポーネントの監視制御方法には、上述の通り、監視モード、非監視モード、メンテナンスモードの3種類がある。メンテナンスモードは、一時的に正常であると見せかけるモードであり、その動作は監視モードと同一であるため、図25では、監視モードの中にメンテナンスモードを含めている。
 メトリックの監視制御方法では、図17で述べたように、グラフ表示するか否か(つまり、性能情報を取得するか否か)と、イベントを通知するか否かとを選択できる。その結果、メトリックを監視する方法としては、(グラフ表示する、イベントを通知する)、(グラフ表示する、イベント通知しない)、(グラフ表示しない、イベント通知しない)の3つがある。上述の通り、(グラフ表示しない、イベント通知する)という組合せは存在しない。イベントが発生したか否かを判断するための性能情報が取得できないため、その組合せは存在しない。
 (グラフ表示する、イベントを通知する)の場合、監視モード及びメンテナンスモードでは、グラフが表示され、かつ、イベントが通知される。正確にはメンテナンスモードの場合はイベント通知されないが、メンテナンス作業の終了によって監視モードに移行すると、グラフが表示され、かつ、イベントが通知される。
 (グラフ表示する、イベントを通知する)の場合、非監視モードでは、グラフは表示されるが、イベントは通知されない。つまり、メトリック状態の変化は計測されるが、警報は出力されない。
 (グラフ表示する、イベント通知しない)の場合、監視モード及びメンテナンスモードでは、グラフは表示されるがイベントは通知されない。
 (グラフ表示する、イベント通知しない)の場合、非監視モードでも同様に、グラフは表示されるがイベントは通知されない。
 (グラフ表示しない、イベント通知しない)の場合、監視モード、メンテナンスモード及び非監視モードのいずれでも、グラフは表示されず、イベントも通知されない。
 図26は、コンポーネント全体の監視方法とそのコンポーネントに含まれる複数メトリックの監視方法との関係を示す。図26(a)に示すように、あるコンポーネントの監視方法を監視モードに設定する。図25で示したように、監視モードの場合、グラフ表示され、かつ、イベント通知されることになる。従って、そのコンポーネントに含まれる各メトリックには、コンポーネントの監視方法に応じて、(グラフ表示する、イベント通知する)という値に設定される。
 図26(b)に示すように、ユーザは、一部のメトリックについての監視方法をコンポーネントの監視方法と異ならせることができる。図20で述べたように、ユーザは、メトリック一覧画面G40において、所望のメトリックのグラフ表示欄GP40またはイベント通知欄GP41のチェックマークを付けたり、あるいは、外したりするだけで、所望の監視方法に変更することができる。
 本実施例は上述のように構成されるため、以下の効果を奏する。本実施例では、各ITリソース毎に監視方法を設定できるため、状況に応じた監視方法を設定することができ、これにより、ユーザの使い勝手が向上する。
 図27は、意図的な作業における障害検知の様子を示す。図27では、未使用のコンポーネントをノードから取り外す場合を説明する。図27(a)に示すように、あるノードにコンポーネント1,コンポーネント2が含まれており、いずれのコンポーネント1,2も監視されているものとする。一つのコンポーネント2は使用されていないため、ユーザは、その未使用コンポーネント2の意図的な切り離しを試みるものとする。もしも、ノードと2つのコンポーネントの全てについて一つの監視方法のみを適用可能な構成である場合、コンポーネント2の意図的な切り離しは、障害の発生として検出される。
 これに対し、図27(b)に示すように、ユーザは、切り離し予定のコンポーネント2の監視方法を非監視モードに事前に変更しておくことにより、そのコンポーネント2の監視を停止させることができる。従って、未使用のコンポーネント2をノードから切り離した場合でも、障害として検出されない。
 図28は、メンテナンス作業の場合を示す。図28(a)に示すように、ノードと2つのコンポーネント1,2が監視されている場合において、ユーザが、コンポーネント2のメンテナンス作業を行うと、障害発生として検出される場合がある。例えば、ユーザがコンポーネント2をノードから取り外したり、コンポーネント2への通電を停止したりするような場合である。
 図28(b)に示すように、ユーザは、メンテナンス対象のコンポーネント2の監視方法を、メンテナンス作業の開始前にメンテナンスモードに変更できる。メンテナンスモードの場合、強制的に正常であると見なされるため、障害として検出されない。メンテナンス作業が終了すると、コンポーネント2の状態が変化する。従って、コンポーネント2の監視方法は、メンテナンスモードから監視モードに自動的に切り替わる。
 図28(c)に示すように、コンポーネント2のメンテナンス後に障害が発生した場合、その障害は検出されてユーザに通知される。
 このように本実施例では、ユーザの予め認識している障害が検出されるのを防止して、ユーザの認識していない真の障害のみをユーザに通知することができ、監視の信頼性及びユーザの使い勝手が向上する。
 さらに、本実施例では、メンテナンス作業用のメンテナンスモードを用意しており、かつ、メンテナンス作業の終了後にはメンテナンスモードから監視モードに自動的に切り替わるように構成している。従って、メンテナンス作業中に、無駄な警報が出力されるのを防止でき、メンテナンス作業の効率を高めることができる。さらに、メンテナンス作業後に、メンテナンスモードから監視モードに手動で切り替える必要がなく、ユーザの使い勝手が向上する。さらに、メンテナンス作業後に発生する障害を検出できるため、監視装置の信頼性が向上する。
 図29-図36を参照して第2実施例を説明する。本実施例は、第1実施例の変形例に該当する。従って、第1実施例との相違点を中心に説明する。本実施例では、互いに関連するITリソース間において、一方のITリソースの監視方法が変更された場合には、それに追従させて、他方のITリソースの監視方法を変更させる。本実施例では、互いに関連するITリソースとして、ゲストOSと仮想化機構の組合せ、および、ホストOSとゲストOSの組合せを例に挙げて説明する。
 図29(a)に示すように、ノードであるホストOS212には、コンポーネントとしての仮想化機構213が設けられている。仮想化機構213には、他のノードとしてのゲストOS214が設けられる。
 図29(b)に示すように、ゲストOS214を非監視モードにした後で停止させた場合、ゲストOS214が設けられている仮想化機構213の状態も変化する。仮想化機構213が監視モードに設定されている場合、ゲストOS214の停止によって、ホストOS212のコンポーネントである仮想化機構213に障害が発生したと判断される。
 図29(c)に示すように、本実施例では、ゲストOS214を非監視モードに切り替えた場合に、ゲストOS214に関連する仮想化機構213も自動的に非監視モードに切り替えさせる。これにより、本実施例では、ゲストOS214を停止させる場合に、仮想化機構213について障害が検出されるのを防止できる。
 図30は、監視状態(監視方法)を変更させる処理のフローチャートである。本処理では、ノードの監視状態の変更にコンポーネントの監視状態を追従させる場合を例に挙げて説明する。
 ユーザがノードの監視状態を変更すると、監視装置10は、変更対象ノードの監視状態を、ノードテーブル151において更新させる(S60)。以下、監視状態の変更されたノードを対象ノードと略記する場合がある。対象ノードは、「第1監視対象オブジェクト」に相当する。
 監視装置10は、対象ノードがホストOS212であるか否かを判定する(S61)。対象ノードがホストOS212ではない場合(S61:NO)、監視装置10は、対象ノードに対応するレコードが仮想マシンテーブル157内に存在するか否かを判定する(S62)。ここでは、ゲストOS214が対象ノードである場合を説明しているので、S62ではYESと判定される。
 監視装置10は、仮想マシンテーブル157から、対象ノードに関連するコンポーネントID1571を取得する(S62)。対象ノードに関連するコンポーネント(ここでは、ゲストOS)は、「第2監視対象オブジェクト」に該当する。監視装置10は、取得したコンポーネントIDがコンポーネントテーブル152に登録されているか否かを判断する(S63)。
 仮想マシンテーブル157から取得されたコンポーネントIDがコンポーネントテーブル152に登録されている場合(S63:YES)、監視装置10は、コンポーネントテーブル152において、そのコンポーネントID1520に設定されている監視状態1525を、S60で変更された対象ノード(ゲストOS214)の監視状態に一致させる(S65)。
 なお、対象ノードに対応するレコードが仮想マシンテーブル157内に存在しない場合(S62:NO)、または、仮想マシンテーブル157から取得されるコンポーネントIDがコンポーネントテーブル152に登録されていない場合(S64:NO)、のいずれかである場合、本処理は終了する。
 対象ノードがホストOS212である場合(S61:YES)、「ノード間で監視状態を連動させる処理」に移行する(S66)。S66の処理の詳細は後述する。
 図31は、図30中のS66の詳細を示すフローチャートである。ホストOS212の監視状態が変更される場合に、図31の処理が行われる。監視装置10は、ノードテーブル151を参照することにより、監視状態の変更されるホストOS212上に設けられているゲストOS214を特定する(S660)。
 監視装置10は、特定されたゲストOS214を「対象ノードに関連するノード」として、ユーザインターフェース部110に出力させる(S661)。ユーザは、ユーザインターフェース部110に表示されたゲストOS214の中から、ホストOS212の監視状態の変更に追従させる、ゲストOS214を選択する。
 監視装置10は、ユーザによってゲストOS214が選択されると(S662:YES)、選択されたゲストOS214の監視状態をホストOS212の監視状態に一致させる(S663)。
 図32は、対象ノードに関連するノード(以下、関連ノード)を選択するための画面G70を示す。画面G70の上側には、変更対象のノードを表示するための対象ノード欄GP70が設けられている。
 対象ノード欄GP70の下側には、対象ノードに関連する関連ノードを表示するための関連ノード表示欄GP71,GP72が設けられている。ユーザは、所望の関連ノードを選択してチェックマークを設定することにより、対象ノードの監視状態の変更に追従させる関連ノードを選択することができる。ユーザがOKボタンを押すと、監視装置10は、選択された関連ノード(ゲストOS)の監視状態を、対象ノード(ホストOS)の監視状態に一致させる(S663)。
 このように構成される本実施例も、各ITリソース毎に監視状態を個別に設定することができるため、第1実施例と同様の作用効果を奏する。さらに、本実施例では、関連するITリソース間において、一方のITリソースの監視状態が変更される場合、他方のITリソースの監視状態を一方のITリソースの監視状態に一致させる。従って、本実施例では、不要な警報が出力されるのをより一層低減することができ、ユーザの使い勝手が向上する。ユーザは、関連するITリソースを手動で検出して、その監視状態を手作業で変更する必要がないため、ユーザの使い勝手がさらに向上する。
 なお、関連ノードの探索方法として複数方法がある。そこで、図33-図36を参照して、本実施例の変形例を説明する。
 図33は、関連ノードを探索する方法を選択するための画面G80を示す。探索方法選択画面G80には、複数の探索方法GP80-GP83が表示される。ユーザは、いずれか一つの探索方法を選択してOKボタンを操作する。
 第1の探索方法GP80は、対象ノードの直下に位置する他のノードを検索する方法である。探索方法は、例えば、監視状態を連動させるための候補を抽出するための抽出方法と呼ぶこともできる。
 第2の探索方法GP81は、対象ノードの直下に位置する他のノードだけでなく、対象ノードに繋がる全ての階層の他ノードを探索する方法である。
 第3の探索方法GP82は、コンピュータシステム内の全ての他ノードを探索する方法である。
 第4の探索方法GP83は、対象ノードの監視状態と他ノードの監視状態とを連動させない方法である。第3の探索方法及び第4の探索方法は、正確には、関連ノードを探索する方法ではないが、便宜上、関連ノードを探索するための方法の一種として扱う。
 図34は、上述の各探索方法による探索範囲の相違を模式的に示す。対象ノードは、「ホストOS1」であるとする。第1探索方法では、ホストOS1の直下に位置する、各仮想化機構VM1,VM2と、各ゲストOS1,ゲストOS2とが抽出される。ユーザは、VM1,VM2,ゲストOS1,ゲストOS2の中から選択し、監視状態をホストOS1に連動させる。
 第2探索方法では、ホストOS1に直接関連するノード以外に、直下の関連ノードが関連するノードも抽出される。図34の場合は、一方のゲストOS1に接続されている一方の関連ノード1と、他方のゲストOS2に接続されている他方の関連ノード2とが、抽出される。関連ノードの具体例としては、スイッチ22またはストレージ23等を挙げることができる。
 第3探索方法では、コンピュータシステム内の全てのノードが探索される。図示の例では、他のホストOS2,仮想化機構VM3,VM4,ゲストOS3,ゲストOS4,スイッチ22,ストレージ23も抽出される。
 第4探索方法では、対象ノードの監視状態の変更に連動させるノードを設定しないため、一つも抽出されない。
 図35は、第2探索方法による選択画面G90を示す。なお、第1探索方法による選択画面は、図32に示す通りである。第2探索方法を実現するための選択画面G90では、対象ノードを示す対象ノード欄GP90の下側に、対象ノードの直下に位置する各関連ノードを表示するための関連ノード表示欄GP91,GP93が設けられている。
 さらに、各関連ノード表示欄GP91,GP93の下側には、関連ノードに関連する他の関連ノードを表示するための、他の関連ノード表示欄GP92,GP94が設けられている。
 図36は、第3探索方法による選択画面G100を示す。この選択画面G100では、対象ノードに関連する一つのノード群と、対象ノードと全く関係しない他のノード群とが全て表示される。
 対象ノードに着目すると、選択画面G100には、対象ノード表示欄GP100と、対象ノードの直下に位置する関連ノードを示す欄GP101,GP103と、それら関連ノードに関連する他の関連ノードを示す欄GP102,GP104とが設けられる。
 対象ノードに関係ない他のノードに着目すると、選択画面G100には、他のノードGP105-GP109も設けられる。初期設定では、画面G100に表示される全てのノードにチェックマークが設定されている。ユーザは、例えば、不要と考えるノードのチェックマークを外すこともできる。
 図37,図38を参照して第3実施例を説明する。本実施例では、スイッチとスイッチポートとの間で、監視状態を連動させる場合を説明する。図37は、監視状態を変更させる処理を示すフローチャートである。図38は、スイッチの監視状態を非監視モードに変更した場合に、そのスイッチの有する各スイッチポートの監視状態も非監視モードに変更される様子を示す。
 図37のフローチャートを説明する。監視装置10は、ユーザによって対象ノードの監視状態が変更されると、ノードテーブル151に登録されている、対象ノードの監視状態1514を、ユーザ操作に応じて更新させる(S70)。
 監視装置10は、監視状態の変更対象であるノードの種別がスイッチであるか否かを判定する(S71)。ここでは、対象ノードがスイッチである場合を説明しているので、S71ではYESと判定される。
 監視装置10は、図38に示すように、コンポーネントテーブル152を参照し(S72)、スイッチが備えているスイッチポートを全て特定する(S73)。監視装置10は、S73で特定された全てのスイッチポートの監視状態を、スイッチの監視状態に一致させる(S74)。このように構成される本実施例も、前記第2実施例と同様の作用効果を奏する。
 図39,図40を参照して第4実施例を説明する。本実施例では、互いに接続された通信ポート間において、監視状態を連動させる場合を説明する。図39は、監視状態を変更させる処理のフローチャートを示す。図40は、一方の通信ポートの監視状態が非監視状態に変更された場合に、一方の通信ポートに接続されている他方の通信ポートの監視状態も非監視状態に変更される様子を示す。
 図39のフローチャートを説明する。監視装置10は、ユーザにより対象コンポーネントの監視状態が変更されると、コンポーネントテーブル152において、対象コンポーネントの監視状態1525を非監視モードに変更する(S80)。
 監視装置10は、対象コンポーネントがスイッチポートであるか否かを判定する(S81)。ここでは、スイッチポートとLANポートの間で監視状態を連動させる場合を説明しているため、S81ではYESと判定される。
 監視装置10は、図40に示すように、スイッチポートテーブル155から、対象コンポーネントであるスイッチポートのMACアドレスを取得する(S82)。監視装置10は、LANポートテーブル156を参照し、スイッチポートのMACアドレスに対応するMACアドレスを有するLANポートのコンポーネントIDを取得する(S83)。
 監視装置10は、相手方のコンポーネント(ここでは、LANポートである)の監視状態を、対象コンポーネント(ここでは、スイッチポートである)の監視状態に一致させる(S84)。このように構成される本実施例も、第2実施例と同様の効果を奏する。
 なお、本発明は、上述した実施形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。ストレージとストレージを構成するコンポーネントの間で監視状態を変更することができる。
 1:管理システム、2A:サーバ、2B:スイッチ、2C:ストレージ、3:マイクロプロセッサ、3A:監視方法設定部、3B:情報取得部、3C:監視部、3D:監視方法変更部3D、2A1,2B1,2B2,2C1:通信ポート、2A2:仮想化機構(VM)、2A3:仮想マシン、2C2:マイクロプロセッサ、2C3:ハードディスクドライブ、4:メモリ、5:通信インターフェース、6:ユーザインターフェース、10:監視装置、21A,21B:サーバ、22:スイッチ、23:ストレージ、110:ユーザインターフェース部、120:データベース処理部、130:制御部、140:情報取得部、150:データベース、210A,210B:通信ポート、211A,211B:マイクロプロセッサ、212,212A:ホストOS、213,213A:仮想化機構、214,214A:ゲストOS、215B:ハードディスクドライブ、220:スイッチポート、230:通信ポート、231:マイクロプロセッサ、232:ハードディスクドライブ。

Claims (15)

  1.  マイクロプロセッサと、
     前記マイクロプロセッサにより読み出されて実行されるプログラムを記憶するためのメモリと、
     前記マイクロプロセッサが各監視対象オブジェクトと通信するための通信インターフェースと、
     前記マイクロプロセッサがユーザとの間で情報を交換するためのユーザインターフェースと、
    で構成する管理システムであって、
     前記マイクロプロセッサは、前記プログラムを読み込んで実行することにより、
       前記各監視対象オブジェクト毎に監視方法を設定する監視方法設定部と、
       前記通信インターフェースを介して前記各監視対象オブジェクトから情報を取得する情報取得部と、
       前記各監視方法と前記各監視対象オブジェクトから取得される情報とに基づいて、前記各監視対象オブジェクトを監視し、それら監視結果を前記ユーザインターフェースを介して出力させる監視部と、
       前記各監視対象オブジェクトに含まれる第1監視対象オブジェクトに設定された監視方法が変更される場合には、前記各監視対象オブジェクトに含まれる、前記第1監視対象オブジェクトに関連する第2監視対象オブジェクトに設定された監視方法を、前記変更に追従して変更させるための、監視方法変更部と、
    をそれぞれ実現させる、
    ことを特徴とした管理システム。
     
  2.  前記監視方法には、前記監視対象オブジェクトから取得される前記情報に基づいて所定の通知を出力するか否かを判定するための通知設定が含まれており、
     前記監視方法変更部は、前記第1監視対象オブジェクトについての通知設定が変更された場合、前記第2監視対象オブジェクトについての通知設定を、前記第1監視対象オブジェクトについての前記通知設定に一致させる、
    請求項1に記載の管理システム。
     
  3.  前記監視方法変更部は、前記各監視対象オブジェクトの中から前記第1監視対象オブジェクトに関連する監視対象オブジェクトを前記第2監視対象オブジェクトの候補として検索し、検索された前記候補の中からユーザにより選択される監視対象オブジェクトを、前記第2監視対象オブジェクトとする、
    請求項2に記載の管理システム。
     
  4.  前記監視方法変更部は、
      前記各監視対象オブジェクトのうち前記第1監視対象オブジェクトに直接関連する監視対象オブジェクトを前記候補として検索するか、あるいは、
      前記各監視対象オブジェクトのうち前記第1監視対象オブジェクトに直接関連する監視対象オブジェクト及び当該監視対象オブジェクトに直接関連する監視対象オブジェクトの両方を前記候補として検索するようになっている、
    請求項3に記載の管理システム。
     
  5.  前記複数の監視対象オブジェクトには、ホストマシンと、前記ホストマシン上で作動する仮想化機構により生成される仮想マシンとが含まれており、
     前記第1監視対象オブジェクトは前記ホストマシンであり、
     前記第2監視対象オブジェクトは前記仮想マシンであり、
     前記監視方法変更部は、前記ホストマシンについての前記第1通知設定が前記所定の通知を出力しない設定に変更された場合、前記仮想マシンについての前記第2通知設定を前記所定の通知を出力しない設定に変更させる、
    請求項2に記載の管理システム。
     
  6.  前記複数の監視対象オブジェクトには、ホストマシンと、前記ホストマシン上で作動し、仮想マシンを生成するための仮想化機構とが含まれており、
     前記第1監視対象オブジェクトは前記仮想マシンであり、
     前記第2監視対象オブジェクトは前記仮想化機構であり、
     前記監視方法変更部は、前記仮想マシンについての前記第1通知設定が前記所定の通知を出力しない設定に変更された場合、前記仮想化機構についての前記第2通知設定を前記所定の通知を出力しない設定に変更させる、
    請求項2に記載の管理システム。
     
  7.  前記複数の監視対象オブジェクトには、通信ポートを有するスイッチ装置が含まれており、
     前記第1監視対象オブジェクトは前記スイッチ装置であり、
     前記第2監視対象オブジェクトは前記通信ポートであり、
     前記監視方法変更部は、前記スイッチ装置についての前記第1通知設定が前記所定の通知を出力しない設定に変更された場合、前記通信ポートについての前記第2通知設定を前記所定の通知を出力しない設定に変更させる、
    請求項2に記載の管理システム。
     
  8.  前記複数の監視対象オブジェクトには、通信ポートを有するスイッチ装置と、前記通信ポートに接続される他の通信ポートを有する他の装置とが含まれており、
     前記第1監視対象オブジェクトは前記通信ポートであり、
     前記第2監視対象オブジェクトは前記他の通信ポートであり、
     前記監視方法変更部は、前記通信ポートについての前記第1通知設定が前記所定の通知を出力しない設定に変更された場合、前記他の通信ポートについての前記第2通知設定を前記所定の通知を出力しない設定に変更させる、
    請求項2に記載の管理システム。
     
  9.  前記監視方法には、
      前記監視対象オブジェクトの状態を、前記情報取得部により取得される情報を介して監視し、障害が検出された場合は前記所定の通知を出力させる第1モードと、
      前記監視対象オブジェクトの状態を監視しない第2モードと、
      前記監視対象オブジェクトの現在の状態が正常であるか否かを問わずに、正常であると判定する第3モードとが含まれている、
    請求項2に記載の管理システム。
     
  10.  前記第3モードは、前記監視対象オブジェクトの状態が変更された場合には、前記第1モードに移行するようになっている、
    請求項9に記載の管理システム。
     
  11.  前記複数の監視対象オブジェクトには、複数のノード装置と、前記各ノード装置の一部を構成するコンポーネント装置とが含まれており、
     前記監視方法では、
      前記各コンポーネント装置の有する複数の属性のうち所定の属性の状態に関する情報を前記情報取得部を介して取得するか否かと、
      前記所定の属性の状態に関する情報と所定の閾値とを比較することにより、前記所定の属性の状態を判定するか否かと、
    を前記各コンポーネント装置毎に設定することができる、
    請求項2に記載の管理システム。
     
  12.  監視対象となる監視対象オブジェクトを監視する管理システムを制御するための方法であって、
     前記コンピュータシステムは、前記監視対象オブジェクトを複数含み、
     前記各監視対象オブジェクト毎に監視方法を設定し、
     前記各監視対象オブジェクトから情報を取得し、
     前記各監視方法と前記各監視対象オブジェクトから取得される情報とに基づいて、前記各監視対象オブジェクトを監視し、
     監視結果を前記ユーザインターフェースを介して出力させ、
     前記各監視対象オブジェクトに含まれる第1監視対象オブジェクトに設定された監視方法が変更されたか否かを判定し、
     前記第1監視対象オブジェクトの監視方法が変更された場合には、前記各監視対象オブジェクトの中から、前記第1監視対象オブジェクトに関連する第2監視対象オブジェクトを検出し、
     前記第2監視対象オブジェクトに設定された監視方法を、前記第1監視対象オブジェクトの監視方法に一致させる、
    管理システムの制御方法。
     
  13.  コンピュータシステムの状態を監視する管理システムを制御する方法であって、
     前記コンピュータシステムは、監視対象となる監視対象オブジェクトを複数含み、
     前記各監視対象オブジェクトを監視するための監視方法は、前記監視対象オブジェクトに障害が検出された場合は所定の通知を出力させる第1モードと、前記監視対象オブジェクトの状態を監視しない第2モードと、前記監視対象オブジェクトの現在の状態が正常であるか否かを問わずに、正常であると判定する第3モードとが含まれており、
     前記各監視対象オブジェクト毎に、前記監視方法の有する複数のモードの中からいずれか一つのモードを設定し、
     前記各監視対象オブジェクトから情報を取得し、
     前記設定されたモードと前記各監視対象オブジェクトから取得される情報とに基づいて、前記各監視対象オブジェクトを監視し、
     監視結果を出力させる、
    管理システムの制御方法。
     
  14.  前記第3モードは、前記監視対象オブジェクトの状態が変更された場合に、前記第1モードに移行するようになっている、
    請求項13に記載の管理システムの制御方法。
     
  15.  前記複数の監視対象オブジェクトには、複数のノード装置と、前記各ノード装置の一部を構成するコンポーネント装置とが含まれており、
     前記監視方法では、
      前記各コンポーネント装置の有する複数の属性のうち所定の属性の状態に関する情報を取得するか否かと、
      前記所定の属性の状態に関する情報と所定の閾値とを比較することにより、前記所定の属性の状態を判定するか否かと、
    を前記各コンポーネント装置毎に設定することができる、
    請求項14に記載の管理システムの制御方法。
PCT/JP2010/000960 2010-02-16 2010-02-16 管理システム及び管理システムの制御方法 WO2011101887A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2010/000960 WO2011101887A1 (ja) 2010-02-16 2010-02-16 管理システム及び管理システムの制御方法
US12/742,897 US8555189B2 (en) 2010-02-16 2010-02-16 Management system and management system control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/000960 WO2011101887A1 (ja) 2010-02-16 2010-02-16 管理システム及び管理システムの制御方法

Publications (1)

Publication Number Publication Date
WO2011101887A1 true WO2011101887A1 (ja) 2011-08-25

Family

ID=44482513

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/000960 WO2011101887A1 (ja) 2010-02-16 2010-02-16 管理システム及び管理システムの制御方法

Country Status (2)

Country Link
US (1) US8555189B2 (ja)
WO (1) WO2011101887A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081428A (ja) * 2016-11-15 2018-05-24 沖電気工業株式会社 監視装置、監視プログラム、及び監視方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198299A (ja) * 2010-03-23 2011-10-06 Fujitsu Ltd プログラム、コンピュータ、通信装置および通信制御システム
US20120266094A1 (en) * 2011-04-15 2012-10-18 Kevin Dale Starr Monitoring Process Control System
JP5846455B2 (ja) * 2011-04-22 2016-01-20 日本電気株式会社 ポリシー記述支援システム及びポリシー記述支援方法
US9383891B2 (en) * 2012-03-28 2016-07-05 Skytap Methods and systems for an intermediate graphical desktop sharing protocol
US9383901B1 (en) * 2012-12-28 2016-07-05 Juniper Networks, Inc. Methods and apparatus for navagating data center using advanced visualization
EP2987281B1 (en) * 2013-04-17 2020-09-09 Systech Corporation Gateway device for machine-to-machine communication with dual cellular interfaces
US9686581B2 (en) 2013-11-07 2017-06-20 Cisco Technology, Inc. Second-screen TV bridge
US10222935B2 (en) 2014-04-23 2019-03-05 Cisco Technology Inc. Treemap-type user interface
US10372520B2 (en) 2016-11-22 2019-08-06 Cisco Technology, Inc. Graphical user interface for visualizing a plurality of issues with an infrastructure
US10739943B2 (en) 2016-12-13 2020-08-11 Cisco Technology, Inc. Ordered list user interface
US10862867B2 (en) 2018-04-01 2020-12-08 Cisco Technology, Inc. Intelligent graphical user interface
US11514407B2 (en) * 2020-01-15 2022-11-29 EMC IP Holding Company LLC System and method for asset management
US11513817B2 (en) * 2020-03-04 2022-11-29 Kyndryl, Inc. Preventing disruption within information technology environments
US11979947B2 (en) 2020-05-04 2024-05-07 Systech Corporation Dual channel gateway device for machine-to-machine communication

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123711A (ja) * 1994-10-28 1996-05-17 Pfu Ltd 保守ガイダンス機能付き情報処理装置
JP2006058938A (ja) * 2004-08-17 2006-03-02 Hitachi Ltd ポリシルール管理支援方法およびポリシルール管理支援装置
JP2009265785A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd コンピュータシステムを監視する装置及び方法
JP2010009411A (ja) * 2008-06-27 2010-01-14 Hitachi Information Systems Ltd 仮想化環境運用支援システム及び仮想環境運用支援プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353269B2 (en) * 2000-12-21 2008-04-01 Fujitsu Limited Network monitoring system
US6941367B2 (en) * 2001-05-10 2005-09-06 Hewlett-Packard Development Company, L.P. System for monitoring relevant events by comparing message relation key
JP2007087266A (ja) 2005-09-26 2007-04-05 Hitachi Ltd ストレージシステムおよびストレージ装置
JP4837445B2 (ja) 2006-06-06 2011-12-14 株式会社日立製作所 記憶システム並びに管理装置及び方法
EP1950639B1 (de) 2007-01-23 2013-05-29 Siemens Aktiengesellschaft Verfahren zum Betreiben einer Prozessanlage, Prozessanlage und Computerprogrammprodukt
JP2009187230A (ja) 2008-02-06 2009-08-20 Hitachi Ltd サーバの監視装置
US9225610B2 (en) 2008-03-31 2015-12-29 Hitachi, Ltd. User interface providing information system topology presentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123711A (ja) * 1994-10-28 1996-05-17 Pfu Ltd 保守ガイダンス機能付き情報処理装置
JP2006058938A (ja) * 2004-08-17 2006-03-02 Hitachi Ltd ポリシルール管理支援方法およびポリシルール管理支援装置
JP2009265785A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd コンピュータシステムを監視する装置及び方法
JP2010009411A (ja) * 2008-06-27 2010-01-14 Hitachi Information Systems Ltd 仮想化環境運用支援システム及び仮想環境運用支援プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081428A (ja) * 2016-11-15 2018-05-24 沖電気工業株式会社 監視装置、監視プログラム、及び監視方法

Also Published As

Publication number Publication date
US8555189B2 (en) 2013-10-08
US20120005609A1 (en) 2012-01-05

Similar Documents

Publication Publication Date Title
WO2011101887A1 (ja) 管理システム及び管理システムの制御方法
JP4294353B2 (ja) ジョブ管理機能を有するストレージ系障害管理方法及び装置
JP4202709B2 (ja) ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法
JP4130615B2 (ja) ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP5385459B2 (ja) 管理システム及び計算機システムの管理方法
US8984220B1 (en) Storage path management host view
US20100332661A1 (en) Computer System and Its Operation Information Management Method
JP4596889B2 (ja) ストレージシステムの管理方法
JPWO2006043308A1 (ja) 運用管理プログラム、運用管理方法および運用管理装置
WO2012120634A1 (ja) 管理計算機、ストレージシステム管理方法、及び、ストレージシステム
JP2010003061A (ja) 計算機システム及びそのi/o構成変更方法
US8520533B1 (en) Storage path management bus view
US8423665B2 (en) Multi-host management server in storage system, program for the same and path information management method
CN103746855A (zh) 电信云中异常事件的处理方法及装置
WO2015023286A1 (en) Reactive diagnostics in storage area networks
US9021078B2 (en) Management method and management system
JP2004088570A (ja) ネットワーク計算機システムおよび管理装置
JP2010128597A (ja) 情報処理装置及び情報処理装置の運用方法
US8751698B1 (en) Storage path management host agent
JP2016012179A (ja) 管理支援方法,管理支援装置及び管理支援プログラム
JP5313465B2 (ja) ネットワーク管理プログラム及びネットワーク管理方法
JP2000040021A (ja) 監視表示システム及び記録媒体
JP5821471B2 (ja) 情報処理装置、プロセス監視方法、プロセス監視プログラム、記録媒体
US20220391277A1 (en) Computing cluster health reporting engine

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 12742897

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10846031

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10846031

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP