WO2004061681A1 - 運用管理方法および運用管理サーバ - Google Patents

運用管理方法および運用管理サーバ Download PDF

Info

Publication number
WO2004061681A1
WO2004061681A1 PCT/JP2002/013719 JP0213719W WO2004061681A1 WO 2004061681 A1 WO2004061681 A1 WO 2004061681A1 JP 0213719 W JP0213719 W JP 0213719W WO 2004061681 A1 WO2004061681 A1 WO 2004061681A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
information
pattern
group
operation management
Prior art date
Application number
PCT/JP2002/013719
Other languages
English (en)
French (fr)
Inventor
Daisaku Takahashi
Yukiko Yoshii
Yoshiaki Kaku
Hitoshi Ono
Hiroshi Suzuki
Chiaki Kawashima
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to AU2002359925A priority Critical patent/AU2002359925B2/en
Priority to PCT/JP2002/013719 priority patent/WO2004061681A1/ja
Priority to JP2004564435A priority patent/JP4318643B2/ja
Priority to EP02793425A priority patent/EP1577783A4/en
Priority to CNA028295080A priority patent/CN1650274A/zh
Publication of WO2004061681A1 publication Critical patent/WO2004061681A1/ja
Priority to US11/044,227 priority patent/US7506195B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Definitions

  • the present invention relates to an operation management method for performing operation management of a monitored device, an operation management server, an operation management program, and a computer-readable recording medium recording the operation management program, and is particularly effective for countermeasures against a failure of the monitored device.
  • the present invention relates to an operation management method, an operation management server, an operation management program, and a computer-readable recording medium on which the operation management program is recorded.
  • the server sends a message to another device (for example, an operation management server).
  • another device for example, an operation management server.
  • other functions related to the failed function will also output an error message. Therefore, when an error occurs in a server, not only one server outputs an error message, but also other related servers.
  • An invention was conceived in which the location of the failure was identified by comparing the contents of the database. As a result, the fault location can be automatically identified, and the network can be quickly restored. For example, see Japanese Patent Application Laid-Open No. 2000-257767 (FIG. 1).
  • the present invention has been made in view of the above points, and is provided with an operation management method, an operation management server, an operation management program, and a computer-readable recording medium recording an operation management program, which can identify a failure point in software units.
  • the purpose is to provide.
  • an operation management method as shown in FIG. 1 is provided to solve the above problems.
  • An operation management method according to the present invention is for performing operation management.
  • the following processing is performed. First, assuming a plurality of functions to be executed on the server as monitored elements, event information generated by the monitored elements is collected (step ST1). Next, an event drop is generated by grouping the collected pieces of event information (step ST 2). Further, the event information generation pattern is collated between the event group and the plurality of pattern definition groups in which the occurrence pattern of the event information output from each of the plurality of monitored elements when a failure occurs (step ST 3). . Then, failure countermeasure information indicating the monitoring target element that is associated with a pattern definition group in which the occurrence pattern of event information is similar to the event group and causes a damage is extracted (step ST4).
  • event information generated in the monitored element is collected and grouped, and an event group is generated. Then, the occurrence pattern of the event information is compared between the plurality of pattern definition groups and the event group, and the occurrence pattern is preliminarily associated with a pattern definition group having a similar occurrence pattern, and a failure countermeasure indicating the monitoring target element causing the failure is provided. Information is extracted.
  • a command input to the server is collected, and a plurality of the collected commands are grouped to collect operation history information.
  • the command input pattern is collated between a plurality of operation pattern information in which a command input pattern causing a failure is defined and the operation history information, and the command input pattern is compared with the operation history information.
  • An operation management method is provided, in which command input patterns are previously associated with the similar operation pattern information, and failure countermeasure information indicating the monitoring target element causing a failure is extracted.
  • commands input to the server are collected and grouped, and operation history information is generated.
  • a command pattern is collated between the operation pattern information and the operation history information, and the input pattern is previously associated with the operation pattern information having a similar input pattern, and a failure pair indicating the monitored element causing the failure is identified. Policy information is extracted.
  • FIG. 1 is a conceptual diagram of the invention applied to the embodiment.
  • Fig. 2 is a diagram showing an operation example of the trouble information regression type solution method.
  • FIG. 3 is a diagram showing a message normalization process.
  • FIG. 4 is a diagram illustrating a configuration example of the configuration management data.
  • FIG. 5 is a conceptual diagram showing a process of grouping event information.
  • FIG. 6 is a schematic diagram showing the collation processing.
  • FIG. 7 is a diagram showing an example of event group collation and countermeasure information output.
  • FIG. 8 is a diagram showing a procedure for sorting the collation results.
  • FIG. 9 is a flowchart illustrating a processing procedure in the matching unit.
  • FIG. 10 is a diagram illustrating an example of a system configuration for providing a failure detection function.
  • FIG. 11 is a diagram illustrating a hardware configuration example of the operation management server used in the embodiment of the present invention.
  • FIG. 12 is a block diagram showing the internal configuration of the operation management server.
  • FIG. 13 is a diagram illustrating an example of a data structure of hardware configuration information.
  • FIG. 14 is a diagram illustrating an example of a data structure of software configuration information.
  • FIG. 15 is a diagram illustrating a data structure example of the network configuration information.
  • FIG. 16 is a diagram showing an example of a data structure of the system configuration information.
  • FIG. 17 is a flowchart showing the procedure of the message grouping process.
  • FIG. 18 is a diagram showing an example of event grouping.
  • FIG. 19 is a diagram showing an example of the data structure of the event group log.
  • FIG. 20 is a diagram showing an example of the data structure of the customer DB.
  • FIG. 21 is a diagram illustrating a data structure example of the event pattern DB.
  • FIG. 22 is a diagram showing an example of the data structure of the event log on the day.
  • FIG. 23 is a diagram showing an example of the data structure of the event group log on the day.
  • FIG. 24 is a flowchart showing the procedure of the pattern matching process.
  • FIG. 25 is a flowchart showing details of the preprocessing.
  • FIG. 26 is a flowchart showing the procedure of the duplicate event filtering process.
  • 'FIG. 27 is a flowchart showing the procedure of the event pattern extraction process.
  • FIG. 28 is a diagram illustrating an example of the data structure of the virtual event pattern DB.
  • FIG. 29 is a flowchart showing the procedure of the combination matching process.
  • FIG. 30 is a flowchart showing the procedure of the information providing process.
  • FIG. 31 is a flowchart illustrating the procedure of the past event confirmation process.
  • FIG. 32 is a flowchart showing the procedure of the post-processing.
  • FIG. 33 is a diagram showing the flow of information.
  • FIG. 34 is a diagram showing an example of the event group search screen.
  • FIG. 35 shows an example of the event selection screen.
  • FIG. 36 is a diagram showing an example of the analysis result display screen.
  • FIG. 37 is a diagram illustrating a data structure example of the history table.
  • FIG. 38 is a diagram illustrating a data structure example of the operation pattern DB. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a conceptual diagram of the invention applied to the embodiment.
  • the operation management server 1 executes the operation management method according to the present invention.
  • the operation management server 1 is connected to a plurality of servers 2 to 4.
  • application 2a, middleware 2b, and OS 2c are running.
  • Application 2a, middle The software 2b and OS 2c are the monitoring measures by the operation management server 1.
  • Similar software is executed in the other servers 3 and 4.
  • the operation management server 1 is provided with a pattern definition group database (DB) 1a and a failure countermeasure information database (DB) lb in advance.
  • the pattern definition group DB1a stores a plurality of pattern definition groups in which occurrence patterns of event information output from each of a plurality of monitored elements when a failure occurs are defined.
  • the fault countermeasure information DB1b stores fault countermeasure information that is associated with the pattern definition group in advance and indicates a monitoring target element that causes a fault.
  • the fault countermeasure information includes the fault location, fault cause, and countermeasures for the fault.
  • the operation management server 1 executes the following processing.
  • the operation management server 1 collects event information generated in the monitored element by setting a plurality of functions executed by the server as monitored elements (step ST 1).
  • the operation management server 1 generates an event group by grouping the plurality of pieces of collected event information (step ST2).
  • the operation management server 1 checks the occurrence pattern of the event information between each pattern definition group in the pattern definition group DB1a and the event group (step ST3).
  • the operation management server 1 previously associates the failure countermeasure information indicating the monitoring target element causing the failure with the failure countermeasure information DB 1 in association with the pattern definition group in which the occurrence pattern of the event information is similar to the event group. Extract from b (step ST 4).
  • the case where the occurrence patterns of the event information are similar is, for example, a case where at least one common event information exists.
  • event information generated in the monitored element is collected and grouped, and an event group is generated. Then, the occurrence pattern of the event information is compared between the plurality of pattern definition groups and the event group. Next, failure countermeasure information preliminarily associated with a pattern definition group having a similar occurrence pattern is extracted.
  • the administrator of the operation management server to recognize the fault location, the cause of the fault, and the countermeasure for the fault based on the extracted fault countermeasure information.
  • the corresponding pattern definition group is stored in the pattern definition group DB 1a, and the failure countermeasure information is stored in the failure countermeasure information DB 1b.
  • the countermeasure method of the fault is fed back (reused) to the worker who solves the fault as appropriate.
  • Fig. 2 is a diagram showing an operation example of the trouble information regression type solution method.
  • a plurality of servers 11 and 12 and an operation management server 20 are connected via a network 13.
  • the server 11 incorporates monitoring functions such as hardware monitoring, software monitoring, performance monitoring, security monitoring, and configuration monitoring.
  • Server 12 also has a similar monitoring function.
  • the hard monitoring function monitors the operation of the hardware in the server (for example, the write error rate of a hard disk device, etc.).
  • the software monitoring function is provided for each software ( ⁇ S, middleware, application) and monitors the operation of the corresponding software.
  • the performance monitoring function monitors the operating status (for example, the amount of free memory).
  • the security monitoring function monitors unauthorized access to the server 11.
  • the configuration monitoring function monitors a configuration change of the server 11 or the like.
  • Each monitoring function generates an error event when a predetermined event such as an error occurs.
  • Event information indicating the contents of the error event is sent as messages 31 and 32 to the operation management server 20 via the network 13.
  • the messages 31 and 32 include, for example, log information generated by the servers 11 and 12 and information such as a configuration change.
  • Operation management server 20 has event extraction table 21 and pattern definition group 2 2. It has a countermeasure information table 23, a message normalization section 24, a grouping section 25, a collation section 26, and a countermeasure output section 27. .—
  • the event extraction table 21 is an information table in which rules for extracting necessary event information from a received message are defined.
  • the pattern definition group 22 is information that defines a combination of events to be detected when a failure occurs.
  • the countermeasure information table 23 is an information table in which information on fault countermeasures corresponding to event patterns at the time of fault occurrence is registered.
  • the message normalization unit 24 receives the messages from the servers 11 and 12 and normalizes them to a predetermined data structure. Specifically, upon receiving the message, the message normalization unit 24 refers to the event extraction table 21 and acquires an event information extraction rule to be applied to the received message. Then, the message normalization unit 24 extracts event information from the message according to the acquired rules.
  • the grouping unit 25 groups the event information extracted by the message normalization unit 24 with related items. For example, the monitored elements (device, phone, etc.
  • the event group 33 is a set of related event information.
  • the matching unit 26 compares the event group 33 with the pattern definition group 22 and detects a pattern definition group 22 that is the same as or similar to the event group 33.
  • the countermeasure output unit 27 refers to the countermeasure information table 23 and acquires countermeasure information corresponding to the detected pattern definition group 22. Then, the countermeasure output unit 27 displays the obtained countermeasure information on a terminal device or the like connected to the operation management server 20.
  • the messages 31 and 32 output from the servers 11 and 12 and input to the operation management server 20 are processed as follows. First, the messages 31 and 32 are normalized by the message normalization unit 24, Event information is generated.
  • Fig. 3 shows the message normalization process.
  • messages 31 and 32 include information of serial No., time, host name, and event content.
  • Serial No. is an identification number for uniquely identifying a message.
  • Time is the time when the event occurred.
  • the host name is the name of the server that output the message on the network 13.
  • the event content is the content of the event that outputs the monitoring function in the server.
  • the message normalization unit 24 When the message normalization unit 24 receives such messages 31 and 32, the message normalization unit 24 refers to the event extraction table 21.
  • the event extraction table 21 has columns for HW (hardware) or SW (software) name, keyword, and extraction method.
  • the information arranged in the horizontal direction in each column is associated with each other to form a message information extraction rule.
  • the HW or SW name is the name of the element that caused the event to occur. Keywords are information that identifies the element that causes the event to occur.
  • the extraction method is a rule for extracting the required error code from the message.
  • the message normalizing unit 24 can generate the event information 31 a and 32 a from the messages 31 and 32 by referring to the event extraction table 21. Specifically, upon receiving the messages 31 and 32, the message normalizing unit 24 refers to the keyword column of the event extraction table 21 and searches for a keyword included in the event text. The message normalization unit 24 refers to the extraction method corresponding to the detected keyword, and extracts a necessary error code from the event content according to the extraction method.
  • the keyword “Kernel” is detected from the event extraction table 21. Therefore, the error code “WARNING 999” is extracted according to the extraction method ⁇ corresponding to the keyword and the space after “:” until “:” is entered.
  • Message normalization unit 2 4 generates the event information 3 1 a, 3 2 a containing an error first cord.
  • the event information 31a and 32a include serial No., time, host name, HW or SW name, and error code. Serial No., time, And the host name are extracted from messages 31 and 32.
  • the HW or SW name and the error code are information associated with the detected key code in the event extraction table 21.
  • the normalized event information 31a and 32a are extracted.
  • the grouping unit 25 groups related event information.
  • the group section 25 has configuration management data in which the relationship between the monitored elements is defined in advance.
  • FIG. 4 is a diagram illustrating a configuration example of the configuration management data.
  • monitored elements are managed in a hierarchical structure. From the top, the systems 51 and 52, routers 53 and 54, servers 55 to 59 and storage 60, middleware 61 to 63, and applications 64 to 66 are arranged in that order.
  • the systems 51 and 52 indicate, for example, network systems for each customer. — ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ 3 ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ .
  • the servers 55 to 59 are associated with the routers 53 and 54, and indicate the identification information of the servers built in the systems 51 and 52.
  • the storage 60 is associated with the root 54 and indicates the identification information of the storage device in the system 52.
  • the middlewares 6 1 to 6 3 are associated with the server 55 and indicate identification information of the middleware implemented in the server 55.
  • the applications 64 to 66 are associated with the middleware 61, and indicate identification information of application software managed by the middleware 61.
  • the grouping unit 25 can determine event information that is relevant. That is, the grouping dangling unit 25 determines that the event information output from the monitoring target elements related in the tree-structured grandchild relationship are related to each other.
  • the configuration management data shown in Fig. 4 can be used to suppress events during maintenance work.
  • it is necessary to suppress the occurrence of events for monitored elements.
  • it is also desirable to suppress the occurrence of events from monitoring target elements located below the monitoring target element that is the target of maintenance work.
  • an error event may be output during maintenance of a higher-level monitored element (for example, middleware) even if no fault has occurred in a lower-level monitored element (for example, an application). Therefore, during maintenance work, by suppressing the occurrence of events in the monitoring target elements lower than the work target, it is possible to stop unnecessary event output during maintenance work.
  • the grouping unit 25 selects the suppression target based on the configuration management data. Then, the grouping unit 25 specifies the suppression time and transmits the event occurrence suppression information to the monitoring target element to be suppressed.
  • events may occur from the maintenance target.
  • the events that occur at this time are grouped and retained as a pattern definition group when a maintenance target error occurs.
  • the grouping unit 25 uses the configuration management data to determine the relevance of event information, and performs grouping of event information.
  • FIG. 5 is a conceptual diagram showing a grouping process of event information.
  • the event information 71 to 73 normalized by the message normalization unit 24 is input to the grouping unit 25, an event group 33 is generated based on the related event information.
  • the event groups 33 are assigned IDs (identifiers) for uniquely identifying each event group. Other details are the same as the event information.
  • the generated event group 33 is passed to the matching unit 26. In the matching unit 26, the event group 33 and the pattern definition group 22 are compared.
  • FIG. 6 is a schematic diagram showing the collation processing.
  • the matching unit 26 matches the pattern definition group 22 with the event group 33 to determine the failure that caused the event group 33 to occur.
  • the countermeasure information corresponding to the pattern definition group is extracted.
  • FIG. 7 is a diagram showing an example of event group collation and countermeasure information output. As shown in FIG. 7, the items of the HW or SW name and the error code of the event group 33a and the items of the HW or SW name and the error code of the pattern definition group 22a match. Therefore, the countermeasure output unit 27 searches the countermeasure information table 23 for countermeasure information corresponding to the ID “PT0008” of the pattern definition group 22 a.
  • the countermeasure information table 23 has columns for ID, cause, countermeasure, and emergency level. Information arranged in the horizontal direction in each column is associated with each other. ID is identification information for uniquely identifying countermeasure information. The ID of the countermeasure information has the same last four digits of the ID of the corresponding pattern definition group. That is, the countermeasure information 23 a of ID “000008” corresponds to the pattern definition group of ID “PT0008”.
  • the cause is information indicating the cause of the failure, and includes information on the monitored element (for example, a disk) that causes the failure.
  • the countermeasure is information indicating the countermeasure method for the failure.
  • the urgency level indicates the importance of the disability, and the more urgently needed disability is, the greater the urgency level is.
  • countermeasure information corresponding to the pattern definition group 22 a is extracted by the countermeasure output unit 27.
  • the cause of the failure is "Cluster switching has occurred due to disk damage.”
  • the countermeasure is "Perform DB recovery after system recovery.”
  • the emergency level of this countermeasure information is “2”.
  • the matching unit 26 not only extracts a pattern definition group that completely matches the event group, but also extracts a similar pattern definition group. At this time, the matching unit 26 adds information on the number of matches and the fraction to the extracted pattern definition table.
  • the number of matches is the number of matched event information.
  • the fraction is the number of mismatched event information. When the event information in the pattern definition group is insufficient, the sign of the fraction is negative. If there is too much event information in the pattern definition group, the sign of the fraction is positive.
  • the countermeasure output unit 27 displays the countermeasure information of each pattern definition group, sorting the corresponding pattern definition group and event group according to the number or fraction.
  • FIG. 8 is a diagram showing a procedure for sorting the collation results.
  • event group 81 is compared with the six scheduled definition groups.
  • the ID of the pattern definition drop is PT1, PT2, ⁇ 3, ⁇ 4, ⁇ 5, ⁇ 6, respectively.
  • the collation unit 26 collates the event group 81 with each pattern definition duplication.
  • the event group 81 includes event information “a, b, c, d”.
  • the pattern definition group of ID “PT1” includes event information “a, b, c”.
  • the pattern definition drape of ID “PT2” includes event information “a, c”.
  • the pattern definition group with ID “PT3” includes event information “a, X, y, x, q”.
  • the pattern definition group of ID “PT4” includes event information “a, b, c, d, y”.
  • the pattern definition group with ID “PT5” includes event information “a, b, c, d”.
  • the pattern definition group with ID “PT6” includes event information “d”.
  • the pattern definition group of ID “PT1” has the number of matches “3” and the fraction “1-1”.
  • the pattern definition group of ID “ ⁇ 2” has the number of matches “2” and the fraction “_2”.
  • the pattern definition group with ID “PT3” has the number of matches “1” and the fraction “+4”.
  • the pattern definition group of ID “PT4” has the number of matches “4” and the fraction “+1”.
  • the pattern definition group with ID “PT5” has the number of matches “4” and the fraction “0”.
  • the pattern definition group with ID “PT6” has the number of matches “1” and the fraction “1-3”.
  • the countermeasure output unit 27 that has received the comparison result first sorts the pattern definition groups by the number of matches. In this case, the higher the number of matches, the higher the rank. Then, the order is “ ⁇ 4”, “ ⁇ 5”, “ ⁇ 1”, “ ⁇ 2”, “ ⁇ 3”, “ ⁇ 6”. [ST 3] Next, the countermeasure output unit 27 sorts by fraction. In this case, the smaller the absolute value of the fraction, the higher the fraction. Then, the order is “PT5”, “ ⁇ 4”, “ ⁇ 1”, “ ⁇ 2”, “ ⁇ 6”, “ ⁇ 3”.
  • the countermeasure output unit 27 refers to the emergency level in the countermeasure information corresponding to each pattern definition group. Then, the countermeasure information in which the emergency level is higher than the predetermined value (the value indicating the emergency level is large) is to be highlighted. For example, if the urgent level of the countermeasure information for the pattern definition groups of “$ 2” and “$ 5” is high, those countermeasure information will be highlighted.
  • the countermeasure output unit 27 displays the countermeasure information for the event that has occurred in the monitored system in the sort order, and highlights the countermeasure information to be displayed as a symbol. As highlighting means, for example, it is displayed in a color different from other countermeasure information.
  • FIG. 9 is a flowchart showing a processing procedure in the matching unit. Hereinafter, the processing illustrated in FIG. 9 will be described in the order of step numbers.
  • Step S101 The collation unit 26 acquires the event group 33. At this time, the number of event information included in the acquired event group 33 is ⁇ ⁇ ⁇ ( ⁇ is a natural number).
  • the collation unit 26 performs duplicate event filtering, and creates a virtual table from the data base in which the plurality of pattern definition drops 22 are stored.
  • the virtual table is a database in which only the pattern definition group 22 applicable to the system to be processed is extracted.
  • the virtual table is a database that stores common pattern definition groups that can occur in each system, a database that stores pattern definition groups that can occur according to the system configuration of each customer, and a pattern definition. It consists of a database in which failure information corresponding to the group is stored.
  • the collation unit 26 searches the database storing the fault information for fault information associated with the I-th event information.
  • the collation unit 26 searches the database storing pattern definition groups that can occur according to the system configuration of each customer for a pattern definition group associated with the I-th event information.
  • the matching unit 26 searches the database storing the common pattern definition groups that can occur in each system for a pattern definition group associated with the I-th event information.
  • Step S110 The collation unit 26 selects the I-th pattern definition group detected in steps S105 and S106, extracts event information overlapping with the event group, and counts the number.
  • the matching unit 26 sorts the events.
  • Step S114 The matching unit 26 checks whether or not there is the same event in the past.
  • the countermeasure output unit 27 displays the countermeasure information (including the cause of the failure and the countermeasure method) of the pattern definition group in which at least a part of the event information matches.
  • information on events that have occurred in the system can be collected, and the cause of the failure and the countermeasure can be automatically specified according to the event group.
  • the administrator of the operation management server By accumulating pattern definition groups in this way, events that occurred in the past Troubles similar to rubble can be found at an early stage. In addition, by linking the cause and the corrective action, the time for troubleshooting is reduced. Furthermore, by centrally managing the pattern definition groups, etc. of many customers, the administrator of the operation management server updates the pattern definition groups, etc., as needed, so that each customer can define the pattern related to troubles that have occurred with other customers. You can use the group to find obstacles. The administrator of the operation management server must provide a high-quality server operation monitoring service by registering a pattern definition group based on the operation form of the system operator and information provided by the software developer. Can be.
  • FIG. 10 is a diagram illustrating an example of a system configuration for providing a failure detection function.
  • the operation management server 100 is connected to the relay device 210 via the network 14.
  • a plurality of servers 220, 230, and 240 are connected to the relay device 210.
  • the relay device 210 and the servers 220, 230, 240 are customer systems.
  • the operation management server 100 is provided with a pattern matching engine 110.
  • the pattern matching engine 110 collects messages from the servers 220, 230 and 240, performs pattern matching with the pattern definition group, and outputs countermeasure information.
  • FIG. 11 is a diagram showing an example of a hardware configuration of the operation management server used in the embodiment of the present invention.
  • the entire operation management server 100 is controlled by a CPU (Central Processing Unit) 101.
  • the CPU 101 has a random access memory (RAM) 102, a hard disk drive (HDD) 103, a graphic processing device 104, an input interface 105, and a communication interface 106 via a bus 107. Is connected.
  • RAM random access memory
  • HDD hard disk drive
  • the RAMI 02 temporarily stores at least a part of an OS (Operating System) program and an application program to be executed by the CPU 101. Further, the RAM 102 stores various data required for processing by the CPU 101.
  • the HDD 103 stores an OS and application programs.
  • the monitor 111 is connected to the graphic processing device 104. Graphic The processor 104 displays an image on the screen of the monitor 111 according to a command from the CPU 101. A key HI 12 and a mouse 113 are connected to the input interface ⁇ 05.
  • the input interface 105 transmits a signal transmitted from the keyboard 112 or the mouse 113 to the CPU 101 via the bus 107.
  • the communication interface 106 is connected to the network 14.
  • the communication interface 106 exchanges data with other computers via the network 14 overnight.
  • FIG. 11 illustrates the hardware configuration of the operation management server 100, the relay device 210 and the servers 220, 230, and 240 can be realized with the same hardware configuration.
  • FIG. 12 is a block diagram showing the internal configuration of the operation management server.
  • the operation management server 100 includes a pattern matching engine 110, an event group 121, a customer DB (database) 122, various configuration information DB 123, an event pattern DB 124, a virtual event pattern DB 125, an information extraction unit 130, It has an environment setting section 140, event log for the current day 151, event log for the current month 152, event dal for the day—program 153, event group log for the current month 154, and a result storage file 155.
  • the pattern matching engine 110 controls the entire pattern matching process in cooperation with other functions.
  • the event group 121 is an event group composed of messages sent from the servers 220, 230, 240.
  • the customer DB 122 stores information about the customer.
  • Various configuration information DB 123 stores information on the customer's system configuration (hardware and software).
  • the event pattern DB 124 is a database that stores event patterns (pattern definition groups and countermeasure information) related to failures assumed in the supporting system.
  • the virtual event pattern DB 125 is an event pattern extracted from the event pattern DB 124 according to the customer's system configuration.
  • the information extracting unit 130 extracts only the event patterns related to the service-targeted customer's system from the event patterns DB 124 and constructs a virtual event pattern DB 125.
  • the event log of the day 15 1 is a storage area for storing identification information of an event pattern corresponding to a failure that occurred on the day, a verification result, and the like.
  • the current month event log 15 2 is a storage area for storing identification information of an event pattern corresponding to a failure or the like that occurred in the current month, a verification result, and the like.
  • the day's event group log 153 is a storage area for storing event groups that occurred on the day.
  • the current month event group log 154 is a storage area for storing event groups that occurred in the current month.
  • the result storage file 155 is a list of countermeasure information detected according to the event group.
  • the various configuration information DB123 includes hardware configuration information, software configuration information, network configuration information, and system configuration information. Each configuration information has information for the mutual link.
  • FIG. 13 is a diagram showing an example of a data structure of hardware configuration information.
  • the hardware configuration information 123 includes a device ID, system name, host name, product name, number of CPUs, memory (MEM) capacity, disk (Disk) capacity, and number of LANs.
  • the device ID is identification information of the computer operating as a server. This device ID is a code assigned internally so that it is not affected by the length of the host name.
  • the system name is the name of the system (service type) to which the server depends.
  • the host name is the distinguished name of the server on the network or administratively determined.
  • the product name is the product name of the computer operating as the server.
  • the number of CPUs is the number of CPUs installed in the server.
  • Memory (MEM) capacity is the storage capacity of the main memory installed in the server.
  • disk The (Disk) capacity is the storage capacity of the hard disk device connected to the server.
  • the number of LANs is the number of network interfaces implemented in the server.
  • FIG. 14 is a diagram illustrating an example of a data structure of software configuration information.
  • the software configuration information 1 2 3b includes columns for device ID, software (software) type, software name, version number, and modified version number.
  • the device ID is the same item as the device ID of the hardware configuration information 123 a, and the information is associated with each other by the device ID.
  • the software type indicates the type of software (OS, middleware, application, etc.).
  • the software name is the name of the software.
  • the version number is the software version number.
  • the corrected version is the version of the fault correction data (patches) applied to the software.
  • FIG. 15 is a diagram illustrating a data structure example of the network configuration information.
  • the network configuration information 123c has columns for customer code, device ID, host name, IP, interface name, and IP type.
  • the customer code is the identification information of the customer who operates the system.
  • the device ID is the same item as the device ID of the hardware configuration information 123 a ⁇ software configuration information 123 b, and the device ID associates each other's information.
  • the host name is the same item as the host name in the hardware configuration information 123.
  • IP is the IP address of the system.
  • the interface name is an identification number assigned to each network interface in the device.
  • the IP type is the type of the IP address.
  • the IP types include V (VertuaD and R (Real). V (Vertual) indicates a virtual IP address, and R (Real) indicates a real IP address.
  • FIG. 16 is a diagram illustrating an example of a data structure of the system configuration information.
  • the system configuration information 123d has columns for customer code, device ID, related host name, related type, and related software.
  • the customer code is the same item as the customer code of the network configuration information 123c.
  • the device ID is the same item as the device ID of the hardware configuration information 1 2 3 a, software configuration information 1 2 3 b, and network configuration information 1 2 3 c.
  • the related host name is The device ID of the associated computer. If PP9999 is set in the related host name, it indicates that there is no relationship with other devices.
  • FIG. 17 is a flowchart showing the procedure of the message grouping process. Hereinafter, the processing illustrated in FIG. 17 will be described along the step numbers.
  • Step S 1 The information extraction unit 130 acquires the message. That is, when an error event occurs from the server where the error has occurred, a message indicating the content of the error event is sent from the server to the operation management server 100. In the operation management server 100, the message is input to the pattern matching engine 110.
  • the information extraction unit 130 shapes (normalizes) the message and specifies the management target element (hardware, software, etc.) with reference to the various configuration information DB123.
  • the information extraction unit 130 refers to the various types of configuration information DB123 to check the relevance to other managed elements.
  • Step S4 The information extraction unit 130 determines whether a related event has been received. If so, the process proceeds to Step S5. If not, the process proceeds to Step S6.
  • the information extraction unit 130 groups related events.
  • Step S6 The information extracting unit 130 determines whether or not a predetermined time has elapsed after receiving the message in step S1. When a predetermined time has elapsed, the event group is determined, and the processing is passed to the pattern matching engine 110. If the predetermined time has not elapsed, the process proceeds to step S4.
  • FIG. 18 is a diagram showing an example of event grouping. For example, when the message of “event # 11” is input, an event group 411 having the event information is generated. Thereafter, when a message of “event # 21” is input, an event group 421 having the event information is generated. Similarly, when a message of “event # 31” is input, an event having the event information is input. Group 431 is generated.
  • Another database in the operation management server 100 is constructed based on the grouped event information in this manner.
  • FIG. 19 is a diagram showing an example of a data structure of an event group.
  • the event drop 121 has columns for event group ID, group serial number, event ID, customer ID, device ID, interface name, occurrence time, occurrence type, occurrence abbreviation, filtering, and message.
  • the event group ID is identification information set for each event group.
  • the group detail serial number is the serial number of each record (one event information makes up one record) set in the event group ID.
  • the event ID is identification information set for each event.
  • the customer ID is identification information of the customer who operates the system that generated the event.
  • the device ID is the identification information of the server that generated the event.
  • the interface name is the identification information of the network interface that output the message containing the event information.
  • the occurrence time is the time when the message arrives at the operation management server 100.
  • the occurrence type is the type of the monitored element that generated the event.
  • the occurrence abbreviation is the abbreviation of the monitored element that generated the event. Filtering indicates the presence or absence of a filter ring.
  • the message indicates the content of the message of the event information.
  • the event group log 153 on the day and the event group log 154 on the month have the same data structure.
  • FIG. 20 is a diagram showing an example of a data structure of a customer DB.
  • Customer DB 122 There are columns for customer ID, customer name, customer contact, and contact information.
  • the customer ID is identification information of the customer.
  • the customer name is the name of the customer.
  • the customer contact is the name of the person in charge of the customer.
  • the contact is a contact such as a customer's telephone number.
  • FIG. 21 is a diagram illustrating a data structure example of the event pattern DB.
  • the event pattern DB 124 has columns for event pattern ID, event serial number, target type, target abbreviation, and error message.
  • the event pattern ID is a unique identification number managed by the event pattern DB.
  • the event detail serial number is a management number of the event information assigned in the same event pattern ID.
  • the target type is the type of the monitoring target element.
  • the error message is information indicating the content of the output event.
  • FIG. 21 shows an example of the data structure of the event pattern DB 124, the same applies to the data structure of the virtual event pattern DB 125.
  • FIG. 22 is a diagram showing an example of the data structure of the event log on the day.
  • the event log 151 for the day has columns for event group ID, matching time, event pattern ID, number of events, and number of hits.
  • the event group ID is an identification number of the event group.
  • the matching time is the time at which the pattern matching engine 110 performed the pattern matching process.
  • the event pattern ID is event pattern identification information extracted by matching with the event group.
  • the number of events is the number of event information in the event pattern indicated by the event pattern ID.
  • the number of hits is the number of pieces of event information included in the event group to be collated among the event information in the event pattern indicated by the event pattern ID.
  • the weight for the corresponding event pattern can be calculated. For example, the larger the number of hits, the larger the value of the weight (the higher the importance).
  • a numerical value indicating such a weight may be calculated in advance and set in the event log 15 1 on that day.
  • FIG. 23 is a diagram showing an example of the data structure of the event group log on the day.
  • the event group log 15 3 contains the event group ID, event detail serial number, event ID, customer ID, device ID, occurrence time, occurrence type, error number or message, event ID, number of duplicate event IDs, Information such as a matching result is included.
  • the event group ID is identification information of the event group.
  • the event detail serial number is a serial number assigned to the event that has started.
  • the event ID is identification information of each event information.
  • the customer ID is the ID of the customer who operates the system that issued the event.
  • the device ID is the identification information of the server that issued the event.
  • the occurrence time is the time when the event occurred.
  • the occurrence type is the type of event (error, warning, etc.).
  • the error number or message is identification information indicating the content of the event.
  • the event ID is identification information of the event pattern specified by the event group.
  • the number of duplicate event IDs is the number of detected event patterns when multiple event patterns are detected.
  • the matching result is the content of the countermeasure information set in the detected event pattern.
  • FIG. 24 is a flowchart showing the procedure of the pattern matching process. Hereinafter, the processing illustrated in FIG. 24 will be described along the step numbers.
  • the pattern matching engine 110 performs preprocessing. For example, the pattern matching engine 110 creates a worktable in RAM 102.
  • Step S 1 2 The pattern matching engine 110 extracts an event group from the event group 121 and performs overlapping event filtering.
  • Duplicate event filtering is a process of detecting the same event information output from the same server, leaving one event information, and deleting other event information.
  • Step S13 The pattern matching engine 110 determines whether or not the event information included in the event group is one or less. If the number of event information items is one or less, the process proceeds to step S19 because the event information is out of the failure detection target based on the occurrence pattern of the plurality of event information. If the event information is two or more, the process proceeds to step S14.
  • Step S143 The pattern matching engine 110 extracts an event pattern to be combined from the virtual event pattern DB125.
  • Step S15 The pattern matching engine 110 has a small event pattern. Judge whether at least one item has been extracted. If no event has been extracted (0 extractions), the process proceeds to step S19.If at least one event pattern has been extracted, the process proceeds to step S16.
  • the pattern matching engine 110 performs combination matching. Specifically, the pattern matching engine 110 performs a brute force search on the event information in the filtered event group and the event information in each event pattern extracted from the virtual event pattern DB 125. Perform matching with.
  • the pattern matching engine 110 provides information indicating the result of the matching process. For example, the pattern matching engine 110 displays the matching result on a monitor or the like of the operation management server 100.
  • the pattern matching engine 110 checks past events. Specifically, the pattern matching engine 110 refers to the event log 152 of the current month to check whether the same event log exists. If the same event log exists, add the event to the result file.
  • the pattern matching engine 110 performs post-processing. Specifically, the pattern matching engine 110 stores matching results in the event log 15 1 of the day and the event log 15 2 of the month.
  • FIG. 25 is a flowchart showing details of the preprocessing. Hereinafter, the processing shown in FIG. 25 will be described along the step numbers.
  • the pattern matching engine 110 creates a new work table. For example, a worktable of the event group log 15 3 of the day and the event log 15 1 of the day is created.
  • Step S2 2 The pattern matching engine 110 initializes the work area.
  • the pattern matching engine 110 checks the arguments. Specifically, the pattern matching engine 110 determines whether there is an “event group ID” and an “output destination folder” as an input check. either If no item is entered, an error occurs. Thereafter, the process returns to the main processing shown in FIG. Next, the overlapping event filtering process will be described.
  • FIG. 26 is a flowchart showing the procedure of the duplicate event filling process. Hereinafter, the processing illustrated in FIG. 26 will be described along the step numbers.
  • the pattern matching engine 110 reads one record (event information) in the event group 121. Reading is performed in the order of, for example, a customer ID, a device ID, and an error number or message.
  • Step S32 The pattern matching engine 110 determines whether the event group read is correct or not. If an event drop is read, the process proceeds to step S33. If there is no event group to read, the process returns to the main processing shown in Figure 24.
  • Step S33 The pattern matching engine 110 determines whether or not filtering is necessary. Specifically, in the case of the same model and the same error number or r message as the previous record, it is determined that filtering is necessary. If filling is necessary, the process proceeds to step S31. If no filtering is required, the process proceeds to step S34.
  • Step S334 The pattern matching engine 110 stores the event group after the duplicate event filtering in the event group log (work table) 153 for the current day. Thereafter, the process proceeds to step S31.
  • FIG. 27 is a flowchart showing the procedure of the event pattern extraction process. Hereinafter, the processing illustrated in FIG. 27 will be described along the step numbers.
  • the pattern matching engine 110 requests the information extraction unit 130 to perform an event pattern extraction process. Then, the information extracting unit 130 reads the event group from the event group log 153 on the current day. The reading order is as follows: customer ID, device ID, error number or message. If it can be read normally, perform the following processing. If reading fails (when there is no event group to read), the process returns to the main processing shown in Figure 24.
  • Step S 4 2 The information extraction unit 130, from the various configuration information DBs 123, Read information. Specifically, the pattern matching engine 110 searches the various configuration information DBs 123 using the customer ID and the device ID of the record read in step S41 as keys, and abbreviates each detected configuration information. Read.
  • Step S43 The information extraction unit 130 extracts and adds event patterns. Specifically, the information extraction unit 130 extracts the event pattern from the event pattern DB 124 using the abbreviations read in step S42 as keys, and stores the extracted records in the virtual event pattern DB. Add to 1 2 5 Then, the process returns to the main processing shown in FIG.
  • FIG. 28 is a diagram illustrating an example of the data structure of the virtual event pattern DB.
  • the virtual event pattern DB125 includes information such as the event pattern ID, the event detail serial number, the number of messages in the pattern, the target type, and the target abbreviation.
  • the event pattern ID is the identification number of the event pattern.
  • the event detail serial number is the serial number set in the event pattern.
  • the error number or message is identification information indicating the content of the failure.
  • the target type is identification information of the monitoring target element.
  • the target abbreviation is the abbreviation of the monitored element.
  • FIG. 29 is a flowchart showing the procedure of the combination matching process. Hereinafter, the processing illustrated in FIG. 29 will be described along the step numbers.
  • Step S 5 1 The pattern matching engine 110 counts the number of messages of each event group in the event drop log 153 of the day.
  • Step S52 The pattern matching engine 110 reads unprocessed event groups from the event group log 153 of the day. At this time, if the processing of all event groups has been completed, an entry end message is returned.
  • Step S53 The pattern matching engine 110 determines whether or not the event group has been read. If an event group has been read, the process proceeds to Step S54. If the entry has been completed, the process proceeds to step S60.
  • the pattern matching engine 110 is a virtual event pattern Reads event information in the event pattern from DB125. At this time, if the processing of all event patterns has been completed, an entry end message is returned.
  • Step S555 The pattern matching engine 110 determines whether or not the event information in the event pattern has been read. If event information in the event pattern has been read, the process proceeds to step S56. If the entry has been completed, the process proceeds to step S59.
  • the pattern matching engine 110 checks whether the same event information as the event information in the event pattern read in step S54 exists in the event group read in step S52. Is determined for each event information. If the same event information as the event information to be judged is present in the event group, the event information is read in step S54 as an event log of the day 15 1 ( ⁇ ) created in the memory. Determine whether an event pattern exists. If no event log exists on the day, the process proceeds to step S57. If an event log exists on the day, the process proceeds to step S58.
  • Step S575 The pattern matching engine 110 stores the record corresponding to the event pattern read in step S54 in the memory as the work of the event log 151 on the day. Thereafter, the procedure proceeds to step S54.
  • the event pattern ID and the event detail serial number are transcribed from the event pattern extracted in step S54.
  • the number of hits is set to 1.
  • the number of event information registered in the extracted event pattern is set.
  • Step S558 The pattern matching engine 110 updates (increases by 1) the value of the number of hits in the event log 151 of the day corresponding to the event pattern read in step S54. Thereafter, the process proceeds to step S54.
  • the pattern matching engine 110 updates the pattern matching result, and advances the processing to step S52. Specifically, the pattern matching engine 110 sets information on the work table of the event group log 153 on the day. Event group ID, event serial number, event ID, customer ID, device ID, occurrence time, occurrence type, error number or message The information of the event group extracted in step S52 is transcribed. In the matching result, a flag indicating whether or not an event pattern having the same event information as the matching result is detected is set.
  • FIG. 30 is a flowchart showing the procedure of the information providing process. Hereinafter, the processing shown in FIG. 30 will be described along the step numbers.
  • the pattern matching engine 110 sorts event logs in the work table of the event log 15 1 on the day. Sorting is divided into sorting by weight and sorting by the same number of event information (the number of event information included in each event log out of the event information included in the event group). In the present embodiment, sorting by weight has higher priority. That is, the pattern matching engine 110 sorts event logs by weight, and sorts event logs having the same weight by the same number of event information.
  • Step S7 2 The pattern matching engine 110 reads the event log 15 1 on the day one by one from the top of the sorted array. If there is no event log to read, a record end message is generated.
  • Step S73 The pattern matching engine 110 determines whether or not the record has ended. The processing returns to the main processing of FIG. If an event log record has been read, the process proceeds to step S74.
  • Step S74 The pattern matching engine 110 reads countermeasure information corresponding to the event log.
  • the pattern matching engine 110 edits the event log. You. Specifically, the pattern matching engine 110 first calculates the precision. The precision is calculated as (number of hits ⁇ number of event information in event log) XI00. Next, the pattern matching engine 110 reads the record in the event log 15 1 on the day using the event pattern ID as a key.
  • Step S76 The pattern matching engine 110 outputs the precision and the result to the result storage file 155.
  • FIG. 31 is a flowchart illustrating the procedure of the past event confirmation process. Hereinafter, the processing illustrated in FIG. 31 will be described along the step numbers.
  • Step S81 The pattern matching engine 110 reads the event ID of the event log 151 on the day. At this time, if there is no record to be read, a record end message is generated.
  • Step S82 The pattern matching engine 110 determines whether or not the record has ended. If the record ends, the process returns to the main processing shown in FIG. If a record has been read, the process proceeds to step S83.
  • the pattern matching engine 110 performs a matching process with past events. Specifically, the same record is searched for from the event log 15 2 of the current month.
  • Step S84 The pattern matching engine 110 determines whether or not a matching record is found as a result of the matching in step S83. If there is a matching record, the process proceeds to step S85. If there is no matching record, the process returns to the main processing shown in Fig. 24.
  • the pattern matching engine 110 acquires one event group ID from which a matched record is recorded as an event log.
  • Step S86 The pattern matching engine 110 determines whether or not the record to be acquired in step S85 has been completed. When the record ends, the processing returns to the main processing shown in Fig. 24. If the record can be obtained, the processing is step S
  • Step S 8 7 The pattern matching engine 1 10 It is confirmed whether or not each event information in the event pattern corresponding to the read event ID exists in the event criterion corresponding to the event group ID acquired in step S85.
  • Step S888 The pattern matching engine 110 determines in the processing in step S87 whether or not all event information exists. If all event information exists, the process proceeds to step S89. Otherwise, the process proceeds to step S85.
  • Step S89 The pattern matching engine 110 outputs the time at which the event group ID acquired in step S85 was generated. Thereafter, the process proceeds to step S85.
  • FIG. 32 is a flowchart showing the procedure of the post-processing. Hereinafter, the processing illustrated in FIG. 32 will be described along the step numbers.
  • the pattern matching engine 110 reads the event log 1551 on the day.
  • Step S92 The pattern matching engine 110 determines whether or not the record has ended. If so, the process proceeds to Step S94. If not, the process proceeds to Step S93.
  • the pattern matching engine 110 accumulates the read work table of the event log 1501 of the day in the HDD or the like, and also accumulates it in the event log 1552 of the month.
  • the activity table of the event blog of the day which is the cause of extraction of the event log of the day, is stored in the HDD and the event group log of the current month. Thereafter, the process proceeds to step S91.
  • Step S94 The password matching engine 110 determines whether or not the accumulation processing has been completed normally. If the operation ends normally, the process proceeds to step S95. Otherwise, the process proceeds to step S96.
  • Step S95 The pattern matching engine 110 commits the accumulation processing. Then, the process ends.
  • Step S96 The pattern matching engine 110 performs a rollback process. Rollback processing refers to returning data to the recorded checkpoint and starting the processing again when a failure occurs in the database. Then, the process ends.
  • FIG. 33 is a diagram showing the flow of information.
  • the event group 121 includes four pieces of event information.
  • the ID of each event information included in the event group 121 is “a, b, c, d”.
  • the virtual event pattern DB 125 stores a plurality of event patterns.
  • the event pattern ID of each event pattern is referred to as “A, B, C, D,.
  • Event pattern ID The “AJ event pattern includes event information“ a, b, c, ⁇ ”.
  • the event pattern of event pattern ID “B” includes event information “a, c, ⁇ ”.
  • the event pattern of event pattern ID “C” includes event information “a, e, ⁇ ”.
  • the event pattern of event pattern ID “D” includes event information “b, c, ⁇ ”.
  • an event pattern ID “A” is extracted as an event pattern corresponding to the event information combination “a, b”.
  • the event pattern ID “A, B” is extracted as the event pattern corresponding to the event information combination “a, c”.
  • the event pattern ID “C” is extracted as the event pattern corresponding to the event information combination “a, d”.
  • the event pattern ID “D” is extracted as the event pattern corresponding to the event information combination “b, c”.
  • the event pattern corresponding to the event information combination “b, d” has not been extracted.
  • Event patterns corresponding to the event information combination “c, d” have not been extracted.
  • an event log 151 for the day is generated.
  • the event pattern ID “A, A, B, C” is associated.
  • the event pattern ID “A, D” is associated with the event information “b”.
  • Event pattern ID “A, B, D” is associated with event information “c”.
  • Event pattern ID “C” is associated with event information “d”.
  • the result storage file 1555 is generated from the event log 1515 of the day.
  • the number of hits is shown from the top in descending order of the possibility of causing a failure.
  • the number of hits for event pattern ID “A” is “4”
  • the number of hits for event pattern ID “B” is “2”
  • the number of hits for event pattern ID “C” is “2”
  • the number of hits for event pattern ID “ The number of hits for "D” is "2”.
  • the number of hits is shown in the result storage file 155. However, the precision can be calculated and set.
  • the event group 1221 is created from the related event information, and by comparing the event group with the event pattern, it is possible to extract an event cause having a high possibility.
  • the administrator of the operation management server 100 can know the cause of the damage and how to deal with it.
  • the operation management server 100 directly fetches the message corresponding to the event from the system, and performs the analysis processing by grouping the event information by the impulsive motion. Analytical processing can also be performed.
  • the event groups to be analyzed can be searched and extracted from the event group search screen, for example.
  • FIG. 34 is a diagram showing an example of the event group search screen.
  • the event group search screen 510 is a search screen for searching for event groups to be collated from the past log information (a database that stores event group logs for a predetermined period in the past) for any event group. is there.
  • the event group search screen 5110 is provided with a message designation information input section 511 and an event content designation information input section 512.
  • the customer name of the system that has output the message including the event information and the search period can be input. Then, an event group matching the information input to the message specification information input section 5 1 1 is searched. Is done.
  • the event content specification information input section 5 1 2 is provided with a cause input area and a response input area. Checkboxes are associated with these input areas, and the input areas for which the check boxes are selected are valid as search keys. The event group log is searched based on the information input in the event content specification information input section 512.
  • event drops are extracted and displayed on the screen.
  • FIG. 35 shows an example of the event selection screen.
  • the event selection screen 520 On the event selection screen 520, a list of event information included in the event group log extracted by the search or the like is displayed. Select part 5 2 1 of the displayed event information. Using the selected event information as one event group, it is possible to analyze the cause of failure.
  • the specified event group is analyzed in various procedures, and when the result storage file 155 is generated, the contents are displayed on the analysis result display screen.
  • FIG. 36 is a diagram showing an example of the analysis result display screen.
  • the analysis result display screen 530 is provided with a selected message display field 531, a search condition display field 532, and an event message display field 5333.
  • the selected message display column 531 shows the contents of the event information of the selected event group.
  • the search condition display column 5 32 a list of the causes of the related event patterns and countermeasures is displayed.
  • the message within the event display column 5 3 3 shows the content of the event information defined in the event pattern.
  • the failure content is analyzed based on the error event generated by the server.
  • the failure content can be analyzed according to the operation input.
  • the fault location and the like are specified based on the event information output as a result of the fault occurrence. Failure points and the like can be specified.
  • the content can be specified automatically.
  • a set of multiple commands that cannot be executed at the time of inquiry is stored as a pattern definition group, and if that command set is entered, the cause of the failure and the countermeasures (for example, By displaying (Stop Application), the user's erroneous operation can be corrected.
  • an error may occur due to processing outside the restrictions of one of the applications.
  • the user is not allowed to modify an application program that performs processing outside the restrictions. Therefore, when an operation input for instructing duplicate execution that causes an error is performed, an error is avoided by presenting the user with an alternative operation input method for obtaining a desired processing result without causing an error. Can be done.
  • Such processing can be realized with the same configuration as in FIG. However, a message indicating the operation input content is sent from the server or another terminal device to the operation management server 100, and the operation management server 100 stores the message in the history table. .
  • the operation management server 100 is provided with an operation pattern DB for storing an operation pattern in which a failure occurs.
  • FIG. 37 is a diagram showing an example of the data structure of the history table.
  • the history table 610 has columns for date and time of occurrence, command name, and server name.
  • the occurrence date and time is the time when the operation management server 100 receives a message indicating the content of the operation input.
  • the command name is the content of the command entered.
  • the server name is the message
  • FIG. 38 is a diagram illustrating a data structure example of the operation pattern DB.
  • the operation pattern DB620 has columns for operation pattern code, operation pattern, phenomenon, cause, and remedy.
  • the operation pattern code is an identification number of each operation pattern.
  • An operation pattern is a set of commands that cause a failure or the like.
  • the phenomenon is the nature of the failure.
  • the cause is the cause of the failure.
  • the response is a response method to avoid the failure.
  • mail email startup command
  • editing hosts file
  • vi edit startup command
  • Such an operation pattern matches the operation pattern code “s00000002” of the operation pattern DB620. Therefore, the operation management server 100 displays the phenomenon, cause, and countermeasure information of the corresponding operation pattern on the user terminal device. The user confirms the phenomenon and can recognize that the phenomenon indicated by the operation pattern code “s00000002” has occurred if the indicated message is the same as the phenomenon that actually occurred. There, the user can remove the cause of the failure by referring to the cause and action.
  • the above processing functions can be realized by a computer. In this case, a program that describes the processing contents of the functions that the operation management server should have is provided. By executing the program on a computer, the above processing functions are realized on the computer. The program describing the processing content can be recorded on a computer-readable recording medium.
  • Computer-readable recording media include magnetic recording devices, optical disks, magneto-optical recording media, and semiconductor memories.
  • Magnetic recording devices include hard disk drives (HDD), flexible disks (FD), and magnetic tapes.
  • the optical disc includes a digital versatile disc (DVD), a random access memory (DVD-RAM), a compact disc read only memory (CD-ROM), and a recordable (CD-R) / RW (Re Writable).
  • Magneto-optical recording media include M ⁇ (Magneto-Optical disc).
  • D Portable recording media such as VD and CD-ROM are sold.
  • the program can be stored in a storage device of the server computer, and the program can be transferred from the server computer to another computer via a network.
  • the computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. It should be noted that the computer can read the program directly from the portable recording medium and execute processing according to the program. Further, the computer can execute the processing according to the received program each time the program is transferred from the server computer.
  • event information output from a monitoring target element in a server is grouped, and failure countermeasure information corresponding to a pattern definition group similar to the grouped event groups is extracted.
  • failure countermeasure information corresponding to a pattern definition group similar to the grouped event groups is extracted.

Abstract

 障害箇所をソフトウェア単位で特定できるようにする。監視対象要素で発生したイベント情報を収集する(ステップST1)。次に、収集した複数のイベント情報をグループ化してイベントグループを生成する(ステップST2)。さらに、障害発生時に出力されるイベント情報の発生パターンが定義された複数のパターン定義グループとイベントグループとの間でイベント情報の発生パターンを照合する(ステップST3)。そして、イベント情報の発生パターンが類似するパターン定義グループに予め関連付けられた障害対策情報を抽出する(ステップST4)。

Description

明 細 書 運用管理方法および運用管理サーバ 技術分野
本発明は監視対象装置の運用管理行うための運用管理方法、 運用管理サーバ、 運用管理プログラム、 および運用管理プログラムを記録したコンピュータ読み取 り可能な記録媒体に関し、 特に監視対象装置の障害対策に有効な運用管理方法、 運用管理サーバ、 運用管理プログラム、 および運用管理プログラムを記録したコ ンピュー夕読み取り可能な記録媒体に関する。 背景技術
インターネット環境が普及している昨今では、 システムの信頼性強化策として システムの多重化が行われている。 システムを多重化することにより、 一部のシ ステムに障害が発生しても、 他のシステムを利用して支障なく運用を継続するこ とができる。
一般に、 サーバで障害等のイベントが発生すると、 そのサーバから他の装置 (たとえば、 運用管理サーバ) に対してメッセージが送信される。 多重化された システムでは、 1つの障害が発生すると、 障害が発生した機能に関連する他の機 能からもエラ一メッセージが出力される。 そのため、 あるサーバで異常が発生し た場合、 エラーメッセージを出力するサーバは 1つとは限らず、 関連する他のサ
—バからもエラーメッセージが出力される。
このように障害箇所とは別のサーバからもエラーメッセージが出力されると、 障害箇所の特定が困難となる。 従来は、 ネットワーク等に精通した技術者が、 過 去の経験と照らし合わせて、 障害箇所を特定していた。 そのため、 技術者の能力 によっては、 障害の復旧に長い時間を要する場合があった。 このとき、 企業内の ネッ卜ワークが停止すると、 その企業の業務遂行に多大な影響を及ぼす。'そのた め、 技術者の経験則に頼らずに、 ネットワークを迅速に復旧できることが望まれ ていた。 - そこで、 ネットワークの障害箇所と、 その障害の発生時に発行される障害通知 情報の時系列パターンとの対応関係をデータべ一スに保持し、 実際にネッ卜ヮー クから通知される障害通知情報とデータべ一スの内容とを照合することで障害箇 所を特定する発明が考えられた。 これにより、 障害箇所を自動的に特定すること ができ、 ネットワークを迅速に復旧させることができる。 たとえば、 特開 2 0 0 1 - 2 5 7 6 7 7号公報 (第 1図) 参照。
しかし、 特開 2 0 0 1—2 5 7 6 7 7号公報 (第 1図) で対象としている障害 は、 ネッ卜ワーク上の通信障害であるため、 サーバ上で実行されるアプリケーシ ヨン等の障害については考慮されていない。 したがって、 サーバ上で実行される アプリケーション、 ミドルウェア、 O S (Operating System)等が発生したエラ ーメッセ一ジを利用した障害箇所の判定までは行われていない。
すなわち、 1つの障害に関し、 1つのサーバから複数のエラーメッセージが出 力される場合、 従来の技術では障害箇所を特定することができない。 たとえば、 サ一バ上で実行されていたアプリケーションが停止した場合、 アプリケ一シヨン 自身がエラーメッセージを出力すると共に、 そのアプリケーションに関連するミ ドルウェアや O Sもエラ一メッセージを出力する場合がある。 しかも、 複数のサ ーバが連携して動作している場合、 障害の発生原因となったアプリケ一ションが 実行されるサーバとは異なるサーバ上のァプリケーシヨンからエラ一メッセ一ジ が出されることもある。
このように、 多機能のコンピュータシステム上で障害が発生すると、 1つの障 害に対して、 複数のサーバ上の様々なアプリケーションからエラーメッセージが 出力される。 そのため、 個別のメッセージを参照しただけでは、 エラ一の原因や エラーの発生場所を、 サーバ内のソフトウェア単位で特定するのが困難である。 さらに、 マルチタスク、 マルチスレッド等のシステム環境では、 メモリ管理等 の問題により、 個別のアプリケ一シヨンでは異常になっていないにも拘わらず、 性能が低下したり、 使用しているミドルウェアが原因不明でストップしたり等の 障害が発生する。 このような場合、 障害が表面化したソフトウェアとは別の部分 に原因が存在し、 その原因を特定するのがさらに困難となっている。 発明の開示
本発明はこのような点に鑑みてなされたものであり、—障害箇所をソフトウェア 単位で特定できる運用管理方法、 運用管理サーバ、 運用管理プログラム、 および 運用管理プログラムを記録したコンピュータ読み取り可能な記録媒体を提供する ことを目的とする。
本発明では上記課題を解決するために、 図 1に示すような運用管理方法が提供 される。 本発明に係る運用管理方法は、 運用管理を行うためのものである。 運用 管理方法では、 以下の処理が行われる。 まず、 サーバで実行される複数の機能を 監視対象要素として、 監視対象要素で発生したイベント情報を収集する (ステツ プ S T 1 ) 。 次に、 収集した複数のイベント情報をグループィヒしてイベントダル ープを生成する (ステップ S T 2 ) 。 さらに、 障害発生時に複数の監視対象要素 それぞれから出力されるイベント情報の発生パターンが定義された複数のパター ン定義グループとイベントグループとの間でイベント情報の発生パターンを照合 する (ステップ S T 3 ) 。 そして、 イベントグループに対してイベント情報の発 生パターンが類似するパターン定義グループに予め関連付けられ、 嫜害原因とな る前記監視対象要素を示す障害対策情報を抽出する (ステップ S T 4 ) 。
このような運用管理方法によれば、 監視対象要素で発生したィベント情報が収 集、 グループ化され、 イベントグループが生成される。 すると、 複数のパターン 定義グループとイベントグループとの間でイベント情報の発生パターンが照合さ れ、 発生パターンが類似するパターン定義グループに予め関連付けられ、 障害原 因となる前記監視対象要素を示す障害対策情報が抽出される。
また、 上記課題を解決するために、 サーバの運用管理を行うための運用管理方 法において、 前記サーバに対して入力されたコマンドを収集し、 収集した複数の 前記コマンドをグループ化して操作履歴情報を生成し、 障害発生の要因となるコ マンド入力パターンが定義された複数の操作パターン情報と前記操作履歴情報と の間で前記コマンドの入力パターンを照合し、 前記操作履歴情報に対して前記コ マンドの入力パターンが類似する前記操作パターン情報に予め関連付けられ、 障 害原因となる前記監視対象要素を示す障害対策情報を抽出する、 ことを特徴とす る運用管理方法が提供される。 このような運用管理方法によれば、 サーバに対して入力されたコマンドが収集、 グループ化され、 操作履歴情報が生成される。 次に、 操作パターン情報と操作履 歴情報との間でコマンドのパターンが照合され、 入力パターンが類似する操作パ 夕一ン情報に予め関連付けられ、 障害原因となる前記監視対象要素を示す障害対 策情報が抽出される。
本発明の上記および他の目的、 特徴および利点は本発明の例として好ましい実 施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。 図面の簡単な説明
図 1は、 実施の形態に適用される発明の概念図である。
図 2は、 トラブル情報回帰型解決方法の運用例を示す図である。
図 3は、 メッセージ正規化処理を示す図である。
図 4は、 構成管理データの構造例を示す図である。
図 5は、 ィベント情報のグループ化処理を示す概念図である。
図 6は、 照合処理を示す模式図である。
図 7は、 イベントグループの照合および対策情報出力例を示す図である。
図 8は、 照合結果のソート手順を示す図である。
図 9は、 照合部における処理手順を示すフローチャートである。
図 1 0は、 障害検出機能を提供するためのシステム構成例を示す図である。 図 1 1は、 本発明の実施の形態に用いる運用管理サーバのハードウェア構成例 を示す図である。
図 1 2は、 運用管理サーバの内部構成を示すブロック図である。
図 1 3は、 ハードウェア構成情報のデータ構造例を示す図である。
図 1 4は、 ソフトウェア構成情報のデータ構造例を示す図である。
図 1 5は、 ネットワーク構成情報のデータ構造例を示す図である。
図 1 6は、 システム構成情報のデ一夕構造例を示す図である。
図 1 7は、 メッセ一ジグループ化処理の手順を示すフロ一チャートである。 図 1 8は、 イベントグループ化例を示す図である。
図 1 9は、 イベントグループログのデータ構造例を示す図である。 図 2 0は、 顧客 D Bのデータ構造例を示す図である。
図 2 1は、 事象パターン D Bのデータ構造例を示す図である。
図 2 2は、 当日事象ログのデータ構造例を示す図である。
図 2 3は、 当日イベントグループログのデータ構造例を示す図である。
図 2 4は、 パターンマッチング処理の手順を示すフローチャートである。 図 2 5は、 前処理の詳細を示すフローチャートである。
図 2 6は、 重複イベントフィルタリング処理の手順を示すフローチャートであ る。 ' 図 2 7は、 事象パターン抽出処理の手順を示すフローチャートである。
図 2 8は、 仮想事象パターン D Bのデータ構造例を示す図である。
図 2 9は、 組み合わせマッチング処理の手順を示すフローチャートである。 図 3 0は、 情報提供処理の手順を示すフローチャートである。
図 3 1は、 過去の事象確認処理の手順を示すフローチャートである。
図 3 2は、 後処理の手順を示すフローチャートである。
図 3 3は、 情報の流れを示す図である。
図 3 4は、 イベントグループ検索画面の一例を示す図である。
図 3 5は、 イベント選択画面の例を示す図である。
図 3 6は、 分析結果表示画面の例を示す図である。
図 3 7は、 履歴テーブルのデータ構造例を示す図である。
図 3 8は、 操作パターン D Bのデータ構造例を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照して説明する。
まず、 実施の形態に適用される発明の概要について説明し、 その後、 実施の形 態の具体的な内容を説明する。
図 1は、 実施の形態に適用される発明の概念図である。 図 1では、 運用管理サ ーバ 1が、 本発明に係る運用管理方法を実行する。 運用管理サーバ 1は、 複数の サーバ 2 ~ 4に接続されている。 サーバ 2では、 アプリケーション 2 a、 ミドル ウェア 2 b、 および O S 2 cが実行されている。 アプリケーション 2 a、 ミドル ウェア 2 b、 および O S 2 cが、 運用管理サーバ 1による監視対処要素である。 他のサーバ 3 , 4においても、.同様のソフトウェアが実行されている。
また、 運用管理サーバ 1には、 予めパターン定義グループデータベース (D B ) 1 aと障害対策情報データベース (D B) l bとが設けられている。 パター ン定義グループ D B 1 aには、 障害発生時に複数の監視対象要素それぞれから出 力されるイベント情報の発生パターンが定義された複数のパターン定義グループ が格納されている。 障害対策情報 D B 1 bには、 パターン定義グループに予め関 連付けられ、 障害原因となる監視対象要素を示す障害対策情報が格納されている。 障害対策情報には、 障害箇所、 障害原因、 障害に対する対策方法が含まれる。 こ こで、 運用管理サーバ 1は、 以下の処理を実行する。
運用管理サーバ 1は、 まず、 サーバで実行される複数の機能を監視対象要素と して、 監視対象要素で発生したイベント情報を収集する (ステップ S T 1 ) 。 次 に、 運用管理サーバ 1は、 収集した複数のイベント情報をグループィ匕してィベン トグル一プを生成する (ステップ S T 2 ) 。 さらに、 運用管理サーバ 1は、 パタ —ン定義グループ D B 1 a内の各パターン定義グループとイベントグループとの 間でイベント情報の発生パターンを照合する (ステップ S T 3 ) 。 そして、 運用 管理サ一パ 1は、 イベントグループに対してィベント情報の発生パターンが類似 するパターン定義グループに予め関連付けられ、 障害原因となる監視対象要素を 示す障害対策情報を、 障害対策情報 D B 1 bから抽出する (ステップ S T 4 ) 。 ここで、 イベント情報の発生パターンが類似する場合とは、 たとえば、 共通のィ ベント情報が少なくとも 1つ存在する場合である。
このような運用管理方法によれば、 監視対象要素で発生したィベント情報が収 集、 グループ化され、 イベントグループが生成される。 すると、 複数のパターン 定義グループとイベントグループとの間でイベント情報の発生パターンが照合さ れる。 次に、 発生パターンが類似するパターン定義グループに予め関連付けられ た障害対策情報が抽出される。
これにより、 抽出された障害対策情報に基づいて、 障害箇所、 障害原因、 障害 に対する対策方法を、 運用管理サーバの管理者が認識することができる。 なお、 該当するパタ一ン定義グループが発見されなかったイベントグループに関しては、 障害解決後、 対応するパターン定義グループをパターン定義グループ D B 1 aに 格納し、 障害対策情報を障害対策情報 D B 1 bに格納する。 これにより、 障害の 対策方法等が、 障害解決を行う作業者に適宜フィードバック (再利用) される。 このような運用管理方法を用いれば、 作業者の能力に拘わらず、 障害の解決時 間を短縮することができる。 しかも、 過去の障害の内容をパターン定義グループ や障害対策情報として蓄積することで、 2度目以降の障害に対して、 迅速に対応 することができる。 また、 新規の障害を発見し、 修復したときは、 その内容をパ ターン定義グループや障害対策情報に反映させておけば、 人づてに障害報告を行 う必要が無くなる。 その結果、 人為的な不手際によるトラブルシューティングの 長期化を防止することができる。
次に、 本実施の形態における障害検出機能 (トラブル情報回帰型解決方法) の 概念を説明する。
図 2は、 トラブル情報回帰型解決方法の運用例を示す図である。 図 2に示す様 に複数のサーバ 1 1 , 1 2と運用管理サーバ 2 0とがネットワーク 1 3で接続さ れている。 サ一バ 1 1には、 ハード監視、 ソフト監視、 性能監視、 セキュリティ 監視、 および構成監視等の監視機能が組み込まれている。 サーバ 1 2にも同様の 監視機能が組み込まれている。
ハ一ド監視機能は、 サーバ内のハードウェアの動作 (たとえば、 ハードデイス ク装置の書き込みエラー発生率等) を監視する。 ソフト監視機能は、 各ソフトゥ エア (〇S、 ミドルウェア、 アプリケーション) 毎に設けられ、 対応するソフト ウェアの動作を監視する。 性能監視機能は、 動作状態 (たとえば、 メモリの空き 容量) を監視する。 セキュリティ監視機能は、 サーバ 1 1に対する不正アクセス 等を監視する。 構成監視機能は、 サーバ 1 1の構成変更等を監視する。
各監視機能は、 エラ一などの所定の事象が発生すると、 エラーイベントを発生 させる。 エラーイベントの内容を示すイベント情報がメッセージ 3 1, 3 2とし て、 ネットワーク 1 3を介して運用管理サーバ 2 0に送られる。 メッセージ 3 1, 3 2には、 たとえば、 サーバ 1 1 , 1 2が発生するログ情報や、 構成変更等の情 報が含まれる。
運用管理サーバ 2 0は、 イベント抽出テーブル 2 1、 パターン定義グループ 2 2、 対策情報テーブル 2 3、 メッセージ正規化部 2 4、 グループ化部 2 5、 照合 部 2 6、―および対策出力部 2 7を有している。 .—
イベント抽出テーブル 2 1は、 受信したメッセージから必要なイベント情報を 抽出するための規則が定義された情報テーブルである。
パターン定義グループ 2 2は、 障害発生時に検出されるべきイベントの組み合 わせを定義した情報である。
対策情報テーブル 2 3は、 障害発生時のイベントパターンに応じた障害対策に 関する情報が登録された情報テーブルである。
メッセージ正規化部 2 4は、 サーバ 1 1, 1 2からのメッセージを受け取り、 所定のデータ構造に正規化する。 具体的には、 メッセージ正規化部 2 4は、 メッ セージを受け取ると、 イベント抽出テーブル 2 1を参照し、 受信したメッセージ に適用すべきイベント情報の抽出規則を取得する。 そして、 メッセージ正規化部 2 4は、 取得した規則に従って、 メッセージからイベント情報を抽出する。
グループ化部 2 5は、 メッセージ正規化部 2 4で抽出されたイベント情報を、 関連性のあるもの同士でグループ化する。 たとえば、 監視対象要素同士 (装置、
〇s、 ミドルウェア、 アプリケーション等) の関連性が予め定義されており、 関 連する監視対象要素から短時間 (具体的な時間は、 予め設定されている) に出力 されたメッセージのイベント情報は、 互いに関連するものと判断する。 グループ 化部 2 5がイベント情報のグループ化を行った結果、 イベントグループ 3 3が生 成される。 イベントグループ 3 3は、 関連のあるイベント情報の集合である。 照合部 2 6は、 イベントグループ 3 3とパターン定義グループ 2 2とを照合し、 イベントグループ 3 3と同一もしくは類似のパターン定義グループ 2 2を検出す る。
対策出力部 2 7は、 対策情報テーブル 2 3を参照し、 検出されたパターン定義 グループ 2 2に対応する対策情報を取得する。 そして、 対策出力部 2 7は、 取得 した対策情報を、 運用管理サーバ 2 0に接続された端末装置等に表示させる。 このような構成のシステムにおいて、 サーバ 1 1, 1 2から出力され運用管理 サーバ 2 0に入力されたメッセージ 3 1 , 3 2は、 以下のように処理される。 まず、 メッセージ 3 1 , 3 2は、 メッセージ正規化部 2 4により正規化され、 イベント情報が生成される。
図.3は、 メッセージ正規化処理を示す図である。 図 3の例では、 メッセージ 3 1 , 3 2はシリアル N o . 、 時刻、 ホスト名、 およびイベント内容の情報を含ん でいる。 シリアル N o . は、 メッセージを一意に識別するための識別番号である。 時間は、 イベントの発生時刻である。 ホスト名は、 メッセージを出力したサーバ のネットワーク 1 3上での名称である。 イベント内容は、 サーバ内の監視機能を 出力したイベントの内容である。
このようなメッセージ 3 1 , 3 2をメッセージ正規化部 2 4が受け取ると、 メ ッセ一ジ正規化部 2 4は、 イベント抽出テ一ブル 2 1を参照する。
イベント抽出テーブル 2 1には、 HW (ハードウェア) または S W (ソフトゥ エア) 名、 キーワード、 抽出方法の欄が設けられている。 各欄の横方向に並べら れた情報同士が互いに関連づけられて、 メッセージ情報の抽出規則を構成してい る。 HWまたは S W名は、 イベントの発生原因となった要素の名称である。 キー ワードは、 イベントの発生原因となる要素を特定するための情報である。 抽出方 法は、 メッセージから必要なエラーコードを抽出するための規則である。
メッセージ正規化部 2 4は、 イベント抽出テーブル 2 1を参照することで、 メ ッセ一ジ 3 1, 3 2からイベント情報 3 1 a , 3 2 aを生成することができる。 具体的には、 メッセージ 3 1 , 3 2を受け取ると、 メッセージ正規化部 2 4は、 イベント抽出テーブル 2 1のキーワード欄を参照し、 イベント本文に含まれるキ 一ワードを検索する。 メッセージ正規化部 2 4は、 検出されたキーワードに対応 する抽出方法を参照し、 その抽出方法に従って、 イベント内容から必要なエラー コードを抽出する。
たとえば、 メッセージ 3 1が入力されると、 イベント抽出テーブル 2 1からキ 一ワード 「Kernel」 が検出される。 そこで、 そのキーワードに対応する抽出方 法 门 の後ろのスペース以降" : " が入るまで」 に従って、 エラーコード 「 WARNING 999」 が抽出される。
メッセージ正規化部 2 4は、 エラ一コードを含むイベント情報 3 1 a, 3 2 a を生成する。 イベント情報 3 1 a, 3 2 aには、 シリアル N o . 、 時刻、 ホスト 名、 HWまたは S W名およびエラーコードが含まれる。 シリアル N o . 、 時刻、 およびホスト名については、 メッセージ 3 1 , 3 2から抽出される。 HWまたは S W名およびエラ一コ_ードは、.イベント抽出テーブル 2 1内の検出されたキーヮ 一ドに関連付けられた情報である。
このようにして、 正規化されたイベント情報 3 1 a, 3 2 aが抽出される。 次に、 グループ化部 2 5により、 関連するイベント情報がグループ化される。 たとえば、 グループィヒ部 2 5は、 監視対象要素同士の関連性が予め定義された構 成管理データを有する。
図 4は、 構成管理データの構造例を示す図である。 図 4に示す構成管理データ では、 監視対象要素が階層構造で管理されている。 上層からシステム 5 1 , 5 2、 ルータ 5 3, 5 4、 サーバ 5 5〜5 9およびストレージ 6 0、 ミドルウェア 6 1 〜6 3、 アプリケーション 6 4〜6 6の順となっている。
システム 5 1 , 5 2は、 たとえば、 顧客毎のネットワークシステムを示す。 ル —夕 5 3 , 5 4は、 システム 5 1 , 5 2に関連付けられており、 システム 5 1 , 5 2にアクセスするためのバケツトを中継するルータの識別情報を示している。 サーバ 5 5〜5 9は、 ルー夕 5 3 , 5 4に関連付けられており、 システム 5 1 , 5 2内に構築されたサーバの識別情報を示している。 ストレージ 6 0は、 ルー夕 5 4に関連付けられており、 システム 5 2内のストレージデバイスの識別情報を 示している。 ミドルウェア 6 1〜6 3は、 サ一バ 5 5に関連付けられており、 サ —バ 5 5に実装されたミドルウェアの識別情報を示している。 アプリケーション 6 4〜6 6は、 ミドルウェア 6 1に関連付けられており、 そのミドルウェア 6 1 で管理されているアプリケーションソフトウエアの識別情報を示している。
このように、 監視対象要素間の関連づけをグループ化部 2 5に定義しておくこ とで、 グループ化部 2 5は、 関連性のあるイベント情報を判別することができる。 すなわち、 グループィ匕部 2 5は、 木構造の祖孫関係で関係づけられた監視対象要 素から出力されたイベント情報同士が、 互いに関連するものと判断する。
なお、 図 4に示した構成管理データを、 保守作業中に関するイベント抑止に利 用することもできる。 すなわち、 保守作業を行う場合、 監視対象要素のイベント 発生を抑止しておく必要がある。 そのとき、 保守作業対象である監視対象要素よ りも下位に位置する監視対象要素からのイベント発生も抑止することが望まれる。 すなわち、 上位の監視対象要素 (たとえば、 ミドルウェア) の保守作業中は、 下位の監視対象要素 (たとえば、 アプリケーション) において障害が発生してい なくても、 エラーイベントが出力される場合がある。 そこで、 保守作業時には、 作業対象よりも下位の監視対象要素におけるイベント発生を抑止しておくことで、 保守作業中の無^:なイベント出力を停止させることができる。
たとえば、 図 4に示したルー夕 5 3を保守する場合、 ル一夕 5 3の下位に属す るサーバ 5 5〜 5 7、 ミドルウェア 6 1〜6 3、 アプリケーション 6 4〜 6 6が、 保守時のエラー発生対象として想定される。 したがって、 これらの下位構造から のイベント出力を抑止する。 なお、 イベント抑止のために、 グループ化部 2 5は、 保守作業を行う監視対象要素が指定されると、 構成管理データに基づいて抑止対 象を選定する。 そして、 グループ化部 2 5は、 抑止時間を指定して、 イベント発 生抑止の情報を、 抑止対象となる監視対象要素に対して送信する。
また、 保守作業時に、 保守対象からイベントが発生することもある。 このとき 発生したイベントはグループ化され、 保守対象異常時のパターン定義グループと して保持される。
このように、 グループ化部 2 5は、 構成管理データを利用して、 イベント情報 同士の関連性を判断し、 ィベント情報のグループィ匕を行う。
図 5は、 イベント情報のグループ化処理を示す概念図である。 図 5に示すよう に、 メッセージ正規化部 2 4で正規化されたイベント情報 7 1〜7 3がグループ 化部 2 5に入力されると、 関連するイベント情報によりイベントグループ 3 3が 生成される。 イベントグループ 3 3には、 各イベントグループを一意に識別する ための I D (識別子) が振られている。 他の内容は、 イベント情報と同じである。 生成されたイベントグループ 3 3は、 照合部 2 6に渡される。 照合部 2 6では、 イベントグループ 3 3とパターン定義グループ 2 2との照合が行われる。
図 6は、 照合処理を示す模式図である。 パターン定義グループ 2 2には、 ハ一 ドウエア事象、 O S事象、 ミドルウェア、 アプリケーションから、 障害発生時に 出力されるイベントの組み合わせが登録されている。 照合部 2 6は、 このパター ン定義グループ 2 2とイベントグループ 3 3とを照合 (マッチング) することで、 イベントグループ 3 3の発生原因となった障害を判定する。 イベントグループ 3 3に対応するパターン定義グループが特定されると、 その パターン定義グループに対応する対策情報が抽出される。
図 7は、 イベントグループの照合および対策情報出力例を示す図である。 図 7 に示すように、 イベントグループ 3 3 aの HWまたは S W名およびエラーコード の項目と、 パターン定義グループ 2 2 aの HWまたは S W名およびエラーコード の項目が一致している。 そこで、 対策出力部 2 7は、 パターン定義グループ 2 2 aの I D 「PT0008」 に対応する対策情報を、 対策情報テーブル 2 3から検索す る。
対策情報テ一ブル 2 3には、 I D、 原因、 対策、 緊急レベルの欄が設けられて いる。 各欄の横方向に並べられた情報同士が互いに関連づけられている。 I Dは、 対策情報を一意に識別するための識別情報である。 対策情報の I Dは、 対応する パターン定義グループの I Dの下 4桁が共通となっている。 すなわち、 I D 「PT0008」 のパターン定義グループには、 I D 「000008」 の対策情報 2 3 aが 対応する。 原因は、 障害の原因を示す情報であり、 原因となる監視対象要素 (た とえば、 ディスク) に関する情報を含んでいる。 対策は、 障害に対する対策方法 を示す情報である。 緊急レベルは、 障害の重要度を示しており、 緊急に対処する 必要がある障害ほど、 緊急レベルの値が大きい。
図 7の例では、 パターン定義グループ 2 2 aに対応する対策情報が対策出力部 2 7によって抽出される。 対策情報 2 3 aによれば、 障害の原因は 「ディスク破 損によるクラスタ切り替えが発生した。 」 ことであり、 対策方法は 「システム復 旧後 D Bのリカバリを実行してください。 」 である。 また、 この対策情報の緊急 レベルは 「2」 である。
なお、 照合部 2 6は、 イベントグループと完全に一致するパターン定義グルー プを抽出するだけではなく、 類似するパターン定義グループも抽出する。 この際、 照合部 2 6は、 抽出したパターン定義テーブルに一致数と端数との情報を付与す る。 一致数は、 一致したイベント情報の数である。 端数は、 不一致のイベント情 報の数である。 パターン定義グループ内のイベント情報が不足している場合、 端 数の符号がマイナスとなる。 また、 パターン定義グループ内のイベント情報が過 多である場合、 端数の符号がプラスとなる。 対策出力部 27は、 対策情報を表示する際に、 対応するパターン定義グループ とイベントグループと ©—致数や端数に応 てソートして、 各パターン定義ダル ープの対策情報を表示する。
図 8は、 照合結果のソート手順を示す図である。 図 8では、 イベントグループ 81と 6つのパ夕一ン定義グループとを照合している。 なお、 パターン定義ダル —プの IDを、 それぞれ PT 1、 ΡΤ2、 ΡΤ3、 ΡΤ4、 ΡΤ5、 ΡΤ6とす る。
[ST 1] まず、 照合部 26が、 イベントグループ 81と各パターン定義ダル 一プとを照合する。 図 8の例では、 イベントグループ 81には、 イベント情報 「a, b, c, d」 が含まれる。 I D 「PT1」 のパターン定義グループには、 イベント情報 「a, b, c」 が含まれる。 I D 「PT2」 のパターン定義ダレー プには、 イベント情報 「a, c」 が含まれる。 ID 「PT3」 のパターン定義グ ループには、 イベント情報 「a, X, y, x, q」 が含まれる。 I D 「PT4」 のパターン定義グループには、 イベント情報 「a, b, c, d, y」 が含まれる。 ID 「PT5」 のパターン定義グループには、 イベント情報 「a, b, c, d」 が含まれる。 ID 「PT6」 のパターン定義グループには、 イベント情報 「d」 が含まれる。
各パターン定義グループの照合の結果、 各パターン定義グループの一致数と端 数とが算出される。 I D 「PT1」 のパターン定義グループは、 一致数 「3」 、 端数 「一 1」 である。 I D 「ΡΤ2」 のパターン定義グループは、 一致数 「2」 、 端数 「_2」 である。 ID 「PT3」 のパターン定義グループは、 一致数 「1」 、 端数 「+4」 である。 I D 「PT4」 のパターン定義グループは、 一致数 「4」 、 端数 「+ 1」 である。 ID 「PT5」 のパターン定義グループは、 一致数 「4」 、 端数 「0」 である。 ID 「PT6」 のパターン定義グループは、 一致数 「1」 、 端数 「一 3」 である。
[ST2] 照合結果を受け取った対策出力部 27は、 まず、 一致数によりパタ —ン定義グループをソートする。 この場合、 一致数が多いほど、 上位に並べられ る。 すると、 「ΡΤ4」 、 「ΡΤ5」 、 「ΡΤ1」 、 「ΡΤ2」 、 「ΡΤ3」 、 「ΡΤ6」 の順となる。 [ST 3] 次に、 対策出力部 27は、 端数によりソートする。 この場合、 端数 の絶対値が少ないほど、 上位に べられる。 すると、 「PT5」 、 「ΡΤ4」 、 「ΡΤ 1」 、 「ΡΤ2」 、 「ΡΤ6」 、 「ΡΤ3」 の順となる。
[ST4] 最後に対策出力部 27は、 各パターン定義グループに対応する対策 情報における緊急レベルを参照する。 そして、 緊急レベルが所定値より高い (緊 急レベルを示す値が大きい) 対策情報を、 強調表示対象とする。 たとえば 「ΡΤ 2」 と 「ΡΤ5」 とのパターン定義グループに関する対策情報の緊急レベルが高 ければ、 それらの対策情報が強調表示対象となる。
対策出力部 27は、 監視対象システムで発生したイベントに対する対策情報を、 ソート順に表示すると共に、 表徴表示対象となっている対策情報を強調表示する。 強調表示手段としては、 たとえば、 他の対策情報とは異なる色で表示する。
図 9は、 照合部における処理手順を示すフローチヤ一トである。 以下、 図 9に 示す処理をステップ番号に沿って説明する。
[ステップ S 101] 照合部 26は、 イベントグループ 33を取得する。 この とき、 取得したイベントグループ 33に含まれるイベント情報の数を Ν (Νは自 然数) とする。
[ステップ S 102] 照合部 26は、 重複イベントフィルタリングを行い、 複 数のパターン定義ダル一プ 22が格納されたデ一夕ベースから、 仮想テーブルを 作成する。 仮想テーブルは、 処理対象となるシステムに適用可能なパターン定義 グループ 22のみを抽出したデータベースである。 なお、 仮想テーブルは、 各シ ステムに発生し得る共通のパターン定義グループが格納されたデータベース、 顧 客毎のシステム構成に応じて発生し得るパターン定義グループが格納されたデー 夕ベース、 およびパターン定義グループに対応する障害情報が格納されたデータ ベース等で構成される。
[ステップ S 103] 照合部 26は、 変数 Iに 1を設定し (1 = 1) 、 変数 J に Nを設定する (J=N) 。 その後、 ステップ S 104〜S 106の処理が並列 に実行される。
[ステップ S 104] 照合部 26は、 障害情報格納されたデータベースから、 I番目のイベント情報に関連付けられた障害情報を検索する。 [ステップ S 105] 照合部 26は、 顧客毎のシステム構成に応じて発生し得 るやパターン定義グループが格納されたデータベースから、 I番目のイベント情 報に関連付けられたパターン定義グループを検索する。
[ステップ S 106] 照合部 26は、 各システムに発生し得る共通のパターン 定義グループが格納されたデータベースから、 I番目のイベント情報に関連付け られたパターン定義グループを検索する。
[ステップ S 107] 照合部 26は、 J= Iか否かを判断する。 J = Iであれ ば処理がステップ S 109に進められ、 そうでなければ処理がステップ S 108 に進められる。
[ステップ S 108] 照合部 26は、 Iをインクリメントする (I = I + 1) 。 その後、 ステップ S 104:〜 S 106の処理に進められる。
[ステップ S 109] 照合部 2'6は、 Iに 1を設定し (1 = 1) 、 変数 Jに検 出されたパターン定義グループ数を設定する。
[ステップ S 1 10] 照合部 26は、 ステップ S 105, S 106で検出され た I番目のパターン定義グループを選択し、 イベントグループと重複するィベン ト情報を抽出し、 その数を数える。
[ステップ S 111] 照合部 26は、 I = Jか否かを判断する。 J =- Iであれ ば処理がステップ S 113に進められ、 そうでなければ処理がステップ S 112 に進められる。
[ステップ S 112] 照合部 26は、 Iをインクリメントする (I = I + 1) 。 その後、 ステップ S 110の処理に進められる。
[ステップ S 113] 照合部 26は、 イベントをソートする。
[ステップ S 114] 照合部 26は、 過去の同一事象の有無を確認する。
[ステップ S 1 15] 対策出力部 27は、 イベント情報の少なくとも一部が一 致したパターン定義グループの対策情報 (障害原因や対策方法を含む) を表示す る。
以上のようにして、 システム内で発生したイベントの情報を集めてイベントグ ループに応じて、 障害原因や対策方法を自動的に特定することができる。
このように、 パターン定義グループを蓄積しておくことで、 過去に発生したト ラブルと同様のトラブルを早期に発見することが可能となる。 しかも、 原因や対 処方法を関連付けておぐ^とで、 トラ.ブ ikシユーティングの時間が短縮される。 さらに、 多数の顧客のパターン定義グループ等を一元管理して、 運用管理サー バの管理者がパターン定義グループ等を適宜更新することで、 各顧客は、 他の顧 客で発生したトラブルに関するパターン定義グループを利用し、 障害を発見する ことができる。 運用管理サーバの管理者は、 システム運用者の運用形態や、 ソフ トウエア開発者から提供される情報等を元に、 パターン定義グループを登録する ことで、 高品質のサーバ運用監視サービスを提供することができる。
次に、 以上のような障害検出機能を有する運用管理サーバを用いて、 顧客シス テムの遠隔保守サービスを行う場合の具体例を詳細に説明する。
図 10は、 障害検出機能を提供するためのシステム構成例を示す図である。 図 10の例では、 運用管理サーバ 100は、 ネットワーク 14を介して中継装置 2 10に接続されている。 中継装置 210には、 複数のサーバ 220, 230, 2 40が接続されている。 なお、 中継装置 210とサーバ 220, 230, 240 とは、 顧客のシステムである。 運用管理サーバ 100には、 パターンマッチング エンジン 110が設けられている。 パターンマッチングエンジン 110が、 サー バ 220, 230, 240からのメッセージを収集し、 パターン定義グループと のパターンマッチングを行い、 対策情報を出力する。
図 11は、 本発明の実施の形態に用いる運用管理サーバのハ一ドウエア構成例 を示す図である。 運用管理サーバ 100は、 CP U(Central Processing Unit) 1 01によって装置全体が制御されている。 CPU 101には、 バス 107を介し て R AM(Random Access Memory) 1 02、 ハ一ドディスクドライブ (HD D:Hard Disk Drive) 103、 グラフィック処理装置 104、 入力インタフエ一 ス 105、 および通信インタフェース 106が接続されている。
RAMI 02には、 C P U 101に実行させる O S (Operating System)のプ ログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。 また、 RAM 102には、 C PU 101による処理に必要な各種データが格納さ れる。 HDD 103には、 OSやアプリケーションプログラムが格納される。 グラフィック処理装置 104には、 モニタ 1 11が接続されている。 グラフィ ック処理装置 104は、 CPU 101からの命令に従って、 画像をモニタ 1 11 の画面に表示させる。 入力インタフェース丄 05には、 キ一ポ一 HI 12とマウ ス 1 13とが接続されている。 入力インタフェース 105は、 キーボード 112 やマウス 113から送られてくる信号を、 バス 107を介して CPU 101に送 信する。
通信インタフェース 106は、 ネットワーク 14に接続されている。 通信イン タフエース 106は、 ネットワーク 14を介して、 他のコンピュータとの間でデ 一夕の送受信を行う。
以上のようなハードウェア構成によって、 本実施の形態の処理機能を実現する ことができる。 なお、 図 11には、 運用管理サーバ 100のハ一ドウエア構成に ついて説明したが、 中継装置 210やサーバ 220, 230, 240も同様のハ 一ドウエア構成で実現することができる。
図 12は、 運用管理サーバの内部構成を示すブロック図である。 図 12に示す ように運用管理サーバ 100は、 パターンマッチングエンジン 110、 イベント グループ 121、 顧客 DB (データベース) 122、 各種構成情報 DB 123、 事象パターン DB 124、 仮想事象パターン DB 125、 情報抽出部 130、 環 境設定部 140、 当日事象ログ 151、 当月事象ログ 152、 当日イベントダル —プログ 153、 当月イベントグループログ 154、 および結果格納ファイル 1 55を有している。
パターンマッチングエンジン 110は、 他の機能と連携してパターンマツチン グ処理全体を制御する。
イベントグル一プ 121は、 サーバ 220, 230, 240から送られたメッ セージによつて構成されたイベントグループである。
顧客 DB 122には、 顧客に関する情報が格納される。
各種構成情報 DB 123には、 顧客のシステム構成 (ハードウェアとソフトウ エア) に関する情報が格納される。
事象パターン DB 124は、 サーポ一トしているシステムで想定される障害に 関する事象パターン (パターン定義グループと対策情報) が格納されたデータべ ースである。 仮想事象パターン D B 1 2 5は、 顧客のシステム構成に応じて事象パターン D B 1 2 4から抽出された事象パターンである。
情報抽出部 1 3 0は、 事象パターン D B 1 2 4から、 サービス対象の顧客のシ ステムに関係する事象パターンのみを抽出し、 仮想事象パターン D B 1 2 5を構 築する。
当日事象ログ 1 5 1は、 当日発生した障害等に応じた事象パターンの識別情報 や照合結果等を格納する記憶領域である。
当月事象ログ 1 5 2は、 当月発生した障害等に応じた事象パターンの識別情報 や照合結果等を格納する記憶領域である。
当日イベントグループログ 1 5 3は、 当日発生したイベントグループを格納す る記憶領域である。
当月イベントグループログ 1 5 4は、 当月発生したイベントグループを格納す る記憶領域である。
結果格納ファイル 1 5 5は、 イベントグループに応じて検出された対策情報の リストである。
なお、 各種構成情報 D B 1 2 3には、 ハードウェア構成情報、 ソフトウェア構 成情報、 ネットワーク構成情報、 およびシステム構成情報が含まれる。 各構成情 報は、 相互リンクのための情報を有している。
図 1 3は、 ハードウェア構成情報のデ一夕構造例を示す図である。 ハードゥエ ァ構成情報 1 2 3 aには、 機器 I D、 システム名、 ホスト名、 製品名、 C P U数、 メモリ (M E M) 容量、 ディスク(D i s k)容量、 L AN数の欄が設けられてい る。
機器 I Dは、 サーバとして動作しているコンピュータの識別情報である。 この 機器 I Dは、 システム内部でホスト名の長さに影響されないように割り当てられ たコードである。 システム名は、 サーバが従属するシステム (サービスの種別) の名称である。 ホスト名は、 ネットワーク上、 あるいな管理上決められたサーバ の識別名である。 製品名は、 サーバとして動作しているコンピュータの製品名で ある。 C P U数は、 サーバに実装されている C P Uの数である。 メモリ (M E M) 容量は、 サーバに実装されているメインメモリの記憶容量である。 ディスク (D i s k)容量は、 サーバに接続されているハードディスク装置の記憶容量であ る。 L AN数は、 サーバに実装されてい ネットワークインタフェースの数であ る。
図 1 4は、 ソフトウェア構成情報のデータ構造例を示す図である。 ソフトゥェ ァ構成情報 1 2 3 bには、 機器 I D、 ソフトウェア (ソフト) 種別、 ソフトゥェ ァ名、 版数、 修正版数の欄が設けられている。
機器 I Dは、 ハードウェア構成情報 1 2 3 aの機器 I Dと同じ項目であり、 こ の機器 I Dよって互いの情報が関連付けられる。 ソフトウェア種別は、 ソフトゥ エアの種別 (O S、 ミドルウェア、 アプリケーション等) を示している。 ソフト ウェア名は、 ソフトウェアの名称である。 版数は、 ソフトウェアのバ一ジョン番 号である。 修正版数は、 ソフトウェアに対して適用した障害修正データ (パッ チ) の版数である。
図 1 5は、 ネットワーク構成情報のデータ構造例を示す図である。 ネットヮ一 ク構成情報 1 2 3 cには、 顧客コード、 機器 I D、 ホスト名、 I P、 インタフエ —ス名、 I P種別の欄が設けられている。'顧客コードは、 システムを運用してい る顧客の識別情報である。 機器 I Dは、 ハードウェア構成情報 1 2 3 aゃソフ卜 ウェア構成情報 1 2 3 bの機器 I Dと同じ項目であり、 この機器 I Dよって互い の情報が関連付けられる。 ホスト名は、 ハードウェア構成情報 1 2 3 aのホスト 名と同じ項目である。 I Pは、 システムの I Pアドレスである。 インタフェース 名は、 装置内で各ネットワークインタフェースに割り当てられた識別番号である。
I P種別は、 I Pアドレスの種別である。 I P種別には、 V (VertuaDと R (Real) とがある。 V(Vertual)は、 仮想 I Pアドレスを示す。 R(Real)は、 実 I Pァドレ スを示す。
図 1 6は、 システム構成情報のデータ構造例を示す図である。 システム構成情 報 1 2 3 dには、 顧客コード、 機器 I D、 関連ホスト名、 関連種別、 関連ソフト の欄が設けられている。 顧客コー は、 ネットワーク構成情報 1 2 3 cの顧客コ ードと同じ項目である。 機器 I Dは、 ハードウェア構成情報 1 2 3 a、 ソフトゥ エア構成情報 1 2 3 bおよびネッ卜ワーク構成情報 1 2 3 cの機器 I Dと同じ項 目であり、 この機器 I Dよって互いの情報が関連付けられる。 関連ホスト名は、 関連するコンピュータの機器 I Dである。 関連ホスト名に P P 9 9 9 9が設定さ れた場合、 他の機器との関連性がないことが示される。
このような構成の運用管理サーバ 1 0 0において、 以下の様な処理が行われる。 まず、 メッセージグループ化処理について説明する。
図 1 7は、 メッセ一ジグループ化処理の手順を示すフローチャートである。 以 下、 図 1 7に示す処理をステップ番号に沿って説明する。
[ステップ S 1 ] 情報抽出部 1 3 0は、 メッセージを取得する。 すなわち、 ェ ラーが発生したサーバからエラーイベントが発生すると、 エラーイベントの内容 を示すメッセージがサーバから運用管理サーバ 1 0 0へ送られる。 運用管理サー ノ 1 0 0では、 そのメッセージがパターンマッチングエンジン 1 1 0に入力され る。
[ステップ S 2 ] 情報抽出部 1 3 0は、 メッセージを整形 (正規化) すると共 に、 各種構成情報 D B 1 2 3を参照し、 管理対象要素 (ハードウェア、 ソフトゥ エア等) を特定する。
[ステップ S 3 ] 情報抽出部 1 3 0は、 各種構成情報 D B 1 2 3を参照し、 他 の管理対象要素との関連性を調査する。
[ステップ S 4 ] 情報抽出部 1 3 0は、 関連イベントを受信したか否かを判断 する。 受信した場合、 処理がステップ S 5に進められる。 受信していない場合、 処理がステップ S 6に進められる。
[ステップ S 5 ] 情報抽出部 1 3 0は、 関連イベントをグループ化する。
[ステップ S 6 ] 情報抽出部 1 3 0は、 ステップ S 1においてメッセ一ジを受 信してから所定時間経過したか否かを判断する。 所定時間経過した場合、 ィベン トグループを確定し、 処理をパターンマッチングエンジン 1 1 0に受け渡す。 所 定時間経過していなければ、 処理がステップ S 4に進められる。
図 1 8は、 イベントグループ化例を示す図である。 たとえば、 「イベント # 1 1」 のメッセージが入力されると、 そのイベント情報を有するイベントグループ 4 1 1が生成される。 その後、 「イベント # 2 1」 のメッセ一ジが入力されると、 そのイベント情報を有するイベントグループ 4 2 1が生成される。 同様に、 「ィ ベント # 3 1」 のメッセ一ジが入力されると、 そのイベント情報を有するィベン トグループ 431が生成される。
ここで、 「イベント # 11」 に関連する 「イベント # 12」 のメッセージが入 力されると、 イベントグループ 41 1に 「イベント # 12」 のイベント情報が追 加される。 これにより、 2つのイベント情報を含むイベントグループ 412とな る。 さらに、 「イベント # 1 1」 に関連する 「イベント # 13」 のメッセージが 入力されると、 イベントグループ 412に 「イベント # 13」 のイベント情報が 追加される。 これにより、 3つのイベント情報を含むイベントグループ 413と なる。
このようにしてグループィヒされたイベント情報に基づいて、 運用管理サーバ 1 00内の他のデータベースが構築される。
図 19は、 イベントグループのデ一夕構造例を示す図である。 イベントダル一 プ 121には、 イベントグループ I D、 グループ明細通番、 イベント ID、 顧客 I D、 機器 I D、 インタフェース名、 発生時刻、 発生種別、 発生略称、 フィルタ リング、 メッセージの欄が設けられている。
イベントグループ I Dは、 イベントグループ単位に設定される識別情報である。 グループ明細通番は、 イベントグループ I D内で設定される各レコード (1つの イベント情報で 1つのレコードを構成する) の通し番号である。 イベント IDは、 各イベントに設定される識別情報である。 顧客 IDは、 イベントを発生させたシ ステムを運用している顧客の識別情報である。 機器 IDは、 イベントを発生させ たサーバの識別情報である。 インタフェース名は、 イベント情報を含むメッセ一 ジを出力したネットワークインタフェースの識別情報である。 発生時刻は、 運用 管理サーバ 100にメッセージが到達した時刻である。 発生種別は、 イベントを 発生させた監視対象要素の種別である。 発生略称は、 イベントを発生させた監視 対象要素の略称である。 フィルタリングは、 フィル夕リングの有無を示している。 メッセージは、 イベント情報のメッセージの内容を示している。
なお、 図 19には、 イベントグループ 121のデータ構造を示したが、 当日ィ ベントグループログ 153、 当月イベントグループログ 154も同様のデータ構 造である。
図 20は、 顧客 DBのデ一夕構造例を示す図である。 顧客 DB 122には、 顧 客 I D、 顧客名、 顧客窓口、 連絡先の欄が設けられている。 顧客 I Dは、 顧客の 識別情報である。 顧客名は、 顧客の名称である。 顧客窓口は、 顧客側の窓口とな る担当者の名称である。 連絡先は、 顧客の電話番号等の連絡先である。
図 2 1は、 事象パターン D Bのデータ構造例を示す図である。 事象パターン D B 1 2 4には、 事象パターン I D、 事象明細通番、 対象種別、 対象略称、 エラー メッセージの欄が設けられている。 事象パターン I Dは、 事象パターン D Bで管 理される一意の識別番号である。 事象明細通番は、 同一事象パターン I D内の付 与されるイベント情報の管理番号である。 対象種別は、 監視対象要素の種別であ る。 エラ一メッセージは、 出力されたイベントの内容を示す情報である。
なお、 図 2 1には、 事象パターン D B 1 2 4のデータ構造例を示しているが、 仮想事象パターン D B 1 2 5のデータ構造も同様である。
図 2 2は、 当日事象ログのデータ構造例を示す図である。 当日事象ログ 1 5 1 は、 イベントグループ I D、 マッチング時刻、 事象パターン I D、 イベント数、 ヒット数の欄が設けられている。 イベントグループ I Dは、 イベントグループの 識別番号である。 マッチング時刻は、 パターンマッチングエンジン 1 1 0におい て、 パターンマッチング処理を行った時刻である。 事象パターン I Dは、 ィベン トグループとの照合 (マッチング) によって抽出された事象パターンの識別情報 である。 イベント数は、 事象パターン I Dで示される事象パターン内のイベント 情報の数である。 ヒット数は、 事象パターン I Dで示される事象パターン内のィ ベント情報のうち、 照合対象のィベントグループにも同時に含まれるイベント情 報の数である。
なお、 当日事象ログ 1 5 1のイベント数とヒット数とから、 対応する事象パ夕 ーンに関する重みを算出することができる。 たとえば、 ヒット数が大きいほど、 重みの値を大きく (重要度を高く) する。 このような重みを示す数値を予め計算 し、 当日事象ログ 1 5 1に設定しておいてもよい。
図 2 3は、 当日イベントグループログのデータ構造例を示す図である。 当日ィ ベントグループログ 1 5 3には、 イベントグループ I D、 イベント明細通番、 ィ ベント I D、 顧客 I D、 機器 I D、 発生時刻、 発生種別、 エラー番号 o rメッセ ージ、 事象 I D、 重複事象 I D数、 マッチング結果などの情報が含まれる。 イベントグループ I Dは、 イベントグループの識別情報である。 イベント明細 通番は、 発止したイベントに付与される通番である。 イベント I Dは、 各ィベン ト情報の識別情報である。 顧客 I Dは、 イベントを発行したシステムを運用して いる顧客の I Dである。 機器 I Dは、 イベントを発行したサーバの識別情報であ る。 発生時刻は、 イベントの発生時刻である。 発生種別は、 イベントの種別 (ェ ラー、 ワーニング等) である。 エラー番号 o rメッセージは、 イベントの内容を 示す識別情報である。 事象 I Dは、 イベントグループによって特定された事象パ ターンの識別情報である。 重複事象 I D数は、 複数の事象パターンが検出された ときの検出事象パターン数である。 マッチング結果は、 検出された事象パターン に設定された対策情報の内容である。
次に、 パターンマッチング処理について詳細に説明する。
図 2 4は、 パターンマッチング処理の手順を示すフローチャートである。 以下、 図 2 4に示す処理をステップ番号に沿って説明する。
[ステップ S 1 1 ] パターンマッチングエンジン 1 1 0は、 前処理を行う。 た とえば、 パターンマッチングエンジン 1 1 0は、 R AM I 0 2内にワークテ一ブ ルを作成する。
[ステップ S 1 2 ] パターンマッチングエンジン 1 1 0は、 イベントグループ 1 2 1からイベントグループを取り出し、 重複イベントフィル夕リングを行う。 重複イベントフィルタリングとは、 同一サ一バから出力された同一イベント情報 を検出して、 1つのイベント情報を残し、 他のイベント情報を削除する処理であ る。
[ステップ S 1 3 ] パターンマッチングエンジン 1 1 0は、 イベントグループ に含まれるィベント情報が 1件以下か否かを判断する。 ィベント情報が 1件以下 の場合、 複数のイベント情報の発生パターンによる障害検出対象外であるため、 処理がステップ S 1 9に進められる。 イベント情報が 2件以上の場合、 処理がス テツプ S 1 4に進められる。
[ステップ S 1 43 パターンマッチングエンジン 1 1 0は、 仮想事象パターン D B 1 2 5から組み合わせ対象の事象パターンを抽出する。
[ステップ S 1 5 ] パターンマッチングエンジン 1 1 0は、 事象パターンが少 なくとも 1件抽出できたか否かを判断する。 1件も抽出できなかった場合 (抽出 0件) 、 処理がステップ S 1 9に進めら„れ—る。 少なくとも 1件の事象パターンが 抽出された場合、 処理がステップ S 1 6に進められる。
[ステップ S 1 6 ] パターンマッチング'エンジン 1 1 0は、 組み合わせマッチ ングを行う。 具体的には、 パターンマッチングエンジン 1 1 0は、 フィルタリン グされたイベントグループ内のイベント情報と、 仮想事象パターン D B 1 2 5力 ら抽出された各事象パターン内のイベント情報とを、 総当たりでマッチングを行 ラ。
[ステップ S 1 7 ] パターンマッチングエンジン 1 1 0は、 マッチング処理の 結果を示す情報を提供する。 たとえば、 パターンマッチングエンジン 1 1 0は、 マッチング結果を運用管理サーバ 1 0 0のモニタ等に表示させる。
[ステップ S 1 8 ] パターンマッチングエンジン 1 1 0は、 過去の事象確認を 行う。 具体的には、 パターンマッチングエンジン 1 1 0は、 当月事象ログ 1 5 2 を参照し、 同一事象ログの有無を確認する。 同一事象ログがある場合に、 結果フ アイルに、 その事象を追記する。
[ステップ S 1 9 ] パターンマッチングエンジン 1 1 0は、 後処理を行う。 具 体的には、 パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1と当月事 象ログ 1 5 2へマッチング結果を格納する。
以下、 図 2 4の各ステップの処理の詳細を説明する。
図 2 5は、 前処理の詳細を示すフローチャートである。 以下、 図 2 5に示す処 理をステップ番号に沿って説明する。
[ステップ S 2 1 ] パターンマッチングエンジン 1 1 0は、 新規のワークテ一 ブルを作成する。 たとえば、 当日イベントグループログ 1 5 3や当日事象ログ 1 5 1のワークテ一ブルが作成される。
[ステップ S 2 2 ] パターンマッチングエンジン 1 1 0は、 ワーク領域を初期 化する。
[ステップ S 2 3 ] パターンマッチングエンジン 1 1 0は、 引数のチェックを 行う。 具体的には、 パターンマッチングエンジン 1 1 0は、 入力チェックとして、 「イベントグループの I D」 、 「出力先フォルダ」 の有無を判断する。 いずれか の項目が未入力の場合、 エラ一となる。 その後、 図 2 4に示す主処理に復帰する。 次に、 重複ィベン十フィルタリング処理について説明する.。
図 2 6は、 重複イベントフィル夕リング処理の手順を示すフローチャートであ る。 以下、 図 2 6に示す処理をステップ番号に沿って説明する。
[ステップ S 3 1 ] パターンマッチングエンジン 1 1 0は、 イベントグループ 1 2 1内のレコード (イベント情報) を一件読み込む。 読み込みは、 たとえば、 顧客 I D、 機器 I D、 エラ一番号 o rメッセージの順で行われる。
[ステップ S 3 2 ] パターンマッチングエンジン 1 1 0は、 イベントグループ 読み込みの正否を判断する。 イベントダル一プを読み込んだ場合、 処理がステツ プ S 3 3に進められる。 読み込むべきイベントグループが無い場合、 図 2 4に示 す主処理に復帰する。
[ステップ S 3 3 ] パターンマッチングエンジン 1 1 0は、 フィルタリングの 要否を判断する。 具体的には、 一件前のレコードと同一機種、 同一エラー番号 o rメッセージの場合、 フィルタリングが必要と判断される。 フィル夕リングが必 要な場合、 処理がステップ S 3 1に進められる。 フィルタリングが不要な場合、 処理がステップ S 3 4に進められる。
[ステップ S 3 4 ] パターンマッチングエンジン 1 1 0は、 重複イベントフィ ルタリング後のイベントグループを、 当日イベントグループログ (ワークテープ ル) 1 5 3に格納する。 その後、 処理がステップ S 3 1に進められる。
次に、 事象パターン抽出処理について詳細に説明する。
図 2 7は、 事象パターン抽出処理の手順を示すフローチヤ一トである。 以下、 図 2 7に示す処理をステップ番号に沿って説明する。
[ステップ S 4 1 ] パタ一ンマッチングエンジン 1 1 0は、 事象パターン抽出 処理を、 情報抽出部 1 3 0に依頼する。 すると、 情報抽出部 1 3 0は、 当日ィべ ントグループログ 1 5 3からイベントグループを読み込む。 読み込み順番は、 顧 客 I D、 機器 I D、 エラー番号 o rメッセージの順である。 正常に読み込めた場 合、 以降の処理を行う。 もし、 読み込みに失敗したとき (読み込むべきイベント グループが無いとき) は、 図 2 4に示す主処理に復帰する。
[ステップ S 4 2 ] 情報抽出部 1 3 0は、 各種構成情報 D B 1 2 3から、 構成 情報を読み込む。 具体的には、 パターンマッチングエンジン 1 1 0は、 ステップ S 4 1で読み込んだレコードの顧客 I D、 機器 I Dをキーに、 各種構成情報 D B 1 2 3を検索し、 検出された各構成情報の略称を読み込む。
[ステップ S 4 3 ] 情報抽出部 1 3 0は、 事象パターンの抽出および追加を行 う。 具体的には、 情報抽出部 1 3 0は、 ステップ S 4 2で読み込んだ各略称をキ —にして、 事象パターン D B 1 2 4から事象パターンを抽出し、 抽出したレコー ドを仮想事象パターン D B 1 2 5に追加する。 その後、 図 2 4に示す主処理に復 帰する。
図 2 8は、 仮想事象パターン D Bのデータ構造例を示す図である。 仮想事象パ タ一ン D B 1 2 5には、 事象パターン I D、 事象明細通番、 パターン内メッセ一 ジ数、 対象種別、 対象略称などの情報が含まれる。
事象パターン I Dは、 事象パターンの識別番号である。 事象明細通番は、 事象 パタ一ンに設定された通し番号である。 エラー番号 o rメッセージは、 障害の内 容を示す識別情報である。 対象種別は、 監視対象要素の識別情報である。 対象略 称は、 監視対象要素の略称である。
次に、 組み合わせマッチング処理について詳細に説明する。
図 2 9は、 組み合わせマッチング処理の手順を示すフローチャートである。 以 下、 図 2 9に示す処理をステップ番号に沿って説明する。
[ステップ S 5 1 ] パターンマッチングエンジン 1 1 0は、 当日イベントダル ープログ 1 5 3内の各イベントグループのメッセージ件数をカウントする。
[ステップ S 5 2 ] パターンマッチングエンジン 1 1 0は、 未処理のイベント グループを、 当日イベントグループログ 1 5 3から読み込む。 このとき、 全ての イベントグループの処理が終了している場合、 エントリ終了のメッセージが返さ れる。
[ステップ S 5 3 ] パターンマッチングエンジン 1 1 0は、 イベントグループ が読み込まれたか否かを判断する。 イベントグループが読み込まれた場合、 処理 がステップ S 5 4に進められる。 エントリ終了の場合、 処理がステップ S 6 0に 進められる。
[ステップ S 5 4 ] パターンマッチングエンジン 1 1 0は、 仮想事象パターン D B 1 2 5から事象パターン内のイベント情報を読み込む。 このとき、 全ての事 象パターンの処理が終了している場合、 ェントリ終了のメッセージが返される。
[ステップ S 5 5 ] パターンマッチングエンジン 1 1 0は、 事象パターン内の ィベント情報が読み込まれたか否かを判断する。 事象パターン内のィベント情報 が読み込まれた場合、 処理がステップ S 5 6に進められる。 エントリ終了の場合、 処理がステップ S 5 9に進められる。
[ステップ S 5 6 ] パターンマッチングエンジン 1 1 0は、 ステップ S 5 2で 読み込んだイベントグループ内に、 ステップ S 5 4で読み込んだ事象パターン内 の各イベント情報と同一のィベン卜情報が存在するか否かを、 ィベント情報毎に 判断する。 そして、 判断対象となったイベント情報と同一イベント情報がィベン トグル一プ内にある場合、 メモリ内に作成されている当日事象ログ 1 5 1 (ヮ一 ク) として、 ステップ S 5 4で読み込んだ事象パターンが存在するか否かを判断 する。 当日事象ログが存在しない場合、 処理がステップ S 5 7に進められる。 当 日事象ログが存在する場合、 処理がステップ S 5 8に進められる。
[ステップ S 5 7 ] パターンマッチングエンジン 1 1 0は、 ステップ S 5 4で 読み込んだ事象パターンに対応するレコードを、 当日事象ログ 1 5 1のワークと してメモリに格納する。 その後、 処置がステップ S 5 4に進められる。
当日事象ログ 1 5 1として格納されるレコ一ドのうち、 事象パターン I Dと事 象明細通番とは、 ステップ S 5 4で抽出された事象パターンから転記される。 ヒ ット件数には、 1が設定される。 パターン内メッセージ数には、 抽出された事象 パターンに登録されているイベント情報の数が設定される。
[ステップ S 5 8 ] パターンマッチングエンジン 1 1 0は、 ステップ S 5 4で 読み込んだ事象パターンに対応する当日事象ログ 1 5 1のヒット件数の値を更新 ( 1加算) する。 その後、 処理がステップ S 5 4に進められる。
[ステップ S 5 9 ] パターンマッチングエンジン 1 1 0は、 パターンマツチン グ結果の更新処理を行い、 処理をステップ S 5 2に進める。 具体的には、 パター ンマッチングエンジン 1 1 0は、 当日イベントグループログ 1 5 3のワークテ一 ブルに対して、 情報を設定する。 イベントグループ I D、 イベント明細通番、 ィ ベント I D、 顧客 I D、 機器 I D、 発生時刻、 発生種別、 エラー番号 o rメッセ ージについては、 ステップ S 5 2で抽出したイベントグループの情報が転記され る。 マッチング結果には、 照合の結果、 同.一のイベント情報を有する事象パター ンが検出されたか否かを示すフラグが設定される。
[ステップ S 6 0 ] パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1として作成されたワークテ一ブルに、 重みの値を設定する。 具体的には、 パ夕 —ンマッチングエンジン 1 1 0は、 「イベントグループ内のメッセージ数 >ヒッ ト件数」 の場合、 「イベントグループ内のメッセージ数一ヒット件数」 を みと する。 「イベントグループ内のメッセージ数 <ヒット件数」 の場合、 「ヒット件 数一イベントグループ内のメッセ一ジ数」 を重みとする。 「イベントグループ内 のメッセージ数 =ヒット件数」 の場合、 メッセージ数を重みとする。
次に、 情報提供処理について説明する。
図 3 0は、 情報提供処理の手順を示すフローチャートである。 以下、 図 3 0に 示す処理をステツプ番号に沿つて説明する。
[ステップ S 7 1 ] パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1のワークテーブルの事象ログをソートする。 ソートは、 重みによるソートと同 一イベント情報数 (イベントグループに含まれるイベント情報のうち、 各事象口 グに含まれるイベント情報の数) によるソートとに分かれる。 本実施の形態では、 重みによるソートの方が優先度が高い。 すなわち、 パターンマッチングエンジン 1 1 0は、 重みにより事象ログをソートし、 重みが同一の事象ログ同士で、 同一 イベント情報数によるソートが行われる。
[ステップ S 7 2 ] パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1を、 ソートされた配列の先頭から順に 1件ずつ読み込む。 読み込むべき事象口 グが無い場合、 レコ一ド終了のメッセージが生成される。
[ステップ S 7 3 ] パターンマッチングエンジン 1 1 0は、 レコード終了か否 かを判断する。 処理が図 2 4の主処理に復帰する。 事象ログのレコードが読み込 まれた場合、 処理がステップ S 7 4に進められる。
[ステップ S 7 4 ] パターンマッチングエンジン 1 1 0は、 事象ログに対応す る対策情報を読み込む。
[ステップ S 7 5 ] パターンマッチングエンジン 1 1 0は、 事象ログを編集す る。 具体的には、 パターンマッチングエンジン 1 1 0は、 まず、 適合率を算出す る。 適合率は、 (ヒット件数 ÷イベントログ内のイベント情報数) X I 0 0で算 出される。 次に、 パターンマッチングエンジン 1 1 0は、 事象パターン I Dをキ —にして当日事象ログ 1 5 1内のレコードを読み込む。
[ステップ S 7 6 ] パターンマッチングエンジン 1 1 0は、 適合率と結果とを 結果格納ファイル 1 5 5に出力する。
次に、 過去の事象確認処理について詳細に説明する。
図 3 1は、 過去の事象確認処理の手順を示すフローチャートである。 以下、 図 3 1に示す処理をステップ番号に沿って説明する。
[ステップ S 8 1 ] パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1の事象 I Dを読み込む。 この際、 読み込むべきレコードがなければ、 レコード 終了のメッセージが生成される。
[ステップ S 8 2 ] パターンマッチングエンジン 1 1 0は、 レコード終了か否 かを判断する。 レコード終了であれば、 図 2 4に示す主処理に復帰する。 レコー ドが読み込まれた場合、 処理がステップ S 8 3に進められる。
[ステップ S 8 3 ] パターンマッチングエンジン 1 1 0は、 過去の事象とのマ ツチング処理を行う。 具体的には、 当月事象ログ 1 5 2から、 同じレコードを検 索する。
[ステップ S 8 4 ] パターンマッチングエンジン 1 1 0は、 ステップ S 8 3の マッチングの結果、 一致するレコードがあつたか否か判断する。 一致するレコー ドがあった場合、 処理がステップ S 8 5に進められる。 一致するレコードが無い 場合、 図 2 4に示す主処理に復帰する。
[ステップ S 8 5 ] パターンマッチングエンジン 1 1 0は、 一致したレコ一ド が事象ログとして記録される元となったイベントグループ I Dを一件取得する。
[ステップ S 8 6 ] パターンマッチングエンジン 1 1 0は、 ステップ S 8 5で 取得すべきレコードが終了したか否かを判断する。 レコード終了の場合、 処理が 図 2 4に示す主処理に復帰する。 レコードが取得できた場合、 処理がステップ S
8 7に進められる。
[ステップ S 8 7 ] パターンマッチングエンジン 1 1 0は、 ステップ S 8 1で 読み込まれた事象 I Dに対応する事象パターン内の各イベント情報が、 ステップ S 8 5で取得されたィベン グループ I Dに対するイベントクリレープ内に存在す るか否かを確認する。
[ステップ S 8 8 ] パターンマッチングエンジン 1 1 0は、 ステップ S 8 7に 処理において、 全てのイベント情報が存在したか否かを判断する。 全てのィベン 卜情報が存在した場合、 処理がステップ S 8 9に進められる。 そうでない場合、 処理がステップ S 8 5に進められる。
[ステップ S 8 9 ] パターンマッチングエンジン 1 1 0は、 ステップ S 8 5で 取得したイベントグループ I Dが生成された時刻を出力する。 その後、 処理がス テツプ S 8 5に進められる。
次に、 後処理について詳細に説明する。
図 3 2は、 後処理の手順を示すフロ一チャートである。 以下、 図 3 2に示す処 理をステツプ番号に沿つて説明する。
[ステップ S 9 1 ] パターンマッチングエンジン 1 1 0は、 当日事象ログ 1 5 1を読み込む。
[ステップ S 9 2 ] パターンマッチングエンジン 1 1 0は、 レコード終了か否 かを判断する。 レコード終了であれば、 処理がステップ S 9 4に進められる。 レ コード終了でなければ、 処理がステップ S 9 3に進められる。
[ステップ S 9 3 ] パターンマッチングエンジン 1 1 0は、 読み込んだ当日事 象ログ 1 5 1のワークテーブルを HD D等に蓄積すると共に、 当月事象ログ 1 5 2にも蓄積する。 また、 当日事象ログ 1 5 1の抽出原因である当日イベントダル —プログ 1 5 3のヮ一クテ一ブルを、 HD D等に蓄積するとともに、 当月ィベン トグループログ 1 5 4にも蓄積する。 その後、 処理がステップ S 9 1に進められ る。
[ステップ S 9 4 ] パ夕一ンマッチングエンジン 1 1 0は、 蓄積処理が正常に 終了したか否かを判断する。 正常に終了した場合には、 処理がステップ S 9 5に 進められる。 そうでない場合には、 処理がステップ S 9 6に進められる。
[ステップ S 9 5 ] パターンマッチングエンジン 1 1 0は、 蓄積処理をコミツ 卜する。 その後、 処理が終了する。 [ステップ S 96] パターンマッチングエンジン 110は、 ロールバック処理 を行う。 ロールバック処理とは、 データ ースに障害が発生したとき等に、 記録 してあるチェックポイントにまでデータを戻して、 改めて処理を開始することで ある。 その後、 処理が終了する。
図 33は、 情報の れを示す図である。 図 33の例では、 イベントグループ 1 21に、 4つのイベント情報が含まれている。 ここで、 イベントグループ 121 に含まれる各イベント情報の I Dを、 「a, b, c, d」 とする。
仮想事象パターン DB 125には、 複数の事象パターンが格納されている。 こ こで、 各事象パターンの事象パターン I Dを、 それぞれ 「A, B , C, D, · · ·」 とする。 事象パターン I D 「AJ の事象パターンには、 イベント情 報 「a, b, c, · · ·」 が含まれる。 事象パターン I D 「B」 の事象パターン には、 イベント情報 「a, c, · · ·」 が含まれる。 事象パターン I D 「C」 の 事象パターンには、 イベント情報 「a, e, · · ·」 が含まれる。 事象パターン I D 「D」 の事象パターンには、 イベント情報 「b, c, · · ·」 が含まれる。 このようなイベントグループ 121と仮想事象パターン DB 125内の各事象 パターンとのマッチングが行われると、 図 33に示すような組み合わせマツチン グ結果 91が得られる。 なお、 図 33の例では、 簡単のため 2つのイベント情報 の組み合わせに対するマツチング結果のみを示している。
組み合わせマッチング結果 91では、 イベント情報組み合わせ 「a, b」 に対 応する事象パターンとして、 事象パターン ID 「A」 が抽出されている。 ィベン ト情報組み合わせ 「a, c」 に対応する事象パターンとして、 事象パターン ID 「A, B」 が抽出されている。 イベント情報組み合わせ 「a, d」 に対応する事 象パターンとして、 事象パターン I D 「C」 が抽出されている。 イベント情報組 み合わせ 「b, c」 に対応する事象パターンとして、 事象パターン I D 「D」 が 抽出されている。 イベント情報組み合わせ 「b, d」 に対応する事象パターンは 抽出されていない。 イベント情報組み合わせ 「c, d」 に対応する事象パ夕一ン は抽出されていない。
このような組み合わせマッチング結果 91に基づいて、 当日事象ログ 151が 生成される。 イベント情報 「a」 に対しては、 事象パターン I D 「A, A, B, C」 が関連付けられている。 イベント情報 「b」 に対しては、 事象パターン I D 「A, D」 が関連付けられている。 イベント情報 「c」 に対しては、 事象パター ン I D 「A, B , D」 が関連付けられている。 イベント情報 「d」 に対しては、 事象パターン I D 「C」 が関連付けられている。
当日事象ログ 1 5 1から結果格納ファイル 1 5 5が生成される。 図 3 3の例で は、 障害の原因である可能性の高い順に、 上からヒット件数が示されている。 図
3 3では、 事象パターン I D 「A」 のヒット件数が 「4」 、 事象パターン I D 「B」 のヒット件数が 「2」 、 事象パターン I D 「C」 のヒット件数が 「2」 、 事象パターン I D 「D」 のヒット件数が 「2」 である。 なお、 図 3 3の例では、 結果格納ファイル 1 5 5にヒット件数を示しているが、 適合率を計算して設定す ることもできる。
以上のようにして、 関連するイベント情報同士でイベントグループ 1 2 1を作 成し、 事象パターンと照合することで、 可能性の高いイベント発生原因を抽出す ることができる。 運用管理サーバ 1 0 0の管理者は、 結果格納ファイルを参照す ることで、 幛害の原因およびその対処方法を知ることができる。
ところで、 上記の説明では、 システムからイベントに応じたメッセージを運用 管理サーバ 1 0 0で直接取り込み、 イベント情報を宿動でグループ化して分析処 理を行っているが、 任意に指定したイベントグループの分析処理を行うこともで きる。 分析すべきイベントグループは、 たとえば、 イベントグループ検索画面か ら検索して抽出することができる。
図 3 4は、 イベントグループ検索画面の一例を示す図である。 イベントグルー プ検索画面 5 1 0は、 照合対象のイベントグループを過去のログ情報 (過去所定 期間のイベントグループログが格納されたデータベース) から任意のイベントグ ル一プを検索するための検索画面である。
イベントグループ検索画面 5 1 0には、 メッセージ指定情報入力部 5 1 1と、 事象内容指定情報入力部 5 1 2とが設けられている。
メッセージ指定情報入力部 5 1 1には、 イベント情報を含むメッセージを出力 したシステムの顧客名と、 検索期間とを入力することができる。 そして、 メッセ ージ指定情報入力部 5 1 1に入力された情報に適合するイベントグループが検索 される。
事象内容指定情報入力部 5 1 2には、 原因の入力領域と対処の入力領域とが設 けられている。 これらの入力領域にはチェックポックスが対応付けられており、 チェックボックスが選択された入力領域が、 検索キーとして有効となる。 事象内 容指定情報入力部 5 1 2において入力された上に基づいてイベントグループログ の検索が行われる。
イベントダル一プ検索画面 5 1 0で検索を行つた結果、 イベントダル一プが抽 出され、 画面表示される。 このとき、 イベントグループに含まれるイベント情報 の中から、 照合対応とするイベント情報を手動で選択し、 選択されたイベント情 報に基づいて、 樟害原因や対策の解析を行うこともできる。
図 3 5は、 イベント選択画面の例を示す図である。 イベント選択画面 5 2 0に は、 検索等により抽出されたイベントグループログに含まれるイベント情報のリ ストが表示されている。 表示されているイベント情報の一部 5 2 1を選択する。 選択されたイベント情報を 1つのイベントグループとして、 障害原因等の分析 が可能である。
各種手順で指定されたイベントグループの分析を行い、 結果格納ファイル 1 5 5が生成されると、 その内容が分析結果表示画面に表示される。
図 3 6は、 分析結果表示画面の例を示す図である。 分析結果表示画面 5 3 0に は、 選択メッセ一ジ表示欄 5 3 1、 検索条件表示欄 5 3 2、 および事象内メッセ —ジ表示欄 5 3 3が設けられている。 選択メッセージ表示欄 5 3 1には、 選択さ れたイベントグループのイベント情報の内容が示されている。 検索条件表示欄 5 3 2には、 関係ある事象パターンの原因と対処方法との一覧が表示されている。 事象内メッセージ表示欄 5 3 3には、 事象パターンに定義されたイベント情報の 内容が示されている。
[応用例]
上記の実施の形態では、 サーバが発生したエラーイベントに基づいて障害内容 を解析しているが、 操作入力に応じた障害内容の解析も可能である。 言い換える と、 上記の実施の形態は、 障害発生の結果出力されるイベント情報に基づいて、 障害箇所等を特定しているのに対し、 障害発生原因となる操作入力に基づいて、 障害箇所等を特定することができる。 これにより、 利用者の環境によっては、 単 独で実行可能な処理が、 他のアプリケーションが動作しているために実行できな い場合等に、 それらの処理の実行命令の入力履歴から、 障害の内容を自動で特定 することができる。
たとえば、 データベースのバックアップ処理中は、 そのデータベースに対する アクセスができない。 この場合、 従来では、 データベースへのアクセスエラ一が 出力される。 しかし、 ュ一ザは、 データベースにアクセスできない理由までは認 識することができない。
そこで、 伺時実行不可能な複数のコマンドのセットをパターン定義グループと して蓄積しておき、 そのコマンドセットが入力された場合には、 障害が発生する 原因と対策方法 (たとえば、 原因となるアプリケーションの停止) を表示するこ とで、 ユーザの誤操作を正すことができる。
しかも、 複数のアプリケーションが同時に実行される場合、 一方のアプリケ一 シヨンの制約外の処理等が原因となり、 エラーが発生する場合がある。 このとき、 一般的に、 ユーザには、 制約外の処理を行うアプリケーションプログラムの修正 が許されていない。 そこで、 エラ一を引き起こす重複実行を指示する操作入力が 行われたときに、 エラーを起こさせずに所望の処理結果を得るための代替の操作 入力方法をユーザに提示することで、 エラーを回避させることができる。
このような処理は、 図 1 1と同様の構成で実現することができる。 ただし、 サ —バあるいは他の端末装置からは、 操作入力内容を示すメッセージが運用管理サ ーバ 1 0 0に送られ、 運用管理サーバ 1 0 0は、 そのメッセ一ジを履歴テーブル に格納する。 また、 運用管理サーバ 1 0 0には、 障害が発生する操作パターンを 格納する操作パターン D Bが設けられる。
図 3 7は、 履歴テ一ブルのデータ構造例を示す図である。 履歴テーブル 6 1 0 には、 発生日時、 コマンド名、 サーバ名の欄が設けられている。 発生日時は、 操 作入力の内容を示すメッセ一ジを運用管理サーバ 1 0 0が受信した時刻である。 コマンド名は、 操作入力されたコマンドの内容である。 サーバ名は、 そのメッセ
—ジを送信したサーバの名称である。 なお、 履歴テーブル 6 1 0は、 所定時間 (たとえば、 1 3 : 3 0から 1 0分間) 内の操作入力内容を示している。 図 3 8は、 操作パターン D Bのデータ構造例を示す図である。 操作パターン D B 6 2 0には、 操作パターンコード、 操作パターン、 現象、 原因、 対処の欄が設 けられている。
操作パターンコードは、 各操作パターンの識別番号である。 操作パターンは、 障害等を引き起こすコマンドの組である。 現象は、 障害の内容である。 原因は、 障害の原因である。 対処は、 障害を回避するための対処方法である。
たとえば、 図 3 7に示す履歴テーブル 6 1 0から、 vi (エディ夕の起動コマン ド) で hosts (ファイル) を編集後に、 mail (メ一ラの起動コマンド) を実行さ れている。 このとき、 エラーが発生すると、 利用者は運用管理サーバ 1 0 0の解 析結果を参照する。
このような操作パターンは、 操作パターン D B 6 2 0の操作パターンコード 「s00000002」 と一致する。 従って、 運用管理サーバ 1 0 0は、 該当する操作パ ターンの現象、 原因、 対処の情報を利用者の端末装置に表示する。 利用者は、 現 象を確認し、 示されているメッセージが実際に起きた現象通りであれば、 操作パ ターンコード 「s00000002」 で示された現象が発生したことを認識できる。 そこ で、 利用者は、 原因と対処を参照して、 障害の発生原因を取り除くことができる。 なお、 上記の処理機能は、 コンピュータによって実現することができる。 その 場合、 運用管理サーバが有すべき機能の処理内容を記述したプログラムが提供さ れる。 そのプログラムをコンピュータで実行することにより、 上記処理機能がコ ンピュー夕上で実現される。 処理内容を記述したプログラムは、 コンピュータで 読み取り可能な記録媒体に記録しておくことができる。 コンピュータで読み取り 可能な記録媒体としては、 磁気記録装置、 光ディスク、 光磁気記録媒体、 半導体 メモリなどがある。 磁気記録装置には、 ハードディスク装置 (HD D) 、 フレキ シブルディスク (F D ) 、 磁気テープなどがある。 光ディスクには、 D V D (Digital Versatile Disc)、 D VD - R AM (Random Access Memory)、 C D - R O M (Compact Disc Read Only Memory)、 C D - R (Recordable) / R W (Re Writable)などがある。 光磁気記録媒体には、 M〇 (Magneto -Optical disc)な どがある。
プログラムを流通させる場合には、 たとえば、 そのプログラムが記録された D V D、 C D— R OMなどの可搬型記録媒体が販売される。 また、 プログラムをサ 一バコンピュー夕の記 j意装置に格納しておき、 ネットワークを介して、 サーバコ ンピュー夕から他のコンピュータにそのプログラムを転送することもできる。 プログラムを実行するコンピュータは、 たとえば、 可搬型記録媒体に記録され たプログラムもしくはサーバコンピュータから転送されたプログラムを、 自己の 記憶装置に格納する。 そして、 コンピュータは、 自己の記憶装置からプログラム を読み取り、 プログラムに従った処理を実行する。 なお、 コンピュータは、 可搬 型記録媒体から直接プログラムを読み取り、 そのプログラムに従つた処理を実行 することもできる。 また、 コンピュータは、 サーバコンピュータからプログラム が転送される毎に、 逐次、 受け取ったプログラムに従った処理を実行することも できる。
以上説明したように本発明では、 サーバ内の監視対象要素から出力されたィべ ント情報をグループィヒし、 グループ化されたイベントグループに類似するパター ン定義グループに応じた障害対策情報を抽出するようにしたため、 サーバ内の監 視対象要素から障害原因となる監視対象要素を容易に特定することができる。 上記については単に本発明の原理を示すものである。 さらに、 多数の変形、 変 更が当業者にとって可能であり、 本発明は上記に示し、 説明した正確な構成およ び応用例に限定されるものではなく、 対応するすべての変形例および均等物は、 添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

1 . サーバの運用管理を行うための運用管理方法において、 前記サーバで実行される複数の機能を監視対象要素として、 前記監視対象要素 で発生したイベント情報を収集し、
収集した複数の前記イベント情報をグルーブイ匕してイベントグループを生成し、 障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の 請
発生パ夕一ンが定義された複数のパ夕一ン定義グループと前記ィベントグループ との間で前記ィベント情報の発生パターンを照合し、
3
前記イベントグループに対して前記ィベント情報の発生パターンが類似する前 記パターン定義グループに予め関連付けられ、 障害原因となる前記監視対象要素 囲
を示す障害対策情報を抽出する、
ことを特徴とする運用管理方法。 '
2 . 前記イベント情報は、 複数のサーバから収集することを特徴とする請求の 範囲第 1項記載の運用管理方法。
3 . 前記イベント情報を収集した際には、 前記監視対象要素毎のデータ形式を、 統一したデータ形式に変換することを特徴とする請求の範囲第 1項記載の運用管 理方法。
4. 前記イベントグループを生成する際には、 複数の前記監視対象要素同士の 関連性が定義されたデ一夕ベースを参照し、 関連性のある前記監視対象要素から 出力された前記イベント情報同士をグループ化することを特徴とする請求の範囲 第 1項記載の運用管理方法。
5 . 前記イベントグループを生成する際には、 所定期間内に収集した前記ィべ ン卜情報同士をグループィヒすることを特徴とする請求の範囲第 1項記載の運用管 理方法。
6 . 前記イベント情報の発生パターンの照合の際には、 共通の前記イベント情 報を検出することを特徴とする請求の範囲第 1項記載の運用管理方法。
7 . 前記障害対策情報が複数抽出された場合、 前記イベントグループに対する 前記パターン定義グループの前記イベント情報の発生パターンの共通度に応じて、 複数の障害対策情報をソートすることを特徴とする請求の範囲第 1項記載の運用 管理方法。 ― .. ―.
8 . 前記イベントグループと共通の前記イベント情報の数が多い前記パターン 定義グループほど、 共通度が高いと判断することを特徵とする請求の範囲第 7項 記載の運用管理方法。
9 . 前記イベントグループと前記パターン定義グループとに含まれる前記ィべ ン卜情報のうち、 一方にのみ含まれる前記ィベント情報の数が少ない前記パター ン定義グループほど、 共通度が高いと判断することを特徴とする請求の範囲第 7 項記載の運用管理方法。
1 0 . 前記障害対策情報には、 障害発生の原因と、 障害を解決するための対策 情報とが含まれることを特徴とする請求の範囲第 1項記載の運用管理方法。
1 1 . サーバの運用管理を行うための運用管理方法において、
前記サーバに対して入力されたコマンドを収集し、
収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、 障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン 情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、 前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パ ターン情報に予め関連付けられ、 障害原因となる前記監視対象要素を示す障害対 策情報を抽出する、
ことを特徴とする運用管理方法。
1 2 . サーバの運用管理を行うた運用管理装置において、
前記サーバで実行される複数の機能を監視対象要素として、 前記監視対象要素 で発生したィベント情報を収集する収集手段と、
収集した複数の前記イベント情報をグループ化してイベントグループを生成す る生成手段と、
障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の 発生パターンが定義された複数のパターン定義グループと前記イベントグループ との間で前記ィベント情報の発生パターンを照合する照合手段と、
前記イベントグループに対して前記ィベント情報の発生パターンが類似する前 記パターン定義グループに予め関連付けられ、 障害原因となる前記監視対象要素 を示す障害対策情報を抽出する抽出手段と、
を有することを特徴とする運用管理装置。
1 3 . サーバの運用管理を行うための運用管理装置において、
前記サーバに対して入力されたコマンドを収集する収集手段と、
収集した複数の前記コマンドをダル一プィヒして操作履歴情報を生成する生成手 段と、
障害発生の要因となるコマンド入力パターンが定義された複数の操作パターン 情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合する照合手 段と、
前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パ タ一ン情報に予め関連付けられ、 障害原因となる前記監視対象要素を示す障害対 策情報を抽出する抽出手段と、
を有することを特徴とする運用管理装置。
1 4 . サーバの運用管理を行うための運用管理プログラムにおいて、
コンピュータに、
前記サーバで実行される複数の機能を監視対象要素として、 前記監視対象要素 で発生したイベント情報を収集し、
収集した複数の前記イベント情報をグループィ匕してイベントグループを生成し、 障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の 発生パ夕一ンが定義された複数のパ夕一ン定義グループと前記ィベン卜グループ との間で前記ィベント情報の発生パターンを照合し、
前記イベントグループに対して前記ィベント情報の発生パターンが類似する前 記パターン定義グループに予め関連付けられ、 障害原因となる前記監視対象要素 を示す障害対策情報を抽出する、
処理を実行させることを特徴とする運用管理プログラム。
1 5 . サーバの運用管理を行うための運用管理プログラムにおいて、
コンピュータに、
前記サーバに対して入力されたコマンドを収集し、 収集した複数の前記コマンドをグループ化して操作履歴情報を生成し、 障害発生の要因 なるコマンド入力パターンが定義された複数の操作パターン 情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、
前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パ 夕一ン情報に予め関連付けられ、 障害原因となる前記監視対象要素を示す障害対 策情報を抽出する、
処理を実行させることを特徴とする運用管理プログラム。
1 6 . サーバの運用管理を行うための運用管理プログラムを記録したコンビュ 一夕読み取り可能な記録媒体において、
前記コンピュータに、
前記サーバで実行される複数の機能を監視対象要素として、 前記監視対象要素 で発生したイベント情報を収集し、
収集した複数の前記ィベント情報をグループィ匕してイベントグループを生成し、 障害発生時に複数の前記監視対象要素それぞれから出力されるイベント情報の 発生パターンが定義された複数のパターン定義グループと前記イベントグループ との間で前記イベント情報の発生パターンを照合し、
前記イベントグループに対して前記イベント情報の発生パターンが類似する前 記パターン定義グループに予め関連付けられ、 障害原因となる前記監視対象要素 を示す障害対策情報を抽出する、
処理を実行させることを特徴とする運用管理プログラムを記録したコンピュー タ読み取り可能な記録媒体。
1 7 . サーバの運用管理を行うための運用管理プログラムを記録したコンビュ 一夕読み取り可能な記録媒体において、
前記コンピュータに、
前記サーバに対して入力されたコマンドを収集し、
収集した複数の前記コマンドをダル一プ化して操作履歴情報を生成し、 障害発生の要因となるコマンド入力パターンが定義された複数の操作パ夕一ン 情報と前記操作履歴情報との間で前記コマンドの入力パターンを照合し、
前記操作履歴情報に対して前記コマンドの入力パターンが類似する前記操作パ 夕一ン情報に予め関連付けられ、 障害原因となる前記監視対象要素を示す障害対 策情報を抽出する、
処理を実行させることを特徴とする運用管理プログラムを記録したコンピュー 夕読み取り可能な記録媒体。
PCT/JP2002/013719 2002-12-26 2002-12-26 運用管理方法および運用管理サーバ WO2004061681A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
AU2002359925A AU2002359925B2 (en) 2002-12-26 2002-12-26 Operation managing method and operation managing server
PCT/JP2002/013719 WO2004061681A1 (ja) 2002-12-26 2002-12-26 運用管理方法および運用管理サーバ
JP2004564435A JP4318643B2 (ja) 2002-12-26 2002-12-26 運用管理方法、運用管理装置および運用管理プログラム
EP02793425A EP1577783A4 (en) 2002-12-26 2002-12-26 OPERATIONAL MANAGEMENT PROCESS AND OPERATION MANAGEMENT SERVER
CNA028295080A CN1650274A (zh) 2002-12-26 2002-12-26 操作管理方法和操作管理服务器
US11/044,227 US7506195B2 (en) 2002-12-26 2005-01-28 Operation management method and operation management server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/013719 WO2004061681A1 (ja) 2002-12-26 2002-12-26 運用管理方法および運用管理サーバ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/044,227 Continuation US7506195B2 (en) 2002-12-26 2005-01-28 Operation management method and operation management server

Publications (1)

Publication Number Publication Date
WO2004061681A1 true WO2004061681A1 (ja) 2004-07-22

Family

ID=32697322

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/013719 WO2004061681A1 (ja) 2002-12-26 2002-12-26 運用管理方法および運用管理サーバ

Country Status (6)

Country Link
US (1) US7506195B2 (ja)
EP (1) EP1577783A4 (ja)
JP (1) JP4318643B2 (ja)
CN (1) CN1650274A (ja)
AU (1) AU2002359925B2 (ja)
WO (1) WO2004061681A1 (ja)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065515A (ja) * 2004-08-25 2006-03-09 Ntt Docomo Inc クライアント装置、サーバ装置及び権限制御方法
JP2006164095A (ja) * 2004-12-10 2006-06-22 Hitachi Ltd ディスクシステム
JP2006260056A (ja) * 2005-03-16 2006-09-28 Nec Corp 統合運用管理サーバ、統合的な運用管理のためのメッセージの抽出方法、及び、プログラム
JP2006259892A (ja) * 2005-03-15 2006-09-28 Fujitsu Ltd 事象通知管理プログラム及び事象通知管理装置
JP2006350654A (ja) * 2005-06-15 2006-12-28 Yaskawa Information Systems Co Ltd サーバ計算機
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
CN100349158C (zh) * 2004-08-12 2007-11-14 华为技术有限公司 一种从问题数据中提取失效模式的方法及系统
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2008217235A (ja) * 2007-03-01 2008-09-18 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
WO2008129635A1 (ja) * 2007-04-12 2008-10-30 Fujitsu Limited 性能障害要因分析プログラムおよび性能障害要因分析装置
CN100433642C (zh) * 2005-03-15 2008-11-12 华为技术有限公司 一种故障定位和故障排除方法和系统
JP2009532811A (ja) * 2006-04-05 2009-09-10 アークサイト,インク. マージングマルチラインログ・エントリ
US7594238B2 (en) 2004-07-30 2009-09-22 Fujitsu Limited Apparatus and method for displaying plurality of messages in groups to reduce burden on operators
JP2009534740A (ja) * 2006-04-21 2009-09-24 マイクロソフト コーポレーション モデルをベースにしたイベント処理
JP2009301330A (ja) * 2008-06-13 2009-12-24 Hitachi Ltd クライアント端末の管理システム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2010055594A (ja) * 2008-07-31 2010-03-11 Nec Software Kyushu Ltd 動線管理システムおよびプログラム
JP2010108223A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010108224A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010108225A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010211494A (ja) * 2009-03-10 2010-09-24 Nec Corp 情報処理システム、メッセージ管理方法及びメッセージ管理プログラム
JP2010231825A (ja) * 2010-07-21 2010-10-14 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
JP2010272127A (ja) * 2010-07-12 2010-12-02 Hitachi Ltd ディスクシステム
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP2011113571A (ja) * 2009-11-27 2011-06-09 Korea Electronics Telecommun 資源間の物理的/論理的な関係をマッピングする方法及び装置
JP2011518359A (ja) * 2008-06-17 2011-06-23 株式会社日立製作所 根本原因分析を実行する方法および装置
US8095819B2 (en) 2007-06-06 2012-01-10 Nec Corporation Communication network failure cause analysis system, failure cause analysis method, and failure cause analysis program
JP2012141802A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理方法
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
JP2013073315A (ja) * 2011-09-27 2013-04-22 Kddi Corp 障害発生箇所特定用端末、障害発生箇所診断方法およびコンピュータプログラム
JP2013127693A (ja) * 2011-12-19 2013-06-27 Fujitsu Ltd 障害検出方法および障害検出システム
CN103207820A (zh) * 2013-02-05 2013-07-17 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
WO2013128550A1 (ja) * 2012-02-27 2013-09-06 株式会社日立製作所 監視システム及び監視プログラム
JP2015176320A (ja) * 2014-03-14 2015-10-05 Necフィールディング株式会社 情報管理装置、情報管理方法、及びプログラム
US9158615B2 (en) 2012-07-02 2015-10-13 Fujitsu Limited Method and apparatus for managing system
US9563496B2 (en) 2014-06-27 2017-02-07 Fujitsu Limited Extraction method and device
JP2017097795A (ja) * 2015-11-27 2017-06-01 富士通株式会社 演算装置、プログラム、情報処理方法
JP2020528620A (ja) * 2017-07-24 2020-09-24 ウーバー テクノロジーズ,インコーポレイテッド アプリケーション動作要求の解析を介したアプリケーション機能のリカバリ
JP2021047928A (ja) * 2020-12-28 2021-03-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 試験自動化装置、試験方法、及びプログラム
WO2021261015A1 (ja) * 2020-06-24 2021-12-30 オムロン株式会社 ログ処理装置および制御プログラム

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162036B2 (en) * 2001-08-06 2007-01-09 Igt Digital identification of unique game characteristics
US20060036874A1 (en) * 2001-08-08 2006-02-16 Igt Data pattern verification in a gaming machine environment
US7743420B2 (en) 2003-12-02 2010-06-22 Imperva, Inc. Dynamic learning method and adaptive normal behavior profile (NBP) architecture for providing fast protection of enterprise applications
US7673037B2 (en) * 2004-02-13 2010-03-02 Net2Phone Cable telephony monitoring system
US7343529B1 (en) 2004-04-30 2008-03-11 Network Appliance, Inc. Automatic error and corrective action reporting system for a network storage appliance
US9489645B2 (en) * 2004-05-13 2016-11-08 International Business Machines Corporation Workflow decision management with derived scenarios and workflow tolerances
JP4746850B2 (ja) * 2004-06-21 2011-08-10 富士通株式会社 パターン生成プログラム
US7373552B2 (en) 2004-09-30 2008-05-13 Siemens Aktiengesellschaft Model based diagnosis and repair for event logs
US20060085690A1 (en) * 2004-10-15 2006-04-20 Dell Products L.P. Method to chain events in a system event log
US20060123108A1 (en) * 2004-12-08 2006-06-08 Parthasarathy Sarangam Embedding a unique identifier in asset information to identify the source of an event
US20060155848A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management including identifying user reaction to workflows
US20060156276A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management with heuristics
US20060235655A1 (en) * 2005-04-18 2006-10-19 Qing Richard X Method for monitoring function execution
CN100479575C (zh) * 2005-06-30 2009-04-15 华为技术有限公司 在设备管理中实现预定操作的方法及装置
US7937344B2 (en) 2005-07-25 2011-05-03 Splunk Inc. Machine data web
US7865461B1 (en) * 2005-08-30 2011-01-04 At&T Intellectual Property Ii, L.P. System and method for cleansing enterprise data
US7934116B2 (en) * 2005-09-30 2011-04-26 Lockheed Martin Corporation Disaster recover/continuity of business adaptive solution framework
US20070100990A1 (en) 2005-11-01 2007-05-03 Brown William A Workflow decision management with workflow administration capacities
US8155119B2 (en) * 2005-11-01 2012-04-10 International Business Machines Corporation Intermediate message invalidation
US8010700B2 (en) * 2005-11-01 2011-08-30 International Business Machines Corporation Workflow decision management with workflow modification in dependence upon user reactions
US20070100884A1 (en) * 2005-11-01 2007-05-03 Brown William A Workflow decision management with message logging
JP4774929B2 (ja) * 2005-11-07 2011-09-21 富士通株式会社 監視装置、監視システム
CN100407656C (zh) * 2005-12-09 2008-07-30 华为技术有限公司 对终端设备进行管理的方法和系统
US7698597B2 (en) * 2006-02-28 2010-04-13 International Business Machines Corporation Method of isolating erroneous software program components
US20070294590A1 (en) * 2006-05-16 2007-12-20 Texas Instruments Incorporated Compression scheme to reduce the bandwidth requirements for continuous trace stream encoding of system performance
CN100454272C (zh) * 2006-05-30 2009-01-21 上海科泰世纪科技有限公司 软件构件处理错误信息的方法
CN101131747B (zh) * 2006-08-22 2012-02-01 国际商业机器公司 捕获和/或分析客户端的Web页面事件的方法、装置及系统
US8117461B2 (en) * 2006-09-13 2012-02-14 Igt Method of randomly and dynamically checking configuration integrity of a gaming system
EP2482209A1 (en) 2006-10-05 2012-08-01 Splunk Inc. Time series search engine
US8205215B2 (en) * 2007-05-04 2012-06-19 Microsoft Corporation Automated event correlation
JP4367962B2 (ja) * 2007-06-19 2009-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP4400834B2 (ja) * 2007-06-20 2010-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
US8316380B2 (en) * 2007-09-21 2012-11-20 Sap Ag Process log supporting multiple flavors of processes
US20090128319A1 (en) * 2007-11-21 2009-05-21 Motive, Incorporated System and method for invoking a function of a service in response to an event and service management system employing the same
JP2009217455A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、情報処理プログラム及び方法
US8219582B2 (en) 2008-04-25 2012-07-10 International Business Machines Corporation System, method, and computer readable media for identifying a user-initiated log file record in a log file
US8090994B2 (en) * 2008-05-21 2012-01-03 International Business Machines Corporation System, method, and computer readable media for identifying a log file record in a log file
US7992055B1 (en) * 2008-11-07 2011-08-02 Netapp, Inc. System and method for providing autosupport for a security system
KR101547721B1 (ko) * 2008-11-27 2015-08-26 인터내셔널 비지네스 머신즈 코포레이션 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
JP5527503B2 (ja) * 2009-02-13 2014-06-18 富士ゼロックス株式会社 監視装置および情報処理システムおよびプログラム
US9389877B2 (en) 2009-07-20 2016-07-12 Google Technology Holdings LLC Multi-environment operating system
US20110047181A1 (en) * 2009-08-18 2011-02-24 Malnati James R Method and system for identifying commonality among pattern definitions
US20110047173A1 (en) * 2009-08-18 2011-02-24 Malnati James R Method and system for filtering matching content
US8255525B2 (en) * 2009-08-19 2012-08-28 International Business Machines Corporation System and method for circuit and path based event correlation
US8627138B1 (en) * 2010-03-26 2014-01-07 Emc Corporation Data protection system and method
US20110289117A1 (en) * 2010-05-19 2011-11-24 International Business Machines Corporation Systems and methods for user controllable, automated recording and searching of computer activity
US8595553B2 (en) * 2010-06-03 2013-11-26 Siemens Aktiengesellschaft Error pattern identification in an installed base of systems
CN101854263B (zh) * 2010-06-13 2013-03-13 北京星网锐捷网络技术有限公司 网络拓扑的分析处理方法、系统和管理服务器
WO2012001795A1 (ja) * 2010-06-30 2012-01-05 富士通株式会社 証跡ログ解析システム、証跡ログ解析プログラム、および証跡ログ解析方法
US20120066694A1 (en) 2010-09-10 2012-03-15 International Business Machines Corporation Event overflow handling by coalescing and updating previously-queued event notification
CN102346756B (zh) * 2010-12-24 2013-04-03 镇江诺尼基智能技术有限公司 一种设备故障解决方案知识管理与检索系统及方法
US20120239681A1 (en) 2011-03-14 2012-09-20 Splunk Inc. Scalable interactive display of distributed data
WO2012132388A1 (ja) * 2011-03-28 2012-10-04 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
JP5803246B2 (ja) * 2011-05-02 2015-11-04 日本電気株式会社 ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
US8719232B2 (en) * 2011-06-30 2014-05-06 Verisign, Inc. Systems and methods for data integrity checking
JP5751336B2 (ja) * 2011-10-18 2015-07-22 富士通株式会社 情報処理装置、時刻補正値決定方法、およびプログラム
JP5692414B2 (ja) * 2011-12-15 2015-04-01 富士通株式会社 検知装置、検知プログラムおよび検知方法
JP5936260B2 (ja) * 2012-03-28 2016-06-22 東日本電信電話株式会社 運用サイト切り替えシステム、運用サイト切り替え装置、運用サイト切り替え方法及び運用サイト切り替えプログラム
JP5924073B2 (ja) * 2012-03-30 2016-05-25 富士通株式会社 制御プログラム、制御方法および制御装置
US9342325B2 (en) 2012-05-17 2016-05-17 Google Technology Holdings LLC Synchronizing launch-configuration information between first and second application environments that are operable on a multi-modal device
US9213590B2 (en) * 2012-06-27 2015-12-15 Brocade Communications Systems, Inc. Network monitoring and diagnostics
US9917800B2 (en) * 2012-08-24 2018-03-13 Cisco Technology, Inc. System and method for centralized virtual interface card driver logging in a network environment
US9594814B2 (en) 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US10394946B2 (en) 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US9753909B2 (en) 2012-09-07 2017-09-05 Splunk, Inc. Advanced field extractor with multiple positive examples
US8682906B1 (en) * 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US10579928B2 (en) * 2012-09-17 2020-03-03 Siemens Aktiengesellschaft Log-based predictive maintenance using multiple-instance learning
US9071510B2 (en) * 2012-10-25 2015-06-30 Hewlett-Packard Development Company, L.P. Determining root causes of network issues
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
US9715282B2 (en) 2013-03-29 2017-07-25 Microsoft Technology Licensing, Llc Closing, starting, and restarting applications
CN104102657B (zh) * 2013-04-09 2017-08-25 富士通株式会社 信息处理装置以及信息处理方法
JP6030996B2 (ja) * 2013-05-24 2016-11-24 株式会社日立製作所 情報管理装置及び情報管理方法
WO2014196129A1 (ja) * 2013-06-03 2014-12-11 日本電気株式会社 障害分析装置、障害分析方法、および、記録媒体
KR102168212B1 (ko) 2014-04-15 2020-10-21 엘에스일렉트릭(주) 어플리케이션 로그 데이터의 처리 장치 및 그 방법
US10523728B1 (en) * 2013-06-28 2019-12-31 EMC IP Holding Company LLC Ingesting data from managed elements into a data analytics platform
RU2644146C2 (ru) * 2013-09-30 2018-02-07 Хуавей Текнолоджиз Ко., Лтд. Способ, устройство и система управления обработкой отказов
US9246935B2 (en) 2013-10-14 2016-01-26 Intuit Inc. Method and system for dynamic and comprehensive vulnerability management
EP2866144B1 (en) 2013-10-28 2020-03-25 Software AG Self-correcting complex event processing system and corresponding method for error correction
US9313281B1 (en) 2013-11-13 2016-04-12 Intuit Inc. Method and system for creating and dynamically deploying resource specific discovery agents for determining the state of a cloud computing environment
US9501345B1 (en) * 2013-12-23 2016-11-22 Intuit Inc. Method and system for creating enriched log data
US9323926B2 (en) 2013-12-30 2016-04-26 Intuit Inc. Method and system for intrusion and extrusion detection
CN103701926B (zh) * 2013-12-31 2017-06-16 小米科技有限责任公司 一种获取故障原因信息的方法、装置和系统
US9325726B2 (en) 2014-02-03 2016-04-26 Intuit Inc. Method and system for virtual asset assisted extrusion and intrusion detection in a cloud computing environment
US20150304343A1 (en) 2014-04-18 2015-10-22 Intuit Inc. Method and system for providing self-monitoring, self-reporting, and self-repairing virtual assets in a cloud computing environment
US10757133B2 (en) 2014-02-21 2020-08-25 Intuit Inc. Method and system for creating and deploying virtual assets
US9866581B2 (en) 2014-06-30 2018-01-09 Intuit Inc. Method and system for secure delivery of information to computing environments
US9276945B2 (en) 2014-04-07 2016-03-01 Intuit Inc. Method and system for providing security aware applications
US9753818B2 (en) 2014-09-19 2017-09-05 Splunk Inc. Data forwarding using multiple data pipelines
US9660930B2 (en) 2014-03-17 2017-05-23 Splunk Inc. Dynamic data server nodes
US9838346B2 (en) 2014-03-17 2017-12-05 Splunk Inc. Alerting on dual-queue systems
US9245117B2 (en) 2014-03-31 2016-01-26 Intuit Inc. Method and system for comparing different versions of a cloud based application in a production environment using segregated backend systems
US9626414B2 (en) * 2014-04-14 2017-04-18 International Business Machines Corporation Automatic log record segmentation
US11294700B2 (en) 2014-04-18 2022-04-05 Intuit Inc. Method and system for enabling self-monitoring virtual assets to correlate external events with characteristic patterns associated with the virtual assets
US9374389B2 (en) 2014-04-25 2016-06-21 Intuit Inc. Method and system for ensuring an application conforms with security and regulatory controls prior to deployment
US9319415B2 (en) 2014-04-30 2016-04-19 Intuit Inc. Method and system for providing reference architecture pattern-based permissions management
US9900322B2 (en) 2014-04-30 2018-02-20 Intuit Inc. Method and system for providing permissions management
US9330263B2 (en) 2014-05-27 2016-05-03 Intuit Inc. Method and apparatus for automating the building of threat models for the public cloud
CN103995762A (zh) * 2014-06-06 2014-08-20 山东超越数控电子有限公司 一种诊断板卡故障的方法
US10102082B2 (en) 2014-07-31 2018-10-16 Intuit Inc. Method and system for providing automated self-healing virtual assets
US9473481B2 (en) 2014-07-31 2016-10-18 Intuit Inc. Method and system for providing a virtual asset perimeter
US9612897B1 (en) * 2014-12-12 2017-04-04 State Farm Mutual Automobile Insurance Company Method and system for detecting system outages using application event logs
US9922037B2 (en) 2015-01-30 2018-03-20 Splunk Inc. Index time, delimiter based extractions and previewing for use in indexing
WO2016175845A1 (en) * 2015-04-30 2016-11-03 Hewlett Packard Enterprise Development Lp Aggregation based event identification
US10318366B2 (en) * 2015-09-04 2019-06-11 International Business Machines Corporation System and method for relationship based root cause recommendation
US10909018B2 (en) 2015-09-04 2021-02-02 International Business Machines Corporation System and method for end-to-end application root cause recommendation
JP6631908B2 (ja) * 2015-09-07 2020-01-15 パナソニックIpマネジメント株式会社 情報処理装置、不具合原因特定方法及びプログラム
US10474519B2 (en) * 2015-09-17 2019-11-12 Netapp, Inc. Server fault analysis system using event logs
JP6410965B2 (ja) * 2015-12-21 2018-10-24 株式会社日立製作所 計算機システムの管理システム及び管理方法
US10528427B1 (en) * 2016-06-09 2020-01-07 Intuit, Inc. Self-healing system for distributed services and applications
CN107544780B (zh) * 2016-06-23 2021-11-30 北京忆恒创源科技股份有限公司 一种操作系统的安装方法与安装装置
CN106201757B (zh) * 2016-07-12 2020-05-26 网易(杭州)网络有限公司 一种异常处理方法和装置
US10331693B1 (en) * 2016-09-12 2019-06-25 Amazon Technologies, Inc. Filters and event schema for categorizing and processing streaming event data
US10379929B2 (en) * 2016-12-19 2019-08-13 Microsoft Technology Licensing, Llc Enhanced diagnostic and remediation system
US10496467B1 (en) 2017-01-18 2019-12-03 Amazon Technologies, Inc. Monitoring software computations of arbitrary length and duration
WO2018137768A1 (en) 2017-01-26 2018-08-02 Telefonaktiebolaget Lm Ericsson (Publ) System and method for analysing sports permormance data
EP3574611B1 (en) * 2017-01-26 2020-03-04 Telefonaktiebolaget LM Ericsson (publ) System and method for analyzing network performance data
JP6859831B2 (ja) * 2017-04-25 2021-04-14 富士通株式会社 生成プログラム、生成装置及び生成方法
US10467084B2 (en) * 2017-06-15 2019-11-05 Oracle International Corporation Knowledge-based system for diagnosing errors in the execution of an operation
JP6919438B2 (ja) * 2017-09-08 2021-08-18 日本電気株式会社 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
US11126494B2 (en) * 2017-10-31 2021-09-21 Paypal, Inc. Automated, adaptive, and auto-remediating system for production environment
US11113138B2 (en) * 2018-01-02 2021-09-07 Carrier Corporation System and method for analyzing and responding to errors within a log file
US10764149B2 (en) * 2018-09-12 2020-09-01 The Mitre Corporation Cyber-physical system evaluation
US11354320B2 (en) * 2018-10-11 2022-06-07 International Business Machines Corporation Determining causes of events in data
CN109714214B (zh) * 2018-12-29 2021-08-27 网宿科技股份有限公司 一种服务器异常的处理方法及管理设备
US10733213B2 (en) * 2018-12-31 2020-08-04 Iguazio Systems Ltd. Structuring unstructured machine-generated content
US10691728B1 (en) * 2019-08-13 2020-06-23 Datadog, Inc. Transforming a data stream into structured data
US10985970B1 (en) * 2019-10-18 2021-04-20 Splunk Inc. Automatic actionable event responder for operational clusters
US20220365841A1 (en) * 2020-03-19 2022-11-17 Hitachi, Ltd. Repair support system and repair support method
US11314510B2 (en) 2020-08-14 2022-04-26 International Business Machines Corporation Tracking load and store instructions and addresses in an out-of-order processor
CN114077525A (zh) * 2020-08-17 2022-02-22 鸿富锦精密电子(天津)有限公司 异常日志处理方法、装置、终端设备、云服务器及系统
US11243835B1 (en) 2020-12-03 2022-02-08 International Business Machines Corporation Message-based problem diagnosis and root cause analysis
US11403326B2 (en) 2020-12-03 2022-08-02 International Business Machines Corporation Message-based event grouping for a computing operation
US11797538B2 (en) 2020-12-03 2023-10-24 International Business Machines Corporation Message correlation extraction for mainframe operation
US11513930B2 (en) 2020-12-03 2022-11-29 International Business Machines Corporation Log-based status modeling and problem diagnosis for distributed applications
US11474892B2 (en) 2020-12-03 2022-10-18 International Business Machines Corporation Graph-based log sequence anomaly detection and problem diagnosis
US11599404B2 (en) 2020-12-03 2023-03-07 International Business Machines Corporation Correlation-based multi-source problem diagnosis

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06284126A (ja) * 1993-03-25 1994-10-07 Nec Corp ネットワーク管理システム
JPH10105440A (ja) * 1996-09-25 1998-04-24 Hitachi Ltd システム障害監視装置及び記録媒体
JPH11308222A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2001257677A (ja) * 2000-03-14 2001-09-21 Fujitsu Ltd ネットワーク管理装置及びプログラム記録媒体
JP2001256032A (ja) * 2000-03-14 2001-09-21 Mitsubishi Electric Corp 障害メッセージ表示装置
JP2002342180A (ja) * 2001-05-15 2002-11-29 Nec Corp 障害自動監視復旧システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1114861C (zh) * 1994-04-05 2003-07-16 英特尔公司 监视与控制网络中的程序的方法与装置
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
JPH11232145A (ja) 1998-02-13 1999-08-27 Sharp Corp ログ情報記録装置
FR2802663B1 (fr) * 1999-12-21 2002-01-25 Bull Sa Procede de correlation d'alarmes dans un systeme d'administration hierarchisee
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
JP2002342182A (ja) 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
US7051244B2 (en) * 2002-10-31 2006-05-23 Hewlett-Packard Development Company, L.P. Method and apparatus for managing incident reports

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06284126A (ja) * 1993-03-25 1994-10-07 Nec Corp ネットワーク管理システム
JPH10105440A (ja) * 1996-09-25 1998-04-24 Hitachi Ltd システム障害監視装置及び記録媒体
JPH11308222A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2001257677A (ja) * 2000-03-14 2001-09-21 Fujitsu Ltd ネットワーク管理装置及びプログラム記録媒体
JP2001256032A (ja) * 2000-03-14 2001-09-21 Mitsubishi Electric Corp 障害メッセージ表示装置
JP2002342180A (ja) * 2001-05-15 2002-11-29 Nec Corp 障害自動監視復旧システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1577783A4 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594238B2 (en) 2004-07-30 2009-09-22 Fujitsu Limited Apparatus and method for displaying plurality of messages in groups to reduce burden on operators
CN100349158C (zh) * 2004-08-12 2007-11-14 华为技术有限公司 一种从问题数据中提取失效模式的方法及系统
JP4643204B2 (ja) * 2004-08-25 2011-03-02 株式会社エヌ・ティ・ティ・ドコモ サーバ装置
JP2006065515A (ja) * 2004-08-25 2006-03-09 Ntt Docomo Inc クライアント装置、サーバ装置及び権限制御方法
JP2006164095A (ja) * 2004-12-10 2006-06-22 Hitachi Ltd ディスクシステム
JP4613598B2 (ja) * 2004-12-10 2011-01-19 株式会社日立製作所 ディスクシステム
JP2006259892A (ja) * 2005-03-15 2006-09-28 Fujitsu Ltd 事象通知管理プログラム及び事象通知管理装置
JP4652090B2 (ja) * 2005-03-15 2011-03-16 富士通株式会社 事象通知管理プログラム、事象通知管理装置及び事象通知管理方法
CN100433642C (zh) * 2005-03-15 2008-11-12 华为技术有限公司 一种故障定位和故障排除方法和系统
JP2006260056A (ja) * 2005-03-16 2006-09-28 Nec Corp 統合運用管理サーバ、統合的な運用管理のためのメッセージの抽出方法、及び、プログラム
JP4506520B2 (ja) * 2005-03-16 2010-07-21 日本電気株式会社 管理サーバ、メッセージの抽出方法、及び、プログラム
JP2006350654A (ja) * 2005-06-15 2006-12-28 Yaskawa Information Systems Co Ltd サーバ計算機
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
JP2009532811A (ja) * 2006-04-05 2009-09-10 アークサイト,インク. マージングマルチラインログ・エントリ
JP2012094161A (ja) * 2006-04-05 2012-05-17 Arcsight Inc 複数のログ・エントリをマージする技術
JP2009534740A (ja) * 2006-04-21 2009-09-24 マイクロソフト コーポレーション モデルをベースにしたイベント処理
US8635596B2 (en) 2006-04-21 2014-01-21 Microsoft Corporation Model-based event processing
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2008217235A (ja) * 2007-03-01 2008-09-18 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
JP4585534B2 (ja) * 2007-03-01 2010-11-24 富士通株式会社 システム監視プログラム、システム監視方法およびシステム監視装置
JP5299272B2 (ja) * 2007-04-12 2013-09-25 富士通株式会社 分析プログラムおよび分析装置
WO2008129635A1 (ja) * 2007-04-12 2008-10-30 Fujitsu Limited 性能障害要因分析プログラムおよび性能障害要因分析装置
US8095819B2 (en) 2007-06-06 2012-01-10 Nec Corporation Communication network failure cause analysis system, failure cause analysis method, and failure cause analysis program
JP2009301330A (ja) * 2008-06-13 2009-12-24 Hitachi Ltd クライアント端末の管理システム
JP2011518359A (ja) * 2008-06-17 2011-06-23 株式会社日立製作所 根本原因分析を実行する方法および装置
JP2010055594A (ja) * 2008-07-31 2010-03-11 Nec Software Kyushu Ltd 動線管理システムおよびプログラム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2010108225A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010108224A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010108223A (ja) * 2008-10-30 2010-05-13 Internatl Business Mach Corp <Ibm> 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP2010211494A (ja) * 2009-03-10 2010-09-24 Nec Corp 情報処理システム、メッセージ管理方法及びメッセージ管理プログラム
US9189319B2 (en) 2009-07-16 2015-11-17 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure
US8429453B2 (en) 2009-07-16 2013-04-23 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5385982B2 (ja) * 2009-07-16 2014-01-08 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
US8346816B2 (en) 2009-11-27 2013-01-01 Electronics And Telecommunications Research Institute Method and apparatus for physical/logical relationship mapping between resources
JP2011113571A (ja) * 2009-11-27 2011-06-09 Korea Electronics Telecommun 資源間の物理的/論理的な関係をマッピングする方法及び装置
JP2010272127A (ja) * 2010-07-12 2010-12-02 Hitachi Ltd ディスクシステム
JP2010231825A (ja) * 2010-07-21 2010-10-14 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
JP2012141802A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理方法
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
JP2013073315A (ja) * 2011-09-27 2013-04-22 Kddi Corp 障害発生箇所特定用端末、障害発生箇所診断方法およびコンピュータプログラム
JP2013127693A (ja) * 2011-12-19 2013-06-27 Fujitsu Ltd 障害検出方法および障害検出システム
US8863154B2 (en) 2012-02-27 2014-10-14 Hitachi, Ltd. Monitoring system and monitoring program
US9329924B2 (en) 2012-02-27 2016-05-03 Hitachi, Ltd. Monitoring system and monitoring program
JP5658417B2 (ja) * 2012-02-27 2015-01-28 株式会社日立製作所 監視システム及び監視プログラム
WO2013128550A1 (ja) * 2012-02-27 2013-09-06 株式会社日立製作所 監視システム及び監視プログラム
US9158615B2 (en) 2012-07-02 2015-10-13 Fujitsu Limited Method and apparatus for managing system
CN103207820B (zh) * 2013-02-05 2016-06-29 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
CN103207820A (zh) * 2013-02-05 2013-07-17 北京百度网讯科技有限公司 基于raid卡日志的硬盘的故障定位方法及装置
JP2015176320A (ja) * 2014-03-14 2015-10-05 Necフィールディング株式会社 情報管理装置、情報管理方法、及びプログラム
US9563496B2 (en) 2014-06-27 2017-02-07 Fujitsu Limited Extraction method and device
JP2017097795A (ja) * 2015-11-27 2017-06-01 富士通株式会社 演算装置、プログラム、情報処理方法
JP2020528620A (ja) * 2017-07-24 2020-09-24 ウーバー テクノロジーズ,インコーポレイテッド アプリケーション動作要求の解析を介したアプリケーション機能のリカバリ
JP7191080B2 (ja) 2017-07-24 2022-12-16 ウーバー テクノロジーズ,インコーポレイテッド アプリケーション動作要求の解析を介したアプリケーション機能のリカバリ
WO2021261015A1 (ja) * 2020-06-24 2021-12-30 オムロン株式会社 ログ処理装置および制御プログラム
JP2021047928A (ja) * 2020-12-28 2021-03-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 試験自動化装置、試験方法、及びプログラム
JP7047054B2 (ja) 2020-12-28 2022-04-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 試験自動化装置、試験方法、及びプログラム

Also Published As

Publication number Publication date
JP4318643B2 (ja) 2009-08-26
US7506195B2 (en) 2009-03-17
AU2002359925A1 (en) 2004-07-29
CN1650274A (zh) 2005-08-03
AU2002359925B2 (en) 2008-10-23
JPWO2004061681A1 (ja) 2006-05-18
EP1577783A1 (en) 2005-09-21
US20050172162A1 (en) 2005-08-04
EP1577783A4 (en) 2008-04-16

Similar Documents

Publication Publication Date Title
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
JP5274652B2 (ja) 原因分析構成変更のための方法および装置
US8244792B2 (en) Apparatus and method for information recovery quality assessment in a computer system
CN100570599C (zh) 用于自动数据库或文件系统维护和修复的系统和方法
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
US20130007527A1 (en) System and method for automated solution of functionality problems in computer systems
JP2011076161A (ja) インシデント管理システム
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
US10783453B2 (en) Systems and methods for automated incident response
US7398511B2 (en) System and method for providing a health model for software
US20060004839A1 (en) Method and system for data processing with data replication for the same
US20080126283A1 (en) Method of capturing Problem Resolution for Subsequent Use in Managed Distributed Computer Systems
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
US8090994B2 (en) System, method, and computer readable media for identifying a log file record in a log file
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN115186001A (zh) 一种补丁处理方法和装置
CN108804239A (zh) 平台整合的方法、装置、计算机设备和存储介质
JP6666489B1 (ja) 障害予兆検知システム
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
CN104823406A (zh) 识别报告以解决网络问题
JP2003173273A (ja) 情報システム資産管理装置および方法
Tadano et al. Automatic synthesis of SRN models from system operation templates for availability analysis
JP3992029B2 (ja) オブジェクト管理方法
CN110677469A (zh) 一种证券灾备系统及灾备实现方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004564435

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11044227

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2002793425

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2002359925

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 20028295080

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2002793425

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002793425

Country of ref document: EP