WO2007007410A1 - メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム - Google Patents

メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム Download PDF

Info

Publication number
WO2007007410A1
WO2007007410A1 PCT/JP2005/012995 JP2005012995W WO2007007410A1 WO 2007007410 A1 WO2007007410 A1 WO 2007007410A1 JP 2005012995 W JP2005012995 W JP 2005012995W WO 2007007410 A1 WO2007007410 A1 WO 2007007410A1
Authority
WO
WIPO (PCT)
Prior art keywords
message
error
messages
computer
hardware
Prior art date
Application number
PCT/JP2005/012995
Other languages
English (en)
French (fr)
Inventor
Noriko Usui
Masami Taoda
Nobuhiro Takano
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP05759980.5A priority Critical patent/EP1903441B1/en
Priority to PCT/JP2005/012995 priority patent/WO2007007410A1/ja
Priority to JP2007524501A priority patent/JP4383484B2/ja
Publication of WO2007007410A1 publication Critical patent/WO2007007410A1/ja
Priority to US12/006,416 priority patent/US7823016B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Definitions

  • the present invention relates to a message analysis device that analyzes a message generated by each software that manages hardware that constitutes a computer and that affects the state of the hardware.
  • an administrator who manages a computer in order to improve the reliability of the computer, etc. sends a message including information on the operation status of the computer and errors (hereinafter referred to as an error message) from the computer. It was necessary to acquire it periodically (or irregularly), identify the error location of the computer, and correct the identified error location.
  • the messages output from the computer include not only error messages but also a wide variety of information, and the amount of messages is huge. There was a problem that it took a great burden on the administrator who specified and corrected.
  • Patent Document 1 an attribute is added to a message output from a computer, and messages are combined by combining the messages based on combination information that defines the combination order of the attributes. The technology of rearranging in the optimal order has been released.
  • Patent Document 1 JP 2002-351894 A
  • the present invention has been made in view of the above, and can reduce the burden imposed on the administrator, and can efficiently determine the location of the error in the computer in consideration of the correlation of error messages.
  • An object is to provide a message analysis device.
  • the present invention provides a message analysis that analyzes a message relating to the state of the hardware generated by each software that manages the hardware constituting the computer.
  • a message storage means for storing the plurality of messages; and a determination means for determining the state of the computer by comparing the plurality of messages stored by the message storage means.
  • the message analysis apparatus determines the state of the computer by comparing each of a plurality of messages generated by each software that manages the hardware constituting the computer. In addition to reducing the burden on the computer, it is possible to efficiently determine the state of the computer (such as the hardware in which a failure occurred or the operating state of the computer) in consideration of the correlation between error messages.
  • FIG. 1 is an explanatory diagram for explaining the concept of a message analysis apparatus that works on the present embodiment.
  • FIG. 2 is a functional block diagram showing a configuration of a message analysis apparatus according to the present embodiment.
  • FIG. 3 is a diagram illustrating an example of a data structure of a message definition dictionary information group.
  • FIG. 4 is a diagram illustrating an example of a data structure of suspected parts list information.
  • FIG. 5 is an explanatory diagram for explaining processing of the pickup unit.
  • FIG. 6 is an explanatory diagram for explaining a misunderstanding message.
  • FIG. 7 is a diagram showing an example of a message group extracted by the pickup unit.
  • FIG. 8 is an explanatory diagram for supplementarily explaining the processing of the grouping unit.
  • FIG. 9 is an explanatory diagram for supplementarily explaining the processing of the narrowing-down unit.
  • FIG. 10 is an explanatory diagram for supplementarily explaining processing of an error location detection specifying unit.
  • FIG. 11 is an explanatory diagram for supplementarily explaining the processing of the suspected part identifying unit.
  • FIG. 12 is an explanatory diagram for supplementarily explaining the processing of the group combining unit.
  • FIG. 13 is an example of a message analysis result displayed on the display device.
  • FIG. 14 is a flowchart showing the processing procedure of the message analysis apparatus according to this embodiment.
  • FIG. 15 is a flowchart of message pickup processing shown in step S 103 of FIG.
  • FIG. 16 is a flowchart of the misplaced message pickup process shown in step S 209 of FIG.
  • FIG. 17 is a flowchart of the grouping process shown in step S 104 of FIG.
  • FIG. 18 is a flowchart of the narrowing-down process shown in step S105 of FIG.
  • FIG. 19 is a flowchart of the error location detection process shown at step S106 in FIG.
  • FIG. 20 is a flowchart of the suspicious part specifying process shown in step S107 of FIG. [FIG. 21]
  • FIG. 21 is a flowchart of group integration processing shown in step SI08 of FIG.
  • FIG. 22 is a flowchart of the operation state specifying process shown in step S109 of FIG.
  • Figure 1 shows the book It is explanatory drawing for demonstrating the concept of the message analysis apparatus which works on an Example.
  • the message analysis device 100 acquires a message file including a plurality of messages indicating the operation status of the server 50 from the server 50 that executes a predetermined job. This will be described in the case of determining the state.
  • the Sano 50 includes an OS (Operating System) 51, a volume driver 52, an I / O (Input / Output) device driver 53, an HBA (Host Bus Adapter) driver 54, and HB A55, 56. And I / O devices 57 and 58.
  • OS Operating System
  • volume driver 52 an I / O (Input / Output) device driver 53
  • HBA Hypervisor Adapter
  • the OS 51 is a processing unit that performs file management, memory management, input / output management, provision of a user interface, and the like.
  • the volume driver 52 is a processing unit that controls the mirror configuration of the IZO devices 57 and 58. In the example of FIG. 1, the volume driver 52a included in the volume driver 52 controls the mirror configuration of the saddle devices 57 and 58.
  • the ⁇ device driver 53 is a processing unit that controls the ⁇ devices 57 and 58.
  • the I / O device driver 53a included in the I / O device driver 53 controls the I / O device 57
  • the IZO device driver 53b controls the IZO device 58.
  • the kite driver 54 is a processing unit that controls the kites 55 and 56.
  • the ⁇ driver 54a included in the ⁇ driver 54 controls the HBA 57 and controls the HBA driver 54b force HBA 58.
  • the HBAs 55 and 56 are devices that connect the HBA driver 54 and the I / O devices 57 and 58 and relay predetermined information.
  • the IZO devices 57 and 58 are storage devices that store information. . It should be noted that the mirror between 57/58 is mirrored.
  • the server 50 outputs a plurality of messages output from the OS 51, volume driver 52, I / O device driver 53, and HBA driver 54 as message files. Then, the message analysis device 100 acquires a message file from the server 50 via the input device 200.
  • the message analysis device 100 Based on the message file acquired from the engine unit 100b power server 50, the message definition dictionary information group 100a, and the like, the message analysis device 100 analyzes the relationship between a plurality of messages included in the message file and detects a failure. The determined parts and the operational status of the server 50 are determined, and the determination result is output to the display device 300. As described above, since the message analysis device 100 determines the location where an error has occurred, the position of a failed component, the operation state, and the like from the message file, the burden on the administrator can be reduced.
  • FIG. 2 is a functional block diagram showing the configuration of the message analysis apparatus according to this embodiment.
  • the message analysis device 100 includes an interface unit 110, an engine unit 120, and a storage unit 130. Note that the message analysis device 100 is connected to an input device 200 such as a keyboard and a mouse and a display device 300 such as a display.
  • the interface unit 110 is a processing unit that transfers information such as a message file input from the input device 200 to the engine unit 120. Further, the interface unit 110 outputs information acquired from the engine unit 120 to the display device 300.
  • the engine unit 120 outputs a message file based on the message file acquired from the input device 200 and the message definition dictionary information group 130a stored in the storage unit 130 (in the example of FIG. 1, It is a processing unit that determines the error occurrence status of the server 50).
  • FIG. 3 is a diagram showing an example of the data structure of the message definition dictionary information group 130a.
  • this message definition dictionary information group 130a includes “regular expression format”, “number of message lines”, “code”, “error type”, “handling method number”, “driver class”. , “Suspicious part number”, “abnormal Z recovery component”, “weighting”, “final narrowing method”, “error summary number”, “instance name acquisition information”, “operation status”.
  • the message definition dictionary information group 130a includes a plurality of message definition dictionary information 1, 2,. For convenience of explanation, only message definition dictionary information 1 and 2 are shown here, and other message definition dictionary information is omitted.
  • Regular expression format is information for associating the message included in the message file with the message definition dictionary information included in the message definition dictionary information group 130a. For example, in the example shown in Fig. 3, the message in the message file that matches the format of the regular expression format “WARNING. * Mp. * Switch no existed.” Corresponds to page definition dictionary information 1.
  • the regular expression format is also used to pick up certain messages in the message file.
  • Message line number is information indicating how many lines the message to be associated with the message definition dictionary information is composed of.
  • the message is “3” lines.
  • “Code” is information indicating a character code used for a message.
  • the code in the message definition dictionary information 1 shown in FIG. 3 is “ASCII”.
  • Error type indicates the error type of the message associated with the message definition dictionary information.
  • the message error type associated with message definition dictionary information 1 in FIG. 3 is “interface error”.
  • "Corrective action number” is information for identifying the recording location of information relating to the error coping method (the coping method of the error is recorded in the handling method file information 130e shown in Fig. 2). . That is, message definition dictionary information 1 in FIG. 3 is recorded in “3” and “7” of coping method power coping method file information 130e relating to error type “interface error”.
  • the handling method file information 130e is information in which a list of handling methods for errors is recorded, and each number is associated with the handling method of the error on a one-to-one basis. An example of an error handling method is “Check connection status of suspected parts”.
  • Driver class indicates class hierarchy information of a driver to which a message associated with message definition dictionary information belongs.
  • the message definition dictionary information 1 in FIG. 3 indicates that the message associated with the message definition dictionary information 1 belongs to the HBA layer.
  • “Suspicious part number” is the part information to be replaced when an error specified by the error type occurs (information on the part to be replaced is recorded in the suspected part list information 130c shown in FIG. 2). This is information for specifying the recording location. That is, in the message definition dictionary information 1 in FIG. 3, the information on the replacement part related to the error type “interface error” is recorded in the “1”, “6”, and “102” numbers of the suspected part list information 130c. ing.
  • FIG. 4 is a diagram showing an example of the data structure of the suspected parts list information 130c. Shown in the figure As described above, in the suspected parts list information 130c, each number is associated with information on a part to be replaced. From Fig. 3 and Fig. 4, the replacement part corresponding to the suspected part number "1" is "PCI bus [processing device ZPCIBoxZPCI disk box] (hardware failure)", and the replacement part corresponding to the suspected part number "6” is The replacement part corresponding to the suspected part number “102” is “I / O device or medium (medium abnormality)”.
  • the "Error / Recovery component" is managed by the management message that manages the redundant configuration such as the path and volume, and the instance name (device and control such as disk and tape). Logical name for associating drivers) or physical path information.
  • Weighting indicates the priority order of messages associated with the message definition dictionary information, and the higher the weighting value, the higher the priority order.
  • the “final narrowing method” is information indicating how to determine the priority of messages when there are multiple messages with the same weighting value. In the message definition dictionary information 1 shown in Fig. 3, the final narrowing method is “squeeze to the last message”, so if there are multiple messages with the same weighting value, the last message appears. Set the highest priority.
  • the “error summary number” identifies the recording location of the information related to the error summary of the message associated with the message definition dictionary information (the error summary is recorded in the error summary file information 130d shown in FIG. 2). It is information to do. In other words, in the message definition dictionary information 1 in FIG. 3, the error summary number power S is “l” and “20”, so the error summary power of the message is “1” in the error summary file error information 130d. Recorded as “20”.
  • the error summary file information 130d is information in which a summary list of errors is recorded, and each number and the error summary are associated one-to-one. An example of an error summary is “The optical signal of the opposite device cannot be detected or cannot be synchronized”.
  • “Instance name acquisition information” is information indicating which part of the message included in the message file contains the instance information.
  • the instance information is information indicating a correspondence relationship between a device and a driver for controlling the device.
  • "Operation status" is information indicating the operation status of an instance (that is, a device and a control routine that controls the device) associated with a message associated with message definition dictionary information. For example, it can be seen that the message instance associated with the message definition dictionary information 1 shown in FIG. 3 is continuing (retrying).
  • the engine unit 120 includes a pick-up unit 120a, a grouping unit 120b, a narrowing unit 120c, and an error location detection specifying unit 12 Od.
  • the pickup unit 120a is a message whose format matches the regular expression format of the message definition dictionary information group 130a based on the message file input from the input device 200 and the message definition dictionary information group 130a. Is a processing unit for extracting. Although not shown, the pickup unit 120a stores the message file in the storage unit 130.
  • FIG. 5 is an explanatory diagram for explaining the processing of the pickup unit 120a.
  • message 1 in the message file (for convenience of explanation, only message 1 is shown here) is the regular expression format KWARNIN G. * / Disk @. Since “* (disk. *) ⁇ n transport failed:. * retrying” is matched, message 1 is associated with message definition dictionary information 2 and extracted to the big-up unit 120a.
  • any method may be used for the pickup unit 120a to extract a message whose format matches the regular expression format from the message file. is there.
  • FIG. 6 is an explanatory diagram for explaining a misunderstanding message. As shown in the figure, there is no problem because normal messages are divided into message units. However, since one message has interrupted the other message, the pick-up processing unit 120a After performing the normal extraction process, the extraction process taking into account the lost message is performed again. Note that the extraction process taking account of the lost message will be described in detail in a later flowchart.
  • FIG. 7 is a diagram showing an example of a message group from which the pickup unit 120a has also extracted a predetermined message file (not shown here) force. In the following, the message group shown in FIG. 7 is referred to as an error message group 400, and each message included in the error message group 400 is referred to as an error message. Figure 7 shows the case where error messages 1 to 8 are extracted.
  • the error messages 2 and 3, the error messages 4 and 8, and the error messages 6 and 7 are the same instance. That is, error messages 2 and 3 match on instance (disk2), error messages 4 and 8 match on instance (mpO), and error messages on messages 6 and 7 match on instance (disk4). ing.
  • the error messages 1 and 5 belong to the HBA layer
  • the messages 2, 3, 6, and 7 belong to the target layer
  • the messages 4 and 8 are the path management layer. Belong to! /
  • volume layer there is a layer belonging to the volume driver 52 shown in FIG. 1, that is, a volume layer. Note that the HBA layer, target layer, path management layer, and volume layer are in the upper layer (the volume layer is the highest layer).
  • the error message group 400 is used as an example to process each processing unit, that is, a grouping unit 120b, a narrowing unit 120c, an error location detection specifying unit 120d, a suspected component specifying unit 120e, The group integration unit 120f, the operation status specifying unit 120g, and the output unit 120h will be described.
  • the grouping unit 120b acquires the error message group 400 from the pickup unit 120a, and groups each error message included in the error message group 400 based on the physical path of each error message Part.
  • the grouping unit 120b sends each error message of the error message group 400 to the physical path.
  • the grouping unit 120b can be divided into 1, 2, 3, 4, and 8 error message groups and 5, 6, and 7 error message groups.
  • the error message group of 1, 2, 3, 4, and 8 is referred to as “Gnorepe A”
  • the error message group of 5, 6, and 7 is referred to as “Gnorepe B”.
  • FIG. 8 is an explanatory diagram for supplementarily explaining the processing of the grouping unit 120b.
  • the narrowing-down unit 120c obtains the error message group 400, the message definition dictionary information corresponding to each error message, and the information of each group A and B divided by the grouping unit 120b, and the total number of error messages. It is a processing unit that narrows down.
  • the narrowing-down unit 120c first identifies error messages having the same instance. From error message group 400, 2 and 3 error message instances, 4 and
  • the narrowing-down unit 120c acquires message definition dictionary information corresponding to error messages 2, 3, 4, 8, 6, and 7, and based on the numerical value set to “weighting”, Select the error message with the highest priority.
  • the error value of 3 is higher than the error message of 2.
  • the error message of 8 is higher than the error message of 4.
  • the error message of 8 is higher than the error message of 6. It is assumed that the weight value is set higher in the error message.
  • the narrowing-down unit 120c narrows down the error messages 1 to 8 into error messages 1, 3, 5, 7, and 8 (hereinafter referred to as error message group 500). It will be.
  • FIG. 9 is an explanatory diagram for supplementarily explaining the processing of the narrowing-down unit 120c.
  • the error location detection specifying unit 120d acquires the error message group 500 and the message definition dictionary information corresponding to each error message in the error message group 500 from the narrowing-down unit 120c, and specifies the error occurrence location Part.
  • the error location detection specifying unit 120d specifies the operation state of each message definition dictionary information corresponding to the error message group 500 and the hierarchy (HBA layer, target layer, etc.) to which the error message belongs, and sets the lowest layer. (HBA layer) to a certain layer (for example, volume layer), an error message that identifies an error location (hereinafter referred to as an error location specification message) ).
  • the error location detection specifying unit 120d selects the error messages 1, 3, 5, and 7 from the error message group 500 as error location specification messages.
  • Figure 10 It is explanatory drawing for demonstrating supplementary processing of the error location detection specific part 120d.
  • the suspicious part specifying unit 120e obtains the error message group 500 and the message definition dictionary information corresponding to each error message in the error message group 500 from the narrowing down part 120c, and specifies the part of the failed computer. Part.
  • the suspicious part specifying unit 120e specifies the error type of each message definition dictionary information corresponding to the error message group 500 and the hierarchy to which the error message belongs, and among the error messages, the lowest layer ( The error message (near the node) is the error message that identifies the failed computer component (hereinafter referred to as the suspected component identification message).
  • the suspected component specifying unit 120e selects each error message as the suspected component specifying message when there is no relationship between the error types in the group. For example, in group A, if the error types of error messages 1, 3, and 8 are related to interface errors, the error message 1 at the lowest level is selected as the suspect component identification message. If the error types of error messages 3, 3, and 8 are different, error messages of multiple levels are selected as suspected component identification messages, respectively. In this embodiment, it is assumed that the error type of each error message is related.
  • FIG. 11 is an explanatory diagram for supplementarily explaining the processing of the suspicious part specifying unit 120e. As shown in FIG. 11, in this embodiment, the error messages 1 and 5 are selected as the suspected component identification messages.
  • the group integration unit 120f obtains the error message group 500 and the message definition dictionary information corresponding to each error message of the error message group 500 from the suspicious part specifying unit 120e, and detects an error Z in the message definition dictionary information.
  • This is a processing unit that integrates error messages with the same recovery component.
  • FIG. 12 is an explanatory diagram for supplementarily explaining the processing of the group combining unit 120f.
  • the operation status specifying unit 120g receives the error message group 500 from the group integration unit 120f, Acquire the integrated information of group c and the message definition dictionary information corresponding to each error message, and select the highest level error message as the operation status specifying message. In this embodiment, since the error message 8 is the highest layer error message, the operation status specifying unit 120g selects the error message 8 as the operation status specification message.
  • the output unit 120h receives information on the error message group 400, error location identification message, suspected component identification message, and operation status identification message from each processing unit (error location detection identification unit 120d, suspected component identification unit 120e, operation Based on each information obtained from the status identification unit 120g), message definition dictionary information group 130a, output information definition dictionary information 130b, suspected parts list information 130c, error summary file information 130d, and action method file information 13 Oe.
  • the processing unit outputs information on the error occurrence state of the computer (in the case of FIG. 1, the server 50) (hereinafter referred to as a message analysis result) to the display device 300.
  • FIG. 13 is an example of a message analysis result displayed on the display device 300.
  • this message analysis result includes “Summary”, “Suspicious part”, “Corrective action”, “Detected location”, “Operation status”, and “Narrowed message”.
  • the format of this display screen is set in the output information definition dictionary information 130b.
  • “Summary” is an error summary identified by the error summary number of the message definition dictionary information corresponding to the error location identification message and the error summary file information 130d. This is information on the suspicious component specified by the suspicious component number in the message definition dictionary information corresponding to the suspicious component identification message and the suspicious component list information 130c.
  • “Corrective action” is a coping method of the error identified by the coping method number of the message definition dictionary information corresponding to the error location specifying message and the coping method file information 130e.
  • Abnormal message definition dictionary information corresponding to the suspected component identification message Indicates information on the Z recovery component (information on the component in which the failure occurred).
  • “Operation status” indicates operation status information of the message definition dictionary information corresponding to the operation status specifying message.
  • the “squeezed message” indicates information on each error message of the error message group 400. [0071] In this way, the administrator can easily identify the error location of the computer, the failed part, etc. by referring to the display screen shown in FIG. , The burden on the administrator can be reduced.
  • FIG. 14 is a flowchart showing a processing procedure of the message analysis apparatus 100 according to the present embodiment.
  • the message analysis device 100 acquires the engine unit 120 power message file from the input device 200 (step S101), and acquires the message definition dictionary information group 13 Oa (step S102).
  • the pickup unit 120a performs message pickup processing (step S103), and the grouping unit 120b performs grouping processing (step S104), and performs the narrowing unit 120c force narrowing processing (step S). 105).
  • the error location detection identifying unit 120d performs error location detection processing (step S1 06), the suspected component identification unit 120e performs suspected component identification processing (step S107), and the group integration unit 120f. However, group integration processing is performed (step S108).
  • the operation state specifying unit 120g performs operation state specifying processing (step S109), the output unit 120h creates a message analysis result (step S110), and outputs the message analysis result to the display device 300. (Step SI 11).
  • FIG. 15 is a flowchart of the message pickup process shown in step S 103 of FIG.
  • the pickup unit 120a reads a message from the message file in units of predetermined lines (step S201), and acquires an unselected message (step S202).
  • step S203 the regular expression format is compared with the acquired message (step S203), and if they match (step S204, Yes), the matched messages are added to the error message group (step S205), and all It is determined whether or not the matching for the message has been completed (step S207). On the other hand, if they do not match (step S204, No), the mismatched message is added to the misplaced message group (step S206), and the process proceeds to step S207.
  • step S208, No the process proceeds to step S202, and all messages are processed. If matching is complete (step S 208, Yes), a misplaced message pickup process is performed (step S 209).
  • FIG. 16 is a flowchart of the misleading message pickup process shown in step S209 of FIG.
  • the pickup unit 120a reads a group of lost messages (step S301) and selects an unselected lost message (only one line) (step S302).
  • step S303 the regular expression format and the obtained message are compared line by line (step S303), and if they match (step S304, Yes), it is determined whether the remaining lines match. If they match, the message is added to the error message group (step S305), and it is determined whether or not matching has been completed for all message lines (step S306). On the other hand, if they do not match (step S304, No), the process proceeds to step S306 as it is.
  • step S306 If matching for all message lines is not completed (step S306, No), the process proceeds to step S302. If matching for all message lines is completed (step S306), The misleading message pickup process is terminated.
  • the pickup unit 120a narrows down a large number of messages included in the message file to only necessary messages (error message group), so that the error occurrence state of the computer can be determined efficiently.
  • FIG. 17 is a flowchart of the grouping process shown in step S104 of FIG.
  • the grouping unit 120b selects an unselected error message (step S401), and determines whether or not the selected error message holds physical path information (step S402).
  • Step S403 If the physical path is held (Step S403, Yes), it is determined whether or not the existing group has the appropriate physical path (Step S404), and is matched. Physics If the path is not held (step S405, No), a new group is created, an error message is added to the created group (step S406), and the process proceeds to step S412.
  • step S405 if the matching physical path is retained (Yes in step S405), an error message is added to the existing group having the matching physical path (step S407), and step S412 is added. Transition.
  • step S407 determines whether or not the same instance as the selected error message exists in the existing group (step S407).
  • step S408 if it exists (step S409, Yes), add an error message to the existing group holding the same instance (step S410), and if grouping is not complete (step S412, No), the process proceeds to step S401, and when the grouping is completed (step S412, Yes), the grouping process is terminated.
  • step S409 if the same instance as the selected error message does not exist in the existing group (step S409, No), an error message is added to the group to which the closest message belongs (step S411), Move on to step S412.
  • the grouping unit 120b divides the separated messages into physically related groups, so that it is possible to efficiently analyze the error occurrence state of the computer.
  • FIG. 18 is a flowchart of the narrowing-down process shown in step S105 of FIG.
  • the narrowing-down unit 120c selects an unselected group (step S501), and determines whether or not an error message of the same instance exists in the group (step S502).
  • step S503 If the same instance does not exist (step S503, No), the "weight" of each error message including the same instance is obtained from the message definition dictionary information (step S504). And the error message on the side with the smaller weight is invalidated (step S505). If not all groups have been selected (step S506, No), the process proceeds to step S501 and all groups have been selected. If (Step S506, Ye s), the narrowing-down process ends.
  • step S503 if an error message of the same instance does not exist in the group (step S503, No), the process proceeds to step S506 as it is.
  • the narrowing-down unit 120c narrows down a plurality of error messages having the same instance to one, so that the status of each instance can be determined with higher accuracy.
  • FIG. 19 is a flowchart of the error location detection process shown in step S106 of FIG.
  • the error location detection specifying unit 120d selects an unselected group (step S601), and acquires message definition dictionary information for each error message in the selected group (step S602). ).
  • step S603 Select an unselected error message in the group (step S603), and if the selected error message's operation status is “Stopped” or “Degenerate” and is in the HBA layer ( (Step S604, Yes), the selected error message is set as an error location specifying message (step S605), and the process proceeds to step S611.
  • Step S604 if the operation status of the selected error message is "Stopped” or “Degenerate” and it is not the HBA layer (Step S604, No), it is determined whether or not it is in the operational status status (normal) ( If the status is step S606) (step S606, Yes), the process proceeds to step S611.
  • Step S606 it is determined whether or not the selected error message force S target ( target ) layer (step S607), and the selected error message force S target. If it is a layer (step S607, Yes), the process proceeds to step S605.
  • step S607 If the selected error message is not the target layer (step S607), the selected error message is the target layer and the other error messages in the group are
  • Step S608 If the error message is the target layer and the other error message in the group is not the HBA layer! (Step S608, Yes), go to Step S605 Transition.
  • step S608 if the condition of step S608 is not satisfied! / (Step S608, No), the selected error message is the path management layer, and the other error messages in the group are HBA. Whether it is a layer or a target layer is determined (step S609).
  • step S609 If the selected error message is the path management layer and not the other error message 1S HBA layer or target layer in the group (step S609, Yes), the process proceeds to step S605.
  • step S609 if the condition of step S609 is not met! /, (Step S609, No), the selected error message is the volume management layer, and other error messages in the group are Is determined (step S610).
  • step S610 If the selected error message is the volume management layer and the other error messages in the group are the volume management layer (step S610, Yes), the process proceeds to step S605.
  • step S610 determines whether all error messages in the group have been selected (step S611), and all of the errors in the group are determined. If no error message has been selected (step S611, No), the process proceeds to step S603. If all error messages have been selected (step S6 11, Yes), all groups have been selected. Whether or not (step S612).
  • step S612, No If all groups have not been selected (step S612, No), the process proceeds to step S601. If all groups have been selected (step S612, Yes), error location detection processing is performed. finish.
  • the error location detection specifying unit 120d selects the error location specifying message based on the operation state and hierarchy of each error message, and thus can specify the error location of the computer with high accuracy. .
  • FIG. 20 is a flowchart of the suspicious part identification process shown in step S107 of FIG.
  • the suspicious part specifying unit 120e selects an unselected group (step S701), and acquires a message definition dictionary file for each error message in the selected group (step S702).
  • step S703 it is determined whether or not the error type of each error message is related (step S703), and if it is related (step S704, Yes), of the error messages, If the error message of the lowest layer is set as the suspected part identification message (step S705) and all groups are selected (step S707, No), the process proceeds to step S701.
  • each error message is set as a suspicious part specifying message (step S706), and the process proceeds to step S707.
  • the suspected component identification 120e when the error type of each error message is related, the error message belonging to the lower layer closest to the hardware among the error messages as the suspected component identification message. Because it is set, the failed part can be identified with high accuracy.
  • FIG. 21 is a flowchart of the group integration process shown in step S108 of FIG.
  • the group integration unit 120f determines whether or not the physical address (management error message) of “abnormal Z recovery component” for the management error message exists in each group ( Step S801).
  • step S80 2 If the physical address of "abnormal Z recovery component" exists (step S80 2, Yes), the physical address power of "abnormal Z recovery component" in each error message is displayed in another dup. It is determined whether or not it matches the physical address of the included error message (step S803), and if it matches (step S804, Yes), the error messages with the matching physical path are integrated (step S805), If they do not match (step S804, No), the group integration process ends. If the physical address of “abnormal Z recovery component” does not exist (step S802, No), the group integration process ends.
  • the group integration unit 120f integrates physically related error groups, it is possible to view messages in units of system operation, and to easily grasp the operation state.
  • FIG. 22 is a flowchart of the operation state specifying process shown in step S109 of FIG.
  • the operational status specifying unit 120g selects an unselected error message (Steps If the selected error message is a volume management error message, the selected error message is set as the operation status specifying message (step S903), and the process proceeds to step S907.
  • step S902 if the selected error message is not an error message of the volume management system (volume management layer) (No in step S902), the selected error message is an error message of the path management system and It is determined whether there is no error message (step S904).
  • step S904 If the selected error message is a path management error message and there is no higher layer error message (Yes in step S904), the process proceeds to step S903, and the condition in step S904 is not satisfied. If this is the case (step S904, No), it is determined whether or not the selected error message is a target layer error message and no higher layer error message exists! (Step S905).
  • step S905 Selected error message power If it is an error message in the target layer and there is no error message in the upper layer (step S905, Yes), the process proceeds to step S903, and the condition in step S905 is not satisfied In (Step S905, No), it is determined whether the selected error message is an HBA layer error message and all other error messages are also HBA layer error messages (Step S906).
  • step S 906 If the selected error message is an HBA layer error message and all other error messages are also HBA layer error messages (step S 906, Yes), the process proceeds to step S903. If the conditions in step S906 are not met (step S9
  • step S907 it is determined whether all error messages have been selected.
  • step S907 If not all error messages have been selected (step S907, No), the process proceeds to step S901, and if all error messages have been selected (step S90).
  • the operation state specifying unit 120g selects an error message belonging to the highest layer from each error message, and sets the selected error message in the operation state specification message. Can be accurately determined.
  • the message analysis device 100 useful for the present embodiment includes the engine unit 120. 1S
  • the message file is acquired from the input device 200, the pickup unit 120a extracts the error message group 400, the grouping unit 120b force groups the error message group by physical path, and the narrowing unit 120c generates the error message group.
  • error location identification unit 120d selects error location identification message
  • suspicious component identification unit 120e force selects suspicious component identification message
  • group integration unit 120f integrates and operates multiple groups Since the status specifying unit 120g selects the operation status specifying message and outputs the output unit 120h message analysis result to the display device 300, the burden on the administrator is reduced and the correlation of error messages is taken into account. Thus, the state of the computer can be determined efficiently.
  • the message analysis apparatus analyzes a huge amount of messages output from a computer based on the relationship between the messages and determines the state of the computer. Useful for equipment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 メッセージ解析装置100は、エンジン部120が、入力装置200からメッセージファイルを取得し、ピックアップ部120aが、エラーメッセージ群を抽出し、グループ分け部120bが、エラーメッセージ群を物理パスごとにグループ分けし、絞込み部120cが、エラーメッセージ群を絞込み、エラー箇所検出特定部120dが、エラー箇所特定メッセージを選択し、被疑部品特定部120eが、被疑部品特定メッセージを選択し、グループ統合部120fが、複数のグループを統合し、運用状態特定部120gが、運用状態特定メッセージを選択し、出力部120hが、メッセージ解析結果を作成して表示装置300に出力する。

Description

明 細 書
メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラ ム 技術分野
[0001] 本発明は、コンピュータを構成するハードウェアを管理する各ソフトウェアによって 生成された当該ハードウェアの状態に力かるメッセージを解析するメッセージ解析装 置に関するものである。
背景技術
[0002] 従来、コンピュータに対する信頼性等を向上させるために、コンピュータを管理する 管理者は、このコンピュータから、コンピュータの運用状況や、エラーなどの情報(以 下、エラーメッセージ)を含んだメッセージを定期的(または不規則)に取得して、コン ピュータのエラー箇所などを特定し、特定したエラー箇所を修正する必要があった。
[0003] し力し、コンピュータから出力されるメッセージは、エラーメッセージのみならず、多 種多様な情報が含まれていると共に、メッセージ量が膨大であるため、メッセージを 解析して、コンピュータのエラーを特定'修正する管理者に多大な負担をかけてしまう という問題があった。
[0004] そこで、近年では、複数のエラーメッセージにかかわる正規表現魏めた辞書情報 を予め作成し、この辞書情報を基にして、コンピュータから出力される膨大な量のメッ セージをエラーメッセージのみに絞り込むことによって、管理者の解析すべきメッセ一 ジ量を減らし、管理者にカゝかる負担を軽減させている。
[0005] なお、特許文献 1では、コンピュータから出力されるメッセージに属性を付加すると 共に、この属性の結合順序などを定めた結合情報に基づ 、て各メッセージを結合さ せることで、メッセージを最適な順番に並び替えるという技術が公開されている。
[0006] 特許文献 1 :特開 2002— 351894号公報
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、従来に力かる技術では、管理者が解析すべきメッセージ量を多少減 少させることができるものの、最終的なエラー箇所を特定する場合には、管理者自身 力 各階層のドライバやアプリケーションが出力した複数種類のエラーメッセージの相 互関係を考慮して、一つ一つ各エラーメッセージを解析し、エラー箇所を特定する必 要があつたため、管理者には依然多大な負荷が力かってしまうという問題があった。
[0008] また、複数のエラーメッセージを基にして、エラー箇所を特定する場合には、専門 的な知識が必要となるため、管理者は、エラーメッセージをコンピュータの設計者に 問い合わせてエラー箇所を特定する必要もあり、非常に非効率でコストも力かってし まうという問題もあった。
[0009] すなわち、管理者に力かる負担を軽減させると共に、エラーメッセージの相互関係 を考慮して、コンピュータのエラー箇所などを効率的に判定することが極めて重要な 課題となっている。
[0010] 本発明は、上記に鑑みてなされたものであって、管理者に力かる負担を軽減させる と共に、エラーメッセージの相互関係を考慮して、コンピュータのエラー箇所を効率 的に判定可能なメッセージ解析装置を提供することを目的とする。
課題を解決するための手段
[0011] 上述した課題を解決し、 目的を達成するために、本発明は、コンピュータを構成す るハードウェアを管理する各ソフトウェアによって生成された当該ハードウェアの状態 にかかるメッセージを解析するメッセージ解析装置であって、前記複数のメッセージ を記憶するメッセージ記憶手段と、前記メッセージ記憶手段によって記憶された複数 のメッセージを比較することによって、前記コンピュータの状態を判定する判定手段と 、を備えたことを特徴とする。
発明の効果
[0012] 本発明にかかるメッセージ解析装置は、コンピュータを構成するハードウェアを管理 する各ソフトウェアによって生成された複数のメッセージをそれぞれ比較することによ つて、コンピュータの状態を判定するので、管理者に力かる負担を軽減させると共に 、エラーメッセージの相互関係を考慮したコンピュータの状態 (不具合の発生したハ 一ドウエアやコンピュータの運用状態など)を効率的に判定することができる。
図面の簡単な説明 [図 1]図 1は、本実施例に力かるメッセージ解析装置の概念を説明するための説明図 である。
[図 2]図 2は、本実施例にカゝかるメッセージ解析装置の構成を示す機能ブロック図で ある。
[図 3]図 3は、メッセージ定義辞書情報群のデータ構造の一例を示す図である。
[図 4]図 4は、被疑部品リスト情報のデータ構造の一例を示す図である。
[図 5]図 5は、ピックアップ部の処理を説明するための説明図である。
[図 6]図 6は、紛れメッセージを説明するための説明図である。
[図 7]図 7は、ピックアップ部が抽出したメッセージ群の一例を示す図である。
[図 8]図 8は、グループ分け部の処理を補足説明するための説明図である。
[図 9]図 9は、絞込み部の処理を補足説明するための説明図である。
[図 10]図 10は、エラー箇所検出特定部の処理を補足説明するための説明図である。
[図 11]図 11は、被疑部品特定部の処理を補足説明するための説明図である。
[図 12]図 12は、グループ結合部の処理を補足説明するための説明図である。
[図 13]図 13は、表示装置に表示されるメッセージ解析結果の一例である。
[図 14]図 14は、本実施例にカゝかるメッセージ解析装置の処理手順を示すフローチヤ ートである。
[図 15]図 15は、図 14のステップ S103に示したメッセージピックアップ処理のフロー チャートである。
[図 16]図 16は、図 15のステップ S209に示した紛れメッセージピックアップ処理のフ ローチャートである。
[図 17]図 17は、図 14のステップ S 104で示したグループ分け処理のフローチャートで ある。
[図 18]図 18は、図 14のステップ S105で示した絞込み処理のフローチャートである。
[図 19]図 19は、図 14のステップ S106で示したエラー箇所検出処理のフローチャート である。
[図 20]図 20は、図 14のステップ S107で示した被疑部品特定処理のフローチャート である。 [図 21]図 21は、図 14のステップ SI 08で示したグループ統合処理のフロ、 である。
[図 22]図 22は、図 14のステップ S109で示した運用状態特定処理のフロ である。
符号の説明
100 メッセージ解析装置
110 インターフェース咅 ^
120 エンジン部
120a ピックアップ咅
120b グループ分け部
120c 絞込み部
120d エラー箇所検出特定部
120e 被疑部品特定部
120f グループ統合部
120g 運用状態特定部
130 記憶部
130a メッセージ定義辞書情報群
130b 出力情報定義辞書情報
130c 被疑部品リスト情報
130d エラー概要ファイル情報
130e 対処方法ファイル情報
200 入力装置
300 表示装置
発明を実施するための最良の形態
[0015] 以下に、本発明に係るメッセージ解析装置の実施例を図面に基づいて詳細に説明 する。なお、この実施例によりこの発明が限定されるものではない。
実施例
[0016] まず、本実施例に力かるメッセージ解析装置の概念について説明する。図 1は、本 実施例に力かるメッセージ解析装置の概念を説明するための説明図である。図 1で は、一例として、メッセージ解析装置 100が、所定の業務を実行するサーバ 50から、 このサーバ 50の運用状態を示すメッセージを複数含んだメッセージファイルを取得し 、このメッセージファイル力もサーバ 50の状態を判定する場合にっ 、て説明する。
[0017] なお、サーノ 50は、 OS (Operating System) 51と、ボリュームドライバ 52と、 I/O (I nput/Output)デバイスドライバ 53と、 HBA (Host Bus Adapter)ドライバ 54と、 HB A55, 56と、 I/O装置 57, 58とを有する。
[0018] OS51は、ファイルの管理、メモリの管理、入出力の管理、ユーザーインターフエ一 スの提供などを行なう処理部である。ボリュームドライバ 52は、 IZO装置 57, 58のミ ラー構成を制御する処理部である。なお、図 1の例では、ボリュームドライバ 52に含ま れるボリュームドライバ 52aが ΙΖΟ装置 57, 58のミラー構成を制御する。
[0019] ΙΖΟデバイスドライバ 53は、 ΙΖΟ装置 57, 58を制御する処理部である。なお、図 1の例では、 I/Oデバイスドライバ 53に含まれる I/Oデバイスドライバ 53aが、 I/O 装置 57を制御し、 IZOデバイスドライバ 53bが、 IZO装置 58を制御する。
[0020] ΗΒΑドライバ 54は、 ΗΒΑ55, 56を制御する処理部である。なお、図 1の例では、 ΗΒΑドライバ 54に含まれる ΗΒΑドライバ 54aが、 HBA57を制御し、 HBAドライバ 5 4b力 HBA58を制御する。
[0021] HBA55, 56は、 HBAドライバ 54と I/O装置 57, 58とを接続し、所定の情報を中 継する装置であり、 IZO装置 57, 58は、情報を記憶する記憶装置である。なお、 \/ Ο装置 57, 58間はミラーリングされている。
[0022] サーバ 50は、 OS51、ボリュームドライバ 52、 I/Oデバイスドライバ 53、 HBAドライ ノ 54から出力される複数のメッセージをメッセージファイルとして出力する。そして、メ ッセージ解析装置 100は、入力装置 200を介して、サーバ 50からメッセージファイル を取得する。
[0023] メッセージ解析装置 100は、エンジン部 100b力 サーバ 50から取得したメッセージ ファイルおよびメッセージ定義辞書情報群 100aなどに基づ 、て、メッセージファイル に含まれる複数のメッセージ間の関連を解析し、故障した部品やサーバ 50の運用状 態などを判定し、判定した結果を表示装置 300に出力する。 [0024] このように、メッセージ解析装置 100は、メッセージファイルから、エラー発生箇所や 故障した部品の位置、運用状態などを判定するので、管理者に力かる負担を軽減さ せることができる。
[0025] 次に、本実施例に力かるメッセージ解析装置の構成について説明する。図 2は、本 実施例にカゝかるメッセージ解析装置の構成を示す機能ブロック図である。同図に示 すように、このメッセージ解析装置 100は、インターフェース部 110と、エンジン部 12 0と、記憶部 130とを有する。なお、メッセージ解析装置 100は、キーボードやマウス などの入力装置 200とディスプレイなどの表示装置 300に接続されている。
[0026] インターフェース部 110は、入力装置 200から入力されるメッセージファイルなどの 情報をエンジン部 120に転送する処理部である。また、インターフェース部 110は、 エンジン部 120から取得した情報を、表示装置 300に出力する。
[0027] エンジン部 120は、入力装置 200から取得したメッセージファイルと、記憶部 130に 記憶されたメッセージ定義辞書情報群 130aとを基にして、メッセージファイルを出力 したコンピュータ(図 1の例では、サーバ 50)のエラー発生状態を判定する処理部で ある。
[0028] ここで、メッセージ定義辞書情報群 130aについて説明する。図 3は、メッセージ定 義辞書情報群 130aのデータ構造の一例を示す図である。同図に示すように、このメ ッセージ定義辞書情報群 130aは、「正規表現フォーマット」、「メッセージ行数」、「コ 一ド」、「エラー種別」、「対処方法番号」、「ドライバクラス」、「被疑部品番号」、「異常 Z復旧構成部品」、「重み付け」、「最終絞込み方法」、「エラー概要番号」、「インスタ ンス名取得情報」、「運用状態」を有する。なお、メッセージ定義辞書情報群 130aに は複数のメッセージ定義辞書情報 1、 2、 · · ·が含まれる。ここでは、説明の便宜上、メ ッセージ定義辞書情報 1、 2のみを示し、その他のメッセージ定義辞書情報は省略す る。
[0029] 「正規表現フォーマット」は、メッセージファイルに含まれるメッセージと、メッセージ 定義辞書情報群 130aに含まれるメッセージ定義辞書情報とを対応付けるための情 報である。例えば、図 3の例では、正規表現フォーマット「WARNING.*mp.*switch no existed.」のフォーマット形式と一致するメッセージファイル中のメッセージは、メッセ ージ定義辞書情報 1に対応付けられる。また、正規表現フォーマットは、メッセージフ アイルの中力 所定のメッセージをピックアップする場合にも利用される。
[0030] 「メッセージ行数」は、メッセージ定義辞書情報に対応付けられるべきメッセージが、 何行で構成されて 、るかを示す情報である。図 3に示すメッセージ定義辞書情報 1で は「3」行のメッセージとなる。「コード」は、メッセージに利用される文字コードを示す 情報である。図 3に示すメッセージ定義辞書情報 1でのコードは「ASCII」となる。
[0031] 「エラー種別」は、メッセージ定義辞書情報に対応付けられるメッセージのエラーの 種別を示す。例えば、図 3のメッセージ定義辞書情報 1に対応付けられたメッセージ のエラーの種別は、「インターフェースエラー」となる。
[0032] 「対処方法番号」は、エラーの対処方法にかかわる情報の記録場所(図 2に示す対 処方法ファイル情報 130eにエラーの対処方法が記録されている)を特定するための 情報である。すなわち、図 3のメッセージ定義辞書情報 1では、エラー種別「インター フェースエラー」にかかわる対処方法力 対処方法ファイル情報 130eの「3」番と「7」 番とに記録されている。なお、対処方法ファイル情報 130eは、エラーの対処方法一 覧を記録した情報であり、各番号とエラー対処方法とがそれぞれ一対一で対応付け られている。エラー対処方法の一例としては、「被疑部品の接続状態などを確認して ください」などがあげられる。
[0033] 「ドライバクラス」は、メッセージ定義辞書情報に対応付けられたメッセージが所属す るドライバのクラス階層情報を示す。図 3のメッセージ定義辞書情報 1では、このメッセ ージ定義辞書情報 1に対応付けられたメッセージが、 HBA層に所属することを示す
[0034] 「被疑部品番号」は、エラー種別によって特定されるエラーが発生した場合に、交 換対象となる部品情報(図 2に示す被疑部品リスト情報 130cに交換対象となる部品 の情報が記録されている)の記録場所を特定するための情報である。すなわち、図 3 のメッセージ定義辞書情報 1では、エラー種別「インターフェースエラー」にかかわる 交換部品の情報が、被疑部品リスト情報 130cの「1」番と「6」番と「102」番に記録さ れている。
[0035] 図 4は、被疑部品リスト情報 130cのデータ構造の一例を示す図である。同図に示 すように、この被疑部品リスト情報 130cは、各番号と、交換対象の部品の情報とがそ れぞれ関連付けられている。図 3,図 4より、被疑部品番号「1」に対応する交換部品 は「PCIバス [処理装置 ZPCIBoxZPCIディスク Box] (ハード故障)」であり、被疑部 品番号「6」に対応する交換部品は「終端抵抗 (ハード故障)」であり、被疑部品番号「 102」に対応する交換部品は「I/O装置または媒体 (媒体異常)」である。
[0036] 図 3の説明に戻ると、「異常 Ζ復旧構成部品」は、パスやボリュームなどの冗長構成 を管理する管理系メッセージが管理して 、るインスタンス名(ディスクやテープなどの 装置と制御ドライバを対応付けるための論理名)もしくは物理パスの情報を示す。
[0037] 「重み付け」は、メッセージ定義辞書情報によって対応付けられたメッセージの優先 順位を示し、この重み付けの数値が大きいほど優先順位は高くなる。「最終絞込み方 法」は、重み付けの数値が同値であるメッセージが複数存在する場合に、どのように メッセージの優先順位を決定するかを示す情報である。図 3に示すメッセージ定義辞 書情報 1では、最終絞込み方法が「最後のメッセージに絞り込む」であるため、重み 付けの数値が同値であるメッセージが複数ある場合には、最後に出てきたメッセージ の優先順位を最も高くする。
[0038] 「エラー概要番号」は、メッセージ定義辞書情報によって対応付けられたメッセージ のエラー概要にかかわる情報の記録場所(図 2に示すエラー概要ファイル情報 130d にエラー概要が記録されている)を特定するための情報である。すなわち、図 3のメッ セージ定義辞書情報 1では、エラー概要番号力 S「l」番と「20」番とになっているため、 メッセージのエラー概要力 エラー概要ファイル情報 130dの「1」番と「20」番とに記 録されている。なお、エラー概要ファイル情報 130dは、エラーの概要一覧を記録した 情報であり、各番号とエラー概要とがそれぞれ一対一で対応付けられている。エラー 概要の一例としては、「対向装置の光信号を検出できないが、または同期が取れませ ん」などがあげられる。
[0039] 「インスタンス名取得情報」は、メッセージファイルに含まれるメッセージのどの部分 にインスタンス情報が含まれているかを示す情報である。ここで、インスタンス情報は 、デバイスと、このデバイスを制御するためのドライバとを対応関係を示す情報である [0040] 「運用状態」は、メッセージ定義辞書情報に対応付けられたメッセージにかかわるィ ンスタンス (すなわち、デバイスとこのデバイスを制御する制御ドライノく)の運用状態を 示す情報である。例えば、図 3に示したメッセージ定義辞書情報 1に対応付けられた メッセージのインスタンスは、継続 (リトライ)中であることがわかる。
[0041] ここで、図 2に示したエンジン部 120の説明に戻ると、エンジン部 120は、ピックアツ プ部 120aと、グループ分け部 120bと、絞込み部 120cと、エラー箇所検出特定部 12 Odと、被疑部品特定部 120eと、グループ統合部 120fと、運用状態特定部 120gと、 出力部 120hとを有する。
[0042] ピックアップ部 120aは、入力装置 200から入力されるメッセージファイルと、メッセ ージ定義辞書情報群 130aとを基にして、メッセージ定義辞書情報群 130aの各正規 表現フォーマットと形式が一致するメッセージを抽出する処理部である。なお、図示し ないが、ピックアップ部 120aは、メッセージファイルをー且、記憶部 130に記憶させる
[0043] 図 5は、ピックアップ部 120aの処理を説明するための説明図である。同図に示すよ うに、メッセージファイル中のメッセージ 1 (ここでは説明の便宜上、メッセージ 1のみを 示す)は、図 3に示したメッセージ定義辞書情報 2の正規表現フォーマツ KWARNIN G.*/disk @.*(disk.*)¥n transport failed:.*retrying」と一致するため、メッセージ 1は 、メッセージ定義辞書情報 2に対応付けられると共に、ビックアップ部 120aに抽出さ れる。
[0044] なお、ピックアップ部 120aが、メッセージファイルの中から、正規表現フォーマットと 形式が一致するメッセージを抽出する手法は、どのような方法を用いてもよいが、紛 れメッセージに注意する必要がある。
[0045] 図 6は、紛れメッセージを説明するための説明図である。同図に示すように、通常の メッセージは、各メッセージ単位で分かれているため問題はないが、紛れメッセージ は、一方のメッセージが、他方のメッセージに割り込んでしまっているため、ピックアツ プ処理部 120aは、通常の抽出処理を行った後に、紛れメッセージを考慮した抽出処 理を再度行う。なお、紛れメッセージを考慮した抽出処理は、後のフローチャートにて 詳しく説明する。 [0046] 図 7は、ピックアップ部 120aが、所定のメッセージファイル(ここでは、図示しない) 力も抽出したメッセージ群の一例を示す図である。なお、以下では、図 7に示すメッセ 一ジ群をエラーメッセージ群 400と表記し、エラーメッセージ群 400に含まれる各メッ セージをエラーメッセージと表記する。図 7では、 1〜8のエラーメッセージが抽出され た場合を示している。
[0047] また、図 7に示すように、 2と 3のエラーメッセージ、 4と 8のエラーメッセージ、 6と 7の エラーメッセージはそれぞれ同じインスタンスとなっている。すなわち、 2と 3のエラーメ ッセージは、インスタンス(disk2)で一致し、 4と 8のエラーメッセージは、インスタンス( mpO)で一致し、メッセージ 6と 7のエラーメッセージは、インスタンス (disk4)で一致して いる。
[0048] また、図 7に示すように、 1と 5のエラーメッセージは HB A層に属し、 2と 3と 6と 7のメ ッセージはターゲット層に属し、 4と 8のメッセージはパス管理層に属して!/、る。
[0049] ところで、図 7のエラーメッセージ 1〜8には含まれていないが、図 1に示したボリュ ームドライバ 52に属する層、すなわち、ボリューム層も存在する。なお、 HBA層、ター ゲット層、パス管理層、ボリューム層の順で上位階層(ボリューム層が最上位階層)と なる。
[0050] なお、本実施例では一例として、このエラーメッセージ群 400を利用して、各処理部 、すなわち、グループ分け部 120b、絞込み部 120c、エラー箇所検出特定部 120d、 被疑部品特定部 120e、グループ統合部 120f、運用状態特定部 120g、出力部 120 hの説明を行うこととする。
[0051] グループ分け部 120bは、ピックアップ部 120aからエラーメッセージ群 400を取得し 、エラーメッセージ群 400に含まれる各エラーメッセージを、各エラーメッセージの物 理パスに基づ 、て、グループ分けする処理部である。
[0052] グループ分け部 120bは、エラーメッセージ群 400の各エラーメッセージを物理パス
(/FC@0)と(/FC@1)とのグループに分けることができる。具体的には、グループ分け 部 120bは、 1, 2, 3, 4, 8のエラーメッセージのグループと 5, 6, 7のエラーメッセ一 ジのグループとに分けることができる。以下、 1, 2, 3, 4, 8のエラーメッセージのグル ープを「グノレープ A」、 5, 6, 7のエラーメッセージのグノレープを「グノレープ B」と表記 する。図 8は、グループ分け部 120bの処理を補足説明するための説明図である。
[0053] 絞込み部 120cは、エラーメッセージ群 400と、各エラーメッセージに対応する各メ ッセージ定義辞書情報と、グループ分け部 120bが分割した各グループ A, Bの情報 を取得し、エラーメッセージの総数を絞り込む処理部である。
[0054] 具体的に、絞込み部 120cは、まず、同一のインスタンスを有するエラーメッセージ を特定する。エラーメッセージ群 400より、 2と 3のエラーメッセージのインスタンス、 4と
8のエラーメッセージのインスタンス 6と 7のエラーメッセージのインスタンスが同一であ る。
[0055] そこで、絞込み部 120cは、 2, 3, 4, 8, 6, 7のエラーメッセージに対応するメッセ ージ定義辞書情報を取得し、「重み付け」に設定された数値を基にして、それぞれ優 先順位の高いエラーメッセージを選択する。本実施例では、 2のエラーメッセージより も 3のエラーメッセージのほうが重み付けの数値が高ぐ 4のエラーメッセージよりも 8 のエラーメッセージのほうが重み付けの数値が高ぐ 6のエラーメッセージよりも 7のェ ラーメッセージのほうが重み付けの数値が高く設定されていたこととする。
[0056] 絞込み部 120cが、上記処理を実行することによって、 1〜8のエラーメッセージは、 1と 3と 5と 7と 8のエラーメッセージ(以下、エラーメッセージ群 500と表記する)に絞ら れることとなる。図 9は、絞込み部 120cの処理を補足説明するための説明図である。
[0057] エラー箇所検出特定部 120dは、絞込み部 120cからエラーメッセージ群 500と、ェ ラーメッセージ群 500の各エラーメッセージに対応するメッセージ定義辞書情報とを 取得して、エラー発生箇所を特定する処理部である。
[0058] 具体的に、エラー箇所検出特定部 120dは、エラーメッセージ群 500に対応する各 メッセージ定義辞書情報の運用状態およびエラーメッセージが属する階層(HBA層 、ターゲット層など)を特定し、最下層(HBA層)からある層(たとえばボリューム層)ま での間で、ある運用状態 (たとえば、停止または縮退)のエラーメッセージを、エラー 箇所を特定するエラーメッセージ (以下、エラー箇所特定メッセージと表記する)とす る。
[0059] 本実施例では、エラー箇所検出特定部 120dは、エラーメッセージ群 500から、 1と 3と 5と 7のエラーメッセージを、エラー箇所特定メッセージとして選択する。図 10は、 エラー箇所検出特定部 120dの処理を補足説明するための説明図である。
[0060] 被疑部品特定部 120eは、絞込み部 120cからエラーメッセージ群 500と、エラーメ ッセージ群 500の各エラーメッセージに対応するメッセージ定義辞書情報とを取得し て、故障したコンピュータの部品を特定する処理部である。
[0061] 具体的に、被疑部品特定部 120eは、エラーメッセージ群 500に対応する各メッセ ージ定義辞書情報のエラー種別およびエラーメッセージが属する階層を特定し、各 エラーメッセージのうち、最下層(ノヽードに近い)のエラーメッセージを、故障したコン ピュータの部品を特定するエラーメッセージ (以下、被疑部品特定メッセージと表記 する)とする。
[0062] なお、被疑部品特定部 120eは、グループ内で、エラー種別の関連性がな 、場合 には、各エラーメッセージを被疑部品特定メッセージとして選択する。例えば、グルー プ Aにおいて、 1, 3, 8のエラーメッセージのエラー種別がインターフェースエラーで 関連している場合には、最下層の、 1のエラーメッセージが被疑部品特定メッセージ として選択されるが、 1, 3, 8のエラーメッセージのエラー種別が、ばらばらの場合は 、複数の階層のエラーメッセージが、それぞれ被疑部品特定メッセージとして選択さ れる。本実施例では、各エラーメッセージのエラー種別が関連しているものとする。図 11は、被疑部品特定部 120eの処理を補足説明するための説明図である。図 11のよ うに、本実施例では、 1と 5のエラーメッセージが被疑部品特定メッセージとして選択 される。
[0063] グループ統合部 120fは、被疑部品特定部 120eからエラーメッセージ群 500と、ェ ラーメッセージ群 500の各エラーメッセージに対応するメッセージ定義辞書情報とを 取得して、メッセージ定義辞書情報の異常 Z復旧構成部品が同一のエラーメッセ一 ジ同士を統合する処理部である。
[0064] 本実施例のエラーメッセージ群 500は、それぞれのメッセージ定義辞書情報の異 常 Z復旧構成部品が同一であるため、グループ Aおよびグループ Bを「グループ C」 に統合する。図 12は、グループ結合部 120fの処理を補足説明するための説明図で ある。
[0065] 運用状態特定部 120gは、グループ統合部 120fから、エラーメッセージ群 500と、 統合したグループ cの情報と、各エラーメッセージに対応するメッセージ定義辞書情 報とを取得し、最上位層のエラーメッセージを運用状態特定メッセージとして選択す る。本実施例では、 8のエラーメッセージが最上位層のエラーメッセージであるため、 運用状態特定部 120gは、 8のエラーメッセージを運用状態特定メッセージとして選 択する。
[0066] 出力部 120hは、エラーメッセージ群 400の情報、エラー箇所特定メッセージ、被疑 部品特定メッセージおよび運用状態特定メッセージの情報を各処理部 (エラー箇所 検出特定部 120d、被疑部品特定部 120e、運用状態特定部 120g)から取得し、所 得した各情報と、メッセージ定義辞書情報群 130a、出力情報定義辞書情報 130b、 被疑部品リスト情報 130c、エラー概要ファイル情報 130d、対処方法ファイル情報 13 Oeを基にして、コンピュータ(図 1の場合では、サーバ 50)のエラー発生状態の情報( 以下、メッセージ解析結果と表記する)を表示装置 300に出力する処理部である。
[0067] 図 13は、表示装置 300に表示されるメッセージ解析結果の一例である。同図に示 すように、このメッセージ解析結果には、「概要」、「被疑部品」、「対処方法」、「検出 箇所」、「運用状態」、「絞込みメッセージ」が含まれる。この表示画面のフォーマットな どは、出力情報定義辞書情報 130bに設定されている。
[0068] ここで、「概要」は、エラー箇所特定メッセージに対応するメッセージ定義辞書情報 のエラー概要番号と、エラー概要ファイル情報 130dとで特定されるエラーの概要で あり、「被疑部品」は、被疑部品特定メッセージに対応するメッセージ定義辞書情報 の被疑部品番号と、被疑部品リスト情報 130cとによって特定される被疑部品の情報 である。
[0069] 「対処方法」は、エラー箇所特定メッセージに対応するメッセージ定義辞書情報の 対処方法番号と、対処方法ファイル情報 130eとで特定されるエラーの対処方法であ り、「検出箇所」は、被疑部品特定メッセージに対応するメッセージ定義辞書情報の 異常 Z復旧構成部品の情報 (故障の発生した部品の情報)を示す。
[0070] 「運用状態」は、運用状態特定メッセージに対応するメッセージ定義辞書情報の運 用状態の情報を示す。「絞込みメッセージ」は、エラーメッセージ群 400の各エラーメ ッセージの情報を示す。 [0071] このように、図 13に示した表示画面を管理者が参照することによって、管理者はコ ンピュータのエラー箇所や、故障の発生した部品などを、容易に特定することができ るので、管理者に力かる負担を軽減させることができる。
[0072] 次に、本実施例に力かるメッセージ解析装置 100の処理について説明する。図 14 は、本実施例に力かるメッセージ解析装置 100の処理手順を示すフローチャートで ある。同図に示すように、メッセージ解析装置 100は、エンジン部 120力 メッセージ ファイルを入力装置 200から取得し (ステップ S 101)、メッセージ定義辞書情報群 13 Oaを取得する(ステップ S 102)。
[0073] そして、ピックアップ部 120aが、メッセージピックアップ処理を行い(ステップ S 103) 、グループ分け部 120bが、グループ分け処理を行い(ステップ S 104)、絞込み部 12 0c力 絞込み処理を行う(ステップ S 105)。
[0074] 続いて、エラー箇所検出特定部 120dが、エラー箇所検出処理を行い (ステップ S1 06)、被疑部品特定部 120eが、被疑部品特定処理を行い (ステップ S 107)、グルー プ統合部 120fが、グループ統合処理を行う(ステップ S108)。
[0075] そして、運用状態特定部 120gが、運用状態特定処理を行い (ステップ S 109)、出 力部 120hがメッセージ解析結果を作成し (ステップ S 110)、メッセージ解析結果を 表示装置 300に出力する (ステップ SI 11)。
[0076] 次に、図 14のステップ S 103に示したメッセージピックアップ処理について説明する 。図 15は、図 14のステップ S 103に示したメッセージピックアップ処理のフローチヤ一 トである。同図に示すように、ピックアップ部 120aが、メッセージファイルから所定の 行単位でメッセージを読み込み (ステップ S201)、未選択のメッセージを取得する (ス テツプ S202)。
[0077] そして、正規表現フォーマットと、取得したメッセージとを比較し (ステップ S203)、 一致した場合には(ステップ S204, Yes)、一致したメッセージをエラーメッセージ群 に追加し (ステップ S205)、すべてのメッセージに対するマッチングが終了したか否 かを判定する(ステップ S 207)。一方、一致しなかった場合には (ステップ S204, No )、一致しなかったメッセージを紛れメッセージ群に追加し (ステップ S206)、ステップ S 207に移行する。 [0078] すべてのメッセージに対するマッチングが終了したか否かを判定し、すべてのメッセ ージに対するマッチングが完了していない場合には (ステップ S208, No)、ステップ S202に移行し、すてのメッセージに対するマッチングが完了している場合には (ステ ップ S 208, Yes)、紛れメッセージピックアップ処理を行う(ステップ S209)。
[0079] 次に、図 15のステップ S209に示した紛れメッセージピックアップ処理について説 明する。図 16は、図 15のステップ S209に示した紛れメッセージピックアップ処理の フローチャートである。同図に示すように、ピックアップ部 120aは、紛れメッセージ群 を読み込み (ステップ S301)、未選択の紛れメッセージを (一行のみ)選択する (ステ ップ S 302)。
[0080] 続、て、正規表現フォーマットと、取得したメッセージとを一行ずつ比較し (ステップ S303)、一致した場合には (ステップ S304, Yes)、残りの行が一致するか否かを判 定し、一致する場合に、当該メッセージをエラーメッセージ群に追加し (ステップ S30 5)、全てのメッセージ行に対するマッチングが完了した力否かを判定する (ステップ S 306)。一方、一致しない場合には(ステップ S304, No)、そのままステップ S306に 移行する。
[0081] そして、全てのメッセージ行に対するマッチングが完了していない場合には (ステツ プ S306, No)、ステップ S302に移行し、全てのメッセージ行に対するマッチングが 完了した場合には (ステップ S306)、紛れメッセージピックアップ処理を終了する。
[0082] このように、ピックアップ部 120aは、メッセージファイルに含まれる大量のメッセージ を必要なメッセージ(エラーメッセージ群)だけに絞り込むので、コンピュータのエラー 発生状態を効率よく判定することができる。
[0083] 次に、図 14のステップ S 104で示したグループ分け処理について説明する。図 17 は、図 14のステップ S 104で示したグループ分け処理のフローチャートである。同図 に示すように、グループ分け部 120bは、未選択のエラーメッセージを選択し (ステツ プ S401)、選択したエラーメッセージが物理パス情報を保持しているか否かを判定 する(ステップ S402)。
[0084] そして、物理パスを保持して ヽる場合には (ステップ S403, Yes)、適合する物理パ スを既存のグループが保持している力否かを判定し (ステップ S404)、適合する物理 パスを保持していない場合には (ステップ S405, No)、新しいグループを作成し、作 成したグループにエラーメッセージを追加し (ステップ S406)、ステップ S412に移行 する。
[0085] 一方、適合する物理パスを保持して 、る場合には (ステップ S405, Yes)、適合す る物理パスを持つ既存のグループにエラーメッセージを追加し (ステップ S407)、ス テツプ S412に移行する。
[0086] 一方、選択したメッセージが物理パスを保持して 、な 、場合には (ステップ S407, No)、選択したエラーメッセージと同じインスタンスが既存のグループに存在するか 否かを判定し (ステップ S408)、存在する場合には(ステップ S409, Yes) ,同じイン スタンスを保持する既存のグループにエラーメッセージを追加し (ステップ S410)、グ ループ分けが完了していない場合には (ステップ S412, No)、ステップ S401に移行 し、グループ分けが完了した場合には (ステップ S412, Yes)、グループ分け処理を 終了する。
[0087] 一方、選択したエラーメッセージと同じインスタンスが既存のグループに存在しない 場合には (ステップ S409, No)、時間的に最も近いメッセージが所属するグループ にエラーメッセージを追加し (ステップ S411)、ステップ S412に移行する。
[0088] このように、グループ分け部 120bは、ばらばらに分かれているメッセージを物理的 に関連するグループごとに分けるので、効率よくコンピュータのエラー発生状態を解 析することができる。
[0089] 次に、図 14のステップ S105で示した絞込み処理について説明する。図 18は、図 1 4のステップ S105で示した絞込み処理のフローチャートである。同図に示すように、 絞込み部 120cは、未選択のグループを選択し (ステップ S501)、グループ内に同じ インスタンスのエラーメッセージが存在するか否かを判定する(ステップ S502)。
[0090] そして、同じインスタンスが存在しない場合には (ステップ S503, No)、同じインスタ ンスを含んだ、各エラーメッセージの「重み」を、メッセージ定義辞書情報から取得し( ステップ S504)、各重みを比較して、重みが小さい側のエラーメッセージを無効化し (ステップ S505)、全てのグループを選択していない場合には(ステップ S506, No) 、ステップ S501に移行し、全てのグループを選択した場合には(ステップ S506, Ye s)、絞込み処理を終了する。
[0091] 一方、グループ内に同じインスタンスのエラーメッセージが存在しない場合には(ス テツプ S503, No)、そのままステップ S506に移行する。
[0092] このように、絞込み部 120cは、同一のインスタンスを有する複数のエラーメッセージ を一つに絞り込むので、各インスタンスの状況をより高精度に判定することができる。
[0093] 次に、図 14のステップ S106で示したエラー箇所検出処理について説明する。図 1 9は、図 14のステップ S106で示したエラー箇所検出処理のフローチャートである。同 図に示すように、エラー箇所検出特定部 120dが、未選択のグループを選択し (ステ ップ S601)、選択したグループ内の、各エラーメッセージに対するメッセージ定義辞 書情報を取得する (ステップ S602)。
[0094] 続!、て、グループ内の、未選択のエラーメッセージを選択し (ステップ S603)、選択 したエラーメッセージの運用状態が「停止」または「縮退」で、 HBA層である場合には (ステップ S604, Yes)、選択したエラーメッセージをエラー箇所特定メッセージに設 定し (ステップ S605)、ステップ S611に移行する。
[0095] 一方、選択したエラーメッセージの運用状態が「停止」または「縮退」で、 HBA層で ない場合には (ステップ S604, No)、運用状態力ステータス (正常)か否かを判定し( ステップ S606)、ステータスである場合には(ステップ S606, Yes)、ステップ S611に 移行する。
[0096] 一方、ステータスでな!/、場合には(ステップ S606, No)、選択したエラーメッセージ 力 Sターゲット (target)層か否かを判定し (ステップ S607)、選択したエラーメッセージ 力 Sターゲット層である場合には(ステップ S607, Yes)、ステップ S605に移行する。
[0097] 選択したエラーメッセージがターゲット層でな 、場合には (ステップ S607)、選択し たエラーメッセージがターゲット層であり、かつグループ内の他のエラーメッセージは
、 HBA層か否かを判定し (ステップ S608)、エラーメッセージがターゲット層であり、 かつグループ内の他のエラーメッセージが HBA層でな!、場合には(ステップ S608, Yes)、ステップ S605に移行する。
[0098] 一方、ステップ S608の条件を満たさな!/、場合には(ステップ S608, No)、選択した エラーメッセージがパス管理層であり、グループ内の他のエラーメッセージが、 HBA 層またはターゲット層でな 、か否かを判定する(ステップ S609)。
[0099] 選択したエラーメッセージがパス管理層であり、グループ内の他のエラーメッセージ 1S HBA層またはターゲット層でない場合には(ステップ S609, Yes)、ステップ S60 5に移行する。
[0100] 一方、ステップ S609の条件を満たさな!/、場合には (ステップ S609, No)、選択した エラーメッセージがボリューム管理層であり、グループ内の他のエラーメッセージが、 ボリューム管理層力否かを判定する(ステップ S610)。
[0101] 選択したエラーメッセージがボリューム管理層であり、グループ内の他のエラーメッ セージが、ボリューム管理層である場合には(ステップ S610, Yes)、ステップ S605 に移行する。
[0102] 一方、ステップ S610の条件を満たさない場合には(ステップ S610, No)、グルー プ内の全てのエラーメッセージを選択したか否かを判定し (ステップ S611)、グルー プ内の全てのエラーメッセージを選択していない場合には(ステップ S611, No)、ス テツプ S603に移行し、全てのエラーメッセージを選択している場合には(ステップ S6 11, Yes)、全てのグループを選択したか否かを判定する(ステップ S612)。
[0103] そして、全てのグループを選択していない場合には (ステップ S612, No)、ステップ S601に移行し、全てのグループを選択した場合には (ステップ S612, Yes)、エラー 箇所検出処理を終了する。
[0104] このように、エラー箇所検出特定部 120dは、各エラーメッセージの運用状態および 階層を基にして、エラー箇所特定メッセージを選択するので、精度よぐコンピュータ のエラー箇所を特定することができる。
[0105] 次に、図 14のステップ S107で示した被疑部品特定処理について説明する。図 20 は、図 14のステップ S107で示した被疑部品特定処理のフローチャートである。同図 に示すように、被疑部品特定部 120eは、未選択のグループを選択し (ステップ S 701 )、選択したグループ内の、各エラーメッセージに対するメッセージ定義辞書ファイル を取得する(ステップ S702)。
[0106] そして、各エラーメッセージのエラー種別が関連している力否かを判定し (ステップ S703)、関連する場合には(ステップ S704, Yes)、各エラーメッセージのうち、ハー ドに近 、最下層のエラーメッセージを被疑部品特定メッセージに設定し (ステップ S7 05)、全てのグループを選択した場合には(ステップ S707, No)、ステップ S 701に 移行する。
[0107] 一方、各エラーメッセージのエラー種別が関連していない場合には (ステップ S704 , No)、各エラーメッセージを被疑部品特定メッセージに設定し (ステップ S 706)、ス テツプ S707に移行する。
[0108] このように、被疑部品特定 120eは、各エラーメッセージのエラー種別が関連してい る場合に、各エラーメッセージのうち、最もハードウェアに近い下位層に属するエラー メッセージを被疑部品特定メッセージとして設定するので、故障した部品を高精度で 特定することができる。
[0109] 次に、図 14のステップ S 108で示したグループ統合処理について説明する。図 21 は、図 14のステップ S 108で示したグループ統合処理のフローチャートである。同図 に示すように、グループ統合部 120fは、各グループ内に管理系のエラーメッセージ に対する「異常 Z復旧構成部品」の物理アドレス(管理系のエラーメッセージ)が存在 するか否かを判定する(ステップ S801)。
[0110] そして、「異常 Z復旧構成部品」の物理アドレスが存在する場合には (ステップ S80 2, Yes)、各エラーメッセージの「異常 Z復旧構成部品」の物理アドレス力 他のダル ープに含まれるエラーメッセージの物理アドレスと一致するか否かを判定し (ステップ S803)、一致する場合〖こは(ステップ S804, Yes)、物理パスが一致したエラーメッ セージ同士を統合し (ステップ S805)、一致しない場合には(ステップ S804, No)、 グループ統合処理を終了する。なお、「異常 Z復旧構成部品」の物理アドレスが存在 しない場合には (ステップ S802, No)、グループ統合処理を終了する。
[0111] このように、グループ統合部 120fは、物理的に関連するエラーグループ同士を統 合するので、システムの運用単位でメッセージを見ることができ、運用状態を把握し やすくなる。
[0112] 次に、図 14のステップ S109で示した運用状態特定処理について説明する。図 22 は、図 14のステップ S109で示した運用状態特定処理のフローチャートである。同図 に示すように、運用状態特定部 120gは、未選択のエラーメッセージを選択し (ステツ プ S901)、選択したエラーメッセージ力 ボリューム管理系のエラーメッセージである 場合には、選択したエラーメッセージを、運用状態特定メッセージに設定し (ステップ S903)、ステップ S 907に移行する。
[0113] 一方、選択したエラーメッセージ力 ボリューム管理系(ボリューム管理層)のエラー メッセージでない場合には (ステップ S902, No)、選択したエラーメッセージが、パス 管理系のエラーメッセージであり、上位層のエラーメッセージが存在しないか否かを 判定する(ステップ S 904)。
[0114] そして、選択したエラーメッセージ力 パス管理系のエラーメッセージであり、上位 層のエラーメッセージが存在しない場合には(ステップ S904, Yes)、ステップ S903 に移行し、ステップ S904の条件を満たさない場合には (ステップ S904, No)、選択 したエラーメッセージが、ターゲット層のエラーメッセージであり、上位層のエラーメッ セージが存在しな!、か否かを判定する(ステップ S 905)。
[0115] 選択したエラーメッセージ力 ターゲット層のエラーメッセージであり、上位層のエラ 一メッセージが存在しない場合には(ステップ S905, Yes)、ステップ S 903に移行し 、ステップ S905の条件を満たさない場合には (ステップ S905, No)、選択したエラー メッセージが、 HBA層のエラーメッセージであり、他のエラーメッセージも全て HBA 層のエラーメッセージか否かを判定する(ステップ S 906)。
[0116] そして、選択したエラーメッセージが、 HBA層のエラーメッセージであり、他のエラ 一メッセージも全て HBA層のエラーメッセージである場合には(ステップ S 906, Yes )、ステップ S903に移行し、ステップ S906の条件を満たさない場合には (ステップ S9
06, No)、全てのエラーメッセージを選択したか否かを判定する(ステップ S907)。
[0117] そして、全てのエラーメッセージを選択していない場合には (ステップ S907, No)、 ステップ S901に移行し、全てのエラーメッセージを選択した場合には(ステップ S90
7, Yes)、運用状態特定処理を終了する。
[0118] このように、運用状態特定部 120gは、各エラーメッセージの中から最上位層に属 するエラーメッセージを選択し、この選択したエラーメッセージを運用状態特定メッセ ージに設定するので、コンピュータの運用状況を精度よく判定することができる。
[0119] 上述してきたように、本実施例に力かるメッセージ解析装置 100は、エンジン部 120 1S 入力装置 200からメッセージファイルを取得し、ピックアップ部 120aが、エラーメ ッセージ群 400を抽出し、グループ分け部 120b力 エラーメッセージ群を物理パスご とにグループ分けし、絞込み部 120cが、エラーメッセージ群 400を絞込み、エラ一箇 所検出特定部 120dが、エラー箇所特定メッセージを選択し、被疑部品特定部 120e 力 被疑部品特定メッセージを選択し、グループ統合部 120fが、複数のグループを 統合し、運用状態特定部 120gが、運用状態特定メッセージを選択し、出力部 120h 力 メッセージ解析結果を表示装置 300に出力するので、管理者に力かる負担を軽 減させると共に、エラーメッセージの相互関係を考慮して、コンピュータの状態を効率 的に判定することができる。
産業上の利用可能性
以上のように、本発明に力かるメッセージ解析装置は、コンピュータから出力される 膨大な量のメッセージを、当該メッセージ間の関係を基にして解析し、コンピュータの 状態を判定する必要のあるメッセージ解析装置に有用である。

Claims

請求の範囲
[1] コンピュータを構成するハードウェアを管理する各ソフトウェアによって生成された 当該ハードウェアの状態に力かるメッセージを解析するメッセージ解析装置であって 前記複数のメッセージを記憶するメッセージ記憶手段と、
前記メッセージ記憶手段によって記憶された複数のメッセージを比較することによつ て、前記コンピュータの状態を判定する判定手段と、
を備えたことを特徴とするメッセージ解析装置。
[2] 前記判定手段は、ハードウェアが複数のソフトウェアにより、ハードウェアの管理単 位の異なる階層ごとに管理されている場合に、前記複数のメッセージと、当該複数の メッセージを生成した各ソフトウェアの階層とを基にして、前記コンピュータの状態を 判定することを特徴とする請求項 1に記載のメッセージ解析装置。
[3] 前記記憶手段に記憶された複数のメッセージと、当該複数のメッセージをそれぞれ 生成した各ソフトウェアの階層とを基にして、コンピュータに発生したエラー内容を特 定し、当該エラー内容に対する対処方法を特定する対処方法特定手段を更に備え たことを特徴とする請求項 2に記載のメッセージ解析装置。
[4] 前記記憶手段に記憶された複数のメッセージと、当該複数のメッセージをそれぞれ 生成した各ソフトウェアの階層とを基にして、不具合の発生したハードウェアを特定す るハードウェア特定手段を更に備えたことを特徴とする請求項 2に記載のメッセージ 解析装置。
[5] コンピュータの運用状態を判定する運用状態判定手段を更に備え、当該運用状態 判定手段は、前記メッセージ記憶手段によって記憶された複数のメッセージをそれぞ れ生成した各ソフトウェアの階層に基づ!/、て、最上位層のソフトウェアが管理するハ 一ドウエアの運用状態を特定し、特定した運用状態をコンピュータの運用状態として 判定することを特徴とする請求項 2に記載のメッセージ解析装置。
[6] 前記記憶手段に記憶された複数のメッセージから、所定の形式と一致するメッセ一 ジを抽出するメッセージ抽出手段を更に備え、前記判定手段は、当該メッセージ抽 出手段によって抽出された各メッセージを比較することによって、前記コンピュータの 状態を判定することを特徴とする請求項 1に記載のメッセージ解析装置。
[7] コンピュータを構成するハードウェアを管理する各ソフトウェアによって生成された 当該ハードウェアの状態に力かるメッセージを解析するメッセージ解析方法であって 前記複数のメッセージを記憶装置に記憶するメッセージ記憶工程と、
前記記憶装置に記憶された複数のメッセージを比較することによって、前記コンビ ユータの状態を判定する判定工程と、
を含んだことを特徴とするメッセージ解析方法。
[8] 前記判定工程は、ハードウェアが複数のソフトウェアにより、ハードウェアの管理単 位の異なる階層ごとに管理されている場合に、前記複数のメッセージと、当該複数の メッセージを生成した各ソフトウェアの階層とを基にして、前記コンピュータの状態を 判定することを特徴とする請求項 7に記載のメッセージ解析方法。
[9] コンピュータを構成するハードウェアを管理する各ソフトウェアによって生成された 当該ハードウェアの状態に力かるメッセージを解析するメッセージ解析プログラムであ つて、
前記複数のメッセージを記憶装置に記憶するメッセージ記憶手順と、
前記記憶装置に記憶された複数のメッセージを比較することによって、前記コンビ ユータの状態を判定する判定手順と、
をコンピュータに実行させることを特徴とするメッセージ解析プログラム。
[10] 前記判定手順は、ハードウェアが複数のソフトウェアにより、ハードウェアの管理単 位の異なる階層ごとに管理されている場合に、前記複数のメッセージと、当該複数の メッセージを生成した各ソフトウェアの階層とを基にして、前記コンピュータの状態を 判定することを特徴とする請求項 9に記載のメッセージ解析プログラム。
PCT/JP2005/012995 2005-07-14 2005-07-14 メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム WO2007007410A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP05759980.5A EP1903441B1 (en) 2005-07-14 2005-07-14 Message analyzing device, message analyzing method and message analyzing program
PCT/JP2005/012995 WO2007007410A1 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム
JP2007524501A JP4383484B2 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、制御方法および制御プログラム
US12/006,416 US7823016B2 (en) 2005-07-14 2008-01-02 Message analyzing apparatus, message analyzing method, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/012995 WO2007007410A1 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/006,416 Continuation US7823016B2 (en) 2005-07-14 2008-01-02 Message analyzing apparatus, message analyzing method, and computer product

Publications (1)

Publication Number Publication Date
WO2007007410A1 true WO2007007410A1 (ja) 2007-01-18

Family

ID=37636817

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012995 WO2007007410A1 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム

Country Status (4)

Country Link
US (1) US7823016B2 (ja)
EP (1) EP1903441B1 (ja)
JP (1) JP4383484B2 (ja)
WO (1) WO2007007410A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012066650A1 (ja) * 2010-11-17 2012-05-24 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
JP2012141802A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理方法
WO2016056381A1 (ja) * 2014-10-07 2016-04-14 株式会社日立製作所 メッセージ処理装置およびメッセージ処理方法
US10061857B1 (en) 2017-06-27 2018-08-28 International Business Machines Corporation Detecting and grouping users in electronic communications

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287781A1 (en) * 2008-05-19 2009-11-19 International Business Machines Corporation Grouping messages using patterns in a messaging system
JP5924073B2 (ja) * 2012-03-30 2016-05-25 富士通株式会社 制御プログラム、制御方法および制御装置
CN104105112A (zh) * 2013-04-02 2014-10-15 中兴通讯股份有限公司 一种话单处理方法、装置及系统
US10831581B2 (en) * 2015-12-04 2020-11-10 Nec Corporation File information collection system and method, and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159742A (ja) * 1987-12-16 1989-06-22 Fujitsu Ltd 障害解析方式
JPH04135349A (ja) * 1990-09-27 1992-05-08 Nec Corp 内部故障監視装置
JPH05116601A (ja) * 1991-10-25 1993-05-14 Mazda Motor Corp 故障診断方法
JPH07114483A (ja) * 1993-10-15 1995-05-02 Nippon Telegr & Teleph Corp <Ntt> 故障診断装置
JP2003019931A (ja) * 2001-07-06 2003-01-21 Denso Corp 故障診断システム、車両管理装置、サーバ装置、及び検査診断プログラム
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414645A (en) * 1991-10-25 1995-05-09 Mazda Motor Corporation Method of fault diagnosis in an apparatus having sensors
US5555191A (en) * 1994-10-12 1996-09-10 Trustees Of Columbia University In The City Of New York Automated statistical tracker
US6279826B1 (en) * 1996-11-29 2001-08-28 Diebold, Incorporated Fault monitoring and notification system for automated banking
DE19836347C2 (de) * 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
US6317846B1 (en) * 1998-10-13 2001-11-13 Agere Systems Guardian Corp. System and method for detecting faults in computer memories using a look up table
US6496853B1 (en) * 1999-07-12 2002-12-17 Micron Technology, Inc. Method and system for managing related electronic messages
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
JP4772233B2 (ja) 2001-03-19 2011-09-14 株式会社東芝 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム
US7120685B2 (en) * 2001-06-26 2006-10-10 International Business Machines Corporation Method and apparatus for dynamic configurable logging of activities in a distributed computing system
US6694235B2 (en) * 2001-07-06 2004-02-17 Denso Corporation Vehicular relay device, in-vehicle communication system, failure diagnostic system, vehicle management device, server device and detection and diagnostic program
US7483970B2 (en) * 2001-12-12 2009-01-27 Symantec Corporation Method and apparatus for managing components in an IT system
JP3737460B2 (ja) * 2002-07-09 2006-01-18 株式会社東京三菱銀行 コンピュータ・システム
JP4130615B2 (ja) * 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US7350111B2 (en) * 2004-08-03 2008-03-25 Inventec Corporation Method of providing a real time solution to error occurred when computer is turned on
US7624177B2 (en) * 2005-05-25 2009-11-24 Hewlett-Packard Development Company, L.P. Syslog message handling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159742A (ja) * 1987-12-16 1989-06-22 Fujitsu Ltd 障害解析方式
JPH04135349A (ja) * 1990-09-27 1992-05-08 Nec Corp 内部故障監視装置
JPH05116601A (ja) * 1991-10-25 1993-05-14 Mazda Motor Corp 故障診断方法
JPH07114483A (ja) * 1993-10-15 1995-05-02 Nippon Telegr & Teleph Corp <Ntt> 故障診断装置
JP2003019931A (ja) * 2001-07-06 2003-01-21 Denso Corp 故障診断システム、車両管理装置、サーバ装置、及び検査診断プログラム
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1903441A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012066650A1 (ja) * 2010-11-17 2012-05-24 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
JP5423904B2 (ja) * 2010-11-17 2014-02-19 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
US8676568B2 (en) 2010-11-17 2014-03-18 Fujitsu Limited Information processing apparatus and message extraction method
JP2012141802A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理方法
WO2016056381A1 (ja) * 2014-10-07 2016-04-14 株式会社日立製作所 メッセージ処理装置およびメッセージ処理方法
JP2016076099A (ja) * 2014-10-07 2016-05-12 株式会社日立製作所 メッセージ処理装置およびメッセージ処理方法
GB2547345A (en) * 2014-10-07 2017-08-16 Hitachi Ltd Message processing device and message processing method
GB2547345B (en) * 2014-10-07 2021-09-22 Hitachi Ltd Message processing device and message processing method
US10061857B1 (en) 2017-06-27 2018-08-28 International Business Machines Corporation Detecting and grouping users in electronic communications
US10831849B2 (en) 2017-06-27 2020-11-10 International Business Machines Corporation Detecting and grouping users in electronic communications

Also Published As

Publication number Publication date
EP1903441A4 (en) 2010-12-15
EP1903441B1 (en) 2016-03-23
US7823016B2 (en) 2010-10-26
JPWO2007007410A1 (ja) 2009-01-29
EP1903441A1 (en) 2008-03-26
JP4383484B2 (ja) 2009-12-16
US20080155337A1 (en) 2008-06-26

Similar Documents

Publication Publication Date Title
US10423647B2 (en) Descriptive datacenter state comparison
JP6669156B2 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
JP5423904B2 (ja) 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
US20180174062A1 (en) Root cause analysis for sequences of datacenter states
US9612937B2 (en) Determining relevant events in source code analysis
CN102257487B (zh) 分析事件
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
KR102298395B1 (ko) 사용자 행위 분석 시스템 및 방법과, 이를 위한 이벤트 수집 에이전트
CN110377704A (zh) 数据一致性的检测方法、装置和计算机设备
CN112364637B (zh) 一种敏感词检测方法、装置,电子设备及存储介质
JP6691082B2 (ja) 指標選択装置及びその方法
US10346450B2 (en) Automatic datacenter state summarization
CN110874364A (zh) 一种查询语句处理方法、装置、设备及存储介质
JP7274162B2 (ja) 異常操作検知装置、異常操作検知方法、およびプログラム
CN106776704A (zh) 统计信息收集方法和装置
CN112015995A (zh) 数据分析的方法、装置、设备以及存储介质
KR102275635B1 (ko) 함수 호출 패턴 분석을 통한 이상 검출 장치 및 방법
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
CN111625853B (zh) 一种快照处理方法、装置、设备及可读存储介质
CN114706893A (zh) 故障检测方法、装置、设备及存储介质
JP7276743B2 (ja) 異常操作検知装置、異常操作検知方法、およびプログラム
KR100567813B1 (ko) 텐덤 시스템의 트랜잭션 분석 시스템
JP6714160B2 (ja) データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007524501

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005759980

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 2005759980

Country of ref document: EP