WO2017110720A1 - ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体 - Google Patents

ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体 Download PDF

Info

Publication number
WO2017110720A1
WO2017110720A1 PCT/JP2016/087732 JP2016087732W WO2017110720A1 WO 2017110720 A1 WO2017110720 A1 WO 2017110720A1 JP 2016087732 W JP2016087732 W JP 2016087732W WO 2017110720 A1 WO2017110720 A1 WO 2017110720A1
Authority
WO
WIPO (PCT)
Prior art keywords
log
abnormality
cause
format
information
Prior art date
Application number
PCT/JP2016/087732
Other languages
English (en)
French (fr)
Inventor
遼介 外川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2017558107A priority Critical patent/JP6787340B2/ja
Publication of WO2017110720A1 publication Critical patent/WO2017110720A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Definitions

  • the present invention relates to a log analysis system and the like for performing log analysis.
  • a log containing the event results and messages is output.
  • a user for example, an operator
  • Patent Document 1 reads a log of a monitoring target host, acquires performance information of a log that has changed when there is a log change based on a normal log transition model and the read log information, and acquires the acquired performance information And a technique for determining the presence or absence of a failure from log information.
  • Patent Document 2 collects performance measurement values measured for a server machine, determines the presence or absence of a performance failure based on the collected performance measurement values, and determines that a performance failure has occurred.
  • a technique for estimating the cause location and notifying the administrator of the cause location of the performance failure to the occurrence of the performance failure based on the result of the performance failure location estimation process is disclosed.
  • Patent Document 3 discloses a technique for analyzing a log description based on a variable portion associated with a predetermined character string template.
  • JP 2014-120001 A JP-T-2015-516604 US Patent Application Publication No. 2012/0124047
  • Patent Document 1 determines whether there is a failure in the monitoring host, but cannot indicate what caused the failure.
  • the techniques disclosed in Patent Documents 2 and 3 also cannot present what caused the failure. In other words, the techniques disclosed in Patent Documents 1, 2, and 3 cannot present the cause of the abnormality to the user in log abnormality detection.
  • An object of the present invention is to provide a log analysis system and the like that can solve the above-described problems and can present a cause of an abnormality related to an abnormality log to a user.
  • a log analysis system includes a format determination unit that determines which format is output from a system component among a plurality of formats determined by the configuration of a variable part and a constant part.
  • An abnormality analysis unit that analyzes whether or not the log is abnormal based on the value of the determined variable portion of the format; and a component of a system that outputs the log analyzed as abnormal
  • An operating state acquisition unit for acquiring an operating state
  • an abnormality cause acquiring unit for acquiring an abnormality cause including information indicating the cause of the abnormality according to the acquired operating state, the acquired abnormal cause and the abnormal cause
  • An information output unit that outputs corresponding components.
  • the log analysis method is a log analysis method, and which format is a log output from a system component among a plurality of formats determined by a configuration of a variable part and a constant part. Based on the determined value of the variable part of the format, whether or not the log is abnormal is analyzed, and the operation of the components of the system that output the log analyzed as abnormal The state is acquired, the cause of abnormality according to the operating state included in the acquired performance information is acquired, and the acquired cause of abnormality and the component corresponding to the cause of abnormality are output.
  • the cause of the abnormality related to the abnormality log can be presented to the user.
  • FIG. 1 is a block diagram showing a configuration of a log analysis system 100 according to the first embodiment.
  • each block shows a functional unit configuration, not a hardware (device) unit configuration. Therefore, the blocks shown in FIG. 1 may be implemented in a single device, or may be separately implemented in a plurality of devices. Data exchange between the blocks may be performed via any means such as a data bus, a network, a portable recording medium, or the like.
  • the log analysis system 100 includes, as processing units, an input unit 110, a format determination unit 120, an abnormality analysis unit 130, a performance information acquisition unit 140, a cause information acquisition unit 150, and an information output unit. 160. Further, the log analysis system 100 includes a format storage unit 171, a model storage unit 172, and a state storage unit 173 as storage units.
  • the input unit 110 acquires the analysis target log 10 which is the analysis target log.
  • the analysis target log 10 may be acquired from outside the log analysis system 100. Further, the analysis target log 10 may be acquired by reading what is recorded in advance in the log analysis system 100.
  • the analysis target log 10 includes one or more logs output from one or more devices or programs.
  • the analysis target log 10 is a log expressed in an arbitrary data format (file format), for example, binary data or text data.
  • the analysis target log 10 may be recorded as a database table.
  • the analysis target log 10 may be recorded as a text file.
  • FIG. 4 is a diagram illustrating an example of the analysis target log 10 according to the first embodiment.
  • the analysis target log 10 in this embodiment includes one log output from the apparatus or program as one unit, and includes one or more arbitrary numbers of logs.
  • One log may be a character string of one line.
  • One log may be a character string of a plurality of lines.
  • the analysis target log 10 indicates the total number of logs included in the analysis target log 10, and the log indicates one log extracted from the analysis target log 10.
  • One log included in the analysis target log 10 is, for example, “2015/08/17 08:29:37 [SV008] JNW3258 has started”.
  • Each log includes a time stamp and a message.
  • the log analysis system 100 is not limited to a specific type of log, and can analyze a wide variety of logs. For example, a log that records a message output from an operating system or an application such as a syslog or an event log can be used as the analysis target log 10.
  • the format determination unit 120 determines which format (format) recorded in advance in the format storage unit 171 for each log included in the analysis target log 10, and determines the determination result as the abnormality analysis unit 130. Send to. Specifically, the format determination unit 120 classifies each log included in the analysis target log 10 for each format, and sends each log classified for each format to the abnormality analysis unit 130. The format determination unit 120 also separates each log into a variable portion and a constant portion using a format that is more suitable for determination.
  • the format may be a known log format.
  • the format may be a log format determined in advance based on log characteristics.
  • the characteristics of the log include, for example, the property that it is easily or difficult to change between logs that are similar to each other, or the property that a character string that can be regarded as a portion that is easily changed in the log is described.
  • variable part of the format is a variable part in the format
  • constant part is a part that does not change in the log format.
  • the value of the variable part in the sent log (including numerical values, character strings, and other data) is called a variable value.
  • the variable part and the constant part are different for each type. Therefore, a part defined as a variable part in one form may be defined as a constant part in another form and vice versa.
  • FIG. 5 is a diagram showing an example of format information according to the first embodiment.
  • the format information is recorded in the format storage unit 171 of FIG.
  • the format information includes a format ID (Identification) that is a format and a format identifier.
  • the format includes a character string that represents the format associated with the unique ID.
  • the format is defined as a variable part by describing a predetermined identifier in a variable part in the log, and a part other than the variable part in the log is defined as a constant part.
  • identifier of a variable part for example, “ ⁇ variable: time stamp>” indicates a variable part representing a time stamp, and “ ⁇ variable: character string>” indicates a variable part representing an arbitrary character string.
  • variable part For example, “ ⁇ variable: numerical value>” indicates a variable part representing an arbitrary numerical value, and “ ⁇ variable: IP>” indicates a variable part representing an arbitrary IP (Internet Protocol) address.
  • the identifier of the variable part is not limited to these, and may be defined by an arbitrary method such as a regular expression or a list of possible values.
  • the format may be configured by a constant part without including a variable part, or may be configured by a variable part without including a constant part.
  • the format may include only a constant part without including a variable part, or may include only a variable part without including a constant part.
  • the format determination unit 120 reads “2015/08/17 08:29:37 [SV008] JNW3258 started”, which is the log in the first line in FIG. 4, and the ID in FIG. 5 is “039”. Judge that it conforms to a certain format. Then, the format determination unit 120 processes the log based on the determined format, and the time stamp “2015/08/17 08:29:37”, the character string “SV008” and the numerical value “ 3258 "is determined as the variable value.
  • the format is represented by a list of character strings for visibility, but may be represented by an arbitrary data format (file format), for example, binary data or text data.
  • file format for example, binary data or text data.
  • the format may be recorded in the format storage unit 171 as a text file.
  • the format may be recorded in the format storage unit 171 as a database table.
  • FIG. 6 is a diagram illustrating an example of a format determination result according to the first embodiment.
  • the format determination result is each log included in the analysis target log 10 classified by the format determination unit 120 for each format recorded in the format storage unit 171.
  • the format determination result shown in FIG. 6 includes each log and format ID.
  • the format determination result shown in FIG. 6 is a log associated with the format ID.
  • the format determination result is, for example, “log” is “2015/08/17 08:29:37 [SV008] JNW3258 has started” and “format ID” is “039”.
  • the format determination unit 120 determines which format is the log output from the system component among a plurality of formats determined by the configuration of the variable part and the constant part.
  • the abnormality analysis unit 130 determines whether or not the variable value in the log determined by the format determination unit 120 is abnormal based on a model recorded in advance in the model storage unit 172.
  • a model is a definition of the normal behavior of a log.
  • the model is, for example, that a numerical variable value is within a predetermined range in a certain format, and that a variable value of a character string is already registered in a certain format.
  • the model is not limited to this, and any definition may be used. That is, the abnormality analysis unit 130 analyzes whether the log is abnormal based on the value of the determined variable portion.
  • the abnormality analysis unit 130 determines that the log is abnormal and sends it to the next performance information acquisition unit 140 as an abnormal log. On the other hand, when the sent log matches any model in the model storage unit 172, the abnormality analysis unit 130 determines that the log is a normal log and does not send it to the performance information acquisition unit 140.
  • the performance information acquisition unit 140 acquires the performance information 20 of the components included in the system that is the output source based on the abnormality log sent from the abnormality analysis unit 130, and sends the performance information 20 to the cause information acquisition unit 150. send.
  • the constituent elements are, for example, physical devices such as servers, virtual devices such as virtual machines, and various programs.
  • the performance information 20 is information relating to the component, and is information including an operating state that is a processing state of the system in which the component is operating.
  • the performance information 20 may include a component name or a component resource.
  • the performance information 20 is, for example, CPU (Central Processing Unit) usage rate, physical memory usage rate, process information, number of packets, or life / death monitoring information.
  • the performance information 20 may be acquired from outside the log analysis system 100. That is, the performance information acquisition unit 140 acquires the operating state of the system component that has output the log analyzed to be abnormal.
  • the performance information acquisition unit is also referred to as an operating state acquisition unit.
  • the performance information acquisition unit 140 may directly acquire the performance information 20 from, for example, an abnormality log output source system.
  • the performance information acquisition unit 140 may acquire the performance information 20 from, for example, a monitoring system that monitors the output system of the abnormality log.
  • the performance information 20 may be acquired for a certain period by the performance information acquisition unit 140, the monitoring system, or the like.
  • the performance information 20 acquired for a certain period may be stored in the log analysis system 100.
  • the performance information acquisition unit 140 may acquire the performance information 20 by reading the performance information 20 for a certain period stored in the log analysis system 100.
  • the cause information acquisition unit 150 uses the performance information 20 acquired by the performance information acquisition unit 140 and the state information recorded in advance in the state storage unit 173 to cause the cause of the abnormality of the system component that is the output source of the error log.
  • Cause information that is information about Cause information includes, for example, information indicating the cause of an error in the system component that is the output source of the error log (error cause) and information on the component that is causing an error in the system that is the output source of the error log (in the cause of the error) Corresponding component).
  • an example of cause information is a cause of an abnormality according to an operating state of a component of a system that outputs a log.
  • the cause information acquisition unit 150 corresponds to which state corresponds to one or more pieces of performance information 20 acquired by the performance information acquisition unit 140 based on the state information recorded in the state storage unit 173 in advance.
  • the state determination result is sent to the information output unit 160.
  • the status information is information that defines the cause of the abnormality based on the performance information 20.
  • FIG. 7 is a diagram illustrating an example of state information recorded in the state storage unit 173.
  • the state information illustrated in FIG. 7A includes a list of performance abnormality types, abnormality causes, and threshold values.
  • the performance abnormality type indicates the state of the performance information 20 with respect to the threshold value.
  • the cause of the abnormality indicates the state of the system from which the abnormality log corresponding to the performance information 20 is output.
  • the threshold value is a determination value for determining the cause of the abnormality from the performance information 20. For example, in the example of the status information illustrated in FIG. 7A, “Performance abnormality type” is “less than threshold”, “Cause of abnormality” is “Operation stop”, and “Threshold” is “CPU usage rate 1%”. .
  • the cause information acquisition unit 150 sends “operation stop” that is the “cause of abnormality” illustrated in FIG. 7A to the information output unit 160 as cause information. That is, the cause information acquisition unit 150 acquires the cause of the abnormality according to the acquired operating state.
  • the cause information acquisition unit is also referred to as an abnormality cause acquisition unit.
  • the state information shown in FIG. 7B includes a format ID, a cause of abnormality, and a threshold value.
  • the state information shown in (b) of FIG. 7 includes the cause of abnormality and the threshold value associated with the format ID recorded in the format storage unit 171.
  • “Format ID” is “039”
  • “Cause of abnormality” is “Operation stop”
  • “Threshold” is “CPU usage rate 0%”.
  • the performance information acquisition unit 140 acquires the format ID of the abnormality log input from the abnormality analysis unit 130. That is, the performance information acquisition unit 140 acquires a log format analyzed as abnormal.
  • the cause information acquisition unit 150 includes the performance information 20 of the output source of the error log acquired by the performance information acquisition unit 140, the format ID of the error log, and the threshold value of the status information for each format ID shown in FIG. Is used to acquire the cause of the abnormality in the system that outputs the abnormality log for each format ID. That is, the cause information acquisition unit 150 acquires cause information for each format according to the operating state, log format, threshold value for each error log format, and performance information 20 included in the acquired performance information 20.
  • the information output unit 160 outputs an abnormality cause of the system that is the output source of the abnormality log for each format ID acquired by the cause information acquisition unit 150 and a component corresponding to the abnormality cause. That is, the information output unit 160 outputs cause information for each format.
  • the log analysis system 100 using the state information of FIG. 7B acquires and outputs the cause of abnormality for each characteristic of the format, the cause of abnormality can be acquired more accurately. Further, the log analysis system 100 according to the present embodiment acquires the cause of the abnormality for each format ID, so that the processing is accelerated.
  • the threshold value of the state information shown in FIG. 7 is one type of determination value, but is not limited to this and may be a plurality of types of determination values. Moreover, the threshold value of the status information shown in FIGS. 7A and 7B may be a determination value associated with a period. The threshold value that is the determination value associated with the period is used, for example, to determine whether the determination value continues for a predetermined period. The threshold value, which is a determination value associated with the period, is, for example, “CPU usage rate 0% for 3 seconds”.
  • the cause information acquisition unit 150 can easily acquire the cause of the abnormality of the system that output the abnormality log by using the performance information 20 and the format ID and threshold value of the state information.
  • the reason is that a threshold is determined for each format (for example, format ID), so the cause information acquisition unit 150 acquires an abnormality cause with a threshold corresponding to the format ID of the abnormality log acquired by the abnormality analysis unit 130. Because it does. By using this threshold value, the log analysis system 100 of the present embodiment can acquire the cause of abnormality more accurately.
  • the state information is represented as a character string for visibility, but may be represented in an arbitrary data format (file format), for example, binary data or text data.
  • file format for example, binary data or text data.
  • the state information is not limited to the specific definition shown here, and may be defined by an arbitrary method. Further, the status information may be recorded separately in a plurality of files or tables.
  • the information output unit 160 outputs the cause information (state determination result) acquired by the cause information acquisition unit 150. That is, the information output unit 160 outputs the acquired abnormality cause and the component corresponding to the abnormality cause. In the present embodiment, the information output unit 160 outputs cause information to the display device 30, and the display device 30 displays the cause information as an image for the user.
  • the display device 30 includes a display unit such as a liquid crystal display for displaying an image and a CRT (Cathode Ray Tube) display.
  • FIG. 8 is a diagram showing an example of a cause information display screen using the display device 30.
  • a screen A illustrated in FIG. 8 displays an abnormal part (component corresponding to the cause of the abnormality) in the system from which the abnormality log is output, and the cause of the abnormality acquired by the cause information acquisition unit 150.
  • “abnormal part” is “SV008”
  • “cause of abnormality” is “operation stop”. That is, screen A shown in FIG. 8 displays the system name of the output source of the error log in association with the cause of the error of the system.
  • the screen shown in FIG. 8 is an example, and any display method may be used as long as the cause information acquired by the cause information acquisition unit 150 can be displayed to the user.
  • the information output method by the log analysis system 100 is not limited to image display for the user.
  • the information output unit 160 outputs information to be output as data
  • the log analysis system 100 includes means for performing recording processing, printing processing, analysis processing, statistical processing, and the like on the data from the information output unit 160. Also good. Further, the recording process or the like may be executed by an external device (not shown) of the log analysis system 100.
  • the user can know the cause of the abnormality of the system that is the output source of the abnormality log acquired from each log in the analysis target log 10.
  • FIG. 2 is a block diagram showing a device configuration of the log analysis system 100 according to the present embodiment.
  • the log analysis system 100 includes a CPU 101, a communication interface 102, a storage device 103, and a memory 104.
  • the log analysis system 100 may be connected to the display device 30 via the communication interface 102.
  • the log analysis system 100 may include the display device 30.
  • the log analysis system 100 may be an independent device.
  • the log analysis system 100 may be configured integrally with other devices.
  • the communication interface 102 is a communication unit that transmits and receives data, and is configured to be able to execute at least one communication method of wired communication and wireless communication.
  • the communication interface 102 includes a processor, an electric circuit, an antenna, a connection terminal, and the like necessary for the communication method.
  • the communication interface 102 is connected to a network using the communication method in accordance with a signal from the CPU 101 to perform communication.
  • the communication interface 102 receives the analysis target log 10 from the outside, for example.
  • the storage device 103 stores a program executed by the log analysis system 100, data of a processing result by the program, and the like.
  • the storage device 103 includes a read-only ROM (Read Only Memory), a readable / writable hard disk drive, a flash memory, or the like. Further, the storage device 103 may include a computer-readable portable recording medium such as a CD (compact disc) -ROM.
  • the memory 104 includes a RAM (Random Access Memory) that temporarily stores data being processed by the CPU 101, a program read from the storage device 103, and data.
  • the CPU 101 temporarily records temporary data used for processing in the memory 104, reads a program recorded in the storage device 103, and performs various operations, control, discrimination, etc. on the temporary data according to the program. It is a processor as a process part which performs these processing operations.
  • the CPU 101 records processing result data in the storage device 103 and transmits processing result data to the outside via the communication interface 102.
  • the CPU 101 executes the program recorded in the storage device 103, thereby causing the input unit 110, the format determination unit 120, the abnormality analysis unit 130, the performance information acquisition unit 140, the cause information acquisition unit 150, and the like in FIG. It functions as the information output unit 160.
  • the storage device 103 functions as the format storage unit 171, the model storage unit 172, and the state storage unit 173 in FIG.
  • the log analysis system 100 is not limited to the specific configuration shown in FIG.
  • the log analysis system 100 is not limited to a single device, and may be configured by connecting two or more physically separated devices in a wired or wireless manner.
  • Each unit included in the log analysis system 100 may be realized by an electric circuit configuration.
  • the electric circuit configuration is a term that conceptually includes a single device, a plurality of devices, a chipset, or a cloud.
  • At least a part of the log analysis system 100 may be provided in SaaS (Software as a Service) format. That is, at least a part of functions for realizing the log analysis system 100 may be executed by software executed via a network.
  • SaaS Software as a Service
  • FIG. 3 is a flowchart illustrating an operation example of the log analysis system 100 according to the first embodiment.
  • the input unit 110 acquires the analysis target log 10 (step S101).
  • the format determination unit 120 determines whether each log included in the analysis target log 10 input in step S101 is a determination target and conforms to any format recorded in the format storage unit 171 (step S102). ).
  • step S102 If it is determined in step S102 that the determination target log does not conform to any format recorded in the format storage unit 171 (NO in step S103), the process proceeds to step S105.
  • the format determination unit 120 uses the format to change the determination target log to a variable.
  • the variable value in the determination target log is recorded by separating into a part and a constant part (step S104).
  • the format determination unit 120 classifies each log included in the analysis target log 10 for each format.
  • the abnormality analysis unit 130 determines whether or not the determination target log matches any model recorded in the model storage unit 172 based on the variable value acquired in step S104 (step S105). If the determination target log does not match any model recorded in the model storage unit 172, the abnormality analysis unit 130 determines that the determination target log is an abnormality log. On the other hand, when the determination target log matches any model recorded in the model storage unit 172, the abnormality analysis unit 130 determines that the determination target log is a normal log.
  • the abnormality analysis unit 130 determines that a log that does not conform to the format is an abnormal log (unknown log) having an unknown format.
  • steps S102 to S106 are repeated with the next log of the analysis target log 10 as a determination target.
  • step S106 When the analysis is completed for all the logs in the analysis target log 10 (YES in step S106), the performance of the system that is the output source of the abnormality log determined by the abnormality analysis unit 130 in the analysis target log 10 Information 20 is acquired (step S107).
  • the cause information acquisition unit 150 acquires cause information that is the cause information of the system from which the abnormality log is output based on the performance information 20 acquired in step S107 (step S108).
  • the information output unit 160 outputs the cause information acquired in step S108 to the display device 30 (step S109) and displays it for the user.
  • the log analysis system 100 analyzes an abnormality log from each log in the analysis target log 10 and generates cause information based on the performance information 20 of the system that is the output source of the abnormality log. Acquire and output the cause information.
  • the log analysis system 100 can display the cause of the abnormality of the system. Thereby, the cause of the abnormality regarding the abnormality log can be presented to the user.
  • abnormality determination criteria a model recorded in advance in the model storage unit 172
  • the log analysis system 100 may change the criterion for abnormality determination based on the logs accumulated in the past. For example, the log analysis system 100 may use the average value of the appearance ratios of the respective formats in the log accumulated within a predetermined period as a reference for determining the abnormality after the change. Alternatively, the log analysis system 100 may use a value input from the user as a reference for determining an abnormality after the change.
  • the log analysis system 100 may set the changed abnormality determination reference when, for example, a predetermined time has elapsed from the date when the abnormality determination reference was previously set. In addition, the log analysis system 100 may set a criterion for abnormality determination after the change when the change of the device is detected when the device constituting the system that outputs the analysis target log 10 is replaced. In addition, the log analysis system 100 may set a criterion for abnormality determination after the change in response to a user instruction.
  • the log analysis system 100 determines the state based on the performance information 20 of the system from which the abnormality log is output.
  • the log analysis system 200 according to the present embodiment in addition to the performance information 20, The state is determined based on the connection information 40 of the output source system.
  • FIG. 9 is a block diagram showing the configuration of the log analysis system 200 according to the present embodiment.
  • the log analysis system 200 includes an input unit 110, a format determination unit 120, an abnormality analysis unit 130, a performance information acquisition unit 240, a cause information acquisition unit 150, and an information output unit 160 as processing units.
  • the log analysis system 200 includes a format storage unit 171, a model storage unit 172, and a state storage unit 173 as storage units. That is, the log analysis system 200 according to the present embodiment includes a performance information acquisition unit 240 instead of the performance information acquisition unit 140 in the log analysis system 100 according to the first embodiment.
  • the performance information acquisition unit 240 acquires the connection information 40 of the system in addition to the performance information 20 of the system that is the output source of the abnormality log input from the abnormality analysis unit 130, and causes the performance information 20 and the connection information 40 to be the cause.
  • the information is sent to the information acquisition unit 150. That is, the performance information acquisition unit 240 acquires the connection information 40 indicating the relationship between the system performance information 20 and each component of the system.
  • the connection information 40 is information indicating a dependency relationship between components of the system that outputs the analysis target log 10.
  • the performance information acquisition unit is also referred to as an operating state acquisition unit.
  • connection information 40 is, for example, a network connection relationship between system components, and a master-slave relationship of virtual devices and programs.
  • the connection information 40 may be acquired from outside the log analysis system 200.
  • the connection information 40 may be acquired by reading out information recorded in advance in the log analysis system 200.
  • the performance information acquisition unit 240 may acquire the performance information 20 and the connection information 40 of the system that is the output source of the abnormality log, for example, based on the content of the abnormality log. Specifically, in the case of the log “2015/08/17 08:32:30 [SV004] SV003 timed out” shown in FIG. 4 of the first embodiment, the performance information acquisition unit 240 Not only SV004 but also the performance information 20 and connection information 40 of SV003 may be acquired. Further, when the performance information acquisition unit 240 acquires the performance information 20 and the connection information 40 of the system that is the output source of the abnormality log, for example, the performance information 20 of the component connected to the system (component) May be obtained. Specifically, as illustrated in FIG.
  • the performance information acquisition unit 240 is, for example, a component (for example, Server005) having a connection relationship with a system (for example, Server008) that is the output source of the abnormality log.
  • Performance information 20 or performance information 20 of all components (for example, Server001 to Server007) in connection relation may be acquired.
  • the cause information acquisition unit 150 uses the performance information 20 and the connection information 40 acquired by the performance information acquisition unit 240 to cause information that is the cause information of the system that is the output source of the error log and the connection associated with the cause information. Get information. That is, the cause information acquisition unit 150 acquires cause information and connection information associated with the cause information according to the operating state and connection information 40 included in the acquired performance information 20. Specifically, the cause information acquisition unit 150 determines which state based on the state information recorded in the state storage unit 173 in advance, one or more pieces of performance information 20 and connection information 40 acquired by the performance information acquisition unit 240. And the state determination result is input to the information output unit 160.
  • the determination result of the state includes the connection information 40 in addition to the cause information including the abnormal part and the cause of the abnormal part.
  • the cause information acquisition unit 150 uses the performance information 20 and the connection information 40 acquired by the performance information acquisition unit 240 based on the contents of the abnormality log, for example, to cause the cause information and connection information associated with the cause information to be obtained. You may get it. Further, the cause information acquisition unit 150 uses, for example, the performance information 20 and connection information 40 of the component connected to the system (component) that is the output source of the abnormality log, acquired by the performance information acquisition unit 240. Thus, the cause information and the connection information associated with the cause information may be acquired. Thereby, the user can not only confirm the cause of abnormality of the system (abnormal part) that is the output source of the abnormality log, but can also confirm the state of the component related to the abnormal part.
  • FIG. 10 is a diagram illustrating an example of a display screen of cause information and connection information 40 in the second embodiment.
  • the screen B of the display device 30 shown in FIG. 10 displays the cause information B1 acquired by the cause information acquisition unit 150 and the configuration display B2 representing the connection information associated with the cause information acquired by the cause information acquisition unit 150.
  • the configuration display B2 indicates, for example, each component and the relationship between them based on the performance information 20 and the connection information 40 acquired by the performance information acquisition unit 240.
  • the configuration display B2 is indicated by a symbol (here, a circle) indicating each component and a line connecting the components. For example, “Server001” and “Server002” are connected.
  • a character string (component name) indicating the component is displayed in the vicinity of the symbol indicating the component.
  • an abnormal location is highlighted with a double circle B3 on the configuration display B2. Thereby, the user can easily know an abnormal component.
  • the cause information B1 illustrated in FIG. 10 includes, for example, a list of format IDs, abnormal locations, and causes.
  • the type, color, size, etc. of the symbol or character string indicating the abnormal part may be changed. Or you may blink an abnormal location.
  • the color of the character string at the abnormal location in the cause information B1 may be the same as the color of the character string at the abnormal location in the configuration display B2.
  • FIG. 11 is a diagram showing an example of a display screen that further displays the performance information 20 on the display screen shown in FIG.
  • the screen B shown in FIG. 11 may display performance information B4 representing the performance information 20 of the constituent elements in addition to the screen B shown in FIG.
  • the performance information B4 shown in FIG. 11 is SV008 performance information 20 (for example, “CPU usage rate” is “30%” and “physical memory” is “70%”).
  • the performance information B4 shown in FIG. 11 is displayed when the user performs an external operation (for example, an operation using an input device such as a mouse or a touch panel) on the double circle B3 on the configuration display B2. . That is, the information output unit 160 outputs the acquired performance information 20 in response to an input operation from the outside.
  • an external operation for example, an operation using an input device such as a mouse or a touch panel
  • the log analysis system 200 not only displays the cause information or configuration display (connection information 40) selected by the user operation on the display device 30, but also records the cause information or configuration display. You may output by arbitrary methods, such as printing.
  • the log analysis system 200 includes the connection information 40 of the system that is the output source of the abnormality log, the cause information and the connection information associated with the cause information based on the performance information 20 and the connection information 40 are displayed.
  • the cause information and connection information associated with the cause information can be output. According to the present embodiment, it is possible to present the abnormal part of the system that is the output source of the abnormal log and the cause of the abnormal part, and provide the user with the relationship between the constituent elements and the abnormal part visible.
  • the occurrence of an abnormality in each time interval is determined and output based on the appearance ratio of the format. According to the present embodiment, it is possible to provide information indicating the occurrence of abnormality directly to the user.
  • the log analysis system 200 determines the state based on the performance information 20 and the connection information 40 of the system from which the abnormality log is output.
  • the log analysis system 300 includes the performance information 20 and the connection information.
  • the state is determined based on the state information including the priority order indicating the order that the user should correspond to 40.
  • FIG. 12 is a block diagram showing the configuration of the log analysis system 300 according to this embodiment.
  • the log analysis system 300 in this embodiment includes an input unit 110, a format determination unit 120, an abnormality analysis unit 130, a performance information acquisition unit 240, a cause information acquisition unit 150, and an information output unit 160 as processing units.
  • the log analysis system 300 includes a format storage unit 171, a model storage unit 172, and a state storage unit 373 as storage units. That is, the log analysis system 300 according to the present embodiment includes a state storage unit 373 instead of the state storage unit 173 in the log analysis system 200 according to the second embodiment.
  • FIG. 13 is a diagram illustrating an example of state information recorded in the state storage unit 373.
  • the state information shown in FIG. 13 includes a priority list, a cause of abnormality, and a list of threshold values.
  • the status information shown in FIG. 13 is, for example, “Priority” is “1”, “Cause of abnormality” is “Operation stop”, and “Threshold” is “CPU usage rate 0%”.
  • the cause information acquisition unit 150 uses the performance information 20 and connection information 40 of the output source of the abnormality log acquired by the performance information acquisition unit 240, and the priority order, abnormality cause, and threshold value of the status information shown in FIG. As a result, it is possible to obtain the cause of the abnormality in the output source of the abnormality log and the priority order of the abnormality cause.
  • the cause information acquisition unit 150 converts the one or more pieces of performance information 20 and connection information 40 acquired by the performance information acquisition unit 240 into the state information including the priority order recorded in the state storage unit 373 in advance. Based on this, it is determined which state corresponds, and the determination result of the state is sent to the information output unit 160. That is, the cause information acquisition unit 150 acquires cause information weighted for each operation state according to the operation state indicated by the acquired performance information 20. The information output unit 160 outputs cause information weighted for each acquired operating state to the display device 30.
  • the user can confirm the abnormal location of the system that is the output source of the abnormal log, the cause and priority of the abnormal location, and can respond with priority from a serious abnormality.
  • the state information is represented by a list of character strings and numerical values for visibility, but may be represented in an arbitrary data format (file format), for example, binary data or text data.
  • FIG. 14 is a diagram illustrating an example of a display screen of cause information and connection information 40 by the display device 30.
  • a screen C illustrated in FIG. 14 displays cause information (state determination result) C1 including the priority order acquired by the cause information acquisition unit 150.
  • the cause information C1 illustrated in FIG. 14 includes, for example, a list of format IDs, priorities, abnormal locations, and causes.
  • the cause information C1 may be displayed in descending order of priority.
  • “SV008”, which is the highest abnormality location in the cause information C1 is an abnormality with a high priority (serious).
  • the character type, color, size, etc. of the variable value may be changed in order to emphasize the upper abnormal part or cause.
  • the screen C shown in FIG. 14 displays a configuration display C2 indicating each component and a relationship between them based on the performance information 20 and the connection information 40 acquired by the performance information acquisition unit 240.
  • the configuration display C2 shows a symbol (here, a circle) indicating each component and a line connecting the components.
  • a character string (component name) indicating the component is displayed in the vicinity of the symbol indicating the component.
  • constituent elements (abnormal places) with high priority are highlighted with a triple circle C3, and other abnormal places are highlighted with a double circle C4. Thereby, the user can easily know a component having a serious abnormality.
  • the upper abnormal part may be blinked.
  • the color of the character string at the abnormal location in the cause information C1 may be the same as the color of the character string at the abnormal location in the configuration display C2.
  • the log analysis system 300 Since the log analysis system 300 according to the present embodiment includes the state information including the priority order, it can acquire the cause information including the priority order based on the state information including the priority order and output the cause information. According to the present embodiment, it is possible to present the abnormal location of the system that is the output source of the abnormal log and the cause of the abnormal location, and to provide the user with a priority order for preferentially dealing with a serious abnormality.
  • FIG. 15 is a block diagram of a log analysis system 400 according to the fourth embodiment.
  • the log analysis system 400 includes a format learning unit 481, a model learning unit 482, and a state learning unit 483 in addition to the configuration of FIG.
  • the format learning unit 481 creates a new format when the determination target log does not match any format recorded in the format storage unit 171. Record in the storage unit 171.
  • the format learning unit 481 As a first method for the format learning unit 481 to learn the format, the format learning unit 481 accumulates a plurality of logs whose formats are unknown, and a variable part that changes statistically and a constant that does not change. By separating the part, it can be defined as a new format. As a second method for the format learning unit 481 to learn the format, the format learning unit 481 reads a list of known variable values and matches or resembles a known variable value in a log whose format is unknown. A new format can be defined by determining a part to be performed as a variable part and determining other parts as a constant part. As a known variable value, the value itself may be used, or a pattern such as a regular expression may be used. The format learning method is not limited to these, and any learning algorithm that can define a new format for the input log may be used.
  • the model learning unit 482 creates a new model and creates a model when the determination target log does not match any model recorded in the model storage unit 172. Records in the storage unit 172.
  • the abnormality analysis unit 130 determines that a log that does not match any model recorded in advance in the model storage unit 172 is an abnormality log. However, even if the log is unknown, it may be a normal log. . In this case, when the user inputs an instruction that the log that does not match the model in the model storage unit 172 is a normal log via the input device, the model learning unit 482 creates a new model based on the format and variable values of the log. Is recorded in the model storage unit 172.
  • the model learning method is not limited to this, and an arbitrary learning algorithm that can newly define a model from an input log may be used.
  • the state learning unit 483 determines the performance when the determination target performance information 20 does not correspond to (similar to) any state recorded in the state storage unit 173. Information related to the information 20 is recorded in the state storage unit 173 as a new state. Specifically, the state learning unit 483 records the newly generated abnormality cause and threshold value in the state storage unit 173.
  • the cause of abnormality and the threshold value may be automatically generated based on a predetermined rule (date and time), or may be input by a user via an input device such as a keyboard.
  • state learning unit 483 may record the performance abnormality type and the format ID in the state storage unit 173 in association with the cause of the abnormality and the threshold value.
  • the log analysis system 400 includes a learning unit for learning the format, model, and state, a new format, model, or state is generated and recorded from a log of an unknown format, model, or state. be able to.
  • FIG. 16 is a block diagram showing a schematic configuration of the log analysis system according to the first to fourth embodiments described above.
  • FIG. 16 shows a configuration example for the log analysis system 500 to function as a device that outputs an abnormality cause of a system that outputs an abnormality log and a component corresponding to the abnormality cause.
  • the log analysis system 500 is determined to be the format determination unit 120 that determines which format is output from the system component among a plurality of formats determined by the configuration of the variable part and the constant part.
  • the abnormality analysis unit 130 that analyzes whether or not the log is abnormal, and the performance information that acquires the operating state of the system components that output the log analyzed as abnormal
  • An acquisition unit 540 a cause information acquisition unit 150 that acquires an abnormality cause according to the acquired operating state, and an information output unit 160 that outputs the acquired cause information are provided.
  • the performance information acquisition unit 540 has the same function as the performance information acquisition unit 140 or the performance information acquisition unit 240.
  • the performance information acquisition unit is also referred to as an abnormality cause acquisition unit, and the cause information acquisition unit is also referred to as an abnormality cause acquisition unit.
  • a program for operating the configuration of the embodiment to realize the functions of the above-described embodiment (more specifically, a program for causing a computer to execute the processing illustrated in FIG. 3) is recorded on a recording medium, and the recording medium is recorded on the recording medium.
  • a processing method of reading a recorded program as a code and executing it on a computer is also included in the category of each embodiment. That is, a computer-readable recording medium is also included in the scope of each embodiment.
  • the program itself is included in each embodiment.
  • the recording medium for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, a nonvolatile memory card, and a ROM can be used.
  • the program is not limited to a single program recorded on the recording medium, but operates on an OS (Operating system) in cooperation with other software and expansion board functions. Are also included in the category of each embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

異常ログに関する異常の原因をユーザに提示可能なログ分析システム等を提供する。ログ分析システムは、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する形式判定部と、判定された形式の変数部分の値に基づいて、ログが異常であるか否かを分析する異常分析部と、異常であると分析されたログを出力したシステムの構成要素の稼働状態を取得する稼働状態取得部と、取得された稼働状態に応じた原因情報を取得する原因情報取得部と、取得された異常原因と該異常原因に対応する構成要素を出力する情報出力部を備える。

Description

ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体
 本発明は、ログの分析を行うためのログ分析システム等に関する。
 コンピュータ上で実行されるシステムにおいては、イベントの結果やメッセージ等を含むログが出力される。システム等に異常が発生した際には、ユーザ(例えばオペレータ)は、出力されたログを分析又は解析することで、異常の原因を特定する。
 システム異常の原因の追及等のためにログ分析を行う際、ユーザはシステムから出力される多数のログを参照する必要がある。ユーザへの負担を軽減するために、ログに基づく分析を補助する情報を提供することが求められている。
 特許文献1は、監視対象ホストのログを読み込み、平常時のログ遷移モデルと読み込まれたログ情報に基づき、ログ変化があった時に変化のあったログの性能情報を取得し、取得した性能情報とログ情報から障害の有無を判定する技術を開示する。
 特許文献2は、サーバマシンについて測定された性能測定値を収集し、収集した性能測定値に基づいて性能障害の有無を判定し、性能障害が発生していると判定した場合にその性能障害の原因箇所を推定し、性能障害箇所推定処理の結果に基づいて、性能障害の原因箇所の管理者に性能障害の発生を通知する技術を開示する。
 特許文献3は、予め定められた文字列テンプレートと関連する可変部分に基づいてログ記載を分析する技術を開示する。
特開2014-120001号公報 特表2015-516604号公報 米国特許出願公開第2012/0124047号明細書
 しかしながら、特許文献1が開示する技術は、監視ホストにおける障害の有無を判断しているが、何が原因で故障したかを提示できていない。同様に、特許文献2及び3が開示する技術もまた、何が原因で故障したかを提示できていない。すなわち、特許文献1、2及び3が開示する技術は、ログの異常検知において、異常の原因をユーザに提示することができない。
 本発明の目的は、上記課題を解決し、異常ログに関する異常の原因をユーザに提示可能なログ分析システム等を提供することである。
 本発明の一態様におけるログ分析システムは、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する形式判定部と、判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析する異常分析部と、異常であると分析された前記ログを出力したシステムの構成要素の稼働状態を取得する稼働状態取得部と、取得された前記稼働状態に応じた異常の原因を示す情報を含む異常原因を取得する異常原因取得部と、取得された前記異常原因と該異常原因に対応する構成要素を出力する情報出力部と、を備える。
 本発明の一態様におけるログ分析方法は、ログ分析方法であって、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定し、判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析し、異常であると分析された前記ログを出力したシステムの構成要素の稼働状態を取得し、取得された前記性能情報が含む稼働状態に応じた異常原因を取得し、取得された前記異常原因と該異常原因に対応する構成要素を出力する。
 本発明の一態様における記録媒体に格納されたプログラムは、コンピュータに、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する処理と、判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析する処理と、異常であると分析された前記ログを出力したシステムの構成要素の稼働状態を取得する処理と、取得された前記性能情報が含む稼働状態に応じた異常原因を取得する処理と、取得された前記異常原因と該異常原因に対応する構成要素を出力する処理、を実行させる。
 本発明によれば、異常ログに関する異常の原因をユーザに提示することができる。
第1の実施形態に係るログ分析システムの構成を示すブロック図である。 第1の実施形態に係るログ分析システムの機器構成を示すブロック図である。 第1の実施形態に係るログ分析システムの動作を示すフローチャートである。 第1の実施形態に係る分析対象ログの例を示す図である。 第1の実施形態に係る形式情報の例を示す図である。 第1の実施形態に係る形式判定結果の例を示す図である。 第1の実施形態に係る状態情報の例を示す図である。 第1の実施形態における原因情報の表示画面の例を示す図である。 第2の本実施形態に係るログ分析システムの構成を示すブロック図である。 第2の実施形態における原因情報及び接続情報の表示画面の例を示す図である。 第2の実施形態における原因情報及び接続情報の表示画面の例を示す図である。 第3の実施形態に係るログ分析システムの構成を示すブロック図である。 第3の実施形態に係る状態情報の例を示す図である。 第3の実施形態における原因情報及び接続情報の表示画面の例を示す図である。 第4の実施形態に係るログ分析システムの構成を示すブロック図である。 第1-第4の実施形態に係るログ分析システムの概略構成を示すブロック図である。
 以下、図面を参照して、実施形態を説明するが、本発明は本実施形態に限定されるものではない。なお、以下で説明する図面で、同機能を有するものは同一符号を付け、その繰り返しの説明は省略することもある。
 <第1の実施形態>
 以下、第1の実施形態について、図面を参照して詳細に説明する。
 図1は、第1の実施形態に係るログ分析システム100の構成を示すブロック図である。図1において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図1に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記録媒体等、任意の手段を介して行われてよい。
 図1を参照すると、本実施形態におけるログ分析システム100は、処理部として、入力部110、形式判定部120、異常分析部130、性能情報取得部140、原因情報取得部150、及び情報出力部160を備える。また、ログ分析システム100は、記憶部として、形式記憶部171、モデル記憶部172、及び状態記憶部173を備える。
 入力部110は、分析対象のログである分析対象ログ10を取得する。分析対象ログ10は、ログ分析システム100の外部から取得されてよい。また、分析対象ログ10は、ログ分析システム100の内部に予め記録されたものを読み出すことにより取得されてよい。分析対象ログ10は、1つ以上の装置又はプログラムから出力される1つ以上のログを含む。分析対象ログ10は、任意のデータ形式(ファイル形式)で表されたログであり、例えばバイナリデータ又はテキストデータである。また、分析対象ログ10は、データベースのテーブルとして記録されてよい。また、分析対象ログ10は、テキストファイルとして記録されてよい。
 図4は、第1の実施形態に係る分析対象ログ10の例を示す図である。本実施形態における分析対象ログ10は、装置又はプログラムから出力される1つのログを1単位とし、1つ以上の任意の数のログを含む。1つのログは1行の文字列でよい。また、1つのログは複数行の文字列でよい。すなわち、分析対象ログ10は、分析対象ログ10に含まれるログの総体を指し、ログは分析対象ログ10から抜き出された1つのログを指す。分析対象ログ10が含む1つのログは、例えば、「2015/08/17 08:29:37 [SV008] JNW3258が開始しました。」である。
 また、各ログは、タイムスタンプ及びメッセージ等を含む。ログ分析システム100は、特定の種類のログに限らず、広範な種類のログを分析対象とすることができる。例えば、syslog、イベントログ等のオペレーティングシステムやアプリケーションから出力されるメッセージを記録するログを分析対象ログ10として用いることができる。
 形式判定部120は、分析対象ログ10に含まれる各ログに対して、形式記憶部171に予め記録されているいずれの形式(フォーマット)に適合するかを判定し、判定結果を異常分析部130に送る。具体的には、形式判定部120は、分析対象ログ10に含まれる各ログを形式ごとに分類し、形式毎に分類した各ログを異常分析部130に送る。また、形式判定部120は、判定により適合する形式を用いて各ログを変数部分と定数部分とに分離する。
 形式とは、既知のログの形式であってよい。また、形式は、ログの特性に基づいて予め決められた、ログの形式であってもよい。ログの特性には、例えば、互いに類似するログ間で変化しやすい又は変化しづらいという性質、あるいは、ログ中で変化しやすい部分とみなせる文字列が記載されているという性質が含まれる。
 形式の変数部分は、形式の中で変化可能な部分であり、定数部分とはログの形式の中で変化しない部分である。送られたログ中の変数部分の値(数値、文字列及びその他のデータを含む)を変数値と呼ぶ。変数部分及び定数部分は、形式毎に異なる。そのため、ある形式では変数部分として定義される部分が、別の形式では定数部分として定義されることや、その逆があり得る。
 図5は、第1の実施形態に係る形式情報の例を示す図である。形式情報は、図1の形式記憶部171に記録される。形式情報は、形式と形式の識別子である形式ID(Identification)を含む。形式は、一意のIDに関連付けられた形式を表す文字列を含む。形式は、ログ中の変化可能な部分に所定の識別子を記載することによって変数部分として規定し、ログ中の変数部分以外の部分を定数部分として規定する。変数部分の識別子として、例えば「<変数:タイムスタンプ>」はタイムスタンプを表す変数部分を示し、「<変数:文字列>」は任意の文字列を表す変数部分を示す。変数部分の識別子として、例えば、「<変数:数値>」は任意の数値を表す変数部分を示し、「<変数:IP>」は任意のIP(Internet Protocol)アドレスを表す変数部分を示す。変数部分の識別子はこれらに限られず、正規表現や、取り得る値のリスト等の任意の方法により定義されてよい。また、形式は変数部分を含まずに定数部分によって構成されてよく、あるいは定数部分を含まずに変数部分によって構成されてよい。例えば、形式は変数部分を含まずに定数部分のみで構成されてよく、あるいは、定数部分を含まずに変数部分のみで構成されてもよい。
 例えば、形式判定部120は、図4の1行目のログである「2015/08/17 08:29:37 [SV008] JNW3258が開始しました。」を、図5のIDが「039」である形式に適合すると判定する。そして、形式判定部120は、判定された形式に基づいて該ログを処理し、タイムスタンプである「2015/08/17 08:29:37」、文字列である「SV008」及び数値である「3258」を変数値として決定する。
 図5において、形式は視認性のために文字列のリストで表されているが、任意のデータ形式(ファイル形式)で表されてよく、例えばバイナリデータ又はテキストデータでもよい。また、形式はテキストファイルとして形式記憶部171に記録されてもよい。また、形式はデータベースのテーブルとして形式記憶部171に記録されてよい。
 図6は、第1の実施形態に係る形式判定結果の例を示す図である。形式判定結果は、形式判定部120により、形式記憶部171に記録された形式ごとに分類された、分析対象ログ10に含まれる各ログである。図6が示す形式判定結果は、各ログと形式IDとを含む。図6が示す形式判定結果は、形式IDに関連付けられたログである。
 形式判定結果は、例えば、「ログ」が「2015/08/17 08:29:37 [SV008] JNW3258が開始しました。」、「形式ID」が「039」、である。
 すなわち、形式判定部120は、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する。
 異常分析部130は、形式判定部120により判定されたログ中の変数値に対して、モデル記憶部172に予め記録されているモデルに基づいて異常か否かを判定する。モデルとは、ログの正常な振る舞いの定義である。モデル記憶部172には、1つ以上のモデルが予め記録されている。モデルは、例えば、ある形式において数値の変数値が所定の範囲内であること、ある形式において文字列の変数値が登録済のものであることである。モデルはこれに限られず、任意の定義でよい。すなわち、異常分析部130は、判定された形式の変数部分の値に基づいて、ログが異常であるか否かを分析する。
 異常分析部130は、送られたログがモデル記憶部172中のいずれのモデルにも適合しない場合、該ログは異常であると判定し、異常ログとして次の性能情報取得部140に送る。一方、異常分析部130は、送られたログがモデル記憶部172中のいずれかのモデルに適合する場合、該ログは正常ログであると判定し、性能情報取得部140には送らない。
 性能情報取得部140は、異常分析部130から送られた異常ログに基づいて、その出力元であるシステムに含まれる構成要素の性能情報20を取得し、性能情報20を原因情報取得部150に送る。構成要素は、例えば、サーバ等の物理装置、仮想マシン等の仮想装置、各種プログラムである。性能情報20とは、構成要素に関する情報であり、構成要素の稼働中のシステムの処理状態である稼働状態を含む情報である。また、性能情報20は、構成要素名又は構成要素のリソース等を含んでもよい。性能情報20は、例えば、CPU(Central Processing Unit)使用率、物理メモリ使用率、プロセス情報、パケット数又は死活監視の情報である。性能情報20は、ログ分析システム100の外部から取得されてよい。すなわち、性能情報取得部140は、異常であると分析されたログを出力したシステムの構成要素の稼働状態を取得する。なお、性能情報取得部は、稼働状態取得部とも記される。
 性能情報取得部140は、例えば、異常ログの出力元のシステムから性能情報20を直接取得してよい。また、性能情報取得部140は、例えば、異常ログの出力元のシステムを監視する監視システムから性能情報20を取得してよい。また、性能情報20は、性能情報取得部140や監視システム等により一定期間取得されてよい。そして、一定期間取得された性能情報20は、ログ分析システム100内部に記憶されてよい。性能情報取得部140は、ログ分析システム100の内部に記憶された一定期間の性能情報20を読み出すことにより、取得してよい。
 原因情報取得部150は、性能情報取得部140により取得された性能情報20と状態記憶部173に予め記録されている状態情報を用いて、異常ログの出力元のシステムの構成要素の異常の原因に関する情報である原因情報を取得する。原因情報は、例えば、異常ログの出力元のシステムの構成要素の異常の原因を示す情報(異常原因)や異常ログの出力元のシステムにおいて異常が発生している構成要素の情報(異常原因に対応する構成要素)を含む。例えば、原因情報の一例は、ログを出力したシステムの構成要素の稼働状態に応じた異常原因である。具体的には、原因情報取得部150は、性能情報取得部140によって取得された1以上の性能情報20を状態記憶部173に予め記録されている状態情報に基づき、いずれの状態に該当するかを判定し、状態の判定結果を情報出力部160に送る。
 状態情報は、性能情報20に基づいて異常の原因を定義する情報である。
 図7は、状態記憶部173に記録される状態情報の例を示す図である。図7の(a)に示す状態情報は、性能異常種別、異常原因、及び閾値のリストを含む。性能異常種別は、閾値に対する性能情報20の状態を示す。異常原因は、性能情報20に対応する異常ログの出力元のシステムの状態を示す。閾値は、性能情報20から異常原因を判定するための判定値である。例えば、図7の(a)に示す状態情報の一例は、「性能異常種別」が「閾値未満」、「異常原因」が「稼働停止」、「閾値」が「CPU使用率1%」である。
 ここで、例えば、性能情報取得部140により取得された異常ログの出力元のシステムの性能情報20における稼働状態の「CPU使用率」が「0%」であるとする。この場合、性能情報20における稼働状態の「CPU使用率」は1%未満であるため、稼働状態は、図7の(a)に示した状態情報のうち、「閾値」が「CPU使用率1%」であり「性能異常種別」が「閾値未満」の状態情報に対応する。したがって、原因情報取得部150は、図7の(a)に示した「異常原因」である「稼働停止」を原因情報として情報出力部160に送る。すなわち、原因情報取得部150は、取得された稼働状態に応じた異常原因を取得する。原因情報取得部は、異常原因取得部とも記される。
 また、状態情報の他の例として、図7の(b)に示す状態情報は、形式IDと異常原因と閾値を含む。図7の(b)が示す状態情報は、形式記憶部171に記録された形式IDに関連付けられた、異常原因及び閾値を含む。図7の(b)に示す状態情報は、例えば、「形式ID」が「039」、「異常原因」が「稼働停止」、「閾値」が「CPU使用率0%」である。
 本実施形態に係るログ分析システム100が図7の(b)に示す状態情報を用いる場合、性能情報取得部140は、異常分析部130から入力された異常ログの形式IDを取得する。すなわち、性能情報取得部140は、異常であると分析されたログの形式を取得する。原因情報取得部150は、性能情報取得部140により取得された異常ログの出力元のシステムの性能情報20、異常ログの形式ID及び図7の(b)に示す形式IDごとの状態情報の閾値を用いて、形式IDごとの異常ログの出力元のシステムの異常原因を取得する。すなわち、原因情報取得部150は、取得された性能情報20に含まれる稼働状態とログの形式と異常ログの形式ごとの閾値と性能情報20とに応じて形式ごとの原因情報を取得する。情報出力部160は、原因情報取得部150により取得された形式IDごとの異常ログの出力元のシステムの異常原因と該異常原因に対応する構成要素とを出力する。すなわち、情報出力部160は、形式ごとの原因情報を出力する。
 これにより、図7の(b)の状態情報を用いるログ分析システム100は、形式の特性ごとの異常原因を取得及び出力するため、異常原因をより正確に取得できる。また、本実施形態のログ分析システム100は、形式IDごとに異常原因を取得するため、処理が早くなる。
 図7が示す状態情報の閾値は1種類の判定値であるが、これに限定されず複数種類の判定値でもよい。また、図7の(a)と図7の(b)に示す状態情報の閾値は期間に関連付けられた判定値でよい。期間に関連付けられた判定値である閾値は、例えば、判定値が所定の期間継続しているかどうかを判定するために使用される。期間に関連付けられた判定値である閾値は、例えば、「CPU使用率0% 3秒間」である。原因情報取得部150は、性能情報20と、状態情報の形式ID及び閾値とを用いることで、異常ログの出力元のシステムの異常原因の取得を簡易にできる。その理由としては、形式(例えば、形式ID)ごとに閾値が定まっているため、原因情報取得部150は、異常分析部130によって取得された異常ログの形式IDに対応する閾値で異常原因を取得するからである。この閾値を用いることにより、本実施形態のログ分析システム100は、異常原因をより正確に取得可能となる。
 また、図7において、状態情報は視認性のために文字列として表されているが、任意のデータ形式(ファイル形式)で表されてよく、例えばバイナリデータ又はテキストデータでよい。状態情報はここに示した具体的な定義に限られず、任意の方法により定義されてよい。また、状態情報は複数のファイル又はテーブルに別れて記録されてもよい。
 情報出力部160は、原因情報取得部150により取得された原因情報(状態の判定結果)の出力を行う。すなわち、情報出力部160は、取得された異常原因と該異常原因に対応する構成要素を出力する。本実施形態において、情報出力部160は表示装置30に原因情報を出力し、表示装置30はユーザに向けて原因情報を画像として表示する。表示装置30は、画像を表示するための液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイ等の表示部を備える。
 図8は、表示装置30を用いる原因情報の表示画面の例を示す図である。図8が示す画面Aは、異常ログの出力元のシステムにおける異常箇所(異常原因に対応する構成要素)と、原因情報取得部150により取得された異常原因とを表示する。図8が示す画面Aは、例えば、「異常箇所」が「SV008」、「異常原因」は「稼働停止」である。すなわち、図8が示す画面Aは、異常ログの出力元のシステム名と、当該システムの異常原因を対応付けて表示している。
 図8が示す画面は一例であり、原因情報取得部150により取得された原因情報をユーザに対して視認可能に表示できれば、いずれの表示方法を用いてもよい。また、ログ分析システム100(情報出力部160)による情報の出力方法は、ユーザに向けた画像表示に限られない。例えば、情報出力部160は出力すべき情報をデータとして出力し、ログ分析システム100は情報出力部160からのデータに対して記録処理、印刷処理、分析処理、統計処理等を行う手段を備えてもよい。また、当該記録処理等は、ログ分析システム100の外部装置(図示せず)に実行させてもよい。
 図8の画面を参照することによって、ユーザは分析対象ログ10中の各ログから取得された異常ログの出力元であるシステムの異常の原因を知ることができる。
 図2は、本実施形態に係るログ分析システム100の機器構成を示すブロック図である。ログ分析システム100は、CPU101と、通信インターフェース102と、記憶装置103と、メモリ104とを備える。ログ分析システム100は、表示装置30に通信インターフェース102を介して接続されてよい。また、ログ分析システム100は、表示装置30を含んでよい。ログ分析システム100は独立した装置でよい。また、ログ分析システム100は、他の装置と一体に構成されてよい。
 通信インターフェース102は、データの送受信を行う通信部であり、有線通信及び無線通信の少なくとも一方の通信方式を実行可能に構成される。通信インターフェース102は、該通信方式に必要なプロセッサ、電気回路、アンテナ、接続端子等を含む。通信インターフェース102は、CPU101からの信号に従って、該通信方式を用いてネットワークに接続され、通信を行う。通信インターフェース102は、例えば分析対象ログ10を外部から受信する。
 記憶装置103は、ログ分析システム100が実行するプログラムや、プログラムによる処理結果のデータ等を記憶する。記憶装置103は、読み取り専用のROM(Read Only Memory)や、読み書き可能のハードディスクドライブ又はフラッシュメモリ等を含む。また、記憶装置103は、CD(compact disc)-ROM等のコンピュータ読取可能な可搬記録媒体を含んでもよい。メモリ104は、CPU101が処理中のデータや記憶装置103から読み出されたプログラム及びデータを一時的に記憶するRAM(Random Access Memory)等を含む。
 CPU101は、処理に用いる一時的なデータをメモリ104に一時的に記録し、記憶装置103に記録されたプログラムを読み出し、該プログラムに従って該一時的なデータに対して種々の演算、制御、判別等の処理動作を実行する処理部としてのプロセッサである。また、CPU101は、記憶装置103に処理結果のデータを記録し、また通信インターフェース102を介して処理結果のデータを外部に送信する。
 本実施形態においてCPU101は、記憶装置103に記録されたプログラムを実行することによって、図1の入力部110、形式判定部120、異常分析部130、性能情報取得部140、原因情報取得部150及び情報出力部160として機能する。また、本実施形態において記憶装置103は、図1の形式記憶部171、モデル記憶部172及び状態記憶部173として機能する。
 ログ分析システム100は、図2に示す具体的な構成に限定されない。ログ分析システム100は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されていてもよい。ログ分析システム100に含まれる各部は、それぞれ電気回路構成により実現されていてもよい。ここで、電気回路構成とは、単一のデバイス、複数のデバイス、チップセット又はクラウドを概念的に含む文言である。
 また、ログ分析システム100の少なくとも一部がSaaS(Software as a Service)形式で提供されてよい。すなわち、ログ分析システム100を実現するための機能の少なくとも一部が、ネットワーク経由で実行されるソフトウェアによって実行されてよい。
 図3を用いて、本実施形態の動作について説明する。図3は、第1の実施形態に係るログ分析システム100の動作例を示すフローチャートである。
 入力部110は、分析対象ログ10を取得する(ステップS101)。形式判定部120は、ステップS101で入力された分析対象ログ10に含まれる各ログを判定対象として、形式記憶部171に記録されたいずれかの形式に適合するか否かを判定する(ステップS102)。
 ステップS102において判定対象のログが形式記憶部171に記録されたいずれの形式にも適合しない場合には(ステップS103のNO)、ステップS105へ進む。
 ステップS102において判定対象のログが形式記憶部171に記録されたいずれかの形式に適合した場合には(ステップS103のYES)、形式判定部120は、該形式を用いて判定対象のログを変数部分と定数部分とに分離し、判定対象のログ中の変数値を記録する(ステップS104)。また、形式判定部120は、分析対象ログ10に含まれる各ログを形式ごとに分類する。
 異常分析部130は、ステップS104において取得された変数値に基づいて、判定対象のログがモデル記憶部172に記録されたいずれかのモデルに適合するか否かを判定する(ステップS105)。異常分析部130は、判定対象のログがモデル記憶部172に記録されたいずれのモデルにも適合しない場合には、判定対象のログは異常ログであると判定する。一方、異常分析部130は、判定対象のログがモデル記憶部172に記録されたいずれかのモデルに適合する場合には、判定対象のログは正常ログであると判定する。
 また、異常分析部130は、ステップS103でNOの場合、形式に適合しないログを未知の形式を持つ異常ログ(未知ログ)であると判定する。
 分析対象ログ10中の全てのログに対して分析が終了していない場合には(ステップS106のNO)、分析対象ログ10の次の1つのログを判定対象としてステップS102~S106を繰り返す。
 分析対象ログ10中の全てのログに対して分析が終了した場合には(ステップS106のYES)、分析対象ログ10において、異常分析部130により判定された異常ログの出力元であるシステムの性能情報20を取得する(ステップS107)。
 原因情報取得部150は、ステップS107において取得された性能情報20に基づき、異常ログの出力元のシステムの原因情報である原因情報を取得する(ステップS108)。情報出力部160は、ステップS108で取得された原因情報を表示装置30に出力し(ステップS109)、ユーザに向けて表示させる。
 以上のように、本実施形態に係るログ分析システム100は、分析対象ログ10中の各ログから異常ログを分析し、該異常ログの出力元であるシステムの性能情報20に基づいて原因情報を取得し、該原因情報を出力する。ログ分析システム100は、分析対象ログ10を出力するシステムに異常が発生すると、該システムの異常の原因を表示できる。これにより、ユーザに異常ログに関する異常の原因を提示できる。
 なお、モデル記憶部172に予め記録されているモデル(以降、「異常判定の基準」と記載)は、設定された時期から時間が経過したり、システムを構成する機器が変更されたりすると、実態に合わなくなることがある。そのため、ログ分析システム100は、過去に蓄積したログに基づいて異常判定の基準を変更してよい。例えば、ログ分析システム100は、所定の期間内に蓄積したログにおける各形式の出現比率の平均値を変更後の異常判定の基準として用いてよい。あるいは、ログ分析システム100は、ユーザから入力された値を変更後の異常判定の基準として用いてよい。異常判定の基準の更新タイミングとして、ログ分析システム100は、例えば異常判定の基準が前回設定された日から所定の時間が経過した場合に、変更後の異常判定の基準を設定してよい。また、ログ分析システム100は、分析対象ログ10を出力するシステムを構成する機器がリプレースされる際等に機器の変更を検知した場合に、変更後の異常判定の基準を設定してもよい。また、ログ分析システム100は、ユーザの指示を契機として、変更後の異常判定の基準を設定してもよい。
 <第2の実施形態>
 以下、第2の実施形態について、図面を参照して詳細に説明する。
 第1の実施形態におけるログ分析システム100は異常ログの出力元のシステムの性能情報20に基づいて状態を判定するが、本実施形態におけるログ分析システム200は性能情報20に加えて、異常ログの出力元のシステムの接続情報40に基づいて状態の判定を行う。
 図9は、本実施形態に係るログ分析システム200の構成を示すブロック図である。本実施形態におけるログ分析システム200は、処理部として、入力部110、形式判定部120、異常分析部130、性能情報取得部240、原因情報取得部150、及び情報出力部160を備える。また、ログ分析システム200は、記憶部として、形式記憶部171、モデル記憶部172、及び状態記憶部173を備える。すなわち、本実施形態に係るログ分析システム200は、第1の実施形態に係るログ分析システム100における性能情報取得部140の代わりに、性能情報取得部240を備える。
 性能情報取得部240は、異常分析部130から入力された異常ログの出力元であるシステムの性能情報20に加えて、該システムの接続情報40を取得し、性能情報20及び接続情報40を原因情報取得部150に送る。すなわち、性能情報取得部240は、システムの性能情報20とシステムの各構成要素の関係性を示す接続情報40を取得する。接続情報40は、分析対象ログ10を出力するシステムの構成要素間の依存関係を示す情報である。性能情報取得部は、稼働状態取得部とも記される。
 接続情報40は、例えば、システムの構成要素間のネットワークによる接続関係、仮想装置やプログラムの主従関係である。また、接続情報40は、ログ分析システム200の外部から取得されてよい。接続情報40は、ログ分析システム200の内部に予め記録されたものを読み出すことにより取得されてよい。
 また、性能情報取得部240は、異常ログの出力元であるシステムの性能情報20と接続情報40を取得する際に、例えば、該異常ログの内容に基づき取得してもよい。具体的には、第1の実施形態の図4が示す「2015/08/17 08:32:30 [SV004] SV003へのリクエストがタイムアウトしました」というログの場合、性能情報取得部240は、SV004だけでなく、SV003の性能情報20及び接続情報40を取得してもよい。また、性能情報取得部240は、異常ログの出力元であるシステムの性能情報20と接続情報40を取得する際に、例えば、該システム(構成要素)に接続されている構成要素の性能情報20を取得してもよい。具体的には、本実施形態の図10が示すように、性能情報取得部240は、例えば、異常ログの出力元であるシステム(例えば、Server008)の接続関係にある構成要素(例えば、Server005)の性能情報20、あるいは、接続関係にある全ての構成要素(例えば、Server001からServer007)の性能情報20を取得してもよい。
 原因情報取得部150は、性能情報取得部240により取得された性能情報20及び接続情報40を用いて、異常ログの出力元のシステムの原因情報である原因情報と該原因情報に関連付けられた接続情報を取得する。すなわち、原因情報取得部150は、取得された性能情報20に含まれる稼働状態と接続情報40とに応じて原因情報と該原因情報に関連付けられた接続情報を取得する。具体的には、原因情報取得部150は、性能情報取得部240によって取得された1以上の性能情報20及び接続情報40を状態記憶部173に予め記録されている状態情報に基づき、いずれの状態に該当するかを判定し、状態の判定結果を情報出力部160に入力する。ここで、状態の判定結果は、異常箇所と異常箇所の原因を含む原因情報に加えて、接続情報40を含む。
 また、原因情報取得部150は、例えば、性能情報取得部240が該異常ログの内容に基づき取得した性能情報20及び接続情報40を用いて、原因情報と該原因情報に関連付けられた接続情報を取得してもよい。また、原因情報取得部150は、例えば、性能情報取得部240により取得された、異常ログの出力元であるシステム(構成要素)に接続されている構成要素の性能情報20及び接続情報40を用いて、原因情報と該原因情報に関連付けられた接続情報を取得してもよい。これにより、ユーザは、異常ログの出力元であるシステム(異常箇所)の異常原因を確認できるだけでなく、異常箇所に関連する構成要素の状態も確認できる。
 図10は、第2の実施形態における原因情報及び接続情報40の表示画面の例を示す図である。図10が示す表示装置30の画面Bは、原因情報取得部150により取得された原因情報B1と、原因情報取得部150により取得された原因情報に関連付けられた接続情報を表す構成表示B2を表示する。構成表示B2は、例えば、性能情報取得部240により取得された性能情報20及び接続情報40に基づいて、各構成要素及びそれらの間の関係を示す。
具体的には、構成表示B2は、各構成要素を示す記号(ここでは丸)と、構成要素間を接続する線で示され、例えば、「Server001」と「Server002」が接続されていることを表している。構成要素を示す記号の近傍には、該構成要素を示す文字列(構成要素名)が表示される。また、構成表示B2上には、異常箇所が二重丸B3で強調される。これにより、ユーザは異常のある構成要素を容易に知ることができる。
 図10が示す原因情報B1は、例えば、形式ID,異常箇所及び原因のリストを含む。
図10が示す原因情報B1、例えば、「形式ID」が「039」、「異常箇所」が「SV008」、「異常原因」は「稼働停止」である。
 異常箇所を強調するために、異常箇所を示す記号又は文字列の種類、色、大きさ等を変化させてもよい。あるいは、異常箇所を点滅させてもよい。原因情報B1と構成表示B2との関係を明示するために、原因情報B1中の異常箇所の文字列の色と、構成表示B2中の異常箇所の文字列の色とを同一にしてもよい。
 図11は、図10が示した表示画面にさらに性能情報20を表示する表示画面の例を示す図である。図11が示す画面Bは、図10に示した画面Bに加えて、構成要素の性能情報20を表す性能情報B4を表示してもよい。例えば、図11が示す性能情報B4はSV008の性能情報20(例えば、「CPU使用率」が「30%」、「物理メモリ」が「70%」)である。
 図11に示した性能情報B4は、ユーザが構成表示B2上の二重丸B3に対して外部からの操作(例えば、マウス、タッチパネル等の入力装置を用いた操作)を行うことによって表示される。すなわち、情報出力部160は、外部からの入力操作に応じて、取得された性能情報20を出力する。
 なお、図8に示した画面Aにおいても、同様の処理が行われてもよい。例えば、ユーザが構成表示A上のSV008に対して外部からの操作を行うことによって、画面Aは、SV008の性能情報20を表示する。
 ログ分析システム200(情報出力部160)は、ユーザの操作により選択された原因情報又は構成表示(接続情報40)を表示装置30上で画像表示するだけでなく、原因情報又は構成表示を記録、印刷等の任意の方法によって出力してもよい。
 本実施形態に係るログ分析システム200は、異常ログの出力元であるシステムの接続情報40を備えるため、性能情報20と接続情報40に基づいて原因情報と該原因情報に関連付けられた接続情報を取得し、該原因情報と該原因情報に関連付けられた接続情報を出力できる。本実施形態によれば、異常ログの出力元のシステムの異常箇所と該異常箇所の原因を提示でき、構成要素間の関係性及び異常箇所を視認可能な状態でユーザに提供できる。
 このように、本実施形態においては、第1の実施形態における状態の判定に代えて、形式の出現比率に基づいて各時間区間における異常の発生を判定し、出力する。本実施形態によれば、直接的に異常の発生を示す情報をユーザに提供することができる。
 <第3の実施形態>
 以下、第3の実施形態について、図面を参照して詳細に説明する。
 第2の実施形態におけるログ分析システム200は異常ログの出力元のシステムの性能情報20及び接続情報40に基づいて状態を判定するが、本実施形態におけるログ分析システム300は性能情報20及び接続情報40とユーザが対応すべき順位を示す優先順位を含む状態情報に基づいて状態の判定を行う。
 図12は、本実施形態に係るログ分析システム300の構成を示すブロック図である。本実施形態におけるログ分析システム300は、処理部として、入力部110、形式判定部120、異常分析部130、性能情報取得部240、原因情報取得部150、及び情報出力部160を備える。また、ログ分析システム300は、記憶部として、形式記憶部171、モデル記憶部172、及び状態記憶部373を備える。すなわち、本実施形態に係るログ分析システム300は、第2の実施形態に係るログ分析システム200における状態記憶部173の代わりに、状態記憶部373を備える。
 図13は、状態記憶部373に記録される状態情報の例を示す図である。図13が示す状態情報は、優先順位、異常原因、及び閾値のリストを含む。
 図13が示す状態情報は、例えば、「優先順位」が「1」、「異常原因」が「稼働停止」、「閾値」が「CPU使用率0%」である。原因情報取得部150は、性能情報取得部240により取得された異常ログの出力元のシステムの性能情報20及び接続情報40と、図13が示す状態情報の優先順位、異常原因及び閾値とを用いることで、異常ログの出力元のシステムの異常原因と該異常原因への優先順位を取得できる。具体的には、原因情報取得部150は、性能情報取得部240によって取得された1以上の性能情報20及び接続情報40を状態記憶部373に予め記録されている、優先順位を含む状態情報に基づき、いずれの状態に該当するかを判定し、状態の判定結果を情報出力部160に送る。すなわち、原因情報取得部150は、取得された性能情報20が示す稼働状態に応じて、稼働状態ごとに重み付けされた、原因情報を取得する。情報出力部160は、取得された稼働状態ごとに重み付けされた、原因情報を表示装置30に出力する。また、ユーザはログ分析システム300を用いることで、異常ログの出力元のシステムの異常箇所、該異常箇所の原因及び優先順位を確認でき、重大な異常から優先的に対応することができる。
 図13において、状態情報は視認性のために文字列及び数値のリストで表されているが、任意のデータ形式(ファイル形式)で表されてよく、例えばバイナリデータ又はテキストデータでよい。
 図14は、表示装置30が原因情報及び接続情報40の表示画面の例を示す図である。
図14が示す画面Cは、原因情報取得部150により取得された優先順位を含む原因情報(状態の判定結果)C1を表示する。図14が示す原因情報C1は、例えば、形式ID,優先順位、異常箇所及び原因のリストを含む。原因情報C1は、例えば、優先順位の高いものから順に表示されてよい。これにより、原因情報C1の中で最上位の異常箇所である「SV008」が、優先度の高い(重大な)異常であることを示すことができる。上位の異常箇所や原因を強調するために、変数値の文字種、色、大きさ等を変化させてもよい。
 また、図14が示す画面Cは、性能情報取得部240により取得された性能情報20及び接続情報40に基づいて、各構成要素及びそれらの間の関係を示す構成表示C2を表示する。構成表示C2には、各構成要素を示す記号(ここでは丸)と、構成要素間を接続する線とが示される。構成要素を示す記号の近傍には、該構成要素を示す文字列(構成要素名)が表示される。構成表示C2上には、優先順位の高い構成要素(異常箇所)が三重丸C3で強調され、その他の異常箇所が二重丸C4で強調される。これにより、ユーザは重大な異常のある構成要素を容易に知ることができる。上位の異常箇所を強調するために、異常箇所を示す記号又は文字列の種類、色、大きさ等を変化させてもよい。あるいは、上位の異常箇所を点滅させてもよい。原因情報C1と構成表示C2との関係を明示するために、原因情報C1中の異常箇所の文字列の色と、構成表示C2中の異常箇所の文字列の色とを同一にしてもよい。
 本実施形態に係るログ分析システム300は、優先順位を含む状態情報を備えるため、優先順位を含む状態情報に基づいて優先順位を含む原因情報を取得し、該原因情報を出力できる。本実施形態によれば、異常ログの出力元のシステムの異常箇所と該異常箇所の原因を提示でき、重大な異常から優先的に対応するための優先順位をユーザに提供できる。
 <第4の実施形態>
 以下、第4の実施形態について、図面を参照して詳細に説明する。
 本実施形態では形式、モデル及び状態を学習するための学習部を備える。図15は、第4の実施形態に係るログ分析システム400のブロック図である。ログ分析システム400は、図1の構成に加えて、形式学習部481、モデル学習部482及び状態学習部483を備える。
 形式学習部481は、形式判定部120が形式の判定を行う際、判定対象のログが形式記憶部171に記録されているいずれの形式にも適合しない場合に、新たな形式を作成して形式記憶部171に記録する。
 形式学習部481が形式を学習するための第1の方法として、形式学習部481は、形式が未知である複数のログを蓄積し、それらに対して統計的に変化する変数部分と変化しない定数部分とを分離することによって、新たな形式として定義することができる。形式学習部481が形式を学習するための第2の方法として、形式学習部481は、既知の変数値のリストを読み込み、形式が未知であるログの中で既知の変数値と一致する又は類似する部分を変数部分と判定し、それ以外の部分を定数部分と判定することによって、新たな形式を定義することができる。既知の変数値として、値そのものを用いてよく、あるいは正規表現のようなパターンを用いてよい。形式の学習方法はこれらに限られず、入力されたログに対して新たな形式を定義することが可能な任意の学習アルゴリズムを用いてよい。
 モデル学習部482は、異常分析部130がモデルの判定を行う際、判定対象のログがモデル記憶部172に記録されているいずれのモデルにも適合しない場合に、新たなモデルを作成してモデル記憶部172に記録する。
 通常、異常分析部130はモデル記憶部172に予め記録されているいずれのモデルにも適合しないログを異常ログと判定するが、モデルが未知であるログであっても正常ログである場合がある。この場合に、ユーザは入力装置を介してモデル記憶部172のモデルに適合しないログが正常ログであるという指示を入力すると、モデル学習部482は当該ログの形式及び変数値に基づいて新たなモデルを作成し、モデル記憶部172に記録する。モデルの学習方法はこれに限られず、入力されたログから新たにモデルを定義することが可能な任意の学習アルゴリズムを用いてよい。
 状態学習部483は、原因情報取得部150が状態の判定を行う際、判定対象の性能情報20が状態記憶部173に記録されているいずれの状態にも該当(類似)しない場合に、該性能情報20に係る情報を新たな状態として状態記憶部173に記録する。具体的には、状態学習部483は、新たに生成した異常原因及び閾値を状態記憶部173に記録する。異常原因及び閾値は、所定の規則(日時等)に基づいて自動的に生成されてもよく、あるいはキーボード等の入力装置を介してユーザによる入力を受け付けてもよい。
 また、状態学習部483は、異常原因及び閾値に加えて、性能異常種別や形式ID等も関連付けて状態記憶部173に記録してよい。
 本実施形態に係るログ分析システム400は、形式、モデル及び状態を学習するための学習部を備えるため、未知の形式、モデル又は状態のログから新たに形式、モデル又は状態を生成し、記録することができる。
 <その他の実施形態>
 図16は、上述の第1-第4の実施形態に係るログ分析システムの概略構成を示すブロック図である。図16には、ログ分析システム500が異常ログを出力したシステムの異常原因と該異常原因に対応する構成要素の出力を行う装置として機能するための構成例が示されている。ログ分析システム500は、変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する形式判定部120と、判定された形式の変数部分の値に基づいて、ログが異常であるか否かを分析する異常分析部130と、異常であると分析されたログを出力したシステムの構成要素の稼働状態を取得する性能情報取得部540と、取得された稼働状態に応じた異常原因を取得する原因情報取得部150と、取得された原因情報を出力する情報出力部160を備える。性能情報取得部540は、性能情報取得部140又は性能情報取得部240と同様の機能を有する。また、性能情報取得部は、異常原因取得部とも記され、原因情報取得部は、異常原因取得部とも記される。
 本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。
 上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラム(より具体的には、図3に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating system)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2015年12月25日に出願された日本出願特願2015-254540を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10  分析対象ログ
 20  性能情報
 30  表示装置
 40  接続情報
 100、200、300、400、500  ログ分析システム
 101  CPU
 102  通信インターフェース
 103  記憶装置
 104  メモリ
 110  入力部
 120  形式判定部
 130  異常分析部
 140、240、540  性能情報取得部
 150  原因情報取得部
 160 情報出力部
 171  形式記憶部
 172  モデル記憶部
 173、373  状態記憶部
 481  形式学習部
 482  モデル学習部
 483  状態学習部

Claims (8)

  1.  変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する形式判定手段と、
     判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析する異常分析手段と、
     異常であると分析された前記ログを出力した構成要素の稼働状態を取得する稼働状態取得手段と、
     取得された前記稼働状態に応じた異常原因を取得する異常原因取得手段と、
     取得された前記異常原因と該異常原因に対応する構成要素を出力する情報出力手段
    を備えるログ分析システム。
  2.  前記稼働状態取得手段は、前記異常であると分析された前記ログの形式を取得し、
     前記異常原因取得手段は、取得された前記稼働状態と前記ログの前記形式とに応じて形式ごとの異常原因を取得し、
     前記情報出力手段は、前記形式ごとの前記異常原因と該異常原因に対応する構成要素を出力する請求項1に記載のログ分析システム。
  3.  前記稼働状態取得手段は、前記システムの各構成要素の関係性を示す接続情報を取得し、 前記異常原因取得手段は、取得された前記稼働状態と前記接続情報とに応じて前記異常原因と該異常原因に対応する構成要素と該異常原因及び構成要素に関連付けられた接続情報とを取得し、
     前記情報出力手段は、前記異常原因と該異常原因に対応する構成要素と該異常原因及び構成要素に関連付けられた前記接続情報とを出力する、
    請求項1又は2に記載のログ分析システム。
  4.  前記異常原因取得手段は、取得された前記稼働状態に応じて、稼働状態ごとに重み付けされた、異常原因を取得し、
     前記情報出力手段は、前記稼働状態ごとに重み付けされた、異常原因と該異常原因に対応する構成要素を出力する、
    請求項1乃至3のいずれか1項に記載のログ分析システム。
  5.  前記情報出力手段は、外部からの入力操作に応じて、取得された前記稼働状態を出力する、
    請求項1乃至4のいずれか1項に記載のログ分析システム。
  6.  前記情報出力手段は、前記異常原因と該異常原因に対応する構成要素を表示装置に出力して表示させる、
    請求項1乃至5のいずれか1項に記載のログ分析システム。
  7.  変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定し、
     判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析し、
     異常であると分析された前記ログを出力したシステムの構成要素の稼働状態を取得し、
     取得された前記稼働状態に応じた異常原因を取得し、
     取得された前記異常原因と該異常原因に対応する構成要素を出力する、
    ログ分析方法。
  8.  コンピュータに、
     変数部分及び定数部分の構成により定められる複数の形式のうち、システムの構成要素から出力されるログがいずれの形式であるかを判定する処理と、
     判定された前記形式の前記変数部分の値に基づいて、前記ログが異常であるか否かを分析する処理と、
     異常であると分析された前記ログを出力したシステムの構成要素の稼働状態を取得する処理と、
     取得された前記稼働状態に応じた異常原因を取得する処理と、
     取得された前記異常原因と該異常原因に対応する構成要素を出力する処理と、
     を実行させるプログラムを格納した記録媒体。
PCT/JP2016/087732 2015-12-25 2016-12-19 ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体 WO2017110720A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017558107A JP6787340B2 (ja) 2015-12-25 2016-12-19 ログ分析システム、ログ分析方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015254540 2015-12-25
JP2015-254540 2015-12-25

Publications (1)

Publication Number Publication Date
WO2017110720A1 true WO2017110720A1 (ja) 2017-06-29

Family

ID=59090292

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/087732 WO2017110720A1 (ja) 2015-12-25 2016-12-19 ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体

Country Status (2)

Country Link
JP (1) JP6787340B2 (ja)
WO (1) WO2017110720A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231802A (zh) * 2018-03-05 2019-09-13 日本电产株式会社 机器人控制装置、记录的生成方法以及存储介质
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111597093A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 一种异常处理方法、装置及其设备
CN111651595A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种异常日志处理方法及装置
JP2021026412A (ja) * 2019-08-01 2021-02-22 日本電気株式会社 ログ分析装置、方法及びプログラム
CN112948154A (zh) * 2019-12-11 2021-06-11 中移(苏州)软件技术有限公司 一种系统异常诊断方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203911A (ja) * 2010-03-25 2011-10-13 Hitachi Information Systems Ltd 障害情報収集システムと方法およびプログラム
WO2013140608A1 (ja) * 2012-03-23 2013-09-26 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム
WO2015146086A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 ログ分析システム、障害原因分析システム、ログ分析方法、および、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203911A (ja) * 2010-03-25 2011-10-13 Hitachi Information Systems Ltd 障害情報収集システムと方法およびプログラム
WO2013140608A1 (ja) * 2012-03-23 2013-09-26 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム
WO2015146086A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 ログ分析システム、障害原因分析システム、ログ分析方法、および、記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MATSURA: "System Down sono Toki Douru Part3 un'yo Kanshi Tool no Saishin Kino Tasu no Error Karan"kopon" o Tokutei Know-how Joho o Chikuseki shite Kaiseki hien", NIKKEI SYSTEMS, no. 176, 26 November 2007 (2007-11-26), pages 34 - 35 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231802A (zh) * 2018-03-05 2019-09-13 日本电产株式会社 机器人控制装置、记录的生成方法以及存储介质
CN111597093A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 一种异常处理方法、装置及其设备
CN111597093B (zh) * 2019-02-20 2024-04-16 阿里巴巴集团控股有限公司 一种异常处理方法、装置及其设备
JP2021026412A (ja) * 2019-08-01 2021-02-22 日本電気株式会社 ログ分析装置、方法及びプログラム
JP7415363B2 (ja) 2019-08-01 2024-01-17 日本電気株式会社 ログ分析装置、方法及びプログラム
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111177095B (zh) * 2019-12-10 2023-10-27 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN112948154A (zh) * 2019-12-11 2021-06-11 中移(苏州)软件技术有限公司 一种系统异常诊断方法、装置及存储介质
CN111651595A (zh) * 2020-05-25 2020-09-11 泰康保险集团股份有限公司 一种异常日志处理方法及装置

Also Published As

Publication number Publication date
JP6787340B2 (ja) 2020-11-18
JPWO2017110720A1 (ja) 2018-10-18

Similar Documents

Publication Publication Date Title
WO2017110720A1 (ja) ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
WO2017104119A1 (ja) ログ分析システム、方法およびプログラム
JP6708219B2 (ja) ログ分析システム、方法およびプログラム
JP5913145B2 (ja) ログ可視化装置及び方法及びプログラム
WO2017094262A1 (ja) ログ分析システム、方法およびプログラム
US7617086B2 (en) Monitoring simulating device, method, and program
WO2018122890A1 (ja) ログ分析方法、システムおよびプログラム
JPWO2018066661A1 (ja) ログ分析方法、システムおよび記録媒体
WO2018069950A1 (ja) ログ分析方法、システムおよびプログラム
US11757708B2 (en) Anomaly detection device, anomaly detection method, and anomaly detection program
JP6741217B2 (ja) ログ分析システム、方法およびプログラム
JP4928848B2 (ja) 計算機システム統合管理環境におけるメッセージ変換装置
CN111143325A (zh) 一种数据采集的监测方法、监测装置及可读存储介质
JP6798504B2 (ja) ログ分析システム、ログ分析方法及びプログラム
JP6881434B2 (ja) ログ分析装置、ログ分析方法及びプログラム
US20200233734A1 (en) Wait-and-see candidate identification apparatus, wait-and-see candidate identification method, and computer readable medium
US10748162B2 (en) Information processing device, information processing system, and information processing method
JP6965748B2 (ja) ログ分析システム、方法およびプログラム
CN108268192B (zh) 列表操作方法和装置
JP2015185968A (ja) 障害メッセージ集約装置および障害メッセージ集約プログラム
WO2017081866A1 (ja) ログ分析システム、方法およびプログラム
JP6218680B2 (ja) ネットワーク解析支援装置、ネットワーク解析支援方法、および、プログラム
JP2016162282A (ja) 障害原因特定作業抽出装置、障害原因特定作業抽出方法及び障害原因特定作業抽出プログラム
JP2016024585A (ja) 仮想環境管理システム及び仮想環境管理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16878609

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017558107

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16878609

Country of ref document: EP

Kind code of ref document: A1