WO2018110327A1 - 異常識別システム、方法及び記録媒体 - Google Patents

異常識別システム、方法及び記録媒体 Download PDF

Info

Publication number
WO2018110327A1
WO2018110327A1 PCT/JP2017/043325 JP2017043325W WO2018110327A1 WO 2018110327 A1 WO2018110327 A1 WO 2018110327A1 JP 2017043325 W JP2017043325 W JP 2017043325W WO 2018110327 A1 WO2018110327 A1 WO 2018110327A1
Authority
WO
WIPO (PCT)
Prior art keywords
partial
log
logs
model
minority
Prior art date
Application number
PCT/JP2017/043325
Other languages
English (en)
French (fr)
Inventor
育大 網代
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US16/463,876 priority Critical patent/US20190294523A1/en
Priority to JP2018556575A priority patent/JP6988827B2/ja
Publication of WO2018110327A1 publication Critical patent/WO2018110327A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Definitions

  • the present invention relates to an abnormality identification system, method, and recording medium for identifying an abnormality included in data output from a system.
  • Patent Document 1 describes a method for detecting an abnormality in a facility or the like using a multidimensional time series sensor signal output from a sensor attached to the facility or the like.
  • learning data is created by excluding sensor signals in a certain section from sensor signals in a predetermined section among multidimensional time-series sensor signals, and abnormalities are generated from the created learning data.
  • a determination threshold value is calculated.
  • a normal model is created using learning data.
  • a feature vector is extracted as an observation vector from the multidimensional time series sensor signal.
  • an abnormal measure of the observation vector is calculated using the extracted observation vector and the created normal model.
  • the abnormality measure of the equipment or the like is detected by comparing the abnormality measure of the observation vector thus calculated with the abnormality determination threshold value.
  • Patent Document 1 calculates an abnormal measure of an observation vector, it is necessary to define an abnormal measure that represents the degree of this abnormality, and there is a problem that the burden on the user is large.
  • Patent Literature 1 creates learning data for each section in the learning period for creating learning data from the remaining sensor signals excluding the sensor signal in the section, and also detects the sensor signal in the section. It is necessary to calculate the anomaly measure of the feature vector extracted from. For this reason, the method described in Patent Document 1 also has a problem that the amount of calculation is large.
  • An object of the present invention is to provide an abnormality identification system, method, and recording medium that can identify an abnormality in a target system with a small amount of calculation while reducing the burden on the user.
  • a log extraction unit that extracts three or more partial logs from a target log according to a predetermined condition, and a model is generated from the plurality of partial logs extracted by the log extraction unit
  • a modeling unit a correspondence acquisition unit that acquires a correspondence between the model generated by the modeling unit and the partial log that contributed to the generation of the model, and the correspondence acquired by the correspondence acquisition unit
  • the plurality of partial logs are classified into two partial log groups according to the presence or absence of contribution to the generation of the model, and the minority group including the smaller partial logs of the two partial log groups.
  • Abnormality identification system is provided, characterized in that it comprises and.
  • three or more partial logs are extracted from a target log according to a predetermined condition, a model is generated from the plurality of partial logs, and the model and the model are generated.
  • a correspondence relationship with the partial log is obtained, and based on the correspondence relationship, the plurality of partial logs are classified into two partial log groups according to presence or absence of contribution to generation of the model, and the two partial logs
  • a minority partial log group including a smaller number of the partial logs is determined from the group, and based on the minority partial log group, the presence or absence of a contribution to the generation of the model among the plurality of partial logs
  • an abnormality identification method characterized by determining a partial log having the highest probability.
  • a computer extracts three or more partial logs from a target log according to a predetermined condition, generates a model from the plurality of partial logs, Obtaining a correspondence relationship with the partial log that contributed to generation, and classifying the plurality of partial logs into two partial log groups according to presence or absence of contribution to the generation of the model based on the correspondence relationship; Of the two partial log groups, a minority partial log group including a smaller number of the partial logs is determined, and based on the minority partial log group, among the plurality of partial logs, contribution to generation of the model
  • a recording medium on which is recorded a program characterized in that determination of a partial log having the highest specificity regarding the presence or absence of the recording is executed.
  • the present invention it is possible to identify an abnormality in the target system with a small amount of calculation while reducing the burden on the user.
  • FIG. 1 is a schematic diagram showing an abnormality identification system and a target system according to the present embodiment.
  • one or a plurality of target systems 2 that generate and output logs to be processed by the abnormality identification system 1 can communicate via a network 3. It is connected to the.
  • the network 3 is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network), but the type is not limited.
  • the network 3 may be a wired network or a wireless network.
  • the target system 2 is not limited to a specific system, but is, for example, an IT (Information Technology) system.
  • the IT system includes devices such as servers, client terminals, network devices, and other information devices, and software such as system software and application software that operates on the devices.
  • the target system 2 generates a log that records the contents of events that occur during operation, the status of operation, and the like.
  • the log generated by the target system 2 is input to the abnormality identification system 1 according to the present embodiment and processed.
  • the abnormality identification system 1 according to the present embodiment can target any system, device, or apparatus that generates a log, and can process a log generated by a monitoring target.
  • the log generated in the target system 2 is input to the abnormality identification system 1 according to the present embodiment via the network 3.
  • the mode of inputting the log from the target system 2 to the abnormality identification system 1 is not particularly limited, and can be appropriately selected according to the configuration of the target system 2 and the like.
  • the notification agent in the target system 2 can input the log to the abnormality identification system 1 by transmitting the log generated in the target system 2 to the abnormality identification system 1.
  • the protocol for transmitting the log is not particularly limited, and can be appropriately selected according to the configuration of the system that generates the log. For example, use the syslog protocol, FTP (File Transfer Protocol), FTPS (File Transfer Protocol over TLS (Transport Layer Security) / SSL (Secure Sockets Layer)), and FTP (SSH (Secure Shell) File Transfer Protocol). Can do.
  • the target system 2 can input the log to the abnormality identification system 1 by sharing the generated log with the abnormality identification system 1 by file sharing.
  • File sharing for sharing the log is not particularly limited, and can be appropriately selected according to the configuration of the system that generates the log.
  • file sharing by SMB (Server Message Block) or an extended CIFS (Common Internet File System) can be used as file sharing.
  • SMB Server Message Block
  • CIFS Common Internet File System
  • the abnormality identification system 1 is not necessarily connected to the target system 2 via the network 3 so as to be communicable.
  • the abnormality identification system 1 may be connected to a log collection system (not shown) that collects logs from the target system 2 via the network 3.
  • the log generated by the target system 2 is once collected by the log collection system and input to the abnormality identification system 1 from the log collection system via the network 3.
  • the abnormality identification system 1 according to the present embodiment can also acquire a log from a recording medium in which a log generated by the target system 2 is recorded. In this case, the target system 2 does not need to be connected to the abnormality identification system 1 via the network.
  • FIG. 2 is a block diagram showing a functional configuration of the abnormality identification system according to the present embodiment.
  • FIG. 3 is a block diagram illustrating an example of a hardware configuration of the abnormality identification system according to the present embodiment.
  • the abnormality identification system 1 includes a processing unit 10 that executes various processes for identifying an abnormality in the target system 2.
  • the abnormality identification system 1 includes a storage unit 20 that stores a log generated by the target system 2.
  • the abnormality identification system 1 has a display unit 30 on which the processing result is output and displayed.
  • the processing unit 10 includes a log acquisition unit 102, a log division request acquisition unit 104, a log extraction unit 106, a modeling unit 108, a model merge unit 110, a determination unit 112, and an output unit 114. Yes.
  • the storage unit 20 includes a log storage unit 202 that stores a log generated by the target system 2.
  • Logs stored in the log storage unit 202 include a first partial log PL1, a second partial log PL2, and a third partial log PL3 extracted by the log extraction unit 106 as described later.
  • the case where the number of partial logs is 3 will be described as an example.
  • the number of partial logs is not limited to this.
  • the number of partial logs may be three or more.
  • the storage unit 20 is configured by a storage medium, for example.
  • the storage unit 20 may be configured by the same storage medium or may be configured by a plurality of storage media.
  • the display unit 30 displays the processing result output by the processing unit 10.
  • the display unit 30 includes an output device such as a display and a printer.
  • the log to be processed by the abnormality identification system 1 is generated periodically or irregularly by the target system 2 or a component included in the target system 2 and output.
  • the log records the contents of events that occur during the operation of the target system 2 or the components included in the target system 2, the operating status, and the like.
  • the log is a message indicating an event that occurred at a certain time and a situation at a certain time.
  • the log includes other information such as the time stamp indicating the time of generation, the IP (Internet Protocol) address of the component that generated the log, and the name of the component that generated the log. Can further be included.
  • the log is, for example, one line or a plurality of lines of text data, and can include one or more fields as a unit of information.
  • the plurality of fields may be separated by a separator or a delimiter, or may be continuous without being separated.
  • Consecutive fields can be separated by word, morpheme, character type, and the like.
  • the partial log is a subset of the target log that is the target of processing for abnormality identification.
  • the partial log is configured by log data that matches specific conditions regarding the time information included in the log, the IP address included in the log, the collection time when the log was collected, and the like among the target logs.
  • the log storage unit 202 stores a target log input to the abnormality identification system 1.
  • the target log stored in the log storage unit 202 is extracted by being divided into, for example, a first partial log PL1, a second partial log PL2, and a third partial log PL3 by the log extraction unit 106. Will be.
  • a target log is input to the log storage unit 202 regularly, irregularly, or in real time, and the target log stored in the log storage unit 202 is additionally updated.
  • the abnormality identification system 1 identifies an abnormality in the target system 2 by processing the target log.
  • each unit included in the processing unit 10 will be described in detail.
  • the log acquisition unit 102 acquires the target log input to the abnormality identification system 1 and stores it in the log storage unit 202 of the storage unit 20.
  • a target log that is a log generated by the target system 2 is input to the abnormality identification system 1 regularly, irregularly, or in real time.
  • the log acquisition unit 102 stores the target log input in this way in the log storage unit 202.
  • the log division request acquisition unit 104 acquires a log division request for requesting execution of division of the target log stored in the log storage unit 202 from the outside, and inputs the log division request to the log extraction unit 106.
  • the division of the target log is a process for extracting a partial log from the target log.
  • the log division request can be input to the abnormality identification system 1 from the outside by using an input device such as a keyboard or a touch panel.
  • the log division request includes conditions relating to time information included in the log, an IP address included in the log, a collection time when the log was collected, and the like as a division condition for dividing the target log. .
  • the log division request can designate a range such as a time range of a target log from which partial logs are to be extracted by dividing.
  • the log extraction unit 106 divides the target log stored in the log storage unit 202 according to the log division request input from the log division request acquisition unit 104 and extracts a partial log from the target log.
  • the log extraction unit 106 extracts, as a partial log, a divided portion in which the target log is divided according to the division condition of the division request that is a predetermined condition.
  • the partial logs are extracted within the specified range. For example, the log extraction unit 106 divides the target log into three according to the division condition of the division request, and extracts the three divided parts as the first partial log PL1, the second partial log PL2, and the third partial log PL3. To do.
  • the number of partial logs extracted by the log extraction unit 106 is not limited to three, and may be three or more according to the division condition.
  • the modeling unit 108 performs modeling for each partial log of the plurality of partial logs extracted by the log extraction unit 106. For each partial log of the plurality of partial logs, the modeling unit 108 generates a model expressing the regularity regarding the log contents and appearance mode, the log pattern, and the like. For example, the modeling unit 108 models each of the first partial log PL1, the second partial log PL2, and the third partial log PL3 extracted by the log extraction unit 106. Thus, the modeling unit 108 generates the first model M1, the second model M2, and the third model M3 for the first partial log PL1, the second partial log PL2, and the third partial log PL3, respectively. To do.
  • the model generated for the partial log by the modeling unit 108 is usually a model group including a plurality of models.
  • the modeling unit 108 As a method of modeling partial logs by the modeling unit 108, for example, International Publication No. 2013/136418, Xia Ning, Geoff Jiang, Haifeng Chen and Kenji Yoshihira, HLAer: a System for Heterogeneous Log Analysis, 2014 SDM Workshop on The method described in Heterogeneous Learning, April, 2014 can be used.
  • the modeling method is not particularly limited, and various methods can be used.
  • the model may relate to a co-occurrence relationship or an order relationship between logs.
  • the log data constituting the target log may be numerical data such as numerical time-series data. In this case, the model may relate to a correlation between items.
  • the model merge unit 110 merges a plurality of models generated by the modeling unit 108 for each partial log of the plurality of partial logs. Further, the model merging unit 110 functions as a correspondence acquisition unit that acquires a correspondence between each model of a plurality of merged models and a partial log that contributes to generation of the model. In merging a plurality of models, the model merge unit 110 integrates a plurality of models having the same content generated by a plurality of partial logs into a single model.
  • the model merge unit 110 functioning as a correspondence acquisition unit creates a correspondence table indicating a correspondence between each model of a plurality of merged models and a partial log that contributed to generation of the model, for example. To get.
  • the determination unit 112 relates to the presence / absence of contribution to the generation of a plurality of models based on the correspondence relationship between the models of the plurality of merged models acquired by the model merge unit 110 and the partial logs that contributed to the generation of the models.
  • the partial log with the highest specificity is determined.
  • the partial log having the highest specificity regarding the presence or absence of contribution to the generation of a plurality of models is a partial log that may include an abnormality, as will be described later.
  • the determination unit 112 determines a minority partial log group related to the existence of each model of a plurality of merged models among the plurality of partial logs based on the correspondence relationship. That is, the determination unit 112 classifies each model of the plurality of merged models into two partial log groups according to the presence or absence of contribution to model generation, and the smaller partial log of the two partial log groups.
  • Minority partial log group including The minority partial log group may include a plurality of partial logs or may include only one partial log. Of the two partial log groups, a partial log group including more partial logs, that is, a majority partial log group that is not a minority partial log group includes two or more partial logs.
  • the determination unit 112 gives a penalty that is a predetermined value to each of the partial logs included in the minority partial log group determined for each model of the plurality of models.
  • the penalty can be an appropriate constant, specifically, for example, 1.
  • the determination part 112 totals the penalty regarding all the models of a some model about each partial log of a some partial log.
  • the determination unit 112 can determine, from among the plurality of partial logs, the partial log having the highest penalty for all models as the partial log having the highest specificity regarding the presence or absence of contribution to the generation of the plurality of models.
  • the determination unit 112 notifies the output unit 114 of the partial log with the highest specificity determined in this way.
  • the determination unit 112 can give a penalty according to the ratio of the number of partial logs included in the minority partial log group to the total number of partial logs. Thereby, a higher penalty can be given to the partial logs included in the minority partial log group having a lower ratio to the total number of partial logs. For example, it is possible to give a penalty using the logarithm of M / N, where N is the total number of partial logs and M is the number of minority partial logs. That is, the penalty can be calculated by ⁇ log (M / N) using, for example, a natural logarithm.
  • the determination unit 112 can rank a plurality of partial logs in descending order of the total penalty calculated together with the determination of the partial log with the highest specificity, and notify the output unit 114 of the ranking result. Note that the determination unit 112 may rank a plurality of partial logs based on the calculated penalty sum, and may rank a plurality of partial logs in ascending order of the calculated penalty sum.
  • the partial log with the highest specificity determined by the determination unit 112 can be regarded as having a possibility of including an abnormality.
  • the ranking result obtained by ranking the partial logs in descending order of the total penalty can be regarded as the partial logs arranged in descending order of possibility of including an abnormality. Therefore, based on the ranking result of the partial logs with the highest specificity or the total penalty obtained by the determining unit 112, it is possible to determine the partial logs that may include an abnormality.
  • the abnormality identification system 1 can identify and identify an abnormality in the target system 2.
  • the determination unit 112 instead of giving a penalty to the partial log included in the minority partial log group, gives a reward to the partial log included in the minority partial log group that is not the minority partial log group. You can also In this case, the determination unit 112 has a predetermined value for each partial log included in the majority partial log group that is not the minority partial log group determined as described above for each model among the plurality of partial logs. Is granted. And the determination part 112 totals the reward regarding all the models about each partial log of a some partial log. The determination unit 112 can determine a partial log having the lowest total reward for all models among the plurality of partial logs as a partial log having the highest specificity regarding the presence or absence of contribution to the generation of the plurality of models.
  • the determination unit 112 can grant a reward according to the ratio of the number of partial logs included in the majority partial log group to the total number of partial logs. Thereby, a higher reward can be given to the partial logs included in the majority partial log group having a higher ratio to the total number of partial logs.
  • the determination unit 112 can rank a plurality of partial logs in order from the lowest total calculated reward, and notify the output unit 114 of the ranking results, along with the determination of the partial log with the highest specificity. Note that the determination unit 112 may rank a plurality of partial logs based on the calculated total of rewards, and may rank a plurality of partial logs in descending order of the calculated total of rewards.
  • the minority part regarding the existence of the establishment of a plurality of merged models determined by the determination unit 112 The log can be considered as likely to contain anomalies.
  • the ranking result obtained by ranking the partial logs in ascending order of the total reward can be regarded as the partial logs arranged in descending order of the possibility of including an abnormality. Therefore, it is possible to identify and identify an abnormality in the target system 2 based on the partial log with the highest specificity obtained by the determination unit 112 or the ranking result of the total reward.
  • the output unit 114 outputs the partial log with the highest specificity, which is a partial log that may include an abnormality, notified by the determination unit 112 to the display unit 30 and displays the partial log on the display unit 30. Further, the output unit 114 outputs a correspondence table indicating a correspondence relationship between each model created by the model merging unit 110 and a partial log contributing to the generation of the model to the display unit 30 and causes the display unit 30 to display the correspondence table. You can also.
  • the above-described abnormality identification system 1 is constituted by a computer device, for example.
  • An example of the hardware configuration of the abnormality identification system 1 will be described with reference to FIG.
  • the abnormality identification system 1 may be configured by a single device, or may be configured by two or more physically separated devices connected by wire or wirelessly.
  • the anomaly identification system 1 has a CPU (Central Processing Unit) 1002, a ROM (Read Only Memory) 1004, a RAM (Random Access Memory) 1006, and an HDD (Hard Disk Drive) 1008. is doing. Moreover, the abnormality identification system 1 has a communication interface (I / F (Interface)) 1010. In addition, the abnormality identification system 1 includes a display controller 1012 and a display 1014. Further, the abnormality identification system 1 has an input device 1016. The CPU 1002, ROM 1004, RAM 1006, HDD 1008, communication I / F 1010, display controller 1012, and input device 1016 are connected to a common bus line 1018.
  • I / F Interface
  • CPU 1002 controls the overall operation of the abnormality identification system 1. Further, the CPU 1002 performs the functions of the log acquisition unit 102, the log division request acquisition unit 104, the log extraction unit 106, the modeling unit 108, the model merge unit 110, the determination unit 112, and the output unit 114 in the processing unit 10. Execute the program to be realized.
  • the CPU 1002 implements the functions of each unit in the processing unit 10 by loading a program stored in the HDD 1008 or the like into the RAM 1006 and executing the program.
  • the ROM 1004 stores programs such as a boot program.
  • the RAM 1006 is used as a working area when the CPU 1002 executes a program.
  • the HDD 1008 stores a program executed by the CPU 1002.
  • the HDD 1008 is a storage device that implements the function of the log storage unit 202 in the storage unit 20. Note that the storage device that implements the function of the log storage unit 202 is not limited to the HDD 1008. Various storage devices can be used to realize the function of the log storage unit 202.
  • the communication I / F 1010 is connected to the network 3.
  • the communication I / F 1010 controls data communication with the target system 2 connected to the network 3.
  • the communication I / F 1010 realizes the function of the log acquisition unit 102 in the processing unit 10 together with the CPU 1002.
  • the display controller 1012 is connected to a display 1014 that functions as the display unit 30.
  • the display controller 1012 functions as the output unit 114 together with the CPU 1002 and causes the display 1014 to display the minority partial log determined by the determination unit 112. Further, the display controller 1012 functioning as the output unit 114 causes the display 1014 to display a correspondence table indicating a correspondence relationship between each model created by the model merge unit 110 and a partial log in which the model is generated.
  • the input device 1016 is, for example, a keyboard or a mouse.
  • the input device 1016 may be a touch panel incorporated in the display 1014.
  • An operator of the abnormality identification system 1 can set the abnormality identification system 1 or input an instruction to execute processing via the input device 1016.
  • the hardware configuration of the abnormality identification system 1 is not limited to the above-described configuration, and can be various configurations.
  • FIG. 4 is a flowchart showing an abnormality identification method using the abnormality identification system according to the present embodiment.
  • FIG. 5 is a diagram illustrating an example of a partial log extracted based on time information in the log.
  • FIG. 6 is a diagram illustrating an example of a model generated for a partial log.
  • 7 and 8 are diagrams illustrating examples of correspondence tables indicating correspondence relationships between merged models and partial logs from which models are obtained.
  • the log generated by the target system 2 is input to the abnormality identification system 1 regularly, irregularly, or in real time.
  • the log acquisition unit 102 stores the log input to the abnormality identification system 1 in the log storage unit 202. In this way, the log stored in the log storage unit 202 is additionally updated regularly or irregularly or in real time.
  • a log division request is input to the abnormality identification system 1 from the outside via the input device 1016 or the like.
  • the log division request acquisition unit 104 acquires the log division request input to the abnormality identification system 1 (step S10).
  • the log division request requests execution of target log division for extracting a partial log from the target log stored in the log storage unit 202.
  • the log division request can include conditions relating to time information included in the log, collection time when the log was collected, and the like as the division conditions for dividing the target log. Specifically, as the log division request, the target log is changed from “9:00 to 17:59”, “18:00 to 4:49” based on time information included in the log, collection time, and the like. And those that require division into three in the time zone from 5:00 to 8:59. Further, as the log division request, the target log is changed from “192.168.10.1 to 192.168.10.99”, “192.168.10.100 to 192” based on the IP address included in the log. .168.10.199 ”,“ 192.168.10.200 to 192.168.10.255 ”, and other requests that divide the target log into four in the range of IP addresses Is exemplified.
  • the log division request can specify the time range of the target log to be divided in addition to the above division conditions.
  • the time range of the target log to be divided can be specified by a period such as “from September 1 to 30, 2016”.
  • the log division request acquisition unit 104 inputs the acquired log division request to the log extraction unit 106.
  • the log extraction unit 106 divides the target log stored in the log storage unit 202 in accordance with the log division request input from the log division request acquisition unit 104, and extracts the divided portion of the target log as a partial log ( Step S12).
  • FIG. 5 shows an example of three partial logs extracted from the target log by the log extraction unit 106 based on the time information in the log.
  • the first partial log PL1, the second partial log PL2, and the third partial log PL3, which are the three extracted partial logs are within a range in which the time information in the logs are different from each other. It has become.
  • a text log such as syslog is exemplified as the log, but the log may be numerical data such as performance statistical data.
  • the modeling unit 108 determines whether there is a partial log that has not yet been modeled among the plurality of partial logs extracted by the log extraction unit 106 (step S14). When there is a partial model that has not been modeled (step S14, YES), the modeling unit 108 models the partial model that has not been modeled (step S16).
  • the modeling unit 108 In the modeling for the partial model, the modeling unit 108 generates a model expressing the regularity regarding the log contents and appearance mode, the log pattern, and the like for the partial log. Note that the method of modeling the partial log by the modeling unit 108 is not particularly limited as described above, and various methods can be used.
  • step S16 the process proceeds to step S14, and steps S14 and S16 are repeated until there is no partial log that has not been modeled.
  • a model expressing the regularity regarding the log contents and appearance mode, the log pattern, and the like is created.
  • FIG. 6 shows an example of modeling (learning) the format of the text log included in each partial log extracted by the log extraction unit 106.
  • the first model M1, the second model M2, and the third model M3 shown in FIG. 6 are models for the first partial log PL1, the second partial log PL2, and the third partial log PL3 shown in FIG. 5, respectively. It is a model generated by the conversion.
  • the field enclosed by ⁇ > corresponds to the variable part in the format.
  • ⁇ TimeStamp> means time
  • ⁇ IP address> means IP address.
  • the variable part is a specific time or IP address.
  • the model merge unit 110 merges a plurality of models generated for each partial log of the plurality of partial logs by the modeling unit 108 (step S18). ). In addition, the model merge unit 110 acquires a correspondence relationship between each model of a plurality of merged models and a partial log that contributes to generation of the model. For example, the model merging unit 110 creates a correspondence table indicating a correspondence relationship between each model of a plurality of merged models and a partial log that has contributed to generation of the model, and acquires the correspondence relationship.
  • FIG. 7 shows an example of a correspondence table showing the correspondence between each model of a plurality of models merged by the model merge unit 110 and a partial log that contributed to the generation of the model.
  • the models of the plurality of models respectively included in the first model M1, the second model M2, and the third model M3 shown in FIG. 6 are merged.
  • each merged model includes any partial log of the first partial log PL1, the second partial log PL2, and the third partial log PL3 shown in FIG. It is shown whether or not That is, in the correspondence table T1, any partial log of the first partial log PL1, the second partial log PL2, and the third partial log PL3 shown in FIG. 5 contributes to the generation of each merged model. Correspondences indicating whether or not
  • a column indicating whether or not the partial log is established indicates that each of the eight models is any partial log among the first partial log PL1, the second partial log PL2, and the third partial log PL3. It is shown whether or not It is shown which partial log of the first partial log PL1, the second partial log PL2, and the third partial log PL3 contributed to the generation of each of the eight models.
  • “ ⁇ ” in the correspondence table T1 indicates that the model is established in the partial log, that is, the partial log contributes to generation of the model.
  • “x” in the correspondence table T1 indicates that the model is not established in the partial log, that is, the partial log does not contribute to generation of the model. For example, it is shown that the model with the model ID 1 is established in the first partial log PL1 and the third partial log PL3, but is not established in the second partial log PL2.
  • the determination unit 112 determines a partial log having the highest specificity regarding the presence / absence of contribution to the generation of a plurality of models based on the correspondence relationship acquired by the model merge unit 110 (step S20).
  • the determination unit 112 determines a minority partial log group related to whether or not each model of a plurality of merged models among the plurality of partial logs is established based on the correspondence relationship. That is, the determination unit 112 classifies each model of the plurality of merged models into two partial log groups according to the presence or absence of contribution to model generation, and the smaller partial log of the two partial log groups. Minority partial log group including
  • the determination unit 112 gives a penalty that is a predetermined value to each of the partial logs included in the minority partial log group determined for each model of the plurality of models.
  • the determination unit 112 sums the penalties for all models of the plurality of models for each partial log of the plurality of partial logs.
  • the determination unit 112 determines a partial log having the highest total penalty for all models as a partial log having the highest specificity regarding the presence or absence of contribution to the generation of the plurality of models. To do.
  • the model with the model ID 1 is established in the first partial log PL1 and the third partial log PL3 as described above, but is established in the second partial log PL2. do not do.
  • the first partial log PL1 and the third partial log PL3 contribute to the generation of the model with the model ID of 1, whereas the second partial log PL2 does not contribute. Therefore, for the model having the model ID of 1, the second partial log group included in the minority partial log group out of the first partial log PL1, the second partial log PL2, and the third partial log PL3 Log PL2. Therefore, the determination unit 112 gives a penalty to the second partial log PL2 for the model having the model ID of 1.
  • the penalty is an appropriate constant, specifically, for example, 1.
  • the total penalty for the first partial log PL1 is 1
  • the total penalty for the second partial log PL2 is 4
  • the total penalty of the third partial log PL3 is calculated as 3.
  • the determination unit 112 can give a penalty according to the ratio of the number of partial logs included in the minority partial log group to the total number of partial logs as described above.
  • the total number of partial logs is N
  • the number of minority partial logs is M
  • the penalty can be calculated by -log (M / N) using, for example, a natural logarithm.
  • all of the partial logs contribute or do not contribute to the generation of a certain model, all the partial logs are uniformly given the same penalty, or no penalty is assigned. Can do.
  • the same penalty is applied to all partial logs. It can be granted or no penalty can be given.
  • the determination unit 112 can rank the partial logs in descending order of the total penalty calculated together with the determination of the minority partial logs.
  • the determination unit 112 instead of giving a penalty to the partial log included in the minority partial log group, the portion included in the majority partial log group that is not the minority partial log group. You can also reward the log.
  • the determining unit 112 notifies the output unit 114 of the partial log having the highest specificity regarding the presence or absence of contribution to the generation of a plurality of models determined as described above. Upon receiving this notification, the output unit 114 outputs the partial log with the highest specificity notified by the determination unit 112 to the display unit 30 and displays it on the display unit 30 (step S22). The determination unit 112 can also notify the output unit 114 of the ranking result obtained by ranking the partial logs based on the total penalty. In this case, the output unit 114 that has received the notification outputs the ranking result obtained by the determination unit 112 to the display unit 30 and causes the display unit 30 to display the ranking result.
  • the output unit 114 outputs a correspondence table indicating a correspondence relationship between each model created by the model merging unit 110 and a partial log contributing to the generation of the model to the display unit 30 and causes the display unit 30 to display the correspondence table. You can also.
  • the output unit 114 can output the correspondence table T1 as shown in FIG. 7 to the display unit 30 and display it on the display unit 30.
  • the partial log having the highest specificity regarding the presence or absence of contribution to the generation of a plurality of models is mechanically extracted from the plurality of partial logs extracted from the log generated by the target system 2.
  • the partial log having the highest specificity determined by the determination unit 112 is most likely to include an abnormality.
  • the ranking result obtained by ranking the partial logs in descending order of the total penalty can be regarded as the partial logs arranged in descending order of possibility of including an abnormality.
  • the determination unit 112. it is possible to identify and specify an abnormality in the target system 2 based on the ranking result of the partial logs or penalties with the highest specificity obtained by the determination unit 112. Specifically, it is possible to identify and specify the period during which an abnormality has occurred in the target system 2, the network area where the abnormality has occurred (IP address band), the device or group of devices in which the abnormality has occurred, etc. It becomes.
  • the amount of calculation for identifying an abnormality that is, the amount of calculation necessary for specifying the partial log having the highest specificity regarding the presence or absence of contribution to the generation of a plurality of models may be made small. it can. That is, in this embodiment, the calculation amount necessary for specifying the minority partial log is A as the log amount of one partial log, and the calculation amount required for modeling the partial log is a function f (A) relating to the log amount. If the number of partial logs is N, f (A) ⁇ N.
  • the method described in Patent Document 1 requires calculation of an abnormal measure after learning, and increases the amount of calculation required for learning corresponding to modeling.
  • the calculation amount of the method described in Patent Document 1 is (F (2A) + g (A)) ⁇ N. Therefore, in this embodiment, compared with the method described in Patent Document 1, it is possible to efficiently specify a partial log that may include an abnormality with a smaller calculation amount.
  • the partial log with the highest specificity may contain an abnormality
  • an abnormality measure representing the degree of abnormality unlike the method described in Patent Document 1. There is no need to define Therefore, in this embodiment, a user's burden can be reduced.
  • the determination unit 112 determines whether or not each model is established, that is, whether or not there is a contribution to generation of each model, in a correspondence table indicating a correspondence relationship between each model of a plurality of models and a partial log that contributes to the generation of the model.
  • the partial logs included in the minority partial log group may be emphasized.
  • the method of emphasizing the partial logs included in the minority partial log group is not particularly limited, and can be emphasized by various methods such as a method of emphasizing with a specific color or mark.
  • the correspondence table T2 shown in FIG. 8 corresponds to the partial logs included in the partial log group of the minority group regarding whether or not each model is established, that is, whether or not each model contributes to generation, in the correspondence table T1 shown in FIG.
  • the background of the cell is highlighted with hatching.
  • the correspondence table T2 for example, for the model with the model ID 1, the background of the cell corresponding to the second partial log PL2 that is a partial log included in the minority partial log group is highlighted by hatching.
  • the user knows that there is a high possibility that the log corresponding to the model whose model ID is 7 is a log indicating abnormality, for example. At this time, the user can easily recognize that there is a log that is likely to be a log indicating abnormality from “ ⁇ ” highlighted in the row of model ID 7 in the correspondence table T2. Furthermore, the user can easily trace that the partial log including the log is the second partial log PL2. Thereby, the partial log which may contain abnormality can be identified more efficiently from the correspondence table T2.
  • FIG. 9 is a block diagram showing a functional configuration of an abnormality identification system according to another embodiment.
  • an abnormality identification system 2000 has a log extraction unit 2002 that extracts three or more partial logs from a target log according to a predetermined condition.
  • the abnormality identification system 2000 includes a modeling unit 2004 that generates a model from a plurality of partial logs extracted by the log extraction unit 2002.
  • the abnormality identification system 2000 includes a correspondence acquisition unit 2006 that acquires a correspondence between the model generated by the modeling unit 2004 and the partial log that contributed to the generation of the model.
  • the abnormality identification system 2000 has a determination unit 2008.
  • the determination unit 2008 classifies the plurality of partial logs into two partial log groups according to the presence or absence of contribution to model generation based on the correspondence relationship acquired by the correspondence relationship acquisition unit 2006. Among them, a minority partial log group including a smaller partial log is determined. Also, the determination unit 2008 determines a partial log having the highest specificity regarding the presence or absence of contribution to the generation of the model among the plurality of partial logs based on the minority partial log group.
  • the log extraction unit 106 has been described as an example in which the target log is divided and a plurality of partial logs are extracted, but the present invention is not limited to this.
  • the log extraction unit 106 may extract a plurality of partial logs from the target log according to a predetermined extraction condition without dividing the target log generated by the target system 2.
  • model merging unit 110 creates a correspondence table indicating a correspondence relationship between each model and the partial log in which the model is generated has been described as an example.
  • the present invention is not limited to this.
  • the model merge unit 110 can acquire the correspondence between each model and the partial log in which the model is generated in various formats, not limited to the table format.
  • a processing method in which a program for operating the configuration of the embodiment is recorded on a recording medium so as to realize the functions of the above-described embodiments, the program recorded on the recording medium is read as a code, and executed by a computer. It is included in the category of each embodiment. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above-described computer program is recorded, the computer program itself is included in each embodiment.
  • the recording medium for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM (Compact Disc-Read Only Memory), a magnetic tape, a nonvolatile memory card, and a ROM can be used.
  • the program is not limited to a program recorded on the recording medium, but is operated on an OS (Operating System) in cooperation with other software and expansion board functions to execute the process.
  • OS Operating System
  • SaaS Software as a Service
  • a log extracting unit that extracts three or more partial logs from the target log according to a predetermined condition;
  • a modeling unit for generating a model from the plurality of partial logs extracted by the log extraction unit;
  • a correspondence acquisition unit that acquires a correspondence between the model generated by the modeling unit and the partial log that contributed to generation of the model;
  • the plurality of partial logs are classified into two partial log groups according to the presence or absence of contribution to the generation of the model, and the two partial log groups Among them, a minority partial log group including a smaller number of the partial logs is determined, and based on the minority partial log group, the specificity regarding the presence or absence of contribution to the generation of the model among the plurality of partial logs is
  • An abnormality identification system comprising: a determination unit that determines the highest partial log.
  • the modeling unit generates a plurality of the models from the plurality of partial logs, The determination unit For each of the plurality of models, determine the partial log group of the minority group, give a predetermined value to the partial log included in the minority partial log group, The abnormality identification system according to appendix 1, wherein the predetermined values assigned to the plurality of models are totaled for each of the plurality of partial logs.
  • Appendix 4 The abnormality determination system according to appendix 2 or 3, wherein the determination unit ranks the plurality of partial logs based on a sum of the predetermined values.
  • Appendix 5 Any one of appendices 2 to 4, wherein the predetermined value is a value corresponding to a ratio of the number of the partial logs included in the minority partial log group to the total number of the plurality of partial logs. Anomaly identification system as described in.
  • the correspondence acquisition unit creates a correspondence table indicating the correspondence, The abnormality determination system according to any one of appendices 1 to 5, wherein the determination unit emphasizes the partial logs included in the minority partial log group in the correspondence table.
  • (Appendix 7) Extract three or more partial logs from the target log according to the predetermined conditions, Generating a model from the plurality of partial logs; Obtaining a correspondence relationship between the model and the partial log that contributed to generation of the model; Based on the correspondence, the plurality of partial logs are classified into two partial log groups according to the presence or absence of contribution to the generation of the model, and the smaller partial logs of the two partial log groups are included. Determine the minority log group, An abnormality identification method, comprising: determining a partial log having the highest specificity regarding presence / absence of contribution to generation of the model among the plurality of partial logs based on the minority partial log group.
  • (Appendix 8) Generating a plurality of the models from the plurality of partial logs;
  • the minority partial log group is determined for each of the plurality of models, and the minority partial log group that is not the minority partial log group or the minority partial log group of the two partial log groups is determined.
  • a predetermined value is given to the partial logs included in the group,
  • Appendix 10 The abnormality identification method according to appendix 8 or 9, wherein the plurality of partial logs are ranked based on a sum of the predetermined values.
  • appendix 11 Any one of appendixes 8 to 10, wherein the predetermined value is a value corresponding to a ratio of the number of the partial logs included in the minority partial log group to a total number of the plurality of partial logs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる異常識別システム、方法及び記録媒体を提供する。異常識別システムは、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、ログ抽出部により抽出された複数の部分ログからモデルを生成するモデル化部と、モデル化部により生成されたモデルとモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部と、対応関係取得部により取得された対応関係に基づき、複数の部分ログを、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定し、少数派の部分ログ群に基づき、複数の部分ログのうち、モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部とを有する。

Description

異常識別システム、方法及び記録媒体
 本発明は、システムが出力するデータに含まれる異常を識別する異常識別システム、方法及び記録媒体に関する。
 システム等に異常が発生した際には、生成されているログ等を分析、解析することにより、異常の原因を特定することが行われる。特許文献1には、設備等に装着されたセンサから出力される多次元時系列センサ信号を用いて設備等の異常を検知する方法が記載されている。
 特許文献1に記載された方法は、多次元時系列センサ信号のうち予め指定された区間のセンサ信号から一部の区間のセンサ信号を除外して学習データを作成し、作成した学習データから異常判定しきい値を算出する。異常の検知に際しては、学習データを用いて正常モデルを作成する。また、多次元時系列センサ信号から特徴ベクトルを観測ベクトルとして抽出する。さらに、抽出した観測ベクトルと作成した正常モデルとを用いて観測ベクトルの異常測度を算出する。こうして算出した観測ベクトルの異常測度と異常判定しきい値とを比較して設備等の異常を検知する。
特開2015-114967号公報
 しかしながら、特許文献1に記載された方法は、観測ベクトルの異常測度を算出しているが、この異常の度合いを表す異常測度を定義する必要があるため、ユーザの負担が大きいという問題がある。
 また、特許文献1に記載された方法は、学習データを作成する学習期間中の各区間について、当該区間のセンサ信号を除いた残りのセンサ信号から学習データを作成するとともに、当該区間のセンサ信号から抽出した特徴ベクトルの異常測度を算出する必要がある。このため、特許文献1に記載された方法では、計算量が大きいという問題もある。
 本発明は、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる異常識別システム、方法及び記録媒体を提供することを目的とする。
 本発明の一観点によれば、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部とを有することを特徴とする異常識別システムが提供される。
 本発明の他の観点によれば、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを特徴とする異常識別方法が提供される。
 本発明のさらに他の観点によれば、コンピュータに、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを実行させることを特徴とするプログラムが記録された記録媒体が提供される。
 本発明によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。
本発明の一実施形態による異常識別システム及び対象システムを示す概略図である。 本発明の一実施形態による異常識別システムの機能構成を示すブロック図である。 本発明の一実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。 本発明の一実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。 ログ中の時間情報に基づき抽出された部分ログの例を示す図である。 部分ログについて生成されたモデルの例を示す図である。 マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。 マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の他の例を示す図である。 本発明の他の実施形態による異常識別システムの機能構成を示すブロック図である。
 [一実施形態]
 本発明の一実施形態による異常識別システム及び異常識別方法について図1乃至図8を用いて説明する。
 まず、本実施形態による異常識別システム及び異常を識別すべき対象である対象システムを含む概略構成について図1を用いて説明する。図1は、本実施形態による異常識別システム及び対象システムを示す概略図である。
 図1に示すように、本実施形態による異常識別システム1には、異常識別システム1による処理の対象となるログを生成して出力する一又は複数の対象システム2がネットワーク3を介して通信可能に接続されている。ネットワーク3は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)であるが、その種別が限定されるものではない。また、ネットワーク3は、有線のネットワークであってもよいし、無線のネットワークであってもよい。
 対象システム2は、特定のシステムに限定されるものではないが、例えばIT(Information Technology)システムである。ITシステムは、サーバ、クライアント端末、ネットワーク機器その他の情報機器等の機器や、機器上で動作するシステム・ソフトウェア、アプリケーション・ソフトウェア等のソフトウェアにより構成される。対象システム2は、稼動中に発生したイベントの内容、稼働中の状況等を記録したログを生成する。対象システム2により生成されたログは、本実施形態による異常識別システム1に入力されて処理される。なお、本実施形態による異常識別システム1は、ログを生成するシステム、機器、装置であれば、あらゆるものを対象とすることができ、監視対象が生成するログを処理することができる。
 本実施形態による異常識別システム1には、対象システム2において生成されたログがネットワーク3を介して入力されるようになっている。対象システム2から異常識別システム1にログを入力する態様は、特に限定されるものではなく、対象システム2の構成等に応じて適宜選択することができる。
 例えば、対象システム2における通知エージェントが、対象システム2において生成されたログを異常識別システム1に送信することにより、異常識別システム1にログを入力することができる。ログを送信するプロトコルは、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、プロトコルとして、syslogプロトコル、FTP(File Transfer Protocol)、FTPS(File Transfer Protocol over TLS(Transport Layer Security)/SSL(Secure Sockets Layer))、SFTP(SSH(Secure Shell) File Transfer Protocol)を用いることができる。また、対象システム2が、生成したログを異常識別システム1とファイル共有で共有することにより、異常識別システム1にログを入力することができる。ログを共有するファイル共有は、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、ファイル共有として、SMB(Server Message Block)又はこれを拡張したCIFS(Common Internet File System)によるファイル共有を用いることができる。
 なお、本実施形態による異常識別システム1は、必ずしも対象システム2とネットワーク3を介して通信可能に接続されている必要はない。例えば、異常識別システム1は、対象システム2からログを収集するログ収集システム(不図示)とネットワーク3を介して通信可能に接続されていてもよい。この場合、対象システム2で生成されたログは、一旦、ログ収集システムにより収集され、ログ収集システムからネットワーク3を介して異常識別システム1に入力される。また、本実施形態による異常識別システム1は、対象システム2で生成されたログを記録した記録媒体からログを取得することもできる。この場合、対象システム2は、ネットワークを介して異常識別システム1に接続されている必要はない。
 以下、本実施形態による異常識別システム1の具体的構成についてさらに図2及び図3を用いて説明する。図2は、本実施形態による異常識別システムの機能構成を示すブロック図である。図3は、本実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。
 図2に示すように、本実施形態による異常識別システム1は、対象システム2における異常を識別するための各種の処理を実行する処理部10を有している。また、異常識別システム1は、対象システム2で生成されたログを格納する記憶部20を有している。さらに、異常識別システム1は、処理結果が出力されて表示される表示部30を有している。
 処理部10は、ログ取得部102と、ログ分割要求取得部104と、ログ抽出部106と、モデル化部108と、モデルマージ部110と、決定部112と、出力部114とを有している。
 記憶部20は、対象システム2で生成されたログを格納するログ格納部202を有している。ログ格納部202に格納されるログは、後述するようにログ抽出部106により抽出される第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3を含んでいる。なお、本実施形態では、部分ログの数が3である場合を例に説明するが、部分ログの数はこれに限定されるものではない。部分ログの数は、3以上の複数であればよい。記憶部20は、例えば記憶媒体により構成される。記憶部20は、同一の記憶媒体により構成されてもよいし、複数の記憶媒体により構成されてもよい。
 表示部30は、処理部10により出力される処理の結果を表示するものである。表示部30は、ディスプレイ、プリンタ等の出力装置により構成される。
 本実施形態による異常識別システム1による処理の対象となるログは、対象システム2又はこれに含まれる構成要素により定期又は不定期に生成されて出力されたものである。ログは、対象システム2又はこれに含まれる構成要素の稼働中に発生したイベントの内容、稼働中の状況等が記録されたものである。例えば、ログは、ある時刻に発生したイベント、ある時刻における状況を示すメッセージになっている。また、ログは、イベントの内容等のほか、生成された時刻を示すタイムスタンプ、そのログを生成した構成要素のIP(Internet Protocol)アドレス、そのログを生成した構成要素の名称等の他の情報をさらに含むことができる。また、ログは、例えば、一行又は複数行のテキストデータであり、情報の単位として1以上のフィールドを含むことができる。複数のフィールドは、セパレータ又はデリミタにより区切られていてもよいし、区切られずに連続するものであってもよい。連続するフィールドは、単語、形態素、文字種等により分離することができる。
 本実施形態において、部分ログは、異常識別のための処理の対象となる対象ログの部分集合である。部分ログは、対象ログのうち、例えばログ中に含まれる時刻情報、ログ中に含まれるIPアドレス、ログが採取された採取時刻等に関する特定の条件に合致するログデータにより構成される。
 ログ格納部202は、異常識別システム1に入力される対象ログを格納するものである。ログ格納部202に格納された対象ログは、後述するように、ログ抽出部106により、例えば第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3に分割されて抽出されることになる。ログ格納部202には、定期若しくは不定期に又はリアルタイムに対象ログが入力され、ログ格納部202に格納される対象ログが追加更新される。
 本実施形態による異常識別システム1は、対象ログを処理することにより対象システム2における異常を識別するものである。以下、処理部10に含まれる各部について詳述する。
 ログ取得部102は、異常識別システム1に入力される対象ログを取得して記憶部20のログ格納部202に格納するものである。異常識別システム1には、対象システム2で生成されたログである対象ログが、定期若しくは不定期に又はリアルタイムに入力される。ログ取得部102は、こうして入力される対象ログをログ格納部202に格納する。
 ログ分割要求取得部104は、ログ格納部202に格納された対象ログの分割の実行を要求するログ分割要求を外部から取得してログ抽出部106に入力するものである。対象ログの分割は、対象ログから部分ログを抽出するための処理である。ログ分割要求は、例えば、キーボード、タッチパネル等の入力装置により外部から異常識別システム1に入力することができる。また、ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログ中に含まれるIPアドレス、ログが採取された採取時刻等に関する条件を含んでいる。また、ログ分割要求は、分割を行って部分ログを抽出すべき対象ログの時間的範囲等の範囲を指定することができる。
 ログ抽出部106は、ログ分割要求取得部104から入力されるログ分割要求に従って、ログ格納部202に格納された対象ログを分割して対象ログから部分ログを抽出するものである。ログ抽出部106は、所定の条件である分割要求の分割条件に従って対象ログが分割された分割部分を部分ログとして抽出する。また、分割要求により分割を行って部分ログを抽出すべき対象ログの範囲が指定されている場合には、その指定された範囲で部分ログを抽出する。例えば、ログ抽出部106は、分割要求の分割条件に従って対象ログを3つに分割し、3つの分割部分を第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3として抽出する。なお、ログ抽出部106が抽出する部分ログ数は、3つに限定されるものではなく、分割条件に従った3つ以上の複数であればよい。
 モデル化部108は、ログ抽出部106により抽出された複数の部分ログの各部分ログに対してモデル化を行うものである。モデル化部108は、複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。例えば、モデル化部108は、ログ抽出部106により抽出された第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてそれぞれモデル化を行う。これにより、モデル化部108は、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてそれぞれ第1のモデルM1、第2のモデルM2及び第3のモデルM3を生成する。なお、モデル化部108により部分ログについて生成されるモデルは、通常、複数のモデルを含むモデル群である。
 モデル化部108による部分ログのモデル化の手法としては、例えば、国際公開第2013/136418号、Xia Ning, Geoff Jiang, Haifeng Chen and Kenji Yoshihira, HLAer: a System for Heterogeneous Log Analysis, 2014 SDM Workshop on Heterogeneous Learning, April, 2014に記載された手法を用いることができる。なお、モデル化の手法は、特に限定されるものではなく、種々の手法を用いることができる。例えば、モデルは、ログ間の共起関係や順序関係に関するものであってもよい。また、対象ログを構成するログデータは数値時系列データ等の数値データであってもよく、この場合、モデルは項目間の相関関係等に関するものであってもよい。
 モデルマージ部110は、モデル化部108により複数の部分ログの各部分ログについて生成された複数のモデルをマージするものである。さらに、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部として機能する。モデルマージ部110は、複数のモデルのマージにおいて、複数の部分ログで生成された同一内容の複数のモデルを単一のモデルに統合する。対応関係取得部として機能するモデルマージ部110は、例えば、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成することによりその対応関係を取得する。
 決定部112は、モデルマージ部110により取得されたマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定するものである。複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログは、後述するように、異常を含む可能性がある部分ログである。
 例えば、決定部112は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部112は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。なお、少数派の部分ログ群には、複数の部分ログが含まれる場合もあれば、1つのみの部分ログが含まれる場合もある。2つの部分ログ群のうち、より多い部分ログを含む部分ログ群、すなわち少数派の部分ログ群でない多数派の部分ログ群には、2つ以上の複数の部分ログが含まれる。
 さらに、決定部112は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。ペナルティは、適当な定数、具体的には例えば1とすることができる。そして、決定部112は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。決定部112は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。決定部112は、こうして決定した特異性の最も高い部分ログを出力部114に通知する。
 なお、ペナルティを付与する際、決定部112は、部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。これにより、部分ログの総数に対する比率のより低い少数派の部分ログ群に含まれる部分ログに対して、より高いペナルティを付与することができる。例えば部分ログの総数をN、少数派の部分ログ数をMとして、M/Nの対数を用いてペナルティを付与することができる。すなわち、ペナルティは、例えば、自然対数を用いて、-log(M/N)で計算することができる。
 また、決定部112は特異性の最も高い部分ログの決定とともに、計算されたペナルティの合計の高い順に複数の部分ログをランキングし、そのランキング結果を出力部114に通知することもできる。なお、決定部112は、計算されたペナルティの合計に基づき複数の部分ログをランキングすればよく、計算されたペナルティの合計の低い順に複数の部分ログをランキングすることもできる。
 対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された特異性の最も高い部分ログは、異常を含む可能性があるとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、異常を含む可能性のある部分ログを決定することができる。こうして、本実施形態による異常識別システム1は、対象システム2における異常を識別して特定することが可能となる。
 なお、決定部112は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。この場合、決定部112は、複数の部分ログのうち、各モデルについて上述のように決定した少数派の部分ログ群でない多数派の部分ログ群に含まれる各部分ログに所定の値である報酬を付与する。そして、決定部112は、複数の部分ログの各部分ログについて全モデルに関する報酬を合計する。決定部112は、複数の部分ログのうち、全モデルに関する報酬の合計が最も低い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。
 なお、報酬を付与する際、決定部112は、部分ログの総数に対する多数派の部分ログ群に含まれる部分ログの数の比率に応じた報酬を付与することができる。これにより、部分ログの総数に対する比率のより高い多数派の部分ログ群に含まれる部分ログに対して、より高い報酬を付与することができる。
 また、決定部112は特異性の最も高い部分ログの決定とともに、計算された報酬の合計の低い順に複数の部分ログをランキングし、そのランキング結果を出力部114に通知することもできる。なお、決定部112は、計算された報酬の合計に基づき複数の部分ログをランキングすればよく、計算された報酬の合計の高い順に複数の部分ログをランキングすることもできる。
 上述のように、対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された、マージされた複数のモデルの成立の有無に関する少数派の部分ログは、異常を含んでいる可能性が高いとみなすことができる。また、報酬の合計の低い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又は報酬の合計のランキング結果に基づき、対象システム2における異常を識別して特定することが可能となる。
 出力部114は、決定部112により通知された、異常を含む可能性のある部分ログである特異性の最も高い部分ログを、表示部30に出力して表示部30に表示させるものである。また、出力部114は、モデルマージ部110により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部30に出力して表示部30に表示させることもできる。
 上述した異常識別システム1は、例えばコンピュータ装置により構成される。異常識別システム1のハードウェア構成の一例について図3を用いて説明する。なお、異常識別システム1は、単一の装置により構成されていてもよいし、有線又は無線で接続された2つ以上の物理的に分離された装置により構成されていてもよい。
 異常識別システム1は、図3に示すように、CPU(Central Processing Unit)1002と、ROM(Read Only Memory)1004と、RAM(Random Access Memory)1006と、HDD(Hard Disk Drive)1008とを有している。また、異常識別システム1は、通信インターフェース(I/F(Interface))1010を有している。また、異常識別システム1は、ディスプレイコントローラ1012と、ディスプレイ1014とを有している。さらに、異常識別システム1は、入力装置1016を有している。CPU1002、ROM1004、RAM1006、HDD1008、及び通信I/F1010、ディスプレイコントローラ1012、及び入力装置1016は、共通のバスライン1018に接続されている。
 CPU1002は、異常識別システム1の全体の動作を制御する。また、CPU1002は、上記処理部10におけるログ取得部102、ログ分割要求取得部104、ログ抽出部106、モデル化部108、モデルマージ部110、決定部112、及び出力部114の各部の機能を実現するプログラムを実行する。CPU1002は、HDD1008等に記憶されたプログラムをRAM1006にロードして実行することにより、処理部10における各部の機能を実現する。
 ROM1004は、ブートプログラム等のプログラムが記憶されている。RAM1006は、CPU1002がプログラムを実行する際のワーキングエリアとして使用される。また、HDD1008には、CPU1002が実行するプログラムが記憶されている。
 また、HDD1008は、上記記憶部20におけるログ格納部202の機能を実現する記憶装置である。なお、ログ格納部202の機能を実現する記憶装置は、HDD1008に限定されるものではない。種々の記憶装置をログ格納部202の機能を実現するものとして用いることができる。
 通信I/F1010は、ネットワーク3に接続されている。通信I/F1010は、ネットワーク3に接続された対象システム2との間のデータの通信を制御する。通信I/F1010は、CPU1002とともに処理部10におけるログ取得部102の機能を実現する。
 ディスプレイコントローラ1012は、表示部30として機能するディスプレイ1014が接続されている。ディスプレイコントローラ1012は、CPU1002とともに出力部114として機能し、決定部112により決定された少数派の部分ログをディスプレイ1014に表示させる。また、出力部114として機能するディスプレイコントローラ1012は、モデルマージ部110により作成された各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表をディスプレイ1014に表示させる。
 入力装置1016は、例えば、キーボード、マウス等である。また、入力装置1016は、ディスプレイ1014に組み込まれたタッチパネルであってもよい。異常識別システム1のオペレータは、入力装置1016を介して、異常識別システム1の設定を行ったり、処理の実行の指示を入力したりすることができる。
 なお、異常識別システム1のハードウェア構成は、上述した構成に限定されるものではなく、種々の構成とすることができる。
 次に、上記本実施形態による異常識別システム1を用いた異常識別方法についてさらに図4乃至図8を用いて説明する。図4は、本実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。図5は、ログ中の時間情報に基づき抽出された部分ログの例を示す図である。図6は、部分ログについて生成されたモデルの例を示す図である。図7及び図8は、それぞれマージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。
 異常識別システム1には、対象システム2で生成されたログが定期若しくは不定期に又はリアルタイムに入力される。ログ取得部102は、異常識別システム1に入力されるログをログ格納部202に格納する。こうして、ログ格納部202に格納されるログが定期若しくは不定期に又はリアルタイムに追加更新されている。
 まず、異常識別システム1には、入力装置1016等を介して外部からログ分割要求が入力される。ログ分割要求取得部104は、異常識別システム1に入力されたログ分割要求を取得する(ステップS10)。ログ分割要求は、ログ格納部202に格納された対象ログから部分ログを抽出するための対象ログの分割の実行を要求するものである。
 ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログが採取された採取時刻等に関する条件を含むことができる。具体的には、ログ分割要求として、対象ログを、ログ中に含まれる時刻情報や採取時刻等に基づき、「9:00から17:59まで」、「18:00から4:49まで」、及び「5:00から8:59」までの時間帯で3つに分割することを要求するものが例示される。また、ログ分割要求として、対象ログを、ログ中に含まれるIPアドレスに基づき、「192.168.10.1から192.168.10.99まで」、「192.168.10.100から192.168.10.199まで」、「192.168.10.200から192.168.10.255まで」、及びそれ以外のIPアドレスの範囲で4つに対象ログを分割することを要求するものが例示される。
 なお、ログ格納部202に長期間にわたるログが格納されている場合等には、ログ分割要求は、上記の分割条件に加えて、分割を行うべき対象ログの時間的範囲を指定することができる。例えば、ログ分割要求は、分割を行うべき対象ログの時間的範囲を、「2016年9月1日から30日まで」のように期間で指定することができる。
 ログ分割要求取得部104は、取得したログ分割要求をログ抽出部106に入力する。
 次いで、ログ抽出部106は、ログ分割要求取得部104から入力されたログ分割要求に従って、ログ格納部202に格納された対象ログを分割して、対象ログの分割部分を部分ログとして抽出する(ステップS12)。
 図5は、ログ中の時刻情報に基づきログ抽出部106により対象ログから抽出された3つの部分ログの例を示している。図5に示すように、抽出された3つの部分ログである第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3は、互いにログ中の時刻情報が異なる範囲内のものとなっている。なお、図5では、ログとしてsyslog等のようなテキストログを例示しているが、ログは性能統計データ等のような数値データであってもよい。
 次いで、モデル化部108は、ログ抽出部106により抽出された複数の部分ログのうち、モデル化が未実行の部分ログがあるか否かを判定する(ステップS14)。モデル化が未実行の部分モデルがある場合(ステップS14、YES)、モデル化部108は、モデル化が未実行の部分モデルに対してモデル化を行う(ステップS16)。
 部分モデルに対するモデル化では、モデル化部108は、部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。なお、モデル化部108による部分ログのモデル化の手法としては、上述のように、特に限定されるものではなく、種々の手法を用いることができる。
 ステップS16の後、ステップS14に移行して、モデル化が未実行の部分ログがなくなるまでステップS14、S16を繰り返す。これにより、ログ抽出部106により抽出された複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを作成する。
 図6は、ログ抽出部106により抽出された各部分ログに含まれるテキストログのフォーマットをモデル化(学習)した例を示している。図6に示す第1のモデルM1、第2のモデルM2及び第3のモデルM3は、それぞれ図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてモデル化により生成されたモデルである。図6において、<>で囲まれたフィールドは、フォーマットにおける変数部分に対応している。<TimeStamp>は時刻、<IP address>はIPアドレスを意味している。モデル化されたログにおいては、変数部分が具体的な時刻やIPアドレスになっている。
 モデル化が未実行の部分モデルがなくなると(ステップS14、NO)、モデルマージ部110は、モデル化部108により複数の部分ログの各部分ログについて生成された複数のモデルをマージする(ステップS18)。また、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する。例えば、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成してその対応関係を取得する。
 図7は、モデルマージ部110によりマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表の例を示している。図7に示す対応表T1には、図6に示す第1のモデルM1、第2のモデルM2及び第3のモデルM3にそれぞれ含まれる複数のモデルの各モデルがマージされている。また、図7に示す対応表T1には、マージされた各モデルが、図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログで成立するかが示されている。すなわち、対応表T1には、マージされた各モデルの生成に、図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログが寄与したかを示す対応関係が示されている。
 図7において、部分ログでの成立の有無を示す列は、8個のモデルのそれぞれが第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうち、いずれの部分ログで成立するかが示されている。8個のモデルのそれぞれの生成に、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログが寄与したかが示されている。対応表T1中の「〇」は、当該モデルが当該部分ログで成立する、すなわち、当該モデルの生成に当該部分ログが寄与したことを示している。一方、対応表T1中の「×」は、当該モデルが当該部分ログで成立しない、すなわち、当該モデルの生成に当該部分ログが寄与しなかったことを示している。例えば、モデルIDが1のモデルは、第1の部分ログPL1及び第3の部分ログPL3で成立するのに対して、第2の部分ログPL2では成立しないことが示されている。
 次いで、決定部112は、モデルマージ部110により取得された上記の対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する(ステップS20)。
 具体的には、決定部112は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部112は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。
 次いで、決定部112は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。次いで、決定部112は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。
 ペナルティの合計後、決定部112は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定する。
 例えば、図7に示す例において、モデルIDが1のモデルは、上述のように第1の部分ログPL1及び第3の部分ログPL3で成立するのに対して、第2の部分ログPL2では成立しない。すなわち、モデルIDが1のモデルの生成には、第1の部分ログPL1及び第3の部分ログPL3が寄与しているのに対して、第2の部分ログPL2は寄与していない。このため、モデルIDが1のモデルについて、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうち、少数派の部分ログ群に含まれるのは、第2の部分ログPL2である。したがって、決定部112は、モデルIDが1のモデルについて、第2の部分ログPL2にペナルティを付与する。ペナルティは、適当な定数、具体的には例えば1とする。
 図7に示す例において、上記のようにして付与されたペナルティを各部分ログについて合計すると、第1の部分ログPL1のペナルティの合計は1、第2の部分ログPL2のペナルティの合計は4、第3の部分ログPL3のペナルティの合計は3と算出される。
 なお、決定部112は、上述のように部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。例えば部分ログの総数をN、少数派の部分ログ数をMとして、ペナルティは、例えば、自然対数を用いて、-log(M/N)で計算することができる。図7に示す例の場合、例えば、モデルIDが1のモデルに関する第2の部分ログPL2のペナルティは、-log(1/3)=1.10となる。仮に、部分ログの総数が10あり、少数派の部分ログ数が2であれば、その少数派の部分ログに付与されるペナルティは、-log(2/10)=1.61となる。
 また、あるモデルの生成に複数の部分ログのうちのすべてが寄与する又は寄与しない場合には、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。また、複数の部分ログが偶数であり、あるモデルの生成に寄与する部分ログの数と寄与しない部分ログの数とが同数である場合にも、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。
 また、決定部112は、少数派の部分ログの決定とともに、計算されたペナルティの合計の高い順に部分ログをランキングすることもできる。
 なお、上述のように、決定部112は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。
 決定部112は、上記のようにして決定した、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを出力部114に通知する。この通知を受けた出力部114は、決定部112により通知された特異性の最も高い部分ログを表示部30に出力して表示部30に表示させる(ステップS22)。なお、決定部112は、ペナルティの合計に基づいて部分ログをランキングしたランキング結果を出力部114に通知することもできる。この場合、通知を受けた出力部114は、決定部112により得られたランキング結果を表示部30に出力して表示部30に表示させる。
 また、出力部114は、モデルマージ部110により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部30に出力して表示部30に表示させることもできる。例えば、出力部114は、図7に示すような対応表T1を表示部30に出力して表示部30に表示させることもできる。
 上述のように、本実施形態によれば、対象システム2で生成されたログから抽出した複数の部分ログについて、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを機械的に特定することができる。ここで、対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された特異性の最も高い部分ログは、異常を含んでいる可能性が最も高いとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含んでいる可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、対象システム2における異常を識別して特定することが可能となる。具体的には、対象システム2に異常が発生している期間や、異常の起きているネットワーク領域(IPアドレス帯)、異常が起きている装置又は装置群等を識別して特定することが可能となる。
 また、本実施形態では、異常を識別するための計算量、すなわち、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログの特定に必要な計算量を小さいものとすることができる。すなわち、本実施形態において、少数派の部分ログの特定に必要な計算量は、1つの部分ログのログ量をAとし、部分ログのモデル化にかかる計算量をログ量に関する関数f(A)で表し、部分ログの個数をNとすると、f(A)・Nで表される。一方、前記特許文献1に記載された方法では、学習後の異常測度の計算が必要なほか、モデル化に対応する学習にかかる計算量が大きくなる。例えば、部分ログが3つあり、それぞれ同じログ量である場合を想定し、異常測度の計算にログ量の関数でg(A)かかるとすると、特許文献1に記載された方法の計算量は(f(2A)+g(A))・Nとなる。したがって、本実施形態では、特許文献1に記載された方法と比較して、異常を含む可能性のある部分ログをより小さい計算量で効率的に特定することが可能である。
 また、本実施形態では、特異性が最も高い部分ログが異常を含んでいる可能性があるとみなすことができるため、特許文献1に記載された方法とは異なり、異常の度合いを表す異常測度を定義する必要がない。したがって、本実施形態では、ユーザの負担を軽減することができる。
 以上のとおり、本実施形態によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。
 なお、決定部112は、複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログを強調してもよい。少数派の部分ログ群に含まれる部分ログを強調する方法は特に限定されるものではなく、特定の色や印により強調する方法等の種々の方法で強調することができる。
 図8に示す対応表T2は、図7に示す対応表T1において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログについて、対応するセルの背景をハッチングで強調したものである。対応表T2において、例えば、モデルIDが1のモデルについて、少数派の部分ログ群に含まれる部分ログである第2の部分ログPL2に対応するセルの背景がハッチングで強調されている。
 図8に示す対応表T2が得られた場合において、例えばモデルIDが7のモデルに該当するログが異常を示すログである可能性が高いことをユーザが知っていたときを想定する。このとき、ユーザは、異常を示すログである可能性が高いログが存在することを、対応表T2のモデルIDが7の行で強調された「〇」から容易に認識することができる。さらに、ユーザは、当該ログが含まれる部分ログが第2の部分ログPL2であることを容易に辿ることができる。これにより、対応表T2から、異常を含む可能性のある部分ログをより効率的に特定することができる。
 [他の実施形態]
 上記各実施形態において説明した異常識別システムは、他の実施形態によれば、図9に示すように構成することもできる。図9は、他の実施形態による異常識別システムの機能構成を示すブロック図である。
 図9に示すように、他の実施形態による異常識別システム2000は、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部2002を有している。また、異常識別システム2000は、ログ抽出部2002により抽出された複数の部分ログからモデルを生成するモデル化部2004を有している。また、異常識別システム2000は、モデル化部2004により生成されたモデルとモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部2006を有している。
 さらに、異常識別システム2000は、決定部2008を有している。決定部2008は、対応関係取得部2006により取得された対応関係に基づき、複数の部分ログを、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。また、決定部2008は、少数派の部分ログ群に基づき、複数の部分ログのうち、モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する。
 [変形実施形態]
 本発明は、上記実施形態に限らず、種々の変形が可能である。
 例えば、上記実施形態では、ログ抽出部106は、対象ログを分割して複数の部分ログを抽出する場合を例に説明したが、これに限定されるものではない。ログ抽出部106は、対象システム2で生成された対象ログを分割することなく、所定の抽出条件に従って対象ログから複数の部分ログを抽出してもよい。
 また、上記実施形態では、モデルマージ部110が、各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表を作成する場合を例に説明したがこれに限定されるものではない。モデルマージ部110は、表形式にかぎらず、種々の形式で、各モデルとそのモデルが生成された部分ログとの対応関係を取得することができる。
 また、上述の各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のコンピュータプログラムが記録された記録媒体はもちろん、そのコンピュータプログラム自体も各実施形態に含まれる。
 該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM(Compact Disc-Read Only Memory)、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 上述の各実施形態の機能により実現されるサービスは、SaaS(Software as a Service)の形態でユーザに対して提供することもできる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、
 前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
 前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
 前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
 を有することを特徴とする異常識別システム。
 (付記2)
 前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
 前記決定部は、
 前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
 前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記1記載の異常識別システム。
 (付記3)
 前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記2記載の異常識別システム。
 (付記4)
 前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記2又は3に記載の異常識別システム。
 (付記5)
 前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記2乃至4のいずれかに記載の異常識別システム。
 (付記6)
 前記対応関係取得部は、前記対応関係を示す対応表を作成し、
 前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記1乃至5のいずれかに記載の異常識別システム。
 (付記7)
 所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
 前記複数の部分ログからモデルを生成し、
 前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
 前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
 前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
 ことを特徴とする異常識別方法。
 (付記8)
 前記複数の部分ログから複数の前記モデルを生成し、
 前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記2つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
 前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記7記載の異常識別方法。
 (付記9)
 前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記8記載の異常識別方法。
 (付記10)
 前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記8又は9に記載の異常識別方法。
 (付記11)
 前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記8乃至10のいずれかに記載の異常識別方法。
 (付記12)
 前記対応関係を示す対応表を作成し、
 前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記7乃至11のいずれかに記載の異常識別方法。
 (付記13)
 コンピュータに、
 所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
 前記複数の部分ログからモデルを生成し、
 前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
 前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
 前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
 ことを実行させることを特徴とするプログラムが記録された記録媒体。
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2016年12月12日に出願された日本出願特願2016-240125を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1…異常識別システム
2…対象システム
10…処理部
20…記憶部
106…ログ抽出部
108…モデル化部
110…モデルマージ部
112…決定部

Claims (13)

  1.  所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、
     前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
     前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
     前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
     を有することを特徴とする異常識別システム。
  2.  前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
     前記決定部は、
     前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
     前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項1記載の異常識別システム。
  3.  前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項2記載の異常識別システム。
  4.  前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする請求項2又は3に記載の異常識別システム。
  5.  前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする請求項2乃至4のいずれか1項に記載の異常識別システム。
  6.  前記対応関係取得部は、前記対応関係を示す対応表を作成し、
     前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする請求項1乃至5のいずれか1項に記載の異常識別システム。
  7.  所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
     前記複数の部分ログからモデルを生成し、
     前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
     前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
     前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
     ことを特徴とする異常識別方法。
  8.  前記複数の部分ログから複数の前記モデルを生成し、
     前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記2つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
     前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項7記載の異常識別方法。
  9.  前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項8記載の異常識別方法。
  10.  前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする請求項8又は9に記載の異常識別方法。
  11.  前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする請求項8乃至10のいずれか1項に記載の異常識別方法。
  12.  前記対応関係を示す対応表を作成し、
     前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする請求項7乃至11のいずれか1項に記載の異常識別方法。
  13.  コンピュータに、
     所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
     前記複数の部分ログからモデルを生成し、
     前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
     前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
     前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
     ことを実行させることを特徴とするプログラム。
PCT/JP2017/043325 2016-12-12 2017-12-01 異常識別システム、方法及び記録媒体 WO2018110327A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/463,876 US20190294523A1 (en) 2016-12-12 2017-12-01 Anomaly identification system, method, and storage medium
JP2018556575A JP6988827B2 (ja) 2016-12-12 2017-12-01 異常識別システム、方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-240125 2016-12-12
JP2016240125 2016-12-12

Publications (1)

Publication Number Publication Date
WO2018110327A1 true WO2018110327A1 (ja) 2018-06-21

Family

ID=62558662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/043325 WO2018110327A1 (ja) 2016-12-12 2017-12-01 異常識別システム、方法及び記録媒体

Country Status (3)

Country Link
US (1) US20190294523A1 (ja)
JP (1) JP6988827B2 (ja)
WO (1) WO2018110327A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7286439B2 (ja) * 2019-06-27 2023-06-05 株式会社東芝 監視制御システム、情報処理装置、情報処理方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055853A (ja) * 2000-05-31 2002-02-20 Toshiba Corp ログ比較デバッグ支援装置および方法およびプログラム
JP2003203001A (ja) * 2001-12-28 2003-07-18 Toshiba Corp ログ解析方法、ログ解析プログラム
JP2006155064A (ja) * 2004-11-26 2006-06-15 Ricoh Co Ltd 情報処理装置及び同装置に用いるプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055853A (ja) * 2000-05-31 2002-02-20 Toshiba Corp ログ比較デバッグ支援装置および方法およびプログラム
JP2003203001A (ja) * 2001-12-28 2003-07-18 Toshiba Corp ログ解析方法、ログ解析プログラム
JP2006155064A (ja) * 2004-11-26 2006-06-15 Ricoh Co Ltd 情報処理装置及び同装置に用いるプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN112579327B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备

Also Published As

Publication number Publication date
JPWO2018110327A1 (ja) 2019-10-24
US20190294523A1 (en) 2019-09-26
JP6988827B2 (ja) 2022-01-05

Similar Documents

Publication Publication Date Title
JP2018045403A (ja) 異常検知システム及び異常検知方法
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6669156B2 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
JP4483807B2 (ja) ログフォーマット変換装置、ログフォーマット変換方法、及びログフォーマット変換プログラム
JP6714152B2 (ja) 分析装置、分析方法及び分析プログラム
US20140006332A1 (en) Scientometric Methods for Identifying Emerging Technologies
JP2016012193A (ja) 抽出方法、装置、及びプログラム
Srinivasan et al. Predicting high-cost patients at point of admission using network science
US11120143B2 (en) Data analysis server, data analysis system, and data analysis method
WO2018110327A1 (ja) 異常識別システム、方法及び記録媒体
Park et al. A big data analytics framework for hpc log data: Three case studies using the titan supercomputer log
CN115033876A (zh) 日志处理方法、日志处理装置、计算机设备及存储介质
JP6201079B2 (ja) 監視システムおよび監視方法
JP7274162B2 (ja) 異常操作検知装置、異常操作検知方法、およびプログラム
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP2016024486A (ja) データ活用システム及びその制御方法
JP2016177728A (ja) データ分析装置、及びデータ分析方法
JP2022165476A (ja) 設備id推論方法および設備id推論装置
Makanju et al. Interactive learning of alert signatures in high performance cluster system logs
US11347765B2 (en) Data processing apparatus and data processing method
Jayaweera et al. Detect anomalies in cloud platforms by using network data: a review
JP7106924B2 (ja) クラスタ分析システム、クラスタ分析方法およびクラスタ分析プログラム
CN111522644B (zh) 基于历史运行数据预测并行程序运行时间的方法
JP2019144873A (ja) ブロック線図解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17880539

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018556575

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17880539

Country of ref document: EP

Kind code of ref document: A1