WO2017037801A1 - 監視システムおよび監視方法 - Google Patents

監視システムおよび監視方法 Download PDF

Info

Publication number
WO2017037801A1
WO2017037801A1 PCT/JP2015/074517 JP2015074517W WO2017037801A1 WO 2017037801 A1 WO2017037801 A1 WO 2017037801A1 JP 2015074517 W JP2015074517 W JP 2015074517W WO 2017037801 A1 WO2017037801 A1 WO 2017037801A1
Authority
WO
WIPO (PCT)
Prior art keywords
log
event
monitoring
correlation value
pair
Prior art date
Application number
PCT/JP2015/074517
Other languages
English (en)
French (fr)
Inventor
慶行 但馬
進 芹田
眞見 山崎
修一郎 崎川
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2017501743A priority Critical patent/JP6201079B2/ja
Priority to PCT/JP2015/074517 priority patent/WO2017037801A1/ja
Publication of WO2017037801A1 publication Critical patent/WO2017037801A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Definitions

  • the present invention relates to a monitoring system and a monitoring method for monitoring various systems.
  • General system monitoring software provides a flexible search function and a pre-registered rule (data threshold check and appearance pattern) for the purpose of saving labor for the user.
  • a pre-registered rule data threshold check and appearance pattern
  • Patent Document 1 performance information for each of a plurality of types of performance items is acquired from a plurality of managed devices, a correlation model is generated from performance sequence information indicating a time series change of the performance information, and newly acquired performance information Based on the above, a technique for analyzing a change in a correlation model is disclosed.
  • Patent Document 1 since the technology described in Patent Document 1 is intended for performance information typified by the usage status of CPU (Central Processing Unit) and memory, it is only a state of one side of various devices and equipment with built-in computers and computers. Cannot monitor. In other words, information such as syslog and middleware log (Web server log, communication log, etc.) including the internal status of many computers in the monitored system cannot be used, especially combining products from multiple manufacturers. In a monitoring target system constructed in this way, sufficient information for monitoring cannot be obtained from performance information alone.
  • CPU Central Processing Unit
  • middleware log Web server log, communication log, etc.
  • performance information such as CPU and memory usage can be collected on a regular basis and changes relatively smoothly with respect to the time axis.
  • the performance information is a one-dimensional real number or a low-dimensional real vector at the time of collection.
  • a general correlation such as Pearson's product-moment correlation
  • there is a high possibility of fitting well to a statistical model such as a low-order linear polynomial.
  • a log is a set of events including at least a message expressed in date and time, and the numerical expression of each event is not self-evident.
  • a monitoring system that can utilize a log that is sufficient information for monitoring and that is unsteady and whose numerical expression is not obvious is desired.
  • the disclosed monitoring system generates a distributed representation of an event included in a first log that is output from the monitored system and includes at least a time and a message, and relates to the distributed representation of the set of two types of events.
  • a first correlation value of a pair of events whose time is within a predetermined time is calculated, a first log pair corresponding to a first correlation value equal to or greater than a predetermined value is selected, and a first log pair is configured.
  • a monitoring target selection unit that generates a function for extracting an event to be monitored from a set of events included in the first log, and a second log output from the active monitoring target system.
  • an event to be monitored using a function from a set of events included in the second log constituting the second log pair Extracts and calculates a second correlation value of the extracted pair of events, with a monitoring unit for detecting a change from the first correlation value to the second correlation value.
  • monitoring is performed based on the correlation of logs output from a computer system that supports an information communication service or social infrastructure service or a system (called a monitoring target system) that includes various devices / equipment with a built-in computer.
  • a monitoring target system that includes various devices / equipment with a built-in computer.
  • the monitoring system process selects the log pair (combination) whose correlation value is greater than or equal to a predetermined value from the normal logs output by the monitoring target system, and selects the monitoring target from the event group of each log.
  • a monitoring target selection phase that generates a function that extracts a subset of events, and a monitoring phase that monitors the logs output by the monitoring target system and presents the status to the operation supervisor if there is a significant change in the correlation. It is divided into.
  • the monitoring system analyzes the OS and middleware logs collected from each device that makes up the monitoring target system, and uses collocations (language expressions) such as words and idioms contained in the logs, or IP addresses, etc.
  • the computer-specific expressions are extracted, registered in the dictionary, and IDs are assigned to the registered expressions.
  • a low-dimensional dense real vector is generated using the event message represented by the ID.
  • a log pair whose correlation value of a subset of the event group is equal to or greater than a predetermined value is selected as a monitoring target.
  • a non-linear correlation value based on independence such as MIC (Maximal information coefficient) or Hilbert-Schmidt independence criterion is used as the correlation value.
  • a function for extracting a subset of events to be monitored from the event group of each log referred to as a monitoring event discrimination function is generated.
  • the monitoring system executes the following processing for the log pair selected in the monitoring target selection phase.
  • a subset of the event group of the log to be monitored is extracted from the operating log of the monitoring target system using the monitoring event discriminant function.
  • a distributed expression is generated in the same procedure as in the monitoring target selection phase, and a correlation value is calculated.
  • the change is notified to the operation supervisor.
  • the operation monitor can automatically monitor the log by selecting the normal log pair as the monitoring target.
  • Fig. 1 shows a configuration example of a monitoring system.
  • the monitoring system 1 selects a pair of logs that are highly correlated to be monitored, a selection server 11 that generates a function that extracts a subset of events to be monitored from an event group of each log, and a selection A monitoring server 12 that monitors the correlation value of the pair of logs that has been recorded, and a display terminal 13 that presents the situation to the operation supervisor when a change is detected in the correlation value.
  • the selection server 11, the monitoring server 12, and the display terminal 13 are connected by a network such as a LAN (Local Area Network).
  • the monitoring server 12 is connected to each subsystem of the monitoring target system 2 described later via a network such as a LAN.
  • the monitored system 2 includes one or more monitored devices 21.
  • Each monitored device 21 is connected by a network such as a LAN.
  • each subsystem such as the selection server 11 of the monitoring system 1, each subsystem that is each monitored device 21 of the monitoring target system 2, and the monitoring system 1 and the monitoring target system 2 are LAN or the like.
  • each connection may be connected via another network such as WWW (World Wide Web).
  • each said subsystem is an example, Comprising: The number of subsystems may be increased / decreased, and even if connected by one network, it may be further divided into layers and connected.
  • the selection server 11 and the monitoring server 12 may be the same server, or the selection server 11 and the monitoring server 12 may be configured by a plurality of servers in a distributed manner.
  • the data management unit 114 included in the selection server 11 may be another computer such as a data management server.
  • FIG. 2 is a hardware configuration example of a server (computer) that implements each subsystem of the monitoring system 1. With reference to FIGS. 1 and 2, the configuration of each subsystem and the correspondence between the hardware will be described.
  • Each processing unit of the distributed representation generation unit 111, the correlation calculation unit 112, the monitoring target selection unit 113, and the data management unit 114 included in the selection server 11 includes a CPU (Central Processing Unit) 1101 and a ROM (Read Only Memory) 1102 or By reading a program stored in the external storage device 1104 into a RAM (Read Access Memory) 1103 and executing the read program, a communication interface (I / F) 1105, an input device 1106 represented by a mouse, a keyboard, etc., This is realized by controlling an output device 1107 typified by a display or the like.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • Each processing unit of the distributed representation generation unit 121, the correlation calculation unit 122, and the monitoring unit 123 included in the monitoring server 12 causes the CPU 1101 to read the program stored in the ROM 1102 or the external storage device 1104 into the RAM 1103, and execute the read program
  • the communication I / F 1105, the input device 1106 typified by a mouse and a keyboard, and the output device 1107 typified by a display are controlled.
  • the display unit 131 provided in the display terminal 13 is typified by a communication I / F 1105, a mouse, a keyboard, and the like when the CPU 1101 reads a program stored in the ROM 1102 or the external storage device 1104 into the RAM 1103 and executes the read program. This is realized by controlling the input device 1106 and the output device 1107 typified by a display.
  • Processing such as data management service and resource optimization provided in the monitored device 21 is performed by the CPU 1101 reading a program stored in the ROM 1102 or the external storage device 1104 into the RAM 1103 and executing the read program. This is realized by controlling a communication I / F 1105, an input device 1106 typified by a mouse or a keyboard, and an output device 1107 typified by a display.
  • FIG. 3 shows a specific example 140 of logs collected by the monitoring server 12 from the monitoring target system 2.
  • Log 140 typically includes one or more events.
  • the log 140 is an example of syslog which is one of logs common in BSD (registered trademark) or Linux (registered trademark) OS.
  • Each event is often described with the date and time (time) when the event was generated, the name of the issued data source, and a short text representing the content of the event.
  • the event on the first line of the log 140 is “May 1 10:00:00” when the event was generated, the data source name is “machine1 anacron [1055]”, and the event content is “Job ⁇ . cron.daily 'terminated ”.
  • event importance (info, error, etc.) is given.
  • one event information is described in one line in syslog, web server log, and the like, but in other types of logs, information may be described in more detail over a plurality of lines.
  • the part excluding the date and time and the data source name is generically called a message.
  • FIG. 4 is an example of log data 150 collected by the monitoring server 12 from the monitoring target system 2 and accumulated in the data management unit 114 of the selection server 11.
  • the log data 150 is data in which each event included in the log is associated with one record in the table, and includes items of a log ID 151, a date and time 152, a data source name 153, and a message 154.
  • the content of each item corresponding to the log ID 151 is basically the same as the original log 140.
  • the date 152 is standardized in a format common to ISO8601 and the like.
  • FIG. 5 is an example of the monitoring target data 160 managed by the data management unit 114 of the selection server 11.
  • the monitoring target data 160 is data relating to parameters related to the log pair (log 1, log 2) selected by the monitoring target selection unit 113 of the selection server 11, and is expected to be a monitoring ID 161 that identifies a monitoring unit.
  • a correlation value 162 indicating the correlation level of the log
  • log 1-ID 163 indicating the identifier of each log of the pair
  • log 2-ID 164 log 2-ID 164
  • Log 1 that represents the parameters of the function 1-Event discriminant function parameter 165, Log 2 that represents the event discriminant function parameter 166, Log 1 that represents the parameter of the function that determines which cluster the event included in each log of the pair belongs to A discriminant function parameter 167 and a log 2-cluster discriminant function parameter 168 are provided.
  • the parameters of the event discrimination function are real-valued strings representing SVM parameters, cluster discrimination
  • the parameter of the function is a list for the number of clusters in the real value sequence representing the position of the center of gravity.
  • SVM and K-means are used, but other methods such as logistic regression and perceptron for event discrimination, spectral clustering and information amount maximization clustering for cluster discrimination may be used. In that case, parameters according to the technique to be used are set in each item (165 to 168).
  • FIG. 6 is an example of a distributed representation generation model parameter 170 for generating a distributed representation.
  • the parameter is essentially a weight matrix.
  • the number of vertical elements of the weight matrix is the number of IDs of words (expressions) registered in the dictionary, and the number of horizontal elements is the number of distributed expressions themselves set by the system designer.
  • the ID of the word (expression) registered in the dictionary is obtained by analyzing the OS and middleware logs collected from each device 21 constituting the monitoring target system 2 and using a collocation (language expression) such as words and idioms included, or IP It is an identifier given to extract a computer-specific expression such as an address and register it in the dictionary.
  • the distributed representation generation model parameter 170 includes a log ID 171 that identifies a log and a parameter 172 that represents a weight matrix.
  • a model obtained by extending Skipgram is used, but other methods such as a neural language model using Recurrent Neuralnetwork may be used.
  • the parameter 172 is set according to the method used.
  • FIG. 7 is an example of the operating correlation value data 180 calculated by the monitoring unit 123 of the monitoring server 12 and managed by the data management unit 114 of the selection server 11.
  • the operating correlation value data 180 is time series data of correlation values for each monitoring ID calculated by the monitoring unit 123 using data in operation (the monitoring target system 2 is in operation), and the monitoring ID 181 (into the monitoring ID 161). Correspondence), date and time 12, and correlation value 183.
  • the operating correlation value data 180 is data displayed on the display unit 131 of the display terminal 13.
  • FIG. 8 is a process flowchart of the monitoring target selection process for two types of logs by the monitoring target selection unit 113. It is assumed that the monitoring server 12 collects normal logs of the monitoring target system 2 prior to the execution of this processing, and the log data 150 has been registered in the data management unit 114 of the selection server 11.
  • the monitoring target selection unit 113 uses the distributed representation generation unit 111 to perform a distributed representation that is a low-dimensional dense real vector of events based on events that occur before and after each event from the log data 150 of the data management unit 114. Is generated (S101). A method of generating a distributed expression by the distributed expression generating unit 111 will be described later.
  • the monitoring target selection unit 113 clusters the events of the log data 150 into K pieces using the generated distributed expression (S102).
  • K is set to 100, and the K-means method is used for clustering.
  • the value of K can be set to another value in view of the complexity of the vocabulary included in the log data 150 and the computer resources of the selection server 11 and the monitoring server 12. Other clustering methods may be used.
  • abstraction processing such as auto encoder or RestrictedReBoltzmann Machine (RBM) may be executed one or more times.
  • the monitoring target selection unit 113 uses the distributed representation generation unit 111 and the correlation calculation unit 112 to determine a correlation value for a log with a certain two log IDs 151 based on a combination of power sets when each cluster is a single element.
  • a cluster combination (pair) that is equal to or greater than the value and has a large range in which correlation can be calculated is selected (S103).
  • a correlation calculation method, a method of determining the size of a range in which correlation calculation is possible, and a cluster combination (pair) selection method by the distributed representation generation unit 111 and the correlation calculation unit 112 will be described later.
  • the monitoring target selection unit 113 checks whether there is a selected log pair (selected pair) (S104). If the selected pair does not exist, the process ends.
  • the monitoring target selecting unit 113 learns the monitoring event discriminant function (determines the parameter of the discriminant function) for discriminating the event used for the correlation calculation for each log included in the selected pair (S105). ).
  • the monitoring event discriminating function is used to discriminate whether or not an operation event (unknown event) is used for correlation calculation when the monitoring target system 2 is monitored.
  • SVM is used as the discriminant function model, and the distributed representation is used as it is as input. Note that other models such as logistic regression may be used. Further, other information such as the data source name 153 may be added to the input.
  • a function to be discriminated may be configured with the cluster learned in S106 as an input.
  • the monitoring target selecting unit 113 learns a cluster discriminant function for discriminating a cluster of events used for correlation calculation for each log included in the selected pair (S106).
  • the cluster discriminant function is used to discriminate which cluster an unknown event is assigned to when the monitored system 2 is monitored.
  • the cluster discriminant function is a function that stores a centroid vector and assigns a cluster having the nearest centroid. Note that the cluster discriminant function may be learned by multivalued SVM or logistic regression based on the idea of Self-taught learning.
  • the monitoring target selection unit 113 registers the content calculated or learned as described above as the monitoring target data 160 in each item of the correlation value 162 to the log 2 -cluster discrimination function parameter 168 in association with the monitoring ID 161 ( S107). Each item may be registered each time a calculation or learning result is obtained.
  • FIG. 9 and 10 are used to explain the event distributed expression generation processing (S101).
  • FIG. 9 is a process flowchart of the distributed representation generation unit 111.
  • FIG. 10 is a diagram illustrating a model obtained by extending Skipgram.
  • the distributed expression generation unit 111 parses (parses) the message 154 of each event in the log data 150, and extracts a collocation (language expression) such as an included word or idiom, or a computer-specific expression such as an IP address. (S201). At this time, the distributed expression generation unit 111 may extract only function words such as nouns and verbs.
  • the distributed expression generation unit 111 adds an expression ID unique to the expression such as the extracted word or phrase, and registers it in the dictionary (S202).
  • the expression ID is a natural number (0, 1, 2,).
  • the expression ID 0 is a special ID indicating that no event exists. This usage will be described later.
  • the distributed expression generation unit 111 creates a list of expression IDs corresponding to the message part 154 of each event in the log data 150 (S203).
  • the distributed expression generation unit 111 learns the distributed expression generation model of each event based on the events that occurred before and after using the model obtained by extending the Skipgram shown in FIG. 10 for the same log ID 151. Then, the learning result of the distributed representation generation model (Wi described later) is associated with the log ID 171 for each log ID 151 and registered in the parameter 172 of the distributed representation generation model parameter 170 (S204).
  • each vector of the input layer 1211 and the output layer 1213 is the total number of dictionary expression IDs, and each element of the vector corresponds to the value of each expression ID.
  • the dimension of the intermediate layer 1212 is 500, and the number of contexts of the output layer 1213 is 10 (t-5, t-4, t-3, t-2, t-1, t + 1, t + 2, t + 3, t + 4, t + 5). To do.
  • Wi (1214) and Wo (1215) are matrices that are the total number of dictionary expression IDs ⁇ 500 and 500 ⁇ total number of dictionary expression IDs, respectively, and are parameters of the distributed expression generation model.
  • the input layer 1211 at the time of learning is given a sparse vector expressed in x of K such that the element included in the list of expression IDs of the event e (t) is 1 and the others are 0.
  • the events (e (t-5) to e (t + 5)) occurring before and after are included in the list of event expression IDs as in the event e (t), and 0 otherwise.
  • This is a sparse vector expressed as x of K.
  • Expression ID 0 (special ID) is given.
  • a stochastic gradient descent method or the like can be used for learning this distributed expression generation model. As a result of learning, Wi becomes a learning result of the distributed expression generation model.
  • the distributed expression is given by Wi e (t).
  • the distributed representation generation unit 111 generates the distributed representation of each log event using the distributed representation generation model parameter 172 learned, and ends the processing (S205).
  • FIG. 11 is a process flowchart of the correlation calculation unit 112.
  • the correlation calculation unit 112 initializes the selection list to be empty (S301).
  • the correlation calculation unit 112 calculates, for each log of the log data 150, a correlation value and a sampling success rate regarding an event group (cluster combination) of a cluster obtained by clustering the events of the log data 150 into K pieces (S302). For example, if there is a cluster ⁇ A, B, C ⁇ in log 1 and a cluster ⁇ D, E, F ⁇ in log 2, the cluster combination is ⁇ A: D ⁇ , ⁇ A: E ⁇ , ⁇ A: F ⁇ , ⁇ B: D ⁇ , ⁇ B: E ⁇ , ⁇ B: F ⁇ , ⁇ C: D ⁇ , ⁇ C: E ⁇ , ⁇ C: F ⁇ .
  • ⁇ A: D ⁇ represents a combination of the cluster A of the log 1 and the cluster D of the log 2, and so on. For these combinations, a correlation value and a sampling success rate are calculated. The calculation of the correlation value and the sampling success rate will be described later.
  • the correlation calculation unit 112 checks whether there is a combination of clusters having a correlation value equal to or greater than a predetermined value (S303). If there is a cluster combination greater than or equal to the predetermined value, the process proceeds to S304. If not, the process proceeds to S308.
  • the predetermined value is set to 0.85 and whether or not the correlation value is 0.85 or more is confirmed, but an appropriate value can be set as the predetermined value as appropriate according to the log.
  • the correlation calculation unit 112 adds the combination of clusters with a correlation value equal to or greater than the predetermined value, the correlation value, and the sampling success rate to the selection list (S304).
  • the correlation calculation unit 112 checks whether the combination of clusters matches the original log ( ⁇ A: D ⁇ , ⁇ A: E ⁇ ,..., ⁇ C: F ⁇ in the above example) (S305). ). If they match, the process proceeds to S308. If not, the process proceeds to S306.
  • the correlation calculation unit 112 If the cluster combination does not match the original log, the correlation calculation unit 112 generates a new cluster combination obtained by integrating the cluster combinations having a correlation value equal to or greater than a predetermined value (S306).
  • a predetermined value ⁇ A, D ⁇ , ⁇ A, E ⁇ , ⁇ C, F ⁇
  • ⁇ A: (D, E) ⁇ , ⁇ (A, C): (D, F) ⁇ and ⁇ (A, C): (E, F) ⁇ are new cluster combinations.
  • (D, E) represents a new cluster in which events included in clusters D and E are integrated, and so on.
  • the correlation calculation unit 112 calculates the correlation value and the sampling success rate for the new cluster combination (S307), and returns to S303. The calculation of the correlation value and the sampling success rate will be described later.
  • the correlation calculation unit 112 Through the above-described processing of the correlation calculation unit 112, it is possible to exhaustively search for a combination of clusters while appropriately omitting calculation of a combination of clusters having a small correlation value. If higher speed is required, the number of clusters given in advance may be further reduced. In the first place, if it is expected that a high correlation value can be obtained without performing division processing in the logs of the devices constituting the multiplex system, the entire device (multiplex device) is not divided into subsets (individual devices). ) To calculate the correlation value.
  • FIG. 12 is a process flowchart of the calculation of the correlation value and the sampling success rate (S302 and S307 in FIG. 11) by the correlation calculation unit 112.
  • the correlation calculation unit 112 initializes the sample list to be empty, and initializes the variables CNT and SUCESS to 0 (S401).
  • the correlation calculation unit 112 randomly selects a time from a time set in a range in which the time of the oldest event of the two event groups that are targets of correlation value calculation is the lower limit and the time of the newest event is the upper limit (S402). ). Let the selected time be time t.
  • the correlation calculation unit 112 extracts events included in the two event groups from time t- ⁇ to time t + ⁇ (S403).
  • ⁇ (minute time) is 1 minute.
  • ⁇ (minute time) is a time for assuming that the event has occurred substantially at time t, and therefore ⁇ may be another value depending on the target log.
  • the correlation calculation unit 112 confirms whether or not there are one or more events that meet the condition in S403 in each of the two event groups (S404). If there is an event that matches the condition, the process proceeds to S405. If not, the process proceeds to S407.
  • each event group If there is a matching event in S404, for each event group, one from each extracted event is sampled with a probability distribution proportional to the inverse of the square of the time of each event, and sampled in the sample list The two events are registered (S405).
  • the probability distribution is proportional to the reciprocal of the square of the time.
  • other probability distributions such as a probability distribution proportional to the reciprocal may be used.
  • the correlation calculation unit 112 increments the variable SUCESS by 1 (S406), and increments the variable CNT (S407).
  • the correlation calculation unit 112 checks whether the variable SUCESS is smaller than the specified number of times (S407).
  • the designated number in this embodiment is 1000. If smaller than the designated number, the process proceeds to S402. If not, the process proceeds to S409.
  • the correlation calculation unit 112 calculates MIC, which is a kind of correlation value based on independence, using 1000 samples in the sample list, and ends the processing (S410). Specifically, each clustering result (cluster number) corresponding to each sample in the sample list is compared. Note that the result of clustering with a cluster number M larger than the above-described cluster number K may be used to calculate the correlation value.
  • the above is the basic correlation calculation procedure, but it is also possible to calculate the correlation by shifting the time of two logs and adopt the highest correlation value.
  • the nonlinear correlation of the clustered result is calculated, for example, the nonlinear correlation of the result of the principal component analysis or the independent component analysis of the variance expression may be calculated.
  • the cluster number is common between the two logs by comparing the same type of logs or clustering the events of the two logs together, each log included in the sample list For an event, a distribution such as the number of elements of the corresponding cluster may be calculated, and the divergence between the distributions may be used as the correlation value.
  • FIG. 13 is a process flowchart of the monitoring unit 123.
  • the monitoring server 12 collects operating logs from the monitoring target system 2 and the log data 150 has been registered in the data management unit 114 of the selected server 11.
  • the monitoring unit 123 reads the event determination function parameters (165, 166) of each log managed by the data management unit 114, generated by the monitoring target selection process, and uses the monitoring event determination function expressed by the parameters.
  • the event group to be monitored is determined from each log (S501).
  • the monitoring unit 123 reads the cluster discriminant function parameter (167, 168) of each log managed by the data management unit 114 generated by the monitoring target selection process, and uses the cluster discriminant function represented by the parameter, The cluster number of each event in each log is determined (S502).
  • the monitoring unit 123 uses the distributed representation generation unit 121 and the correlation calculation unit 122 to calculate a correlation value according to the same procedure as that for the monitoring target selection process (S503).
  • the distributed expression generation unit 121 is the same process as the distributed expression generation unit 111
  • the correlation calculation unit 122 is the same process as the correlation calculation unit 112.
  • the monitoring unit 123 has a portion in which the calculated correlation value has decreased by a predetermined value 0.3 (a predetermined value related to the decrease range of the correlation value) or more from the value of the correlation value 162 managed by the data management unit 114 for a predetermined period of 5 minutes. If so, the process moves to S505. Otherwise, this process ends (S504).
  • the change is defined based on whether or not there is a portion that fluctuates in a certain period, but an integrated value of the change or the like may be used.
  • correlation value dispersion or the like may be obtained and a threshold value corresponding to the dispersion may be set.
  • the monitoring unit 123 When there is a portion where the correlation value has decreased by a predetermined value or more in S504, the monitoring unit 123 notifies the display unit 131 of the display terminal 13 (S505), and the process is terminated. Upon receiving the notification, the display unit 131 presents the situation and the contents of the log being monitored to the user.
  • FIG. 14 is an example of a monitoring screen 1310 as a main screen that the display unit 131 of the display terminal 13 presents to the user.
  • the monitoring screen 1310 includes a monitoring target list 1311, a suddenly changed monitoring target list 1312, and a monitoring target list 1313.
  • the display unit 131 displays the monitoring ID for identifying the monitoring target (the monitoring ID 161 of the monitoring target data 160), the current correlation value (the correlation value calculated by the monitoring unit 123 in S503), and the correlation value in the monitoring target list 1311.
  • the display unit 131 displays a time series of the monitoring ID of the monitoring target that has changed suddenly (the monitoring ID 161 of the monitoring target data 160) and the latest correlation value (correlation value calculated by the monitoring unit 123 in S503) in the monitoring target list 1312 that has changed suddenly. Changes are displayed as a graph with time on the horizontal axis and correlation values on the vertical axis. Note that a section where a sudden change is detected on the graph is highlighted by changing the hatching or display color. As a result, the user can immediately grasp the location where the abnormality occurred (the location where the log IDs 163 and 164 corresponding to the monitoring ID 161 were generated).
  • the display unit 131 displays a graph similar to the suddenly changed monitoring target list 1312 for all the monitoring targets (monitoring ID 161) in the monitoring target list 1313.
  • the user can view a detailed monitoring screen (type A or type B) to be described later by selecting a list or graph on the monitoring screen 1310 by clicking / tapping or the like.
  • FIG. 15 shows an example of a detail monitoring screen (type A) 1320.
  • the detail monitoring screen (type A) 1320 is one of the detail screens in units of monitoring items displayed when the user selects from the monitoring screen 1310 by clicking, tapping, or the like.
  • the detailed monitoring screen (type A) 1320 includes a graph 1321 representing a time-series change in correlation values (correlation values calculated by the monitoring unit 123 in S503) and a log comparison display 1322.
  • the graph 1321 representing the time-series change of the correlation value is the same as the graph of the monitoring target list 1312 or the monitoring target list 1313 that has suddenly changed.
  • the log comparison display 1322 displays the time and the contents of two logs that are monitored (log IDs 163 and 164 corresponding to the monitoring ID 161). At this time, as shown in the figure, the rows are adjusted and displayed so that events at the same time are displayed side by side. In addition, an event determined as a monitoring target event by the monitoring event determination function is highlighted by changing the display color or hatching. This makes it easy for the user to grasp which event group has lost its correlation.
  • FIG. 16 shows an example of a detail monitoring screen (type B) 1330.
  • the detail monitoring screen (type B) 1330 is one of the detail screens in units of monitoring items displayed when the user selects from the monitoring screen 1310 by clicking, tapping, or the like.
  • the detailed monitoring screen (type B) 1330 includes a graph 1331 representing a time-series change of the correlation value (correlation value calculated by the monitoring unit 123 in S503) and two logs (monitor ID 161 corresponding to the monitoring ID 161). ID 163, 164) or a graph (1332, 1333) representing a time-series change of cluster numbers.
  • the graph 13311 representing the time-series change of the correlation value is the same as the graph of the monitoring target list 1312 or the monitoring target list 1313 that has suddenly changed.
  • the graphs (1332, 1333) representing the time series change of the distributed expression or the cluster number indicate the time series change of the distributed expression or the cluster number of each log (log IDs 163 and 164 corresponding to the monitoring ID 161).
  • the horizontal axis is displayed as a graph with the value of the distributed expression or the cluster number.
  • the distributed representation since the distributed representation is not one-dimensional, the first principal component as a result of the principal component analysis is displayed after dimensional compression.
  • ⁇ (c (t) -c (t + 1) for example, when the cluster number of the event at time t is c (t) so that the display is as smooth as possible
  • the cluster number may be reassigned in advance so that is minimized. Thereby, the visibility of the user's log pattern can be improved.
  • the correlation can be derived and monitored from various combinations of logs that are non-stationary and whose numerical expression is not obvious, so that it is possible to reduce the burden on the operation supervisor for monitoring the system.
  • the distributed representation log is divided by clustering or the like, and the correlation value is obtained for the combination, so that a plurality of types of events are substantially mixed in one log like syslog. Correlation can be found even in such a case.
  • a log that is generally expressed by a character string such as a date and a message can be visually displayed as a time-varying graph by clustering the log that is expressed in a distributed manner into one dimension. .
  • the operation supervisor can grasp a rough pattern of the entire log without bothering to look at the contents of the log.
  • the log output from the monitoring target system is targeted.
  • it is essentially time-series data including date and time and a message
  • the correlation can be obtained by the same method even for a microblog, for example. It can be determined or a change can be detected.
  • monitoring system 1: monitoring system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

監視システムは、監視対象システムから出力され、時刻とメッセージを含むイベントの集合である第1のログに含まれるイベントの分散表現を生成し、2種類のイベントの集合の分散表現に関して、時刻が所定時間内のイベントペアの第1の相関値を算出し、所定値以上の第1の相関値に対応する第1のログペアを選定し、第1のログペアを構成する第1のログに含まれるイベント集合から監視対象イベントを抽出する関数を生成する監視対象選定部、および、稼働中の監視対象システムから出力される第2のログに含まれる、選定された第1のログペアに対応する第2のログペアに関して、第2のログペアを構成する第2ログに含まれるイベントの集合から、関数を用いて、監視対象イベントを抽出し、抽出したイベントのペアの第2の相関値を算出し、第1の相関値から第2の相関値への変化を検出する監視部を有する。

Description

監視システムおよび監視方法
 本発明は、種々のシステムを監視対象とした監視システムおよび監視方法に関する。
 様々な情報通信サービスや社会インフラサービスが、膨大な計算機、および、計算機を内蔵した各種の機器・設備を含むシステムに支えられている。昨今、このようなシステムは、より便利なサービスの提供、高度な最適化のために大規模化・複雑化が進んでいる。また、コスト低減の要請から、第三者が提供するハードウェアやソフトウェア、あるいはOSS(Open Source Software)などを組み合わせて、システムが構築されることが一般化している。このため、ブラックボックスな部分を含むシステムの運用監視が求められ、運用監視者に掛かる負荷は増大している。このため、システムの運用監視の省力化・自動化が強く求められている。
 一般的なシステム監視ソフトウェアは、ユーザの省力化を目的として柔軟な検索機能や予め登録したルール(データの閾値チェックや出現パターン)をチェックする機能を提供している。しかし、これらの機能を活用しても、運用監視者が監視のために見るべきデータは膨大にあり、またルールの登録作業なども負荷となっている。
 特許文献1では、複数の被管理装置から複数種の性能項目毎の性能情報を取得し、その性能情報の時系列変化を示す性能系列情報から相関モデルを生成し、新たに取得される性能情報に基づいて、相関モデルの変化を分析する技術が開示されている。
特開2009-199533号公報
 しかしながら、特許文献1記載の技術は、CPU(Central Processing Unit)やメモリの使用状況に代表される性能情報を対象としているため、計算機や計算機を内蔵した各種の機器・設備の一側面の状態しか監視できない。すなわち、syslogやミドルウェアのログ(Webサーバのログ、通信ログ等)のような、監視対象システムの多くの計算機の内部状態を含む情報を活用することができず、特に複数のメーカーの製品を組合せて構築された監視対象システムでは、監視に十分な情報が性能情報からだけでは得られない。
 一般にCPUやメモリの使用状況のような性能情報は、定常的に収集可能であり、時間軸に対して比較的滑らかに変化する。しかも、性能情報は、収集時点で1次元の実数もしくは低次元の実数ベクトルである。このため、一般的な相関(ピアソンの積率相関等)が有効に働く可能性が高い。また、低次の線形多項式などの統計モデルによくフィッティングできる可能性も高い。ところが、ログは日時とテキスト表現されたメッセージを少なくとも含むイベントの集合であって、各イベントの数値表現は自明ではない。しばしば単語ごとに個別のIDを割り当て、各IDを要素とする超高次元かつ疎なベクトルとして表現する方法がとられる。しかし、イベントは文書やWebページほど単語を含まない。そのため、例えば、ある単語に絞って観察した場合、その単語の発生はまばらで、低次の線形多項式でうまく表現することも難しい。また、そもそもイベントが発生するタイミングは非定常である。したがって、特許文献1記載の技術をそのままログに適用しようとしても適切な相関関係を見出せない可能性が高い。
 そこで、監視に十分な情報である、非定常かつ数値表現が自明でないログを活用できる監視システムが望まれる。
 開示する監視システムは、監視対象システムから出力され、少なくとも時刻とメッセージを含むイベントの集合である第1のログに含まれるイベントの分散表現を生成し、2種類のイベントの集合の分散表現に関して、時刻が所定時間内のイベントのペアの第1の相関値を算出し、所定値以上の第1の相関値に対応する第1のログのペアを選定し、第1のログのペアを構成する第1のログに含まれるイベントの集合から監視対象とするイベントを抽出する関数を生成する監視対象選定部、および、稼働中の監視対象システムから出力される第2のログに含まれる、選定された第1のログのペアに対応する第2のログのペアに関して、第2のログのペアを構成する第2ログに含まれるイベントの集合から、関数を用いて、監視対象とするイベントを抽出し、抽出したイベントのペアの第2の相関値を算出し、第1の相関値から第2の相関値への変化を検出する監視部を有する。
 開示する監視システムによれば、監視に十分な情報である、非定常かつ数値表現が自明でないログを活用できる。
監視システムの構成例である。 監視システムの各サブシステムを実現するサーバのハードウェア構成例である。 監視対象システムから収集するログの具体例である。 データ管理部で蓄積されるログデータの例である。 データ管理部で管理される監視対象データの例である。 分散表現生成モデルパラメータの例である。 データ管理部で管理される運用時相関値データの例である。 監視対象選定部の処理フローチャートである。 分散表現生成部の処理フローチャートである。 Skipgramを拡張したモデルである。 相関算出部の処理フローチャートである。 相関算出部による相関値およびサンプリング成功率の算出の処理フローチャートである。 監視部の処理フローチャートである。 監視画面の例である。 詳細監視画面の一例である。 詳細監視画面の一例である。
 本実施形態では、情報通信サービス、あるいは、社会インフラサービスを支える計算機システムや計算機を内蔵した各種の機器・設備により構成したシステム(監視対象システムと呼ぶ。)が出力するログの相関関係から、監視対象システムのシステム状態の変化が反映される相関関係の変化を監視・検出する監視システムを説明する。
 監視システムの処理は、監視対象システムが出力した正常時のログから相関値が所定の値以上となるログのペア(組合わせ)を監視対象として選定し、各ログのイベント群から監視対象となるイベントのサブセットを抽出する関数を生成する監視対象選定フェーズと、監視対象システムが出力するログを監視し、相関関係に大きな変化がある場合には、運用監視者にその状況を提示する監視フェーズとに分けられる。
 監視対象選定フェーズでは、監視システムは、監視対象システムを構成する各装置から収集したOSやミドルウェアのログを解析し、ログに含まれる単語や熟語等の連語(言語表現)、あるいは、IPアドレスなどの計算機固有の表現を抽出し、辞書に登録し、登録した表現にID付けする。次に、ID表現されたイベントのメッセージを使って低次元密な実数ベクトル(分散表現)を生成する。そして、ログの各組合せについて、イベント群のサブセットの相関値が所定の値以上となるログのペアを監視対象として選定する。この際、相関値には、MIC(Maximal information coefficient)やヒルベルト-シュミット独立基準などの独立性に基づく非線形な相関値を用いる。また、各ログのイベント群から監視対象となるイベントのサブセットを抽出する関数(監視イベント判別関数と呼ぶ)を生成する。
 監視フェーズでは、監視システムは、監視対象選定フェーズで選定されたログのペアについて次の処理を実行する。まず、監視対象システムの稼働中のログから、監視イベント判別関数を用いて、監視対象となるログのイベント群のサブセットを抽出する。次に、サブセットに含まれるイベントについて、監視対象選定フェーズと同様の手順で分散表現を生成し、相関値を算出する。そして、算出した相関値に、監視対象選定フェーズで算出した相関値から大きな変化が検出された場合には運用監視者にその変化を通知する。このように、運用監視者は正常時のログのペアを監視対象として選定することによって、ログを自動的に監視できるようになる。
 図1は、監視システムの構成例である。監視システム1は、監視対象となる高い相関が見られたログのペアを選定し、また、各ログのイベント群から監視対象となるイベントのサブセットを抽出する関数を生成する選定サーバ11と、選定されたログのペアの相関値を監視する監視サーバ12と、相関値に変化が検出された場合に、その状況を運用監視者に提示する表示端末13とを備える。選定サーバ11、監視サーバ12、および表示端末13は、LAN(Local Area Network)等のネットワークで接続される。また、監視サーバ12は、後述の監視対象システム2の各サブシステムと、LAN等のネットワークで接続される。
 監視対象システム2は、1つまたは複数の被監視装置21を備える。各被監視装置21はLAN等のネットワークで接続される。なお、本実施形態では監視システム1の選定サーバ11等の各サブシステム、監視対象システム2の各被監視装置21である各サブシステム、および、監視システム1と、監視対象システム2がLAN等のネットワークで接続されるが、各接続は、例えばWWW(World Wide Web)等の他のネットワークを介して接続されていても良い。また、上記各サブシステムは一例であって、サブシステムの数は増減してもよく、一つのネットワークで接続されていても、さらに階層分けされて接続されていてもよい。例えば、選定サーバ11と監視サーバ12が同一のサーバであってもよいし、選定サーバ11や監視サーバ12が複数台のサーバで分散的に構成されていてもよい。また、例えば、選定サーバ11に含まれるデータ管理部114がデータ管理サーバなど、他の計算機であってもよい。
 図2は、監視システム1の各サブシステムを実現するサーバ(計算機)のハードウェア構成例である。図1と図2を参照して、各サブシステムの構成とハードウェアの対応を説明する。
 選定サーバ11が備える分散表現生成部111、相関算出部112、監視対象選定部113、およびデータ管理部114の各処理部は、CPU(Central Processing Unit)1101が、ROM(Read Only Memory)1102もしくは外部記憶装置1104に格納されたプログラムをRAM(Read Access Memory)1103に読み込み、読み込んだプログラムを実行することにより、通信I/F(Interface)1105、マウスやキーボード等に代表される入力装置1106、ディスプレイなどに代表される出力装置1107を制御することで実現される。
 監視サーバ12が備える分散表現生成部121、相関算出部122、および監視部123の各処理部は、CPU1101が、ROM1102もしくは外部記憶装置1104に格納されたプログラムをRAM1103に読み込み、読み込んだプログラムを実行することにより、通信I/F1105、マウスやキーボード等に代表される入力装置1106、ディスプレイなどに代表される出力装置1107を制御することで実現される。
 表示端末13が備える表示部131は、CPU1101が、ROM1102もしくは外部記憶装置1104に格納されたプログラムをRAM1103に読み込み、読み込んだプログラムを実行することにより、通信I/F1105、マウスやキーボード等に代表される入力装置1106、ディスプレイなどに代表される出力装置1107を制御することで実現される。
 被監視装置21が備えるデータ管理サービスやリソース最適化などの処理(図示略)は、CPU1101が、ROM1102もしくは外部記憶装置1104に格納されたプログラムをRAM1103に読み込み、読み込んだプログラムを実行することにより、通信I/F1105、マウスやキーボード等に代表される入力装置1106、ディスプレイなどに代表される出力装置1107を制御することで実現される。
 図3は、監視サーバ12が監視対象システム2から収集するログの具体例140である。ログ140には通常1つ以上のイベントが含まれる。例えば、ログ140は、BSD(登録商標)あるいはLinux(登録商標)系OSで一般的なログの一つであるsyslogの例である。各イベントは、そのイベントが生成された日時(時刻)、発行したデータソース名、およびイベントの内容を表す短いテキストが記載されていることが多い。ログ140の1行目のイベントは、イベントが生成された日時が“May  1 10:00:00”であり、データソース名が“machine1 anacron[1055]”であり、イベントの内容が“Job `cron.daily' terminated”である。また、イベントの重要度(info, error等)が付与される場合もある。syslogやwebサーバログなどでは図3で示すように1行で、1つのイベントの情報が記載されるが、他の種別のログでは複数行にわたってより詳細に情報が記載されている場合もある。本実施形態ではこういった記載形式に係らず、日時、データソース名を除いた部分を総称して単にメッセージと呼ぶ。
 図4は、監視サーバ12が監視対象システム2から収集し、選定サーバ11のデータ管理部114で蓄積されるログデータ150の例である。ログデータ150は、ログに含まれる各イベントをテーブルの1レコードに対応させたデータであって、ログID151と、日時152、データソース名153、およびメッセージ154の項目を備える。ログID151に対応する各項目の内容は基本的に元のログ140と同じである。ただし、日時152はフォーマットをISO8601などに共通の形式に統一する。
 図5は、選択サーバ11のデータ管理部114で管理される監視対象データ160の例である。監視対象データ160は、選定サーバ11の監視対象選定部113が選定したログのペア(ログ1、ログ2)と関連するパラメータに関するデータであって、監視単位を識別する監視ID161、ペアの期待されるログの相関の高さを表す相関値162、ペアの各ログの識別子を表すログ1-ID163、ログ2-ID164、ペアの各ログに含まれるイベントのどれが監視対象となるかを判別する関数のパラメータを表すログ1-イベント判別関数パラメータ165、ログ2-イベント判別関数パラメータ166、ペアの各ログに含まれるイベントがどのクラスタに所属するかを判別する関数のパラメータを表すログ1-クラスタ判別関数パラメータ167、ログ2-クラスタ判別関数パラメータ168を備える。
 ここで、未知イベントの判別にSVM(Surport Vector Machine)、既知イベントのクラスタリングおよび未知イベントのクラスタ判別にK-meansを用いるため、イベント判別関数のパラメータはSVMのパラメータを表す実数値列、クラスタ判別関数のパラメータは重心の位置を表す実数値列のクラスタ数分のリストとなる。
 なお、本実施形態ではSVM、K-meansを用いるが、他の方法、例えば、イベント判別にロジスティック回帰やパーセプトロン、クラスタ判別にスペクトラルクラスタリングや情報量最大化クラスタリングなどを使っても良い。その場合は、用いる手法に応じたパラメータを各項目(165~168)に設定する。
 図6は、分散表現を生成するための分散表現生成モデルパラメータ170の例である。本実施形態では分散表現生成にSkipgramを拡張したモデルを用いる。このため、本質的にパラメータは重み行列である。重み行列の縦の要素数は、辞書に登録した語(表現)のIDの数、横の要素数は、システム設計者により設定された分散表現自体の数である。辞書に登録した語(表現)のIDは、監視対象システム2を構成する各装置21から収集したOSやミドルウェアのログを解析し、含まれる単語や熟語等の連語(言語表現)、あるいは、IPアドレスなどの計算機固有の表現を抽出し、辞書に登録するために付した識別子である。従って、分散表現生成モデルパラメータ170は、ログを識別するログID171と、重み行列を表すパラメータ172を備える。なお、本実施形態ではSkipgramを拡張したモデルを用いるが、Recurent Neuralnetworkを用いたニューラル言語モデル等他の方法を使っても良い。その場合は、用いる手法に応じてパラメータ172を設定する。
 図7は、監視サーバ12の監視部123で算出され、選定サーバ11のデータ管理部114で管理される運用時相関値データ180の例である。運用時相関値データ180は、運用中(監視対象システム2が稼働中)のデータを使って監視部123が計算した監視IDごとの相関値の時系列データであって、監視ID181(監視ID161に対応)、日時12、および相関値183を備える。この運用時相関値データ180は、表示端末13の表示部131に表示されるデータとなる。
 図8は、監視対象選定部113の、ある2種類のログに対する監視対象選定処理の処理フローチャートである。なお、本処理の実行に先立って監視サーバ12が監視対象システム2の正常時のログを収集し、選定サーバ11のデータ管理部114にログデータ150を登録済みであるとする。
 監視対象選定部113は、分散表現生成部111を用いて、データ管理部114のログデータ150から、各イベントの前後に発生するイベントに基づいて、イベントの低次元密な実数ベクトルである分散表現を生成する(S101)。分散表現生成部111による分散表現の生成方法については後述する。
 監視対象選定部113は、生成した分散表現を用いて、ログデータ150のイベントをK個にクラスタリングする(S102)。本実施形態においてKは100とし、クラスタリングにはK-means法を用いる。なお、Kの値はログデータ150に含まれる語彙の複雑さと、選定サーバ11や監視サーバ12の計算機リソースを鑑みて他の値に設定することができる。また、他のクラスタリング手法を使っても良い。さらに、分散表現をクラスタリングする前に、オートエンコーダやRestricted Boltzmann Machine(RBM)などの抽象化処理を1または複数回実行してもよい。
 監視対象選定部113は、分散表現生成部111および相関算出部112を用いて、ある2つのログID151のログについて、それぞれクラスタを一つの要素としたときのべき集合の組合せから、相関値が所定値以上であり、かつ、相関算出が可能な範囲が大きいクラスタの組合せ(ペア)を選定する(S103)。分散表現生成部111および相関算出部112による、相関の算出方法、相関算出が可能な範囲の大きさの決め方、および、クラスタの組合せ(ペア)の選定方法については後述する。
 監視対象選定部113は、選定されたログのペア(選定ペア)が存在するかを確認する(S104)。選定ペアが存在しない場合、処理を終了する。
 選定ペアが存在する場合、監視対象選定部113は、選定ペアに含まれる各ログについて、相関算出に用いられたイベントを判別する監視イベント判別関数を学習(判別関数のパラメータを決定)する(S105)。監視イベント判別関数は、監視対象システム2の監視時に、運用時のイベント(未知イベント)を相関算出に用いるかどうかを判別するために用いられる。本実施形態では、判別関数のモデルにはSVMを用い、その入力には分散表現をそのまま用いる。なお、ロジスティック回帰など他のモデルを用いても良い。また、入力に、データソース名153等の他の情報を追加してもよい。また、より単純に、S106で学習するクラスタを入力として、判別する関数を構成してもよい。
 監視対象選定部113は、選定ペアに含まれる各ログについて、相関算出に用いられたイベントのクラスタを判別するクラスタ判別関数を学習する(S106)。クラスタ判別関数は、監視対象システム2の監視時に、未知イベントをどのクラスタに割り当てるかを判別するために用いられる。本実施形態では、K-menasでクラスタリングするので、クラスタ判別関数は、重心ベクトルを記憶しておき、最も近い重心を持つクラスタを割り当てる関数となる。なお、Self-taught learningの考えに基づき多値のSVMやロジスティック回帰などでクラスタ判別関数を学習してもよい。
 監視対象選定部113は、以上のように算出または学習した内容を、監視対象データ160として、監視ID161に対応させて、相関値162~ログ2-クラスタ判別関数パラメータ168の各項目に登録する(S107)。なお、各項目は、算出または学習結果が得られた段階でその都度登録されてもよい。
 図9および図10を用いて、イベントの分散表現の生成処理(S101)を説明する。図9は、分散表現生成部111の処理フローチャートである。図10は、Skipgramを拡張したモデルを表す図である。
 分散表現生成部111は、ログデータ150の各イベントのメッセージ154を構文解析(パース)し、含まれる単語や熟語等の連語(言語表現)、あるいは、IPアドレスなどの計算機固有の表現を抽出する(S201)。この際、分散表現生成部111は名詞や動詞などの機能語だけを抽出してもよい。
 分散表現生成部111は、抽出した単語や熟語等の表現に固有の表現IDをつけて辞書に登録する(S202)。ここで、表現IDは自然数(0、1、2、…)とする。また、表現ID=0は、イベントが存在しないことを表す特殊IDとする。この使用方法は後述する。
 分散表現生成部111は、ログデータ150の各イベントのメッセージ部154に対応する表現IDのリストを作成する(S203)。
 分散表現生成部111は、同じログID151に関して、図10に示すSkipgramを拡張したモデルを用いて、前後で発生したイベントに基づいて各イベントの分散表現生成モデルを学習する。そして、分散表現生成モデルの学習結果(後述のWi)をログID151ごとにログID171に対応付けて、分散表現生成モデルパラメータ170のパラメータ172に登録する(S204)。
 分散表現生成モデルの学習の手順を詳しく説明する。まず、e(t)を時刻tに発生したイベントとする。入力層1211および出力層1213の各ベクトルの次元は辞書の表現IDの総数であり、ベクトルの各要素は各表現IDの値に対応しているとする。また、中間層1212の次元は500、出力層1213のコンテキスト数は10(t-5、t-4、t-3、t-2、t-1、t+1、t+2、t+3、t+4、t+5)とする。また、Wi(1214)およびWo(1215)は、それぞれ辞書の表現IDの総数×500、500×辞書の表現IDの総数となるような行列であり、分散表現生成モデルのパラメータである。このとき、学習時の入力層1211には、イベントe(t)の表現IDのリストに含まれる要素は1、それ以外は0となるような、x of K表現された疎なベクトルを与える。この結果、出力層1213の予測値には、中間層1212の値h=Wi e(t)を介してWo hが出力される。これが前後で発生したイベント(e(t-5)~e(t+5))と近くなるようにWiおよびWoを学習する。このとき、前後で発生したイベント(e(t-5)~e(t+5))は、イベントe(t)と同様にイベントの表現IDのリストに含まれる要素は1、それ以外は0となるような、x of K表現された疎なベクトルである。なお、イベントe(t±k)の発生日時がe(t)の発生日時に対し所定時間5分以上離れた場合は、所定時間内でイベントが発生していないことを示すコンテキストを表すために、表現ID=0(特殊ID)を与える。この分散表現生成モデルの学習には確率的勾配降下法等を用いることができる。学習された結果、Wiが分散表現生成モデルの学習結果となる。つまり、あるイベントe(t)に対し、分散表現はWi e(t)で与えられることとなる。なお、中間層1212の次元を500、コンテキスト数を10、表現ID=0(特殊ID)を割り当てるイベントを所定時間5分以上離れたイベントとしたが、これらはログの傾向に応じて適宜変更することができる。
 以上の手順により、前後で似たイベントが発生したイベントは同じような値をとる低次元密なベクトルを得ることができる。すなわち、近い意味の2つのイベントについて、コサイン距離などの距離が小さくなる。なお、Skipgramが一単語に関する分散表現を与えていたのに対し、Skipgramが拡張されたモデルでは次の2点が異なる。まず、イベント中の複数の単語や熟語に対する分散表現を与えるために、入力や出力が1 of K表現ではなくx of K表現となっている。ここで、xはメッセージ中の語数に対応し、通常Kに対して十分小さい。また、時間的に大きく離れた(本実施形態では5分以上離れた)イベントは、ログ中で連続して並んでいたとしても意味がなく、また、そのような箇所はある連続したイベントパターンの始点や終点であることが多いため、イベントがないことを表す表現ID=0(特殊ID)を割り当てている。
 分散表現生成部111は、各ログのイベントの分散表現を学習した分散表現生成モデルのパラメータ172を用いて生成し、処理を終了する(S205)。
 図11を用いて、ある2つのログについて、相関値が所定値以上で相関算出が可能な範囲が大きいイベント群のペアの選定処理(S103)を説明する。図11は、相関算出部112の処理フローチャートである。
 相関算出部112は、選定リストを空に初期化する(S301)。相関算出部112は、ログデータ150の各ログについて、ログデータ150のイベントをK個にクラスタリングしたクラスタのイベント群(クラスタの組合せ)に関する相関値とサンプリング成功率を算出する(S302)。例えば、ログ1にクラスタ{A、B、C}、ログ2に{D、E、F}というクラスタがある場合、クラスタの組合せは、{A:D}、{A:E}、{A:F}、{B:D}、{B:E}、{B:F}、{C:D}、{C:E}、{C:F}となる。ここで{A:D}はログ1のクラスタAとログ2のクラスタDの組合せを表すものであり、他も同様である。これらの組合せについて、相関値とサンプリングの成功率を算出する。相関値とサンプリングの成功率の算出については後述する。
 相関算出部112は、相関値が所定値以上のクラスタの組合せがあるかを確認する(S303)。所定値以上のクラスタの組合せが有る場合、S304に処理を移す。そうでない場合、S308に処理を移す。なお、本実施形態では、所定値を0.85とし、相関値が0.85以上の組合せかどうかを確認するが、ログに応じて適宜適切な値を所定値として設定できる。
 相関値が所定値以上のクラスタの組合せがあった場合、相関算出部112は、相関値が所定値以上のクラスタの組合せとその相関値とサンプリング成功率を選定リストへ追加する(S304)。
 相関算出部112は、クラスタの組み合わせが元のログ(前述した例の{A:D}、{A:E}、・・・、{C:F})に一致しているかを確認する(S305)。一致している場合はS308に処理を移す。そうでない場合はS306に処理を移す。
 クラスタの組み合わせが元のログに一致しない場合、相関算出部112は、相関値が所定値以上のクラスタの組合せについて、それらを統合した新たなクラスタの組合せを生成する(S306)。例えば、相関値が所定値以上のクラスタの組合せが、前述の例で{A、D}、{A、E}、{C、F}である場合、{A:(D、E)}、{(A、C):(D、F)}、{(A、C):(E、F)}が新しいクラスタの組合せとなる。ここで、(D、E)はクラスタDとEに含まれるイベントを統合した新しいクラスタを表すものであり、他も同様である。
 相関算出部112は、新しいクラスタの組合せに関して相関値とサンプリング成功率を算出し(S307)、S303に戻る。相関値とサンプリングの成功率の算出については後述する。
 S303で所定値以上のクラスタの組合せがない場合、もしくはS305でクラスタの組合せが元のログに一致している場合、選定リストからサンプリング成功率が最も高いクラスタの組合せを相関算出が可能な範囲が大きいクラスタの組合せとして監視対象として選定し、処理を終了する(S308)。
 以上の相関算出部112の処理により、相関値が小さいクラスタの組合せの計算を適宜省きながら網羅的にクラスタの組合せを探すことができる。なお、さらに高速化が必要な場合は、あらかじめ与えられたクラスタ数をさらに減らしておくなどしておいてもよい。また、そもそも多重系を構成する装置のログなどで分割処理をしなくても高い相関値が出ることが期待される場合には、サブセット(個々の装置)に分割せず全体(多重構成の装置)で相関値を算出してもかまわない。
 図12は、相関算出部112による相関値およびサンプリング成功率の算出(図11のS302、S307)の処理フローチャートである。
 相関算出部112は、サンプルリストを空に初期化し、変数CNTとSUCESSを0に初期化する(S401)。
 相関算出部112は、相関値算出の対象となっている2つのイベント群の最も古いイベントの時刻を下限、最も新しいイベントの時刻を上限とする範囲の時刻集合から時刻をランダムに選択する(S402)。選択した時刻を時刻tとする。
 相関算出部112は、2つのイベント群について、時刻t-τ~時刻t+τまでに含まれるイベントを抽出する(S403)。本実施形態ではτ(微小時間)は1分とする。なお、τ(微小時間)は、イベントがほぼ時刻tに発生したと見做すための時間であるので、対象とするログに応じてτは他の値でもよい。
 相関算出部112は、S403で条件に合致するイベントが2つのイベント群の各々に1つ以上あるかどうかを確かめる(S404)。条件に合致するイベントがある場合、S405に処理を移す。そうでない場合、処理をS407に移す。
 S404で合致するイベントがある場合、各イベント群について、抽出した1つ以上のイベントから、各イベントの時刻の2乗の逆数に比例する確率分布でそれぞれから1つずつサンプリングし、サンプルリストにサンプリングした2つのイベントを登録する(S405)。なお、本実施形態では時刻の2乗の逆数に比例する確率分布としたが、他の確率分布、例えば逆数に比例する確率分布等でもよい。
 相関算出部112は、変数SUCESSを1インクリメントし(S406)、変数CNTをインクリメントする(S407)。
 相関算出部112は、変数SUCESSが指定回数より小さいかを確認する(S407)。ここで、本実施形態における指定回数は1000とする。指定回数より小さい場合は、S402に処理を移す。そうでない場合は、S409に処理を移す。
 相関算出部112は、変数SUCCSSを変数CNTで割った値を成功率(=SUCCSS/CNT)として算出する(S409)。
 相関算出部112は、サンプルリストの1000のサンプルを用いて、独立性に基づく相関値の一種であるMICを計算し処理を終了する(S410)。具体的には、サンプルリストの各サンプルに対応する各クラスタリング結果(クラスタ番号)を比較する。なお、相関値の算出のために前述のクラスタ数Kよりも大きなクラスタ数Mでクラスタリングした結果を用いてもよい。
 なお、ヒルベルト-シュミット独立基準などのほかの非線形な相関値を用いても良い。また、MIC等の独立性に基づく相関性を評価するのは、分散表現された結果、および、それをクラスタリングした結果(クラスタ番号)には、一般に時系列データとして滑らかさを有さないためである。なお、隣り合う時刻の値の差の和が最小となるようにクラスタ番号入れ替える等の処理(滑らかさの復元処理)を実行した上で、ピアソンの積率相関等を評価する等をしてもよい。この場合、イベント群が比例関係にある2つのセンサーに由来するログ、例えば、ある値以上は異常であるとして、ほとんどセンサーの値を言い換えたようなイベントが出力される場合について相関関係を見出すことができる。
 以上が基本的な相関算出の手順であるが、2つのログの時刻をずらして相関計算を行い、最も高い相関値を採用するなどしてもよい。また、クラスタリングした結果の非線形な相関を算出するとしたが、例えば分散表現を主成分分析や独立成分分析した結果の非線形な相関を算出してもよい。また、同一種類のログを比較したり、2つのログのイベントを併せてクラスタリングしたりするなどによって、クラスタ番号が2つのログの間で共通となる場合には、サンプルリストに含まれる各ログのイベントについて、対応するクラスタの要素数などの分布を算出し、分布間のダイバージェンスを相関値に用いても良い。
 図13を用いて、監視対象選定部113により選定されたあるログのペアに関する運用時の監視処理を説明する。図13は、監視部123の処理フローチャートである。
 なお、本処理の実行に先立って監視サーバ12が監視対象システム2から運用中のログを収集し、選定サーバ11のデータ管理部114にログデータ150を登録済みであるとする。
 監視部123は、監視対象選定処理で生成した、データ管理部114で管理されている各ログのイベント判別関数パラメータ(165、166)を読み込み、そのパラメータで表現される監視イベント判別関数を用いて、各ログから監視対象となるイベント群を判別する(S501)。
 監視部123は、監視対象選定処理で生成した、データ管理部114で管理されている各ログのクラスタ判別関数パラメータ(167、168)を読み込み、そのパラメータで表現されるクラスタ判別関数を用いて、各ログの各イベントのクラスタ番号を判別する(S502)。
 監視部123は、分散表現生成部121および相関算出部122を用いて、監視対象選定処理の説明と同様の手順により相関値を算出する(S503)。分散表現生成部121は分散表現生成部111と同様の処理であり、相関算出部122は相関算出部112と同様の処理である。
 監視部123は、算出した相関値に、所定期間5分間にデータ管理部114で管理されている相関値162の値から所定値0.3(相関値の減少幅に関する所定値)以上減少した箇所がある場合、処理をS505に移す。そうでない場合、本処理を終了する(S504)。なお、本実施形態では、所期間に変動した箇所があるか否かで変化を定義したが、変化の積分値などを用いてもよい。また、監視対象選定処理フェーズで、相関値の分散等を求めておき、その分散に応じた閾値を設定するなどしてもよい。
 S504で相関値が所定値以上減少した箇所がある場合、監視部123は表示端末13の表示部131に通知し(S505)、本処理を終了する。その通知を受けて、表示部131はその状況や監視しているログの内容をユーザに提示する。
 以上の監視対象選定処理ならびに監視処理は、相関を算出する対象がどちらもログの場合を説明したが、本手法はログと性能情報やセンサー値などとの組合せであっても有効である。その際には、性能情報やセンサー値が密な1次元もしくは低次元の密ベクトルとなっている点を踏まえて、それらの分散表現を生成する処理を省いて実行すればよい。
 図14は、表示端末13の表示部131がユーザに提示するメイン画面としての監視画面1310の例である。監視画面1310は、監視対象リスト1311、急変した監視対象一覧1312、監視対象一覧1313を備える。
 表示部131は、監視対象リスト1311に、監視対象を識別する監視ID(監視対象データ160の監視ID161)と、現在の相関値(監視部123がS503で算出した相関値)と、相関値を算出している2つのログID(監視ID161に対応するログID163、164)と、急変しているかどうか(監視部123による最近の監視処理の結果、S504でYESかとなっているかどうか)の一覧を表示する。
 表示部131は、急変した監視対象一覧1312に、急変した監視対象の監視ID(監視対象データ160の監視ID161)と、最近の相関値(監視部123がS503で算出した相関値)の時系列変化を、横軸に時間、縦軸に相関値をとったグラフとして表示する。なお、グラフ上で急変を検出した区間はハッチングや表示色を変えるなどにより強調表示する。これによってユーザがすぐに異常が発生した箇所(監視ID161に対応するログID163、164のログを生成した箇所)を把握可能となる。
 表示部131は、監視対象一覧1313に、急変した監視対象一覧1312と同様のグラフを全ての監視対象(監視ID161)について表示する。
 ユーザは、監視画面1310のリストあるいはグラフをクリック・タップ等により選択することで、後述の詳細監視画面(タイプAもしくはタイプB)を見ることができる。
 図15は、詳細監視画面(タイプA)1320の一例である。詳細監視画面(タイプA)1320は、監視画面1310からユーザがクリック・タップ等により選択することによって表示される監視項目単位の詳細画面の一つである。
 詳細監視画面(タイプA)1320は、相関値(監視部123がS503で算出した相関値)の時系列変化を表すグラフ1321と、ログの比較表示1322を備える。
 相関値の時系列変化を表すグラフ1321は、急変した監視対象一覧1312や監視対象一覧1313のグラフと同様である。
 ログの比較表示1322は、時刻と、監視対象となっている2つのログ(監視ID161に対応するログID163、164)の内容が表示される。このとき、図に示すように同一時刻のイベントが並んで表示されるように行を調整して表示する。また、監視イベント判別関数で監視対象のイベントと判別されたイベントをハッチングや表示色を変えるなどにより強調表示する。これによって、ユーザはどのイベント群の相関関係が崩れたのかを把握しやすくする。
 図16は、詳細監視画面(タイプB)1330の一例である。詳細監視画面(タイプB)1330は、監視画面1310からユーザがクリック・タップ等により選択することによって表示される監視項目単位の詳細画面の一つである。
 詳細監視画面(タイプB)1330は、相関値(監視部123がS503で算出した相関値)の時系列変化を表すグラフ1331と、監視対象となっている2つのログ(監視ID161に対応するログID163、164)の分散表現もしくはクラスタ番号の時系列変化を表すグラフ(1332、1333)を備える。
 相関値の時系列変化を表すグラフ13311は、急変した監視対象一覧1312や監視対象一覧1313のグラフと同様である。
 分散表現もしくはクラスタ番号の時系列変化を表すグラフ(1332、1333)は、各ログ(監視ID161に対応するログID163、164のログ)の分散表現もしくはクラスタ番号の時系列変化が、縦軸を時間、横軸を分散表現の値もしくはクラスタ番号としたグラフとして表示される。ここで、分散表現を表示する場合、分散表現は一次元とはなっていないため、主成分分析した結果の第一主成分等、次元圧縮した後に表示する。また、クラスタ番号を表示する場合、できる限り表示がなだらかになるように、例えば時刻tのイベントのクラスタ番号をc(t)とするとき、Σ(c(t)-c(t+1))が最小となるように予めクラスタ番号を振りなおしてもよい。これによってユーザのログのパターンの視認性を向上することができる。
 以上に説明したように、本実施形態によれば、監視に十分な情報である、非定常かつ数値表現が自明でないログを活用できる。
 また、本実施形態によれば、非定常かつ数値表現が自明でないログの各種組合せから相関関係を導出し、監視できるので、システムの監視に掛かる運用監視者の負荷を削減できる。
 また、本実施形態によれば、分散表現されたログをクラスタリング等して分割し、その組合せについて相関値を求めているので、syslogのように1つのログに実質的に複数種類のイベントが混じりこんでいるような場合でも相関関係を見出すことができる。
 また、本実施形態によれば、分散表現されたログをクラスタリング等して1次元化することで、一般に日時とメッセージなどの文字列で表現されるログを時間変化するグラフとして視覚的に表示できる。これによって運用監視者は、わざわざログの内容を見なくてもログ全体の大まかなパターンをつかむことができるようになる。
 なお、本実施形態では監視対象システムから出力するログを対象としたが、本質的に日時とメッセージを含む時系列データであれば、例えばマイクロブログ等であっても同様の方法で、相関関係を求めることも、変化を検出ことも可能である。
 1:監視システム、2:監視対象システム、11:選定サーバ、12:監視サーバ、13:表示端末、21:被監視装置、111:分散表現生成部、112:相関算出部、113:監視対象選定部、114:データ管理部、121:分散表現生成部、122:相関算出部、123:監視部、131:表示部。

Claims (15)

  1.  監視対象システムから出力され、少なくとも時刻とメッセージを含むイベントの集合である第1のログに含まれる前記イベントの分散表現を生成し、2種類の前記イベントの集合の分散表現に関して、前記時刻が所定時間内の前記イベントのペアの第1の相関値を算出し、所定値以上の前記第1の相関値に対応する前記第1のログのペアを選定し、前記第1のログのペアを構成する前記第1のログに含まれる前記イベントの集合から監視対象とする前記イベントを抽出する関数を生成する監視対象選定部、および、
     稼働中の前記監視対象システムから出力される第2のログに含まれる、選定された前記第1のログのペアに対応する前記第2のログのペアに関して、前記第2のログのペアを構成する前記第2ログに含まれる前記イベントの集合から、前記関数を用いて、監視対象とする前記イベントを抽出し、抽出した前記イベントのペアの第2の相関値を算出し、前記第1の相関値から前記第2の相関値への変化を検出する監視部を有することを特徴とする監視システム。
  2.  前記分散表現は、前記メッセージに含まれる表現を用いた、前記メッセージを表す低次元密な実数ベクトルであることを特徴とする請求項1に記載の監視システム。
  3.  前記低次元密な実数ベクトルは、前記イベントの前記時刻から前記所定時間内に他のイベントが存在しない場合、前記他のイベントが存在しないことを表す要素を含むことを特徴とする請求項2に記載の監視システム。
  4.  前記監視対象選定部は、前記イベントの集合から前記イベントをサンプリングした集合の前記分散表現に関して、前記時刻が前記所定時間内の前記イベントのペアの前記第1の相関値を算出することを特徴とする請求項1に記載の監視システム。
  5.  前記監視対象選定部は、前記イベントの集合の前記時刻が、最も古い前記イベントの時刻を下限とし、最も新しい前記イベントの時刻を上限として、ランダムに選択した時刻から前記所定時間内の前記イベントを抽出し、抽出した前記イベントの前記時刻の2乗の逆数に比例する確率分布で、前記イベントの集合から前記イベントをサンプリングすることを特徴とする請求項4に記載の監視システム。
  6.  前記監視対象選定部は、前記第1のログのペアの中から、ランダムに選択した前記時刻でサンプリングできた場合を成功、サンプリングできなかった場合を失敗としてサンプリングの成功率を算出し、前記成功率が最大となる前記第1のログのペアを選定することを特徴とする請求項5に記載の監視システム。
  7.  前記第1及び第2の相関値は、非線形な相関値であることを特徴とする請求項1に記載の監視システム。
  8.  前記第1及び第2の相関値は、Maximal information coefficientおよびヒルベルト-シュミット独立基準の一方の独立性に基づくことを特徴とする請求項1に記載の監視システム。
  9.  前記第1の相関値から前記第2の相関値への変化を表示する表示部をさらに有することを特徴とする請求項1に記載の監視システム。
  10.  前記表示部は、前記第1のログのペアの前記第1の相関値と、前記第1のログのペアを構成する、前記第1のログの内容及び前記第1のログに含まれる前記イベントの分散表現を圧縮したデータの一方とを時系列表示することを特徴とする請求項9に記載の監視システム。
  11.  前記表示部は、前記第1のログの内容を表示するとき、前記第1のログに含まれる前記イベントの集合を強調表示することを特徴とする請求項9に記載の監視システム。
  12.  監視システムによる監視方法であって、前記監視システムは、
     監視対象システムから出力され、少なくとも時刻とメッセージを含むイベントの集合である第1のログに含まれる前記イベントの分散表現を生成し、
     2種類の前記イベントの集合の分散表現に関して、前記時刻が所定時間内の前記イベントのペアの第1の相関値を算出し、
     所定値以上の前記第1の相関値に対応する前記第1のログのペアを選定し、
     前記第1のログのペアを構成する前記第1のログに含まれる前記イベントの集合から監視対象とする前記イベントを抽出する関数を生成し、
     稼働中の前記監視対象システムから出力される第2のログに含まれる、選定された前記第1のログのペアに対応する前記第2のログのペアに関して、前記第2のログのペアを構成する前記第2ログに含まれる前記イベントの集合から、前記関数を用いて、監視対象とする前記イベントを抽出し、
     抽出した前記イベントのペアの第2の相関値を算出し、
     前記第1の相関値から前記第2の相関値への変化を検出することを特徴とする監視方法。
  13.  前記第1及び第2の相関値は、非線形な相関値であることを特徴とする請求項12に記載の監視方法。
  14.  前記第1及び第2の相関値は、Maximal information coefficientおよびヒルベルト-シュミット独立基準の一方の独立性に基づくことを特徴とする請求項13に記載の監視方法。
  15.  前記監視システムは、前記イベントの集合から前記イベントをサンプリングした集合の前記分散表現に関して、前記時刻が前記所定時間内の前記イベントのペアの前記第1の相関値を算出することを特徴とする請求項12に記載の監視方法。
PCT/JP2015/074517 2015-08-28 2015-08-28 監視システムおよび監視方法 WO2017037801A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017501743A JP6201079B2 (ja) 2015-08-28 2015-08-28 監視システムおよび監視方法
PCT/JP2015/074517 WO2017037801A1 (ja) 2015-08-28 2015-08-28 監視システムおよび監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/074517 WO2017037801A1 (ja) 2015-08-28 2015-08-28 監視システムおよび監視方法

Publications (1)

Publication Number Publication Date
WO2017037801A1 true WO2017037801A1 (ja) 2017-03-09

Family

ID=58188413

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/074517 WO2017037801A1 (ja) 2015-08-28 2015-08-28 監視システムおよび監視方法

Country Status (2)

Country Link
JP (1) JP6201079B2 (ja)
WO (1) WO2017037801A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156333A (ja) * 2017-03-16 2018-10-04 ヤフー株式会社 生成装置、生成方法および生成プログラム
WO2019202711A1 (ja) * 2018-04-19 2019-10-24 日本電気株式会社 ログ分析システム、ログ分析方法及び記録媒体
US10884892B2 (en) 2017-06-28 2021-01-05 Fujitsu Limited Non-transitory computer-readable storage medium, display control method and display control device for observing anomolies within data
JP7481074B2 (ja) 2019-06-11 2024-05-10 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテキスト・アウェア・データ・マイニング

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531282A (ja) * 2010-03-10 2013-08-01 アリババ・グループ・ホールディング・リミテッド クエリモデルに基づく誘導検索
JP2015109028A (ja) * 2013-12-05 2015-06-11 株式会社日立製作所 データ関連性解析システムおよび方法
JP2015153077A (ja) * 2014-02-13 2015-08-24 日本電信電話株式会社 監視機器情報分析装置及び方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531282A (ja) * 2010-03-10 2013-08-01 アリババ・グループ・ホールディング・リミテッド クエリモデルに基づく誘導検索
JP2015109028A (ja) * 2013-12-05 2015-06-11 株式会社日立製作所 データ関連性解析システムおよび方法
JP2015153077A (ja) * 2014-02-13 2015-08-24 日本電信電話株式会社 監視機器情報分析装置及び方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156333A (ja) * 2017-03-16 2018-10-04 ヤフー株式会社 生成装置、生成方法および生成プログラム
US10884892B2 (en) 2017-06-28 2021-01-05 Fujitsu Limited Non-transitory computer-readable storage medium, display control method and display control device for observing anomolies within data
WO2019202711A1 (ja) * 2018-04-19 2019-10-24 日本電気株式会社 ログ分析システム、ログ分析方法及び記録媒体
JPWO2019202711A1 (ja) * 2018-04-19 2021-04-22 日本電気株式会社 ログ分析システム、ログ分析方法及びプログラム
JP7184078B2 (ja) 2018-04-19 2022-12-06 日本電気株式会社 ログ分析システム、ログ分析方法及びプログラム
JP7481074B2 (ja) 2019-06-11 2024-05-10 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテキスト・アウェア・データ・マイニング

Also Published As

Publication number Publication date
JPWO2017037801A1 (ja) 2017-08-31
JP6201079B2 (ja) 2017-09-20

Similar Documents

Publication Publication Date Title
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US11405301B1 (en) Service analyzer interface with composite machine scores
US10002144B2 (en) Identification of distinguishing compound features extracted from real time data streams
JP6233411B2 (ja) 障害分析装置、障害分析方法、および、コンピュータ・プログラム
CN109842628A (zh) 一种异常行为检测方法及装置
CN108270618A (zh) 告警判定的方法、装置及告警系统
Fischer et al. NStreamAware: Real-time visual analytics for data streams to enhance situational awareness
JP6201079B2 (ja) 監視システムおよび監視方法
WO2017131774A1 (en) Log event summarization for distributed server system
CN112669188A (zh) 危机事件预警模型构建、危机事件预警方法和电子设备
WO2020012579A1 (ja) ログ分析装置、ログ分析方法、プログラム
US7894360B2 (en) Trouble-factor detecting device, trouble-factor detecting method, and computer product
CN115033876A (zh) 日志处理方法、日志处理装置、计算机设备及存储介质
JPWO2007007410A1 (ja) メッセージ解析装置、制御方法および制御プログラム
Wladdimiro et al. Disaster management platform to support real-time analytics
CN107666399A (zh) 一种监控数据的方法和装置
JP6988827B2 (ja) 異常識別システム、方法及びプログラム
CN115051863B (zh) 异常流量检测的方法、装置、电子设备及可读存储介质
CN114300082B (zh) 一种信息处理方法、装置和计算机可读存储介质
Gaykar et al. Faulty Node Detection in HDFS Using Machine Learning Techniques.
JP2009187395A (ja) トピック分析装置、方法及びプログラム
US20210092159A1 (en) System for the prioritization and dynamic presentation of digital content
JP7140268B2 (ja) 警告装置、制御方法、及びプログラム
JP2018132787A (ja) ログ分析支援装置およびログ分析支援方法
Jittawiriyanukoon Evaluation of a multiple regression model for noisy and missing data

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017501743

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15902924

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15902924

Country of ref document: EP

Kind code of ref document: A1