WO2020017037A1 - ログ分析装置、ログ分析方法、プログラム - Google Patents

ログ分析装置、ログ分析方法、プログラム Download PDF

Info

Publication number
WO2020017037A1
WO2020017037A1 PCT/JP2018/027335 JP2018027335W WO2020017037A1 WO 2020017037 A1 WO2020017037 A1 WO 2020017037A1 JP 2018027335 W JP2018027335 W JP 2018027335W WO 2020017037 A1 WO2020017037 A1 WO 2020017037A1
Authority
WO
WIPO (PCT)
Prior art keywords
log
variable
field
value
values
Prior art date
Application number
PCT/JP2018/027335
Other languages
English (en)
French (fr)
Inventor
遼介 外川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020530853A priority Critical patent/JP7160097B2/ja
Priority to PCT/JP2018/027335 priority patent/WO2020017037A1/ja
Priority to US17/260,654 priority patent/US20220004481A1/en
Publication of WO2020017037A1 publication Critical patent/WO2020017037A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Definitions

  • the present invention relates to a log analysis device, a log analysis method, and a program.
  • Patent Document 1 describes an example of a method for estimating the format of a log message.
  • each part obtained by dividing a first log message before and after a predetermined character such as a symbol or a space is set as a node, and the nodes are arranged in order from the top of the first log message to form a first directed graph structure. create.
  • each part obtained by dividing the second log message before and after a predetermined character is used as a node, and the nodes are arranged from the beginning of the second log message to create a second directed graph structure. Then, the node in the first directed graph structure and the node in the second directed graph structure are compared to detect a node other than the node whose character string matches.
  • a detected node in the second directed graph structure is added to the first directed graph structure as a first branch node, and based on the first directed graph structure to which the first branch node has been added. To estimate the format. At this time, the directed graph is updated based on whether or not the appearance trends of the character strings are similar.
  • Patent Document 2 the log information analysis device creates a general-purpose log including a time converted from log information into a predetermined time format and a predetermined character string converted into a predetermined format. Then, the log information analysis device extracts the feature information including the length of the log information corresponding to the general-purpose log and the appearance frequency of the word appearing in the log information from the log information recording unit in which the log information is recorded, and extracts the extracted feature information.
  • the log information is formed into a graphic and displayed together with the log information in the order of time converted into a predetermined time format.
  • Patent Document 3 the monitoring information analysis device generates a template by performing clustering based on a score calculated for each word included in a log message.
  • Patent Literature 2 a method for solving such a problem is not described in Patent Literature 2 or Patent Literature 3. Therefore, even if the techniques described in Patent Literature 2 and Patent Literature 3 are used, the above-described problem cannot be solved.
  • an object of the present invention is to provide a log analysis device, a log analysis method, and a program for efficiently and accurately analyzing a log.
  • a log analyzer includes: The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values. And a generation unit for generating a new abstract log in which the variable is replaced with the value of the log.
  • a log analysis method includes: The information processing device is The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values. And generating a new abstracted log in which the above variables are replaced with the values of the log.
  • a program according to another embodiment of the present invention includes: For information processing equipment, The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values. Is a program for realizing a generation unit that generates a new abstract log in which the above variables are replaced with the values of the logs.
  • the present invention configured as described above makes it possible to provide a log analysis device, a log analysis method, and a program for efficiently and accurately analyzing a log.
  • FIG. 4 is a diagram illustrating an example of a log message input to the log analyzer.
  • FIG. 9 is a diagram illustrating an example of a pattern generated by converting a log message into a variable.
  • FIG. 14 is a diagram illustrating an example of a state when a log value is extracted for each field.
  • FIG. 9 is a diagram illustrating an example of a state when a new pattern is generated by replacing a variable of a field with a value according to a result of analysis.
  • 5 is a flowchart illustrating an example of an operation of the log analyzer according to the first embodiment of the present invention.
  • FIG. 2 is a diagram exemplarily illustrating a hardware configuration of a computer (information processing device) capable of realizing the first embodiment, the second embodiment, and the third embodiment of the present invention. It is a block diagram showing an example of composition of a log analyzer in a 4th embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an example of the configuration of the log analyzer 10.
  • FIG. 2 is a diagram illustrating an example of the log message 2 input to the log analyzer 10.
  • FIG. 3 is a diagram illustrating an example of a pattern generated by converting the log message 2 into a variable.
  • FIG. 4 is a diagram illustrating an example of a state when a log value is extracted for each field.
  • FIG. 5 is a diagram illustrating an example of a state when a new pattern is generated by replacing a variable of a field with a value according to the result of the analysis.
  • FIG. 6 is a flowchart illustrating an example of the operation of the log analyzer 10.
  • the log analyzer 10 that generates a pattern (abstract log) by converting a plurality of logs in the log message 2 into variables for each predetermined field and collecting them.
  • the distribution of the value included in the variable in the pattern is calculated by collating the generated pattern with the log message 2 corresponding to the pattern for each field. .
  • the log analyzer 10 replaces at least a part of the variable with a value based on the calculated result.
  • the log analyzer 10 generates a plurality of patterns in which at least some of the variables in the patterns are replaced with values based on one pattern.
  • a pattern refers to a pattern that represents a log using variables.
  • conversion into a variable means converting the value of a field in a log into a variable.
  • the log analyzer 10 generates a pattern by converting a plurality of logs having the same arrangement of variables when converting the values of the respective fields in the logs into variables into variables.
  • the field refers to a delimiter serving as a reference when judging values and variables in the log.
  • a log is divided into fields at places where the contents (attributes) of the target and information indicated by the log change, such as date and time, IP address (Internet protocol address), alphabetic characters only, mixed alphanumeric characters, numbers only, etc. I have.
  • variables corresponding to field attributes include, for example, only alphabetic characters (WORD), mixed alphanumeric characters (NOTSPACE), and only numeric characters (NUM).
  • WORD only alphabetic characters
  • NOTSPACE mixed alphanumeric characters
  • NUM only numeric characters
  • the variable may be other than the above-described subdivision or the above-described example, such as a variable consisting of only a number indicating a date and time or a variable indicating an IP address.
  • the log analyzer 10 generates one pattern from the two logs by converting the two logs into variables and putting them together. Specifically, for example, the log analyzer 10 generates a pattern such as “% ⁇ NUM_TS ⁇ % ⁇ WORD ⁇ % ⁇ IP_NUM ⁇ % ⁇ WORD ⁇ .
  • the value “2017/02/24 ⁇ 09:01:00” and the value “2017/02/24 09:02:00” correspond to the variable “% ⁇ NUM_TS ⁇ ”.
  • the value “login” and the value “logout” correspond to the first variable “% ⁇ WORD ⁇ ”.
  • the value “127.0.0.1” corresponds to the variable “% ⁇ IP_NUM ⁇ ”
  • the value “bear” corresponds to the second variable “% ⁇ WORD ⁇ ”.
  • the log analyzer 10 is an information processing device that receives a log message 2 from an external device or the like, and converts each log included in the log message 2 into a variable for each predetermined field to generate a pattern.
  • FIG. 1 shows an example of the configuration of the log analyzer 10.
  • the log analyzer 10 includes, for example, a log classification unit 11, a log pattern matching unit 12 (analysis unit), a field analysis unit 13 (analysis unit), and a pattern update unit 14 (generation unit). , A pattern storage unit 15 and a display unit 16.
  • the log analyzer 10 includes an arithmetic device such as a CPU (Central Processing Unit) and a storage device.
  • the log analyzer 10 realizes each of the above-described processing units by, for example, an arithmetic unit executing a program stored in a storage device.
  • the log classifying unit 11 generates a pattern based on the log message 2 by converting a plurality of logs having the same sequence of variables when converting the value of each field in the log into a variable into variables.
  • the log classification unit 11 receives a log message 2 as shown in FIG.
  • the log message 2 includes, for example, “2017/02/24 09:01:00 login 127.0.0.1 bear”, “2017/02/24 09:02:00 logout 127.0.0.1 bear”, ⁇ 2017/02/24 09:03:00 login 192.10.0.5 bear123 '', ⁇ 2017/02/24 09:04:00 logout 192.10.0.5 bear123 '', ⁇ 2017/02/24 09:04:10 login 192.10. Logs such as "0.6 bear_1" are included.
  • the log “2017/02/24 09:01:00 login 127.0.0.1 bear” and the log “2017/02/24 09:02: "00 ⁇ logout ⁇ 127.0.0.1 ⁇ bear” has the same variable sequence as "% ⁇ NUM_TS ⁇ % ⁇ WORD ⁇ % ⁇ IP_NUM ⁇ % ⁇ WORD ⁇ ".
  • log ⁇ 2017/02/24 09:03:00 login 192.10.0.5 bear123 '' and log ⁇ 2017/02/24 09:04:00 logout 192.10.0.5 bear123 '' and log ⁇ 2017/02/24 09:04: "10 ⁇ login ⁇ 192.10.0.6 ⁇ bear_1" has the same sequence of variables as "% ⁇ NUM_TS ⁇ % ⁇ WORD ⁇ % ⁇ IP_NUM ⁇ % ⁇ NOTSPACE ⁇ ". Therefore, the log classification unit 11 converts the log “2017/02/24 09:01:00 login 127.0.0.1 bear” and the log “2017/02/24 09:02:00 logout 127.0.0.1 bear” into variables.
  • the log classification unit 11 determines the log “2017/02/24 09:03:00 login 192.10.0.5 bear123” and the log “2017/02/24 09:04:00 logout 192.10.0.5 bear123” and the log “2017/02 / 24 09:04:10 login 192.10.0.6 bear_1 ⁇ is converted into a variable to generate ⁇ % ⁇ NUM_TS_1: ts1 ⁇ % ⁇ WORD: P2W1 ⁇ % ⁇ IP_NUM: P2IP1 ⁇ % ⁇ NOTSPACE: P2NS1 ⁇ I do.
  • the log classification unit 11 may use a method other than the above-described method when generating a pattern based on the log message 2. For example, the log classification unit 11 may generate a pattern by dividing each log included in the log message 2 into a plurality of subsets using a cluster analysis or the like, and converting each of the divided subsets into a variable. I do not care. The log classification unit 11 may generate the pattern using other known methods.
  • the log classification unit 11 converts all fields into variables.
  • the log classification unit 11 does not necessarily need to convert all fields into variables.
  • the log classification unit 11 does not have to convert some of the values included in the log into variables. That is, the pattern generated by the log classification unit 11 may include a fixed column (value) that is not converted into a variable depending on the method of extracting the pattern.
  • the log / pattern matching unit 12 matches the pattern generated by the log classification unit 11 with the log of the pattern generation source for each field. Then, the log pattern matching unit 12 totals the number of values corresponding to the variables for each field.
  • FIG. 4 shows an example of a collation / aggregation process performed by the log / pattern collation unit 12.
  • the variable “% ⁇ NUM_TS_1: ts1 ⁇ ” has one value “2017/02/24 09:01:00” and the value “2017/02/24 09:02:00” , Respectively.
  • the variable “% ⁇ WORD: P1W1 ⁇ ” includes three values “login” and four values “logout”.
  • the log / pattern matching unit 12 counts the number of values included in the variable by matching the pattern with the log of the pattern generation source for each field. Note that, for example, when the log classification unit 11 generates a pattern by grouping and dividing each of the divided subsets, the log / pattern matching unit 12 can total the number of values for each subset. .
  • the field analysis unit 13 performs a predetermined distribution calculation for each field based on the result of the aggregation by the log / pattern matching unit 12. As a result, the field analysis unit 13 calculates the distribution of log values corresponding to each variable in the pattern. Further, the field analysis unit 13 determines whether or not the result of the distribution operation satisfies a given condition. Then, based on the result of the determination, the field analysis unit 13 determines whether to replace the variable of the field with a value. As described later, when the field analysis unit 13 determines that the variable is to be replaced with the value, the pattern updating unit 14 replaces the variable of the field determined to be replaced with the value. In other words, the pattern updating unit 14 generates a plurality of patterns according to the number of values after replacement based on one pattern.
  • the field analysis unit 13 determines whether or not to replace a variable of a field with a value based on the number of unique values included in the field (that is, the number of types of values). I can do it. For example, the field analysis unit 13 calculates the number of unique values included in the field. Then, if the number of unique values is equal to or less than a predetermined first threshold, the field analysis unit 13 determines that the variable of the field is to be replaced with a value.
  • the variable of the first field of the first pattern includes four types of values "SV01, SV02, SV03, SV04". It is also assumed that the predetermined first threshold value is “10”. In this case, since the number of unique values (the number of value types) included in the field is “4” which is equal to or less than the first threshold “10”, the field analysis unit 13 replaces the variable of the field with the value. , And judge. As described above, the field analysis unit 13 can determine whether or not to replace a variable of a field with a value based on the number of unique values (the number of types of values) included in the field.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the randomness of the field. For example, the field analysis unit 13 divides the number of unique values included in the field by the number of logs that track the pattern (the number of logs collected when generating the pattern). That is, the field analysis unit 13 calculates the randomness of the field defined as the ratio of the number of value types to the number of logs corresponding to an arbitrary pattern including the field. If the result of the division is equal to or less than a predetermined second threshold value, the field analysis unit 13 determines that the variable of the field is to be replaced with a value. Note that, as calculated as described above, the randomness of the field has a width of 0 to 1 and the closer to 1, the higher the randomness.
  • the second pattern is generated by collecting ten logs, and the second field of the second pattern includes three values. Further, it is assumed that the second predetermined threshold is “0.5”. In this case, since the degree of randomness of the second field is “0.3” equal to or less than the second threshold value “0.5”, the field analysis unit 13 determines that the field variable is to be replaced with a value. As described above, the field analysis unit 13 can determine whether to replace a field variable with a value based on the randomness of the field.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the chi-square value. For example, the field analysis unit 13 calculates the chi-square value by calculating the sum of (observed value-theoretical value) ⁇ 2 / theoretical value. Then, if the calculated result is equal to or greater than the predetermined third threshold, the field analysis unit 13 determines that the variable of the field is to be replaced with a value.
  • the observation value is the number of values in the field
  • the theoretical value is a value obtained by dividing the number of corresponding logs by the number of value types.
  • the third field contains “40, 10, 40, 10” values of four types “START, STOP, RESTART, END”, respectively.
  • the third predetermined threshold value is “30”.
  • the field analysis unit 13 determines that the variable of the field is replaced with the value. As described above, the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the chi-square value.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the variation coefficient. For example, the field analysis unit 13 calculates the coefficient of variation by dividing the standard deviation by the average value. Then, if the calculated variation coefficient is equal to or greater than a predetermined fourth threshold, the field analysis unit 13 determines that the variable of the field is to be replaced with a value.
  • the field analysis unit 13 determines that the variable of the field is replaced with the value. As described above, the field analysis unit 13 can determine whether to replace a field variable with a value based on the standard deviation.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the average value. For example, the field analysis unit 13 calculates an average value from the number of values in the field and the number of value types. Then, if the calculated average value is equal to or less than a predetermined fifth threshold value, the field analysis unit 13 determines that the variable of the field is to be replaced with a value.
  • the field analysis unit 13 determines that the variable of the field is replaced with the value. As described above, the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the average value.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the expected value. For example, the field analysis unit 13 calculates an expected value based on the number of corresponding logs and the number of value types. Then, the field analysis unit 13 determines that a value that is larger in number than the calculated expected value is to be replaced, and replaces the variable of the field with the value.
  • the field analysis unit 13 sets the value whose number is 20 or more as a replacement target. On the other hand, the field analysis unit 13 does not set a value whose number is smaller than 20 as a replacement target. As described above, the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the expected value.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value based on the results of various distribution calculations.
  • the field analysis unit 13 may be configured to determine whether to replace a variable of a field with a value by using any one of the above-described methods, or to combine a plurality of the above-described methods. Alternatively, it may be configured to determine whether to replace the variable of the field with the value.
  • a configuration may be adopted in which replacement is determined if at least one of the conditions is satisfied. The replacement may be determined, or the replacement may be determined when all the conditions are satisfied.
  • the field analysis unit 13 may be configured to determine whether to replace a field variable with a value using a method other than the method described above.
  • the field analysis unit 13 may be configured to determine that the replacement should be performed in the opposite case to the example, such as determining that the replacement should be performed when the chi-square value is smaller than the third threshold.
  • the determination by the field analysis unit 13 may be changed based on attribute information such as the data type of the field.
  • the field analysis unit 13 may make a determination to completely replace the variable with the value (do not leave the variable) using the method described above, or may make a determination to leave the variable. No problem. In other words, the field analysis unit 13 may replace the variables of the field with some of the values corresponding to the variables, and may determine that the variables remain. For example, assume that the variable “% ⁇ WORD ⁇ ” includes four values “AAAA”, “BBBB”, “CCCC”, and “DDDD”. In this case, the field analysis unit 13 may be configured to completely replace the variable “% ⁇ WORD ⁇ ” with four values “AAAA”, “BBBB”, “CCCC”, and “DDDD”.
  • a configuration may be adopted in which only two values “AAAA” and “BBBB” are replaced to leave a variable “% ⁇ WORD ⁇ ”, and only some values are replaced.
  • the field analysis unit 13 determines that the variable of the field is to be retained, the value corresponding to the variable after the replacement is the value originally included in the variable except for the replaced value. Become. For example, in the case of the variable “% ⁇ WORD ⁇ ”, the variable “% ⁇ WORD ⁇ ” after replacement includes the value “CCCC” and the value “DDDD”.
  • the pattern updating unit 14 replaces the variable of the field determined to be replaced by the field analyzing unit 13 with a value based on the result of the matching by the log / pattern matching unit 12 and the determination by the field analyzing unit 13. Thereby, the pattern updating unit 14 generates a plurality of patterns based on one pattern. Further, the pattern update unit 14 updates the pattern storage unit 15.
  • the pattern updating unit 14 sets the variable “% ⁇ WORD:” in the pattern “% ⁇ NUM_TS_1: ts1 ⁇ % ⁇ WORD: P1W1 ⁇ % ⁇ IP_NUM: P1IP1 ⁇ % ⁇ WORD: P1W2 ⁇ “P1W1 ⁇ ” is replaced with the value “login” and the value “logout”, and the variable “% ⁇ WORD: P1W1 ⁇ ” is left.
  • the pattern update unit 14 determines the pattern “% ⁇ NUM_TS_1: ts1 ⁇ login% ⁇ based on the pattern“% ⁇ NUM_TS_1: ts1 ⁇ % ⁇ WORD: P1W1 ⁇ % ⁇ IP_NUM: P1IP1 ⁇ % ⁇ WORD: P1W2 ⁇ ”.
  • the pattern updating unit 14 generates a pattern by replacing a variable with a value.
  • the pattern update unit 14 converts the pattern “% ⁇ NUN_TS_1: ts1 ⁇ % ⁇ WORD: P1W1 ⁇ % ⁇ IP_NUM: P1IP1 ⁇ % ⁇ WORD: P1W2 ⁇ ” stored in the pattern storage unit 15 into the three patterns. Update.
  • the pattern updating unit 14 replaces the variable of the field determined to be replaced by the field analyzing unit 13 with a value, and updates the pattern storage unit 15.
  • the pattern storage unit 15 is a storage device such as a hard disk or a memory. As described above, the pattern storage unit 15 stores a pattern generated by converting the logs in the log message 2 into variables by the log classification unit 11 and collecting the variables. The pattern stored in the pattern storage unit 15 is updated by the pattern update unit 14.
  • the pattern storage unit 15 may store the log message 2 together with the pattern.
  • the log classification unit 11 can be configured to store a pattern in the pattern storage unit 15 and store the log message 2.
  • the display unit 16 is provided inside or outside the log analyzer 10, and is composed of, for example, a screen display device such as an LCD (Liquid Crystal Display).
  • the display unit 16 displays the pattern stored in the pattern storage unit 15, the log message 2, and the like.
  • the display unit 16 displays, in addition to the generated pattern and a set of original logs corresponding to each pattern, statistical information such as the frequency of appearance of each pattern and the variables included in the pattern (for example, the calculation result by the field analysis unit 13). You can output it.
  • the display unit 16 may output a tree diagram or the like showing a process of dividing the pattern.
  • the tree diagram is, for example, a tree diagram in which the upper node is a pattern with a high degree of abstraction, and the lower node is a more specific pattern in which variables are replaced with values.
  • the log analysis device 10 includes the log classification unit 11 that generates a pattern, the log pattern matching unit 12 that performs a predetermined analysis, and the field analysis unit 13.
  • the log analyzer 10 may be configured to receive a pattern from another external device or the like. Further, the log analyzer 10 may not have a configuration for specifying the distribution of variables and values in the pattern as long as the distribution of variables and values in the pattern can be specified by some method.
  • the log classification unit 11 converts a plurality of logs in which the value of each field in the log is converted into a variable into the same variable among the logs included in the log message 2 into variables. Then, a pattern is generated by putting together (step S101). The log classification unit 11 stores the generated pattern in the pattern storage unit 15.
  • the log / pattern matching unit 12 matches the pattern generated by the log classifying unit 11 with the log of the pattern generation source for each field (step S102). Then, the log pattern matching unit 12 totals the number of values corresponding to the variables for each field.
  • the field analysis unit 13 analyzes each field in the pattern (step S104). Specifically, when there is a field that has not been analyzed in the pattern to be analyzed (step S105, YES), the field analysis unit 13 performs a predetermined distribution operation on the field (step S106). Then, when the result of the operation satisfies a condition such as a predetermined threshold (step S107, YES), the field analysis unit 13 determines that the variable of the field is replaced with a value (step S108). On the other hand, when the calculation result does not satisfy the condition such as the predetermined threshold (NO in step S107), the field analysis unit 13 determines that the variable of the field is not replaced with the value.
  • a condition such as a predetermined threshold
  • the field analysis unit 13 checks whether or not there is any field that has not been analyzed in the pattern to be analyzed (step S105). When there is a field that has not been analyzed (step S105, YES), the processing of step S106 is performed as described above. On the other hand, when there is no unanalyzed field (step S105, NO), the field analyzer 13 checks whether there is an unanalyzed pattern (step S103). If there is an unanalyzed pattern (step S103, YES), the process of step S104 is performed as described above. On the other hand, when there is no unanalyzed pattern (step S103, NO), the pattern updating unit 14 replaces the variable of the field determined to be replaced by the field analyzing unit 13 with a value.
  • the pattern updating unit 14 generates a plurality of patterns based on one pattern. Further, the pattern update unit 14 updates the pattern stored in the pattern storage unit 15 (Step S109). Thereafter, the display unit 16 can display the pattern stored in the pattern storage unit 15, the log message 2, and the like.
  • the log analysis device 10 includes the log / pattern matching unit 12, the field analysis unit 13, the pattern update unit 14, and the pattern storage unit 15.
  • the log / pattern matching unit 12 counts the number of values included in the variables by matching the pattern generated by the log classification unit 11 with the log of the pattern generation source for each field. I can do it.
  • the field analysis unit 13 can determine whether or not to replace a field variable with a value by performing a predetermined operation based on the result of the aggregation by the log / pattern matching unit 12.
  • the pattern updating unit 14 can generate a new pattern by replacing a variable with a value based on the result of the determination by the field analyzing unit 13.
  • the pattern storage unit 15 can store the pattern after the replacement by the pattern update unit 14.
  • the degree of abstraction of the pattern is high (when the ratio of variables is large), it becomes difficult to analyze the log with high accuracy.
  • the abstraction of the pattern is low (when the ratio of the values is large), it is difficult to analyze the log efficiently because many patterns are generated.
  • variables can be replaced with values based on the result of the distribution operation.
  • noticeable information with a low degree of randomness can be replaced with a value.
  • efficient analysis can be realized.
  • the presence or absence of replacement is determined based on the result of the distribution operation. For this reason, it is possible to determine whether or not a character string or the like that can be arbitrarily defined by the user is replaced by a variable. This makes it possible to determine whether to convert into a variable or replace with a value even if a log includes a character string or the like that can be arbitrarily defined by the user. As a result, more efficient analysis can be performed.
  • the log analysis device 10 for example, the operation rate and failure prediction of the device by analyzing the characteristic log of the device, and the productivity and the problem by analyzing the operation log of the employee.
  • efficient log analysis can be performed.
  • the log analyzer 10 may be configured to perform an analysis other than those exemplified above.
  • FIG. 7 shows an example of the configuration of the log analyzer 30.
  • a log analyzer 30 which is a modification of the log analyzer 10 described in the first embodiment will be described.
  • the log analyzer 30 is configured to be able to determine a priority which is a reference for determining where to replace a plurality of fields included in the pattern.
  • the priority is information indicating a field in which a variable is preferentially replaced with a log value. For example, the log analyzer 30 performs the replacement in order from the field having the highest priority.
  • the log analysis device 30 starts with a field having a higher priority until a predetermined condition is satisfied, for example, the number of replacements satisfies a predetermined number, the number of logs to be generated satisfies a predetermined number, or the priority is higher than a predetermined level.
  • the pattern analysis and replacement may be performed in order.
  • FIG. 7 shows an example of the configuration of the log analyzer 30.
  • the log analysis device 30 includes, for example, a log classification unit 11, a log / pattern matching unit 12, a field analysis unit 33, a pattern update unit 14, a pattern storage unit 15, a display unit 16, have.
  • the log analyzer 30 has, for example, an arithmetic device such as a CPU and a storage device.
  • the log analysis device 30 implements each of the above-described processing units by executing a program stored in the storage device by the arithmetic device.
  • FIG. 7 the same components as those of the log analyzer 10 described in the first embodiment (see FIG. 1) are denoted by the same reference numerals as those in FIG.
  • a configuration characteristic of the present embodiment will be described.
  • the field analysis unit 33 replaces a field variable with a value based on a predetermined distribution operation based on the result of aggregation by the log pattern matching unit 12 and a given condition. Determine whether or not. Further, the field analysis unit 33 performs a predetermined distribution calculation and determines a priority. Then, the field analysis unit 33 determines to perform the replacement from the field having the higher priority. As a result, the pattern updating unit 14 performs the replacement in order from the field determined to have a high priority by the field analysis unit 33.
  • the field analysis unit 33 can be configured to determine a field having a small number of replacements, which is the sum of the number of values after replacement and the number of variables, as a field having a higher priority. If no variable is left, the number of replacements is the number of values after the replacement.
  • the field analysis unit 33 determines that the field in which one variable is replaced with three values has a higher priority than the field in which one variable is replaced with five values and the variable remains.
  • the field analysis unit 33 can be configured to determine the priority based on the number of replacements.
  • the field analysis unit 33 can be configured to determine a field having a higher priority as a number satisfying the condition among a plurality of methods described in the first embodiment.
  • the field analysis unit 33 is configured to perform the determination using five methods of the number of types of values, the degree of randomness, the chi-square value, the variation coefficient, and the average value. In this case, the field analysis unit 33 determines that the field that satisfies the condition with all five methods has a higher priority than the case where the four methods satisfy the condition or the case where the three methods satisfy the condition. I do. As described above, the field analysis unit 33 can be configured to determine the priority based on the number satisfying the condition.
  • the field analysis unit 33 may be configured to determine the priority based on one of the number of replacements and the number that satisfies the condition, or may be configured to determine the priority by combining both. It does not matter. In the case of determining the priority by combining both, for example, it is possible to configure so that the smaller the number of replacements, the higher the priority, and when the number of replacements is the same, the determination is made based on the number satisfying the condition.
  • the field analysis unit 33 may be configured to determine the priority based on a method other than the method exemplified above.
  • the field analysis unit 33 satisfies a predetermined condition such that, for example, the number of generated patterns becomes a predetermined number, the number of values of a field to be replaced becomes a predetermined number, and the like, in order from the field having the highest priority. It can be configured to determine whether or not to perform replacement. Further, the field analysis unit 33 may be configured to determine that only those having a priority higher than a predetermined value (for example, the number of replacements is four or less) are actually replaced.
  • the above predetermined conditions may be other than those exemplified above.
  • the log analysis device 30 includes the field analysis unit 33 that makes a determination in consideration of the priority. According to such a configuration, replacement can be performed efficiently.
  • FIG. 8 shows an example of the configuration of the log analyzer 40.
  • the log analyzer 10 described in the first embodiment and the log analyzer 40 which is a modification of the log analyzer 30 described in the second embodiment will be described.
  • the log analyzer 40 is configured to be able to designate a field to be analyzed / replaced among a plurality of fields included in the pattern. Due to such a configuration, the log analyzer 40 analyzes and replaces only some of the fields included in the pattern.
  • FIG. 8 shows an example of the configuration of the log analyzer 40.
  • the log analysis device 40 includes, for example, a log classification unit 11, a log / pattern matching unit 12, a field analysis unit 43, an analysis field determination unit 46 (determination unit), and a pattern update unit 14. , A pattern storage unit 15, and a display unit 16.
  • the log analyzer 40 has, for example, an arithmetic device such as a CPU and a storage device.
  • the log analysis device 40 realizes each of the above-described processing units by an arithmetic device executing a program stored in a storage device.
  • FIG. 7 the same components as those of the log analyzer 10 described in the first embodiment and the log analyzer 30 described in the third embodiment are denoted by the same reference numerals as those in FIGS. I have.
  • a configuration characteristic of the present embodiment will be described.
  • the field analysis unit 43 replaces a field variable with a value based on a predetermined distribution operation based on the result of aggregation by the log pattern matching unit 12 and a given condition. Determine whether or not.
  • the field analyzer 43 determines whether or not to replace a field with respect to a field determined to be analyzed and replaced by the analysis field determiner 46.
  • field analysis unit 43 may be configured to take into account the priority as well as the field analysis unit 33 described in the second embodiment.
  • the analysis field determination unit 46 determines which field in the log is to be analyzed by the field analysis unit 43. For example, the analysis field determination unit 46 determines whether or not to be an analysis target according to designation by an operator who operates the log analysis device 40 or a value distribution state such as a value distribution in all logs. .
  • target information indicating which field in the log is to be analyzed or which field is not to be analyzed is determined by an operator who operates the log analyzer 40. It is input in advance and stored in a storage device or the like.
  • the analysis field determination unit 46 can determine which field in the log is to be analyzed by the field analysis unit 43 based on the above information.
  • the analysis field determination unit 46 can be configured so that fields such as date and time are not analyzed based on the information stored in advance.
  • the analysis field determination unit 46 determines the distribution of variables in all logs in the log message 2, the distribution of variables in the pattern generated by the log classification unit 11 (the result of aggregation by the log / pattern matching unit 12), and the like. It is possible to determine which field in the log is to be analyzed based on the distribution state of the value of.
  • the analysis field determination unit 46 is configured to analyze a field determined to include a unique value in a variable based on the distribution of the variable in all logs in the log message 2 and the like. I can do it.
  • the analysis field determination unit 46 can be configured so that a field determined to have a high degree of randomness is not to be analyzed.
  • the analysis field determination unit 46 may be configured to use only one of the above-described methods, or may be configured to determine the field to be analyzed / replaced by combining both. When both are combined, the analysis field determination unit 46 may be configured so that all the fields determined not to be analyzed by the respective criteria are not analyzed, or not analyzed by both criteria. It may be configured such that the field determined to be not subjected to the analysis.
  • the log analysis device 30 includes the analysis field determination unit 46 and the field analysis unit 43.
  • the analysis field determination unit 46 can determine which field is to be analyzed by the field analysis unit 43.
  • the field analysis unit 43 analyzes only the fields determined to be analyzed by the analysis field determination unit 46 (or excluding the fields determined not to be analyzed by the analysis field determination unit 46). I can do it. This makes it possible to perform the analysis more efficiently.
  • each component included in the log analyzer 10, the log analyzer 30, and the log analyzer 40 indicates a block of a functional unit.
  • Some or all of the components included in the log analyzer 10, the log analyzer 30, and the log analyzer 40 can be realized by, for example, an arbitrary combination of an information processing device 500 and a program as shown in FIG. .
  • FIG. 9 is a block diagram illustrating an example of a hardware configuration of an information processing device 500 that implements each component of the log analysis device 10, the log analysis device 30, and the log analysis device 40.
  • the information processing device 500 can include the following configuration as an example.
  • Each component included in the log analyzer 10, the log analyzer 30, and the log analyzer 40 in each of the above-described embodiments can be realized by the CPU 501 acquiring and executing a program group 504 that realizes these functions. I can do it.
  • a program group 504 for realizing the function of each component of the log analysis device 10, the log analysis device 30, and the log analysis device 40 is stored in, for example, a storage device 505 or a ROM 502 in advance. And run it.
  • the program group 504 may be supplied to the CPU 501 via the communication network 511, or may be stored in the recording medium 510 in advance, and the drive device 506 may read the program and supply the program to the CPU 501.
  • FIG. 9 illustrates an example of the configuration of the information processing apparatus 500, and the configuration of the information processing apparatus 500 is not illustrated in the above-described case.
  • the information processing device 500 may include a part of the above-described configuration, such as not having the drive device 506.
  • FIG. 10 shows an example of the configuration of the log analyzer 60.
  • the log analyzer 60 has, for example, a generator 61.
  • the log analyzer 60 includes, for example, an arithmetic device such as a CPU and a storage device.
  • the log analysis device 60 realizes each of the above-described processing units by executing a program stored in the storage device by the arithmetic device.
  • the generation unit 61 has at least one or more variables, and generates an abstract log based on a distribution of log values corresponding to the variables in the abstract log in which the variables include at least one or more log values. Generate a new abstract log by replacing the variables in it with the log values.
  • the log analyzer 60 includes the generation unit 61.
  • the generation unit 61 can generate a new abstract log in which a variable in the abstract log is replaced with a value, based on the distribution of the log value corresponding to the variable.
  • the abstraction log has a high degree of abstraction (when the ratio of variables is large)
  • the abstraction log has a low level of abstraction (when the ratio of values is large)
  • efficient analysis can be realized.
  • the present embodiment it is determined whether or not to generate a new abstract log in which a variable is replaced with a value, based on the distribution of log values corresponding to the variable. Therefore, it is possible to determine whether a character string or the like that can be arbitrarily defined by the user is converted into a variable and replaced with a value. As a result, even if the log includes a character string that can be arbitrarily defined by the user, it is possible to determine whether or not to abstract (determine whether to make a variable or a value). It becomes possible. As a result, more efficient analysis can be performed.
  • the log analyzer 60 described above can be realized by incorporating a predetermined program into the log analyzer 60. More specifically, a program according to another embodiment of the present invention includes, in an information processing apparatus, a variable in an abstract log having at least one or more variables, and the variable including at least one or more log values. Is a program for implementing the generation unit 61 that generates a new abstract log in which variables in the abstract log are replaced with log values based on the distribution of log values corresponding to.
  • the information processing apparatus includes at least one or more variables, and the variable includes at least one or more log values. And generating a new abstract log in which the variables in the abstract log are replaced with log values based on the distribution of the log values corresponding to the variables.
  • (Appendix 1) The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values.
  • a log analysis device having a generation unit that generates a new abstracted log in which the variable of (a) is replaced with the value of the log.
  • (Appendix 2) The log analyzer according to claim 1, wherein: Based on a log including a plurality of values and the abstraction log generated by performing variable conversion of converting the log value into the variable for each predetermined field obtained by dividing the log at an arbitrary position.
  • the log analyzer wherein the generation unit generates a new abstract log in which the variable in the abstract log is replaced with a value of the log based on a result of the calculation by the analysis unit.
  • the log analyzer according to claim 2, wherein: The log analyzer, wherein the analysis unit aggregates the number of the log values corresponding to the variables for each field, and performs a predetermined distribution operation for each field based on the aggregated result.
  • the generating unit generates a new abstract log in which the variable in the abstract log is replaced with a value of the log determined to be replaced based on a result of the determination by the analysis unit, and before the replacement, A log analyzer that generates a new abstract log having a variable that includes the log value excluding the replaced log value among the log values included in the variable.
  • the log analyzer according to any one of Supplementary Notes 2 to 5, wherein: The analysis unit determines a priority indicating a field in which a variable is preferentially replaced with a log value. Log analyzer.
  • the log analyzer according to Supplementary Note 11 or 12, wherein: The log analysis device, wherein the determination unit determines the field to be analyzed according to a distribution state of the value.
  • the log analyzer according to any one of claims 1 to 13, wherein: A log analyzer that generates the abstracted log by converting the log having a plurality of values into a variable that converts the log value into the variable for each predetermined field obtained by dividing the log at an arbitrary position.
  • the information processing device is The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values.
  • a log analysis method for generating a new abstract log in which the variable of the above is replaced with the value of the log. (Appendix 15-1) The log analysis method according to attachment 15, wherein Based on a log including a plurality of values and the abstraction log generated by performing variable conversion of converting the log value into the variable for each predetermined field obtained by dividing the log at an arbitrary position. Calculating the distribution of the log values corresponding to the variables in the abstraction log, A log analysis method for generating a new abstract log in which the variable in the abstract log is replaced with a value of the log based on a result of the calculation.
  • (Appendix 15-2) The log analysis method according to attachment 15-1, wherein The log analyzer, wherein the analysis unit aggregates the number of the log values corresponding to the variables for each field, and performs a predetermined distribution operation for each field based on the aggregated result.
  • (Appendix 16) For information processing equipment, The abstraction log based on a distribution of log values corresponding to the variable in the abstraction log having at least one or more variables, wherein the variable includes at least one or more log values. For realizing a generation unit that generates a new abstract log in which the variable of the above is replaced with the value of the log.
  • the programs described in the above embodiments and the supplementary notes are stored in a storage device or are recorded on a computer-readable recording medium.
  • the recording medium is a portable medium such as a flexible disk, an optical disk, a magneto-optical disk, and a semiconductor memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を有する。

Description

ログ分析装置、ログ分析方法、プログラム
 本発明は、ログ分析装置、ログ分析方法、プログラムに関する。
 システムログやアプリケーションログなどのログメッセージを監視するための技術が知られている。
 例えば、特許文献1には、ログメッセージのフォーマットを推定する方法の一例が記載されている。特許文献1によると、第1のログメッセージを記号や空白などの所定のキャラクタの前後で分割した各部分をノードとし、ノードそれぞれを第1のログメッセージの先頭から順に並べて第1の有向グラフ構造を作成する。また、第2のログメッセージを所定のキャラクタの前後で分割した各部分をノードとし、ノードそれぞれを第2のログメッセージの先頭から並べて第2の有向グラフ構造を作成する。そして、第1の有向グラフ構造中のノードと第2の有向グラフ構造中のノードとを比較して、文字列が一致するノード以外のノードを検出する。また、検出したノードのうち、第2の有向グラフ構造中の検出したノードを第1の有向グラフ構造に第1の分岐ノードとして追加し、第1の分岐ノードが追加された第1の有向グラフ構造に基づいてフォーマットを推定する。この際、文字列の出現傾向が類似するか否かに基づいて有向グラフの更新を行う。
 また、関連する技術として、例えば、特許文献2がある。特許文献2によると、ログ情報解析装置は、ログ情報から所定の時刻形式に変換された時刻と所定のフォーマットに変換された所定の文字列とを含む汎用ログを作成する。そして、ログ情報解析装置は、汎用ログに対応するログ情報の長さとログ情報中に現れる語の出現頻度とを含む特徴情報をログ情報が記録されたログ情報記録部から抽出するとともに、抽出されたログ情報を図形化してログ情報と共に所定の時刻形式に変換された時刻の順に表示する。
 また、関連する技術として、例えば、特許文献3がある。特許文献3によると、監視情報分析装置は、ログメッセージに含まれる各単語に対して算出されたスコアに基づいてクラスタリングを行うことによりテンプレートを生成する。
特許第5988447号 特開2001-356939号公報 特開2013-171471号公報
 特許文献1に記載の技術の場合、文字列の出現傾向が類似するか否かは、文字列を構成する文字の種別や文字列の長さなどに基づいて判断している。このような構成のため、例えば、ユーザ名やサーバ名、ファイル名などのユーザが任意に定義可能な文字列などは、出現傾向が異なる文字列と判定され一意に扱うことが出来なかった。つまり、特許文献1に記載の技術の場合、任意の文字列などを類似するフォーマット(パターン)として判定することが出来ない、という問題があった。
 ここで、一般に、フォーマット(パターン)の抽象度が高い場合(変数の割合が多い場合)、当該フォーマットに対応するログの候補が多数発生し、ユーザが所望するログが埋没してしまう。その結果、ログを精度良く分析することが難しくなる。一方、フォーマット(パターン)の抽象度が低い場合、ユーザが所望するログを抽出するためには多くのパターンが必要となる。しかし、多くのパターンを用いて分析を何度も行うことは、効率が悪い。以上より、ログを精度よく効率的に分析するためには、フォーマットの抽象度を適切に設定することが望ましい。しかしながら、上述したように、特許文献1の場合、任意の文字列などを類似するフォーマット(パターン)として判定することが出来なかった。その結果、抽象度を適切に設定することが難しくなり、ログを効率的にかつ精度よく分析することが難しくなるおそれがあった。
 また、このような問題を解決するための方法は、特許文献2や特許文献3には記載されていない。そのため、特許文献2や特許文献3に記載されている技術を用いたとしても、上述した課題を解決することは出来なかった。
 そこで、本発明の目的は、ログを効率的かつ精度良く分析する、ログ分析装置、ログ分析方法、プログラムを提供することにある。
 かかる目的を達成するため本発明の一形態であるログ分析装置は、
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を有する
 という構成をとる。
 また、本発明の他の形態であるログ分析方法は、
 情報処理装置が、
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
 という構成をとる。
 また、本発明の他の形態であるプログラムは、
 情報処理装置に、
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を実現するためのプログラムである。
本発明は、以上のように構成されることにより、ログを効率的かつ精度良く分析する、ログ分析装置、ログ分析方法、プログラムを提供することが可能となる。
本発明の第1の実施形態におけるログ分析装置の構成の一例を示すブロック図である。 ログ分析装置に入力されるログメッセージの一例を示す図である。 ログメッセージを変数化することで生成するパターンの一例を示す図である。 フィールドごとにログの値を抽出した際の様子の一例を示す図である。 分析の結果に応じてフィールドの変数を値に置換して新たなパターンを生成する際の様子の一例を示す図である。 本発明の第1の実施形態におけるログ分析装置の動作の一例を示すフローチャートである。 本発明の第2の実施形態におけるログ分析装置の構成の一例を示すブロック図である。 本発明の第3の実施形態におけるログ分析装置の構成の一例を示すブロック図である。 本発明の第1の実施形態、第2の実施形態、第3の実施形態を実現可能なコンピュータ(情報処理装置)のハードウェア構成を例示的に説明する図である。 本発明の第4の実施形態におけるログ分析装置の構成の一例を示すブロック図である。
[第1の実施形態]
 本発明の第1の実施形態を図1から図6までを参照して説明する。図1は、ログ分析装置10の構成の一例を示すブロック図である。図2は、ログ分析装置10に入力されるログメッセージ2の一例を示す図である。図3は、ログメッセージ2を変数化することで生成するパターンの一例を示す図である。図4は、フィールドごとにログの値を抽出した際の様子の一例を示す図である。図5は、分析の結果に応じて、フィールドの変数を値に置換して新たなパターンを生成する際の様子の一例を示す図である。図6は、ログ分析装置10の動作の一例を示すフローチャートである。
 本発明の第1の実施形態では、ログメッセージ2中の複数のログを所定のフィールドごとに変数化してまとめることで、パターン(抽象化ログ)を生成するログ分析装置10について説明する。後述するように、本実施形態のログ分析装置10の場合、生成したパターンと当該パターンに対応するログメッセージ2とをフィールドごとに照合して、パターン中の変数に含まれる値の分布を計算する。そして、ログ分析装置10は、計算した結果に基づいて、変数の少なくとも一部を値に置換する。これにより、ログ分析装置10は、1つのパターンに基づいて、パターン中の変数の少なくとも一部を値に置換した複数のパターンを生成する。
 なお、本実施形態において、パターンとは、変数を用いてログを表したものをいう。また、変数化とは、ログ中のフィールドの値を変数に変換することをいう。後述するように、ログ分析装置10は、ログ中の各フィールドの値を変数に変換した際の変数の並びが同一になる複数のログを変数化してまとめることで、パターンを生成する。ここで、フィールドとは、ログ中の値、変数を判断する際の基準となる区切りのことをいう。例えば、ログは、日付日時、IPアドレス(Internet Protocol address)、英字のみ、英数混合、数字のみ、など、ログが示す対象・情報の中身(属性)が変化する箇所で各フィールドに区切られている。なお、日付と日時で異なるフィールドになるなど、上記例示した以外の個所でフィールドを区切っても構わない。つまり、フィールドは任意の位置で区切って構わない。また、フィールドの属性に応じた変数には、例えば、英字のみ(WORD)、英数混合(NOTSPACE)、数字のみ(NUM)などがある。変数は、日付日時を示す数字のみの変数やIPアドレスを示す変数など、上記をより細分化したものや上記例示したもの以外であっても構わない。
 例えば、「2017/02/24 09:01:00 login 127.0.0.1 bear」「2017/02/24 09:02:00 logout 127.0.0.1 bear」というログの場合、各フィールドの値を変数に変換した際の変数の並びは「日付日時のフィールド、英字のみのフィールド、IPアドレスのフィールド、英字のみのフィールド」で同一になる。そこで、ログ分析装置10は、上記2つのログを変数化してまとめることで、上記2つのログから1つのパターンを生成する。具体的には、例えば、ログ分析装置10は、「%{NUM_TS}%{WORD}%{IP_NUM}%{WORD}」などのようなパターンを生成する。なお、上記例示した場合、変数「%{NUM_TS}」には、値「2017/02/24 09:01:00」と値「2017/02/24 09:02:00」とが対応する。また、1番目の変数「%{WORD}」には値「login」と値「logout」とが対応する。また、変数「%{IP_NUM}」には値「127.0.0.1」が対応し、2番目の変数「%{WORD}」には値「bear」が対応する。
 ログ分析装置10は、外部装置などからログメッセージ2を受信すると、ログメッセージ2に含まれる各ログを所定のフィールドごとに変数化してパターンを生成する情報処理装置である。図1は、ログ分析装置10の構成の一例を示している。図1を参照すると、ログ分析装置10は、例えば、ログ分類部11と、ログ・パターン照合部12(分析部)と、フィールド分析部13(分析部)と、パターン更新部14(生成部)と、パターン記憶部15と、表示部16と、を有している。
 なお、例えば、ログ分析装置10は、CPU(Central Processing Unit)などの演算装置と記憶装置とを有している。ログ分析装置10は、例えば、記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 ログ分類部11は、ログ中の各フィールドの値を変数に変換した際の変数の並びが同一になる複数のログを変数化してまとめることで、ログメッセージ2に基づいてパターンを生成する。
 例えば、ログ分類部11が図2で示すようなログメッセージ2を受信したとする。図2を参照すると、ログメッセージ2には、例えば、「2017/02/24 09:01:00 login 127.0.0.1 bear」、「2017/02/24 09:02:00 logout 127.0.0.1 bear」、「2017/02/24 09:03:00 login 192.10.0.5 bear123」、「2017/02/24 09:04:00 logout 192.10.0.5 bear123」、「2017/02/24 09:04:10 login 192.10.0.6 bear_1」などのログが含まれている。
 上記例示したようなログを含むログメッセージ2の場合、ログメッセージ2のうち、ログ「2017/02/24 09:01:00 login 127.0.0.1 bear」とログ「2017/02/24 09:02:00 logout 127.0.0.1 bear」は、変数の並びが「%{NUM_TS}%{WORD}%{IP_NUM}%{WORD}」で同一である。また、ログ「2017/02/24 09:03:00 login 192.10.0.5 bear123とログ「2017/02/24 09:04:00 logout 192.10.0.5 bear123」とログ「2017/02/24 09:04:10 login 192.10.0.6 bear_1」とは、変数の並びが「%{NUM_TS}%{WORD}%{IP_NUM}%{NOTSPACE}」で同一である。そこで、ログ分類部11は、ログ「2017/02/24 09:01:00 login 127.0.0.1 bear」とログ「2017/02/24 09:02:00 logout 127.0.0.1 bear」とを変数化してまとめることで、「%{NUM_TS_1:ts1}%{WORD:P1W1}%{IP_NUM:P1IP1}%{WORD:P1W2}」を生成する(図3参照)。また、ログ分類部11は、ログ「2017/02/24 09:03:00 login 192.10.0.5 bear123とログ「2017/02/24 09:04:00 logout 192.10.0.5 bear123」とログ「2017/02/24 09:04:10 login 192.10.0.6 bear_1」とを変数化してまとめることで、「%{NUM_TS_1:ts1}%{WORD:P2W1}%{IP_NUM:P2IP1}%{NOTSPACE:P2NS1}」を生成する。
 なお、ログ分類部11は、ログメッセージ2に基づいてパターンを生成する際に上記例示した以外の方法を用いても構わない。例えば、ログ分類部11は、ログメッセージ2に含まれる各ログを、クラスタ分析などを用いて複数の部分集合に分割し、分割した部分集合ごとに変数化してまとめることでパターンを生成しても構わない。ログ分類部11は、その他既知の方法を用いてパターンを生成しても構わない。
 また、上述した例では、ログ分類部11は、全てのフィールドを変数化している。しかしながら、ログ分類部11は、必ずしもすべてのフィールドを変数化しなくても構わない。換言すると、ログ分類部11は、ログ中に含まれる値の一部を変数化しなくても構わない。つまり、ログ分類部11が生成するパターンは、当該パターンを抽出する方式に依存して、変数化されない固定列(値)を含んでいても構わない。
 ログ・パターン照合部12は、ログ分類部11が生成したパターンと、パターン生成元のログとを、フィールドごとに照合する。そして、ログ・パターン照合部12は、フィールドごとに変数に対応する値の数を集計する。
 図4は、ログ・パターン照合部12による照合・集計処理の一例を示している。図4を参照すると、例えば、変数「%{NUM_TS_1:ts1}」には、値「2017/02/24 09:01:00」が1つ、値「2017/02/24 09:02:00」が1つ、それぞれ含まれている。また、図4を参照すると、例えば、変数「%{WORD:P1W1}」には、値「login」が3つ、値「logout」が4つ含まれている。
 このように、ログ・パターン照合部12は、パターンとパターン生成元のログとをフィールドごとに照合することで、変数に含まれる値の数を集計する。なお、例えば、ログ分類部11が分割した部分集合ごとに変数化してまとめることでパターンを生成していた場合、ログ・パターン照合部12は、部分集合ごとに値の数を集計することが出来る。
 フィールド分析部13は、ログ・パターン照合部12による集計の結果に基づいて、フィールドごとに所定の分布演算を行う。これにより、フィールド分析部13は、パターン中の各変数に対応するログの値の分布を計算する。また、フィールド分析部13は、分布演算の結果が所与の条件を満たすか否か判定する。そして、フィールド分析部13は、判定の結果に基づいて、当該フィールドの変数を値に置換するか否か判断する。後述するように、フィールド分析部13が変数を値に置換すると判断した場合、パターン更新部14は、置換すると判断されたフィールドの変数を値に置換する。換言すると、パターン更新部14は、1つのパターンに基づいて、置換後の値の数に応じた複数のパターンを生成する。
 具体的には、例えば、フィールド分析部13は、フィールドに含まれるユニークな値の個数(つまり、値の種類の数)に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、フィールドに含まれるユニークな値の個数を計算する。そして、フィールド分析部13は、ユニークな値の個数が予め定められた第1の閾値以下であれば、当該フィールドの変数を値に置換する対象にすると判断する。
 例えば1番目のパターンの1番目のフィールドの変数に「SV01、SV02、SV03、SV04」の4種類の値が含まれるとする。また、予め定められた第1の閾値が「10」であったとする。この場合、フィールド分析部13は、フィールドに含まれるユニークな値の個数(値の種類数)が第1の閾値「10」以下の「4」であるため、当該フィールドの変数を値に置換する、と判断する。このように、フィールド分析部13は、フィールドに含まれるユニークな値の個数(値の種類数)に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 また、例えば、フィールド分析部13は、フィールドのランダム度に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、フィールドに含まれるユニークな値の個数をパターンに追尾するログの数(パターンを生成する際にまとめたログの数)で除す。つまり、フィールド分析部13は、当該フィールドを含む任意のパターンに対応するログの個数に対する値の種類数の比率として定義されるフィールドのランダム度を算出する。そして、フィールド分析部13は、上記除算した結果が予め定められた第2の閾値以下であれば、当該フィールドの変数を値に置換する対象にすると判断する。なお、上記のように算出されるため、フィールドのランダム度は、0~1の幅を持ち、1に近いほどランダム度が高いことになる。
 例えば、2番目のパターンがログを10個まとめることで生成されており、2番目のパターンの2番目のフィールドに値が3種類含まれているものとする。さらに、予め定められた第2の閾値が「0.5」であるとする。この場合、フィールド分析部13は、2番目のフィールドのランダム度が第2の閾値「0.5」以下の「0.3」であるため、当該フィールド変数を値に置換する、と判断する。このように、フィールド分析部13は、フィールドのランダム度に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 また、例えば、フィールド分析部13は、カイ二乗値に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、(観測値―理論値)^2/理論値の合計を算出することでカイ二乗値を算出する。そして、フィールド分析部13は、上記算出した結果が予め定められた第3の閾値以上であれば、当該フィールドの変数を値に置換する対象にすると判断する。なお、観測値はフィールド中の値の数であり、理論値は対応するログの数を値の種類数で除した値である。
 例えば、3番目のパターンに対応するログが100個あり、3番目のフィールドに4種類の値「START、STOP、RESTART、END」がそれぞれ「40、10、40、10」個ずつ含まれているとする。また、予め定められた第3の閾値が「30」であるとする。この場合、理論値は100を4で除した25となる。そのため、カイ二乗値は、(40-25)^2/25+(10-25)^2/25+(40-25)^2/25+(10-25)^2/25=36となる。この場合、フィールド分析部13は、3番目のフィールドのカイ二乗値が第3の閾値以上であるため、当該フィールドの変数を値に置換する、と判断する。このように、フィールド分析部13は、カイ二乗値に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 また、例えば、フィールド分析部13は、変動係数に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、標準偏差を平均値で除すことで変動係数を算出する。そして、フィールド分析部13は、上記算出した変動係数が予め定められた第4の閾値以上であれば、当該フィールドの変数を値に置換する対象にすると判断する。
 例えば、標準偏差が40、平均値が100のフィールドがあるとする。また、第4の閾値が0.3であるとする。この場合、変動係数は、40/100で0.4となる。そのため、フィールド分析部13は、フィールドの変動係数が第4の閾値以上であるため、当該フィールドの変数を値に置換する、と判断する。このように、フィールド分析部13は、標準偏差に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 また、例えば、フィールド分析部13は、平均値に基づいてフィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、フィールド中の値の数と値の種類の数とから平均値を算出する。そして、そして、フィールド分析部13は、上記算出した平均値が予め定められた第5の閾値以下であれば、当該フィールドの変数を値に置換する対象にすると判断する。
 例えば、平均値が100、第5の閾値が200であるとする。この場合、フィールド分析部13は、平均値が第5の閾値以下であるため、当該フィールドの変数を値に置換する、と判断する。このように、フィールド分析部13は、平均値に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 また、例えば、フィールド分析部13は、期待値に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。例えば、フィールド分析部13は、対応するログの数と値の種類の数とに基づいて、期待値を算出する。そして、フィールド分析部13は、算出した期待値よりも数が多い値を置換の対象にして、フィールドの変数を値に置換すると判断する。
 例えば、対応するログが100個、値の種類数が5個であるとする。この場合、期待値は100/5で20となる。そこで、フィールド分析部13は、数が20以上の値を置換の対象とする。一方、フィールド分析部13は、数が20よりも少ない値を置換の対象としない。このように、フィールド分析部13は、期待値に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。
 以上のように、フィールド分析部13は、様々な分布演算の結果に基づいて、フィールドの変数を値に置換するか否か判断することが出来る。なお、フィールド分析部13は、上述した方法のうちのいずれか一つの方法を用いてフィールドの変数を値に置換するか否か判断するよう構成しても構わないし、上述した複数の方法を組み合わせてフィールドの変数を値に置換するか否か判断するよう構成しても構わない。複数の方法を組み合わせて置換するか否か判断する場合、一つでも条件を満たせば置換する判断を行うよう構成しても構わないし、半分以上など複数のうちのいくつかが条件を満たすことで置換する判断を行うよう構成しても構わないし、全ての条件を満たすことで置換する判断を行うよう構成しても構わない。フィールド分析部13は、上述した方法以外の方法を用いてフィールドの変数を値に置換するか否か判断するよう構成しても構わない。
 また、フィールド分析部13は、カイ二乗値が第3の閾値より小さい場合に置換を行うと判断するなど、例示した場合と反対の場合に置換を行うと判断するよう構成しても構わない。フィールド分析部13による判断は、フィールドのデータ型などの属性情報に基づいて変更するよう構成しても構わない。
 また、フィールド分析部13は、上述したような方法を用いて、変数を値に完全に置換する(変数は残さない)旨の判断を行っても構わないし、変数を残す旨の判断を行っても構わない。換言すると、フィールド分析部13は、フィールドの変数を、変数に対応する値のうちの一部の値に置換するとともに、変数を残す旨の判断を行っても構わない。例えば、変数「%{WORD}」に4つの値「AAAA」、「BBBB」、「CCCC」、「DDDD」が含まれているとする。この場合、フィールド分析部13は、変数「%{WORD}」を4つの値「AAAA」、「BBBB」、「CCCC」、「DDDD」に完全に置換するよう構成しても構わないし、例えば、2つの値「AAAA」、「BBBB」のみを置換して変数「%{WORD}」を残すなど一部の値のみを置換するよう構成しても構わない。なお、フィールド分析部13が、フィールドの変数を残す旨の判断を行った場合、置換後の変数に対応する値は、もともと変数に含まれていた値のうち、置換した値を除いたものになる。例えば、上記変数「%{WORD}」の場合、置換後の変数「%{WORD}」には、値「CCCC」と値「DDDD」が含まれることになる。
 パターン更新部14は、ログ・パターン照合部12による照合、フィールド分析部13による判断の結果に基づいて、フィールド分析部13が置換すると判断したフィールドの変数を値に置換する。これにより、パターン更新部14は、1つのパターンに基づいて複数のパターンを生成する。また、パターン更新部14は、パターン記憶部15の更新を行う。
 例えば、パターン更新部14は、図5で示すように、パターン「%{NUM_TS_1:ts1}%{WORD:P1W1}%{IP_NUM:P1IP1}%{WORD:P1W2}」中の変数「%{WORD:P1W1}」を値「login」、値「logout」に置換するとともに変数「%{WORD:P1W1}」を残す。つまり、パターン更新部14は、パターン「%{NUM_TS_1:ts1}%{WORD:P1W1}%{IP_NUM:P1IP1}%{WORD:P1W2}」に基づいて、パターン「%{NUM_TS_1:ts1}login%{IP_NUM:P1IP1}%{WORD:P1W2}」とパターン「%{NUM_TS_1:ts1}logout%{IP_NUM:P1IP1}%{WORD:P1W2}」を生成するとともに、パターン「%{NUM_TS_1:ts1}%{WORD:P1W1}%{IP_NUM:P1IP1}%{WORD:P1W2}」を残す。このように、パターン更新部14は、変数を値に置換することで、パターンの生成を行う。その後、パターン更新部14は、パターン記憶部15に格納されたパターン「%{NUN_TS_1:ts1}%{WORD:P1W1}%{IP_NUM:P1IP1}%{WORD:P1W2}」を、上記3つのパターンに更新する。
 以上のように、パターン更新部14は、フィールド分析部13が置換すると判断したフィールドの変数を値に置換するとともに、パターン記憶部15の更新を行う。
 パターン記憶部15は、ハードディスクやメモリなどの記憶装置である。パターン記憶部15には、上述したように、ログ分類部11によりログメッセージ2中のログを変数化してまとめることで生成したパターンが格納される。また、パターン記憶部15に格納されたパターンは、パターン更新部14により更新される。
 なお、パターン記憶部15は、パターンとともに、ログメッセージ2を記憶しても構わない。例えば、ログ分類部11は、パターン記憶部15に対してパターンを格納するとともに、ログメッセージ2を格納するよう構成することが出来る。
 表示部16は、ログ分析装置10の内部または外部に備えられており、例えば、LCD(Liquid Crystal Display、液晶ディスプレイ)などの画面表示装置からなる。表示部16は、パターン記憶部15に記憶されたパターンやログメッセージ2などを表示する。表示部16には、生成したパターンおよび各パターンに対応する元のログの集合の他、各パターンおよびそれに含まれる変数の出現頻度等の統計情報(例えば、フィールド分析部13による算出結果)などを出力しても構わない。また、表示部16には、パターンが分割されていく過程を示す樹形図などを出力してもよい。上記樹形図は、例えば、上位ノードは抽象度が高いパターン、下位ノードが変数を値に置換したより具体的なパターン、などである樹形図である。
 以上が、ログ分析装置10の構成の一例である。
 また、本実施形態においては、ログ分析装置10がパターンを生成するログ分類部11や所定の分析を行うログ・パターン照合部12、フィールド分析部13を有する場合について説明した。しかしながら、ログ分析装置10は、他の外部装置などからパターンを受信するよう構成しても構わない。また、ログ分析装置10は、何らかの方法によりパターン中の変数や値の分布を特定可能であれば、パターン中の変数や値の分布を特定するための構成を有していなくても構わない。
 続いて、図6を参照して、ログ分析装置10の動作の一例について説明する。
 図6を参照すると、ログ分類部11は、ログメッセージ2に含まれる各ログのうち、ログ中の各フィールドの値を変数に変換した際の変数の並びが同一になる複数のログを変数化してまとめることで、パターンを生成する(ステップS101)。また、ログ分類部11は、パターン記憶部15に生成したパターンを格納する。
 ログ・パターン照合部12は、ログ分類部11が生成したパターンと、パターン生成元のログとを、フィールドごとに照合する(ステップS102)。そして、ログ・パターン照合部12は、フィールドごとに変数に対応する値の数を集計する。
 フィールド分析部13は、未分析のパターンがある場合(ステップS103、YES)、当該パターン中の各フィールドの分析を行う(ステップS104)。具体的には、フィールド分析部13は、分析対象のパターン中に分析を行っていないフィールドがある場合(ステップS105、YES)、当該フィールドに対する所定の分布演算を実行する(ステップS106)。そして、演算の結果が予め定められた閾値などの条件を満たす場合(ステップS107、YES)、フィールド分析部13は、当該フィールドの変数を値に置換すると判断する(ステップS108)。一方、計算の結果が予め定められた閾値などの条件を満たさない場合(ステップS107、NO)、フィールド分析部13は、当該フィールドの変数を値に置換しないと判断する。
 フィールドの置換有無を判断した後、フィールド分析部13は、分析対象のパターン中に分析を行っていないフィールドがまだあるか否か確認する(ステップS105)。分析を行っていないフィールドがある場合(ステップS105、YES)、上述したようにステップS106の処理を行う。一方、未分析のフィールドがない場合(ステップS105、NO)、フィールド分析部13は、未分析のパターンがあるか否か確認する(ステップS103)。未分析のパターンが存在する場合(ステップS103、YES)、上述したようにステップS104の処理を行う。一方、未分析のパターンが存在しない場合(ステップS103、NO)、パターン更新部14は、フィールド分析部13が置換すると判断したフィールドの変数を値に置換する。これにより、パターン更新部14は、1つのパターンに基づいて複数のパターンを生成する。また、パターン更新部14は、パターン記憶部15に格納されたパターンを更新する(ステップS109)。その後、表示部16は、パターン記憶部15に記憶されたパターンやログメッセージ2などを表示することが出来る。
 以上が、ログ分析装置10の動作の一例である。
 このように、ログ分析装置10は、ログ・パターン照合部12と、フィールド分析部13と、パターン更新部14と、パターン記憶部15と、を有している。このような構成により、ログ・パターン照合部12は、ログ分類部11が生成したパターンとパターン生成元のログとをフィールドごとに照合することで、変数に含まれる値の数を集計することが出来る。また、フィールド分析部13は、ログ・パターン照合部12による集計の結果に基づいて所定の演算を行うことで、フィールドの変数を値に置換するか否か判断することが出来る。また、パターン更新部14は、フィールド分析部13による判断の結果に基づいて変数を値に置換することで、新たなパターンを生成することが出来る。また、パターン記憶部15は、パターン更新部14による置換後のパターンを記憶することが出来る。ここで、一般に、パターンの抽象度が高い場合(変数の割合が多い場合)、ログを精度よく分析することが難しくなる。一方、パターンの抽象度が低い場合(値の割合が多い場合)、パターンが多く生成されるためログを効率的に分析することが難しくなる。本実施形態によると、分布演算の結果に基づいて、変数を値に置換することが出来る。これにより、例えば、ランダム度が低い注目に値する情報などを値に置換することが可能となる。その結果、効率的な分析を実現することが可能となる。
 また、本実施形態によると、分布演算の結果に基づいて、置換の有無を判断する。そのため、ユーザが任意に定義可能な文字列なども、変数化を行うとともに置換するか否か判断することが出来る。これにより、ユーザが任意に定義可能な文字列などがログに含まれる場合であっても、変数に変換するか値に置換するかの判断を行うことが可能となる。その結果、より効率的な分析を行うことが可能となる。
 なお、本実施形態で説明したログ分析装置10によると、例えば、機器の特徴的ログを分析することによる装置の稼働率や故障の予測、従業員の操作ログを分析することによる生産性や問題の検知、不正アクセスの検知などを目的としたログの分析、などの各種ログに基づく分析を行う際に、効率的なログの分析を行うことが出来る。もちろん、ログ分析装置10は、上記例示した以外の分析を行うよう構成しても構わない。
[第2の実施形態]
 次に、本発明の第2の実施形態について図7を参照して説明する。図7は、ログ分析装置30の構成の一例を示している。
 本発明の第2の実施形態では、第1の実施形態で説明したログ分析装置10の変形例であるログ分析装置30について説明する。後述するように、ログ分析装置30は、パターン中に含まれる複数のフィールドのどこから置換するか判断する基準となる優先度を判定することが出来るよう構成されている。優先度は、変数をログの値に優先的に置換するフィールドを示す情報である。例えば、ログ分析装置30は、優先度の高いフィールドから順番に置換を行うことになる。ログ分析装置30は、例えば、置換数が所定の数を満たす、生成するログの数が所定の数を満たす、優先度が所定以上であるなど所定の条件を満たすまで、優先度が高いフィールドから順番にパターンの分析・置換を行うよう構成しても構わない。
 図7は、ログ分析装置30の構成の一例を示している。図7を参照すると、ログ分析装置30は、例えば、ログ分類部11と、ログ・パターン照合部12と、フィールド分析部33と、パターン更新部14と、パターン記憶部15と、表示部16とを、有している。
 ログ分析装置30は、例えば、CPUなどの演算装置と記憶装置とを有している。例えば、ログ分析装置30は、記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、図7では、第1の実施形態で説明したログ分析装置10と同様の構成(図1参照)については、図1と同じ符号を付している。以下、本実施形態に特徴的な構成について説明する。
 フィールド分析部33は、フィールド分析部13と同様に、ログ・パターン照合部12による集計の結果に基づく所定の分布演算と、所与の条件と、に基づいてフィールドの変数を値に置換するか否か判断する。また、フィールド分析部33は、所定の分布演算を行うとともに、優先度の判定を行う。そして、フィールド分析部33は、優先度の高いフィールドから置換を行うことを決定する。その結果、パターン更新部14は、フィールド分析部33により優先度が高いと判断されたフィールドから順番に置換を行う。
 例えば、フィールド分析部33は、置換後の値の数と変数の数の合計である置換数が少ないフィールドをより優先度が高いフィールドとして判断するよう構成することが出来る。なお、変数を残さない場合、置換数は、置換後の値の数であることになる。
 具体的には、例えば、分析の結果、1つの変数を3つの値に置換するフィールドと、1つの変数を5つの値に置換するとともに変数を残すフィールドと、があるとする。この場合、1つの変数を3つの値に置換するフィールドの置換数は3であり、1つの変数を5つの値に置換するとともに変数を残すフィールドの置換数は6である。そこで、フィールド分析部33は、1つの変数を3つの値に置換するフィールドの方が、1つの変数を5つの値に置換するとともに変数を残すフィールドよりも優先度が高いと判断する。このように、フィールド分析部33は、置換数に基づいて優先度を判断するよう構成することが出来る。
 また、例えば、フィールド分析部33は、第1の実施形態で説明した複数の方法のうち条件を満たしている数が多いほど優先度が高いフィールドとして判断するよう構成することが出来る。
 具体的には、例えば、フィールド分析部33は、値の種類数、ランダム度、カイ二乗値、変動係数、平均値、の5つの方法を用いて判断を行うよう構成されているとする。この場合、フィールド分析部33は、5つの方法全てが条件を満たすフィールドの方が、4つの方法が条件を満たす場合や3つの方法が条件を満たす場合よりも優先度が高いフィールドであると判断する。このように、フィールド分析部33は、条件を満たす数に基づいて優先度を判断するよう構成することが出来る。
 なお、フィールド分析部33は、置換数と条件を満たす数とのうちのいずれか一方に基づいて優先度を判断するよう構成しても構わないし、両方を組み合わせて優先度を判断するよう構成しても構わない。両方を組み合わせて優先度を判断する場合、例えば、より置換数が少ないほど優先度が高く、また、置換数が同じである場合に条件を満たす数に基づいて判断するよう構成することが出来る。フィールド分析部33は、上記例示した以外の方法に基づいて優先度を判断するよう構成しても構わない。
 また、フィールド分析部33は、例えば、優先度の高いフィールドから順番に、生成後のパターンの数が所定数となる、置換するフィールドの値の個数が所定数となる、など所定の条件を満たすまで置換を行うか否か判断するよう構成することが出来る。また、フィールド分析部33は、例えば、優先度が所定以上(例えば、置換数が4以下など)のもののみを実際に置換すると判断するよう構成しても構わない。上記所定の条件は、例示した以外のものであっても構わない。
 このように、本実施形態によると、ログ分析装置30は、優先度を考慮した判断を行うフィールド分析部33を有している。このような構成によると、効率的に置換を行うことが可能となる。
[第3の実施形態]
 次に、本発明の第3の実施形態について図8を参照して説明する。図8は、ログ分析装置40の構成の一例を示している。
 本発明の第3の実施形態では、第1の実施形態で説明したログ分析装置10、第2の実施形態で説明したログ分析装置30の変形例であるログ分析装置40について説明する。後述するように、ログ分析装置40は、パターン中に含まれる複数のフィールドのうち、分析・置換の対象となるフィールドを指定することが出来るように構成されている。このような構成のため、ログ分析装置40は、パターン中に含まれるフィールドのうちの一部のフィールドのみを分析・置換の対象とすることになる。
 図8は、ログ分析装置40の構成の一例を示している。図8を参照すると、ログ分析装置40は、例えば、ログ分類部11と、ログ・パターン照合部12と、フィールド分析部43と、分析フィールド判定部46(判定部)と、パターン更新部14と、パターン記憶部15と、表示部16とを、有している。
 ログ分析装置40は、例えば、CPUなどの演算装置と記憶装置とを有している。例えば、ログ分析装置40は、記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、図7では、第1の実施形態で説明したログ分析装置10や第3の実施形態で説明したログ分析装置30と同様の構成については、図1、図7と同じ符号を付している。以下、本実施形態に特徴的な構成について説明する。
 フィールド分析部43は、フィールド分析部13と同様に、ログ・パターン照合部12による集計の結果に基づく所定の分布演算と、所与の条件と、に基づいてフィールドの変数を値に置換するか否か判断する。本実施形態におけるフィールド分析部43は、分析フィールド判定部46により分析・置換の対象であると判断されたフィールドに対して、フィールドを置換するか否か判断する。
 なお、フィールド分析部43は、第2の実施形態で説明したフィールド分析部33と同様に、優先度も考慮するよう構成しても構わない。
 分析フィールド判定部46は、ログ中のどのフィールドをフィールド分析部43による分析の対象とするか判定する。例えば、分析フィールド判定部46は、ログ分析装置40を操作する操作者による指定、又は、全ログ中の値の分布などの値の分布状況に応じて、分析の対象とするか否か判定する。
 具体的には、例えば、ログ中のどのフィールドを分析の対象とするか、又は、どのフィールドを分析の対象としないかを示す情報である対象情報が、ログ分析装置40を操作する操作者により予め入力され記憶装置などに格納されている。分析フィールド判定部46は、上記情報に基づいて、ログ中のどのフィールドをフィールド分析部43による分析の対象とするか判定することが出来る。例えば、分析フィールド判定部46は、予め格納された情報に基づいて、日付日時などのフィールドを分析の対象としないよう構成することが出来る。
 また、例えば、分析フィールド判定部46は、ログメッセージ2中の全ログに占める変数の分布や、ログ分類部11が生成したパターンにおける変数の分布(ログ・パターン照合部12による集計の結果)などの値の分布状況に基づいて、ログ中のどのフィールドを分析の対象とするか判定することが出来る。例えば、分析フィールド判定部46は、ログメッセージ2中の全ログに占める変数の分布などに基づいて、ユニークな値が変数に含まれていると判断されるフィールドを分析の対象とするよう構成することが出来る。一方、例えば、分析フィールド判定部46は、ランダム度が高いと判断されるフィールドを分析の対象としないよう構成することが出来る。
 なお、分析フィールド判定部46は、上述した方法のいずれか一方のみを用いるよう構成しても構わないし、両方を組み合わせて分析・置換対象のフィールドを判断するよう構成しても構わない。両方を組み合わせる場合、分析フィールド判定部46は、それぞれの基準で分析の対象としないと判断されたフィールド全てを分析の対象としないよう構成しても構わないし、両方の基準で分析の対象としないと判断されたフィールドを分析の対象としないよう構成しても構わない。
 このように、本実施形態によると、ログ分析装置30は、分析フィールド判定部46と、フィールド分析部43と、を有している。このような構成により、分析フィールド判定部46は、どのフィールドをフィールド分析部43による分析の対象とするか判定することが出来る。また、フィールド分析部43は、分析フィールド判定部46により分析の対象とすると判断された(または、分析フィールド判定部46により分析の対象としないと判断されたフィールドを除いた)フィールドのみを分析することが出来る。これにより、より効率的に分析を行うことが可能となる。
 <ハードウェア構成について>
 上述した第1、第2、第3の実施形態において、ログ分析装置10、ログ分析装置30、ログ分析装置40が有する各構成要素は、機能単位のブロックを示している。ログ分析装置10、ログ分析装置30、ログ分析装置40が有する各構成要素の一部又は全部は、例えば図9に示すような情報処理装置500とプログラムとの任意の組み合わせにより実現することが出来る。図9は、ログ分析装置10、ログ分析装置30、ログ分析装置40の各構成要素を実現する情報処理装置500のハードウェア構成の一例を示すブロック図である。情報処理装置500は、一例として、以下のような構成を含むことが出来る。
・CPU(Central Processing Unit)501
・ROM(Read Only Memory)502
・RAM(Random Access Memory)503
・RAM503にロードされるプログラム群504
・プログラム群504を格納する記憶装置505
・情報処理装置500外部の記録媒体510の読み書きを行うドライブ装置506
・情報処理装置500外部の通信ネットワーク511と接続する通信インタフェース507
・データの入出力を行う入出力インタフェース508
・各構成要素を接続するバス509
 上述した各実施形態におけるログ分析装置10、ログ分析装置30、ログ分析装置40が有する各構成要素は、これらの機能を実現するプログラム群504をCPU501が取得して実行することで実現することが出来る。ログ分析装置10、ログ分析装置30、ログ分析装置40が有する各構成要素の機能を実現するプログラム群504は、例えば、予め記憶装置505やROM502に格納されており、必要に応じてCPU501がRAM503にロードして実行する。なお、プログラム群504は、通信ネットワーク511を介してCPU501に供給されてもよいし、予め記録媒体510に格納されており、ドライブ装置506が該プログラムを読み出してCPU501に供給してもよい。
 なお、図9は、情報処理装置500の構成の一例を示しており、情報処理装置500の構成は上述した場合に例示されない。例えば、情報処理装置500は、ドライブ装置506を有さないなど、上述した構成の一部から構成されても構わない。
[第4の実施形態]
 次に、図10を参照して、本発明の第4の実施形態について説明する。第4の実施形態では、ログ分析装置60の構成の概要について説明する。
 図10は、ログ分析装置60の構成の一例を示している。図10を参照すると、ログ分析装置60は、例えば、生成部61を有している。
 ログ分析装置60は、例えば、CPUなどの演算装置と記憶装置とを有している。例えば、ログ分析装置60は、記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 生成部61は、少なくとも1つ以上の変数を有し、変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の変数に対応するログの値の分布に基づいて、抽象化ログ中の変数をログの値に置換した新たな抽象化ログを生成する。
 このように、ログ分析装置60は、生成部61を有している。このような構成により、生成部61は、変数に対応するログの値の分布に基づいて、抽象化ログ中の変数を値に置換した新たな抽象化ログを生成することが出来る。ここで、一般に、抽象化ログの抽象度が高い場合(変数の割合が多い場合)、ログを精度よく分析することが難しくなる。一方、抽象化ログの抽象度が低い場合(値の割合が多い場合)、パターンが多く生成されるためログを効率的に分析することが難しくなる。本実施形態によると、変数に対応するログの値の分布に基づいて変数を値に置換した新たな抽象化ログを生成することが出来る。これにより、例えば、ランダム度が低い注目に値する情報などを値に置換した抽象化ログを生成することが可能となる。その結果、効率的な分析を実現することが可能となる。
 また、本実施形態によると、変数に対応するログの値の分布に基づいて変数を値に置換した新たな抽象化ログを生成するか否か判断する。そのため、ユーザが任意に定義可能な文字列なども、変数化を行うとともに値に置換するか否か判断することが出来る。これにより、ユーザが任意に定義可能な文字列などがログに含まれる場合であっても、抽象化するか否かの判断(変数にするか値にするか否かの判断)を行うことが可能となる。その結果、より効率的な分析を行うことが可能となる。
 また、上述したログ分析装置60は、当該ログ分析装置60に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、情報処理装置に、少なくとも1つ以上の変数を有し、変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の変数に対応するログの値の分布に基づいて、抽象化ログ中の変数をログの値に置換した新たな抽象化ログを生成する生成部61を実現するためのプログラムである。
 また、上述したログ分析装置60により実行されるログ分析方法は、情報処理装置が、少なくとも1つ以上の変数を有し、変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の変数に対応するログの値の分布に基づいて、抽象化ログ中の変数をログの値に置換した新たな抽象化ログを生成する、という方法である。
 上述した構成を有する、プログラム、又は、ログ分析方法、の発明であっても、上記ログ分析装置60と同様の作用・効果を有するために、上述した本発明の目的を達成することが出来る。
 <付記>
 上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるログ分析装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を有する
 ログ分析装置。
(付記2)
 付記1に記載のログ分析装置であって、
 複数の値を含むログと、前記ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで生成された前記抽象化ログと、に基づいて、前記抽象化ログ中の前記変数に対応する前記ログの値の分布を計算する分析部を有し、
 前記生成部は、前記分析部による計算の結果に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
 ログ分析装置。
(付記3)
 付記2に記載のログ分析装置であって、
 前記分析部は、前記フィールドごとに前記変数に対応する前記ログの値の数を集計し、集計した結果に基づいて、前記フィールドごとに所定の分布演算を行う
 ログ分析装置。
(付記4)
 付記2又は付記3に記載のログ分析装置であって、
 前記分析部は、前記変数に対応する前記値の種類数、前記フィールドのランダム度、カイ二乗値、変動係数、平均値、のうちの少なくとも1つの分布演算を行い、分布演算の結果と予め定められた閾値との比較を行う
 ログ分析装置。
(付記5)
 付記2から付記4までのいずれか1項に記載のログ分析装置であって、
 前記分析部は、計算の結果に基づいて、前記フィールドの前記変数を、当該変数に対応する前記ログの値のうちの一部の前記ログの値に置換するとともに、置換前に前記変数に含まれる前記ログの値のうち置換した前記ログの値を除いた前記ログの値が含まれる変数に置換すると判断し 、 
 前記生成部は、前記分析部による判断の結果に基づいて、前記抽象化ログ中の前記変数を、置換すると判断した前記ログの値に置換した新たな抽象化ログを生成するとともに、置換前に前記変数に含まれる前記ログの値のうち置換した前記ログの値を除いた前記ログの値が含まれる変数を有する新たな抽象化ログを生成する
 ログ分析装置。
(付記6)
 付記2から付記5までのいずれか1項に記載のログ分析装置であって、
 前記分析部は、変数をログの値に優先的に置換するフィールドを示す優先度を判断 する 
 ログ分析装置。
(付記7)
 付記6に記載のログ分析装置であって、
 前記分析部は、前記フィールドごとの、置換後の値の数、または、置換後の値の数と変数の数の合計である置換数 に 基づいて、前記優先度を判断する
 ログ分析装置。
(付記8)
 付記7に記載のログ分析装置であって、
 前記分析部は、前記置換数が低いほど前記優先度が高いと判断する
 ログ分析装置。
(付記9)
 付記6から付記8までのいずれか1項に記載のログ分析装置であって、
 前記分析部は、複数の種類の分布演算を行うよう構成されており、 分布演算の結果とあらかじめ定められた閾値との比較結果が所定の条件を満たす分布演算の数 に基づいて前記優先度を判断する
 ログ分析装置。
(付記10)
 付記9に記載のログ分析装置であって、
 前記分析部は、条件を満たす分布演算の数が多いほど前記優先度が高いと判断する
 ログ分析装置。
(付記11)
 付記2から付記10までのいずれか1項に記載のログ分析装置であって、
 前記分析部による分析の対象となる前記フィールドを判定する判定部を有し、
 前記分析部は、前記判定部により分析の対象であると判定された前記フィールドに対する計算を行う
 ログ分析装置。
(付記12)
 付記11に記載のログ分析装置であって、
 前記判定部は、分析の対象となる前記フィールドを示す対象情報に基づいて、分析の対象となる前記フィールドを判定する
 ログ分析装置。
(付記13)
 付記11又は付記12に記載のログ分析装置であって、
 前記判定部は、前記値の分布状況に応じて、分析の対象となる前記フィールドを判定する
 ログ分析装置。
(付記14)
 請求項1から請求項13までのいずれか1項に記載のログ分析装置であって、
 複数の値を有する前記ログを、当該ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで前記抽象化ログを生成する
 ログ分析装置。
(付記15)
 情報処理装置が、
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
 ログ分析方法。
(付記15-1)
 付記15に記載のログ分析方法であって、
 複数の値を含むログと、前記ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで生成された前記抽象化ログと、に基づいて、前記抽象化ログ中の前記変数に対応する前記ログの値の分布を計算し、
 計算の結果に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
 ログ分析方法。
(付記15-2)
 付記15-1に記載のログ分析方法であって、
 前記分析部は、前記フィールドごとに前記変数に対応する前記ログの値の数を集計し、集計した結果に基づいて、前記フィールドごとに所定の分布演算を行う
 ログ分析装置。
(付記16)
 情報処理装置に、
 少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を実現するためのプログラム。
(付記16-1)
 付記16に記載のプログラムであって、
 複数の値を含むログと、前記ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで生成された前記抽象化ログと、に基づいて、前記抽象化ログ中の前記変数に対応する前記ログの値の分布を計算する分析部を実現させ、
 前記生成部は、前記分析部による計算の結果に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
 プログラム。
(付記16-2)
 付記16-1に記載のプログラムであって、
 前記分析部は、前記フィールドごとに前記変数に対応する前記ログの値の数を集計し、集計した結果に基づいて、前記フィールドごとに所定の分布演算を行う
 プログラム。
 なお、上記各実施形態及び付記において記載したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されていたりする。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
 以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。
10 ログ分析装置
11 ログ分類部
12 ログ・パターン照合部
13 フィールド分析部
14 パターン更新部
15 パターン記憶部
16 表示部
2 ログメッセージ
30 ログ分析装置
33 フィールド分析部
40 ログ分析装置
43 フィールド分析部
46 分析フィールド判定部
500 情報処理装置
501 CPU
502 ROM
503 RAM
504 プログラム群
505 記憶装置
506 ドライブ装置
507 通信インタフェース
508 入出力インタフェース
509 バス
510 記録媒体
511 通信ネットワーク
60 ログ分析装置
61 生成部

Claims (16)

  1.  少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を有する
     ログ分析装置。
  2.  請求項1に記載のログ分析装置であって、
     複数の値を含むログと、前記ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで生成された前記抽象化ログと、に基づいて、前記抽象化ログ中の前記変数に対応する前記ログの値の分布を計算する分析部を有し、
     前記生成部は、前記分析部による計算の結果に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
     ログ分析装置。
  3.  請求項2に記載のログ分析装置であって、
     前記分析部は、前記フィールドごとに前記変数に対応する前記ログの値の数を集計し、集計した結果に基づいて、前記フィールドごとに所定の分布演算を行う
     ログ分析装置。
  4.  請求項2又は請求項3に記載のログ分析装置であって、
     前記分析部は、前記変数に対応する前記値の種類数、前記フィールドのランダム度、カイ二乗値、変動係数、平均値、のうちの少なくとも1つの分布演算を行い、分布演算の結果と予め定められた閾値との比較を行う
     ログ分析装置。
  5.  請求項2から請求項4までのいずれか1項に記載のログ分析装置であって、
     前記分析部は、計算の結果に基づいて、前記フィールドの前記変数を、当該変数に対応する前記ログの値のうちの一部の前記ログの値に置換するとともに、置換前に前記変数に含まれる前記ログの値のうち置換した前記ログの値を除いた前記ログの値が含まれる前記変数を残すと判断し、
     前記生成部は、前記分析部による判断の結果に基づいて、前記抽象化ログ中の前記変数を、置換すると判断した前記ログの値に置換した新たな抽象化ログを生成するとともに、置換前に前記変数に含まれる前記ログの値のうち置換した前記ログの値を除いた前記ログの値が含まれる前記変数を有する前記抽象化ログを残す
     ログ分析装置。
  6.  請求項2から請求項5までのいずれか1項に記載のログ分析装置であって、
     前記分析部は、変数をログの値に優先的に置換するフィールドを示す優先度を判断する
     ログ分析装置。
  7.  請求項6に記載のログ分析装置であって、
     前記分析部は、前記フィールドごとの、置換後の値の数、または、置換後の値の数と変数の数の合計である置換数に基づいて、前記優先度を判断する
     ログ分析装置。
  8.  請求項7に記載のログ分析装置であって、
     前記分析部は、前記置換数が低いほど前記優先度が高いと判断する
     ログ分析装置。
  9.  請求項6から請求項8までのいずれか1項に記載のログ分析装置であって、
     前記分析部は、複数の種類の分布演算を行うよう構成されており、分布演算の結果とあらかじめ定められた閾値との比較結果が所定の条件を満たす分布演算の数に基づいて前記優先度を判断する
     ログ分析装置。
  10.  請求項9に記載のログ分析装置であって、
     前記分析部は、条件を満たす分布演算の数が多いほど前記優先度が高いと判断する
     ログ分析装置。
  11.  請求項2から請求項10までのいずれか1項に記載のログ分析装置であって、
     前記分析部による分析の対象となる前記フィールドを判定する判定部を有し、
     前記分析部は、前記判定部により分析の対象であると判定された前記フィールドに対する計算を行う
     ログ分析装置。
  12.  請求項11に記載のログ分析装置であって、
     前記判定部は、分析の対象となる前記フィールドを示す対象情報に基づいて、分析の対象となる前記フィールドを判定する
     ログ分析装置。
  13.  請求項11又は請求項12に記載のログ分析装置であって、
     前記判定部は、前記値の分布状況に応じて、分析の対象となる前記フィールドを判定する
     ログ分析装置。
  14.  請求項1から請求項13までのいずれか1項に記載のログ分析装置であって、
     複数の値を有する前記ログを、当該ログを任意の位置で区切った所定のフィールドごとに前記ログの値を前記変数に変換する変数化を行うことで前記抽象化ログを生成する
     ログ分析装置。
  15.  情報処理装置が、
     少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する
     ログ分析方法。
  16.  情報処理装置に、
     少なくとも1つ以上の変数を有し、前記変数が少なくとも1つ以上のログの値を含んでいる抽象化ログ中の前記変数に対応する前記ログの値の分布に基づいて、前記抽象化ログ中の前記変数を前記ログの値に置換した新たな抽象化ログを生成する生成部を実現するためのプログラム。

     
PCT/JP2018/027335 2018-07-20 2018-07-20 ログ分析装置、ログ分析方法、プログラム WO2020017037A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020530853A JP7160097B2 (ja) 2018-07-20 2018-07-20 ログ分析装置、ログ分析方法、プログラム
PCT/JP2018/027335 WO2020017037A1 (ja) 2018-07-20 2018-07-20 ログ分析装置、ログ分析方法、プログラム
US17/260,654 US20220004481A1 (en) 2018-07-20 2018-07-20 Log analysis device, log analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/027335 WO2020017037A1 (ja) 2018-07-20 2018-07-20 ログ分析装置、ログ分析方法、プログラム

Publications (1)

Publication Number Publication Date
WO2020017037A1 true WO2020017037A1 (ja) 2020-01-23

Family

ID=69163712

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/027335 WO2020017037A1 (ja) 2018-07-20 2018-07-20 ログ分析装置、ログ分析方法、プログラム

Country Status (3)

Country Link
US (1) US20220004481A1 (ja)
JP (1) JP7160097B2 (ja)
WO (1) WO2020017037A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844778A (zh) * 2022-04-25 2022-08-02 中国联合网络通信集团有限公司 核心网的异常检测方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209115A (ja) * 2004-01-26 2005-08-04 National Institute Of Information & Communication Technology ログ要約装置、ログ要約プログラムおよび記録媒体
JP2010218333A (ja) * 2009-03-18 2010-09-30 Nec Corp 解析ルール生成装置、解析ルール生成方法、解析ルール生成プログラム及び記録媒体
WO2017085921A1 (ja) * 2015-11-17 2017-05-26 日本電気株式会社 ログ分析システム、方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4720213B2 (ja) * 2005-02-28 2011-07-13 富士通株式会社 解析支援プログラム、装置及び方法
JP5373870B2 (ja) * 2010-10-25 2013-12-18 株式会社三菱東京Ufj銀行 予測装置、予測方法、及び、プログラム
US8533193B2 (en) * 2010-11-17 2013-09-10 Hewlett-Packard Development Company, L.P. Managing log entries
US10152366B2 (en) * 2013-09-24 2018-12-11 Nec Corporation Log analysis system, fault cause analysis system, log analysis method, and recording medium which stores program
US10585908B2 (en) * 2015-04-03 2020-03-10 Oracle International Corporation Method and system for parameterizing log file location assignments for a log analytics system
US9384203B1 (en) * 2015-06-09 2016-07-05 Palantir Technologies Inc. Systems and methods for indexing and aggregating data records
WO2017131774A1 (en) * 2016-01-29 2017-08-03 AppDynamics, Inc. Log event summarization for distributed server system
CA2996960C (en) * 2017-03-02 2021-11-23 Discovered Intelligence Inc. System for aggregation and prioritization of it asset field values from real-time event logs and method thereof
US20190228085A1 (en) * 2018-01-19 2019-07-25 Ca, Inc. Log file pattern identifier
US11249880B1 (en) * 2021-06-14 2022-02-15 International Business Machines Corporation Debugging and simulating application runtime execution

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209115A (ja) * 2004-01-26 2005-08-04 National Institute Of Information & Communication Technology ログ要約装置、ログ要約プログラムおよび記録媒体
JP2010218333A (ja) * 2009-03-18 2010-09-30 Nec Corp 解析ルール生成装置、解析ルール生成方法、解析ルール生成プログラム及び記録媒体
WO2017085921A1 (ja) * 2015-11-17 2017-05-26 日本電気株式会社 ログ分析システム、方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844778A (zh) * 2022-04-25 2022-08-02 中国联合网络通信集团有限公司 核心网的异常检测方法、装置、电子设备及可读存储介质
CN114844778B (zh) * 2022-04-25 2023-05-30 中国联合网络通信集团有限公司 核心网的异常检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP7160097B2 (ja) 2022-10-25
US20220004481A1 (en) 2022-01-06
JPWO2020017037A1 (ja) 2021-07-15

Similar Documents

Publication Publication Date Title
US11151471B2 (en) Method and apparatus for predictive classification of actionable network alerts
US7962524B2 (en) Computer program, device, and method for sorting dataset records into groups according to frequent tree
US20080046426A1 (en) Computerized method, system and program product for generating a data mining model
US9104709B2 (en) Cleansing a database system to improve data quality
CN111950263B (zh) 一种日志解析方法、系统及电子设备
JP2007157058A (ja) 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
JP7078114B2 (ja) ログ分析装置、ログ分析方法、プログラム
US20190205361A1 (en) Table-meaning estimating system, method, and program
CN110188207B (zh) 知识图谱构建方法及装置、可读存储介质、电子设备
WO2020017037A1 (ja) ログ分析装置、ログ分析方法、プログラム
JP2019211974A (ja) 企業分析装置
US20160179851A1 (en) Method and system of process reconstruction
CN111324594B (zh) 用于粮食加工业的数据融合方法、装置、设备及存储介质
US10204146B2 (en) Automatic natural language processing based data extraction
US10528899B2 (en) Cladistics data analyzer for business data
Eken et al. Predicting defects with latent and semantic features from commit logs in an industrial setting
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
KR20060114569A (ko) 특허정보시스템의 작동방법
US20090276379A1 (en) Using automatically generated decision trees to assist in the process of design and review documentation
Pancerz et al. On selected data preprocessing procedures with the classification and prediction software system (CLAPSS)
JP6633009B2 (ja) 表データ分析プログラム
JPWO2020044558A1 (ja) 分類規則生成プログラム、分類規則生成方法および分類規則生成装置
WO2018003115A1 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
Esgin et al. Extracting process hierarchies by multi-sequence alignment adaptations
JPWO2017104571A1 (ja) 情報処理装置、情報処理方法、及び、コンピュータ・プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18927099

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020530853

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18927099

Country of ref document: EP

Kind code of ref document: A1