WO2023162390A1 - 分析装置及び分析方法 - Google Patents
分析装置及び分析方法 Download PDFInfo
- Publication number
- WO2023162390A1 WO2023162390A1 PCT/JP2022/044495 JP2022044495W WO2023162390A1 WO 2023162390 A1 WO2023162390 A1 WO 2023162390A1 JP 2022044495 W JP2022044495 W JP 2022044495W WO 2023162390 A1 WO2023162390 A1 WO 2023162390A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- pattern
- log
- patterns
- unit
- extracted
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/28—Error detection; Error correction; Monitoring by checking the correct order of processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
Definitions
- the present disclosure relates to an analysis device and an analysis method.
- the log analysis system and the like described in Patent Literature 1 aim to reduce the time taken to extract a combination of log messages continuously output within a certain period of time when analyzing log messages output from an information processing system. and
- the log analysis system or the like generates a reference pattern for each combination of log messages that appear synchronously based on the appearance information of the log messages, and logs included in the reference pattern.
- the reference patterns are integrated based on the result of comparing the message appearance information between the reference patterns.
- An object of the present disclosure is to provide an analysis device and an analysis method that reduce the difficulty of detecting co-occurring patterns between data with different granularities.
- the analysis apparatus includes a data acquisition unit that acquires data from a plurality of devices, a plurality of simultaneous occurrence patterns in the acquired data for each device, and a plurality of simultaneous occurrence patterns
- the integrated log is combined with the individual analysis unit that creates an integrated log by extracting the number of occurrences of the pattern and integrating multiple extracted simultaneous occurrence patterns based on the extracted number of occurrences. It includes an aggregator and an aggregator that extracts co-occurring patterns from the combined logs.
- the analysis device it is possible to reduce the difficulty of detecting simultaneous patterns between data with different granularities.
- FIG. 4 is a functional block diagram of an individual log analysis unit 2 of the embodiment;
- FIG. 4 is a functional block diagram of the integrated log analysis unit 4 of the embodiment;
- FIG. 1 shows a hardware configuration of an analysis device BS according to an embodiment;
- 4 is a flow chart showing the operation of the analyzer BS of the embodiment;
- Fig. 4 illustrates extraction and integration of event patterns of an embodiment; 4 shows an integrated log (first half) of the embodiment;
- FIG. 4 shows an integrated log (second half) of the embodiment;
- FIG. FIG. 4 shows integrated logs (first half) in a plurality of devices according to the embodiment;
- FIG. FIG. 11 shows integrated logs (second half) in a plurality of devices according to the embodiment;
- FIG. 4 illustrates deletion of an event of an embodiment;
- the effect of the analyzer BS of the embodiment is shown.
- a single reference numeral may be used to collectively refer to a plurality of names. may be collectively referred to as embodiment.
- the analysis device BS of the embodiment extracts co-occurrence patterns from the same data. In the analysis device BS of the embodiment, processing is not divided into a learning phase and an inference phase.
- FIG. 1 is a functional block diagram of the analysis device BS of the embodiment.
- analysis device BS includes data acquisition units 1A to 1D, log individual analysis units 2A to 2D, integrated log creation units 3A to 3D, integrated log analysis units 4A to 4D, and pattern display. A part 5 and a pattern storage part 6 are included.
- the data acquisition unit 1 acquires at least one piece of data (e.g., log data, metrics data) that is an analysis target BT from a system that is an analysis target.
- the data acquisition unit 1 delivers the acquired data to the individual log analysis unit 2 .
- FIG. 2 is a functional block diagram of the individual log analysis unit 2 of the embodiment.
- the log individual analysis unit 2 includes a first pattern extraction unit 20, a first pattern integration unit 21, a log integration unit 22, and an event pattern definition unit 23. , has
- the first pattern extraction unit 20 classifies data with overlapping index ranges obtained from the data acquisition unit 1 and the log integration unit 22 into rows and converts them into classification values.
- the first pattern extraction unit 20 performs frequent pattern mining on classification values that occur in time zones close to each other, thereby extracting combinations of events that form simultaneous patterns.
- association analysis which is one of the machine learning methods, may be used, or it may be compared with an external file that holds event patterns.
- the first pattern integration unit 21 integrates patterns based on the frequency of occurrence of the events or event patterns extracted by the first pattern extraction unit 20 .
- event pattern subsets that match are extracted as integration candidates, and the time-series data acquired from the data acquisition unit 1 or the log integration unit 22 is used to generate each event.
- a method such as calculating/aggregating frequencies and merging common parts of event patterns based on the result of calculation/aggregation can be used.
- the log integration unit 22 integrates the series of extracted patterns into one log line, and rearranges them in the order of index or time series.
- the log integration unit 22 assigns names to the extracted patterns, classifies the logs, and compresses the pattern definitions and pattern classification results.
- the log integration unit 22 stores the extracted patterns in the event pattern definition unit.
- the event pattern definition unit 23 stores pattern definitions and the like in an arbitrary location such as a memory and a database.
- the log storage unit 24 stores a log composed of a set of events for which no pattern was extracted.
- the stored log may be used by the first pattern extraction unit 20 as an element specifying the analysis range, etc., or may be discarded and analyzed.
- the integrated log creation unit 3 integrates the series of integrated logs created by the individual log analysis unit 2 into one log line.
- FIG. 3 is a functional block diagram of the integrated log analysis unit 4 of the embodiment.
- the integrated log analysis unit 4 has an event extraction unit 40 and a second pattern integration unit 41, as shown in FIG.
- the event extraction unit 40 extracts events by performing frequent pattern mining on the data acquired by the integrated log creation unit 3 .
- association analysis which is one of the methods of machine learning, may be used, or it may be compared with an external file that holds event patterns.
- the second pattern integration unit 41 deletes unnecessary events from the extracted event patterns.
- events with matching subsets of event patterns are extracted as integration candidates, and the temporal frequency of occurrence of each event is calculated and generated from the time-series data acquired from the integrated log creation unit 3. Aggregate and remove event patterns whose frequency of occurrence is far apart. This will output only the appropriate patterns.
- the pattern display section 5 displays the extracted event patterns
- the pattern storage section 6 stores the extracted event patterns.
- FIG. 4 shows the hardware configuration of the analysis device BS of the embodiment.
- the analyzer BS of the embodiment includes, as shown in FIG. 2, a processor PR, a memory ME, and a storage medium KI in order to perform the functions described above. Part SY and further including.
- the processor PR is the core of a well-known computer that operates hardware according to software.
- the memory ME is composed of, for example, a DRAM (Dynamic Random Access Memory) and an SRAM (Static Random Access Memory).
- the storage medium KI includes, for example, a hard disk drive (HDD), a solid state drive (SSD), and a ROM (Read Only Memory).
- a storage medium KI stores a program PRG.
- the program PRG is a group of instructions that define the content of processing to be executed by the processor PR.
- the input unit NY is composed of, for example, a camera, microphone, keyboard, mouse, and touch panel.
- the output unit SY is composed of, for example, a liquid crystal monitor, a printer, and a touch panel.
- the processor PR executes the program PRG stored in the storage medium KI on the hardware using the memory ME.
- the functions of the data acquisition unit 1 to the pattern display unit 5 are realized.
- FIG. 5 is a flow chart showing the operation of the analyzer BS of the embodiment.
- Step ST1 The data acquisition unit 1 acquires data (for example, character string series data or numeric series data) as analysis target BT from the information system to be analyzed.
- data for example, character string series data or numeric series data
- Step ST2 Simultaneous patterns and the number of occurrences are extracted by performing frequent pattern mining on the acquired data, for example, time-series data.
- Step ST3 Extract event patterns with matching subsets as integration candidates, and merge the common parts of the patterns based on the extracted number of occurrences.
- FIG. 6 shows extraction and integration of event patterns according to the embodiment.
- step ST2 As shown in FIG. 6, for the log output from device X, an event pattern that occurs simultaneously and the number of event occurrences are extracted (step ST2).
- the extracted number of occurrences is tallied using a tree structure. Specifically, one path from the highest node to the terminal leaf node corresponds to one combination pattern, and the number of occurrences of the event at the leaf node also indicates the number of occurrences of the event combination pattern.
- an event pattern (A, D, E, F) is created by combining two event patterns (step ST3).
- Step ST4 Name the extracted patterns, classify the logs, and create an integrated log in which the pattern definitions and pattern classification results are compressed.
- the definition of the extracted pattern is saved in the event pattern definition section 23. Events that are not extracted as patterns are stored in the log storage unit 24 .
- FIG. 7 shows the integrated log (first half) of the embodiment.
- FIG. 8 shows the integrated log (second half) of the embodiment.
- event patterns (phenomenon A, phenomenon B, phenomenon C), (phenomenon A, phenomenon B), (phenomenon A).
- event patterns (phenomenon A, phenomenon D), (phenomenon A, phenomenon D, phenomenon E), (phenomenon A, phenomenon D, phenomenon E, phenomenon F), (phenomenon D), and (phenomenon D, phenomenon F) are extracted.
- Pattern P1 (phenomenon A, phenomenon B, phenomenon C)
- pattern P2 (phenomenon A, phenomenon B)
- pattern P3 (phenomenon A)
- pattern P4 (phenomenon A, phenomenon D)
- pattern P5 (phenomenon A, phenomenon D, phenomenon E)
- pattern P6 (phenomenon A, phenomenon D, phenomenon E, phenomenon F)
- pattern P7 (Phenomenon D)
- Pattern P8 (Phenomenon D, Phenomenon F)” is stored in the event pattern definition section 23 .
- Pattern classification result " ⁇ 2021/1/100:00:01, 2021/1/100:00:03 ⁇ pattern P1; ⁇ 2021/1/100:00:04, 2021/1/100:00: 05 ⁇ Pattern P2; ⁇ 2021/1/100:00:06, 2021/1/100:00:06 ⁇ Pattern P3; ⁇ 2021/1/100:00:07, 2021/1/100:00:08 ⁇ Pattern P4; ⁇ 2021/1/100:00:07, 2021/1/100:00:09 ⁇ Pattern P5; ⁇ 2021/1/100:00:07, 2021/1/100:00:10 ⁇ Pattern P6 ⁇ 2021/1/100:00:11, 2021/1/100:00:11 ⁇ Pattern P7; ⁇ 2021/1/100:00:13, 2021/1/100:00:14 ⁇ Pattern P8" , defined as a consolidated log and sorted by index order or chronological order.
- the event "2021/1/100:00:15 Phenomenon G" that was not extracted as an event pattern is stored in the log storage unit 24 that holds a log composed of a set of events whose pattern was not extracted.
- Step ST5 Perform the same processing as in step ST2 for the created integrated log.
- Step ST6 The processing of steps ST2 to ST5 is repeated until there are no unclassified events, or until frequent patterns cannot be extracted. A series of processes in steps ST2 to ST6 are independent for each log, and any log may be processed first or in parallel.
- Step ST7 Integrate the integrated logs generated up to step ST6 in time series, that is, generate a combined log.
- step ST7 may be omitted.
- FIG. 9 shows integrated logs (first half) of multiple devices in the embodiment.
- FIG. 10 shows integrated logs (second half) in multiple devices according to the embodiment.
- the integrated log " ⁇ 2021/1/100:00:02, 2021/1/100:00:03 ⁇ pattern Q1; ⁇ 2021/1/100:00 :03, 2021/1/100:00:03 ⁇ Pattern Q2" is output.
- step ST7 the integrated log generated from the data of each of device X and device Y is merged, and the integrated log of device X and the integrated log of device Y are combined.
- the integrated log sorted in the index order or chronological order that is, the combination log " ⁇ 2021/1/100:00:01, 2021/1/100:00:03 ⁇ pattern P1; ⁇ 2021/1/ 100:00:02, 2021/1/100:00:03 ⁇ Pattern Q1; ⁇ 2021/1/100:00:03, 2021/1/100:00:03 ⁇ Pattern Q2; ⁇ 2021/1/100: 00:04, 2021/1/100:00:05 ⁇ Pattern P2; ⁇ 2021/1/100:00:06, 2021/1/100:00:06 ⁇ Pattern P3; ⁇ 2021/1/100:00: 07, 2021/1/100:00:08 ⁇ Pattern P4; ⁇ 2021/1/100:00:07, 2021/1/100:00:09 ⁇ Pattern P5; ⁇ 2021/1/100:00:07, 2021/1/100:00:10 ⁇ Pattern P6; ⁇ 2021/1/100:00:
- Step ST8 By performing frequent pattern mining on the generated integrated log, that is, the combination log, simultaneous occurrence patterns and temporal occurrence frequencies of each event are extracted.
- An event pattern is extracted by performing frequent pattern mining one level higher.
- Step ST9 Determine whether the event pattern has a deviation in the temporal occurrence frequency.
- FIG. 11 shows deletion of events in the embodiment.
- a pattern with a low probability of occurring simultaneously with event pattern ⁇ can be regarded as having a temporal occurrence frequency that is far from the occurrence pattern of event pattern ⁇ . , C).
- the threshold for the temporal frequency of occurrence for event deletion may be set arbitrarily.
- step ST10 If there is no candidate for deleting the event pattern, the process proceeds to step ST10 without deleting the event.
- (A), (A, B) and ( ⁇ ) are calculated as follows.
- Event A is called A
- event B is called B
- event C is called C
- (A, B) is a unit of combination
- a and B are a combination.
- Step ST11 The pattern display unit 5 displays the extracted event pattern, or the pattern storage unit 6 stores it.
- FIG. 12 shows the effects of the analyzer BS of the embodiment.
- the analysis device BS of the embodiment integrates the data after classifying them individually for each series, that is, for each device X and each device Y.
- the analysis device BS of the embodiment uses frequent pattern mining for integrated data. As a result, for example, simultaneous occurrence patterns can be extracted between character data and numeric data, in other words, between data with different granularities.
- the analysis device BS of the embodiment also repeats the processing of event extraction, pattern integration, and log integration based on conditions. As a result, it is not necessary for a person to specify the number of times of simultaneous pattern extraction, and pattern extraction omissions can be prevented.
- the analysis device BS of the embodiment by merging the common parts of the divided event patterns, the simultaneous occurrence patterns can be efficiently extracted and the accuracy of the analysis can be improved. Further, by deleting patterns with diverging occurrence frequencies of event patterns, the analysis time can be shortened, and simultaneously occurring patterns can be extracted more efficiently. Furthermore, analysis time can be shortened by analyzing logs while compressing them.
- the analysis device BS may be configured without the integrated log creation unit 3 and the integrated log analysis unit 4 .
- Event patterns may be extracted by comparing with an external file holding event patterns.
- ⁇ Modification 3> As for the occurrence frequency described above, it is also possible to use the occurrence frequency calculated by the first pattern extraction unit 20 as it is, and to delete patterns with deviations in the occurrence frequency. Therefore, the processing in step ST8 may be omitted and candidate combinations may be listed. It is also possible to reduce the amount of calculation by performing the process of step ST8 after reducing the combination candidates through the analysis in steps ST9 and ST10.
- the analysis device can be used to reduce the difficulty of detecting co-occurring patterns between data with different granularities.
- Pattern storage unit 20 First pattern extraction unit 21 First pattern integration unit 22 Log integration Part, 23 Event pattern definition part, 24 Log storage part, 40 Event extraction part, 41 Second pattern integration part, BS Analysis device, BT Analysis object, KI Storage medium, ME Memory, NY Input part, P Pattern, PR Processor, PRG program, Q pattern, SY output unit, X device, Y device.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
分析装置(BS)は、複数のデータを取得するデータ取得部(1)と、前記取得された複数のデータにおける複数の同時発生パターン、及び前記複数の同時発生パターンの発生回数を抽出する個別分析部(2)と、前記抽出された発生回数に基づき、前記抽出された複数の同時発生パターンを統合することにより、統合ログを作成する統合部(3)と、前記統合されたログから前記同時発生パターンを抽出する統合分析部(4)と、を含む。
Description
本開示は、分析装置及び分析方法に関する。
特許文献1に記載のログ分析システム等は、情報処理システムから出力されたログメッセージを分析するとき、一定時間内に連続して出力されたログメッセージの組み合わせを抽出する時間を短縮することを目的とする。上記したログ分析システム等は、上記した目的を達成すべく、ログメッセージの出現情報に基づいて、同期して出現するログメッセージの組み合わせ毎に基準パターンを生成し、かつ、基準パターンに含まれるログメッセージの出現情報を基準パターン間で比較した結果に基づき基準パターン同士を統合する。
しかしながら、上記した情報処理システム毎に、出力されるログのフォーマット、及びログが出力される時間間隔が異なることから、複数の情報処理システムから出力される、フォーマット等が相違する複数のログ間で、同時発生パターンを検出することが困難であった。
本開示の目的は、粒度が異なるデータ同士の間で同時発生パターンを検出することの困難性を低減する分析装置及び分析方法を提供することにある。
上記した課題を解決すべく、本開示に係る分析装置は、複数の機器からデータを取得するデータ取得部と、各機器毎に、取得されたデータにおける複数の同時発生パターン、及び複数の同時発生パターンの発生回数を抽出し、抽出された発生回数に基づき、抽出された複数の同時発生パターンを統合することにより、統合ログを作成する個別分析部と、複数の機器間で、統合ログを組み合わせる統合部と、組み合わされたログから同時発生パターンを抽出する統合分析部と、を含む。
本開示に係る分析装置によれば、粒度が異なるデータ同士の間で同時発生パターンを検出することの困難性を低減する。
以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
本開示に係る分析装置の実施形態について説明する。
以下では、説明及び理解を容易にすべく、1つの符号により複数の名称を総称することがあり、例えば、符号「1」より、「データ取得部1A」、「データ取得部1B」、、、を総称することがある。
実施形態.
〈実施形態〉
〈実施形態の機能〉
実施形態の分析装置BSは、同一のデータから同時発生パターンを抽出する。実施形態の分析装置BSでは、処理は、学習フェーズと推論フェーズとに分けられていない。
実施形態.
〈実施形態〉
〈実施形態の機能〉
実施形態の分析装置BSは、同一のデータから同時発生パターンを抽出する。実施形態の分析装置BSでは、処理は、学習フェーズと推論フェーズとに分けられていない。
「同時発生パターン」とは、起因する現象が同一であるデータの組み合わせをいう。以下では、「同時発生パターン」と「イベントパターン」とは、同義であり、また、「パターン」と略称することがある。
図1は、実施形態の分析装置BSの機能ブロック図である。
分析装置BSは、図1に示されるように、データ取得部1A~1Dと、ログ個別分析部2A~2Dと、統合ログ作成部3A~3Dと、統合ログ分析部4A~4Dと、パターン表示部5と、パターン記憶部6と、を含む。
〈データ取得部1の構成〉
データ取得部1は、分析する対象であるシステムから、分析対象BTであるデータ(例えば、ログデータ、メトリクスデータ)を少なくとも一つ取得する。データ取得部1は、取得されたデータをログ個別分析部2へ受け渡す。
データ取得部1は、分析する対象であるシステムから、分析対象BTであるデータ(例えば、ログデータ、メトリクスデータ)を少なくとも一つ取得する。データ取得部1は、取得されたデータをログ個別分析部2へ受け渡す。
〈ログ個別分析部2の構成〉
図2は、実施形態のログ個別分析部2の機能ブロック図である。
図2は、実施形態のログ個別分析部2の機能ブロック図である。
ログ個別分析部2は、図2に示されるように、ログ個別分析部2は、第1パターン抽出部20と、第1パターン統合部21と、ログ統合部22と、イベントパターン定義部23と、を有する。
第1パターン抽出部20は、データ取得部1及びログ統合部22から取得されるインデックスの範囲が重複するデータについて、各行に分類し、分類値に変換する。第1パターン抽出部20は、相互に近い時間帯で発生する分類値について、頻出パターンマイニングを実施することにより、同時発生パターンとなるイベントの組み合わせを抽出する。
イベントを抽出する方法は、機械学習の手法のひとつであるアソシエーション分析などを用いてもよいし、イベントパターンを保持している外部ファイルと照合するなどしてもよい。
第1パターン統合部21は、第1パターン抽出部20により抽出されたイベント又はイベントパターンの発生頻度に基づき、パターンを統合する。
パターンの統合方法については、例えば、イベントパターンの部分集合が一致しているものを統合候補として抽出し、データ取得部1又はログ統合部22から取得された時系列データを用いて各イベントの発生頻度を計算・集計し、計算・集計の結果に基づき、イベントパターンの共通部分をマージする等の方法を用いることができる。
ログ統合部22は、抽出されたパターンの系列を統合することで1つのログの行とし、インデックスの順番や時系列で並び替える。ログ統合部22は、抽出されたパターンに名前を付けてログを分類し、パターンの定義とパターンの分類結果を圧縮する。ログ統合部22は、抽出されたパターンをイベントパターン定義部に保存する。
イベントパターン定義部23は、パターンの定義等を例えば、メモリ及びデータベースなど任意の場所に格納する。
ログ記憶部24は、パターンが抽出されなかったイベントの集合で構成されるログを記憶する。記憶されたログは、分析範囲などを指定する要素として第1パターン抽出部20で使用されてもよく、また、破棄されて上で分析が行われてもよい。
〈統合ログ作成部3の構成〉
統合ログ作成部3は、ログ個別分析部2により作成された統合ログの系列を統合し、1つのログの行とする。
統合ログ作成部3は、ログ個別分析部2により作成された統合ログの系列を統合し、1つのログの行とする。
〈統合ログ分析部4の構成〉
図3は、実施形態の統合ログ分析部4の機能ブロック図である。
図3は、実施形態の統合ログ分析部4の機能ブロック図である。
統合ログ分析部4は、図3に示されるように、イベント抽出部40と、第2パターン統合部41と、を有する。
イベント抽出部40は、統合ログ作成部3により取得されたデータについて、頻出パターンマイニングを実施することにより、イベントを抽出する。
イベントの抽出の手法は、機械学習の手法のひとつであるアソシエーション分析などを用いてもよいし、イベントパターンを保持している外部ファイルと照合してもよい。
第2パターン統合部41は、抽出されたイベントパターンについて不要なイベントを削除する。
イベントの削除の方法については、イベントパターンの部分集合が一致しているものを統合候補として抽出し、統合ログ作成部3から取得された時系列データから各イベントの時間的な発生頻度を計算・集計し、発生頻度がかけ離れているイベントパターンを削除する。これにより、適切なパターンのみを出力する。
〈パターン表示部5及びパターン記憶部6の構成〉
パターン表示部5は、抽出されたイベントパターンを表示し、また、パターン記憶部6は、抽出されたイベントパターンを記憶する。
パターン表示部5は、抽出されたイベントパターンを表示し、また、パターン記憶部6は、抽出されたイベントパターンを記憶する。
〈実施形態のハードウェア構成〉
図4は、実施形態の分析装置BSのハードウェア構成を示す。
図4は、実施形態の分析装置BSのハードウェア構成を示す。
実施形態の分析装置BSは、上述した機能を果たすべく、図2に示されるように、プロセッサPRと、メモリMEと、記憶媒体KIと、を含み、必要に応じて、入力部NYと、出力部SYと、更に含む。
プロセッサPRは、ソフトウェアに従ってハードウェアを動作させる、よく知られたコンピュータの中核である。メモリMEは、例えば、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)から構成される。記憶媒体KIは、例えば、ハードディスクドライブ(HDD:Hard Disk Drive)、ソリッドステートドライブ(SSD:Solid State Drive)、ROM(Read Only Memory)から構成される。記憶媒体KIは、プログラムPRGを記憶する。プログラムPRGは、プロセッサPRが実行すべき処理の内容を規定する命令群である。
入力部NYは、例えば、カメラ、マイク、キーボード、マウス、タッチパネルから構成される。出力部SYは、例えば、液晶モニター、プリンタ、タッチパネルから構成される。
分析装置BSにおける機能とハードウェア構成との関係については、ハードウェア上で、プロセッサPRが、記憶媒体KIに記憶されたプログラムPRGを、メモリMEを用いて実行すると共に、必要に応じて、入力部NY及び出力部SYの動作を制御することにより、データ取得部1~パターン表示部5の各部の機能を実現する。
〈実施形態の動作〉
図5は、実施形態の分析装置BSの動作を示すフローチャートである。
図5は、実施形態の分析装置BSの動作を示すフローチャートである。
ステップST1:データ取得部1は、分析する対象である情報システムから、分析対象BTとして、データ(例えば、文字列の系列データや数値の系列データ)を取得する。
ステップST2:前記取得されたデータ、例えば、時系列データに頻出パターンマイニングを実施することにより、同時発生パターン及び発生回数を抽出する。
ステップST3:イベントパターンの部分集合が一致しているものを統合候補として抽出し、前記抽出された発生回数に基づき、パターンの共通部分をマージする。
図6は、実施形態のイベントパターンの抽出及び統合を示す。
図6に示されるように、機器Xから出力されたログについて、同時発生となるイベントパターンとイベントの発生回数を抽出する(ステップST2)。
前記抽出された発生回数について、木構造を利用して集計する。詳しくは、最上位のノードから末端の葉ノードまでの一つの経路が一つの組み合わせのパターンに対応し、葉ノードのイベントの発生回数が、イベントの組み合わせパターンの発生回数をも表す。
図6で、「現象」と「イベント」とは、同一である。例えば、ログデータに出力されている現象Aと、木の葉ノードとして表現されているイベントAとは、同一である。
例えば、抽出されたイベントパターン(A、D、E)の(D、E)の発生回数のパターンと、イベントパターン(D、E、F)の(D、E)の発生回数のパターンとが一致している。そこで、2つのイベントパターンを組み合わせた、イベントパターン(A、D、E、F)を作成する(ステップST3)。
ステップST4:前記抽出されたパターンに名前を付けてログを分類し、パターンの定義とパターンの分類結果が圧縮された統合ログを作成する。
抽出されたパターンの定義は、イベントパターン定義部23に保存される。パターンとして抽出されなかったイベントは、ログ記憶部24に保存される。
図7は、実施形態の統合ログ(前半)を示す。
図8は、実施形態の統合ログ(後半)を示す。
機器Xのログデータ(図6に図示。)から、8個のイベントパターンが、より詳しくは、イベントパターン(現象A、現象B、現象C)、(現象A、現象B)、(現象A)、(現象A、現象D)、(現象A、現象D、現象E)、(現象A、現象D、現象E、現象F)、(現象D)、及び(現象D、現象F)が抽出される。前記抽出されたパターンに名前(例えば、パターンP1、パターンP2)を付け、パターン定義「パターンP1:(現象A、現象B、現象C)、パターンP2:(現象A、現象B)、パターンP3:(現象A)、パターンP4:(現象A、現象D)、パターンP5:(現象A、現象D、現象E)、パターンP6:(現象A、現象D、現象E、現象F)、パターンP7:(現象D)、パターンP8:(現象D、現象F)」をイベントパターン定義部23に保存する。
パターンの分類結果である「{2021/1/100:00:01、2021/1/100:00:03}パターンP1;{2021/1/100:00:04、2021/1/100:00:05}パターンP2;{2021/1/100:00:06、2021/1/100:00:06}パターンP3;{2021/1/100:00:07、2021/1/100:00:08}パターンP4;{2021/1/100:00:07、2021/1/100:00:09}パターンP5;{2021/1/100:00:07、2021/1/100:00:10}パターンP6;{2021/1/100:00:11、2021/1/100:00:11}パターンP7;{2021/1/100:00:13、2021/1/100:00:14}パターンP8」を、統合ログとして定義し、インデックスの順番や時系列で並び替える。
イベントパターンとして抽出されなかったイベント「2021/1/100:00:15現象G」は、パターン抽出されなかったイベントの集合で構成されるログを保持するログ記憶部24に格納される。
ステップST5:前記作成された統合ログについて、ステップST2と同様の処理を実施する。
ステップST6:ステップST2~ステップST5の処理を、未分類のイベントがなくなるまで、又は、頻出パターンが抽出できなくなるまで、繰り返する。ステップST2~ステップST6における一連の処理は、ログ単位で独立しており、任意のログの処理が先行してもよいし並行して動作してもよい。
ステップST7:ステップST6までに生成された統合ログ同士を時系列に統合し、即ち、組み合わせたログを生成する。
分析対象のログが1つである場合は、ステップST7以後の処理は省略してよい。
図9は、実施形態の複数の機器における統合ログ(前半)を示す。
図10は、実施形態の複数の機器における統合ログ(後半)を示す。
機器YについてもステップST2~ST6の処理を繰り返すことにより、統合ログ「{2021/1/100:00:02、2021/1/100:00:03}パターンQ1;{2021/1/100:00:03、2021/1/100:00:03}パターンQ2」が出力されていることを想定する。
ステップST7では、機器X、機器Yの各々のデータから生成された統合ログをマージする、機器Xの統合ログと機器Yの統合ログとを組み合わせる。これにより、インデックスの順番や時系列で並び替えた統合ログ、即ち、組み合わせログ「{2021/1/100:00:01、2021/1/100:00:03}パターンP1;{2021/1/100:00:02、2021/1/100:00:03}パターンQ1;{2021/1/100:00:03、2021/1/100:00:03}パターンQ2;{2021/1/100:00:04、2021/1/100:00:05}パターンP2;{2021/1/100:00:06、2021/1/100:00:06}パターンP3;{2021/1/100:00:07、2021/1/100:00:08}パターンP4;{2021/1/100:00:07、2021/1/100:00:09}パターンP5;{2021/1/100:00:07、2021/1/100:00:10}パターンP6;{2021/1/100:00:11、2021/1/100:00:11}パターンP7;{2021/1/100:00:13、2021/1/100:00:14}パターンP8」を定義する。
ステップST8:前記生成された統合ログ、即ち、組み合わせログについて、頻出パターンマイニングを実施することにより、同時発生パターンと各イベントの時間的な発生頻度を抽出する。
ここで、イベントパターンの部分集合が一致しているものを統合候補として抽出し、前記抽出された各イベントの時間的な発生頻度に基づき、同時発生現象となる確率の低いイベントパターンを削除し、1階層上の頻出パターンマイニングを実施してイベントパターンを抽出する。
ステップST9:イベントパターンが、時間的発生頻度の乖離があるか否かを判断する。
図11は、実施形態のイベントの削除を示す。
前記抽出されたイベントパターンは、図11に示されるように、(A、B、C)=(9回/10sec、5回/10sec、1回/10sec)、(α、ε)=(80回/100sec、40回/100sec)であった場合、イベントパターンの時間的な発生頻度は、(A、B、C)=1回/10sec、(A、B)=4回/10sec、(A)=4回/10sec、(α、ε)=4回/10sec、(α)=4回/10secと表すことができる。イベントパターンαと同時発生の確率が低いパターンは、イベントパターンαの発生パターンとかけ離れた時間的発生頻度を持つものとみなすことができることから、時間的発生頻度の乖離が大きいイベントパターン(A、B、C)を削除する。
イベントの削除における時間的発生頻度の閾値は、任意に設定してもよい。
イベントパターンを削除する候補が無い場合、イベントを削除せずにステップST10の処理へ進む。
ここで、例えば、(A)、(A、B)及び(α)の算出は、以下のように行われる。
イベントAをA、イベントBをB、イベントCをCと呼び、(A、B)を組み合わせの単位、A、Bを組み合わせとする。
イベントAをA、イベントBをB、イベントCをCと呼び、(A、B)を組み合わせの単位、A、Bを組み合わせとする。
(A)=Aのみの発生頻度
(A、B)=A、Bのみの発生頻度
(A、B、C)=A、B、Cのみの発生頻度
とした場合、
(A、B)=A、Bのみの発生頻度
(A、B、C)=A、B、Cのみの発生頻度
とした場合、
(A)
=Aの発生頻度-A、Bの発生頻度
=9回/10sec-5回/10sec
=4回/10sec
=Aの発生頻度-A、Bの発生頻度
=9回/10sec-5回/10sec
=4回/10sec
(A、B)
=A、Bの発生頻度-(A、B、C)
=5回/10sec-1回/10sec
=4回/10sec
=A、Bの発生頻度-(A、B、C)
=5回/10sec-1回/10sec
=4回/10sec
(α)
=αの発生頻度-α、εの発生頻度
=80回/100sec-40回/100sec
=40回/100sec
=4回/10sec
=αの発生頻度-α、εの発生頻度
=80回/100sec-40回/100sec
=40回/100sec
=4回/10sec
ステップST11:前記抽出されたイベントパターンをパターン表示部5が表示し、又はパターン記憶部6に記憶する。
〈実施形態の効果〉
図12は、実施形態の分析装置BSの効果を示す。
図12は、実施形態の分析装置BSの効果を示す。
図12に示されるように、従来のパターン抽出では、異なるデータ、即ち、機器Xのログデータと機器Yのログデータとを統合した後に頻出パターンマイニングを用いる。従って、分断された同時発生パターンしか抽出されない可能性が高い。
実施形態の分析装置BSは、上述したように、また、図12に示されるように、データを系列毎に個別に、即ち、機器X毎に及び機器Y毎に、分類した後に統合する。実施形態の分析装置BSは、統合されたデータについて、頻出パターンマイニングを用いる。これにより、例えば、文字データと数値データとの間で、換言すれば、粒度が異なるデータ同士の間で同時発生パターンを抽出することができる。
実施形態の分析装置BSは、また、イベントの抽出、パターンの統合、ログの統合の処理を条件に基づき繰り返す。これにより、同時発生パターンの抽出回数を人が指定する必要がなく、またパターンの抽出漏れを防ぐことができる。
一般的に、ログのサイズが大きくなる傾向の下で、同時発生パターンが分断された状態で抽出され易くなる傾向になっている。しかし、実施形態の分析装置BSでは、分断されたイベントパターンの共通部分をマージすることにより、同時発生パターンを効率的に抽出することができ、かつ、分析の精度を向上させることができる。また、イベントパターンの発生頻度が乖離しているパターンを削除することにより、分析時間を短縮することができ、同時発生パターンをより効率的に抽出することができる。更に、ログを圧縮しながら分析することにより、分析時間を短縮することができる。
〈変形例1〉
用途が限定されている場合(例えば、分析対象のログが一つである場合等)、分析装置BSは、統合ログ作成部3と統合ログ分析部4が無い構成でよい。
用途が限定されている場合(例えば、分析対象のログが一つである場合等)、分析装置BSは、統合ログ作成部3と統合ログ分析部4が無い構成でよい。
〈変形例2〉
頻出パターンマイニングの手法として一般的な機械学習手法(例えば、アソシエーション分析)を用いる実施形態と相違し、イベントパターンを保持している外部ファイルと照合する等でイベントパターンを抽出してもよい。
頻出パターンマイニングの手法として一般的な機械学習手法(例えば、アソシエーション分析)を用いる実施形態と相違し、イベントパターンを保持している外部ファイルと照合する等でイベントパターンを抽出してもよい。
〈変形例3〉
上述した発生頻度については、第1パターン抽出部20により算出された発生頻度をそのまま利用し、発生頻度に乖離のあるパターンを削除することもできる。従って、ステップST8での処理を省略し、組み合わせの候補を列挙してもよい。また、ステップST9、ステップST10での分析により組み合わせ候補を削減した後に、ステップST8の処理を実施することにより、演算量を削減することも可能である。
上述した発生頻度については、第1パターン抽出部20により算出された発生頻度をそのまま利用し、発生頻度に乖離のあるパターンを削除することもできる。従って、ステップST8での処理を省略し、組み合わせの候補を列挙してもよい。また、ステップST9、ステップST10での分析により組み合わせ候補を削減した後に、ステップST8の処理を実施することにより、演算量を削減することも可能である。
本開示の要旨を逸脱しない範囲で、上述した実施形態同士を組み合わせてもよく、また、各実施形態中の構成要素を適宜、削除し、変更し、または、他の構成要素を追加してもよい。
本開示に係る分析装置は、粒度が異なるデータ同士の間で同時発生パターンを検出することの困難性を低減することに利用可能である。
1 データ取得部、2 ログ個別分析部、3 統合ログ作成部、4 統合ログ分析部、5 パターン表示部、6 パターン記憶部、20 第1パターン抽出部、21 第1パターン統合部、22 ログ統合部、23 イベントパターン定義部、24 ログ記憶部、40 イベント抽出部、41 第2パターン統合部、BS 分析装置、BT 分析対象、KI 記憶媒体、ME メモリ、NY 入力部、P パターン、PR プロセッサ、PRG プログラム、Q パターン、SY 出力部、X 機器、Y 機器。
Claims (7)
- 複数の機器からデータを取得するデータ取得部と、
前記各機器毎に、前記取得されたデータにおける複数の同時発生パターン、及び前記複数の同時発生パターンの発生回数を抽出し、前記抽出された発生回数に基づき、前記抽出された複数の同時発生パターンを統合することにより、統合ログを作成する個別分析部と、
前記複数の機器間で、前記統合ログを組み合わせる統合部と、
前記組み合わされたログから前記同時発生パターンを抽出する統合分析部と、
を含む分析装置。 - 前記個別分析部は、第1パターン抽出部、第1パターン統合部、及びログ統合部を有し、前記第1パターン抽出部による処理、前記第1パターン統合部による処理、及び前記ログ統合部による処理を、未分類のイベントがなくなるまで又は頻出パターンを抽出できなくなるまで繰り返す、
請求項1に記載の分析装置。 - 前記統合部は、前記抽出された複数の同時発生パターン間で共通する類似部分をマージする、
請求項1に記載の分析装置。 - 前記個別分析部は、前記同時発生パターンの時間的な発生頻度を抽出し、
前記統合分析部は、前記抽出された時間的な発生頻度に基づき、同時に発生しえない同時発生パターンを除外する、
請求項1に記載の分析装置。 - 前記統合部は、前記同時発生パターンに名前を付けた上で分類し、前記同時発生パターンの定義及び前記分類の結果を圧縮する、
請求項1に記載の分析装置。 - 前記ログ統合部は、前記同時パターンが抽出されなかったイベントの集合で構成されるログを記憶するログ記憶部を有し、
前記記憶されたログは、イベント数が1の組み合わせパターンの系列として後段の処理で他の組み合わせパターンと同様に取り扱われ、分析する範囲を指定するために用いられ、又は、破棄されて分析が行われる、
請求項5に記載の分析装置。 - データ取得部が、複数のデータを取得し、
個別分析部が、前記取得された複数のデータにおける複数の同時発生パターン、及び前記複数の同時発生パターンの発生回数を抽出し、
統合部が、前記抽出された発生回数に基づき、前記抽出された複数の同時発生パターンを統合することにより、統合ログを作成し、
統合分析部が、前記統合されたログから前記同時発生パターンを抽出する、
分析方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-028435 | 2022-02-25 | ||
JP2022028435A JP2023124581A (ja) | 2022-02-25 | 2022-02-25 | 分析装置及び分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023162390A1 true WO2023162390A1 (ja) | 2023-08-31 |
Family
ID=87765509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/044495 WO2023162390A1 (ja) | 2022-02-25 | 2022-12-02 | 分析装置及び分析方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023124581A (ja) |
WO (1) | WO2023162390A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015045262A1 (ja) * | 2013-09-24 | 2015-04-02 | 日本電気株式会社 | ログ分析システム、障害原因分析システム、ログ分析方法、および、プログラムを記憶する記録媒体 |
WO2016075915A1 (ja) * | 2014-11-10 | 2016-05-19 | 日本電気株式会社 | ログ分析システム、ログ分析方法およびプログラム記録媒体 |
-
2022
- 2022-02-25 JP JP2022028435A patent/JP2023124581A/ja active Pending
- 2022-12-02 WO PCT/JP2022/044495 patent/WO2023162390A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015045262A1 (ja) * | 2013-09-24 | 2015-04-02 | 日本電気株式会社 | ログ分析システム、障害原因分析システム、ログ分析方法、および、プログラムを記憶する記録媒体 |
WO2016075915A1 (ja) * | 2014-11-10 | 2016-05-19 | 日本電気株式会社 | ログ分析システム、ログ分析方法およびプログラム記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2023124581A (ja) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664375B (zh) | 用于检测计算机网络系统用户的异常行为的方法 | |
US20170208080A1 (en) | Computer-readable recording medium, detection method, and detection apparatus | |
Aharon et al. | One graph is worth a thousand logs: Uncovering hidden structures in massive system event logs | |
US20210035026A1 (en) | Diagnosing & triaging performance issues in large-scale services | |
JP6714152B2 (ja) | 分析装置、分析方法及び分析プログラム | |
CN111722984B (zh) | 告警数据处理方法、装置、设备及计算机存储介质 | |
US20160203156A1 (en) | Method, apparatus and system for data analysis | |
US10740212B2 (en) | Content-level anomaly detector for systems with limited memory | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
US8909768B1 (en) | Monitoring of metrics to identify abnormalities in a large scale distributed computing environment | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
US9600572B2 (en) | Method, computer program and apparatus for analyzing symbols in a computer system | |
WO2023162390A1 (ja) | 分析装置及び分析方法 | |
Sathya et al. | Apriori algorithm on web logs for mining frequent link | |
Puri et al. | Analyzing and predicting security event anomalies: Lessons learned from a large enterprise big data streaming analytics deployment | |
US11025658B2 (en) | Generating summaries of messages associated with assets in an enterprise system | |
Li et al. | Event block identification and analysis for effective anomaly detection to build reliable HPC systems | |
Engelberg et al. | An Uncertainty-Aware Event Log of Network Traffic. | |
JP6041431B2 (ja) | ストリームデータ処理方法、ストリームデータ処理装置及びプログラム | |
JP2022090209A (ja) | アカウント分析システム、及びアカウント分析方法 | |
Wang et al. | Scg: Spotting coordinated groups in social media | |
Cui et al. | User Behavior Auditing in Electric Management Information System based on Graph Clustering | |
CN114329119A (zh) | 一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质 | |
US20240273130A1 (en) | Data extraction system and data extraction method | |
Tian et al. | MvLog: Mining Invariants by Recovering Workflow on Log for Anomaly Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22928907 Country of ref document: EP Kind code of ref document: A1 |