WO2022195690A1

WO2022195690A1 - ログデータ解析装置、ログデータ解析方法及びプログラム

Info

Publication number: WO2022195690A1
Application number: PCT/JP2021/010450
Authority: WO
Inventors: 展和福田; 超呉; 信吾堀内; 健一田山
Original assignee: 日本電信電話株式会社
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-09-22
Also published as: JPWO2022195690A1

Abstract

一実施形態に係るログデータ解析装置は、分割部と、ベクトル算出部と、クラスタリング部と、を備える。分割部は、ログデータを部分単語に分割する、ベクトル算出部は、部分単語を使ってログデータを表現するベクトルを算出する。クラスタリング部は、クラスタ間により遠ざけるためのマージンを入れた各クラスタとの類似度に基づいて、ベクトルをクラスタリングする。

Description

ログデータ解析装置、ログデータ解析方法及びプログラム

　この発明の実施形態は、ログデータ解析装置、ログデータ解析方法及びプログラムに関する。

　ネットワーク装置やネットワークサービスについて、監視の自動化、分析及び対処の精度を向上させるために、適切にログデータを分類及び解析するログデータ解析手法が各種提案されている。

　例えば、非特許文献１は、バッチ的にログデータを解析する手法を提案し、非特許文献２及び非特許文献３は、オンライン的にログデータを解析する手法を提案している。また、非特許文献４は、深層学習を用いたログデータ解析を提案し、非特許文献５は、自動ログ解析のためのツールを提案している。

　また、ログデータの解析結果の利用法として、例えば、非特許文献６及び非特許文献７は、解析結果を基に異常検知を行うことを提案している。

R. Vaarandi and M. Pihelgas, "Logcluster-A Data Clustering and Pattern Mining Algorithm for Event Logs," in 2015 11th International Conference on Network and Service Management (CNSM), IEEE, 2015, pp. 1-7. S. Huang et al., "Paddy: An Event Log Parsing Approach using Dynamic Dictionary," NOMS 2020 - 2020 IEEE/IFIP Network Operations and Management Symposium, Budapest, Hungary, 2020, pp. 1-8, doi: 10.1109/NOMS47738.2020.9110435. P. He, J. Zhu, Z. Zheng, and M. R. Lyu, "Drain: An online log parsing approach with fixed depth tree," in 2017 IEEE International Conference on Web Services (ICWS). IEEE, 2017, pp. 33-40. Thaler S., Menkovski V., Petkovic M. (2017) "Unsupervised Signature Extraction from Forensic Logs," In: Altun Y. et al. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2017. Lecture Notes in Computer Science. J. Zhu, S. He, J. Liu, P. He, Q. Xie, Z. Zheng, and M. R. Lyu, "Tools and Benchmarks for Automated Log Parsing," in Proceedings of the 41st International Conference on Software Engineering: Software Engineering in Practice. IEEE Press, 2019, pp. 121-130. Du, M. et al. "DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning," Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (2017): n. pag. Meng, Weibin et al. "LogAnomaly: Unsupervised Detection of Sequential and Quantitative Anomalies in Unstructured Logs," IJCAI (2019).

　ネットワーク装置の追加、ネットワークサービスの運用シナリオの変化によるソフトウェアの更改、等によって、ログデータにおける分析の対象や項目が変化する。一方、従来のログデータ解析手法は、あらかじめ定められたログデータを生成する規則に大きく依存している。よって、従来のログデータ解析手法では、構文の変化したログデータや様々な構文のログデータを高精度に解析することが困難である。

　この発明は、構文の変化したログデータや様々な構文のログデータを高精度に解析することが可能となる技術を提供しようとするものである。

　上記課題を解決するために、この発明の一態様に係るログデータ解析装置は、分割部と、ベクトル算出部と、クラスタリング部と、を備える。分割部は、ログデータを部分単語に分割する、ベクトル算出部は、部分単語を使ってログデータを表現するベクトルを算出する。クラスタリング部は、クラスタ間により遠ざけるためのマージンを入れた各クラスタとの類似度に基づいて、ベクトルをクラスタリングする。

　この発明の一態様によれば、部分単語にログデータを分割し、部分単語を使ってログデータをベクトルとして表現し、クラスタをより遠ざけるためのマージンを入れた類似度を使ってベクトルをクラスタリングし、追加されたログデータを使ってクラスタリングで用いるベクトル表現や閾値を再訓練することで、構文の変化したログデータや様々な構文のログデータを高精度に解析することが可能となる技術を提供することができる。

図１は、この発明の一実施形態に係るログデータ解析装置の構成の一例を示すブロック図である。図２は、ログデータ解析装置のハードウェア構成の一例を示す図である。図３は、ログデータの文字列からテンプレートとパラメータへの分割例を示す模式図である。図４Ａは、ログデータとクラスタの対応例を示す模式図である。図４Ｂは、ログデータについての解析動作を示す模式図である。図５は、ログデータの文字列からテンプレートとパラメータへの分割における正答及び誤答の例を示す模式図である。図６は、ログデータ解析装置の処理動作の一例を示すフローチャートである。図７は、図６中の初期訓練処理及び再訓練処理の詳細の一例を示すフローチャートである。図８は、ログデータの文字列の部分単語への分割とスペース区切りによる分割の例を示す模式図である。図９は、代表ベクトルまでの距離によるログデータのクラスタ分類例を示す模式図である。図１０は、８つのクラスタの関係の一例を示す模式図である。図１１は、角度マージンの一例を示す模式図である。図１２は、角度マージンを組み込んだ場合の８つのクラスタの関係の一例を示す模式図である。図１３は、ログデータ解析処理全体のアルゴリズムの一例を示す図である。図１４は、ログを分類のアルゴリズムの一例を示す図である。図１５は、訓練のアルゴリズムの一例を示す図である。図１６は、従来のログデータ解析手法を用いたログ解析装置の解析結果と一実施形態に係るログデータ解析装置の解析結果とを示す模式図である。図１７は、他の実施形態に係るログデータ解析装置の処理動作の一例を示すフローチャートである。

　以下、図面を参照して、この発明に係わる実施形態を説明する。

　（構成例）
　図１は、この発明の一実施形態に係るログデータ解析装置１の構成の一例を示すブロック図である。ログデータ解析装置１は、ログデータ保持部ＤＢ１、クラスタラベル保持部ＤＢ２、語彙保持部ＤＢ３、ログベクトル集合保持部ＤＢ４、語彙集合算出部１１、ログベクトル算出部１２、ログ－クラスタ類似度算出部１３、クラスタリング精度評価部１４及び埋め込み訓練部１５を有する。また、ログデータ解析装置１は、ログデータ保持部ＤＢ５に接続される。

　ログデータ保持部ＤＢ１は、多数のログデータを蓄積している。すなわち、ログデータ保持部ＤＢ１は、ログデータの集合Ｌｏｇｓを保持している。クラスタラベル保持部ＤＢ２は、ログデータ保持部ＤＢ１に蓄積された各ログデータについて、当該ログデータが分類されたクラスタを示すクラスタラベルを蓄積している。すなわち、クラスタラベル保持部ＤＢ２は、クラスタラベルの集合Ｌａｂｅｌｓを保持している。これらログデータ保持部ＤＢ１に蓄積されたログデータの集合Ｌｏｇｓ及びクラスタラベル保持部ＤＢ２に蓄積されたクラスタラベルの集合Ｌａｂｅｌｓは、訓練データとして利用されることができる。

　語彙保持部ＤＢ３は、ログデータ保持部ＤＢ１に蓄積されたログデータの集合Ｌｏｇｓにおける各ログの文字列に含まれる語彙Ｖｏｃａｂを蓄積する。語彙集合算出部１１は、処理対象のログデータＬｏｇの文字列から語彙集合を算出する。算出された語彙集合は、語彙保持部ＤＢ３に追加蓄積される。

　ログベクトル集合保持部ＤＢ４は、ログの解析に使用するログベクトル集合を保持している。ログベクトル集合は、トークン埋め込み集合｛Ｅｍｂｅｄｄｉｎｇ_Token｝、クラスタの代表ベクトル集合｛Ｖｅｃｔｏｒ_Cluster｝及び閾値Ｔｈｒｅｓｈｏｌｄを含む。これらトークン埋め込み集合｛Ｅｍｂｅｄｄｉｎｇ_Token｝、クラスタの代表ベクトル集合｛Ｖｅｃｔｏｒ_Cluster｝及び閾値Ｔｈｒｅｓｈｏｌｄについては、後述する動作例において説明する。

　ログベクトル算出部１２は、語彙保持部ＤＢ３に蓄積された語彙Ｖｏｃａｂを辞書として使用して、処理対象のログデータＬｏｇの文字列をトークンに分割する。また、ログベクトル算出部１２は、このトークンとログベクトル集合保持部ＤＢ４に保持されたログベクトル集合とを使って、ログをベクトルとして表現したログベクトルを算出する。ログベクトル算出部１２は、さらに、この算出したログベクトルとログベクトル集合保持部ＤＢ４に保持されたログベクトル集合とを使って、処理対象のログデータＬｏｇを分類し、分類されたクラスタを示す出力ラベルＯｕｔｐｕｔを出力する。

　ログ－クラスタ類似度算出部１３は、出力ラベルＯｕｔｐｕｔで示されるクラスタと処理対象のログデータＬｏｇの文字列との類似度Ａｃｃｕｒａｃｙを算出する。クラスタリング精度評価部１４は、ログ－クラスタ類似度算出部１３が算出した類似度Ａｃｃｕｒａｃｙにより解析結果を評価する。クラスタリング精度評価部１４は、解析結果が正答であると評価した場合には、出力ラベルＯｕｔｐｕｔを、本ログデータ解析装置１による解析結果として出力する。さらにこの場合、クラスタリング精度評価部１４は、処理対象のログデータＬｏｇをログデータ保持部ＤＢ１に追加蓄積させると共に、出力ラベルＯｕｔｐｕｔで示されるクラスタのラベルＬａｂｅｌをクラスタラベル保持部ＤＢ２に追加蓄積させる。これに対して、クラスタリング精度評価部１４は、解析結果が正答であると評価した場合には、出力ラベルＯｕｔｐｕｔを破棄し、埋め込み訓練部１５に対してログベクトル集合の再訓練を指示する。

　埋め込み訓練部１５は、訓練データを用いたログベクトル集合の初期訓練を行うと共に、クラスタリング精度評価部１４からの指示に応じて、ログベクトル集合の再訓練を行う。すなわち、埋め込み訓練部１５は、クラスタリング精度評価部１４からの指示に応じて、ログベクトル算出部１２に、ログデータ保持部ＤＢ１に蓄積されたログデータの集合Ｌｏｇｓから一つずつ訓練用のログデータを読み出させて、ログのベクトル表現Ｅｍｂｅｄｄｉｎｇ_Logを算出させる。そして、埋め込み訓練部１５は、このログのベクトル表現Ｅｍｂｅｄｄｉｎｇ_Logとクラスタラベル保持部ＤＢ２に蓄積されたクラスタラベルの集合Ｌａｂｅｌｓとに基づいて、ログベクトル集合を計算する。埋め込み訓練部１５は、計算したログベクトル集合で、ログベクトル集合保持部ＤＢ４に保持されたログベクトル集合、つまりトークン埋め込み集合｛Ｅｍｂｅｄｄｉｎｇ_Token｝、クラスタの代表ベクトル集合｛Ｖｅｃｔｏｒ_Cluster｝及び閾値Ｔｈｒｅｓｈｏｌｄを更新する。なお、この埋め込み訓練部１５でのログベクトル集合の計算手法の詳細は、後述する動作例において説明する。

　ログデータ保持部ＤＢ５は、ログデータ解析装置１で解析させる処理対象データであるログデータＬｏｇを蓄積している。このログデータＬｏｇは、図示しないネットワーク装置やネットワークサービスによって取得されて、ログデータ保持部ＤＢ５に蓄積されることができる。

　図２は、ログデータ解析装置１のハードウェア構成の一例を示す図である。

　ログデータ解析装置１は、図２に示すように、例えばサーバコンピュータ（Server computer）やパーソナルコンピュータ（Personal computer）などのコンピュータにより構成され、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ１０１を有する。なお、ＣＰＵは、マルチコア及びマルチスレッドのものを用いることで、同時に複数の情報処理を実行することができる。また、プロセッサ１０１は、複数のＣＰＵを備えていても良い。そして、ログデータ解析装置１では、このプロセッサ１０１に対し、プログラムメモリ１０２と、データメモリ１０３と、通信インタフェース１０４と、入出力インタフェース（図２では入出力ＩＦと記す）１０５とが、バス１０６を介して接続される。

　通信インタフェース１０４は、例えば一つ以上の有線または無線の通信モジュールを含むことができる。通信インタフェース１０４は、ＬＡＮ（Local Area Network）やインターネットなどのネットワークを介して接続されるネットワーク装置やネットワークサービスを提供するサーバなどとの間で通信を行い、それらからログデータを取得することができる。また、通信インタフェース１０４は、外部のデータ処理装置などと通信して、そのデータ処理装置からの要求を受信したり、その要求に応じたデータ処理結果をデータ処理装置に返信したりすることもできる。

　入出力インタフェース１０５には、入力部１０７及び表示部１０８が接続されている。入力部１０７及び表示部１０８は、例えば液晶または有機ＥＬ（Electro Luminescence）を使用した表示デバイスの表示画面上に、静電方式または圧力方式を採用した入力検知シートを配置した、いわゆるタブレット型の入力・表示デバイスを用いたものが用いられることができる。なお、入力部１０７及び表示部１０８は独立するデバイスにより構成されても良い。入出力インタフェース１０５は、上記入力部１０７において入力された操作情報をプロセッサ１０１に入力すると共に、プロセッサ１０１で生成された表示情報を表示部１０８に表示させる。

　なお、入力部１０７及び表示部１０８は、入出力インタフェース１０５に接続されていなくても良い。入力部１０７及び表示部１０８は、通信インタフェース１０４と直接またはネットワークを介して接続するための通信ユニットを備えることで、プロセッサ１０１との間で情報の授受を行い得る。

　また、入出力インタフェース１０５は、フラッシュメモリなどの半導体メモリといった記録媒体のリード／ライト機能を有しても良いし、あるいは、そのような記録媒体のリード／ライト機能を持ったリーダライタとの接続機能を有しても良い。これにより、ログデータ解析装置１に対して着脱自在な記録媒体を、処理対象のログデータを保持するログデータ保持部ＤＢ５とすることができる。入出力インタフェース１０５は、さらに、他の機器との接続機能を有して良い。

　プログラムメモリ１０２は、非一時的な有形のコンピュータ可読記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込み及び読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとが組合せて使用されたものである。このプログラムメモリ１０２には、プロセッサ１０１が一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。すなわち、上記の語彙集合算出部１１、ログベクトル算出部１２、ログ－クラスタ類似度算出部１３、クラスタリング精度評価部１４及び埋め込み訓練部１５の各部における処理機能部は、何れも、プログラムメモリ１０２に格納されたプログラムを上記プロセッサ１０１により読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）またはＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式によって実現されても良い。

　データメモリ１０３は、有形のコンピュータ可読記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとが組合せて使用されたものである。このデータメモリ１０３は、各種処理が行われる過程で取得及び作成された各種データが記憶されるために用いられる。すなわち、データメモリ１０３には、各種処理が行われる過程で、適宜、各種データを記憶するための領域が確保される。そのような領域として、データメモリ１０３には、例えば、ログデータ記憶部１０３１、クラスタラベル記憶部１０３２、語彙記憶部１０３３、ログベクトル集合記憶部１０３４及び一時記憶部１０３５を設けることができる。

　ログデータ記憶部１０３１は、ログデータ保持部ＤＢ１として機能することができる。クラスタラベル記憶部１０３２は、クラスタラベル保持部ＤＢ２として機能することができる。語彙記憶部１０３３は、語彙保持部ＤＢ３として機能することができる。ログベクトル集合記憶部１０３４は、ログベクトル集合保持部ＤＢ４として機能することができる。一時記憶部１０３５は、プロセッサ１０１が、上記ログベクトル算出部１２としての動作を実施した際の計算途中のデータ等などを記憶する。また、一時記憶部１０３５は、通信インタフェース１０４が受信した処理対象のログデータＬｏｇを記憶することができる。すなわち、一時記憶部１０３５は、ログデータ保持部ＤＢ５として機能することができる。

　（動作）
　次に、ログデータ解析装置１の動作を説明する。

　本実施形態において、ログデータの解析とは、異常検知等の前処理として、ネットワーク装置等のプログラムが生成した平文のログデータをクラスタリングする処理である。すなわち、ログデータ解析処理は、ログデータの文字列を、クラスタ内で共通する要素であるテンプレートと、クラスタ内で異なる要素であるパラメータとに分割し、このテンプレートに基づいてログデータを対応するクラスタに分類する。

　図３は、ログデータの文字列からテンプレートとパラメータへの分割例を示す模式図である。例えば、「onExtend:1514038530000 0 0 4」というログデータは、テンプレート「onExtend:***」とパラメータ「[1514038530000, 0, 0, 4]」に分割される。また、「onStandStepChanged 3579」というログデータは、テンプレート「onStandStepChanged ***」とパラメータ「[3597]」に分割される。

　図４Ａは、ログデータとクラスタの対応例を示す模式図である。同図において、クラスタＩＤはクラスタを識別するクラスタラベルである。例えば、事前に人手によってテンプレートとクラスタラベルとの紐付けを行っておくことで、ログデータ解析装置１は、処理対象のログデータの解析を行うことができる。図４Ａの例では、同じテンプレート「onStandStepChanged ***」を持つ２つのログデータが同じクラスタラベル（クラスタＩＤ）「Ｅ４２」のクラスタに分類されている。

　図４Ｂは、ログデータについての解析動作を示す模式図である。処理対象のログデータ「onExtend:1514038530000 1 0 4」が与えられたとき、ログデータ解析装置１は、それをテンプレート「onExtend:***」とパラメータ「[1514038530000, 1, 0, 4]」に分割する。そして、ログデータ解析装置１は、テンプレート「onExtend:***」を、各クラスタラベルに紐付けられたテンプレートと比較する。その結果、ログデータ解析装置１は、処理対象のログデータ「onExtend:1514038530000 1 0 4」を、同じテンプレート「onExtend:***」を持つログデータ「onExtend:1514038530000 0 0 4」が分類済みである、クラスタラベル「Ｅ３９」に分類する。

　このようなログデータ解析を行う場合、ログデータ解析装置１は、テンプレートとパラメータの差が曖昧なログデータを正しく分割することが必要である。ログデータの文字列から数値（例えばＩＰアドレス）とその他の文字列とを区別することは簡単である。しかしながら、ログデータの文字列がステートメントを含む場合、例えば非特許文献５に「"DB connection ok" vs. "DB connection error"」と例示されているように、ステートメントとテンプレートとを区別することは難しい。テンプレートとパラメータとの境界は、クラスタやログの種別によって異なる。

　図５は、ログデータの文字列からテンプレートとパラメータへの分割における正答及び誤答の例を示す模式図である。例１に示すようなログデータ「onReceive action: android.intent.action.SCREEN_ON」は、例えば非特許文献３に開示された手法を適用すると、テンプレートを「onReceive action: <*>」、パラメータを「android.intent.action.SCREEN_ON」と分割してしまう。このログデータにおいては、「onReceive action: android.intent.action.SCREEN_ON」全てがパラメータとされるのが正答であり、この分割は誤答である。この誤答により、別のクラスタに分類されなければならない「onReceive action: android.intent.action.SCREEN_OFF」が同じクラスタに分類されてしまうことが起こる。

　また、ログデータのテンプレートとパラメータへの分割は、ログデータの構文に強く依存する。テンプレートとパラメータへの分割は、一般に、スペース区切りを前提としている。そのため、パラメータを含む文字列の全てをテンプレートと見做して、分割してしまう。

　例えば、図５の例２に示すようなログデータ「setTodayTotalDetailSteps=1514038440000##7007##548365##8661##12361##27173954」では、スペースを含まないため、その全てがテンプレートとされてしまう。このログデータにおいては、「setTodayTotalDetailSteps=<*>」がパラメータ、「1514038440000##7007##548365##8661##12361##27173954」がテンプレートとされるのが正答であり、この分割は誤答である。この誤答により、同じクラスタに分類されなければならない「setTodayTotalDetailSteps=325#…#284」が別クラスタに分類されてしまうことが起こる。

　本実施形態係るログデータ解析装置１は、ログデータ種毎の要件、ソースコード等を手掛かりにせずに対象ログデータを解析することで、正しい解析結果が得られるようにしている。

　図６は、ログデータ解析装置１の処理動作の一例を示すフローチャートである。また、図７は、図６中の初期訓練処理及び再訓練処理の詳細の一例を示すフローチャートである。ここでは、既に、ログデータ記憶部１０３１及びクラスタラベル記憶部１０３２には、ログデータ保持部ＤＢ１及びクラスタラベル保持部ＤＢ２として、事前に分類された初期訓練データが蓄積されているものとする。

　入出力インタフェース１０５を介して入力部１０７から、あるいは、通信インタフェース１０４を介して外部のデータ処理装置から、ログデータの解析の実施を指示されると、ログデータ解析装置１のプロセッサ１０１は、このフローチャートに示す動作を開始する。

　まず、プロセッサ１０１は、埋め込み訓練部１５としての動作を実行して、初期訓練データによる訓練を行う（ステップＳ１０）。これにより、ログベクトル集合保持部ＤＢ４として機能するログベクトル集合記憶部１０３４に記憶されるログベクトル集合が初期化される。訓練手法の詳細については後述する。

　そして、プロセッサ１０１は、ログデータＬｏｇを処理対象として入力する（ステップＳ１１）。すなわち、プロセッサ１０１は、例えば通信インタフェース１０４が受信した処理対象のログデータＬｏｇを、ログデータ保持部ＤＢ５として機能する一時記憶部１０３５に記憶する。

　次に、プロセッサ１０１は、語彙集合算出部１１としての動作を実行して、処理対象のログデータＬｏｇから語彙集合を計算し、語彙保持部ＤＢ３として機能する語彙記憶部１０３３に記憶する（ステップＳ１２）。すなわち、プロセッサ１０１は、ログデータＬｏｇの文字列を部分単語（Senencepiece）である語彙に分割する。この部分単語への分割は、例えば、Kudo, Taku and J. Richardson, "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing." EMNLP (2018).（以下、参考文献１と記す。）で提案された手法を利用することができる。参考文献１は、機械翻訳用に文字列を分割する際に、スペース区切りに依存しない特徴抽出により分割する手法を開示している。

　図８は、ログデータの文字列の部分単語への分割とスペース区切りによる分割の例を示す模式図である。例えば、ログデータ「onReceive action: android.intent.action.SCREEN_ON」をスペース区切りで分割すると、「onReceive / action: / android.intent.action.SCREEN_ON」と３つに分割される。このログデータを部分単語に分割すると、「on / Receive / action / : / android.intent.action. / SCREEN / _ / ON」と８つの語彙に分割される。

　次に、プロセッサ１０１は、ログベクトル算出部１２としての動作を実行して、まず、語彙保持部ＤＢ３に保持された語彙Ｖｏｃａｂを辞書として使用して、処理対象のログデータＬｏｇを部分単語のトークンＴｏｋｅｎｉｚｅｄＬｏｇに分割する（ステップＳ１３）。この分割処理は、擬似コードでは、
　　　ＴｏｋｅｎｉｚｅｄＬｏｇ ← ｔｏｋｅｎｉｚｅ（Ｌｏｇ，Ｖｏｃａｂ）
と表される。

　その後、プロセッサ１０１は、このトークンＴｏｋｅｎｉｚｅｄＬｏｇと、ログベクトル集合保持部ＤＢ４に保持されたログベクトル集合の内のトークン埋め込み集合｛Ｅｍｂｅｄｄｉｎｇ_Token｝とに基づいて、ログデータのベクトル表現Ｅｍｂｅｄｄｉｎｇ_Logを、計算する（ステップＳ１４）。この計算処理は、以下の擬似コードで表される。

　そして、プロセッサ１０１は、このログデータのベクトル表現Ｅｍｂｅｄｄｉｎｇ_Logと各クラスタの類似度、つまり代表ベクトルへの距離を計算する（ステップＳ１５）。この類似度の計算処理は、ログベクトル集合保持部ＤＢ４に保持されたログベクトル集合の内のクラスタの代表ベクトル集合｛Ｖｅｃｔｏｒ_Cluster｝を用いて、以下の擬似コードで表される。

　ここで、プロセッサ１０１は、各クラスタについて計算した類似度の内で最大の類似度が閾値以下であるかどうか判定する（ステップＳ１６）。閾値は、ログベクトル集合保持部ＤＢ４に保持されたログベクトル集合の内の閾値Ｔｈｒｅｓｈｏｌｄである。よって、この判定処理は、以下の擬似コードで表される。

　最大類似度が閾値以下であると判定した場合、プロセッサ１０１は、その最大の類似度となるクラスタへ分類し、出力ラベルＯｕｔｐｕｔを得る（ステップＳ１７）。この分類処理は、以下の擬似コードで表される。

　これに対して、最大類似度が閾値以下ではないと判定した場合、プロセッサ１０１は、
　　　Ｏｕｔｐｕｔ ← ＮｅｗＣｌｕｓｔｅｒ
の擬似コードで表すように、新規クラスタへ分類し、出力ラベルＯｕｔｐｕｔを得る（ステップＳ１８）。

　図９は、このような代表ベクトルまでの距離によるログデータのクラスタ分類例を示す模式図である。丸印はログデータのベクトル表現を示し、バツ印はクラスタ毎に設定した代表ベクトルを示している。また、破線は、クラスタ間の識別境界を示している。丸数字の１で示される処理対象のログデータのベクトル表現は、類似度が最大であるクラスタＡの代表ベクトルとの間の類似度が閾値以下であるので、このログデータはクラスタＡへ分類される。一方、丸数字の２で示されるベクトル表現は、クラスタＡの代表ベクトル及びクラスタＢの代表ベクトルの何れとの間の類似度とも閾値を超えているので、このログデータは、クラスタＡ及びＢの何れへも分類されず、新クラスタへ分類される。

　次に、プロセッサ１０１は、ログ－クラスタ類似度算出部１３としての動作を実行して、処理対象のログデータＬｏｇと出力ラベルＯｕｔｐｕｔで示されるクラスタとの類似度Ａｃｃｕｒａｃｙを計算する（ステップＳ１９）。

　そして、プロセッサ１０１は、クラスタリング精度評価部１４としての動作を実行して、類似度Ａｃｃｕｒａｃｙを評価することで、出力ラベルＯｕｔｐｕｔが正解であるか否か判定する（ステップＳ２０）。

　ここで、出力ラベルＯｕｔｐｕｔが正解であると判定したならば、プロセッサ１０１は、ログデータＬｏｇとクラスタラベルＬａｂｅｌを訓練データに追加する（ステップＳ２１）。すなわち、プロセッサ１０１は、処理対象のログデータＬｏｇをログデータ保持部ＤＢ１に追加すると共に、出力ラベルＯｕｔｐｕｔをクラスタラベルＬａｂｅｌとしてクラスタラベル保持部ＤＢ２に追加する。

　また、プロセッサ１０１は、出力ラベルＯｕｔｐｕｔを出力する（ステップＳ２２）。例えば、プロセッサ１０１は、入出力インタフェース１０５を介して表示部１０８に出力ラベルＯｕｔｐｕｔを表示したり、通信インタフェース１０４を介して外部のデータ処理装置へ出力ラベルＯｕｔｐｕｔを送信したりする。

　その後、プロセッサ１０１は、入出力インタフェース１０５を介して入力部１０７から、あるいは、通信インタフェース１０４を介して外部のデータ処理装置から、ログデータの解析の終了が指示されたか否か判定する（ステップＳ２３）。未だ終了が指示されていないと判定した場合には、プロセッサ１０１は、上記ステップＳ１１の処理から繰り返す。また、終了が指示されていると判定した場合には、プロセッサ１０１は、このフローチャートに示す処理を終了する。

　また、上記ステップＳ２０において、出力ラベルＯｕｔｐｕｔが正解ではないと判定したならば、プロセッサ１０１は、埋め込み訓練部１５としての動作を実行して、訓練データによる再訓練を行う（ステップＳ２４）。すなわち、プロセッサ１０１は、上記ステップＳ１０での初期訓練後のログデータの解析により、ログデータＬｏｇとクラスタラベルＬａｂｅｌが追加された訓練データにより、ログベクトル集合を更新する。

　ステップＳ１０での初期訓練及びステップＳ１４での再訓練においては、図７に示すように、マージンを設定した距離学習による訓練を行う。

　すなわち、プロセッサ１０１は、ログデータ保持部ＤＢ１から訓練用のログデータを読み出す（ステップＳ３１）。そして、プロセッサ１０１は、上記ステップＳ１３で説明したようにログデータをトークンに分割し（ステップＳ３２）、上記ステップＳ１４で説明したようにログデータのベクトル表現を計算する（ステップＳ３３）。

　プロセッサ１０１は、このログデータのベクトル表現Ｅｍｂｅｄｄｉｎｇ_Logと、クラスタラベル保持部ＤＢ２に保持されているクラスタラベルの集合Ｌａｂｅｌｓとから、
　　　Ｌｏｇｉｔ_Log,Cluster ← ｍａｒｇｉｎｃｏｓ（Ｅｍｂｅｄｄｉｎｇ_Log，Ｌａｂｅｌｓ）
の擬似コードで表されるように、マージン付きロジットＬｏｇｉｔ_Log,Clusterを計算する（ステップＳ３４）。

　そして、プロセッサ１０１は、
　　　Ｌｏｓｓ ← Ｃｒｏｓｓｅｎｔｒｏｐｙ（Ｌｏｇｉｔ_Log,Cluster，Ｌａｂｅｌｓ)
の擬似コードで表されるように、クラスタラベル保持部ＤＢ２に保持されている正解クラスタラベルＬａｂｅｌｓとの損失関数Ｌｏｓｓを計算する（ステップＳ３５）。このように、損失関数Ｌｏｓｓは、マージン付きロジットＬｏｇｉｔに基づくマージン付き損失関数である。

　ここで、マージン付き損失関数について説明する。　
　マージン付き損失関数は、例えば、Wang, H., Wang, Y., Zhou, Z., Ji, X., Li, Z., Gong, D., Zhou, J., & Liu, W. (2018), "CosFace: Large Margin Cosine Loss for Deep Face Recognition," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 5265-5274.（以下、参考文献２と記す。）、Deng, Jiankang et al., "ArcFace: Additive Angular Margin Loss for Deep Face Recognition," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 4685-4694.（以下、参考文献３と記す。）、等に提案されている。参考文献２及び３は、顔認識のための深層畳み込みニューラルネットワークを用いた機械学習における損失関数の設計を開示している。

　図１０は、８つのクラスタの関係の一例を示す模式図である。この図は、２次元特徴量を角度空間に写像した図であり、点はサンプルを示し、直線は各クラスタの中心方向を示す。なお、図では、サンプルの点が密接し、異なる太さの線となっているように見えている。特徴の正規化に基づいて、全ての特徴量は固定の半径で円弧空間に押し出されている。Ｓｏｆｔｍａｘ等の一般的な損失関数は、同図に示すように、クラスタの境界が曖昧となってしまう。

　参考文献２及び３は、マージンを設定し、クラスタ間をより遠ざけることを提案している。図１１は、参考文献３によって提案される、角度マージンの一例を示す模式図である。同図において、Ｗ₁，Ｗ₂は代表ベクトルを示し、丸印はサンプルデータのベクトル表現を示している。クラスタ１内のサンプルデータｉのベクトルは、クラスタ２の代表ベクトルＷ₂よりもクラスタ１の代表ベクトルＷ₁との類似度が高い。すなわち、
　　　ｃｏｓ（θ_1,i）＞ｃｏｓ（θ_2,i）
である。この制約をより強くするために、以下の条件
　　　ｃｏｓ（θ_1,i）－ｍ＞ｃｏｓ（θ_2,i）
を課す。ｍが増加するにつれて、クラスタ間のマージンが増幅される。

　具体的には、参考文献２では、次式に示すように、マージンｍを追加して損失関数Ｌ_lmcを計算している。

　また、参考文献３では、次式に示すように、マージンｍを追加して損失関数Ｌ_lmcを計算している。

　図１２は、角度マージンを組み込んだ場合の８つのクラスタの関係の一例を示す模式図である。同図に示すように、角度マージンが組み込まれることで、最も近いクラスタ間にギャップが生じ、クラスタ間の距離が広がる。

　プロセッサ１０１は、例えば参考文献２の数５のようなマージンｍを考慮したロジットＬｏｇｉｔを算出し、これを用いることでマージン付き損失関数Ｌｏｓｓを計算することができる。

　次に、プロセッサ１０１は、損失関数Ｌｏｓｓから、ログベクトル集合保持部ＤＢ４のトークン埋め込み集合｛Ｅｍｂｅｄｄｉｎｇ_Token｝及びクラスタの代表ベクトル集合｛Ｖｅｃｔｏｒ_Cluster｝を更新する（ステップＳ３６）。

　その後、ロジットＬｏｇｉｔ_Log,Clusterが最大のクラスタが、その正解クラスタラベルＬａｂｅｌと等しいか否か判定する（ステップＳ３７）。すなわち、プロセッサ１０１は、全ログデータでロジットが最大であるクラスタが正解クラスタラベルと等しいか確認する。この確認処理は、以下の擬似コードで表される。

　ここで、ロジットＬｏｇｉｔ_Log,Clusterが最大のクラスタが正解クラスタラベルＬａｂｅｌと等しくないと判定した場合、プロセッサ１０１は、上記ステップＳ３１の処理から繰り返す。

　これに対して、ロジットＬｏｇｉｔ_Log,Clusterが最大のクラスタが正解クラスタラベルＬａｂｅｌと等しと判定した場合には、プロセッサ１０１は、ログベクトル集合保持部ＤＢ４の閾値Ｔｈｒｅｓｈｏｌｄを設定する（ステップＳ３８）。すなわち、プロセッサ１０１は、全訓練データを正しく分類できる最小の閾値をログベクトル集合保持部ＤＢ４に設定する。この設定処理は、以下の擬似コードで表される。

　そして、プロセッサ１０１は、この初期訓練または再訓練を終了する。

　このように、上記ステップＳ２０において出力ラベルＯｕｔｐｕｔが正解ではないと判定した場合には、上記ステップＳ２４において、上記ステップＳ１０での初期訓練後に得られた正解のログデータ及びクラスタラベルを追加して、再訓練を行う。すなわち、距離学習による増分的な訓練を行うことができる。

　なお、以上のログデータ解析処理は、図１３乃至図１５のアルゴリズムのように表すことができる。ここで、図１３は全体のアルゴリズムの一例、図１４はログを分類のアルゴリズムの一例、図１５は訓練のアルゴリズムの一例、をそれぞれ示している。

　以上に説明した一実施形態に係るログデータ解析装置１は、ログデータを部分単語に分割する分割部としての語彙集合算出部１１と、部分単語を使ってログデータを表現するベクトルであるＥｍｂｅｄｄｉｎｇ_Logを算出するベクトル算出部及びクラスタ間により遠ざけるためのマージンを入れた各クラスタとの類似度に基づいて、ベクトルをクラスタリングするクラスタリング部としてのログベクトル算出部１２と、を備える。

　このように、ログデータをログデータ内の文字列を利用して部分単語に分割することで、スペース区切りに依存しない、すなわち、ログデータの構文に依存しない特徴抽出が可能となる。また、この部分単語を使ってログデータをベクトルとして表現し、クラスタをより遠ざけるためのマージンを入れた類似度を使ってベクトルをクラスタリングすることで、クラスタ間の距離をより遠ざけることができるので、ログデータ中の文字列がテンプレートを表すものか、パラメータ（値）を表すものかの区別が難しいログデータであっても、クラスタリングすることが可能となる。すなわち、一実施形態に係るログデータ解析装置１によれば、構文の変化したログデータ、様々な構文を持つログデータ、テンプレートとパラメータの区別が難しい文字列のログデータ、構文の構造を表す区切り文字列を特定の文字列としないログデータ、を高精度に解析できるようになる。よって、ネットワーク装置の追加やネットワークサービスの運用シナリオの変化によって、ログデータの生成規則や分析項目の変更、異なる種別のログデータが混在している場合にも、高精度なログデータ解析が可能となる。

　また、ログベクトル算出部１２は、ログデータ保持部ＤＢ１及びクラスタラベル保持部ＤＢ２に蓄積された訓練データの距離学習によって訓練された埋め込み空間でのベクトルを算出し、この算出したベクトルと同じく訓練された各クラスタの代表ベクトルＶｅｃｔｏｒ_Clusterとの間の距離と、同じく訓練された距離の閾値Ｔｈｒｅｓｈｏｌｄとにより、類似度を判定する。

　このように、距離学習によって訓練した代表ベクトルと閾値とを使用することで、クラスタリングを容易に行うことができる。

　また、一実施形態に係るログデータ解析装置１は、クラスタリングの結果である出力ラベルＯｕｔｐｕｔを、ログデータとクラスタリングされたクラスタとの類似度に基づいて評価する評価部としてのログ－クラスタ類似度算出部１３及びクラスタリング精度評価部１４と、クラスタリングの結果が正解であると評価した場合に、ログデータＬｏｇとクラスタリングされたクラスタを示すクラスタラベルＬａｂｅｌとを、訓練データに追加する追加部としてのクラスタリング精度評価部１４と、をさらに備える。

　よって、訓練データを追加することができるので、距離学習による増分的な訓練を行えるようになる。

　すなわち、一実施形態に係るログデータ解析装置１は、クラスタリングの結果が正解ではないと評価した場合に、訓練データを使って、埋め込み空間、各クラスタの代表ベクトル及び閾値を再訓練する再訓練部としての埋め込み訓練部１５をさらに備える。

　よって、再訓練を行った結果を用いて、再度、ベクトルの算出から繰り返してログデータのクラスタリングを行うことで、正しいクラスタリング結果が得られるようになる。

　また、一実施形態に係るログデータ解析装置１は、ログデータから分割された部分単語を蓄積する蓄積部としての語彙保持部ＤＢ３をさらに備え、再訓練を行う際には、ログベクトル算出部１２により、この蓄積された部分単語を使って訓練データ中のログデータを表現するベクトルを算出し、そのベクトルを用いて埋め込み空間、各クラスタの代表ベクトル及び閾値を再訓練する。

　よって、既に部分単語を分割したログデータについて再度部分単語に分割する処理を行う必要が無いので、処理の高速化が図れる。

　［評価例］
　図１６は、従来のログデータ解析手法を用いたログ解析装置の解析結果と一実施形態に係るログデータ解析装置１の解析結果とを示す模式図である。

　ここでは、２０００件のＬｏｇｈｕｂのＨｅａｌｔｈＡｐｐログデータ（アノテーション付き）により評価した。ベースライン手法は、ログデータの文字列のスペース区切りによる分割と、マージン無し損失による訓練である。また、評価方法は、１００件の初期訓練データ、１９００件の初期訓練データ以外の分類精度であり、分類精度は類似度Ａｃｃｕｒａｃｙで評価した。

　図１６に示すように、語彙数１００及び１００００で、本実施形態に係るログデータ解析装置１の分類精度が向上することが検証できた。

　［他の実施形態］
　前記一実施形態では、出力ラベルＯｕｔｐｕｔが正解ではない場合にのみ再訓練を行うものとしているが、正解の場合にも再訓練を行っても良いことは勿論である。図１７は、この場合のログデータ解析装置１の処理動作の一例を示すフローチャートである。すなわち、上記ステップＳ２０において出力ラベルＯｕｔｐｕｔが正解であると判定した場合には、プロセッサ１０１は、上記ステップＳ２１の処理に続けて、埋め込み訓練部１５としての動作を実行して、訓練データによる再訓練を行う（ステップＳ２５）。このステップＳ２５の再訓練処理は、上記ステップＳ２４のそれと同じである。そしてその後、プロセッサ１０１は、上記ステップＳ２２の処理へと進む。なお、この場合、ステップＳ２５とステップＳ２２の順序は逆であっても良い。

　このように、ログデータ解析装置１は、ログデータとクラスタラベルとが追加された訓練データを使って、埋め込み空間、各クラスタの代表ベクトル及び閾値を再訓練する再訓練部としての埋め込み訓練部１５をさらに備え、距離学習による増分的な訓練を行うことで、ログデータ解析の精度を向上させることが可能になる。

　また、処理対象のログデータＬｏｇを一つずつ入力するものとしたが、処理対象のログデータＬｏｇを一時記憶部１０３５に蓄積していき、それらを一つずつ読み出して解析を行うようにしても構わない。

　また、ログデータ解析装置１が各保持部を備えるものとしたが、その内の１つ以上をネットワークを通じてアクセス可能なフィルサーバに構築しても構わない。

　また、処理対象のログデータＬｏｇを保持するログデータ保持部ＤＢ５は、訓練データであるログデータを保持するログデータ保持部ＤＢ１の一部であっても良い。

　また、フローチャートに示したステップＳ２１の処理とステップＳ２２の処理とは、処理の順番を入れ替えても良いし、並行して実行しても良い。これに限らず、図６及び図７に示したフローチャートの各処理は、当該処理がそれ以前の処理の結果を利用しない限りは、順番を入れ替えたり、並行して処理したりするようにしても構わない。

　また、各実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　要するに、この発明は上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組合せて実施しても良く、その場合組合せた効果が得られる。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。

　　１…ログデータ解析装置
　１１…語彙集合算出部
　１２…ログベクトル算出部
　１３…クラスタ類似度算出部
　１４…クラスタリング精度評価部
　１５…埋め込み訓練部
　１０１…プロセッサ
　１０２…プログラムメモリ
　１０３…データメモリ
　１０３１…ログデータ記憶部
　１０３２…クラスタラベル記憶部
　１０３３…語彙記憶部
　１０３４…ログベクトル集合記憶部
　１０３５…一時記憶部
　１０４…通信インタフェース
　１０５…入出力インタフェース
　１０６…バス
　１０７…入力部
　１０８…表示部
　ＤＢ１，ＤＢ５…ログデータ保持部
　ＤＢ２…クラスタラベル保持部
　ＤＢ３…語彙保持部
　ＤＢ４…ログベクトル集合保持部

Claims

　ログデータを部分単語に分割する分割部と、
　前記部分単語を使って前記ログデータを表現するベクトルを算出するベクトル算出部と、
　クラスタ間により遠ざけるためのマージンを入れた各クラスタとの類似度に基づいて、前記ベクトルをクラスタリングするクラスタリング部と、
　を具備する、ログデータ解析装置。
　前記ベクトル算出部は、訓練データの距離学習によって訓練された埋め込み空間でのベクトルを算出し、
　前記クラスタリング部は、前記訓練データの前記距離学習によって訓練された前記各クラスタの代表ベクトルと前記ベクトルとの間の距離と、前記訓練データの前記距離学習によって訓練された前記距離の閾値とにより、前記類似度を判定する、請求項１に記載のログデータ解析装置。
　前記クラスタリングの結果を、前記ログデータとクラスタリングされた前記クラスタとの類似度に基づいて評価する評価部と、
　前記クラスタリングの結果が正解であると評価した場合、前記ログデータと前記クラスタリングされた前記クラスタを示すクラスタラベルとを、前記訓練データに追加する追加部と、
　をさらに具備する、請求項２に記載のログデータ解析装置。
　前記ログデータと前記クラスタラベルとが追加された前記訓練データを使って、前記埋め込み空間、前記各クラスタの前記代表ベクトル及び前記閾値を再訓練する再訓練部をさらに具備する、請求項３に記載のログデータ解析装置。
　前記クラスタリングの結果が正解ではないと評価した場合、前記訓練データを使って、前記埋め込み空間、前記各クラスタの前記代表ベクトル及び前記閾値を再訓練する再訓練部をさらに具備する、請求項３に記載のログデータ解析装置。
　前記ログデータから分割された部分単語を蓄積する蓄積部をさらに具備し、
　前記再訓練は、前記ベクトル算出部により、前記蓄積部に蓄積された前記部分単語を使って前記訓練データ中のログデータを表現するベクトルを算出する処理を含む、請求項４または５に記載のログデータ解析装置。
　プロセッサを有するログデータ解析装置におけるログデータ解析方法であって、
　前記プロセッサにより、ログデータを部分単語に分割し、
　前記プロセッサにより、前記部分単語を使って前記ログデータを表現するベクトルを算出し、
　前記プロセッサにより、クラスタ間により遠ざけるためのマージンを入れた各クラスタとの類似度に基づいて、前記ベクトルをクラスタリングする、
　ログデータ解析方法。
　請求項１乃至６の何れかに記載のログデータ解析装置の前記各部としてプロセッサを機能させるログデータ解析処理プログラム。