WO2018110327A1

WO2018110327A1 - 異常識別システム、方法及び記録媒体

Info

Publication number: WO2018110327A1
Application number: PCT/JP2017/043325
Authority: WO
Inventors: 育大網代
Original assignee: 日本電気株式会社
Priority date: 2016-12-12
Filing date: 2017-12-01
Publication date: 2018-06-21
Also published as: JPWO2018110327A1; US20190294523A1; JP6988827B2

Abstract

ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる異常識別システム、方法及び記録媒体を提供する。異常識別システムは、所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出するログ抽出部と、ログ抽出部により抽出された複数の部分ログからモデルを生成するモデル化部と、モデル化部により生成されたモデルとモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部と、対応関係取得部により取得された対応関係に基づき、複数の部分ログを、モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、２つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定し、少数派の部分ログ群に基づき、複数の部分ログのうち、モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部とを有する。

Description

異常識別システム、方法及び記録媒体

　本発明は、システムが出力するデータに含まれる異常を識別する異常識別システム、方法及び記録媒体に関する。

　システム等に異常が発生した際には、生成されているログ等を分析、解析することにより、異常の原因を特定することが行われる。特許文献１には、設備等に装着されたセンサから出力される多次元時系列センサ信号を用いて設備等の異常を検知する方法が記載されている。

　特許文献１に記載された方法は、多次元時系列センサ信号のうち予め指定された区間のセンサ信号から一部の区間のセンサ信号を除外して学習データを作成し、作成した学習データから異常判定しきい値を算出する。異常の検知に際しては、学習データを用いて正常モデルを作成する。また、多次元時系列センサ信号から特徴ベクトルを観測ベクトルとして抽出する。さらに、抽出した観測ベクトルと作成した正常モデルとを用いて観測ベクトルの異常測度を算出する。こうして算出した観測ベクトルの異常測度と異常判定しきい値とを比較して設備等の異常を検知する。

特開２０１５－１１４９６７号公報

　しかしながら、特許文献１に記載された方法は、観測ベクトルの異常測度を算出しているが、この異常の度合いを表す異常測度を定義する必要があるため、ユーザの負担が大きいという問題がある。

　また、特許文献１に記載された方法は、学習データを作成する学習期間中の各区間について、当該区間のセンサ信号を除いた残りのセンサ信号から学習データを作成するとともに、当該区間のセンサ信号から抽出した特徴ベクトルの異常測度を算出する必要がある。このため、特許文献１に記載された方法では、計算量が大きいという問題もある。

　本発明は、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる異常識別システム、方法及び記録媒体を提供することを目的とする。

　本発明の一観点によれば、所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出するログ抽出部と、前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部とを有することを特徴とする異常識別システムが提供される。

　本発明の他の観点によれば、所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを特徴とする異常識別方法が提供される。

　本発明のさらに他の観点によれば、コンピュータに、所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを実行させることを特徴とするプログラムが記録された記録媒体が提供される。

　本発明によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。

本発明の一実施形態による異常識別システム及び対象システムを示す概略図である。本発明の一実施形態による異常識別システムの機能構成を示すブロック図である。本発明の一実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。本発明の一実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。ログ中の時間情報に基づき抽出された部分ログの例を示す図である。部分ログについて生成されたモデルの例を示す図である。マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の他の例を示す図である。本発明の他の実施形態による異常識別システムの機能構成を示すブロック図である。

　［一実施形態］
　本発明の一実施形態による異常識別システム及び異常識別方法について図１乃至図８を用いて説明する。

　まず、本実施形態による異常識別システム及び異常を識別すべき対象である対象システムを含む概略構成について図１を用いて説明する。図１は、本実施形態による異常識別システム及び対象システムを示す概略図である。

　図１に示すように、本実施形態による異常識別システム１には、異常識別システム１による処理の対象となるログを生成して出力する一又は複数の対象システム２がネットワーク３を介して通信可能に接続されている。ネットワーク３は、例えば、ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）であるが、その種別が限定されるものではない。また、ネットワーク３は、有線のネットワークであってもよいし、無線のネットワークであってもよい。

　対象システム２は、特定のシステムに限定されるものではないが、例えばＩＴ（Information　Technology）システムである。ＩＴシステムは、サーバ、クライアント端末、ネットワーク機器その他の情報機器等の機器や、機器上で動作するシステム・ソフトウェア、アプリケーション・ソフトウェア等のソフトウェアにより構成される。対象システム２は、稼動中に発生したイベントの内容、稼働中の状況等を記録したログを生成する。対象システム２により生成されたログは、本実施形態による異常識別システム１に入力されて処理される。なお、本実施形態による異常識別システム１は、ログを生成するシステム、機器、装置であれば、あらゆるものを対象とすることができ、監視対象が生成するログを処理することができる。

　本実施形態による異常識別システム１には、対象システム２において生成されたログがネットワーク３を介して入力されるようになっている。対象システム２から異常識別システム１にログを入力する態様は、特に限定されるものではなく、対象システム２の構成等に応じて適宜選択することができる。

　例えば、対象システム２における通知エージェントが、対象システム２において生成されたログを異常識別システム１に送信することにより、異常識別システム１にログを入力することができる。ログを送信するプロトコルは、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、プロトコルとして、ｓｙｓｌｏｇプロトコル、ＦＴＰ（File　Transfer　Protocol）、ＦＴＰＳ（File　Transfer　Protocol　over　TLS（Transport　Layer　Security）/SSL（Secure　Sockets　Layer））、ＳＦＴＰ（SSH（Secure　Shell）　File　Transfer　Protocol）を用いることができる。また、対象システム２が、生成したログを異常識別システム１とファイル共有で共有することにより、異常識別システム１にログを入力することができる。ログを共有するファイル共有は、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、ファイル共有として、ＳＭＢ（Server　Message　Block）又はこれを拡張したＣＩＦＳ（Common　Internet　File　System）によるファイル共有を用いることができる。

　なお、本実施形態による異常識別システム１は、必ずしも対象システム２とネットワーク３を介して通信可能に接続されている必要はない。例えば、異常識別システム１は、対象システム２からログを収集するログ収集システム（不図示）とネットワーク３を介して通信可能に接続されていてもよい。この場合、対象システム２で生成されたログは、一旦、ログ収集システムにより収集され、ログ収集システムからネットワーク３を介して異常識別システム１に入力される。また、本実施形態による異常識別システム１は、対象システム２で生成されたログを記録した記録媒体からログを取得することもできる。この場合、対象システム２は、ネットワークを介して異常識別システム１に接続されている必要はない。

　以下、本実施形態による異常識別システム１の具体的構成についてさらに図２及び図３を用いて説明する。図２は、本実施形態による異常識別システムの機能構成を示すブロック図である。図３は、本実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。

　図２に示すように、本実施形態による異常識別システム１は、対象システム２における異常を識別するための各種の処理を実行する処理部１０を有している。また、異常識別システム１は、対象システム２で生成されたログを格納する記憶部２０を有している。さらに、異常識別システム１は、処理結果が出力されて表示される表示部３０を有している。

　処理部１０は、ログ取得部１０２と、ログ分割要求取得部１０４と、ログ抽出部１０６と、モデル化部１０８と、モデルマージ部１１０と、決定部１１２と、出力部１１４とを有している。

　記憶部２０は、対象システム２で生成されたログを格納するログ格納部２０２を有している。ログ格納部２０２に格納されるログは、後述するようにログ抽出部１０６により抽出される第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３を含んでいる。なお、本実施形態では、部分ログの数が３である場合を例に説明するが、部分ログの数はこれに限定されるものではない。部分ログの数は、３以上の複数であればよい。記憶部２０は、例えば記憶媒体により構成される。記憶部２０は、同一の記憶媒体により構成されてもよいし、複数の記憶媒体により構成されてもよい。

　表示部３０は、処理部１０により出力される処理の結果を表示するものである。表示部３０は、ディスプレイ、プリンタ等の出力装置により構成される。

　本実施形態による異常識別システム１による処理の対象となるログは、対象システム２又はこれに含まれる構成要素により定期又は不定期に生成されて出力されたものである。ログは、対象システム２又はこれに含まれる構成要素の稼働中に発生したイベントの内容、稼働中の状況等が記録されたものである。例えば、ログは、ある時刻に発生したイベント、ある時刻における状況を示すメッセージになっている。また、ログは、イベントの内容等のほか、生成された時刻を示すタイムスタンプ、そのログを生成した構成要素のＩＰ（Internet　Protocol）アドレス、そのログを生成した構成要素の名称等の他の情報をさらに含むことができる。また、ログは、例えば、一行又は複数行のテキストデータであり、情報の単位として１以上のフィールドを含むことができる。複数のフィールドは、セパレータ又はデリミタにより区切られていてもよいし、区切られずに連続するものであってもよい。連続するフィールドは、単語、形態素、文字種等により分離することができる。

　本実施形態において、部分ログは、異常識別のための処理の対象となる対象ログの部分集合である。部分ログは、対象ログのうち、例えばログ中に含まれる時刻情報、ログ中に含まれるＩＰアドレス、ログが採取された採取時刻等に関する特定の条件に合致するログデータにより構成される。

　ログ格納部２０２は、異常識別システム１に入力される対象ログを格納するものである。ログ格納部２０２に格納された対象ログは、後述するように、ログ抽出部１０６により、例えば第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３に分割されて抽出されることになる。ログ格納部２０２には、定期若しくは不定期に又はリアルタイムに対象ログが入力され、ログ格納部２０２に格納される対象ログが追加更新される。

　本実施形態による異常識別システム１は、対象ログを処理することにより対象システム２における異常を識別するものである。以下、処理部１０に含まれる各部について詳述する。

　ログ取得部１０２は、異常識別システム１に入力される対象ログを取得して記憶部２０のログ格納部２０２に格納するものである。異常識別システム１には、対象システム２で生成されたログである対象ログが、定期若しくは不定期に又はリアルタイムに入力される。ログ取得部１０２は、こうして入力される対象ログをログ格納部２０２に格納する。

　ログ分割要求取得部１０４は、ログ格納部２０２に格納された対象ログの分割の実行を要求するログ分割要求を外部から取得してログ抽出部１０６に入力するものである。対象ログの分割は、対象ログから部分ログを抽出するための処理である。ログ分割要求は、例えば、キーボード、タッチパネル等の入力装置により外部から異常識別システム１に入力することができる。また、ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログ中に含まれるＩＰアドレス、ログが採取された採取時刻等に関する条件を含んでいる。また、ログ分割要求は、分割を行って部分ログを抽出すべき対象ログの時間的範囲等の範囲を指定することができる。

　ログ抽出部１０６は、ログ分割要求取得部１０４から入力されるログ分割要求に従って、ログ格納部２０２に格納された対象ログを分割して対象ログから部分ログを抽出するものである。ログ抽出部１０６は、所定の条件である分割要求の分割条件に従って対象ログが分割された分割部分を部分ログとして抽出する。また、分割要求により分割を行って部分ログを抽出すべき対象ログの範囲が指定されている場合には、その指定された範囲で部分ログを抽出する。例えば、ログ抽出部１０６は、分割要求の分割条件に従って対象ログを３つに分割し、３つの分割部分を第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３として抽出する。なお、ログ抽出部１０６が抽出する部分ログ数は、３つに限定されるものではなく、分割条件に従った３つ以上の複数であればよい。

　モデル化部１０８は、ログ抽出部１０６により抽出された複数の部分ログの各部分ログに対してモデル化を行うものである。モデル化部１０８は、複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。例えば、モデル化部１０８は、ログ抽出部１０６により抽出された第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３についてそれぞれモデル化を行う。これにより、モデル化部１０８は、第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３についてそれぞれ第１のモデルＭ１、第２のモデルＭ２及び第３のモデルＭ３を生成する。なお、モデル化部１０８により部分ログについて生成されるモデルは、通常、複数のモデルを含むモデル群である。

　モデル化部１０８による部分ログのモデル化の手法としては、例えば、国際公開第２０１３／１３６４１８号、Xia　Ning,　Geoff　Jiang,　Haifeng　Chen　and　Kenji　Yoshihira,　HLAer:　a　System　for　Heterogeneous　Log　Analysis,　2014　SDM　Workshop　on　Heterogeneous　Learning,　April,　2014に記載された手法を用いることができる。なお、モデル化の手法は、特に限定されるものではなく、種々の手法を用いることができる。例えば、モデルは、ログ間の共起関係や順序関係に関するものであってもよい。また、対象ログを構成するログデータは数値時系列データ等の数値データであってもよく、この場合、モデルは項目間の相関関係等に関するものであってもよい。

　モデルマージ部１１０は、モデル化部１０８により複数の部分ログの各部分ログについて生成された複数のモデルをマージするものである。さらに、モデルマージ部１１０は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部として機能する。モデルマージ部１１０は、複数のモデルのマージにおいて、複数の部分ログで生成された同一内容の複数のモデルを単一のモデルに統合する。対応関係取得部として機能するモデルマージ部１１０は、例えば、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成することによりその対応関係を取得する。

　決定部１１２は、モデルマージ部１１０により取得されたマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定するものである。複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログは、後述するように、異常を含む可能性がある部分ログである。

　例えば、決定部１１２は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部１１２は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、２つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。なお、少数派の部分ログ群には、複数の部分ログが含まれる場合もあれば、１つのみの部分ログが含まれる場合もある。２つの部分ログ群のうち、より多い部分ログを含む部分ログ群、すなわち少数派の部分ログ群でない多数派の部分ログ群には、２つ以上の複数の部分ログが含まれる。

　さらに、決定部１１２は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。ペナルティは、適当な定数、具体的には例えば１とすることができる。そして、決定部１１２は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。決定部１１２は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。決定部１１２は、こうして決定した特異性の最も高い部分ログを出力部１１４に通知する。

　なお、ペナルティを付与する際、決定部１１２は、部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。これにより、部分ログの総数に対する比率のより低い少数派の部分ログ群に含まれる部分ログに対して、より高いペナルティを付与することができる。例えば部分ログの総数をＮ、少数派の部分ログ数をＭとして、Ｍ／Ｎの対数を用いてペナルティを付与することができる。すなわち、ペナルティは、例えば、自然対数を用いて、－ｌｏｇ（Ｍ／Ｎ）で計算することができる。

　また、決定部１１２は特異性の最も高い部分ログの決定とともに、計算されたペナルティの合計の高い順に複数の部分ログをランキングし、そのランキング結果を出力部１１４に通知することもできる。なお、決定部１１２は、計算されたペナルティの合計に基づき複数の部分ログをランキングすればよく、計算されたペナルティの合計の低い順に複数の部分ログをランキングすることもできる。

　対象システム２で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部１１２により決定された特異性の最も高い部分ログは、異常を含む可能性があるとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部１１２により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、異常を含む可能性のある部分ログを決定することができる。こうして、本実施形態による異常識別システム１は、対象システム２における異常を識別して特定することが可能となる。

　なお、決定部１１２は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。この場合、決定部１１２は、複数の部分ログのうち、各モデルについて上述のように決定した少数派の部分ログ群でない多数派の部分ログ群に含まれる各部分ログに所定の値である報酬を付与する。そして、決定部１１２は、複数の部分ログの各部分ログについて全モデルに関する報酬を合計する。決定部１１２は、複数の部分ログのうち、全モデルに関する報酬の合計が最も低い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。

　なお、報酬を付与する際、決定部１１２は、部分ログの総数に対する多数派の部分ログ群に含まれる部分ログの数の比率に応じた報酬を付与することができる。これにより、部分ログの総数に対する比率のより高い多数派の部分ログ群に含まれる部分ログに対して、より高い報酬を付与することができる。

　また、決定部１１２は特異性の最も高い部分ログの決定とともに、計算された報酬の合計の低い順に複数の部分ログをランキングし、そのランキング結果を出力部１１４に通知することもできる。なお、決定部１１２は、計算された報酬の合計に基づき複数の部分ログをランキングすればよく、計算された報酬の合計の高い順に複数の部分ログをランキングすることもできる。

　上述のように、対象システム２で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部１１２により決定された、マージされた複数のモデルの成立の有無に関する少数派の部分ログは、異常を含んでいる可能性が高いとみなすことができる。また、報酬の合計の低い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部１１２により得られた特異性の最も高い部分ログ又は報酬の合計のランキング結果に基づき、対象システム２における異常を識別して特定することが可能となる。

　出力部１１４は、決定部１１２により通知された、異常を含む可能性のある部分ログである特異性の最も高い部分ログを、表示部３０に出力して表示部３０に表示させるものである。また、出力部１１４は、モデルマージ部１１０により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部３０に出力して表示部３０に表示させることもできる。

　上述した異常識別システム１は、例えばコンピュータ装置により構成される。異常識別システム１のハードウェア構成の一例について図３を用いて説明する。なお、異常識別システム１は、単一の装置により構成されていてもよいし、有線又は無線で接続された２つ以上の物理的に分離された装置により構成されていてもよい。

　異常識別システム１は、図３に示すように、ＣＰＵ（Central　Processing　Unit）１００２と、ＲＯＭ（Read　Only　Memory）１００４と、ＲＡＭ（Random　Access　Memory）１００６と、ＨＤＤ（Hard　Disk　Drive）１００８とを有している。また、異常識別システム１は、通信インターフェース（Ｉ／Ｆ（Interface））１０１０を有している。また、異常識別システム１は、ディスプレイコントローラ１０１２と、ディスプレイ１０１４とを有している。さらに、異常識別システム１は、入力装置１０１６を有している。ＣＰＵ１００２、ＲＯＭ１００４、ＲＡＭ１００６、ＨＤＤ１００８、及び通信Ｉ／Ｆ１０１０、ディスプレイコントローラ１０１２、及び入力装置１０１６は、共通のバスライン１０１８に接続されている。

　ＣＰＵ１００２は、異常識別システム１の全体の動作を制御する。また、ＣＰＵ１００２は、上記処理部１０におけるログ取得部１０２、ログ分割要求取得部１０４、ログ抽出部１０６、モデル化部１０８、モデルマージ部１１０、決定部１１２、及び出力部１１４の各部の機能を実現するプログラムを実行する。ＣＰＵ１００２は、ＨＤＤ１００８等に記憶されたプログラムをＲＡＭ１００６にロードして実行することにより、処理部１０における各部の機能を実現する。

　ＲＯＭ１００４は、ブートプログラム等のプログラムが記憶されている。ＲＡＭ１００６は、ＣＰＵ１００２がプログラムを実行する際のワーキングエリアとして使用される。また、ＨＤＤ１００８には、ＣＰＵ１００２が実行するプログラムが記憶されている。

　また、ＨＤＤ１００８は、上記記憶部２０におけるログ格納部２０２の機能を実現する記憶装置である。なお、ログ格納部２０２の機能を実現する記憶装置は、ＨＤＤ１００８に限定されるものではない。種々の記憶装置をログ格納部２０２の機能を実現するものとして用いることができる。

　通信Ｉ／Ｆ１０１０は、ネットワーク３に接続されている。通信Ｉ／Ｆ１０１０は、ネットワーク３に接続された対象システム２との間のデータの通信を制御する。通信Ｉ／Ｆ１０１０は、ＣＰＵ１００２とともに処理部１０におけるログ取得部１０２の機能を実現する。

　ディスプレイコントローラ１０１２は、表示部３０として機能するディスプレイ１０１４が接続されている。ディスプレイコントローラ１０１２は、ＣＰＵ１００２とともに出力部１１４として機能し、決定部１１２により決定された少数派の部分ログをディスプレイ１０１４に表示させる。また、出力部１１４として機能するディスプレイコントローラ１０１２は、モデルマージ部１１０により作成された各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表をディスプレイ１０１４に表示させる。

　入力装置１０１６は、例えば、キーボード、マウス等である。また、入力装置１０１６は、ディスプレイ１０１４に組み込まれたタッチパネルであってもよい。異常識別システム１のオペレータは、入力装置１０１６を介して、異常識別システム１の設定を行ったり、処理の実行の指示を入力したりすることができる。

　なお、異常識別システム１のハードウェア構成は、上述した構成に限定されるものではなく、種々の構成とすることができる。

　次に、上記本実施形態による異常識別システム１を用いた異常識別方法についてさらに図４乃至図８を用いて説明する。図４は、本実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。図５は、ログ中の時間情報に基づき抽出された部分ログの例を示す図である。図６は、部分ログについて生成されたモデルの例を示す図である。図７及び図８は、それぞれマージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。

　異常識別システム１には、対象システム２で生成されたログが定期若しくは不定期に又はリアルタイムに入力される。ログ取得部１０２は、異常識別システム１に入力されるログをログ格納部２０２に格納する。こうして、ログ格納部２０２に格納されるログが定期若しくは不定期に又はリアルタイムに追加更新されている。

　まず、異常識別システム１には、入力装置１０１６等を介して外部からログ分割要求が入力される。ログ分割要求取得部１０４は、異常識別システム１に入力されたログ分割要求を取得する（ステップＳ１０）。ログ分割要求は、ログ格納部２０２に格納された対象ログから部分ログを抽出するための対象ログの分割の実行を要求するものである。

　ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログが採取された採取時刻等に関する条件を含むことができる。具体的には、ログ分割要求として、対象ログを、ログ中に含まれる時刻情報や採取時刻等に基づき、「９：００から１７：５９まで」、「１８：００から４：４９まで」、及び「５：００から８：５９」までの時間帯で３つに分割することを要求するものが例示される。また、ログ分割要求として、対象ログを、ログ中に含まれるＩＰアドレスに基づき、「１９２．１６８．１０．１から１９２．１６８．１０．９９まで」、「１９２．１６８．１０．１００から１９２．１６８．１０．１９９まで」、「１９２．１６８．１０．２００から１９２．１６８．１０．２５５まで」、及びそれ以外のＩＰアドレスの範囲で４つに対象ログを分割することを要求するものが例示される。

　なお、ログ格納部２０２に長期間にわたるログが格納されている場合等には、ログ分割要求は、上記の分割条件に加えて、分割を行うべき対象ログの時間的範囲を指定することができる。例えば、ログ分割要求は、分割を行うべき対象ログの時間的範囲を、「２０１６年９月１日から３０日まで」のように期間で指定することができる。

　ログ分割要求取得部１０４は、取得したログ分割要求をログ抽出部１０６に入力する。

　次いで、ログ抽出部１０６は、ログ分割要求取得部１０４から入力されたログ分割要求に従って、ログ格納部２０２に格納された対象ログを分割して、対象ログの分割部分を部分ログとして抽出する（ステップＳ１２）。

　図５は、ログ中の時刻情報に基づきログ抽出部１０６により対象ログから抽出された３つの部分ログの例を示している。図５に示すように、抽出された３つの部分ログである第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３は、互いにログ中の時刻情報が異なる範囲内のものとなっている。なお、図５では、ログとしてｓｙｓｌｏｇ等のようなテキストログを例示しているが、ログは性能統計データ等のような数値データであってもよい。

　次いで、モデル化部１０８は、ログ抽出部１０６により抽出された複数の部分ログのうち、モデル化が未実行の部分ログがあるか否かを判定する（ステップＳ１４）。モデル化が未実行の部分モデルがある場合（ステップＳ１４、ＹＥＳ）、モデル化部１０８は、モデル化が未実行の部分モデルに対してモデル化を行う（ステップＳ１６）。

　部分モデルに対するモデル化では、モデル化部１０８は、部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。なお、モデル化部１０８による部分ログのモデル化の手法としては、上述のように、特に限定されるものではなく、種々の手法を用いることができる。

　ステップＳ１６の後、ステップＳ１４に移行して、モデル化が未実行の部分ログがなくなるまでステップＳ１４、Ｓ１６を繰り返す。これにより、ログ抽出部１０６により抽出された複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを作成する。

　図６は、ログ抽出部１０６により抽出された各部分ログに含まれるテキストログのフォーマットをモデル化（学習）した例を示している。図６に示す第１のモデルＭ１、第２のモデルＭ２及び第３のモデルＭ３は、それぞれ図５に示す第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３についてモデル化により生成されたモデルである。図６において、＜＞で囲まれたフィールドは、フォーマットにおける変数部分に対応している。＜ＴｉｍｅＳｔａｍｐ＞は時刻、＜ＩＰ　ａｄｄｒｅｓｓ＞はＩＰアドレスを意味している。モデル化されたログにおいては、変数部分が具体的な時刻やＩＰアドレスになっている。

　モデル化が未実行の部分モデルがなくなると（ステップＳ１４、ＮＯ）、モデルマージ部１１０は、モデル化部１０８により複数の部分ログの各部分ログについて生成された複数のモデルをマージする（ステップＳ１８）。また、モデルマージ部１１０は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する。例えば、モデルマージ部１１０は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成してその対応関係を取得する。

　図７は、モデルマージ部１１０によりマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表の例を示している。図７に示す対応表Ｔ１には、図６に示す第１のモデルＭ１、第２のモデルＭ２及び第３のモデルＭ３にそれぞれ含まれる複数のモデルの各モデルがマージされている。また、図７に示す対応表Ｔ１には、マージされた各モデルが、図５に示す第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３のうちのいずれの部分ログで成立するかが示されている。すなわち、対応表Ｔ１には、マージされた各モデルの生成に、図５に示す第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３のうちのいずれの部分ログが寄与したかを示す対応関係が示されている。

　図７において、部分ログでの成立の有無を示す列は、８個のモデルのそれぞれが第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３のうち、いずれの部分ログで成立するかが示されている。８個のモデルのそれぞれの生成に、第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３のうちのいずれの部分ログが寄与したかが示されている。対応表Ｔ１中の「〇」は、当該モデルが当該部分ログで成立する、すなわち、当該モデルの生成に当該部分ログが寄与したことを示している。一方、対応表Ｔ１中の「×」は、当該モデルが当該部分ログで成立しない、すなわち、当該モデルの生成に当該部分ログが寄与しなかったことを示している。例えば、モデルＩＤが１のモデルは、第１の部分ログＰＬ１及び第３の部分ログＰＬ３で成立するのに対して、第２の部分ログＰＬ２では成立しないことが示されている。

　次いで、決定部１１２は、モデルマージ部１１０により取得された上記の対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する（ステップＳ２０）。

　具体的には、決定部１１２は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部１１２は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、２つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。

　次いで、決定部１１２は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。次いで、決定部１１２は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。

　ペナルティの合計後、決定部１１２は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定する。

　例えば、図７に示す例において、モデルＩＤが１のモデルは、上述のように第１の部分ログＰＬ１及び第３の部分ログＰＬ３で成立するのに対して、第２の部分ログＰＬ２では成立しない。すなわち、モデルＩＤが１のモデルの生成には、第１の部分ログＰＬ１及び第３の部分ログＰＬ３が寄与しているのに対して、第２の部分ログＰＬ２は寄与していない。このため、モデルＩＤが１のモデルについて、第１の部分ログＰＬ１、第２の部分ログＰＬ２及び第３の部分ログＰＬ３のうち、少数派の部分ログ群に含まれるのは、第２の部分ログＰＬ２である。したがって、決定部１１２は、モデルＩＤが１のモデルについて、第２の部分ログＰＬ２にペナルティを付与する。ペナルティは、適当な定数、具体的には例えば１とする。

　図７に示す例において、上記のようにして付与されたペナルティを各部分ログについて合計すると、第１の部分ログＰＬ１のペナルティの合計は１、第２の部分ログＰＬ２のペナルティの合計は４、第３の部分ログＰＬ３のペナルティの合計は３と算出される。

　なお、決定部１１２は、上述のように部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。例えば部分ログの総数をＮ、少数派の部分ログ数をＭとして、ペナルティは、例えば、自然対数を用いて、－ｌｏｇ（Ｍ／Ｎ）で計算することができる。図７に示す例の場合、例えば、モデルＩＤが１のモデルに関する第２の部分ログＰＬ２のペナルティは、－ｌｏｇ（１／３）＝１．１０となる。仮に、部分ログの総数が１０あり、少数派の部分ログ数が２であれば、その少数派の部分ログに付与されるペナルティは、－ｌｏｇ（２／１０）＝１．６１となる。

　また、あるモデルの生成に複数の部分ログのうちのすべてが寄与する又は寄与しない場合には、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。また、複数の部分ログが偶数であり、あるモデルの生成に寄与する部分ログの数と寄与しない部分ログの数とが同数である場合にも、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。

　また、決定部１１２は、少数派の部分ログの決定とともに、計算されたペナルティの合計の高い順に部分ログをランキングすることもできる。

　なお、上述のように、決定部１１２は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。

　決定部１１２は、上記のようにして決定した、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを出力部１１４に通知する。この通知を受けた出力部１１４は、決定部１１２により通知された特異性の最も高い部分ログを表示部３０に出力して表示部３０に表示させる（ステップＳ２２）。なお、決定部１１２は、ペナルティの合計に基づいて部分ログをランキングしたランキング結果を出力部１１４に通知することもできる。この場合、通知を受けた出力部１１４は、決定部１１２により得られたランキング結果を表示部３０に出力して表示部３０に表示させる。

　また、出力部１１４は、モデルマージ部１１０により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部３０に出力して表示部３０に表示させることもできる。例えば、出力部１１４は、図７に示すような対応表Ｔ１を表示部３０に出力して表示部３０に表示させることもできる。

　上述のように、本実施形態によれば、対象システム２で生成されたログから抽出した複数の部分ログについて、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを機械的に特定することができる。ここで、対象システム２で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部１１２により決定された特異性の最も高い部分ログは、異常を含んでいる可能性が最も高いとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含んでいる可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部１１２により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、対象システム２における異常を識別して特定することが可能となる。具体的には、対象システム２に異常が発生している期間や、異常の起きているネットワーク領域（ＩＰアドレス帯）、異常が起きている装置又は装置群等を識別して特定することが可能となる。

　また、本実施形態では、異常を識別するための計算量、すなわち、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログの特定に必要な計算量を小さいものとすることができる。すなわち、本実施形態において、少数派の部分ログの特定に必要な計算量は、１つの部分ログのログ量をＡとし、部分ログのモデル化にかかる計算量をログ量に関する関数ｆ（Ａ）で表し、部分ログの個数をＮとすると、ｆ（Ａ）・Ｎで表される。一方、前記特許文献１に記載された方法では、学習後の異常測度の計算が必要なほか、モデル化に対応する学習にかかる計算量が大きくなる。例えば、部分ログが３つあり、それぞれ同じログ量である場合を想定し、異常測度の計算にログ量の関数でｇ（Ａ）かかるとすると、特許文献１に記載された方法の計算量は（ｆ（２Ａ）＋ｇ（Ａ））・Ｎとなる。したがって、本実施形態では、特許文献１に記載された方法と比較して、異常を含む可能性のある部分ログをより小さい計算量で効率的に特定することが可能である。

　また、本実施形態では、特異性が最も高い部分ログが異常を含んでいる可能性があるとみなすことができるため、特許文献１に記載された方法とは異なり、異常の度合いを表す異常測度を定義する必要がない。したがって、本実施形態では、ユーザの負担を軽減することができる。

　以上のとおり、本実施形態によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。

　なお、決定部１１２は、複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログを強調してもよい。少数派の部分ログ群に含まれる部分ログを強調する方法は特に限定されるものではなく、特定の色や印により強調する方法等の種々の方法で強調することができる。

　図８に示す対応表Ｔ２は、図７に示す対応表Ｔ１において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログについて、対応するセルの背景をハッチングで強調したものである。対応表Ｔ２において、例えば、モデルＩＤが１のモデルについて、少数派の部分ログ群に含まれる部分ログである第２の部分ログＰＬ２に対応するセルの背景がハッチングで強調されている。

　図８に示す対応表Ｔ２が得られた場合において、例えばモデルＩＤが７のモデルに該当するログが異常を示すログである可能性が高いことをユーザが知っていたときを想定する。このとき、ユーザは、異常を示すログである可能性が高いログが存在することを、対応表Ｔ２のモデルＩＤが７の行で強調された「〇」から容易に認識することができる。さらに、ユーザは、当該ログが含まれる部分ログが第２の部分ログＰＬ２であることを容易に辿ることができる。これにより、対応表Ｔ２から、異常を含む可能性のある部分ログをより効率的に特定することができる。

　［他の実施形態］
　上記各実施形態において説明した異常識別システムは、他の実施形態によれば、図９に示すように構成することもできる。図９は、他の実施形態による異常識別システムの機能構成を示すブロック図である。

　図９に示すように、他の実施形態による異常識別システム２０００は、所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出するログ抽出部２００２を有している。また、異常識別システム２０００は、ログ抽出部２００２により抽出された複数の部分ログからモデルを生成するモデル化部２００４を有している。また、異常識別システム２０００は、モデル化部２００４により生成されたモデルとモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部２００６を有している。

　さらに、異常識別システム２０００は、決定部２００８を有している。決定部２００８は、対応関係取得部２００６により取得された対応関係に基づき、複数の部分ログを、モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、２つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。また、決定部２００８は、少数派の部分ログ群に基づき、複数の部分ログのうち、モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する。

　［変形実施形態］
　本発明は、上記実施形態に限らず、種々の変形が可能である。

　例えば、上記実施形態では、ログ抽出部１０６は、対象ログを分割して複数の部分ログを抽出する場合を例に説明したが、これに限定されるものではない。ログ抽出部１０６は、対象システム２で生成された対象ログを分割することなく、所定の抽出条件に従って対象ログから複数の部分ログを抽出してもよい。

　また、上記実施形態では、モデルマージ部１１０が、各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表を作成する場合を例に説明したがこれに限定されるものではない。モデルマージ部１１０は、表形式にかぎらず、種々の形式で、各モデルとそのモデルが生成された部分ログとの対応関係を取得することができる。

　また、上述の各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のコンピュータプログラムが記録された記録媒体はもちろん、そのコンピュータプログラム自体も各実施形態に含まれる。

　該記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact　Disc-Read　Only　Memory）、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ（Operating　System）上で動作して処理を実行するものも各実施形態の範疇に含まれる。

　上述の各実施形態の機能により実現されるサービスは、ＳａａＳ（Software　as　a　Service）の形態でユーザに対して提供することもできる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出するログ抽出部と、
　前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
　前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
　前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
　を有することを特徴とする異常識別システム。

　（付記２）
　前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
　前記決定部は、
　前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
　前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記１記載の異常識別システム。

　（付記３）
　前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記２記載の異常識別システム。

　（付記４）
　前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記２又は３に記載の異常識別システム。

　（付記５）
　前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記２乃至４のいずれかに記載の異常識別システム。

　（付記６）
　前記対応関係取得部は、前記対応関係を示す対応表を作成し、
　前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記１乃至５のいずれかに記載の異常識別システム。

　（付記７）
　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、
　前記複数の部分ログからモデルを生成し、
　前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
　前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
　前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
　ことを特徴とする異常識別方法。

　（付記８）
　前記複数の部分ログから複数の前記モデルを生成し、
　前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記２つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
　前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記７記載の異常識別方法。

　（付記９）
　前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記８記載の異常識別方法。

　（付記１０）
　前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記８又は９に記載の異常識別方法。

　（付記１１）
　前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記８乃至１０のいずれかに記載の異常識別方法。

　（付記１２）
　前記対応関係を示す対応表を作成し、
　前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記７乃至１１のいずれかに記載の異常識別方法。

　（付記１３）
　コンピュータに、
　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、
　前記複数の部分ログからモデルを生成し、
　前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
　前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
　前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
　ことを実行させることを特徴とするプログラムが記録された記録媒体。

　以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１６年１２月１２日に出願された日本出願特願２０１６－２４０１２５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１…異常識別システム
２…対象システム
１０…処理部
２０…記憶部
１０６…ログ抽出部
１０８…モデル化部
１１０…モデルマージ部
１１２…決定部

Claims

　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出するログ抽出部と、
　前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
　前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
　前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
　を有することを特徴とする異常識別システム。
　前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
　前記決定部は、
　前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
　前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項１記載の異常識別システム。
　前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項２記載の異常識別システム。
　前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする請求項２又は３に記載の異常識別システム。
　前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする請求項２乃至４のいずれか１項に記載の異常識別システム。
　前記対応関係取得部は、前記対応関係を示す対応表を作成し、
　前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする請求項１乃至５のいずれか１項に記載の異常識別システム。
　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、
　前記複数の部分ログからモデルを生成し、
　前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
　前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
　前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
　ことを特徴とする異常識別方法。
　前記複数の部分ログから複数の前記モデルを生成し、
　前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記２つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
　前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項７記載の異常識別方法。
　前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項８記載の異常識別方法。
　前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする請求項８又は９に記載の異常識別方法。
　前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする請求項８乃至１０のいずれか１項に記載の異常識別方法。
　前記対応関係を示す対応表を作成し、
　前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする請求項７乃至１１のいずれか１項に記載の異常識別方法。
　コンピュータに、
　所定の条件に従って対象ログから３つ以上の複数の部分ログを抽出し、
　前記複数の部分ログからモデルを生成し、
　前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
　前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて２つの部分ログ群に分類し、前記２つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
　前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
　ことを実行させることを特徴とするプログラム。