WO2022269690A1

WO2022269690A1 - 異常検知装置、異常検知方法および異常検知プログラム

Info

Publication number: WO2022269690A1
Application number: PCT/JP2021/023416
Authority: WO
Inventors: 英里中原; 哲哉塩田; 真智子豊田
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-12-29
Also published as: US20240272976A1; JPWO2022269690A1

Abstract

異常検知装置（１０）は、所定の時点における異常が検知される検知対象の時系列データを取得する取得部（１５ａ）と、時系列データから、所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出部（１５ｂ）と、特徴量方向の特徴から、時間の区間における時間方向の特徴を抽出する第２抽出部（１５ｃ）と、特徴量方向の特徴および時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、異常スコアに対する所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出部（１５ｄ）と、を備える。

Description

異常検知装置、異常検知方法および異常検知プログラム

　本発明は、異常検知装置、異常検知方法および異常検知プログラムに関する。

　機械学習技術を用いた異常検知は、異常が発生する頻度が極めて少ない場合、正常データを用いて教師なし学習でモデルを作成する。そして、正常状態からの乖離を表す異常スコアを算出する。算出した異常スコアに対して、閾値を設定することにより異常・正常の判断を行う。機械学習の異常検知には、各サンプルを独立に扱うことで時系列データであるか否かに関わらず適用可能な手法と、時間窓を設定し、その範囲のサンプルの順序を考慮する時系列データ向けの手法（以下、「時系列異常検知」と表記）とがある。

　ここで、時系列異常検知で設定する時間窓とは、時系列データをある一定区間に区切る窓を指す。モデル作成時には、時間方向にずらしながら時間窓内のデータを使って挙動を学習する。時系列異常検知では、正常時の時系列データの挙動を学習し、予測値と実測値の差である予測誤差を用いて異常スコアを算出する。モデル学習時に学んだ正常な時系列データに類似する振舞いのサンプルは予測誤差が小さくなり、未学習のサンプルは予測誤差が大きくなるため、この性質を利用して時系列データから異常を検出することが可能である。

　上述のように、機械学習技術を用いた異常検知では、予測したサンプルの異常スコアが、事前に設定した異常判定の閾値を超えているか否かによって異常が起こったと判断し、異常発生時間を特定する。しかし、異常スコアは異常がいつ発生したのかを検知しているに過ぎず、異常を発生させた原因である特徴量はわからないため、閾値を超えたサンプルの前後の挙動を確認する等の追加分析が必要となる。

　一方、異常を発生させる原因となった特徴量を特定するための既存技術として、学習済モデル等により寄与度を算出する技術がある。ここで、寄与度とは、機械学習モデルが出力した結果に影響を与えた度合いのことを示し、寄与度が大きいほど異常の原因であると判断することができる。また、入力データの時間方向の前後関係を考慮して寄与度を出力し、入力データのどの時間が分類結果に寄与したのかを示す技術も存在する（例えば、非特許文献１参照）。

R.　Assaf,　et　al.　"MTEX-CNN:　Multivariate　Time　series　EXplanations　for　Predictions　with　Convolutional　Neural　Networks",　2019　IEEE　International　Conference　on　Data　Mining　(ICDM),　pp.952-957、[online]、［2021年6月8日検索］、インターネット＜https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8970899&tag=1＞

　しかしながら、上述した従来技術では、教師なし異常検知において、時系列性を考慮した原因特定を容易にすることができなかった。なぜならば、上述した従来技術には、以下のような課題があるためである。

　まず、上記の学習済モデル等により寄与度を出力する技術では、各サンプルを時間方向に独立に扱っているので、データの時間方向の前後関係は考慮しない寄与度が出力される。また、上記の入力データの時間方向の前後関係を考慮して寄与度を出力する技術では、教師あり学習かつ分類問題を対象とした手法であるので、教師データのない異常検知技術にはそのままでは適用できない。

　上述した課題を解決し、目的を達成するために、本発明に係る異常検知装置は、所定の時点における異常が検知される検知対象の時系列データを取得する取得部と、前記時系列データから、前記所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出部と、前記特徴量方向の特徴から、前記時間の区間における時間方向の特徴を抽出する第２抽出部と、前記特徴量方向の特徴および前記時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、前記異常スコアに対する前記所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出部と、を備えることを特徴とする。

　また、本発明に係る異常検知方法は、異常検知装置によって実行される異常検知方法であって、所定の時点における異常が検知される検知対象の時系列データを取得する取得工程と、前記時系列データから、前記所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出工程と、前記特徴量方向の特徴から、前記時間の区間における時間方向の特徴を抽出する第２抽出工程と、前記特徴量方向の特徴および前記時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、前記異常スコアに対する前記所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出工程と、を含むことを特徴とする。

　また、本発明に係る異常検知プログラムは、所定の時点における異常が検知される検知対象の時系列データを取得する取得ステップと、前記時系列データから、前記所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出ステップと、前記特徴量方向の特徴から、前記時間の区間における時間方向の特徴を抽出する第２抽出ステップと、前記特徴量方向の特徴および前記時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、前記異常スコアに対する前記所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出ステップと、をコンピュータに実行させることを特徴とする。

　本発明では、教師なし異常検知において、時系列性を考慮した原因特定を容易にする。

図１は、第１の実施形態に係る異常検知システムの一例を示す図である。図２は、第１の実施形態に係る異常検知装置の構成例を示すブロック図である。図３は、第１の実施形態に係る学習モデルのアーキテクチャの一例を示す図である。図４は、第１の実施形態に係る特徴抽出処理の一例を示す図である。図５は、第１の実施形態に係る学習データの一例を示す図である。図６は、第１の実施形態に係る評価データの一例を示す図である。図７は、第１の実施形態に係るデータの加工処理の一例を示す図である。図８は、第１の実施形態に係るデータの加工処理の一例を示す図である。図９は、第１の実施形態に係るデータの加工処理の一例を示す図である。図１０は、第１の実施形態に係る異常検知精度の評価処理の流れの一例を示す図である。図１１は、第１の実施形態に係る異常検知精度の評価処理の一例を示す図である。図１２は、第１の実施形態に係る異常検知精度の評価処理の一例を示す図である。図１３は、第１の実施形態に係る寄与度の評価処理の流れの一例を示す図である。図１４は、第１の実施形態に係る特徴量方向の寄与度の算出処理の一例を示す図である。図１５は、第１の実施形態に係る時間方向の寄与度の算出処理の一例を示す図である。図１６は、第１の実施形態に係る寄与度の評価処理の一例を示す図である。図１７は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図１８は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図１９は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２０は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果を説明する図である。図２１は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２２は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２３は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２４は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２５は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２６は、第１の実施形態に係る処理全体の流れの一例を示すフローチャートである。図２７は、プログラムを実行するコンピュータを示す図である。

　以下に、本発明に係る異常検知装置、異常検知方法および異常検知プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

〔第１の実施形態〕
　以下に、第１の実施形態（適宜、本実施形態）に係る異常検知システムの処理、従来技術と本実施形態との比較、異常検知装置１０の構成、処理の詳細、処理の流れを順に説明し、最後に本実施形態の効果を説明する。

［異常検知システムの処理］
　図１を用いて、本実施形態に係る異常検知システム（適宜、本システム）の処理を説明する。図１は、第１の実施形態に係る異常検知システムの一例を示す図である。本システムは、異常検知装置１０を有する。なお、図１に示した異常検知システムには、複数台の異常検知装置１０が含まれてもよい。

　また、本システムでは、異常検知装置１０が取得するデータとして、時系列データ２０が関与する。ここで、時系列データ２０は、各サンプルの順序を考慮するデータであって、時系列的な情報を含むデータである。

　上記のようなシステムにおいて、単一の時系列異常検知モデルにより、異常スコアを算出でき、かつその異常スコアの高低に関わらず、異常原因と思われる時刻と特徴量を特定するための寄与度を算出できる、Convolutional　Neural　Network（以下、「ＣＮＮ」と表記）ベースの異常検知処理の例を説明する。

　まず、異常検知装置１０は、時系列データ２０を取得する。このとき、異常検知装置１０の処理により、異常スコアから異常を検知するだけではなく、異常スコア上昇前の時刻からの影響も考慮し、異常スコアに寄与した特徴量と時間がわかることが望ましい（図１（１）参照）。

　次に、異常検知装置１０は、異常発生時刻から過去の特定時間分を遡って異常原因の特定を実施する（図１（２）参照）。図１の例では、異常発生時刻ｔからｗ時間分遡り、時刻ｔ－ｗからｔ－１の区間において異常発生時刻ｔの異常原因の特定を実施する。

　そして、異常検知装置１０は、時系列データ２０に基づいて特徴量方向の寄与度を算出する（図１（３）参照）。図１の例では、算出した寄与度によって、時刻ｔの異常スコアに影響した特徴量は、センサＡとセンサＥに関する特徴量であることがわかる。

　また、異常検知装置１０は、時系列データ２０に基づいて時間方向の寄与度を算出する（図１（４）参照）。図１の例では、算出した寄与度によって、時刻ｔの異常スコアに影響した時間は、時刻ｔ－ｗからｔ－１の区間における後半の時間であることがわかる。

　このため、異常検知装置１０の処理により、異常原因となる特徴量だけではなく、時間的な関連性も把握することが可能となる（図１（５）参照）。以上より、本システムでは、異常検知に用いた同一のモデルに対して、異常を特定したい時刻から一定時間分（図１ではｗ時間分）遡って特徴量方向と時間方向の寄与度を算出することにより、時系列異常検知の原因特定を容易にする。すなわち、本システムは、時系列異常検知に加えて、時系列性を考慮した原因特定を実行することができる。

［従来の異常検知処理］
　ここで、参考技術として一般的に行われる従来の異常検知処理に関連する技術について説明する。

　機械学習を用いた時系列異常検知の既存技術として、Recurrent　Neural　Network（以下、「ＲＮＮ」と表記）やLong　Short　Time　Memory（以下、「ＬＳＴＭ」と表記）を用いた手法がある。ＲＮＮは自己回帰の構造を持つニューラルネットワークであり、時系列データの過去の時刻の情報を保持する隠れ層を取り入れることで予測を可能にしている。ただし、ＲＮＮには長期間の依存関係をモデル化するのが難しいという短所がある。その短所を改善したのがＬＳＴＭであり、モデルに忘却ゲートを導入することで、長期間の依存関係を学習することを可能にした手法である。

　また、異常を発生させる原因となった特徴量を特定するための既存技術として、再構成誤差を用いた異常原因特定技術と、ＬＩＭＥ（参考文献１：Ross,　A.　S.,　Hughes,　M.　C.　&　DoshiVelez,　F.　Right　for　the　Right　Reasons:　TrainingDifferentiable　Models　by　Constraining　their　Explanations.　arXiv　[cs.LG]　(2017)）やＳＨＡＰ（参考文献２：Lundberg,　S.　&　Lee,　S.-I.　A　Unified　Approach　to　Interpreting　Model　Predictions.NIPS2017　(2017)）、Smooth　Grad（参考文献３：Smilkov,　D.,　Thorat,　N.,　Kim,　B.,　Viegas,　F.　&　Wattenberg,　M.　SmoothGrad:　removingnoise　by　adding　noise.　arXiv　[cs.LG]　(2017)）等を用いて、学習済モデルにより寄与度を算出する技術がある。

　まず、再構成誤差を用いた異常原因特定技術について説明する。再構成誤差は入力層、中間層、出力層を持つモデルの入力層と出力層の差分によって、特徴量ごとに算出される値である。再構成誤差は、オートエンコーダ（Autoencoder）や主成分分析といった中間層でデータの圧縮表現を得る手法であれば算出可能である。学習済みの正常サンプルと類似する挙動をしているサンプルの場合は、出力層において正しく復元されることで各特徴量の再構成誤差が小さくなり、正常データと違った挙動をしているサンプルの場合は、出力層での復元がうまくいかず、再構成誤差が大きくなる。そのため、再構成誤差に対して可視化や統計量算出等を行い、値が大きい特徴量を異常原因である推定する。

　次に、学習済モデルにより寄与度を算出する技術について説明する。上記のＬＩＭＥやＳＨＡＰでは、原因を推定したいサンプルを選択し、原因の推定用の新たなモデルを作成することで各特徴量の寄与度を出力する。一方、出力した結果に対する入力サンプルの勾配を計算することで寄与度を出力する技術もあり、代表として上記のSmooth　Gradが挙げられる。ここで、Smooth　Gradでは、入力サンプルに対して意図的にガウシアンノイズを加えた複数のサンプルを作成し、それらの結果を平均することでノイズが少ない寄与度を出力可能にする。これらの手法は主に教師あり学習を用いた分類モデルに適用する手法であるが、教師なし異常検知手法に対しても異常スコアと閾値に基づき、正常・異常のラベルを付けることで適用可能である。

　しかしながら、上述した再構成誤差を用いた異常原因特定技術、学習済モデルより寄与度を出力する技術ともに、各サンプルを時間方向に独立に扱っているので、データの時間方向の前後関係は考慮しない寄与度が出力される。そのため、時系列異常検知の原因推定技術としては不十分である。

　一方、データの時間方向の前後関係を考慮して寄与度を出力する技術として、ＭＴＥＸ－ＣＮＮ（例えば、非特許文献１参照）が挙げられる。ＭＴＥＸ－ＣＮＮは、教師あり学習を用いて系列分類モデルを作成し、ＣＮＮの最後の畳み込み層により出力された値を使って判断根拠を提示することができるGrad－ＣＡＭを用いて寄与度を出力する。ＭＴＥＸ－ＣＮＮは、時系列分類と寄与度の出力を同一のモデルで行うことができ、時間窓で区切られた入力データのどの特徴量が分類結果に寄与したのかを示す特徴量方向の寄与度と、入力データのどの時間が分類結果に寄与したのかを示す時間方向の寄与度を出力可能にしている。

　しかしながら、上述したＭＴＥＸ－ＣＮＮは、教師あり学習かつ分類問題を対象とした手法であるので、教師なし異常検知に適用するには工夫が必要である。

　以下に、従来技術では解決できない課題について説明する。異常検知の原因特定を行うための既存技術は、各サンプルを時間方向に独立に扱っているため、選択したサンプルの前後関係は考慮しない寄与度が出力される。しかし、時系列データは、前の時刻に依存して振舞いが変化することが知られている（参考文献４：Brockwell,　P.　J.,　Davis,　R.　A.　&　Fienberg,　S.　E.　Time　Series:　Theory　and　Methods:　Theory　and　Methods.　(Springer　Science　&　Business　Media,　1991)）。

　経年劣化のように徐々に進行して大きくなる異常の場合は、異常スコアも緩やかに上昇するため、時系列データ特有の異常傾向であるといえる。このような異常発生から異常スコアの上昇まで時間遅れが発生する傾向をもつ異常に対する原因推定としては、予測時刻時点の異常スコアの上昇がどの特徴量が原因であるかに加え、どの時刻からの影響であるのかを合わせて提示することが望ましいといえる。これは、特徴量の寄与度に加えて時間に対する寄与度を出力することを意味し、既存技術の異常原因特定技術では対応できない。そのため、教師なし時系列異常検知に対して、異常発生時刻前の時間方向の関係を考慮した寄与度を出力可能な技術が必要である。

［異常検知装置１０の構成］
　次に、図２を用いて、本実施形態に係る異常検知装置１０の構成を詳細に説明する。図２は、第１の実施形態に係る異常検知装置の構成例を示すブロック図である。異常検知装置１０は、入力部１１、出力部１２、通信部１３、記憶部１４および制御部１５を有する。

（１．入力部１１）
　入力部１１は、当該異常検知装置１０への各種情報の入力を司る。例えば、入力部１１は、マウスやキーボード等で実現され、当該異常検知装置１０への設定情報等の入力を受け付ける。

（２．出力部１２）
　出力部１２は、当該異常検知装置１０からの各種情報の出力を司る。例えば、出力部１２は、ディスプレイ等で実現され、当該異常検知装置１０に記憶された設定情報等を出力する。

（３．通信部１３）
　通信部１３は、他の装置との間でのデータ通信を司る。例えば、通信部１３は、各通信装置との間でデータ通信を行う。また、通信部１３は、図示しないオペレータの端末との間でデータ通信を行うことができる。

（４．記憶部１４）
　記憶部１４は、制御部１５が動作する際に参照する各種情報や、制御部１５が動作した際に取得した各種情報を記憶する。ここで、記憶部１４は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現され得る。なお、図２の例では、記憶部１４は、異常検知装置１０の内部に設置されているが、異常検知装置１０の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。

（５．制御部１５）
　制御部１５は、当該異常検知装置１０全体の制御を司る。制御部１５は、取得部１５ａ、第１抽出部１５ｂ、第２抽出部１５ｃ、算出部１５ｄおよび特定部１５ｅを有する。ここで、制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等の電子回路やＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

（５－１．取得部１５ａ）
　取得部１５ａは、所定の時点における異常が検知される検知対象の時系列データを取得する。例えば、取得部１５ａは、時刻ごとに複数のセンサから送信されたセンサ値を含むデータを取得する。一方、取得部１５ａは、取得した時系列データを第１抽出部１５ｂに出力する。また、取得部１５ａは、取得した時系列データを記憶部１４に格納してもよい。

（５－２．第１抽出部１５ｂ）
　第１抽出部１５ｂは、時系列データから、所定の時点以前の時間の区間における特徴量方向の特徴を抽出する。例えば、第１抽出部１５ｂは、時系列データの各特徴量に２次元畳み込みを行い、特徴量方向の特徴を抽出する。また、第１抽出部１５ｂは、特徴量方向の特徴として、第１の特徴量マップ（特徴量マップ１）を出力する。

　処理の詳細を説明すると、例えば、第１抽出部１５ｂは、時間窓ｗ、ｄ次元の時系列データの各特徴量に２次元畳み込みを２回行い、特徴量マップを（ｗ／４）×ｄ次元に圧縮する。また、第１抽出部１５ｂは、１回目のフィルタ数は６４、２回目のフィルタ数は１２８と設定し、畳み込みを行うことで、特徴量方向の特徴抽出を行う。なお、第１抽出部１５ｂによる特徴量方向の特徴抽出処理については、［処理の詳細］（２．特徴抽出処理）にて後述する。

（５－３．第２抽出部１５ｃ）
　第２抽出部１５ｃは、特徴量方向の特徴から、所定の時間の区間における時間方向の特徴を抽出する。例えば、第２抽出部１５ｃは、特徴量方向の特徴の各特徴量に１次元畳み込みを行い、時間方向の特徴を抽出する。また、第２抽出部１５ｃは、時間方向の特徴として、第２の特徴量マップ（特徴量マップ２）を出力する。

　処理の詳細を説明すると、例えば、第２抽出部１５ｃは、ｄ次元の第１の特徴量マップについて、ｄ次元のすべての特徴量を利用するように１次元畳み込みを行うことで、入力データ全体の時間方向の特徴抽出を行う。なお、第２抽出部１５ｃによる時間方向の特徴抽出処理については、［処理の詳細］（２．特徴抽出処理）にて後述する。

（５－４．算出部１５ｄ）
　算出部１５ｄは、特徴量方向の特徴および時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、異常スコアに対する所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する。例えば、算出部１５ｄは、教師なし学習モデルによって、所定の時点における異常スコアを算出するとともに、特徴量方向の寄与度および時間方向の寄与度を算出する。

　さらに、算出部１５ｄは、異常スコアに関する予測誤差、特徴量方向の寄与度、および時間方向の寄与度のうち少なくとも１つに対するペナルティから構成される損失関数を用いて学習を行った教師なし学習モデルによって、異常スコアを算出するとともに、特徴量方向の寄与度および時間方向の寄与度を算出する。

　処理の詳細を説明すると、算出部１５ｄは、特徴量方向の畳み込みを行った最終層に対して予測値を用いて逆伝播を行い、得られた勾配値から重みを計算する。そして、算出部１５ｄは、得られた重みと第１の特徴量マップをかけ合わせた行列に対して、活性化関数を用いることで特徴量方向の寄与度を出力する。また、算出部１５ｄは、時間方向の畳み込みを行った最終層に対して予測値を用いて逆伝播を行い、得られた勾配値から重みを計算する。そして、算出部１５ｄは、得られた重みと第２の特徴量マップをかけ合わせた行列に対して、活性化関数を用いることで時間方向の寄与度を出力する。なお、算出部１５ｄによる寄与度算出処理については、［処理の詳細］（３．寄与度算出処理）にて後述する。

（５－５．特定部１５ｅ）
　特定部１５ｅは、異常スコアに基づいて異常を検知した場合には、特徴量方向の寄与度または時間方向の寄与度を用いて異常の原因を特定する。例えば、特定部１５ｅは、特徴量方向の寄与度を用いて、異常発生時刻の異常スコアに影響した特徴として、センサの種類を特定する。また、特定部１５ｅは、時間方向の寄与度を用いて、異常発生時刻の異常スコアに影響した時刻を特定する。さらに、特定部１５ｅは、特定した情報を記憶部１４に格納してもよい。

［処理の詳細］
　図３～図２５や数式等を用いて、本実施形態に係る処理の詳細を説明する。以下では、学習モデルのアーキテクチャの概要、特徴抽出処理、寄与度算出処理、損失関数、学習モデルの評価処理の順に説明する。

（１．学習モデルのアーキテクチャの概要）
　図３を用いて、本実施形態に係る学習モデルのアーキテクチャ（適宜、本アーキテクチャ）の概要について説明する。図３は、第１の実施形態に係る学習モデルのアーキテクチャの一例を示す図である。以下では、異常スコア、特徴量方向の寄与度、および時間方向の寄与度を同一のモデルから出力する学習モデルのアーキテクチャについて説明する。

　本アーキテクチャでは、ＣＮＮを用いて特徴量がｄ次元、時間窓がｗである入力データを使って、ある時点の実測値を予測するモデルを作成することで時系列異常検知を行う。ある時点とは、ｋ時刻前でも先でも構わない。また、本アーキテクチャでは、入力データに対し、ＣＮＮによる２段階の特徴抽出を行う。すなわち、本アーキテクチャでは、１段階目は特徴量方向の特徴抽出（図３（１）参照）が、２段階目は時間方向の特徴抽出（図３（２）参照）を行う。その後、本アーキテクチャでは、全結合層を得て（図３（３）参照）、予測値ｙ＾を出力し（図３（４）参照）、実測値ｙの誤差（平均二乗誤差等）を計算することで異常スコアを算出する（図３（５）参照）。

（２．特徴抽出処理）
　図４を用いて、特徴抽出処理の詳細について説明する。図４は、第１の実施形態に係る特徴抽出処理の一例を示す図である。以下では、特徴量方向の特徴抽出処理、時間方向の特徴抽出処理の順に説明する。

（２－１．特徴量方向の特徴抽出処理）
　１段階目の特徴量方向の特徴抽出処理（第１抽出処理）では、まず、異常検知装置１０は、特徴量ごとに２次元畳み込みを複数回行う（図４（１）参照）。次に、異常検知装置１０は、特徴量方向の特徴抽出における最後の２次元畳み込みを行った後に行列を転置することで、ｃ×ｄサイズの特徴量マップ１を得る（図４（２）参照）。

　なお、ｃは時間窓ｗよりも小さい値でないといけない。また、畳み込みに使用するフィルタサイズｗ’は、ｗ’×１である必要があり、ｗ’は１＜ｗ’＜ｗという制限がある。例えば、異常検知装置１０は、２次元畳み込みを２回行い、ｗ’＝４、ｃ＝ｗ／４とし、特徴量マップを（ｗ／４）×ｄ次元に圧縮する。また、畳み込みに使用するフィルタ数は任意の値を設定可能である。例えば、異常検知装置１０は、１回目のフィルタ数は６４、２回目のフィルタ数は１２８と設定し、畳み込みを行う。また、異常検知装置１０は、特徴量方向の畳み込みに、ハーフパディングを使用してもよい。

（２－２．時間方向の特徴抽出処理）
　２段階目の時間方向の特徴抽出処理（第２抽出処理）では、異常検知装置１０は、１段階目で得た特徴量マップ１について、ｄ次元のすべての特徴量を利用するように１次元畳み込みを行うことで、入力データ全体の時間方向の特徴抽出を行い（図４（３）参照）、特徴量マップ２を得る（図４（４）参照）。

　なお、この畳み込みで使用するフィルタサイズは、ｃ’×ｄである必要があり、１＜ｃ’＜ｃという制限がある。また、パラメータｎはフィルタｃ’に依存して決まる値であり、ｎ＝ｃ－ｃ’＋１となる。例えば、異常検知装置１０は、ｃ’＝４と設定し、畳み込みを行う。また、異常検知装置１０は、時間方向の畳み込みに、ハーフパディングを使用してもよい。

　そして、異常検知装置１０は、上記の第１抽出処理、第２抽出処理を行った上で、全結合層を得て（図４（５）参照）、予測値ｙ＾を出力する（図４（６）参照）。

（３．寄与度算出処理）
　特徴抽出処理に続く処理として、寄与度算出処理の詳細を説明する。以下では、寄与度算出処理の概要、特徴量方向の寄与度算出処理、時間方向の寄与度算出処理の順に説明する。

（３－１．寄与度算出処理の概要）
　まず、異常検知装置１０は、学習モデルの出力値を用いて選択した畳み込み層に対して、学習モデルから出力された値を逆伝播することで勾配値を出力し、その勾配値のGlobal　Average　Poolingを計算することで重みを出力する。そして、異常検知装置１０は、選択した畳み込み層から得られた特徴量マップと得られた重みをかけ合わせた行列を、活性化関数（ＲｅＬＵ関数等）を用いて変換することによって寄与度を算出する。

　すなわち、異常検知装置１０は、特徴量方向の特徴抽出を行った層の出力である特徴量マップ１（図４（２）参照）と、時間方向の特徴抽出を行った層の出力である特徴量マップ２（図４（４）参照）それぞれに対して、ｋ点先（ｋは任意の変数）の予測値ｙ＾を用いて寄与度算出処理を実行し、特徴量方向の寄与度、時間方向の寄与度とともに、ｋ点先の予測値に対する寄与度を出力する。

（３－２．特徴量方向の寄与度算出処理）
　異常検知装置１０は、特徴量方向の畳み込みを行った最終層に対して予測値ｙ＾_ｌを用いて逆伝播を行い、ここで得られた勾配値をｃで割ることで重みを計算する。そして、異常検知装置１０は、得られた重みと特徴量マップ１をかけ合わせた行列に対して、活性化関数を用いることで寄与度を出力する。

　なお、異常検知装置１０は、特徴量マップ１に対する寄与度はｃ×ｄ次元であり、入力データと次元が合わず出力された寄与度が解釈できないため、入力データのサイズと同じｗ×ｄ次元にサイズを変更することで、解釈可能な特徴量方向の寄与度を出力する。例えば、異常検知装置１０は、（ｗ／４）×ｄ次元からｗ×ｄ次元にサイズを変更し、特徴量方向の寄与度を出力する。

（３－３．時間方向の寄与度算出処理）
　異常検知装置１０は、時間方向の畳み込みを行った最終層に対して予測値ｙ＾_ｌを用いて逆伝播を行い、ここで得られた勾配値をｎで割ることで、重みを計算する。そして、異常検知装置１０は、得られた重みと特徴量マップ２をかけ合わせた行列に対して、活性化関数を用いることで寄与度を出力する。

　なお、異常検知装置１０は、特徴量マップ２に対する寄与度はｎ×ｍ次元であり、入力データの時間窓ｗとサイズが合わないため、ｗ×１次元にサイズを変更することで、時間方向の寄与度を出力する。

（４．損失関数）
　本実施形態に係る学習モデルの学習を行う損失関数の詳細を説明する。まず、損失関数Ｌｏｓｓは、下記（１）式のように示される。

　損失関数Ｌｏｓｓを構成するＬ_ａｄは、下記（２）式のように示される。

　損失関数Ｌｏｓｓを構成するＬ_{ｆｅａｔｕｒｅ}は、下記（３）式のように示される。

　損失関数Ｌｏｓｓを構成するＬ_ｔｉｍｅは、下記（４）式のように示される。

　ここで、上記（２）式中の||ｙ_ｉ－ｙ＾_ｌ||は２つのベクトル間の距離を表し、具体的にはユークリッド距離や平均二乗誤差等を用いて計算する。また、上記（３）式のＡは特徴量寄与度の行列、上記（４）式のＢは時間寄与度の行列を表す。また、上記（１）式の損失関数Ｌｏｓｓは、予測誤差に対するペナルティを表すＬ_ａｄ、特徴量の寄与度に対するペナルティを表すＬ_{ｆｅａｔｕｒｅ}、および時間の寄与度に対するペナルティを表すＬ_ｔｉｍｅから構成される。

　上記（１）式の損失関数Ｌｏｓｓにおいて、寄与度に対するペナルティ（Ｌ_{ｆｅａｔｕｒｅ}、Ｌ_ｔｉｍｅ）は、学習時に寄与度が０に近づくような正則化を加えているものであり、この正則化により、正常サンプルに対する寄与度が小さく、異常サンプルに対する寄与度が大きくなるような効果が期待される。

　なお、損失関数Ｌｏｓｓの上記（１）式は、必ずしも寄与度に対するペナルティを含む必要はなく、予測誤差のペナルティＬ_ａｄのみや、どちらか一方の寄与度のペナルティ（Ｌ_{ｆｅａｔｕｒｅ}、Ｌ_ｔｉｍｅ）のみを含むものであってもよい。また、寄与度に対するペナルティの上記（３）式、（４）式は、同様の効果を生む正則化であれば、これに限定されるものではない。以下では、予測誤差のみの損失関数を用いたものを「正則化なし手法」、予測誤差に加えて、学習時に存在しないデータに対して寄与度が大きく出力されるように正則化を行う手法を「正則化あり手法」と表記する。

（５．学習モデルの評価処理）
　図５～図２５を用いて、本実施形態に係る学習モデルの評価処理の詳細を説明する。以下では、学習モデルの評価処理の概要、正則化なし手法による評価処理、正則化あり手法による評価処理、学習モデルの有効性の順に説明する。なお、本実施形態に係る学習モデルの評価処理は、以下に説明する処理により限定されるものではない。

（５－１．学習モデルの評価処理の概要）
　図５～図１６を用いて、本実施形態に係る学習モデルの評価処理の概要を説明する。以下では、学習モデルに利用するデータの作成、データの加工、異常検知精度の評価、寄与度の評価の順に説明する。

（５－１－１．データの作成）
　図５および図６を用いて、学習モデルに利用するデータの作成について説明する。図５は、第１の実施形態に係る学習データの一例を示す図である。図６は、第１の実施形態に係る評価データの一例を示す図である。

　学習モデルに利用するデータとして、特徴量が５次元の人工データを作成する。ここで、学習データと評価データの差異は以下の通りである。

　１～４次元目（正常次元）については、学習データ、評価データともに同じ規則でデータを生成し、差異は存在しない。すなわち、図５のように、学習データでは、全区間で大きな変動のない波形を示す。また、図６（２）のように、評価データであっても、正常次元は学習データと同じ波形を示す。

　５次元目（異常次元）については、学習データは、三角関数と一様分布を組み合わせてデータを生成する。一方、評価データは、学習データと同じ規則でデータを生成し、著しく大きい値を定期的に加算して異常状態を擬似的に作成する。すなわち、図６（１）のように、定期的に異常波形が出るようにデータを生成する。なお、図６（１）において、網掛けで示された矩形部分はすべて異常区間として扱う。

（５－１－２．データの加工）
　図７～図９を用いて、学習モデルに利用するデータの加工について説明する。図７～図９は、第１の実施形態に係るデータの加工処理の一例を示す図である。

　まず、図７のように、時間窓で時系列データを切り出し、モデルに入力可能なデータ形式に変換して、ラベルを付与する。図７では、時間窓ｗ＝２０としているが、特に限定されない。

　次に、時間窓で切り出したデータの５次元目に１時刻でも異常値が含まれていれば、異常ラベルを付与する。ここで、図８（１）のように、１時刻も異常値が含まれていない場合は、正常ラベルを付与する。図８（２）のように、数時刻分に異常値が含まれる場合は、異常ラベルを付与する。図８（３）のように、全時刻が異常値の場合は、当たり前に異常であるので、異常ラベルを付与する。

　なお、図９では、評価データ１０７９件のうち、異常データが３５０件含まれ、作成した人工データには、約３２％の異常データを含むことがわかる。

（５－１－３．異常検知精度の評価）
　図１０～図１２を用いて、異常検知精度の評価について説明する。図１０は、第１の実施形態に係る異常検知精度の評価処理の流れの一例を示す図である。図１１および図１２は、第１の実施形態に係る異常検知精度の評価処理の一例を示す図である。

　図１０を用いて、評価データの異常ラベル・正常ラベルと異常判定結果とを比較することで異常検知精度を算出して評価を行う流れについて説明する。学習過程においては、まず、正常な学習データを入力し、学習モデルの学習を行う（図１０（１）参照）。次に、学習モデルにより、異常スコアが計算され、正常な範囲内の異常スコアが出力される（図１０（２）参照）。そして、出力された異常スコアを用いて、閾値が決定される。なお、閾値の決定については、図１１を用いて後述する。

　一方、評価過程においては、まず、評価データを学習モデルに入力し、予測を行う（図１０（４）参照）。次に、学習モデルにより、異常スコアが計算され、異常スコアが出力される（図１０（５）参照）。そして、出力された異常スコアと決定された閾値とが比較され（図１０（６）参照）、異常または正常の判定が行われることによって判定結果が出力される（図１０（７）参照）。最後に、評価データのラベルと判定結果とから、正誤判定が行われることによって、異常検知精度の評価が行われる（図１０（８）参照）。なお、評価指標には適合率、再現率、Ｆ１スコア、ＲＯＣ－ＡＵＣ（Receiver　Operating　Characteristic－Area　Under　the　Curve）を利用することとし、数値の算出において、５試行の平均値を算出するものとする。

　また、図１１および図１２を用いて、閾値の決定、閾値による異常の判定について説明する。まず、異常判定に用いる閾値は、学習データ全件に対して異常スコアを計算し、その95％tile値を閾値として設定する（図１１参照）。一方、決定された閾値を超えた場合には、評価データを異常と判定する（図１２参照）。

（５－１－４．寄与度の評価）
　図１３～図１６を用いて、寄与度の評価について説明する。図１３は、第１の実施形態に係る寄与度の評価処理の流れの一例を示す図である。図１４～図１６は、第１の実施形態に係る寄与度の評価処理の一例を示す図である。

　図１３を用いて、寄与度の評価の流れについて説明する。まず、評価データを学習モデルに入力し、予測を行う（図１３（１）参照）。次に、学習モデルにより、寄与度が計算され、特徴量方向および時間方向の寄与度が出力される（図１３（２）参照）。そして、出力された寄与度の最大値が算出され、ヒストグラムが描画される（図１３（３）参照）。最後に、評価データのラベルと描画されたヒストグラムとから、寄与度の評価が行われる（図１３（４）参照）。

　図１４を用いて、特徴量方向の寄与度を算出した上で、その最大値を算出する処理について説明する。図１４では、特徴量方向の寄与度として算出した数値が表形式で示されている。図１４において、最大値である「７．６」が、特徴量方向の寄与度のヒストグラムの描画に際して出力される。

　図１５を用いて、時間方向の寄与度を算出した上で、その最大値を算出する処理について説明する。図１５では、時間方向の寄与度として算出した数値が表形式で示されている。図１５において、最大値である「６．８」が、時間方向の寄与度のヒストグラムの描画に際して出力される。

　図１６を用いて、特徴量方向および時間方向の正常ラベル・異常ラベルごとの最大値のヒストグラムを作成し、形状を比較する処理について説明する。なお、以下では、時間方向の寄与度について説明するが、特徴量方向の寄与度についても同様に処理される。

　まず、異常ラベルを付与された複数の時間方向の寄与度から、異常ラベルの最大値ヒストグラムが描画される（図１６（１）（２）参照）。ここで、描画される異常ラベルの最大値ヒストグラムは、寄与度が裾の重い分布となることが望ましい。すなわち、異常の場合には、異常原因に対しては高い寄与度が得られるべきである。

　一方、正常ラベルを付与された複数の時間方向の寄与度から、正常ラベルの最大値ヒストグラムが描画される（図１６（３）（４）参照）。ここで、描画される正常ラベルの最大値ヒストグラムは、寄与度が０になることが望ましい。すなわち、正常の場合には、異常原因ではないので寄与度は低くなるべきである。

　そして、異常ラベルの最大値ヒストグラムと正常ラベルの最大値ヒストグラムとを比較して、適切に寄与度が反映されているかを評価する（図１６（２）（３）参照）。

（５－２．正則化なし手法による評価処理）
　図１７～図２０を用いて、本実施形態に係る学習モデルの正則化なし手法による評価処理を説明する。図１７～図１９は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。図２０は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果を説明する図である。以下では、異常検知精度の評価結果、寄与度の評価結果の順に説明する。

（５－２－１．異常検知精度の評価結果）
　まず、学習モデルのアーキテクチャの異常検知精度の有効性の評価結果について説明する。以下では、正則化なし手法による学習モデルのアーキテクチャの概要を説明した上で、有効性の評価結果について説明する。

　まず、正則化なし手法による学習モデルのアーキテクチャは、損失関数Ｌｏｓｓとして、平均二乗誤差を利用したＬ_ａｄ（数２参照）のみを用いる。すなわち、Ｌｏｓｓ＝Ｌ_ａｄにしたがって、異常検知処理を行う。また、異常検知精度の評価については、上述の（５－１－３．異常検知精度の評価）に基づいて行われる。このとき、有効性の基準として、ＡＵＣが０．８以上であれば有効と判断される。

　図１７に示すように、上記の正則化なし手法による学習モデルのアーキテクチャでは、ＡＵＣが０．８８５（５試行平均）となり、異常検知精度は有効であり、異常検知に十分活用できると判断される。

（５－２－２．寄与度の評価結果）
　次に、学習モデルのアーキテクチャの寄与度の有効性の評価結果について説明する。以下では、時間方向の寄与度に基づき、異常ラベルの最大値ヒストグラムの評価、正常ラベルの最大値ヒストグラムの評価の順に説明する。

　まず、図１８を用いて、異常ラベルの最大値ヒストグラムの評価について説明する。まず、異常ラベルの最大値ヒストグラムにおいて、寄与度の最大値が０の場合には、異常データでもうまく異常原因が特定できないこともあることを示す（図１８（１）参照）。一方、寄与度の最大値が０より大きい場合には、異常と思われる時刻や特徴量をうまく捉えることができていることを示す（図１８（２）参照）。したがって、図１８においては、異常に対して高い寄与度が出力されているとは判断できず、異常原因の分離が効果的にできているとはいえない。

　次に、図１９を用いて、正常ラベルの最大値ヒストグラムの評価について説明する。まず、正常ラベルの最大値ヒストグラムにおいて、寄与度の最大値が０の場合には、正常データは異常原因が存在しないので、寄与度の最大値はすべて０になることが好ましい（図１９（１）参照）。すなわち、図２０に示すように、寄与度の最大値はすべて０になるヒストグラムが理想形ということができる。一方、寄与度の最大値が０より大きい場合には、正常データなのに異常原因と思われる箇所が存在すると判定することを示す（図１９（２）参照）。したがって、図１９においては、正常に対して低い寄与度が出力されているとは判断できず、異常原因の分離が効果的にできているとはいえない。

（５－３．正則化あり手法による評価処理）
　図２１～図２５を用いて、本実施形態に係る学習モデルの正則化あり手法による評価処理を説明する。図２１～図２５は、第１の実施形態に係る学習モデルのアーキテクチャの有効性の評価結果の一例を示す図である。以下では、異常検知精度の評価結果、寄与度の評価結果の順に説明する。

（５－３－１．異常検知精度の評価結果）
　まず、学習モデルのアーキテクチャの異常検知精度の有効性の評価結果について説明する。以下では、正則化あり手法による学習モデルのアーキテクチャの概要を説明した上で、有効性の評価結果について説明する。

　まず、正則化あり手法による学習モデルのアーキテクチャは、損失関数Ｌｏｓｓとして、平均二乗誤差を利用したＬ_ａｄ（数２参照）に加えて、Ｌ_{ｆｅａｔｕｒｅ}（数３参照）およびＬ_ｔｉｍｅ（数４参照）を用いる。すなわち、Ｌｏｓｓ＝Ｌ_ａｄ＋Ｌ_{ｆｅａｔｕｒｅ}＋Ｌ_ｔｉｍｅ（数１参照）にしたがって、異常検知処理を行う。また、異常検知精度の評価については、上述の（５－１－３．異常検知精度の評価）に基づいて行われる。このとき、正則化は最適化を難しくする操作であるため、異常検知精度が劣化しないことが確認されればよい。

　図２１に示すように、上記の正則化あり手法による学習モデルのアーキテクチャでは、ＡＵＣが０．９４８（５試行平均）となり、正則化なし手法に基づくＡＵＣである０．８８５を上回り、正則化による悪影響は存在しないと評価される。

（５－３－２．寄与度の評価結果）
　次に、学習モデルのアーキテクチャの寄与度の有効性の評価結果について説明する。以下では、時間方向の寄与度に基づき、正常ラベルの最大値ヒストグラムの評価、異常ラベルの最大値ヒストグラムの評価の順に説明する。

　まず、図２２および図２３を用いて、正常ラベルの最大値ヒストグラムの評価について説明する。図２２は、正則化なし手法で描画された正常ラベルの最大値ヒストグラムであり、寄与度の最大値が０以外の値をとる。一方、図２３は、正則化あり手法で描画された正常ラベルの最大値ヒストグラムであり、寄与度の最大値がほぼ０になっている。したがって、正則化によって、正常ラベルの最大値ヒストグラムでは、寄与度の最大値が０である割合が増加しており、混乱を招くような異常原因の出力を回避できることがわかる。

　次に、図２４および図２５を用いて、異常ラベルの最大値ヒストグラムの評価について説明する。図２４は、正則化なし手法で描画された異常ラベルの最大値ヒストグラムであり、寄与度の最大値は０～１０の範囲に収まっている。一方、図２５は、正則化あり手法で描画された異常ラベルの最大値ヒストグラムであり、より異常に過剰に反応するようになったため、寄与度の最大値は０～１００の範囲と大きな値をとるようになっている。したがって、正則化によって、異常ラベルの最大値ヒストグラムでは、寄与度の最大値が正則化なし手法と比較して大きくなっているため、異常原因を強調する、すなわち異常原因を特定しやすくなっていることがわかる。

（５－４．学習モデルの有効性）
　以上より、本実施形態に係る学習モデルのアーキテクチャは、異常検知に利用することができる性能をもつことが判断できる。また、本実施形態に係る学習モデルの学習に用いる損失関数に正則化を行うことにより、異常原因特定が容易になる。

［処理の流れ］
　図２６を用いて、本実施形態に係る処理の流れを詳細に説明する。図２６は、第１の実施形態に係る処理全体の流れの一例を示すフローチャートである。以下では、異常検知処理全体の流れを示すとともに、各処理の概要を説明する。

（処理全体の流れ）
　まず、異常検知装置１０の取得部１５ａは、時系列データ取得処理を実行する（ステップＳ１０１）。次に、異常検知装置１０の第１抽出部１５ｂは、特徴量方向の特徴抽出処理（第１抽出処理）を実行する（ステップＳ１０２）。また、異常検知装置１０の第２抽出部１５ｃは、時間方向の特徴抽出処理（第２抽出処理）を実行する（ステップＳ１０３）。続いて、異常検知装置１０の算出部１５ｄは、寄与度算出処理を実行する（ステップＳ１０４）。最後に、異常検知装置１０の特定部１５ｅは、異常原因特定処理を実行し（ステップＳ１０５）、処理を終了する。なお、上記のステップＳ１０１～Ｓ１０５は、異なる順序で実行することもできる。また、上記のステップＳ１０１～Ｓ１０５のうち、省略される処理があってもよい。

（各処理の流れ）
　第１に、取得部１５ａによる時系列データ取得処理について説明する。この処理では、取得部１５ａは、異常を検知する検知対象の時系列データを取得する。

　第２に、第１抽出部１５ｂによる特徴量方向の特徴抽出処理について説明する。この処理では、まず、第１抽出部１５ｂは、特徴量ごとに２次元畳み込みを複数回行い、特徴量方向の特徴抽出における最後の２次元畳み込みを行った後に行列を転置することで、特徴量マップ１を出力する。

　第３に、第２抽出部１５ｃによる時間方向の特徴抽出処理について説明する。この処理では、第２抽出部１５ｃは、ステップＳ１０２の処理で出力された特徴量マップ１について、すべての特徴量を利用するように１次元畳み込みを行うことで、入力データ全体の時間方向の特徴抽出を行い、特徴量マップ２を出力する。

　第４に、算出部１５ｄによる寄与度算出処理について説明する。この処理では、算出部１５ｄは、学習モデルの出力値を用いて選択した畳み込み層に対して、学習モデルから出力された値を逆伝播することで勾配値を出力した上で、重みを出力する。そして、算出部１５ｄは、ステップＳ１０２およびＳ１０３の処理で出力された特徴量マップと得られた重みをかけ合わせた行列を、活性化関数を用いて変換することによって寄与度を算出する。このとき、算出部１５ｄは、特徴量方向の寄与度、時間方向の寄与度をそれぞれ出力する。

　第５に、特定部１５ｅによる異常原因特定処理について説明する。この処理では、特定部１５ｅは、ステップＳ１０４の処理で出力された特徴量方向の寄与度、時間方向の寄与度をもとに、異常原因と思われる時刻と特徴量を特定する。

［第１の実施形態の効果］
　第１に、上述した本実施形態に係る異常検知処理では、所定の時点における異常が検知される検知対象の時系列データを取得し、時系列データから、所定の時点以前の時間の区間における特徴量方向の特徴を抽出し、特徴量方向の特徴から時間方向の特徴を抽出し、特徴量方向の特徴および時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、異常スコアに対する所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する。このため、本処理では、教師なし異常検知において、時系列性を考慮した原因特定を容易にする。

　第２に、上述した本実施形態に係る異常検知処理では、教師なし学習モデルによって、所定の時点における異常スコアを算出するとともに、特徴量方向の寄与度および時間方向の寄与度を算出し、異常スコアに基づいて異常を検知した場合には、特徴量方向の寄与度または時間方向の寄与度を用いて異常の原因を特定する。このため、本処理では、教師なし異常検知において、時系列性を考慮した原因特定を容易にし、かつ原因となる特徴または時間の影響を特定できる。

　第３に、上述した本実施形態に係る異常検知処理では、時系列データの各特徴量に２次元畳み込みを行い、特徴量方向の特徴を抽出し、特徴量方向の特徴の各特徴量に１次元畳み込みを行い、時間方向の特徴を抽出する。このため、本処理では、教師なし異常検知において、時系列性を考慮した原因特定を容易に、かつ効率的に行うことができる。

　第４に、上述した本実施形態に係る異常検知処理では、異常スコアに関する予測誤差、特徴量方向の寄与度、および時間方向の寄与度のうち少なくとも１つに対するペナルティから構成される損失関数を用いて学習を行った教師なし学習モデルによって、異常スコアを算出するとともに、特徴量方向の寄与度および時間方向の寄与度を算出する。このため、本処理では、教師なし異常検知において、時系列性を考慮した原因特定を容易に、かつ精度よく行うことができる。

〔システム構成等〕
　上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

〔プログラム〕
　また、上記実施形態において説明した異常検知装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

　図２７は、プログラムを実行するコンピュータを示す図である。図２７に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図２７に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図２７に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図２７に例示するように、ディスクドライブ１１００に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図２７に例示するように、例えば、マウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図２７に例示するように、例えばディスプレイ１１３０に接続される。

　ここで、図２７に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ１０９０に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

　なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。

　１０　異常検知装置
　１１　入力部
　１２　出力部
　１３　通信部
　１４　記憶部
　１５　制御部
　１５ａ　取得部
　１５ｂ　第１抽出部
　１５ｃ　第２抽出部
　１５ｄ　算出部
　１５ｅ　特定部
　２０　時系列データ

Claims

　所定の時点における異常が検知される検知対象の時系列データを取得する取得部と、
　前記時系列データから、前記所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出部と、
　前記特徴量方向の特徴から、前記時間の区間における時間方向の特徴を抽出する第２抽出部と、
　前記特徴量方向の特徴および前記時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、前記異常スコアに対する前記所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出部と、
　を備えることを特徴とする異常検知装置。
　前記算出部は、教師なし学習モデルによって、所定の時点における異常スコアを算出するとともに、前記特徴量方向の寄与度および前記時間方向の寄与度を算出し、
　前記異常スコアに基づいて前記異常を検知した場合には、前記特徴量方向の寄与度または前記時間方向の寄与度を用いて前記異常の原因を特定する特定部を、
　さらに備えることを特徴とする請求項１に記載の異常検知装置。
　前記第１抽出部は、前記時系列データの各特徴量に２次元畳み込みを行い、前記特徴量方向の特徴を抽出し、
　前記第２抽出部は、前記特徴量方向の特徴の前記各特徴量に１次元畳み込みを行い、前記時間方向の特徴を抽出する、
　ことを特徴とする請求項１または２に記載の異常検知装置。
　前記算出部は、前記異常スコアに関する予測誤差、前記特徴量方向の寄与度、および前記時間方向の寄与度のうち少なくとも１つに対するペナルティから構成される損失関数を用いて学習を行った前記教師なし学習モデルによって、前記異常スコアを算出するとともに、前記特徴量方向の寄与度および前記時間方向の寄与度を算出する、
　ことを特徴とする請求項１から３のいずれか１項に記載の異常検知装置。
　異常検知装置によって実行される異常検知方法であって、
　所定の時点における異常が検知される検知対象の時系列データを取得する取得工程と、
　前記時系列データから、前記所定の時点以前の時間の区間における特徴量方向の特徴を抽出する第１抽出工程と、
　前記特徴量方向の特徴から、前記時間の区間における時間方向の特徴を抽出する第２抽出工程と、
　前記特徴量方向の特徴および前記時間方向の特徴に基づいて、所定の時点における異常スコアを算出するとともに、前記異常スコアに対する前記所定の時点以前における特徴量方向の寄与度および時間方向の寄与度を算出する算出工程と、
　を含むことを特徴とする異常検知方法。
　コンピュータを請求項１から４のいずれか１項に記載の異常検知装置として機能させるための異常検知プログラム。