WO2022244077A1

WO2022244077A1 - 推定装置、推定方法および推定プログラム

Info

Publication number: WO2022244077A1
Application number: PCT/JP2021/018654
Authority: WO
Inventors: 智大永井; 拓也南
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-11-24
Also published as: JPWO2022244077A1; EP4325385A1; AU2021445975A1; US20240256667A1; CN117296068A

Abstract

推定部（１５ｂ）が、異常と判定された異常データと正常と判定された複数の正常データとのそれぞれとの類似度が最大の正常データを推定する。抽出部（１５ｃ）が、異常データと類似度が最大と推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する。

Description

推定装置、推定方法および推定プログラム

　本発明は、推定装置、推定方法および推定プログラムに関する。

　近年、工場にある制御装置の通信データを活用することで工場の最適化を目指すスマートファクトリーといわれる取り組みが推進されている。一方、スマートファクトリーを対象とした新種のサイバー攻撃の登場が懸念され、セキュリティ対策が急がれる。新種のサイバー攻撃の防御は難しく、検知の技術が希求されている。特に、自動で入力データから正常な特徴を学習する深層学習の用いたアノマリ型異常検知は、新種のサイバー攻撃を高精度に検知できるため、期待されている。

　しかし、深層学習の判断プロセスはブラックボックスであり、実運用を想定すると、異常と検知した原因を説明できないため、セキュリティ担当者が異常の原因を特定することが不可能である。そこで、近年、深層学習から異常の原因を説明するいわゆる説明可能なＡＩと呼ばれる技術が開示されている（非特許文献１参照）。

William　Briguglio　and　Sherif　Saad,　"Interpreting　Machine　Learning　Malware　Detectors　Which　Leverage　N-gram　Analysis",　[online],　[2021年4月14日検索]、インターネット＜URL:　https://arxiv.org/abs/2001.10916.pdf＞ Xiao　Zhang,　Manish　Marwah,　I-ta　Lee,　Martin　Arlitt,　Dan　Goldwasser,　"ACE-An　Anomaly　Contribution　Explainer　for　Cyber-Security　Applications",　[online],　[2021年4月14日検索]、インターネット＜URL:　https://arxiv.org/pdf/1912.00314.pdf＞

　しかしながら、従来の技術では、固定長の通信データを異常検知の対象として、異常の原因を特定するものであって、可変長の通信データを異常検知の対象として、異常の原因を特定することができなかった。

　本発明は、上記に鑑みてなされたものであって、可変長の通信データを異常検知の対象として、異常の原因を特定可能とすることを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る推定装置は、異常と判定された異常データと正常と判定された複数の正常データとを用いて、該異常データとの類似度が最大の正常データを推定する推定部と、前記異常データと推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する抽出部と、を有することを特徴とする。

　本発明によれば、可変長の通信データを異常検知の対象として、異常の原因を特定することが可能となる。

図１は、推定装置の概要を説明するための図である。図２は、推定装置の概略構成を例示する模式図である。図３は、抽出処理結果を例示する図である。図４は、推定処理手順を示すフローチャートである。図５は、実施例を説明するための図である。図６は、推定プログラムを実行するコンピュータを例示する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［推定装置の概要］
　図１は、推定装置の概要を説明するための図である。図１に示すように、本実施形態の推定装置は、可変長の通信データを異常検知の対象として、通信データの異常の原因と推定されるバイト箇所を特定する。具体的には、図１（ａ）に示すように、異常と判定された通信データ（異常判定データ）と複数の正常と判定された通信データ（正常判定データ）とのペアについて、図１（ｂ）に示すように、異常判定データと最も似ている正常判定データを特定する。その際に、推定装置は、複数に分割された部分の計算結果を記録しながら全体の計算結果を求める動的計画法を適用して、異常判定データと各正常判定データとの類似度を算出する。そのうち、図１（ｃ）に示すように、ギャップがある箇所を特定し、これを異常判定の原因となった異常バイトと推定する。

［推定装置の構成］
　図２は、推定装置の概略構成を例示する模式図である。図２に例示するように、推定装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ネットワークを介したサーバ等の外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、後述する推定処理の対象のデータセットやパラメータを管理する管理装置等と制御部１５との通信を制御する。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図２に例示するように、取得部１５ａ、推定部１５ｂ、抽出部１５ｃとして機能する。なお、これらの機能部は、それぞれあるいは一部が異なるハードウェアに実装されてもよい。例えば、推定部１５ｂと抽出部１５ｃとは異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

　取得部１５ａは、異常と判定されたデータと、正常と判定された複数のデータとを取得する。例えば、取得部１５ａは、入力部１１を介して、あるいは深層学習の結果を管理する管理装置等から通信制御部１３を介して、後述する推定処理の対象の異常データや推定処理に用いる正常データのデータセット、推定処理に用いるパラメータ等を取得する。

　なお、取得部１５ａは、取得したデータを、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される不図示の記憶部に記憶させてもよい。あるいは、取得部１５ａは、これらの情報を記憶部に記憶させずに、以下に説明する推定部１５ｂに転送してもよい。

　推定部１５ｂは、異常と判定された異常データと正常と判定された複数の正常データのそれぞれとの類似度が最大となる正常データを推定する。具体的には、推定部１５ｂは、取得されたデータを用いて、異常と判定されたパケットのペイロードと、正常と判定されたパケットのペイロードの集合との類似度を評価して、異常と判定されたパケットのペイロードに最も類似しているペイロードを推定する。

　例えば、推定部１５ｂは、動的計画法を適用して異常データと正常データとの類似度を算出する。ここで、推定装置１０は、深層学習による異常検知で異常／正常を判定されたデータのうち、１つの異常データと、例えば１００以上の複数の正常データとのパケットのペイロードを処理対象とする。ペイロードは、例えば、［００　００　１０　ＦＦ　１０］等のように表される１６進数の文字列であり、長さ１以上の可変長のデータ列である。

　推定部１５ｂは、異常データおよび正常データに出現する文字が連続してループするものとして異常データと正常データとの類似度を算出する。つまり、推定部１５ｂは、データに出現するバイト文字（００～ＦＦ）はループしているものとして、例えば、バイト文字「００」と「ＦＦ」の類似度と、「００」と「０１」の類似度とは同一の値とする。

　また、推定部１５ｂは、１つの異常データ列Ｘ＝［ｘ_１，ｘ_２，…，ｘ_ｎ］と複数の正常データ列Ｙ^１，Ｙ^２，…，Ｙ^ｋ，…，Ｙ^ｌのうちの１つの正常データ列Ｙ＝［ｙ_１，ｙ_２，…，ｙ_ｍ］）との類似度Ｓを算出する。その際に、推定部１５ｂは、動的計画法を用いて、Ｘとの類似度が最も高いＹ^{ｔａｒｇｅｔ}を算出する。

　動的計画法は、次式（１）、（２）のように表すことができる。

　上記式（１）は、異常データ列Ｘ中の１文字ｘ_ｉと正常データ列Ｙ中の１文字ｙ_ｊとの類似度ｓ（ｘ_ｉ，ｙ_ｊ）を用いて、ＸとＹとの類似度Ｓ（ｉ，ｊ）を数値化するものである。

　また、上記式（１）の１行目において、上記式（２）に示すように、ｘ_ｉとｙ_ｊが一致した場合にはｓ（ｘ_ｉ，ｙ_ｊ）として＋１０、一致しない場合には、ｘ_ｉとｙ_ｊの距離が差し引かれる。

　あるいは、推定部１５ｂは、例えば、異常データのバイト文字「００」と比較する場合に、比較先の正常データのバイト文字「００」との文字の類似度ｓは＋１０、「０１」「０２」「０３」「ＦＦ」「ＦＥ」「ＦＤ」との文字の類似度ｓは＋５、その他のバイト文字との類似度ｓは－５というように、予め設定してもよい。

　このように、推定部１５ｂは、異常データのおよび正常データの文字の類似度ｓを所定の範囲の値として、異常データと正常データとの類似度を算出する。

　また、推定部１５ｂは、異常データ列Ｘとｋ番目の正常データ列Ｙ^kとの類似度を評価した後に、異常データ列Ｘとｋ＋１番目の正常データ列Ｙ^ｋ＋１との類似度を評価する処理を、ｌ番目の正常データ列Ｙ^ｌまで繰り返す。

　このようにして、推定部１５ｂは、動的計画法を用いて、可変長のデータ同士を比較することが可能となる。

　その後、推定部１５ｂは、アノマリスコアを用いた補正を行うことにより、異常データ列Ｘと各正常データ列Ｙとの類似度を算出する。つまり、推定部１５ｂは、上記のＳ（ｉ，ｊ）に各正常データ列Ｙの深層学習による異常検知の結果のＡＩ異常度スコア（アノマリスコア）をバイアスとしてかけた値を、異常データ列Ｘと各正常データ列Ｙとの類似度として算出する。例えば、推定部１５ｂは、正常データのうち、アノマリスコアが低い方の正常データの異常データとの類似度スコアが高くなるように、バイアスをかける。そして、推定部１５ｂは、算出した類似度が最高値となる正常データ列ＹをＹ^{ｔａｒｇｅｔ}として特定する。

　抽出部１５ｃは、異常データと類似度が最大と推定された正常データとを比較して、正常データに対応する部分がない異常データの部分を、異常の原因箇所として抽出する。具体的には、抽出部１５ｃは、異常と判定されたパケットのペイロードのうち、推定されたペイロードとギャップがある箇所を異常箇所として抽出する。

　例えば、比較元の異常データのペイロードが「００　１１　ＦＦ　ＦＤ」であり、比較先の正常データのペイロードが「００　ＦＦ　ＦＤ」であった場合に、抽出部１５ｃは、比較元の２バイト目「１１」に対応する部分が正常データにはないため、異常箇所と判定して抽出する。この場合に、抽出部１５ｃは、正常データの２バイト目は空白文字で代替する。

　なお、正常データの２バイト目が「１１」ではない場合も、異常データと正常データの２バイト目をギャップのある箇所として抽出してもよい。

　また、抽出部１５ｃは、出力部１２を介して、抽出した異常箇所を出力する。例えば、抽出部１５ｃは、ディスプレイ等の出力部１２に異常データと正常データとのペアのペイロードを出力し、異常箇所と判定したギャップのある箇所をハイライトで強調して表示する。なお、抽出部１５ｃは、抽出した異常箇所の情報を、通信制御部１３を介して他の情報処理装置に出力してもよい。

　ここで、図３は、抽出処理結果を例示する図である。図３には、異常データとの類似度が最大であった正常データと、異常データのうち、その正常データとのギャップがある箇所とが例示されている。図３には、太字で示すように、「０Ｘ８６　０Ｘ８Ｃ　０Ｘ５Ｆ」が、ギャップがある異常箇所として表示されている。

［推定処理］
　次に、図４を参照して、本実施形態に係る推定装置１０による推定処理について説明する。図４は、推定処理手順を示すフローチャートである。図４のフローチャートは、例えば、推定処理の開始を指示する操作入力があったタイミングで開始される。

　まず、取得部１５ａが、異常と判定された異常データと、正常と判定された複数の正常データとを取得する（ステップＳ１）。

　次に、推定部１５ｂが、異常データと正常データのペアを作成する（ステップＳ２）。また、推定部１５ｂが、作成したペアのうち、異常データと正常データとの類似度が最大となるペアを推定する（ステップＳ３）。

　例えば、推定部１５ｂは、動的計画法を用いて、各ペアの類似度を算出する。その際に、推定部１５ｂは、異常データおよび正常データに出現する文字が連続してループするものとして各ペアの類似度を算出する。また、推定部１５ｂは、異常データのおよび正常データの文字の類似度を所定の範囲の値として、各ペアの類似度を算出する。また、推定部１５ｂは、アノマリスコアを用いた補正を行うことにより、各ペアの類似度を算出する。

　また、抽出部１５ｃは、異常データと類似度が最大と推定された正常データとを比較して、正常データに対応する部分がなくギャップのある異常データの部分を、異常の原因箇所として抽出する（ステップＳ４）。

　そして、抽出部１５ｃは、異常箇所と判定したギャップのある箇所をハイライトで強調して表示する等して出力部１２に出力する（ステップＳ５）。これにより、一連の推定処理が終了する。

　以上、説明したように、推定装置１０において、推定部１５ｂが、異常と判定された異常データと正常と判定された複数の正常データのそれぞれとの類似度が最大となる正常データを推定する。抽出部１５ｃが、異常データと類似度が最大と推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する。

　このように、推定装置１０は、正常データと異常データの長さに依らずに、正常データと最も類似する異常データの正常データと異なる部分を異常の原因箇所として特定することができる。これにより、推定装置１０は、可変長の通信データを異常検知の対象として、異常の原因を特定することが可能となる。

　また、推定部１５ｂは、動的計画法を適用して異常データと正常データとの類似度を算出する。このように、推定装置１０は、具体的に可変長の通信データを異常検知の対象として異常データと正常データとの類似度を算出することにより、精度高く異常の原因を特定することが可能となる。

　また、推定部１５ｂは、異常データおよび正常データに出現する文字が連続してループするものとして異常データと正常データとの類似度を算出する。このように、推定装置１０は、具体的に効率よく類似度を算出することにより、異常の原因を特定することが可能となる。

　また、推定部１５ｂは、異常データのおよび正常データの文字の類似度を所定の範囲の値として、異常データと正常データとの類似度を算出する。このように、推定装置１０は、具体的に効率よく類似度を算出することにより、精度高く異常の原因を特定することが可能となる。

　また、推定部１５ｂは、アノマリスコアを用いた補正を行うことにより、異常データと正常データとの類似度を算出する。このように、推定装置１０は、具体的に高精度に類似度を算出することにより、異常の原因を特定することが可能となる。

［実施例］
　図５は、実施例を説明するための図である。本実施例では、以下に示すように想定されたサイバー攻撃シナリオで発生する異常な通信データのバイト箇所の推定精度を計測した。

　サイバー攻撃シナリオとして、正常に稼働している通信の一部に、悪意のある者が悪性のプログラムを実行するためのコードを挿入し、不正操作を可能とする、悪性コード挿入攻撃を想定する。そして、悪性コードが挿入されているバイト箇所を異常箇所として推定した。

　例えば、正常な通信「００　０１　００　００　００　４１　６ｂ」、異常な通信「００　０１　００　００　５４　１ｂ　ＦＦ　ＦＦ　３１　００　４１　６ｂ」の場合に、挿入された悪性コード「５４　１ｂ　ＦＦ　ＦＦ　３１」を異常箇所として特定する。

　深層学習により正常ラベルまたは異常ラベルが付与されたパケットのうち、２１３３件の正常データと、挿入する悪性コードの長さ（１～３の３種類）ごとに１００件の異常データを用いて、正常データのランダムな１箇所に悪性コードのバイト列を挿入した。

　１パケットごとに、異常箇所を判定した。その際に、動的計画法で使用可能なデータ形式とするために、各バイトを１６進数（０ｘ００～０ｘｆｆ）から数値（０～２５５）に変換した。

　図５には、実施例の評価結果が例示されている。評価では、１パケットごとに、異常箇所のバイト列の推定が完全に一致しているかを確認し、完全一致している場合に正解、完全一致していない場合には誤りとした。

　図５に示すように、異常バイト列の挿入が１箇所の場合には、全てのパケットで異常箇所を推定できた。異常バイト列の挿入が２箇所の場合には、２件のパケットで正しく推定することができず、異常バイト列の挿入が３箇所の場合には、６件のパケットで正しく推定することができなかったものの、全体として、９０%以上の精度で推定できることを確認した。

［プログラム］
　上記実施形態に係る推定装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を推定装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、推定装置１０の機能を、クラウドサーバに実装してもよい。

　図６は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、推定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した推定装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、推定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　推定装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１５　制御部
　１５ａ　取得部
　１５ｂ　推定部
　１５ｃ　抽出部

Claims

　異常と判定された異常データと正常と判定された複数の正常データのそれぞれとの類似度が最大となる正常データを推定する推定部と、
　前記異常データと類似度が最大と推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する抽出部と、
　を有することを特徴とする推定装置。
　前記推定部は、動的計画法を適用して前記類似度を算出することを特徴とする請求項１に記載の推定装置。
　前記推定部は、異常データおよび正常データに出現する文字が連続してループするものとして類似度を算出することを特徴とする請求項２に記載の推定装置。
　前記推定部は、異常データのおよび正常データの文字の類似度を所定の範囲の値として、前記類似度を算出することを特徴とする請求項２に記載の推定装置。
　前記推定部は、アノマリスコアを用いた補正を行うことにより、前記類似度を算出することを特徴とする請求項２に記載の推定装置。
　推定装置が実行する推定方法であって、
　異常と判定された異常データと正常と判定された複数の正常データのそれぞれとの類似度が最大となる正常データを推定する推定工程と、
　前記異常データと類似度が最大と推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する抽出工程と、
　を含んだことを特徴とする推定方法。
　コンピュータに、
　異常と判定された異常データと正常と判定された複数の正常データのそれぞれとの類似度が最大となる正常データを推定する推定ステップと、
　前記異常データと類似度が最大と推定された正常データとを比較して、該正常データに対応する部分がない該異常データの部分を、異常の原因箇所として抽出する抽出ステップと、
　を実行させることを特徴とする推定プログラム。