WO2023112333A1

WO2023112333A1 - 推定装置、推定方法及び推定プログラム

Info

Publication number: WO2023112333A1
Application number: PCT/JP2021/046840
Authority: WO
Inventors: 友貴山中; 智大永井
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-06-22

Abstract

通信プロトコルのパケットに対して精度良く異常バイト箇所を推定する。抽出部（２３）は、自然言語処理モデルを基に、複数の正常パケットデータの中から異常パケットデータとの類似度が相対的に高い類似正常パケットデータを所定数抽出する。推定部（２４）は、抽出部（２３）により抽出された類似正常パケットデータの中から異常パケットデータとパケット長が同一の同一長パケットデータを抽出し、異常パケットデータと同一長パケットデータとをバイト毎に比較して異常バイト箇所を推定する。

Description

推定装置、推定方法及び推定プログラム

　本発明は、推定装置、推定方法及び推定プログラムに関する。

　産業系・ビル系等におけるオペレーショナルテクノロジ（ＯＴ：Operational　Technology）の通信ネットワークにおいて、異常検知システム又は侵入検知システム（ＯＴ－ＩＤＳ：Operational　Technology　Intrusion　Detection　System）が注目されている。このような通信ネットワークで送受信されるパケットでは、例えば、不正な書き換えにより温度の設定値が一桁変わってしまうなど、想定外のオペレーションが重大な事故を引き起こす場合がある。そのため、通信の内容にあたるペイロードの１バイトの不正な書き換えも見逃さずに検知できることが望まれる。したがって、産業系・ビル系のネットワーク制御システムを対象とした異常検知システムでは、ペイロード内容の精緻な分析が必要不可欠である。

　ペイロード内容の精緻な分析を行う技術として、例えば、ＢＥＲＴ(Bidirectional　Encoder　Representations　from　Transformers)等の自然言語処理技術をパケット分析に応用することで、任意のプロトコルのペイロードから情報を抽出して異常検知を行う技術が提供されている。さらに、異常検知時により多くの情報として、異常なバイト箇所を推定する技術が提案されている。これは、例えば、ＢＥＲＴＳｃｏｒｅ等を用いて、検知した異常パケットと最も類似の正常パケットを探し出し、その正常パケットと異常パケットをＢＥＲＴがエンコードした高次元空間上で比較する技術である。

山中友貴,　山田真徳,　高橋知克,　永井智大,　"BERTを用いたパケットペイロードの特徴抽出",　2021年度人工知能学会全国大会（第35回）

　しかしながら、従来の異常なバイト箇所を推定する技術は、限られた状況下のみではうまく働くが、一部の実際の異常通信に対しては精度良く異常バイト箇所を推定することが困難な場合がある。

　上述した課題を解決し、目的を達成するために、推定装置は、自然言語処理モデルを基に、複数の正常パケットデータの中から異常パケットデータとの類似度が相対的に高い類似正常パケットデータを所定数抽出する抽出部と、前記抽出部により抽出された前記類似正常パケットデータの中から前記異常パケットデータとパケット長が同一の同一長パケットデータを抽出し、前記異常パケットデータと前記同一長パケットデータとをバイト毎に比較して異常バイト箇所を推定する推定部とを備える。

　本発明によれば、通信プロトコルのパケットに対して精度良く異常バイト箇所を推定することができる。

図１は、実施形態に係る情報処理装置のブロック図である。図２は、質問生成部の詳細を表すブロック図である。図３は、質問生成モデルの学習を行う機械学習装置のブロック図である。図４は、質問応答学習データの一例を示す図である。図５は、質問生成モデルを学習するための学習用データのイメージ図である。図６は、実施形態に係る情報処理装置による質問文作成の一例を示す図である。図７は、実施形態に係る情報処理装置による質問生成処理のフローチャートである。図８は、実施形態に係る機械学習装置による機械学習処理のフローチャートである。図９は、実施形態に係る情報処理装置を用いた実験結果を示す図である。図１０は、情報処理プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願の開示す推定装置、推定方法及び推定プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する推定装置、推定方法及び推定プログラムが限定されるものではない。

［推定装置］
　図１を参照して本発明の実施の形態に係る推定装置１を説明する。推定装置１は、異常パケットが入力されると、その異常パケット中の異常バイトを推定して出力する。推定装置１は、他システムで異常と判定された異常パケットと、その他システムで正常と判定された正常パケットと比較して、入力された異常パケットにおける異常バイトの推定や挿入バイト箇所又は削除バイト箇所の推定を行う。例えば、正常パケット及び異常パケットは、それぞれ一つのオペレーションテクノロジの通信ネットワークで収集される。他システムは、任意の方法で、パケットの正常又は異常を判定すればよく、本発明の実施の形態において判定方法は問わない。

　推定装置１は、モデルデータ１１、正常ベクトルデータ群１２、正常パケットデータ群１３、異常パケットデータ１５、異常ベクトルデータ１６、類似正常パケットデータ群１７、異常バイト１８及び挿入／削除バイト箇所１９の各データを有する。また、推定装置１は、変換部２１、生成部２２、抽出部２３及び推定部２４を備える。

　モデルデータ１１は、パケットデータを、ベクトルデータに変換するモデルを特定する。ベクトルデータは、パケットデータの各バイトに、各バイトの値の特徴を表す各ベクトルを対応づける。モデルデータ１１は、後述の生成部２２によって、正常ベクトルデータ群１２の複数の正常パケットデータの各バイトの値を学習して生成される。各バイトの値の特徴は、複数の正常パケットデータの各バイトの値と比較して算出される。

　モデルデータ１１は、入力されたパケットデータの各バイトを、それぞれのバイトの位置関係等を考慮して、適切な固定長のベクトルに変換するモデルを特定する。ここで適切な固定長のベクトルは、後述の推定部２４において、異常ベクトルデータ１６と正常ベクトルデータとを比較することによって異常バイト箇所の存在を検出可能なベクトルを意味する。例えば図２に示すように、第１のバイトの値“２ｅ”、第２のバイトの値“３ｆ”、第３のバイトの値“００”・・・と、固定長のパケットデータがあるとする。このパケットデータの各バイトは、モデルによって、７８４次元ベクトルに変換される。図２に示す例においてモデルは、パケットデータの各バイトを、各バイトの値の特徴を表す７８４次元ベクトルに変換する。

　モデルデータ１１は、例えばＢＥＲＴによって生成される。ＢＥＲＴは、自然言語処理モデルである。本発明の実施の形態において、パケットデータの各バイトが一つの単語とみなされる。ＢＥＲＴを用いて生成されたモデルによって、パケットデータは、ベクトルデータに変換される。

　正常パケットデータ群１３は、他システムにおいて正常パケットと特定された複数のパケットのデータを含む。正常パケットデータ群１３には、ＢＥＲＴの学習に用いた正常パケットデータ群を用いても良いし、直近で推定装置１により正常判定されたパケットデータ群を用いても良いし、それらを混在させて用いても良い。異常パケットデータ１５との比較に用いられる正常パケットデータ群１３に含まれる正常パケットデータは、多ければ多いいほど推定装置１の推定精度は向上する。

　正常ベクトルデータ群１２は、複数の正常ベクトルデータを含む。正常ベクトルデータは、モデルデータ１１によって特定されるモデルを用いて、正常パケットデータ群１３に含まれる正常パケットデータが変換されたデータである。正常ベクトルデータ群１２は、生成部２２がモデルデータ１１を生成する際、または抽出部２３が異常ベクトルデータ１６に類似する類似正常ベクトルデータ群を抽出する際に参照される。正常ベクトルデータ群１２に含まれる複数の正常ベクトルデータを、生成部２２および抽出部２３がともに参照しても良い。あるいは正常ベクトルデータ群１２に含まれる複数の正常ベクトルデータを複数のグループにわけて、１つのグループを生成部２２が参照し、別のグループを抽出部２３が参照しても良い。

　異常パケットデータ１５は、他システムにおいて異常パケットと特定されたパケットのデータである。推定装置１は、１つの異常パケットデータ１５について異常バイト１８の推定や挿入／削除バイト箇所１９の推定を行う。

　異常ベクトルデータ１６は、異常パケットデータ１５をモデルデータ１１が特定するモデルで変換されたデータである。異常ベクトルデータ１６は、異常パケットデータ１５の各バイトの位置の識別子に、各バイトの値の特徴を表す各ベクトルを対応づける。

　類似正常パケットデータ群１７は、類似正常ベクトルデータ群の変換前の正常パケットデータの集合である。類似正常ベクトルデータ群は、正常ベクトルデータ群１２に含まれる複数の正常ベクトルデータのうち、異常ベクトルデータ１６と相対的に類似度が高いデータの集合である。類似正常ベクトルデータ群は、正常ベクトルデータ群１２に含まれる複数の正常ベクトルデータのうち、異常ベクトルデータ１６との類似度が最も高い正常ベクトルデータから類似度が高い順に所定数の正常ベクトルデータの集合である。ここで所定数とは、例えば、１００件とすることができる。あるいは、類似正常ベクトルデータ群は、類似度が予め決められた閾値よりも高い正常ベクトルデータのうちの所定数の正常ベクトルデータの集合でもよい。類似正常パケットデータ群１７は、類似正常ベクトルデータ群に含まれる所定数の正常ベクトルデータと同数の正常パケットデータを含む。すなわち、類似正常パケットデータ群１７は、所定数の正常パケットデータを含む。

　異常バイト１８は、異常パケットデータ１５の各バイトのうち、異常が推定されるバイトを特定するデータである。異常バイト１８は、例えば、異常パケットデータ１５と類似正常パケットデータ群１７に含まれる異常パケットデータ１５と同一長の正常パケットデータとの各バイトを１つずつ比較することで特定される。

　挿入／削除バイト箇所１９は、異常パケットデータ１５のうち、余分なバイトが挿入されたと疑われる挿入バイト箇所もしくは正常なバイトが削除されたと疑われる削除バイト箇所である。挿入／削除バイト箇所１９は、例えば、異常パケットデータ１５と類似正常パケットデータ群１７に含まれる類似正常パケットデータ各々の間の編集距離（Edit　Distance）を計算することで推定される。

　変換部２１は、モデルデータ１１で特定されるモデルを用いて、異常パケットデータ１５を異常ベクトルデータ１６に変換する。例えば図２に示すように、変換部２１は、異常パケットデータ１５の各バイトの値を、７８４次元ベクトルに変換する。変換部２１は、異常パケットデータ１５の各バイトの位置と、そのバイトから変換された７８４次元ベクトルを対応づけて、異常ベクトルデータ１６を出力する。

　生成部２２は、正常ベクトルデータ群１２の複数の正常パケットデータの各バイトの値を学習して、モデルデータ１１が特定するモデルを生成する。モデルは、パケットデータを、パケットデータの各バイトに、各バイトの値の特徴を表す各ベクトルを対応づけるベクトルデータに変換する。生成部２２は、例えば、ＢＥＲＴに従ってモデルを生成する。生成部２２は、正常パケットデータにおける各バイトの値の特徴を、ＭＬＭ(Masked　Language　Model)またはＮＳＰ(Next　Sentence　Prediction)などの補助タスクを解いて予備学習しても良い。ＭＬＭは、複数のバイトが欠落しているパケットにおいて、これらの欠落しているバイトの値を予測する。ＮＳＰは、２つのパケットデータが連続したパケットであるか否かを判定する。生成部２２は、これらの補助タスクにより、パケット内のデータの妥当性および連続するパケットの妥当性を特定して、生成部２２は、正常ベクトルデータを特定するモデルを生成する。ここに挙げる補助タスクは一例であって、生成部２２は、その他の補助タスクを解いて学習しても良い。

　抽出部２３は、正常ベクトルデータ群１２の複数の正常ベクトルデータから、異常ベクトルデータ１６との類似度が相対的に高い正常ベクトルデータを所定数抽出する。抽出部２３は、抽出した所定数の正常ベクトルデータを、類似正常ベクトルデータ群とする。

　類似度が相対的に高いとは、異常ベクトルデータ１６とある正常ベクトルデータとの類似度が、異常ベクトルデータ１６と他の正常ベクトルデータとの類似度よりも高いことを言う。抽出部２３は、異常ベクトルデータ１６との類似度が最も高い正常ベクトルデータから類似度が高い順に所定数の正常ベクトルデータを抽出してもよい。ここで所定数とは、例えば、１００件とすることができる。あるいは、抽出部２３は、類似度が閾値よりも高い正常ベクトルデータのうちの所定数の正常ベクトルデータを抽出してもよい。

　抽出部２３は、異常ベクトルデータ１６と、正常ベクトルデータ群１２の各正常ベクトルデータとの類似度を算出する。抽出部２３は、正常ベクトルデータ群１２のうちの一部の正常ベクトルデータとの類似度を算出しても良い。例えば一部の正常ベクトルデータは、複数の正常パケットデータから、ＭＭＤ－Ｃｒｉｔｉｃ(ＭＭＤ:Maximum　Mean　Discrepancy)で複数の代表パケットデータを抽出し、抽出した各代表パケットデータをモデルで変換して得られた複数の正常ベクトルデータである。あるいは一部の正常ベクトルデータは、複数の正常パケットデータから異常パケットデータ１５と同じパケット長の正常パケットデータを抽出し、抽出した各正常パケットデータをモデルで変換して得られた複数の正常ベクトルデータである。

　抽出部２３は、類似度として、ＢＥＲＴＳｃｏｒｅを用いても良い。あるいは、抽出部２３は、異常ベクトルデータ１６の各バイトについて、異常ベクトルデータ１６のベクトルと正常ベクトルデータのベクトルとの類似度を算出して、各バイトについて算出された類似度から、異常ベクトルデータ１６と正常ベクトルデータとの類似度を算出しても良い。各バイトのベクトル間の類似度は、Ｃｏｓｉｎｅ類似度が用いられても良い。異常ベクトルデータ１６と正常ベクトルデータとの類似度は、例えば、各バイトについて算出された類似度の平均である。このとき、異常ベクトルデータ１６のベクトルの数と、正常ベクトルデータのベクトルの数とが異なる場合、少ないベクトルの数にあわせて、類似度が算出されても良い。なお各ベクトルデータのベクトルの数は、変換前のパケットデータのバイト数である。

　次に、抽出部２３は、類似正常ベクトルデータ群に含まれる所定数の正常ベクトルデータの変換前の所定数の正常パケットデータを正常パケットデータ群１３から取得する。そして、抽出部２３は、取得した所定数の正常パケットデータを類似正常パケットデータ敏、その類似正常パケットデータの集合を、類似正常パケットデータ群１７とする。

　推定部２４は、異常パケットデータ１５と類似正常パケットデータ群１７に含まれる類似正常パケットデータとを比較して、異常パケットデータ１５に含まれる異常バイト１８の推定、又は、異常パケットデータ１５における挿入／削除バイト箇所１９の推定を行う。以下に、推定部２４による推定の詳細について説明する。推定部２４は、図１に示すように、長さ比較部２４１、異常バイト推定部２４２及び挿入／削除バイト箇所推定部２４３を有する。

　長さ比較部２４１は、異常パケットデータ１５と類似正常パケットデータ群１７に含まれる所定数の類似正常パケットデータとのパケット長を比較する。長さ比較部２４１は、所定数の正常パケットデータのうち、予め決められた判定閾値以上の数の類似正常パケットデータが異常パケットデータ１５と同一のパケット長を有する場合、バイトの書き換えが発生したと判定する。ここで、判定閾値は、指定可能なパラメーターである。判定閾値は、例えば、５０％の固定値とすることができる。あるいは、閾値は、所定の計算により特定されても良い。例えば、互いに類似する２つの類似正常パケットデータのペアを複数抽出し、所定のバイトに対応する２つの類似正常パケットデータの各ベクトルの類似度のうち、最も低い類似度から、閾値が特定されても良い。以下では、異常パケットデータ１５と同一のパケット長を有する抽出した正常パケットデータを、「同一長正常パケットデータ」と呼ぶ。そして、長さ比較部２４１は、異常パケットデータ１５及び同一長正常パケットデータを異常バイト推定部２４２へ出力する。

　これに対して、同一長正常パケットデータの数が判定閾値未満の場合、長さ比較部２４１は、バイトの挿入又は削除が発生した、もしくは異常パケットデータ１５は正常パケットデータとは全く異なると判定する。そして、長さ比較部２４１は、異常パケットデータ１５及び類似正常パケットデータ群１７に含まれる所定数の正常パケットデータを全て異常バイト推定部２４２へ出力する。

　異常バイト推定部２４２は、異常パケットデータ１５及び同一長正常パケットデータを長さ比較部２４１から取得する。そして、異常バイト推定部２４２は、異常パケットデータ１５におけるバイトの書き換え箇所を特定するために、取得した同一長正常パケットデータと異常パケットデータ１５との比較を行う。

　具体的には、異常バイト推定部２４２は、比較用に抽出された同一長正常パケットデータの１バイト目の値を直接０－２５５の間の数字として扱い四分位範囲を算出する。そして、異常バイト推定部２４２は、算出した四分位範囲の中に異常パケットデータ１５の１バイト目の数値が含まれるかどうかを判定する。算出した四分位範囲の中に異常パケットデータ１５の１バイト目の数値が含まれる場合、異常バイト推定部２４２は、１バイト目は正常と判定する。また、算出した四分位範囲の中に異常パケットデータ１５の１バイト目の数値が含まれない場合、異常バイト推定部２４２は、１バイト目を異常バイトとみなす。以降、異常バイト推定部２４２は、２バイト目、３バイト目と順番に各バイトの比較を行い、それぞれのバイトが異常バイト箇所か否かを判定して異常バイトの推定を行う。なお、ここでは各バイトの比較に四分位範囲を用いたが、１次元のデータを扱える異常検知手法であれば、ノンパラメトリック法やナイーブベイズ法等、用いることができる異常検知手法に特に制限はない。

　異常バイト箇所が一定値未満の同一長正常パケットデータが存在する場合、異常バイト推定部２４２は、異常バイト箇所が一定値未満の同一長正常パケットデータの中から、異常バイト箇所が最小の正常パケットデータを最終類似正常パケットデータとして選択する。その後、異常バイト推定部２４２は、最終類似正常パケットデータにおける記憶した異常バイト箇所を異常バイト１８として推定する。

　これに対して、取得した全ての同一長正常パケットデータにおいて異常バイト箇所が一定値以上の場合、異常バイト推定部２４２は、異常パケットデータ１５に対応する最終類似正常パケットデータなしとして処理する。ここで、一定値は、例えば、おおよそパケット長の１／３～１／２程度を指定することができるパラメーターである。

　挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５及び所定数の正常パケットデータを長さ比較部２４１から取得する。そして、挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５におけるバイトの挿入バイト箇所又は削除バイト箇所を特定するために、取得した正常パケットデータと異常パケットデータ１５との比較を行う。

　具体的には、挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５と正常パケットデータ各々との間で動的計画法を用いて編集距離を計算する。挿入／削除バイト箇所推定部２４３は、編集距離を計算することで、挿入が疑われる挿入バイト箇所又は削除が疑われる削除バイト箇所を特定することができる。

　そして、編集距離が一定距離未満の正常パケットデータが存在する場合、挿入／削除バイト箇所推定部２４３は、編集距離が一定距離未満の正常パケットデータのうち、編集距離が最短の正常パケットデータを最終類似正常パケットデータとして選択する。そして、挿入／削除バイト箇所推定部２４３は、選択した最終類似正常パケットデータの編集距離を用いて挿入／削除バイト箇所１９を推定する。

　これに対して、取得した全ての正常パケットデータにおいて編集距離が一定距離以上の場合、挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５に対応する最終類似正常パケットデータなしとして処理する。ここで、一定距離は、例えば、おおよそパケット長の１／３～１／２程度を指定することができるパラメーターである。

　［実施形態の処理］
　図３は、実施形態に係る推定装置による推定処理のフローチャートである。次に、図３を参照して、本実施形態に係る推定装置による推定処理の流れについて説明する。

　変換部２１は、異常パケットデータ１５を異常ベクトルデータ１６に変換する（ステップＳ１）。

　抽出部２３は、正常ベクトルデータ群１２から、ステップＳ１で変換した異常ベクトルデータ１６に類似する正常ベクトルデータを所定数抽出して（ステップＳ２）、類似正常ベクトルデータ群とする。

　次に、抽出部２３は、類似正常ベクトルデータ群に含まれる正常ベクトルデータの変換前の所定数の正常パケットデータを正常パケットデータ群１３から取得して（ステップＳ３）、類似正常パケットデータとして、その集合を類似正常パケットデータ群１７とする。

　推定部２４の長さ比較部２４１は、異常パケットデータ１５と類似正常パケットデータ群１７に含まれる各類似正常パケットデータとを比較する（ステップＳ４）。そして、長さ比較部２４１は、異常パケットデータ１５と同一のパケット長の同一長正常パケットデータが類似正常パケットデータ群１７に判定閾値以上含まれるか否かを判定する（ステップＳ５）。

　同一長正常パケットデータが判定閾値以上存在する場合（ステップＳ５：肯定）、長さ比較部２４１は、異常バイト１８が存在すると判定する。そして、長さ比較部２４１は、異常パケットデータ１５及び同一長正常パケットデータを異常バイト推定部２４２へ送信する。異常バイト推定部２４２は、異常パケットデータ１５及び同一長正常パケットデータを取得して、異常バイト推定処理を実行する（ステップＳ６）。

　これに対して、同一長正常パケットデータの数が判定閾値未満である場合（ステップＳ５：否定）、長さ比較部２４１は、挿入バイト箇所又は削除バイト箇所が存在すると判定する。そして、長さ比較部２４１は、異常パケットデータ１５及び類似正常パケットデータ群１７に含まれる所定数の類似正常パケットデータの全てを挿入／削除バイト箇所推定部２４３へ送信する。挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５及び所定数の類似正常パケットデータを取得して、挿入／削除バイト箇所推定処理を実行する（ステップＳ７）。

　図４は、異常バイト推定処理のフローチャートである。図４に示したフローは、図３におけるステップＳ６で実行される異常バイト推定処理の一例にあたる。

　異常バイト推定部２４２は、同一長正常パケットデータの中から未選択の同一長正常パケットデータを１つ選択する（ステップＳ１０１）。

　次に、異常バイト推定部２４２は、比較するバイトの位置を表すパラメーターであるｎを１に設定する（ステップＳ１０２）。

　次に、異常バイト推定部２４２は、選択した同一長正常パケットデータと異常パケットデータ１５とのｎバイト目を比較する（ステップＳ１０３）。例えば、異常バイト推定部２４２は、選択した同一長正常パケットデータのｎバイト目の値を直接０－２５５の間の数字として扱い四分位範囲を算出する。そして、異常バイト推定部２４２は、算出した四分位範囲の中に異常パケットデータ１５のｎバイト目の数値が含まれるかどうかを判定する。

　次に、異常バイト推定部２４２は、比較結果を用いてｎバイト目が異常バイトか否かを判定する（ステップＳ１０４）。例えば、算出した四分位範囲の中に異常パケットデータ１５のｎバイト目の数値が含まれる場合、異常バイト推定部２４２は、ｎバイト目を正常と判定する。逆に、算出した四分位範囲の中に異常パケットデータ１５のｎバイト目の数値が含まれない場合、異常バイト推定部２４２は、ｎバイト目を異常バイトとみなす。ｎバイト目が異常バイトでない場合（ステップＳ１０４：否定）、異常バイト推定部２４２は、ステップＳ１０６へ進む。

　これに対して、ｎバイト目が異常バイトである場合（ステップＳ１０４：肯定）、異常バイト推定部２４２は、異常パケットデータ１５におけるｎバイト目を異常バイト箇所として記憶して（ステップＳ１０５）、ステップＳ１０６へ進む。

　そして、異常バイト推定部２４２は、ｎバイト目が異常パケットデータ１５における最終バイトか否かを判定する（ステップＳ１０６）。ｎバイト目が最終バイトでない場合（ステップＳ１０６：否定）、異常バイト推定部２４２は、ｎを１つインクリメントして（ステップＳ１０７）、ステップＳ１０３へ戻る。

　これに対して、ｎバイト目が最終バイトの場合（ステップＳ１０６：肯定）、異常バイト推定部２４２は、同一長正常パケットデータの全ての選択が完了したか否かを判定する（ステップＳ１０８）。未選択の同一長正常パケットデータが残っている場合（ステップＳ１０８：否定）、異常バイト推定部２４２は、ステップＳ１０１へ戻る。

　これに対して、同一長正常パケットデータの全ての選択が完了した場合（ステップＳ１０８：肯定）、異常バイト推定部２４２は、記憶した異常バイトの箇所が一定値未満である同一長正常パケットデータが存在するか否かを判定する（ステップＳ１０９）。

　異常バイト箇所が一定値未満の同一長正常パケットデータが存在する場合（ステップＳ１０９：肯定）、異常バイト推定部２４２は、以下の処理を行う。この場合、異常バイト推定部２４２は、異常バイト箇所が一定値未満である同一長正常パケットデータの中から、異常バイト箇所の数が最小である正常パケットデータを最終類似正常パケットデータとして選択する。そして、異常バイト推定部２４２は、最終類似正常パケットデータ対する記憶した異常パケットデータ１５の異常バイト箇所を異常バイト１８として推定して（ステップＳ１１０）、異常バイト推定処理を終了する。

　これに対して、　異常バイト箇所が一定値未満の同一長正常パケットデータが存在しない場合（ステップＳ１０９：否定）、異常バイト推定部２４２は、最終類似正常パケットデータなしと判定して（ステップＳ１１１）、異常バイト推定処理を終了する。

　図５は、挿入／削除バイト箇所推定処理のフローチャートである。図５に示したフローは、図３におけるステップＳ７で実行される挿入／削除バイト箇所推定処理の一例にあたる。

　挿入／削除バイト箇所推定部２４３は、所定数の類似正常パケットデータの中から未選択の正常パケットデータを１つ選択する（ステップＳ２０１）。

　次に、挿入／削除バイト箇所推定部２４３は、異常パケットデータ１５と選択した類似正常パケットデータとの間の編集距離を間で動的計画法を用いて算出する（ステップＳ２０２）。

　次に、挿入／削除バイト箇所推定部２４３は、所定数の類似正常パケットデータの全ての選択が完了したか否かを判定する（ステップＳ２０３）。所定数の類似正常パケットデータのうち未選択の正常パケットデータが残っている場合（ステップＳ２０３：否定）、挿入／削除バイト箇所推定部２４３は、ステップＳ２０１へ戻る。

　これに対して、所定数の類似正常パケットデータの全ての選択が完了した場合（ステップＳ２０３：肯定）、挿入／削除バイト箇所推定部２４３は、編集距離が一定距離未満の類似正常パケットデータが存在するか否かを判定する（ステップＳ２０４）。

　編集距離が一定距離未満の類似正常パケットデータが存在する場合（ステップＳ２０４：肯定）、挿入／削除バイト箇所推定部２４３は、以下の処理を実行する。この場合、挿入／削除バイト箇所推定部２４３は、編集距離が一定距離未満の類似正常パケットデータのうち編集距離が最短の類似正常パケットデータを最終類似正常パケットデータとして選択する。そして、挿入／削除バイト箇所推定部２４３は、選択した最終類似正常パケットデータと異常パケットデータ１５との間の編集距離を用いて挿入／削除バイト箇所１９を推定して（ステップＳ２０５）、挿入／削除バイト箇所推定処理を終了する。

　これに対して、編集距離が一定距離未満の類似正常パケットデータが存在しない場合（ステップＳ２０４：否定）、挿入／削除バイト箇所推定部２４３は、最終類似正常パケットデータなしと判定して（ステップＳ２０６）、異常バイト推定処理を終了する。

［実験結果］
　次に、本実施形態に係る推定装置１による異常バイト１８もしくは挿入／削除バイト箇所１９の推定の実験を行った場合の実験結果について説明する。ここでは、以下の条件で実験を実施した。ＢＥＲＴは、Ｍｏｄｂｕｓ／ＴＣＰ３万件で学習を行うことにより学習済みである。また、データセットとして、４００件の正常パケットデータと１００件の異常パケットデータ１５とを利用した。異常パケットデータ１５は、１件ずつ入力して原因推定を実施した。また、この実験においては、完全一致のみ推定成功とみなした。

　第１の実験として、ペイロードのｎ箇所をランダムなバイトで書き換えるといったバイト書き換えの実験を行った。

　図６は、バイトの書き換えを行った場合の実験結果を示す図である。また、図７は、ランダムバイトを挿入した場合の実験結果を示す図である。また、図８は、バイトの削除を行った場合の実験結果を示す図である。図６～８のいずれも、縦軸で推定成功の割合を表し、横軸で削除バイトの個数を表す。ここで、推定成功の割合は、１００件の異常パケットデータ１５の全てについて推定成功した場合を１として、推定成功した割合を表す。

　バイトを書き換える実験の場合、図６に示すように、推定装置１は、５箇所を書き換えても９０％程度の推定が可能である。この場合、パケット長が１２～２５であるので、５が所の書き換えを行ってもほぼ推定することができるということは、推定精度がかなり良いと考えることができる。

　ランダムバイトを挿入する実験の場合、図７に示すように、推定装置１は、２箇所の書き換えまでであれば９０％程度の推定が可能である。ただし、３か所以上への挿入では推定精度は低下し、５箇所の書き換えでは、推定精度は５０％まで落ちる。これは、大部分を占めるパケット長が１２，１４又は１５であるデータパケットがランダムバイトの挿入により混ざってしまい、ＢＥＲＴによる類似正常パケットデータ群１７の抽出がうまく働かなかったことが一因と考えられる。すなわち、ランダムバイトの挿入によりパケット長が被りにくい条件であれば、３か所以上への挿入であっても推定精度は向上すると考えられる。

　バイトを削除する実験の場合、図８に示すように、推定装置１が行う推定の推定精度が出ていないようにも見える。これは、次の理由によるものと考えられる。図９は、バイトの削除の精度低下の原因を説明するための図である。例えば、図９におけるデータ１０１が、元となる正常パケットデータであり、データ１０１のバイト１１０を削除して異常パケットデータ１５を生成した場合の実験について考える。この場合、推定装置１は、異常パケットデータ１５として、データ１０２を生成する。データ１０２を用いて削除バイト箇所の推定を行うと、推定装置１は、判定結果パケットデータ１０３におけるバイト１３０を削除箇所として推定する場合がある。この実験では、このような推定は正解として取り扱われないため、推定精度が低下する。

　ただし、図９のデータ１０１においてバイト１１０に隣接するバイトが同じ値を有することから、データ１０２を基にすると、実際の削除箇所とは異なるが箇所の削除も存在する。この場合、同じ値を有するいずれのバイトを削除しても等価と考えることもできる。したがって、この判定結果は、厳密には間違っているといえるが、おおよそ正しいと考えることもできる。実際に、目視による確認の場合、すなわち、隣り合う同じ値を有するバイトにおける削除バイト箇所の間違いを無視した場合、削除箇所が３箇所程度であれば、推定精度は９０％程度であった。

　以上の実験から、バイトの書き換え、ランダムバイトの挿入、並びに、バイトの削除のいずれの異常であっても、本実施形態に係る推定装置１によれば、異常検出において高い推定精度を確保することができると考えられる。

［実施形態の効果］
　以上に説明したように、本実施形態に係る推定装置１は、検知した異常パケットデータ１５と類似する所定数の類似正常パケットデータを、ＢＥＲＴを用いて抽出する。そして、推定装置１は、異常パケットデータ１５と類似正常パケットデータとをバイト毎に比較しての改ざん箇所の推定や、編集距離算出を用いた挿入バイト箇所及び削除バイト箇所の推定を行う。これにより、任意の通信プロトコルのパケットに対して、異常バイト箇所又は挿入／削除バイト箇所１９の推定を精度良く行うことが可能となる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメーターを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、推定装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の質問生成処理を実行する情報処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定処理プログラムをコンピュータに実行させることにより、コンピュータを推定装置１として機能させることができる。ここで言うコンピュータには、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、コンピュータにはスマートフォン、携帯電話機やＰＨＳ（Personal　Handy-phone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。推定装置１は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の管理処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１０は、推定処理プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０やキーボード１１２０などの入力部１２００に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０などの出力部１３００に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、推定装置１と同等の機能を持つ推定装置１の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、推定装置１における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　推定装置
　１１　モデルデータ
　１２　正常ベクトルデータ群
　１３　正常パケットデータ群
　１５　異常パケットデータ
　１６　異常ベクトルデータ
　１７　類似正常パケットデータ群
　１８　異常バイト
　１９　挿入／削除バイト箇所
　２１　変換部
　２２　生成部
　２３　抽出部
　２４　推定部
　２４１　長さ比較部
　２４２　異常バイト推定部
　２４３　挿入／削除バイト箇所推定部

Claims

　自然言語処理モデルを基に、複数の正常パケットデータの中から異常パケットデータとの類似度が相対的に高い類似正常パケットデータを所定数抽出する抽出部と、
　前記抽出部により抽出された前記類似正常パケットデータの中から前記異常パケットデータとパケット長が同一の同一長パケットデータを抽出し、前記異常パケットデータと前記同一長パケットデータとをバイト毎に比較して異常バイト箇所を推定する推定部と
　を備えたことを特徴とする推定装置。
　前記推定部は、前記異常パケットデータ及び前記同一長パケットデータのそれぞれの各バイトを数値として扱って比較する１次元の異常検知を行うことを特徴とする請求項１に記載の推定装置。
　前記抽出部は、前記所定数の前記類似正常パケットデータのうち前記同一長パケットデータの数が判定閾値未満の場合、前記異常パケットデータと前記類似正常パケットデータとの間の編集距離を基に、前記異常バイト箇所を推定することを特徴とする請求項１又は２に記載の推定装置。
　パケットデータの各バイトの値の特徴を表すそれぞれのベクトルを各前記バイトに対応づけるベクトルデータに、前記パケットデータを変換する前記自然言語処理モデルを用いて、複数の前記正常パケットデータが変換された複数の正常ベクトルデータの中から、前記異常パケットデータが前記自然言語処理モデルを用いて変換された異常ベクトルデータとの類似度が相対的に高い前記所定数の類似正常ベクトルデータを特定し、前記類似正常ベクトルデータの変換前の前記正常パケットデータを前記類似正常パケットデータとして抽出することを特徴とする請求項１～３のいずれか一つに記載の推定装置。
　前記抽出部は、前記自然言語処理モデルとしてBidirectional　Encoder　Representations　from　Transformers（ＢＥＲＴ）を用いることを特徴とする請求項１～４のいずれか一つに記載の推定装置。
　自然言語処理モデルを基に、複数の正常パケットデータの中から異常パケットデータとの類似度が相対的に高い類似正常パケットデータを所定数抽出し、
　前記類似正常パケットデータの中から前記異常パケットデータとパケット長が同一の同一長パケットデータを抽出し、
　前記異常パケットデータと前記同一長パケットデータとをバイト毎に比較して異常バイト箇所を推定する
　ことを特徴とする推定方法。
　自然言語処理モデルを基に、複数の正常パケットデータの中から異常パケットデータとの類似度が相対的に高い類似正常パケットデータを所定数抽出し、
　前記類似正常パケットデータの中から前記異常パケットデータとパケット長が同一の同一長パケットデータを抽出し、
　前記異常パケットデータと前記同一長パケットデータとをバイト毎に比較して異常バイト箇所を推定する
　処理をコンピュータに実行させることを特徴とする推定プログラム。