WO2023281684A1

WO2023281684A1 - 通信分析装置、通信分析方法、通信分析システムおよび記録媒体

Info

Publication number: WO2023281684A1
Application number: PCT/JP2021/025727
Authority: WO
Inventors: 光一晒谷
Original assignee: 日本電気株式会社
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-01-12

Abstract

通信パケットの分析のための学習モデルの精度を向上することを可能にするために、通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する。

Description

通信分析装置、通信分析方法、通信分析システムおよび記録媒体

　本発明は、通信分析装置等に関する。

　通信事業者のネットワークには様々なデータが流通している。また、近年、流通するデータの量が増加している。その一方、サイバー攻撃の手法が進化し、サイバー攻撃による被害の件数が増加している。そのため、通信事業者ではネットワークの安全性の確保が課題になっている。

　この課題に対応して、教師あり学習を用いて通信パケットを分析する方法が、たとえば、特許文献１から特許文献３に開示されている。特許文献１や特許文献２には、セキュリティ装置が正常な通信データを用いて機械学習を行い、この機械学習により生成された学習モデルを用いて不正な通信を検出することが記載されている。また、特許文献３には、ネットワーク侵入探知システムが教師あり学習を行い、ネットワーク上のパケットが異常的なパケットであるか否かを、学習モデルを用いて探知することが記載されている。

国際公開第２０２１／００９９２５号特開２０１９－１８５１８３号公報特開２００７－１７９５４２号公報

　特許文献１から特許文献３に記載の方法のいずれでも、教師あり学習が行われている。教師あり学習には、学習の用途に応じた教師データの用意が必要である。不正な通信の分析を目的とした学習を行う場合、教師あり学習は、教師データとして、正常パケットのみの集合、または、異常パケットのみの集合を必要とする。しかし、ネットワークを流れる不正な通信（攻撃手法）は、常に変化する。また、未知の攻撃手法についての異常パケットは、用意されることができない。そのため、最新の攻撃手法が反映された教師データの用意が困難である。したがって、ネットワークで実際に流通している通信パケットの分析のために教師あり学習が行われる場合、教師データの用意が困難である。

　一方、教師なし学習を行う学習装置は、教師データを必要としないので、正常か否かをあらかじめ判断された通信パケットを必要としない。そのため、ネットワーク上に実際にリアルタイムで流通しているデータを学習用データとして使用することができる。しかし、実際に流通しているデータが教師なし学習の学習用データとして使用される場合、学習データには、正常な通信と異常な通信とが混在する。そのため、不正な通信を検知することを目的とした場合の学習モデルによる通信パケットの分析精度が低くなる。

　本発明の目的は、通信パケットの分析のための学習モデルの精度を向上することを可能にする通信分析装置等を提供することにある。

　本発明の一態様において、通信分析装置は、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段とを備える。

　また、本発明の他の態様において、通信分析方法は、通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する通信分析方法。

　また、本発明の他の態様において、コンピュータ読み取り可能な記録媒体に記録された通信分析プログラムは、コンピュータに、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能とを実現させる。

　また、本発明の他の態様において、通信分析システムは、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段とを備える。

　本発明によれば、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

本発明の第一の実施形態の通信分析装置の構成例を示す図である。本発明の第一の実施形態の通信分析装置の動作例を示す図である。本発明の第二の実施形態の通信分析装置を含むシステムの構成例を示す図である。本発明の第二の実施形態の通信分析装置の構成例を示す図である。本発明の第二の実施形態の通信分析装置の他の構成例を示す図である。本発明の第二の実施形態の通信分析装置の動作例を示す図である。本発明の第二の実施形態の通信分析装置の動作例を示す図である。本発明の各実施形態のハードウェア構成例を示す図である。

　［第一の実施形態］
　本発明の第一の実施の形態について説明する。第一の実施の形態における通信分析装置１０の具体的な一例が、後述する第二の実施の形態における通信分析装置２０である。

　通信分析装置１０は、抽出部１１、除去部１２、学習部１３および分析部１４を含む。

　抽出部１１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部１２は、抽出データからノイズデータを除去する。ノイズデータは、学習精度の低下の要因となるデータである。

　学習部１３は、教師なし学習によって学習モデルを生成する。学習部１３は、除去後データを学習用データとして使用して、学習モデルを生成する。除去後データは、ノイズデータが除去された後の抽出データである。分析部１４は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。抽出データの分析の際、学習モデルへの入力データは、抽出データである。また、学習モデルからの出力データは、抽出データに対する分析の結果である。

　このように通信分析装置１０を構成することによって、抽出部１１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部１２は、抽出データからノイズデータを除去する。学習部１３は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部１４は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　次に、図２に本実施形態の通信分析装置１０の動作の例を示す。

　抽出部１１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する（ステップＳ１０１）。除去部１２は、抽出データからノイズデータを除去する（ステップＳ１０２）。

　学習部１３は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する（ステップＳ１０３）。分析部１４は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する（ステップＳ１０４）。

　通信分析装置１０は、このように動作することによって、通信パケットの分析に使用される抽出データを通信パケットから抽出する。また、通信分析装置１０は、抽出データからノイズデータを除去する。また、通信分析装置１０は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。また、通信分析装置１０は、生成された学習モデルを用いて、抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　以上で説明したように、本発明の第一の実施形態では、通信分析装置１０は、抽出部１１、除去部１２、学習部１３および分析部１４を含む。抽出部１１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部１２は、抽出データからノイズデータを除去する。学習部１３は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部１４は、生成された学習モデルを用いて、抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　［第二の実施形態］
　次に、本発明の第二の実施の形態における通信分析装置２０について説明する。

　まず、図４に本実施形態の通信分析装置２０を含むシステムの構成例を示す。通信分析装置２０は、蓄積装置５０と互いに接続する。

　蓄積装置５０は、学習や分析に使用される通信パケットを収集して蓄積する。蓄積対象の通信パケットは、たとえば、コアネットワークと海外キャリアとの間のＮＮＩ（Network Node Interface）を経由する通信パケットである。蓄積対象の通信パケットは、コアネットワークとアクセスネットワークとの間のＵＮＩ（User Network Interface）を経由する通信パケットであってもよい。また、蓄積対象の通信パケットは、コアネットワークとＭＶＮＯ（Mobile Virtual Network Operator）との間のＮＭＩを経由する通信パケットや、コアネットワークとインターネットとの間で送受信される通信パケットなどであってもよい。蓄積対象の通信パケットは、ここで挙げられているものに限られない。

　通信分析装置２０は、蓄積装置５０から入力された通信パケットについて、通信パケットの分析を行い、分析の結果を出力する。通信分析装置２０は、たとえば、表示手段（図示せず）などに分析の結果を出力する。なお、本実施形態では、通信分析装置２０は、サイバー攻撃を目的とした攻撃データが通信パケット（通信フロー）に含まれているか否かを分析する。通信分析装置２０が行う分析は、攻撃データの有無の分析に限られない。

　次に、図４に本実施形態の通信分析装置２０の構成例を示す。本実施形態の通信分析装置２０は、抽出部２１、除去部２２、学習部２３、分析部２４およびモデル記憶部２５を含む。

　抽出部２１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。通信パケットは、蓄積装置５０から入力される。抽出部２１には、あらかじめ定められた量の通信パケットが入力される。たとえば、抽出部２１には、１パケット分、１日分、１か月分などの通信パケットが入力される。

　抽出部２１によって抽出されるデータは、たとえば、通信パケットに含まれているパラメータである。通信パケットに含まれているパラメータは、たとえば、送信元ＩＰ(Internet Protocol）アドレス、通信プロトコル、セッション番号、シーケンス番号などである。

　また、抽出部２１によって抽出されるデータは、通信パケットに関する統計情報であってもよい。統計情報は、たとえば、所定の条件に合致している通信パケットの個数や、送信元と送信先との組み合わせごとに集計された通信パケットの単位時間あたりの個数などである。この場合、抽出部２１は、入力された通信パケットに対する統計処理を行う。

　除去部２２は、抽出データからノイズデータを除去する。ノイズデータは、学習精度の低下の要因となるデータである。より具体的には、ノイズデータは、学習させたい意図と異なるデータである。学習は、学習部２３によって行われる。除去部２２は、あらかじめ定められた除去条件に合致するデータの抽出元の通信パケットに関するデータを、抽出データから除去する。本実施形態の場合、ノイズデータは、たとえば、以下の除去条件に合致するデータの抽出元の通信パケットに関するデータである。

　除去条件は、たとえば、既知の攻撃データのパターンを含むことである。既知の攻撃データのパターンは、たとえば、ＧＳＭＡ（GSM（Global System for Mobile Communications） Association）（GSMは登録商標）で公開されている。

　また、除去条件は、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むことであってもよい。

　また、除去条件は、独自条件であってもよい。独自条件は、たとえば、統計情報に対する標準偏差などの条件を含んでいてもよい。

　また、独自条件は、抽出データに含まれている文字列に関する条件を含んでいてもよい。この場合、除去部２２は、特定の文字列が含まれているデータが抽出データにある場合に、当該データの抽出元の通信パケットに関するデータを、抽出データから除去する。

　また、独自条件は、分析条件に基づいて生成された条件を含んでいてもよい。分析条件は、学習部２３で生成された学習モデルによって行われる分析の条件である。分析条件は、学習により生成される。分析条件は、たとえば、抽出データに基づく条件式である。たとえば、通信パケットが攻撃データを含むか否かの分析を通信分析装置２０が行う場合、通信パケットが攻撃データを含むか否かを学習モデルが分析するための条件式が、分析条件である。学習部２３は、分析条件を所定の出力先へ出力してもよい。所定の出力先は、たとえば、除去部２２であってもよい。除去部２２は、分析条件に基づいて独自の除去条件を生成してもよい。また、独自の除去条件は、利用者による操作に応じて通信分析装置２０に設定されてもよい。

　学習部２３は、学習モデルを生成する。学習部２３によって生成された学習モデルは、分析部２４によって使用される。学習部２３は、生成した学習モデルをモデル記憶部２５に記憶させる。学習モデルへの入力データは、抽出データである。また、学習モデルからの出力データは、学習モデルに入力された抽出データに対する分析の結果である。学習部２３は、除去後データを学習用データとして使用して、教師なし学習によって、学習モデルを生成する。除去後データは、除去部２２によってノイズデータが除去された後の抽出データである。

　攻撃の手法は、常に進化や変化をしている。そのため、学習部２３は、正確な教師データを学習に使用することができない。したがって、学習部２３は、学習モデルの生成に、教師なし学習を使用する。これにより、学習部２３は、攻撃データに関するデータが含まれている可能性がある抽出データを、学習用データとして使用することができる。

　分析部２４は、学習部２３で生成された学習モデルを用いて、抽出データに対する分析を行う。学習モデルは、モデル記憶部２５に記憶されている。そして、分析部２４は、抽出データの分析の結果を通信パケットの分析の結果として出力する。学習モデルは、抽出データが入力された場合、抽出データに対する分析の結果を出力する。

　抽出データに対する分析の結果は、たとえば、蓄積装置５０から入力された通信パケットに攻撃データが含まれているか否かである。なお、攻撃データは、サイバー攻撃を目的とした通信パケット（通信フロー）である。

　分析部２４は、学習モデルへの入力に、除去後データを使用してもよい。この場合、学習モデルは、除去後データに対する分析の結果を出力する。除去後データは、ノイズデータが除去されている。そのため、この場合、除去されたノイズデータは、分析の対象外である。つまり、学習モデルは、既知の攻撃データや一般的なファイヤーウォールでブロックされるデータなどが除去された通信パケットについての分析結果を出力する。そのため、分析部２４は、学習モデルによる分析の結果に加えて、除去部２２で除去されたノイズデータに関する情報を出力してもよい。

　学習モデルへの入力に除去後データを使用すると、以下のような効果がある。まず、学習部２３による学習に使用されるデータと分析部２４による分析に使用されるデータとを、ノイズデータが除去されたものに揃えることができる。これにより、より正確な分析が可能になる。

　また、ノイズデータとして既知の攻撃データを除去する場合、通信分析装置２０は、除去部２２にて、分析対象の通信パケットに既知の攻撃データが含まれていることを、より正確に検知できる。そのため、通信分析装置２０は、既知の攻撃データについては、分析部２４で改めて分析する必要がない。分析部２４による分析に除去後データを使用することによって、処理の無駄を省くことができる。また、学習モデルへの入力から既知の攻撃データに関するデータが除去されていることによって、分析部２４は、未知の攻撃データが通信パケットに含まれているか否かを分析することが可能になる。

　また、未知の攻撃データが通信パケットに含まれているか否かを分析部２４が分析することによって、さらに、分析部２４は、未知の攻撃データが含まれていると分析された通信パケットに基づいて、未知の攻撃データをパターン化することができる。そして、分析部２４は、未知の攻撃データのパターンを、除去部２２における除去条件に追加することができる。このように、分析部２４における分析の結果が、除去部２２で除去されるノイズデータに反映されることで、未知の攻撃データが通信パケットに含まれているか否かの分析の精度をより向上することが可能になる。

　なお、本実施形態では、学習部２３での学習のための通信パケットと、分析部２４での分析のための通信パケットとが同一である場合について説明した。この場合、分析部２４は、分析に使用する学習モデルに、一世代前に作成された学習モデルを使用する。より具体的には、モデル記憶部２５は、今回の学習によって生成された学習モデルと、前回の学習によって生成された学習モデルとを記憶する。そして、分析部２４は、前回の学習によって生成された学習モデルを使用して分析を行う。なお、この場合、一世代前の学習モデルが分析に使用されるので、学習部２３が初回の学習を行った段階では、分析部２４は、学習部２３によって生成された学習モデルを分析に使用することができない。そのため、初回の学習の場合には、学習部２３での学習のための通信パケットと、分析部２４での分析のための通信パケットには、互いに異なるものが使用される。

　また、学習部２３での学習のための通信パケットと、分析部２４での分析の通信パケットとは、互いに異なるものであってもよい。図５に、この場合の通信分析装置３０の構成例を示す。通信分析装置３０は、通信分析装置２０（図４を参照）における抽出部２１の代わりに、抽出部３１と抽出部３７とを含む。また、通信分析装置３０は、通信分析装置２０における除去部２２の代わりに除去部３２と除去部３８とを含む。

　抽出部３１には、学習部２３における学習の対象の通信パケットが蓄積装置５０から入力される。また、抽出部３７には、分析部２４における分析の対象の通信パケットが蓄積装置５０から入力される。ノイズデータを除去していない抽出データを分析部２４が学習モデルに入力する場合には、除去部３８は通信分析装置３０に含まれていなくてもよい。

　このように通信分析装置２０を構成することによって、抽出部２１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部２２は、抽出データからノイズデータを除去する。学習部１３は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部２４は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　次に、図６および図７に、本実施形態の通信分析装置２０の動作例を示す。図６は、学習に関する通信分析装置２０の動作例を示す。図７は、分析に関する通信分析装置２０の動作例を示す。

　まず、学習の動作例について説明する。

　抽出部２１は、蓄積装置５０から入力された通信パケットから、抽出データを抽出する（図６のステップＳ２０１）。次に、除去部２２は、抽出データからノイズデータを除去する（ステップＳ２０２）。ノイズデータは、学習精度の低下の要因となるデータである。

　そして、学習部２３は、学習モデルを生成し、生成した学習モデルをモデル記憶部２５に記憶させる（ステップＳ２０３）。学習部２３は、除去後データを学習用データとして、教師なし学習によって、学習モデルを生成する。除去後データは、除去部２２によってノイズデータが除去された後の抽出データである。

　次に、分析の動作例について説明する。

　抽出部２１は、蓄積装置５０から入力された通信パケットから、抽出データを抽出する（図７のステップＳ３０１）。次に、除去部２２は、抽出データからノイズデータを除去する（ステップＳ３０２）。なお、通信分析装置２０が図４に示す構成である場合、図７のステップＳ３０１は図６のステップＳ２０１と共通である。また、ステップＳ３０２は、図６のステップＳ２０２と共通である。つまり、通信分析装置２０は、図６のステップＳ２０１とステップＳ２０２とを行った後に、図７のステップＳ３０３を実行することができる。このとき、通信分析装置２０は、ステップＳ２０３とステップＳ３０３とを並行して行ってもよいし、いずれかを先に行ってもよい。

　次に、分析部２４は、モデル記憶部２５に記憶されている学習モデルを用いて、抽出データに対する分析を行う。そして、分析部２４は、抽出データの分析の結果を通信パケットの分析の結果として出力する（ステップＳ３０３）。学習モデルは、抽出データが入力された場合、抽出データに対する分析の結果を出力する。なお、分析部２４は、学習モデルへの入力に、ステップＳ３０１で抽出された抽出データを使用してもよいし、ステップＳ３０２でノイズデータが除去された除去後データを使用してもよい。ノイズデータが除去されていない抽出データが学習モデルへの入力に使用される場合、ステップＳ３０２は不要である。

　通信分析装置２０は、このように動作することによって、通信パケットの分析に使用される抽出データを通信パケットから抽出する。また、通信分析装置２０は、抽出データからノイズデータを除去する。また、通信分析装置２０は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。また、通信分析装置２０は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　以上で説明したように、本発明の第二の実施形態では、通信分析装置２０は、抽出部２１、除去部２２、学習部２３、分析部２４およびモデル記憶部２５を含む。抽出部２１は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部２２は、抽出データからノイズデータを除去する。学習部２３は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部２４は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。

　また、本実施形態の通信分析装置２０が行う分析は、サイバー攻撃を目的とした攻撃データが通信パケットに含まれているか否かに関する。これにより、攻撃データの分析のための学習モデルの精度を向上することが可能になる。

　また、本実施形態の通信分析装置２０が除去するノイズデータは、既知の攻撃データのパターンを含むデータの抽出元の通信パケットに関するデータであってもよい。この場合、通信分析装置２０は、既知の攻撃データが除去されたデータに基づいて学習を行うので、未知の攻撃データについての分析を行う学習モデルの精度をより向上することができる。

　また、ノイズデータは、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータの抽出元の通信パケットに関するデータであってもよい。この場合、通信分析装置２０は、一般的にブロックすべきとされているデータが除去されたデータに基づいて学習を行うので、攻撃データの分析を行う学習モデルの精度をより向上することができる。また、ノイズデータは、独自条件に合致するデータの抽出元の通信パケットに関するデータであってもよい。この場合、独自条件に応じて特異なデータなどの除去ができるので、学習モデルの精度をより向上することが可能になる。

　また、本実施形態の通信分析装置２０の学習部２３は、学習モデルによって行われる分析の分析条件を出力してもよい。また、このとき、独自条件は、分析条件に基づいて生成された条件を含む。この場合、分析条件に基づいて生成された条件に合致するデータの抽出元の通信パケットに関するデータが、抽出データから除去される。これにより、学習の結果をノイズデータ除去にフィードバックできるので、学習モデルの精度をより向上することが可能になる。

　また、本実施形態の通信分析装置２０の分析部２４は、学習モデルへの入力に、除去後データを使用してもよい。この場合、通信分析装置２０は、学習部２３による学習に使用されるデータと分析部２４による分析に使用されるデータとを、ノイズデータが除去されたものに揃えることができる。これにより、通信分析装置２０は、より正確な分析が可能になる。また、学習モデルへの入力からノイズデータが除去されていることによって、通信分析装置２０は、ノイズデータとして除去されていないデータの分析、たとえば未知の攻撃データの分析が可能になる。

　また、本実施形態の通信分析装置２０では、除去されるノイズデータに、分析の結果が反映されてもよい。この場合、通信分析装置２０は、通信パケットの分析の精度をより向上することが可能になる。

　また、本実施形態の通信分析装置２０の分析部２４は、抽出データから除去されたノイズデータに関する情報を出力してもよい。この場合、通信分析装置２０は、通信パケットにノイズデータが含まれていたことを作業者等に把握させることが可能になる。

　［ハードウェア構成例］
　上述した本発明の各実施形態における通信分析装置（１０、２０、３０）を、一つの情報処理装置（コンピュータ）を用いて実現するハードウェア資源の構成例について説明する。なお、通信分析装置は、物理的または機能的に少なくとも二つの情報処理装置を用いて実現してもよい。また、通信分析装置は、専用の装置として実現してもよい。また、通信分析装置の一部の機能のみを情報処理装置を用いて実現してもよい。

　図８は、本発明の各実施形態の通信分析装置を実現可能な情報処理装置のハードウェア構成例を概略的に示す図である。情報処理装置９０は、通信インタフェース９１、入出力インタフェース９２、演算装置９３、記憶装置９４、不揮発性記憶装置９５およびドライブ装置９６を含む。

　たとえば、図１の抽出部１１、除去部１２、学習部１３、分析部１４は、演算装置９３や入出力インタフェース９２で実現することが可能である。

　通信インタフェース９１は、各実施形態の通信分析装置が、有線あるいは／および無線で外部装置と通信するための通信手段である。なお、通信分析装置を、少なくとも二つの情報処理装置を用いて実現する場合、それらの装置の間を通信インタフェース９１経由で相互に通信可能なように接続してもよい。

　入出力インタフェース９２は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。

　演算装置９３は、汎用のＣＰＵ（Central Processing Unit）やマイクロプロセッサ等の演算処理装置や複数の電気回路によって実現される。演算装置９３は、たとえば、不揮発性記憶装置９５に記憶された各種プログラムを記憶装置９４に読み出し、読み出したプログラムに従って処理を実行することが可能である。

　記憶装置９４は、演算装置９３から参照可能な、ＲＡＭ（Random Access Memory）等のメモリ装置であり、プログラムや各種データ等を記憶する。記憶装置９４は、揮発性のメモリ装置であってもよい。

　不揮発性記憶装置９５は、たとえば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、等の、不揮発性の記憶装置であり、各種プログラムやデータ等を記憶することが可能である。

　ドライブ装置９６は、たとえば、後述する記録媒体９７に対するデータの読み込みや書き込みを処理する装置である。

　記録媒体９７は、たとえば、光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。

　本発明の各実施形態は、たとえば、図８に例示した情報処理装置９０により通信分析装置を構成し、この通信分析装置に対して、上記各実施形態において説明した機能を実現可能なプログラムを供給することにより実現してもよい。

　この場合、通信分析装置に対して供給したプログラムを、演算装置９３が実行することによって、実施形態を実現することが可能である。また、通信分析装置のすべてではなく、一部の機能を情報処理装置９０で構成することも可能である。

　さらに、上記プログラムを記録媒体９７に記録しておき、通信分析装置の出荷段階、あるいは運用段階等において、適宜上記プログラムが不揮発性記憶装置９５に格納されるよう構成してもよい。なお、この場合、上記プログラムの供給方法は、出荷前の製造段階、あるいは運用段階等において、適当な治具を利用して通信分析装置内にインストールする方法を採用してもよい。また、上記プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等の一般的な手順を採用してもよい。

　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

　　（付記１）
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
　を備える通信分析装置。

　　（付記２）
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　付記１に記載の通信分析装置。

　　（付記３）
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　付記２に記載の通信分析装置。

　　（付記４）
　前記学習手段は、前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　付記３に記載の通信分析装置。

　　（付記５）
　前記分析手段は、前記学習モデルへの入力に、前記除去後データを使用する
　付記１から付記４のいずれかに記載の通信分析装置。

　　（付記６）
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　付記５に記載の通信分析装置。

　　（付記７）
　前記分析手段は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
　付記１から付記６のいずれかに記載の通信分析装置。

　　（付記８）
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する
　通信分析方法。

　　（付記９）
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　付記８に記載の通信分析方法。

　　（付記１０）
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　付記９に記載の通信分析方法。

　　（付記１１）
　前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　付記１０に記載の通信分析方法。

　　（付記１２）
　前記学習モデルへの入力に、前記除去後データを使用する
　付記８から付記１１のいずれかに記載の通信分析方法。

　　（付記１３）
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　付記１２に記載の通信分析方法。

　　（付記１４）
　前記抽出データから除去された前記ノイズデータに関する情報を出力する
　付記８から付記１３のいずれかに記載の通信分析方法。

　　（付記１５）
　コンピュータに、
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能と
　を実現させる通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記１６）
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　付記１５に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記１７）
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　付記１６に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記１８）
　前記学習機能は、前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　付記１７に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記１９）
　前記分析機能は、前記学習モデルへの入力に、前記除去後データを使用する
　付記１５から付記１８のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記２０）
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　付記１９に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記２１）
　前記分析機能は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
　付記１５から付記２０のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。

　　（付記２２）
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
　を備える通信分析システム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０、２０、３０　　通信分析装置
　１１、２１、３１、３７　　抽出部
　１２、２２、３２、３８　　除去部
　１３、２３　　学習部
　１４、２４　　分析部
　２５　　モデル記憶部
　５０　　蓄積装置
　９０　　情報処理装置
　９１　　通信インタフェース
　９２　　入出力インタフェース
　９３　　演算装置
　９４　　記憶装置
　９５　　不揮発性記憶装置
　９６　　ドライブ装置
　９７　　記録媒体

Claims

　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
　を備える通信分析装置。
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　請求項１に記載の通信分析装置。
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　請求項２に記載の通信分析装置。
　前記学習手段は、前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　請求項３に記載の通信分析装置。
　前記分析手段は、前記学習モデルへの入力に、前記除去後データを使用する
　請求項１から請求項４のいずれかに記載の通信分析装置。
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　請求項５に記載の通信分析装置。
　前記分析手段は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
　請求項１から請求項６のいずれかに記載の通信分析装置。
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する
　通信分析方法。
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　請求項８に記載の通信分析方法。
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　請求項９に記載の通信分析方法。
　前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　請求項１０に記載の通信分析方法。
　前記学習モデルへの入力に、前記除去後データを使用する
　請求項８から請求項１１のいずれかに記載の通信分析方法。
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　請求項１２に記載の通信分析方法。
　前記抽出データから除去された前記ノイズデータに関する情報を出力する
　請求項８から請求項１３のいずれかに記載の通信分析方法。
　コンピュータに、
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能と
　を実現させる通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
　請求項１５に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
　請求項１６に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記学習機能は、前記学習モデルによって行われる分析の分析条件を出力し、
　前記独自条件は、前記分析条件に基づいて生成された条件を含む
　請求項１７に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記分析機能は、前記学習モデルへの入力に、前記除去後データを使用する
　請求項１５から請求項１８のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
　請求項１９に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記分析機能は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
　請求項１５から請求項２０のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
　通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
　抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
　前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
　前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
　を備える通信分析システム。