WO2021130838A1

WO2021130838A1 - 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体

Info

Publication number: WO2021130838A1
Application number: PCT/JP2019/050483
Authority: WO
Inventors: 泰圭神農
Original assignee: 日本電気株式会社
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-01
Also published as: JPWO2021130838A1; US20230025208A1; JP7287503B2

Abstract

情報処理装置（１００）は、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する取得部（１０１）と、前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する第１の特徴量検出部（１０２）と、前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する第２の特徴量検出部（１０３）と、前記第１の特徴量と前記第２の特徴量との間に差分を検出する差分検出部（１０４）と、前記差分がある場合は、前記特定の文字列が属する項目の学習データを選択する選択部（１０５）と、を備える。

Description

情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体

　本発明は、情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体に関する。

　　セキュリティ運用者（例えば、SOC（Security Operation Center)）は会社等の組織から脅威情報（例えば、電子機器のログやそれに付随するパケット）を受け取り、膨大な脅威情報を主に人手で脅威レベル付けを行っている。しかし、受け取る脅威情報は膨大で、人手での手動解析や脅威レベル付けには限界がある。これに対して、膨大な脅威情報に対して自動で脅威レベル付けする方法が存在する。

　特許文献１には、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出部と、前記抽出部によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成部とを備えた攻撃パターン抽出装置が開示されている。

国際公開第２０１８／１５９３６１号

　しかしながら、上記した先行技術文献では、脅威レベル付けに必要な文字列を含む学習データを適切に選択することができない。

　本発明は、このような問題点を解決するためになされたものであり、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる、情報処理装置、脅威情報評価システム、情報処理方法およびプログラムを提供することを目的とする。

　本開示の第１の態様にかかる情報処理装置は、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する取得部と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する第１の特徴量検出部と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する第２の特徴量検出部と、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する差分検出部と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える。

　本開示の第２の態様にかかる情報処理方法は、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得し、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出し、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する。

　本開示の第３の態様にかかるプログラム非一時的なコンピュータ可読媒体は、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する処理と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する処理と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する処理と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させる。

　本開示により、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる、情報処理装置、脅威情報評価システム、情報処理方法およびプログラムを提供することができる。

実施の形態１にかかる情報処理装置の構成を示すブロック図である。実施の形態２にかかる脅威情報評価システムの全体構成を示すブロック図である。学習時のデータ収集サーバの処理フローを示すフローチャートである。学習部の学習処理フローを示すフローチャートである。セキュリティ機器のログデータの例と、それに対応するパケットデータの例を示す。図５のログデータとパケットデータをマージした学習データテーブルの例である。実施の形態２にかかる全カラムから特徴となるカラムを選択する処理フローを示すフローチャートである。実施の形態２にかかる特徴量自動選択処理フローを示すフローチャートである。特徴量の自動選択を具体的に説明する図である。実施の形態３にかかる特徴量自動選択処理フローを示すフローチャートである。実施の形態４にかかる予測処理フローを示すフローチャートである。サーバ１００，１３０，およびＰＣ１４０のハードウェア構成例を示すブロック図である。

　（実施の形態１）
　図１は、実施の形態１にかかる情報処理装置の構成を示すブロック図である。
　情報処理装置１００は、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する取得部１０１と、前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する第１の特徴量検出部１０２と、前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する第２の特徴量検出部１０３と、前記第１の特徴量と前記第２の特徴量との間に差分を検出する差分検出部１０４と、前記差分がある場合は、前記特定の文字列が属する項目の学習データを選択する選択部１０５と、を備える。

　ここでいう項目は、組織内のコンピュータやネットワークを、外部からの不正なアクセスを防止するセキュリティシステム（例えば、ＩＤＳ（Intrusion Detection System）、ファイアウォールなど）から出力される脅威情報（学習データ）の各種の項目とすることができる。なお、項目は、カラム又はタプルとも呼ばれる場合がある。

　学習データは、アナリストなどによって予め脅威レベル付けされている脅威情報である。脅威レベルは、少なくとも２つのレベルを含むが、レベルの数は任意に設定することができる。脅威情報は、例えば、通信ログや、通信ログに付随するパケットを含むことができる。

　本明細書における文字列は、１以上の文字、記号、単語、数字、およびそれらの組合せを含むことができる。

　特徴量は、例えば、頻度情報とすることができるが、これに限定されない。

　以上説明した本実施の形態にかかる情報処理装置によれば、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる。

　（実施の形態２）
　実施の形態２にかかる脅威情報評価システムの全体構成を示すブロック図である。
　本実施の形態にかかる脅威情報評価システム１は、膨大な脅威情報（例えば、通信のログやそれに付随するパケットなど）に対して脅威レベル付けするための、教師あり機械学習に適用可能である。脅威情報に対するアナリストにより付けられた脅威レベルを教師ラベルとすることができる。こうした、膨大な脅威情報と脅威レベルとの大量のペアに基づき、機械学習が行われる。なお、詳細は後述するが、脅威情報評価システム１は、こうした教師あり学習時に使用する特徴量を自動で選択することができる。言い換えると、本実施の形態による機械学習アルゴリズムは、膨大な脅威情報の中から、どの情報を抽出すべきか、又は、会社毎や時代毎にどの情報を抽出すべきかを決定することができる。

　図２を参照して、本脅威情報評価システムの全体構成を説明する。
　図２に示すように、脅威情報評価システム１は、ＳＯＣ（Security Operation Center）１０と監視対象顧客環境２０を備える。ＳＯＣ１０と監視対象顧客環境２０は、ネットワークを介して互いに接続されている。ここでいうネットワークの例としては、ローカルエリアネットワーク（local area network、ＬＡＮ）、及びワイドエリアネットワーク（wide area network、ＷＡＮ）、例えば、インターネットを挙げることができる。

　監視対象顧客環境２０は、会社、団体などの様々な組織のコンピュータやサーバから構成される。図２に示すように、監視対象顧客環境２０は、例えば、会社Ａ、会社Ｂ、及び会社Ｃを含み得る。監視対象顧客環境２０では、コンピュータやサーバなどの通信機器がセキュリティ上、怪しい通信を検知すると、各会社の各コンピュータは、通信ログおよびそれに付随するパケットをＳＯＣ１０に送信する。

　ＳＯＣ１０は、監視対象顧客環境２０に設置されている通信機器から、脅威情報として、例えば、通信ログとパケットを受け取り、ログおよびパケットに対する脅威レベル付けを行う。具体的には、ＳＯＣ１０は、データ収集サーバ１３０と、アナリスト用の１つ以上のＰＣ（Personal Computer）１４０と、自動解析サーバ１００と、を備える。なお、自動解析サーバ１００は、上記実施の形態１で説明した情報処理装置の一例である。

　データ収集サーバ１３０は、各会社から脅威情報を受け取り、会社毎の脅威情報を別々に管理することができる。データ収集サーバ１３０は、収集された脅威情報の全て又は一部をアナリスト用のＰＣ１４０に送信し、アナリストに脅威レベル付けを要求することができる。

　アナリストは、ＰＣ１４０に送られた脅威情報に対して、手動による脅威レベル付けを行う。具体的には、アナリストはログとパケットを見て、脅威レベル付けを行うことができる。これにより、脅威情報に対して正解データを紐付けた脅威レベル付け結果（学習データ）がデータ収集サーバ１３０に収集される。データ収集サーバ１３０は、脅威レベル付け結果を自動解析サーバ１００の学習部１２０に送信する。

　自動解析サーバ１００の学習部１２０は、データ収集サーバ１３０から脅威レベル付け結果を学習データとして受信する。さらに学習部１２０は、十分な学習データを蓄積した場合、自動的に学習し、脅威レベル付けの自動解析に用いるための学習モデルを生成することができる。自動解析サーバ１００は、こうして生成された学習モデルを、サーバ内部の記憶部又はネットワークを介して接続された外部記憶部に記憶させる。なお、詳細は後述するが、学習部１２０は、一定量以上の学習データが蓄積された場合、学習データの中から、特徴量を自動的に選択することができる。

　自動解析サーバ１００の予測部１１０は、上記記憶部に記憶された学習モデルを用いて、各会社からデータ収集サーバ１３０を介して送られた脅威情報を自動的にラベル付けすることができる。

　しかしながら、脅威情報や攻撃パターンも日々進化するため、データ収集サーバ１３０は、適宜、アナリストに脅威レベル付けを要求すべく、新たな脅威情報をＰＣ１４０に送信することができる。例えば、所定レベル以上の脅威情報は、アナリストによるラベル付けを必要とする。こうして、人手による脅威レベル付け結果は、データ収集サーバ１３０を介して、自動解析サーバ１００の学習部１２０に送信される。このように、学習部１２０は、定期的に、脅威レベル付けされた新たな学習データを収集し、更新した学習データを基づいて、再学習し、学習モデルを再生成することができる。

　なお、上記した例では、自動解析サーバ１００とデータ収集サーバ１３０は別体として説明したが、これらは、一体型のサーバであってもよい。また、自動解析サーバ１００の学習部１２０と予測部１１０は、別々のサーバによって実行されてもよい。

　図３は、学習時のデータ収集サーバの動作を示すフローチャートである。
　データ収集サーバ１３０は、各会社から脅威情報（例えば、セキュリティログ及びそれに付随するパケット）を収集する（ステップＳ１１）。データ収集サーバ１３０は、会社毎に、又は所定の期間（例えば、１年）毎に脅威情報を管理してもよい。データ収集サーバ１３０は、収集された脅威情報の全て又は一部を、アナリスト用のＰＣ１４０に送信して、アナリストに脅威レベル付けを要求する（ステップＳ１２）。アナリストによる脅威レベル付けが完了すると、データ収集サーバ１３０は、脅威レベル付け結果を受信する（ステップＳ１３）。その後、データ収集サーバ１３０は、自動解析サーバ１００の学習部１２０に脅威レベル付け結果を学習データとして送信する（ステップＳ１４）。

　図４は、学習部の学習処理を示すフローチャートである。
　学習部１２０は、データ収集サーバ１３０から脅威レベル付け結果を学習データとして取得する（ステップＳ１０１）。この学習データは、セキュリティシステムが出力する脅威情報の複数の項目を含むものである。すなわち、こうした学習データは、複数の項目を列（カラム）とし、１つの脅威情報を行とした学習テーブルで表すことができる。各行には、脅威レベル項目が含まれている。脅威レベルは、複数のレベルであり得る。学習部１２０は、学習データを取得でき（ステップＳ１０２でＹＥＳ）、かつ、十分なデータ量である場合は（ステップＳ１０３でＹＥＳ）、学習データ内でレベル間の特徴量の差が大きい（例えば、特徴量の差が閾値以上である）場合は、その差分の大きい部分の項目（カラム）を特徴として選択する（ステップＳ１０４）。本ステップの詳細（学習時の特徴量の自動選択処理）については、後述する。次に、学習部１２０は、ハイパーパラメータを調整する（ステップＳ１０４）。学習部１２０は、選択されたカラムを、特徴量（例えば、頻度情報）を用いて数値に変換する。その後、学習部１２０は、こうして選択され、数値化された特徴量を基づいて、機械学習を行う（ステップＳ１０６）。こうして生成された学習モデルは、学習部の記憶部等に記憶される。

　なお、レベル間で検出された特徴量の差分に応じて、特徴量の重み付けを変えてもよい。例えば、差分が比較的大きい場合は、重要なカラムとして、特徴量の重み付けを大きくしてもよい。一方、差分が比較的小さい場合は、単なる参考情報として、特徴量の重み付けを小さくしてもよい。

　次に、学習時の特徴量の自動選択処理について説明する。
　図５は、通信機器のログデータの例と、それに対応するパケットデータの例を示す。図６は、図５のログデータとパケットデータをマージした学習データテーブルの例である。なお、図６に示す学習データテーブルの各カラムは、本明細書において、項目と呼ばれる場合がある。

　このように生成された学習データテーブルの各カラムに出現する文字列の頻度情報を特徴量とすることができる。例えば、特徴量はX=（sourcePortの頻度情報，deviceEventCategoryの頻度情報,…,User-Agentの頻度情報，Hostの頻度情報，…）と表すことができる。

　通常の特徴量は、全カラムの頻度情報を使用する。しかし、脅威レベルを予測するために不要な情報まで特徴量に含まれると、予測精度が低下してしまう。そこで、本実施の形態では、脅威レベル付けに寄与し得るカラム（項目）のみを特徴量として選択する。例えば、全カラムの頻度情報をX_beforeとすると、本アルゴリズムを実行することで選択される、脅威レベル付けに寄与するカラム（項目）をX_afterと表すことができる。
　X_before=(destinationPortの頻度情報,deviceEventCategoryの頻度情報,…,User-Agentの頻度情報,Hostの頻度情報,…)
　X_after=(deviceEventCategoryの頻度情報,…,User-Agentの頻度情報,…)
　以下、図７、８，９を参照して、特徴量の自動選択を説明する。

　図７は、実施の形態２にかかる全カラムから特徴となるカラムを選択する処理フローを示すフローチャートである。
　学習データテーブルの全カラムから任意の１つのカラムを抽出する（ステップＳ２１）。抽出したカラムに対して、独立して特徴量自動選択処理のアルゴリズム（図８で後述）を実行する。そして、抽出されたカラムの有効性、すなわち、当該カラムが脅威レベル付けに寄与し得るか否かを確認する（ステップＳ２２）。次に、有効性を確認していないカラムが残っているか否かを確認する（ステップＳ２３）。未確認のカラムが残っている場合は（ステップＳ２３でＹＥＳ）、ステップＳ２１およびステップＳ２２の処理を繰り返す。全てのカラムの有効性を確認後（ステップＳ２３でＮＯ）、抽出された全てのカラムを特徴量として選択する（ステップＳ２４）。

　図８は、実施の形態２にかかる特徴量自動選択処理フローを示すフローチャートである。
　学習データテーブルの抽出されたカラムに対して、レベル毎に様々な文字列の頻度情報を検出する（ステップＳ２０１）。同一のレベル内で検出された文字列の頻度情報が閾値以上かを判定する（ステップＳ２０２）。レベル内で検出された文字列の頻度情報が閾値未満の場合（ステップＳ２０２でＮＯ）、当該文字列に規則性はないと解釈される。このように解釈されたカラムは、特徴として使用せず、処理は終了する。

　一方、同一のレベル内で検出された文字列の頻度情報が閾値以上の場合は（ステップＳ２０２でＹＥＳ）、当該文字列に規則性はあると解釈される。次に、異なるレベル間で検出された同一の文字列の頻度情報に、閾値以上の差があるかを判定する（ステップＳ２０３）。異なるレベル間で検出された文字列の頻度情報に、閾値以上の差がない場合は（ステップＳ２０３でＮＯ）、当該文字列は、脅威レベル付けに寄与し得る特徴ではないものと解釈される。このように解釈されたカラムは、特徴として使用せず、処理は終了する。

　一方、異なるレベル間で検出された同一の文字列の頻度情報に、閾値以上の差がある場合は（ステップＳ２０３でＹＥＳ）、当該差のあるカラム（項目）を特徴として選択する（ステップＳ２０４）。

　同一のカラム内の異なるレベル間に頻度情報に差のある文字列が少なくとも１つあれば、当該文字列を含むカラムを、特徴として選択してもよい。あるいは、同一のカラム内の異なるレベル間に差のある文字列が所定個数以上ある場合、当該複数個の文字列を含むカラムを、特徴として選択してもよい。文字列が含まれる数が多いカラムに対して、より大きい重み付けを付与してもよい。

　図９は、特徴量の自動選択を具体的に説明する図である。
　図９のテーブルでは、学習データは、第１行をレベル１、第２行をレベル２となるように脅威レベル付けされている。これらの脅威レベル付けは、予めアナリストにより行われている。本例では、カラムを生成する元となるパケットデータは、httpであると仮定する。また、本テーブルでは、sourcePort、http_response_content_type、http_user_agent、およびhttp_hostの４つのカラムが存在している。また、図９には、学習データからカラムごとに、検出された各種の文字列の頻度情報が示されている。以下に、カラムごとに本アルゴリズムを実行し、特徴となるカラムを選択する処理を詳細に説明する。

　sourcePortのカラムでは、レベル１において、文字列「55202」が1件、文字列「29766」が1件検出されている。また、レベル２では、文字列「16027」が1件、文字列「39777」が1件検出されている。すなわち、レベル１のクラス内において、文字列「55202」と文字列「29766」はともに、閾値（例えば、５件）未満である１件ずつ検出され、頻度情報に偏りがなく、規則性もない。同様に、レベル２のクラス内において、文字列「16027」と文字列「39777」がともに閾値（例えば、５件）未満である１件ずつ検出され、頻度情報に偏りがなく、規則性もない。したがって、sourcePortのカラムは、脅威レベル付けに寄与し得る特徴として使用できないと解釈される。したがって、学習データから、sourcePortのカラムのデータを除外することができる。

　http_response_content_typeのカラムでは、レベル１において、文字列「text/html」が100件、文字列「text/plain」が10件検出されている。また、レベル２では、「text/html」が100件、文字列「text/plain」が10件検出されている。すなわち、「text/html」と「text/plain」はともに、閾値以上（例えば、５件以上）あるため、レベル１又はレベル２の１つのクラス内では、規則性がある。しかし、レベル１とレベル２との間では、「text/html」はともに100件であり、異なるレベル間において、検出された文字列の頻度情報に差がない。同様に、レベル１とレベル２との間では、「text/plain」はともに10件であり、異なるレベル間において、検出された文字列の頻度情報に差がない。したがって、http_response_content_typeのカラムは、脅威レベル付けに寄与し得る特徴として使用できないと解釈される。したがって、学習データから、http_response_content_typeのカラムのデータを除外することができる。

　http_user_agentのカラムでは、レベル１において、文字列「Mozilla」が100件、「python-requests」が10件検出されている。また、レベル２では、文字列「python-requests」が90件、「Mozilla」が20件検出されている。すなわち、「Mozilla」と「python-requests」はともに、閾値以上（例えば、５件以上）あるため、レベル１およびレベル２の１つのクラス内では、規則性がある。さらに、レベル１では、「Mozilla」が100件であるのに対し、レベル２では、「Mozilla」が20件であることから、レベル１とレベル２との間でも、頻度情報に閾値（例えば、１０件）以上の差がある。同様に、レベル１では、「python-requests」が10件であるのに対し、レベル２では、「python-requests」が90件であることから、レベル１とレベル２との間でも、頻度情報に閾値（例えば、１０件）以上の差がある。したがって、http_user_agentのカラムは、脅威レベル付けに寄与し得る特徴として使用できると解釈される。なお、本例では、「Mozilla」と「python-requests」の２つの文字列が抽出されたhttp_user_agentのカラムを特徴として選択したが、１つの文字列のみが抽出されたカラムを特徴として選択してもよい。あるいは、所定個数以上の文字列が抽出されたカラムを特徴として選択してもよい。

　http_hostのカラムでは、レベル１において、文字列「www.normal1.com」は90件、文字列「www.malicious1.com」は10件、文字列「www.malicious2.com」は10件検出されている。また、レベル２では、「www.malicious1.com」は50件、「www.malicious2.com」は50件、「www.normal1.com」は10件検出されている。すなわち、「www.normal1.com」と「www.malicious1.com」と「www.malicious2.com」はともに、閾値以上（例えば、５件以上）あるため、レベル１又はレベル２の１つのクラス内では、規則性がある。さらに、レベル１では、「www.normal1.com」は90件であるのに対し、レベル２では、「www.normal1.com」は10件であることから、レベル１とレベル２との間でも、頻度情報に閾値（例えば、１０件）以上の差がある。また、レベル１では、「www.malicious1.com」は10件であるのに対し、レベル２では、「www.malicious1.com」は50件であることから、レベル１とレベル２との間でも、頻度情報に閾値（例えば、１０件）以上の差がある。さらに、レベル１では、「www.malicious2.com」は10件であるのに対し、レベル２では、「www.malicious2.com」は50件であることから、レベル１とレベル２との間でも、頻度情報に閾値（例えば、１０件）以上の差がある。したがって、http_hostのカラムは、脅威レベル付けに寄与し得る特徴として使用できると解釈される。なお、本例では、「www.normal1.com」と「www.malicious1.com」と「www.malicious2.com」の３つの文字列が抽出されたhttp_hostのカラムを特徴として選択したが、１つの文字列のみが抽出されたカラムを特徴として選択してもよい。あるいは、所定個数以上の文字列が抽出されたカラムを特徴として選択してもよい。

　以上に説明したように、本実施の形態にかかる学習部は、学習時の特徴量として、http_user_agentのカラムおよびhttp_hostのカラムを自動的に選択することができる。言い換えると、学習データから、sourcePortのカラムやhttp_response_content_typeのカラムなどの不要なデータを除外することができるので、後続の機械学習等にかかる計算コストを低減することができる。

　以上に説明した実施の形態では、２つの脅威レベルの場合を説明したが、本発明の趣旨は、３つ以上の脅威レベルの場合にも適用可能である。例えば、３つの脅威レベルがある場合は、それぞれのレベル間の差、すなわち、レベル１とレベル２、レベル１とレベル３、およびレベル２とレベル３の間の差をそれぞれ算出してもよい。このように、全てのレベル間の差を算出することで、より適切な学習データを選択することができる。

　また、上記の例では、すべての文字列を同等の重み付けで頻度情報を比較したが、特定の文字列については、重み付けを大きくしたり、小さくしたりしてもよい。

　上記したように、http_user_agentのカラムでは、２つの文字列が特徴として検出され、http_hostのカラムでは、３つの文字列が特徴として検出された。検出された文字列の数によって、カラムの重み付けを変更してもよい。

　また、文字列の頻度情報を特徴量としたが、ある文字列の頻度情報と別の文字列との頻度情報の差を特徴量してもよい。

　学習部１２０は、特定の会社（例えば、会社Ａ）あるいは、特定の業界のみからの脅威情報に対する脅威レベル付け結果を学習データとして、機械学習することで、当該特定の会社、あるいは特定の業界の攻撃傾向を学習することができる。つまり、データ収集サーバ１３０は、会社ごとに、あるいは業界ごとに学習データを区分して、学習部１２０に提供してもよい。

　あるいは、学習部１２０は、様々な会社（例えば、会社Ａ、Ｂ、Ｃなど）や団体などの組織からの脅威情報に対する脅威レベル付け結果を学習データとして、機械学習することで、会社や業界にかかわらず、全体的な攻撃傾向を学習することができる。

　また、学習部１２０は、所定の期間（例えば、過去１年分）の脅威情報に対する、脅威レベル付け結果を学習データとして、機械学習することで、当該所定の期間の攻撃傾向を学習することができる。

　（実施の形態３）
　図１０は、実施の形態３にかかる特徴量自動選択処理フローを示すフローチャートである。
　本実施の形態では、特徴量自動選択の対象として、カラムの組合せを取り入れることができる。
　学習データテーブルの全カラムから１つのカラムを抽出する（ステップＳ３１）。すなわち、各カラムに対して、独立して特徴量自動選択処理のアルゴリズム（図８参照）を実行する。そして、抽出されたカラムの有効性、すなわち、当該カラムが脅威レベル付けに寄与するか否かを確認する（ステップＳ３２）。次に、有効性を確認していないカラムが残っているか否かを確認する（ステップＳ３３）。未確認のカラムが残っている場合は（ステップＳ３３でＹＥＳ）、ステップＳ３１およびステップＳ３２の処理を繰り返す。全てのカラムの有効性を確認後（ステップＳ３３でＮＯ）、同一レベル間のカラムとの組合せを１つ抽出する（ステップＳ３４）。例えば、destinationPort単体では、そもそもudpかtcpか分からないため、destinationPortとtransportProtocolの組合せを抽出してもよい。これらの組合せは、アナリストからのアドバイスにより予め決められた組合せルールに基づいて、抽出してもよい。つまり、相関性の高いカラムの組合せを抽出してもよい。この場合、学習データテーブルには、こうしたカラムの組合せを、新たなカラム（例えば、destinationPort_transportProtocol）として予め追加しておいてもよい。

　抽出された同一レベル間のカラムの組合せに対してアルゴリズムを実行し、有効性を確認する（ステップＳ３５）。すなわち、図８で前述したとおり、抽出された組合せに対して、文字列の組合せの頻度情報を検出する。例えば、図９の例では、レベル１のsourcePortのカラムと、http_response_content_typeのカラムを組み合わせる場合、検出すべき文字列の組合せは、「55202_text/html」や「55202_text/plain」としてもよい。

　さらに、異なるレベル間で検出された文字列の頻度情報に閾値以上の差がある場合は、差のある文字列の組合せを含むカラムの組合せを特徴として選択する。予め決められた組合せルールに基づいた組合せが残っている場合は（ステップＳ３６でＹＥＳ）、ステップＳ３４およびステップＳ３５の処理を繰り返す。予め決められた組合せルールに基づいた組合せが残っていない場合（ステップＳ３３でＮＯ）、抽出されたカラムと、カラムの組合せを特徴量として選択する（ステップＳ３７）。

　本実施の形態によれば、カラムの組合せを取り入れることで、より一層適切に、脅威レベル付けに寄与し得る特徴を抽出することができる。これにより、後続する学習処理にかかる計算コストを軽減することができる。

　なお、上記の実施の形態では、学習部１２０が、所定のカラムの組合せ（例えば、相関性の高いカラムの組合せ）を抽出することを想定したが、学習部１２０は、アナリストにより予め決められたカラムの組合せを追加した学習データテーブルを取得してもよい。

　（実施の形態４）
　図１１は、実施の形態４にかかる予測処理フローを示すフローチャートである。
　自動解析サーバ１００の予測部１１０は、各会社から脅威情報として、セキュリティログおよびそれに付随するパケットを、データ収集サーバ１３０を経由して受信する。予測部１１０は、まず、受信した脅威情報が、業務通信か攻撃通信かを判定する（ステップＳ４１）。業務通信か攻撃通信かの判定は、既存技術を用いて行うことができる。脅威情報が攻撃通信であると判定された場合は（ステップＳ４２でＹＥＳ）、予測部１１０は、上記したように学習により生成された学習モデルを使用して、脅威レベル付けを実施する（ステップＳ４３）。一方、脅威情報が攻撃通信でないと判定された場合は（ステップＳ４２でＮＯ）、脅威レベル付けを行わず、処理は終了する。

　なお、予測部１１０は、学習モデルに基づいて、自動的に予測処理を行ってもよいが、セキュリティレベルの高い脅威情報は、既知の学習データから予測できない場合がある。そのため、こうした所定レベル以上の脅威情報は、アナリストにより脅威レベル付けを行い、再度、脅威レベル付け結果を学習部に送り、学習モデルを更新することが好ましい。

　図３，図４，図７，図８，図１０，図１１のフローチャートは、実行の具体的な順番を示しているが、実行の順番は描かれている形態と異なっていてもよい。例えば、２つ以上のステップの実行の順番は、示された順番に対して入れ替えられてもよい。また、フローチャートの中で連続して示された２つ以上のステップは、同時に、または部分的に同時に実行されてもよい。さらに、いくつかの実施形態では、フローチャートに示された１つまたは複数のステップがスキップまたは省略されてもよい。

　図１２は、本実施形態におけるサーバ１００，１３０，およびＰＣ１４０のハードウェア構成例を示すブロック図である。図１２に示すように、本実施形態のサーバ１００，１３０，およびＰＣ１４０は、ＣＰＵ（Central Processing Unit）２０１、ＲＡＭ（Random access memory）２０２、ＲＯＭ（Read Only Memory）２０３などを有するコンピュータである。ＣＰＵ２０１は、ＲＡＭ２０２、ＲＯＭ２０３、または、ハードディスク２０４に格納されたソフトウェアに従い演算および制御を行う。ＲＡＭ２０２は、ＣＰＵ２０１が各種処理を実行する際の一時記憶領域として使用される。ハードディスク２０４には、オペレーティングシステム（ＯＳ）や、登録プログラムなどが記憶される。ディスプレイ２０５は、液晶ディスプレイとグラフィックコントローラとから構成され、ディスプレイ２０５には、画像やアイコンなどのオブジェクト、および、ＧＵＩなどが表示される。入力部２０６は、ユーザが端末装置２００に各種指示を与えるための装置であり、例えばマウスやキーボード、タッチパネルなどによって構成される。Ｉ／Ｆ（インターフェース）部２０７は、ＩＥＥＥ８０２．１１ａなどの規格に対応した無線ＬＡＮ通信や有線ＬＡＮ通信を制御することができ、ＴＣＰ／ＩＰなどのプロトコルに基づき同一通信ネットワークおよびインターネットを介して外部機器と通信する。システムバス２０８は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、および、ハードディスク２０４などとのデータのやり取りを制御する。

　上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリを含む。磁気記録媒体は、例えばフレキシブルディスク、磁気テープ、ハードディスクドライブであってもよい。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）であってもよい。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。以上で説明した複数の例は、適宜組み合わせて実施されることもできる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する取得部と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する第１の特徴量検出部と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する第２の特徴量検出部と、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する差分検出部と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える情報処理装置。
　（付記２）
　前記特徴量は、頻度情報である、付記１に記載の情報処理装置。
　（付記３）
　前記第１の特徴量と前記第２の特徴量は閾値以上である、付記１又は２に記載の情報処理装置。
　（付記４）
　前記学習データが３つ以上のレベルにレベル付けされている場合は、前記差分検出部は、各レベル間の差分を抽出する、付記１～３のいずれか一項に記載の情報処理装置。
　（付記５）
　前記取得部は、組織毎に区分された学習データを取得する、付記１～４のいずれか一項に記載の情報処理装置。
　（付記６）
　前記取得部は、定期的にアナリストにより脅威レベル付けされた学習データを取得する、付記１～５のいずれか一項に記載の情報処理装置。
　（付記７）
　前記第１の特徴量検出部は、前記第１のレベルに属し、特定の項目に属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第１の特徴量検出部は、前記第２のレベルに属し、前記特定の項目に属する学習データから前記特定の文字列の第１の特徴量を検出する、付記１～６のいずれか一項に記載の情報処理装置。
　（付記８）
　前記取得部は、複数の項目のうちの所定の項目の組合せを含む前記学習データを取得する、付記１～７のいずれか一項に記載の情報処理装置。
　（付記９）
　前記学習データは、通信ログデータおよび該通信ログデータに付随するパケットを含む、付記１～８のいずれか一項に記載の情報処理装置。
　（付記１０）
　前記選択された項目の学習データを用いて、機械学習を行う学習部を更に備える、付記１～９のいずれか一項に記載の情報処理装置。
　（付記１１）
　前記学習部により生成された学習モデルに基づいて、脅威情報の脅威レベル付けを行う予測部を更に備える、付記１０に記載の情報処理装置。
　（付記１２）
　前記脅威情報が、業務通信か攻撃通信かを判別する判別部を更に備え、
　前記予測部は、前記判別部が攻撃通信と判別した脅威情報に対して脅威レベル付けを行う、付記１１に記載の情報処理装置。
　（付記１３）
　外部から脅威情報を収集するデータ収集サーバと、
　収集された前記脅威情報に、アナリストが脅威レベル付けを行うためのコンピュータと、
　付記１～１２のいずれか一項に記載の情報処理装置と、
を備える、脅威情報評価システム。
　（付記１４）
　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得し、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出し、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
　（付記１５）
　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する処理と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する処理と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する処理と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラム。
　（付記１６）
　外部から脅威情報を収集し、
　前記収集された脅威情報の少なくとも一部をアナリストが脅威レベル付けするためのコンピュータに送信し、
　前記コンピュータで脅威レベル付けされた結果として、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得し、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出し、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
　（付記１７）
　外部から脅威情報を収集する処理と、
　前記収集された脅威情報の少なくとも一部をアナリストが脅威レベル付けするためのコンピュータに送信する処理と、
　前記コンピュータで脅威レベル付けされた結果として、複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する処理と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する処理と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する処理と、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する処理と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラム。

　１　脅威情報評価システム
　１０　ＳＯＣ
　２０　監視対象顧客環境
　１００　自動解析サーバ
　１０１　取得部
　１０２　第１の特徴量検出部
　１０３　第２の特徴量検出部
　１０４　差分検出部
　１０５　選択部
　１１０　予測部
　１２０　学習部
　１３０　データ収集サーバ
　１４０　ＰＣ

Claims

　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する取得部と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する第１の特徴量検出部と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出する第２の特徴量検出部と、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する差分検出部と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える情報処理装置。
　前記特徴量は、頻度情報である、請求項１に記載の情報処理装置。
　前記第１の特徴量と前記第２の特徴量は閾値以上である、請求項１又は２に記載の情報処理装置。
　前記学習データが３つ以上のレベルにレベル付けされている場合は、前記差分検出部は、各レベル間の差分を抽出する、請求項１～３のいずれか一項に記載の情報処理装置。
　前記取得部は、組織毎に区分された学習データを取得する、請求項１～４のいずれか一項に記載の情報処理装置。
　前記取得部は、定期的にアナリストにより脅威レベル付けされた学習データを取得する、請求項１～５のいずれか一項に記載の情報処理装置。
　前記第１の特徴量検出部は、前記第１のレベルに属し、特定の項目に属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第１の特徴量検出部は、前記第２のレベルに属し、前記特定の項目に属する学習データから前記特定の文字列の第１の特徴量を検出する、請求項１～６のいずれか一項に記載の情報処理装置。
　前記取得部は、複数の項目のうちの所定の項目の組合せを含む前記学習データを取得する、請求項１～７のいずれか一項に記載の情報処理装置。
　前記学習データは、通信ログデータおよび該通信ログデータに付随するパケットを含む、請求項１～８のいずれか一項に記載の情報処理装置。
　前記選択された項目の学習データを用いて、機械学習を行う学習部を更に備える、請求項１～９のいずれか一項に記載の情報処理装置。
　前記学習部により生成された学習モデルに基づいて、脅威情報の脅威レベル付けを行う予測部を更に備える、請求項１０に記載の情報処理装置。
　前記脅威情報が、業務通信か攻撃通信かを判別する判別部を更に備え、
　前記予測部は、前記判別部が攻撃通信と判別した脅威情報に対して脅威レベル付けを行う、請求項１１に記載の情報処理装置。
　外部から脅威情報を収集するデータ収集サーバと、
　収集された前記脅威情報に、アナリストが脅威レベル付けを行うためのコンピュータと、
　請求項１～１２のいずれか一項に記載の情報処理装置と、
を備える、脅威情報評価システム。
　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得し、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出し、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出し、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
　複数の項目からなる学習データであって、第１のレベルと、前記第１のレベルより脅威レベルの高い第２のレベルにレベル付けされた学習データを取得する処理と、
　前記第１のレベルに属する学習データから特定の文字列の第１の特徴量を検出する処理と、
　前記第２のレベルに属する学習データから前記特定の文字列の第２の特徴量を検出し、
　前記第１の特徴量と前記第２の特徴量との間に差分を検出する処理と、
　前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。