WO2015141560A1

WO2015141560A1 - トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラム

Info

Publication number: WO2015141560A1
Application number: PCT/JP2015/057370
Authority: WO
Inventors: 大紀千葉; 毅八木; 佐藤　徹; 和憲神谷; 健介中田
Original assignee: 日本電信電話株式会社
Priority date: 2014-03-19
Filing date: 2015-03-12
Publication date: 2015-09-24
Also published as: US10721244B2; JP6053091B2; JPWO2015141560A1; US20160366159A1

Abstract

　トラヒック特徴情報抽出方法は、正規表現化工程（３２ａ）と、クラスタリング工程（３２ｂ）と、特徴情報抽出工程（３２ｃ）とを含んだことを特徴とする。正規表現化工程（３２ａ）は、トラヒックログから予め設定した項目を抽出し、項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する。クラスタリング工程（３２ｂ）は、正規表現化したトラヒックログのエントリをクラスタリングする。特徴情報抽出工程（３２ｃ）は、クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する。

Description

トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラム

　本発明は、トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラムに関する。

　インターネットの普及に伴い、ＤＤｏＳ（Distributed　Denial　of　Service）攻撃やスパムメール送信などのサイバー攻撃が急増している。これらの攻撃のほとんどは、マルウェアと呼ばれる悪意あるソフトウェアに起因している。攻撃者は、一般ユーザの端末やサーバをマルウェアに感染させ、マルウェアを操作することで端末やサーバを不正に制御し、情報収集や新たな攻撃を実施している。これらの攻撃は近年社会問題化している。このため、マルウェア感染を中心としたサイバー攻撃への対策が急務となっている。

　サイバー攻撃対策としては、端末上で実施する対策と、ネットワーク上で実施する対策とが検討されている。端末上で実施する対策としては、アンチウィルスソフトを用いる手法や、ホスト型ＩＤＳ（Intrusion　Detection　System）やホスト型ＩＰＳ（Intrusion　Prevention　System）を用いる手法が検討されている。端末上で実施する対策では、端末にソフトウェアをインストールすることで実施される。

　一方、ネットワーク上で実施する対策としては、ネットワーク型のＩＤＳやＩＰＳ、ファイアウォール（Firewall）やＷＡＦ（Web　Application　Firewall）などを用いる手法が検討されている。ネットワーク上で実施する対策では、ネットワークの接続箇所に検査装置を配置する。また、近年では、端末や装置のログを分析して攻撃の痕跡を発見するＳＩＥＭ（Security　Information　and　Event　Management）サービスなども実施されている。端末上で実施する対策及びネットワーク上で実施する対策のいずれにおいても、予め用意した既知の攻撃の特徴情報に基づいて対策を講じている。

　また、これらの端末上で実施する対策及びネットワーク上で実施する対策のいずれにおいても、攻撃に関わる通信の情報を収集する。例えば、ハニーポットと呼ばれるおとりのシステムでマルウェア感染攻撃やその他のサイバー攻撃の通信相手や通信内容を収集したり、サンドボックスと呼ばれるマルウェア解析システムでマルウェアを実際に動作させてマルウェアの通信相手や通信内容を収集したりする。また、スパムメール対策システムやＤＤｏＳ対策システムで攻撃と判定された通信の通信相手や通信内容を収集したりする。さらに、攻撃に関わる通信の情報から、特徴情報を抽出する。この際、機械学習を初めとした既存の技術を用いて、攻撃に関わる通信の情報から特徴情報を自動的に抽出する場合が多い。

　攻撃に関わる通信の情報から特徴情報を自動的に抽出する手法では、攻撃に関わる通信の情報を、日時や通信相手のＩＰ（Internet　Protocol）アドレスや通信時に使用したポート番号や一定時間内の通信回数および通信量など、予め定めた項目毎に分類して集計する。この際、日時やポート番号には観測した値が入力されることが多いが、通信回数や通信量については平均値や標準偏差や分散値などの統計値が入力されることがある。分類され集計値が算出された後、例えば、統計的な外れ値を探索し、外れ値を発見した際には、当該値に関わる通信を攻撃と判定するとともに、当該項目の当該外れ値を攻撃検知のための規則とし、当該項目における当該値を、攻撃に見られる特徴情報であると特定する。

　さらに、発見した攻撃に関して、例えばＩＰアドレスをブラックリスト化し、当該ＩＰアドレスを相手とした通信を攻撃と判定するための特徴情報とする場合もある。なお、通信相手の統一資源位置指定子（ＵＲＬ：Uniform　Resource　Locator）をブラックリスト化する場合もあるが、この際は、ＵＲＬを正規表現でブラックリスト化する場合もある。

　なお、通常異なる装置やソフトウェアからトラヒックログやアラートを収集して通信相手や通信内容の情報を抽出する際、装置やソフトウェアに応じて各項目の表記方法が異なる場合がある。また、近年では、ＳＩＥＭ（Security　Information　and　Event　Management）製品として異なる表記で示されたログ情報を統一的な表記方法に変換して集計する技術も普及している。

R.　Perdisci,　W.　Lee,　and　N.　Feamster,　"Behavioral　Clustering　of　HTTP-Based　Malware　and　Signature　Generation　Using　Malicious　Network　Traces.,"　NSDI,　p.26,　Apr.　2010. Y.　Xie,　F.　Yu,　K.　Achan,　R.　Panigrahy,　G.　Hulten,　and　I.　Osipkov,　"Spamming　Botnets:　Signatures　and　Characteristics,"　Proceedings　of　the　ACM　SIGCOMM　2008　conference　on　Data　communication　-　SIGCOMM　’08,　vol.38,　no.　4,　p.171,　Aug.　2008.

　しかしながら、上記の従来技術では、精度の高い攻撃の特徴情報を抽出するにはコストがかかるという問題がある。

　具体的には、攻撃に関わる通信の情報を収集した際に、良性な通信が混在した場合に、良性な通信の特徴情報を誤って抽出し、当該情報を抽出した規則を悪性トラヒックログ特定のための規則と誤判定してしまう危険性があるという問題がある。

　例えば、マルウェアは、解析の妨害やインターネットへの接続確認を目的として、正規のＷｅｂサイトなどにアクセスする場合が多い。このため、サンドボックスを用いて収集したマルウェアの通信相手や通信内容に正規のＷｅｂサイトへの正常なアクセスが混在する可能性がある。

　攻撃に関わる通信の内容を精査する手法として、インターネット上の情報を収集して通信相手のレピュテーションを実施する手法や、収集した通信内容をアンチウィルスソフトやＩＤＳ・ＩＰＳ・ＷＡＦなどに対して再現して攻撃と判定されるかを検査する手法が検討されている。しかし、各手法でも検知漏れや誤検知が発生する可能性があり、攻撃に関わる通信の情報から攻撃の通信情報を自動的に、かつ、正確に抽出することは困難である。特に、他の手段でも発見できない攻撃を発見できないことを意味する検知漏れは許容されることがあるが、誤検知については、検知後に発生する対処や調査などのオペレーションコスト発生を回避するために、可能な限り抑制しなければならない。

　このため、現在では、攻撃を発見するための規則を特定して攻撃の特徴情報を抽出する場合、ほぼ多くの場合において解析者が手動で内容を分析する必要が生じる。この結果、攻撃の特徴情報を抽出するための時間的なコストと人的なコストが必要となり、攻撃が多種多様化している近年では、これらのコストがセキュリティベンダやサービスプロバイダにおいて大きなボトルネックとなっている。

　開示の技術は、上述に鑑みてなされたものであって、精度の高い攻撃の特徴情報を低コストで抽出することを目的とする。

　本願の開示するトラヒック特徴情報抽出方法は、正規表現化工程と、クラスタリング工程と、特徴情報抽出工程とを含んだことを特徴とする。正規表現化工程は、トラヒックログから予め設定した項目を抽出し、当該項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する。クラスタリング工程は、前記正規表現化したトラヒックログのエントリをクラスタリングする。特徴情報抽出工程は、前記クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する。

　開示するトラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラムの一つの態様によれば、精度の高い攻撃の特徴情報を低コストで抽出することができるという効果を奏する。

図１は、第１の実施形態に係る情報収集配信サーバを含んだネットワークシステムの構成例を示す図である。図２は、第１の実施形態に係るトラヒックログの項目例を示す図である。図３は、第１の実施形態に係るトラヒックログの項目例を示す図である。図４は、第１の実施形態に係る正規表現パターンテーブルの項目例を示す図である。図５は、第１の実施形態に係る単語リストテーブルの項目例を示す図である。図６は、第１の実施形態に係る宛先情報テーブルの項目例を示す図である。図７は、第１の実施形態に係る情報収集配信サーバによる全体処理の流れを示すフローチャートである。図８は、第１の実施形態に係る情報収集配信サーバの正規表現化部によるトラヒックログの正規表現化処理の手順を示すフローチャートである。図９は、第１の実施形態に係る正規表現化トラヒックログの項目例を示す図である。図１０は、第１の実施形態に係る正規表現化トラヒックログの項目例を示す図である。図１１は、第１の実施形態に係る情報収集配信サーバのクラスタリング部によるクラスタリング処理の手順を示すフローチャートである。図１２は、第１の実施形態に係るクラスタリング結果の一例を示す図である。図１３は、第１の実施形態に係るクラスタリング結果の他の一例を示す図である。図１４は、第１の実施形態に係る情報収集配信サーバの特徴情報抽出部によるトラヒック特徴情報の抽出処理の手順を示すフローチャートである。図１５は、第１の実施形態に係る特徴情報抽出部による各クラスタからトラヒック特徴情報を抽出する処理動作を説明するための図である。図１６は、第１の実施形態に係る情報収集配信サーバの絞り込み部による統計値算出処理の手順を示すフローチャートである。図１７は、第１の実施形態に係る絞り込み部による正規表現化トラヒックログからトラヒックログ内での統計値を算出する処理動作を説明するための図である。図１８は、第１の実施形態に係る情報収集配信サーバの絞り込み部によるトラヒック特徴情報とトラヒックログの統計値とを突合する処理の手順を示すフローチャートである。図１９は、第１の実施形態に係る絞り込み部による突合処理の結果の一例を示す図である。図２０は、第１の実施形態に係る情報収集配信サーバの特定部による対象処理の手順を示すフローチャートである。図２１は、第１の実施形態に係る対照結果の一例を示す図である。図２２は、第１の実施形態に係る情報収集配信サーバの正規表現化部による単語リスト生成処理の手順を示すフローチャートである。図２３は、トラヒック特徴情報抽出プログラムを実行するコンピュータを示す図である。

　以下に、開示するトラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラムの実施形態について、図面に基づいて詳細に説明する。なお、本実施形態により開示する発明が限定されるものではない。

（第１の実施形態）
　図１は、第１の実施形態に係る情報収集配信サーバ３０を含んだネットワークシステムの構成例を示す図である。図１に示すように、第１の実施形態に係る情報収集配信サーバ３０は、ネットワーク１を介して、ネットワーク２からネットワーク５に接続される。なお、情報収集配信サーバ３０のことを「トラヒック特徴情報抽出装置」とも言う。

　ネットワーク１は、インターネットのように広域なネットワーク網であってもよく、また、企業内ネットワークのように比較的狭域なネットワーク網であってもよい。このネットワーク１は、ネットワーク２～５を収容する。ネットワーク２～５のそれぞれの間は、後述するパケット転送部６～９によって互いに通信可能に接続されている。なお以下では、ネットワーク２及びネットワーク３のことを「防御対象ネットワーク」と記載し、ネットワーク４及びネットワーク５のことを「攻撃側ネットワーク」と記載する。

　ネットワーク２は、マルウェア感染攻撃を解析するために設けられたネットワークであり、例えば、囮サーバ１４、囮端末１５、端末型サンドボックス１６及びサーバ型サンドボックス１７を有する。囮サーバ１４や囮端末１５としては、ハニーネットプロジェクトが提供しているオープンソースのハニーポットや、独自に開発されたハニーポットが適用できる。また、端末型サンドボックス１６及びサーバ型サンドボックス１７としては、ＦｉｒｅＥｙｅに代表される製品からオープンソースのソフトウェア、または、独自に開発されたサンドボックスが適用できる。

　また、図１に示すように、ネットワーク２は、パケット転送部６、パケット転送部１０、パケット転送部１１、通信監視部２２及び通信監視部２３を有する。パケット転送部６は、ネットワーク２と他のネットワークとの間のパケットの送受信の制御や、ネットワーク２内のパケットの送受信を制御する。パケット転送部１０は、ネットワーク２において、囮サーバ１４と囮端末１５とを接続するとともに、パケット転送部６を介して囮サーバ１４及び囮端末１５を、端末型サンドボックス１６やサーバ型サンドボックス１７及び他のネットワークと接続する。また、パケット転送部１１は、ネットワーク２において、端末型サンドボックス１６とサーバ型サンドボックス１７とを接続するとともに、パケット転送部６を介して端末型サンドボックス１６とサーバ型サンドボックス１７を、囮サーバ１４や囮端末１５及び他のネットワークと接続する。なお、パケット転送部６、パケット転送部１０及びパケット転送部１１としては、スイッチやルータまたはスイッチ機能やルータ機能やポートフォワーディングやハイパーテキスト転送プロトコル（以下、ＨＴＴＰ：Hypertext　Transfer　Protocol）転送機能など、ＭＡＣ（Media　Access　Control）アドレスやＩＰ（Internet　Protocol）アドレスやポート番号やＨＴＴＰヘッダなどのヘッダの情報を参照して転送先を決定してパケットを出力する機能が該当する。

　通信監視部２２は、トラヒックログを収集する。通信監視部２３は、トラヒックログを収集する。ここで、トラヒックログとしては、各通信監視部が収集可能なログ情報やアラート情報、パケットをキャプチャしたｐｃａｐ（packet　capture）情報やサーバのｓｙｓｌｏｇ情報など、多くの情報が想定できる。囮サーバ１４や囮端末１５、端末型サンドボックス１６やサーバ型サンドボックス１７で収集したログ情報は攻撃に関する悪性トラヒックログとして適用できる可能性がある。なお、通信監視部２２及び通信監視部２３は、転送に用いる情報およびパケットペイロードを監視する機能であり、セキュリティアプライアンスやプロキシやアンチウィルスソフトなどに加え、転送したパケットを装置内外に保存するパケット転送部が該当する。

　また、通信監視部２２及び通信監視部２３は、特定の情報を保有し、当該情報と一致する通信を検知する機能を具備する場合や、当該通信を遮断したり、別の付加機能に転送したりする機能を具備する場合がある。特に、特定の情報として攻撃の特徴を記憶し、当該情報と一致する通信を攻撃とした場合は、攻撃を検知する機能を具備する場合や、当該攻撃を遮断する機能や検疫と呼ばれる別の付加機能に転送する機能を具備する場合がある。

　ネットワーク３は、例えば、ユーザサーバ１８、ユーザサーバ１９、ユーザ端末２０及びユーザ端末２１を有する。このネットワーク３に配置されているユーザサーバ１８、ユーザサーバ１９、ユーザ端末２０及びユーザ端末２１のすべて又は一部は、特定種類の通信の送受信の確認対象となる。

　また、図１に示すように、ネットワーク３は、パケット転送部７、パケット転送部１２及びパケット転送部１３を有する。パケット転送部７は、ネットワーク３と他のネットワークとの間のパケットの送受信の制御や、ネットワーク３内のパケットの送受信を制御する。パケット転送部１２は、ネットワーク３において、ユーザ端末２０とユーザ端末２１とを接続するとともに、パケット転送部７を介してユーザ端末２０及びユーザ端末２１を、ユーザサーバ１８やユーザサーバ１９及び他のネットワークと接続する。パケット転送部１３は、ネットワーク３において、ユーザサーバ１８とユーザサーバ１９とを接続するとともに、パケット転送部７を介してユーザサーバ１８及びユーザサーバ１９を、ユーザ端末２０やユーザ端末２１及び他のネットワークと接続する。

　また、パケット転送部７は、通信監視部２４を有する。この通信監視部２４は、装置としてネットワーク２内に配置される通信監視部２２や通信監視部２３とは異なり、パケット転送部７内の一機能として配置される。通信監視部２４は、トラヒックログを収集する。

　また、ユーザ端末２０及びユーザ端末２１には、端末用攻撃検知ソフトウェア２５がインストールされる。また、ユーザサーバ１８及びユーザサーバ１９には、サーバ用攻撃検知ソフトウェア２６がインストールされる。この端末用攻撃検知ソフトウェア２５及びサーバ用攻撃検知ソフトウェア２６は、例えば、アンチウィルスソフトやホスト型ＩＤＳ／ＩＰＳであり、トラヒックログを収集する。すなわち、端末用攻撃検知ソフトウェア２５やサーバ用攻撃検知ソフトウェア２６も通信監視部に含まれる。

　ここで、トラヒックログとしては、各通信監視部が収集可能なログ情報やアラート情報、パケットをキャプチャしたｐｃａｐ情報やサーバのｓｙｓｌｏｇ情報など、多くの情報が想定できる。端末用攻撃検知ソフトウェア２５やサーバ用攻撃検知ソフトウェア２６を含む通信監視部が攻撃だと判定したトラヒックのログも悪性トラヒックログとして適用できる可能性がある。

　また、例えばネットワーク３に配置された通信監視部２４が攻撃を検知しなかった場合、通信監視部２４で収集したトラヒックログは良性トラヒックログとして適用できる可能性がある。なお、通常異なる装置やソフトウェアからトラヒックログやアラートを収集して通信相手や通信内容の情報を抽出する際、装置やソフトウェアに応じて各項目の表記方法が異なる場合があるが、近年ではＳＩＥＭ（Security　Information　and　Event　Management）製品として異なる表記で示されたログ情報を統一的な表記方法に変換して集計する技術が普及している。

　ネットワーク４は、特定種類の通信を攻撃する攻撃者端末２７を有する。図１に示すように、ネットワーク４は、パケット転送部８を有する。パケット転送部８は、ネットワーク４と他のネットワークとの間のパケットの送受信を制御する。

　ネットワーク５は、アクセスしたユーザ端末を攻撃のために他のサーバに転送する悪性サーバ２９や、アクセスしたユーザサーバやユーザ端末にマルウェアを配布するマルウェア配布サーバ２８を有する。図１に示すように、ネットワーク５は、パケット転送部９を有する。パケット転送部９は、ネットワーク５と他のネットワークとの間のパケットの送受信を制御する。

　情報収集配信サーバ３０は、マルウェアが発生させるトラヒックログ及び防御対象の任意のトラヒックログの少なくともいずれか一方からトラヒック特徴情報を抽出する。また、情報収集配信サーバ３０は、抽出したトラヒック特徴情報を防御対象の任意のトラヒックログと対照する。以下では、情報収集配信サーバ３０の詳細な構成を説明する。

　ここで、情報収集配信サーバ３０の詳細な構成を説明する前に、情報収集配信サーバ３０により収集されるトラヒックログについて、図２及び図３を用いて説明する。図２は、第１の実施形態に係るトラヒックログの項目例を示す図である。図２では、マルウェアが発生させるトラヒックログの項目例を示す。なお、収集可能なトラヒックログは、ソフトウェアや機器によって異なる。例えば、ｐｃａｐデータなどを保存できる場合は多くの情報を収集できる一方で、ｐｒｏｘｙサーバなどではＨＴＴＰヘッダのデータが記録できるが、ルータやスイッチなどのネットワーク機器において標準的に観測できるデータはＩＰアドレスやポート番号毎のフレーム・パケット数などに限定される場合が多い。

　図２に示すように、マルウェアが発生させるトラヒックログは、「通番」、「マルウェア識別子」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」及び「ＵＲＬ」を対応付けて記録される。なお、記録される項目例は、図２に示すものに限られるものではない。例えば、トラヒックログとして、「通番」、「マルウェア識別子」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」及び「ＵＲＬ」に加えて、通信元や通信先を特定可能な他の項目が記録されてもよい。或いは、トラヒックログとして、「通番」、「マルウェア識別子」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」、「ＵＲＬ」及び通信元や通信先を特定可能な他の項目のうちいずれかが記録されてもよい。

　ここで、「通番」は、トラヒックログとして記録されたエントリの順序を示す。例えば、「通番」には、エントリが１番目に記録されたことを示す「１」、エントリが２番目に記録されたことを示す「２」などのデータ値が格納される。また、「マルウェア識別子」は、当該トラヒックがどのマルウェア検体によって発生しているかを示す識別子を示す。このマルウェア識別子としては、マルウェア検体に対して一意に定まるハッシュ値を付与する場合や、別途管理用テーブルからの情報を付与する場合がある。例えば、「マルウェア識別子」には、「Ｍ１」、「Ｍ２」などのデータ値が格納される。

　「通信元ＩＰアドレス」は、パケットの通信元のＩＰアドレスを示す。例えば、「通信元ＩＰアドレス」には、「１０．０．０．１」、「１０．０．０．２」などのデータ値が格納される。また、「通信先ＩＰアドレス」は、パケットの通信先のＩＰアドレスを示す。例えば、「通信先ＩＰアドレス」には、「１９８．５１．１００．９８」、「１９２．０．２．１００」などのデータ値が格納される。

　また、「送信元ポート」は、パケットを送信した送信元ポートを示す。例えば、「送信元ポート」には、「５１２３４」、「５００３２」などのデータ値が格納される。また、「宛先ポート」は、パケットの宛先ポートを示す。例えば、「宛先ポート」には、「８０」、「６０３２０」などのデータ値が格納される。また、「ＵＲＬ」は、アクセス先のＵＲＬを示す。例えば、「ＵＲＬ」には、「ｈｔｔｐ：//ｗｗｗ．ｅｘａｍｐｌｅ．ｃｏｍ/ａｂｃｄｅｆ/ｉｎｄｅｘ．ｐｈｐ？ｔｅｓｔ＝１２３」、「ｈｔｔｐ：//ｗｗｗ．ｅｘａｍｐｌｅ．ｃｏｍ/ｔｅｓｔ/ｉｍａｇｅ．ｐｈｐ」などのデータ値が格納される。

　一例をあげると、図２に示すトラヒックログは、「通番」が「１」であるトラヒックログのエントリは、マルウェア識別子「Ｍ１」によって発生したトラヒックログであり、ＩＰアドレス「１０．０．０．１」を通信元とし、ＩＰアドレス「１９８．５１．１００．９８」を通信先とすることを示す。また、図２に示すトラヒックログは、「通番」が「１」であるトラヒックログのエントリは、ポート「５１２３４」を送信元とし、ポート「８０」を宛先とし、ＵＲＬ情報として「ｈｔｔｐ：//ｗｗｗ．ｅｘａｍｐｌｅ．ｃｏｍ/ａｂｃｄｅｆ/ｉｎｄｅｘ．ｐｈｐ？ｔｅｓｔ＝１２３」が含まれることを示す。

　なお、トラヒックログとしては、アクセス毎のデータが記録される場合や、受信フレーム・パケットごとにデータが記録される場合や、マルチセッションのデータが記録される場合がある。第１の実施形態では、マルウェアが発生させるトラヒックログとして、ハニーポットで収集したデータや、サンドボックスで収集したデータや、既存技術で悪性トラヒックログと判定されたデータに含まれるトラヒックのログを示す。

　図３は、第１の実施形態に係るトラヒックログの項目例を示す図である。図３では、防御対象ネットワークでのトラヒックログの項目例を示す。なお、図２と同様に、収集可能なトラヒックログは、ソフトウェアや機器によって異なる。

　図３に示すように、防御対象ネットワークでのトラヒックログは、「通番」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」及び「ＵＲＬ」を対応付けて記録される。

　ここで、防御対象ネットワークでのトラヒックログとして記録される各項目は、マルウェアが発生させるトラヒックログとして記録される各項目と同様である。なお、記録される項目例は、図３に示すものに限られるものではない。例えば、トラヒックログとして、「通番」、「マルウェア識別子」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」及び「ＵＲＬ」に加えて、通信元や通信先を特定可能な他の項目が記録されてもよい。或いは、トラヒックログとして、「通番」、「マルウェア識別子」、「通信元ＩＰアドレス」、「通信先ＩＰアドレス」、「送信元ポート」、「宛先ポート」、「ＵＲＬ」及び通信元や通信先を特定可能な他の項目のうちいずれかが記録されてもよい。

　一例をあげると、図３に示すトラヒックログは、「通番」が「１」であるトラヒックログのエントリは、ＩＰアドレス「１０．０．０．１」を通信元とし、ＩＰアドレス「１９８．５１．１００．９８」を通信先とすることを示す。また、図２に示すトラヒックログは、「通番」が「１」であるトラヒックログのエントリは、ポート「５１２３４」を送信元とし、ポート「８０」を宛先とし、ＵＲＬ情報として「ｈｔｔｐ：//ｗｗｗ．ｅｘａｍｐｌｅ．ｃｏｍ/ｇｈｉｊｋｌ/ｉｎｄｅｘ．ｐｈｐ？ｔｅｓｔ＝４５６」が含まれることを示す。

　続いて、図１を用いて、情報収集配信サーバ３０の構成について説明する。図１に示すように、情報収集配信サーバ３０は、ログ収集部３１と、トラヒック特徴情報抽出・対照部３２と、特徴情報収集配信部３３と、記憶部３４とを有する。

　記憶部３４は、例えば、半導体メモリ素子又はハードディスクなどの記憶装置であり、正規表現パターンテーブル３４ａと、単語リストテーブル３４ｂと、宛先情報テーブル３４ｃとを有する。

　正規表現パターンテーブル３４ａは、トラヒックログを正規表現する所定の規則を示す情報を記憶する。図４は、第１の実施形態に係る正規表現パターンテーブル３４ａの項目例を示す図である。図４に示すように、正規表現パターンテーブル３４ａは、「通番」と、「文字種別」と、「正規表現パターン」とを対応付けた情報を記憶する。ここで、正規表現パターンテーブル３４ａが記憶する「通番」は、正規表現パターンテーブル３４ａが記憶するエントリの識別情報を示す。例えば、「通番」には、「１」、「２」などのデータ値が格納される。

　また、正規表現パターンテーブル３４ａが記憶する「文字種別」は、トラヒック特徴情報に存在する文字列の種別を示す。例えば、「文字種別」には、「英文字」、「整数」、「１６進数」、「Ｂａｓｅ６４」などのデータ値が格納される。なお、「文字種別」は、図４に示す例に限定されるものではない。

　また、正規表現パターンテーブル３４ａが記憶する「正規表現パターン」は、文字列を正規表現する規則を示す。例えば、「正規表現パターン」には、「［ａ－ｚＡ－Ｚ］」、「［０－９］」などのデータ値が格納される。

　一例をあげると、図４に示す正規表現パターンテーブル３４ａは、英文字が５つ連続する文字列を正規表現パターンで置換する場合には、［ａ－ｚＡ－Ｚ]｛５｝と表記することを示す。なお、かかる場合、中括弧内の数字が文字数となる。なお、トラヒック特徴情報の項目の中には、非印字可能文字が含まれる場合がある。非印字可能文字については正規表現パターンでの置換の対象としない場合もあるが、別途定める手順にしたがって非印字可能文字を印字可能文字に一意に変換した上で、正規表現パターンに置換してもよい。

　単語リストテーブル３４ｂは、トラヒックログから抽出した項目に含まれる部分文字列を正規表現化するか否かを示す情報を記憶する。言い換えると、単語リストテーブル３４ｂは、正規表現化しない部分文字列を示す情報を記憶する。図５は、第１の実施形態に係る単語リストテーブル３４ｂの項目例を示す図である。本項目例では、図２に示すマルウェアが発生させるトラヒックのＵＲＬに現れる文字列から単語を抽出し、単語リストを作成した例を示す。なお、単語リストテーブル３４ｂの作成手順については、図２２を用いて後述する。

　図５に示すように、単語リストテーブル３４ｂは、「通番」と「単語」とを対応付けた情報を記憶する。ここで、単語リストテーブル３４ｂが記憶する「通番」は、単語リストテーブル３４ｂが記憶するエントリの識別情報を示す。例えば、「通番」には、「１」、「２」などのデータ値が格納される。

　また、単語リストテーブル３４ｂが記憶する「単語」は、トラヒックログから抽出した項目に含まれる部分文字列を示す。例えば、「単語」には、「ｉｎｄｅｘ」、「ｐｈｐ」、「ｔｅｓｔ」などのデータ値が格納される。

　一例をあげると、図５に示す単語リストテーブル３４ｂは、トラヒックログから抽出した項目に「ｉｎｄｅｘ」、「ｐｈｐ」、「ｔｅｓｔ」が含まれる場合、これらの部分文字列を正規表現化しないことを示す。

　宛先情報テーブル３４ｃは、通信の宛先を示す情報又は通信の宛先に対応する宛先情報を記憶する。図６は、第１の実施形態に係る宛先情報テーブル３４ｃの項目例を示す図である。図６に示すように、宛先情報テーブル３４ｃは、「通番」と、「ＩＰアドレス」と、「アドレスプレフィックス」と、「ＡＳ番号」と、「組織名」とを対応付けた情報を記憶する。

　ここで、宛先情報テーブル３４ｃが記憶する「通番」は、宛先情報テーブル３４ｃが記憶するエントリの識別情報を示す。例えば、「通番」には、「１」、「２」などのデータ値が格納される。また、宛先情報テーブル３４ｃが記憶する「ＩＰアドレス」は、通信先のＩＰアドレスを示す。例えば、「ＩＰアドレス」には、「１９２．０．２．１００」、「１９８．５１．１００．９８」などのデータ値が格納される。

　また、宛先情報テーブル３４ｃが記憶する「アドレスプレフィックス」は、ＩＰアドレスの中におけるネットワークアドレスの部分を示す。ここで、アドレスプリフィックスは、「／（スラッシュ）」を伴ってプリフィックス長とともに表記される。例えば、「アドレスプレフィックス」には、先頭から２４ビットまでをアドレスプリフィックスとする「１９２．０．２．０／２４」、「１９８．５１．１００．０／２４」などのデータ値が格納される。

　また、宛先情報テーブル３４ｃが記憶する「ＡＳ番号」は、インターネットなどの大規模ＩＰネットワーク内にある、各組織が保有・運用する自立したネットワーク（ＡＳ（Autonomous　System））を識別する番号を示す。例えば、「ＡＳ番号」には、「６４５００」、「６４５０１」などのデータ値が格納される。また、宛先情報テーブル３４ｃが記憶する「組織名」は、ＡＳを保有・運用する組織を示す。例えば、「組織名」には、「ＴＥＳＴ－ＮＥＴ－１」、「ＴＥＳＴ－ＮＥＴ－２」などのデータ値が格納される。

　図６に示す例では、あるＩＰアドレスに対応するアドレスプレフィックス情報、ＡＳ（自律システム）番号、組織名を宛先情報の項目として抽出した場合を示しているが、これらの項目に限るものではない。また、宛先情報テーブル３４ｃが記憶する「アドレスプレフィックス」と、「ＡＳ番号」と、「組織名」とは、公知の情報であり、例えば、本宛先情報はＭａｘＭｉｎｄ社のＧｅｏＩＰサービスを利用して入手する場合や、独自に情報収集を行って作成する場合がある。

　一例をあげると、図６に示す宛先情報テーブル３４ｃは、ＩＰアドレス「１９２．０．２．１００」は、アドレスプリフィックスが「１９２．０．２．０／２４」であり、ＡＳ番号が「６４５００」であり、組織名が「ＴＥＳＴ－ＮＥＴ－１」を宛先とすることを示す。

　図１に戻る。ログ収集部３１は、各通信監視部からトラヒックログを収集する。例えば、ログ収集部３１は、ネットワーク２の通信監視部２２及び通信監視部２３や、ネットワーク３の通信監視部２４、端末用攻撃検知ソフトウェア２５及びサーバ用攻撃検知ソフトウェア２６などからトラヒックログを収集する。また、ログ収集部３１は、オペレータによる操作でトラヒックログを入力されてもよい。

　トラヒック特徴情報抽出・対照部３２は、正規表現化部３２ａと、クラスタリング部３２ｂと、特徴情報抽出部３２ｃと、絞り込み部３２ｄと、特定部３２ｅとを有し、トラヒック特徴情報抽出・対照手法を実行する。

　正規表現化部３２ａは、マルウェアが発生させるトラヒックログ及び防御対象の任意のトラヒックログの少なくともいずれか一方から予め設定した項目を抽出し、当該項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する。

　クラスタリング部３２ｂは、正規表現化したトラヒックログのエントリをクラスタリングする。例えば、クラスタリング部３２ｂは、通信の宛先または通信の宛先に対応する宛先情報の項目を用いて、予め設定した項目と粒度に従ってトラヒックログをクラスタリングする手法（手法Ａ）を用いる。また、クラスタリング部３２ｂは、通信のプロトコルスタックで利用されるプロトコルの組合せに含まれるヘッダ情報またはデータ情報の各項目を予め設定した項目に従ってトラヒックログをクラスタリングする手法（手法Ｂ）を用いる。クラスタリング部３２ｂは、手法Ａ及び手法Ｂの少なくともいずれか一つの手法を用いて、正規表現化したトラヒックログをクラスタリングする。

　特徴情報抽出部３２ｃは、クラスタリングしたトラヒックログに含まれるエントリ間の距離を予め指定した方法で定義し、各クラスタ内に含まれるエントリと、当該エントリ以外の各エントリとの距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する。

　絞り込み部３２ｄは、正規表現化したトラヒックログから予め設定した指標に従って当該トラヒックログ内での統計値を算出し、クラスタリングしたトラヒックログから抽出した特徴情報と、統計値とに基づいて、特徴量を絞り込む。

　特定部３２ｅは、絞り込んだ特徴情報と、防御対象ネットワークの任意のトラヒックログとを対照して、予め設定した指標を用いてスコアを算出し、当該スコアが閾値以上となるトラヒックログ内のエントリを特定することで、当該エントリの送信元ホスト及び送信先のすくなくともいずれか一つを特定する。

　特徴情報収集配信部３３は、新たな特徴情報を監視対象リストとして各通信監視部に配信する。例えば、特徴情報収集配信部３３は、ネットワーク２の通信監視部２２及び通信監視部２３や、ネットワーク３の通信監視部２４、端末用攻撃検知ソフトウェア２５及びサーバ用攻撃検知ソフトウェア２６などに新たな特徴情報を監視対象リストとして配信する。

　なお、特徴情報収集配信部３３による監視対象リストの配信の仕組みは、特定種類の通信を攻撃とした場合、セキュリティベンダが、シグネチャをセキュリティアプライアンスやアンチウィルスソフトに配信する仕組みと同じである。かかる場合、セキュリティベンダは、自身の保有する囮サーバや囮端末やセキュリティアプライアンスやアンチウィルスソフトから情報を収集し、シグネチャを生成する。

　以下では、図７から図２２を用いて、情報収集配信サーバ３０による処理手順について処理を説明する。図７は、第１の実施形態に係る情報収集配信サーバ３０による全体処理の流れを示すフローチャートである。

　図７に示すように、情報収集配信サーバ３０の正規表現化部３２ａは、トラヒックログを正規化する正規表現化処理を実行する（ステップＳ１）。

　続いて、情報収集配信サーバ３０のクラスタリング部３２ｂは、正規表現化したトラヒックログをクラスタリングするクラスタリング処理を実行する（ステップＳ２）。そして、情報収集配信サーバ３０の特徴情報抽出部３２ｃは、クラスタリングしたトラヒックログから特徴情報を抽出する特徴情報抽出処理を実行する（ステップＳ３）。

　また、情報収集配信サーバ３０の絞り込み部３２ｄは、抽出した特徴情報を絞り込む特徴情報絞り込み処理を実行する（ステップＳ４）。そして、情報収集配信サーバ３０の特定部３２ｅは、絞り込んだ特徴情報と、防御対象のネットワークの任意のトラヒックログとを対照し、例えばマルウェア感染端末を特定する特定処理を実行する（ステップＳ５）。

　次に、情報収集配信サーバ３０が実行する各処理に詳細について説明する。図８は、第１の実施形態に係る情報収集配信サーバ３０の正規表現化部３２ａによるトラヒックログの正規表現化処理の手順を示すフローチャートである。図８に示すように、正規表現化部３２ａは、マルウェアが発生させるトラヒックログ又は防御対象ネットワークのトラヒックログを入力する（ステップＳ１０１）。

　次に、正規表現化部３２ａは、トラヒックログから情報抽出項目の選択を行う（ステップＳ１０２）。例えば、正規表現化部３２ａは、トラヒックログから抽出する項目を選択する。第１の実施形態では、正規表現化部３２ａが、通信元ＩＰアドレス、通信先ＩＰアドレス、ＵＲＬ、ＦＱＤＮ、ＵＲＬパス部、ＵＲＬクエリ部及びＵｓｅｒＡｇｅｎｔを選択する例を説明する。なお、正規表現化部３２ａは、トラヒックログ中の任意の項目を選択可能である。

　そして、正規表現化部３２ａは、正規表現化項目の選択を行う（ステップＳ１０３）。正規表現化部３２ａは、抽出項目のすべてを正規表現化することも可能であるが、第１の実施形態では、正規表現化部３２ａが、ＵＲＬパス部、ＵＲＬクエリ部及びＵｓｅｒＡｇｅｎｔを正規表現化する項目として選択する例を説明する。

　続いて、正規表現化部３２ａは、各項目中に含まれる各部分文字列に単語リストテーブル３４ｂに記載された単語が存在するか否かを判定する（ステップＳ１０４）。ここで、正規表現化部３２ａは、各項目中に含まれる各部分文字列に単語リストテーブル３４ｂに記載された単語が存在すると判定した場合（ステップＳ１０４、Ｙｅｓ）、当該部分文字列を変更しない（ステップＳ１０５）。一方、正規表現化部３２ａは、各項目中に含まれる各部分文字列に単語リストテーブル３４ｂに記載された単語が存在すると判定しなかった場合（ステップＳ１０４、Ｎｏ）、正規表現パターンテーブル３４ａを参照して当該部分文字列を正規表現パターンに置換する（ステップＳ１０６）。

　正規表現化部３２ａは、ステップＳ１０５又はステップＳ１０６を実行した結果を正規表現化トラヒックログとしてクラスタリング部３２ｂに出力する（ステップＳ１０７）。例えば、正規表現化部３２ａは、図９及び図１０に示す正規表現化トラヒックログをクラスタリング部３２ｂに出力する。

　図９は、第１の実施形態に係る正規表現化トラヒックログの項目例を示す図である。図９では、図２に示すマルウェアが発生させるトラヒックログを正規表現化した例を示す。なお、図９では、ＴＣＰ／ＩＰのプロトコルスタックで利用される通信元ＩＰアドレス、通信先ＩＰアドレス、ＵＲＬとＵＲＬの部分文字列に相当するＦＱＤＮとＵＲＬパス部とＵＲＬクエリ部、ＵｓｅｒＡｇｅｎｔとを予め設定する項目として指定した場合を示す。また、図９では、図４の正規表現化パターンと図５の単語リストとを利用して正規表現化した場合の項目例を示す。なお、項目例と項目の順序は図９に示す例に限定されるものではない。

　図１０は、第１の実施形態に係る正規表現化トラヒックログの項目例を示す図である。図１０では、図３に示す防御対象ネットワークでのトラヒックログを正規表現化した例を示す。なお、図１０では、ＴＣＰ／ＩＰのプロトコルスタックで利用される通信元ＩＰアドレス、通信先ＩＰアドレス、ＵＲＬとＵＲＬの部分文字列に相当するＦＱＤＮとＵＲＬパス部とＵＲＬクエリ部、ＵｓｅｒＡｇｅｎｔとを予め設定する項目として指定した場合を示す。また、図１０では、図４の正規表現化パターンと図５の単語リストを利用して正規表現化した場合の項目例を示す。なお、項目例と項目の順序は図１０に示すところに限るものではない。

　図１１は、第１の実施形態に係る情報収集配信サーバ３０のクラスタリング部３２ｂによるクラスタリング処理の手順を示すフローチャートである。図１１に示すように、クラスタリング部３２ｂは、正規表現化トラヒックログを入力する（ステップＳ３０１）。

　続いて、クラスタリング部３２ｂは、クラスタリング手法の選択を行う（ステップＳ３０２）。なお、図１１に示す例では、クラスタリング部３２ｂは、通信宛先クラスタリングとプロトコルクラスタリングの両方を選択し、通信宛先クラスタリング、プロトコルクラスタリングの順でクラスタリング処理を実施する場合について説明する。

　クラスタリング部３２ｂは、通信宛先に応じたクラスタリングを実施する（ステップＳ３０３）。ここでは、クラスタリング部３２ｂは、通信先ＩＰアドレスが同一であるエントリを同一クラスタとして取り扱い、図１２に示すクラスタリング結果を得る。

　図１２は、第１の実施形態に係るクラスタリング結果の一例を示す図である。図１２では、通信の宛先または通信の宛先に対応する宛先情報の項目を用いたトラヒックログのクラスタリング結果の例を示す。図１２では、正規表現化トラヒックログのうち通信先ＩＰアドレスが同一のトラヒック特徴情報を同一のクラスタとした場合の例を示している。なお、クラスタリング部３２ｂは、図１２に示すように、完全に同一の宛先情報を持つトラヒック特徴情報を同一クラスタと扱うだけでなく、図６に示した宛先情報テーブル３４ｃを用いたクラスタリングや、宛先情報間の距離を定義し、ある距離以下の宛先情報同士を同一とみなしてクラスタリングを行ってもよい。なお、図１２に示す例では、同一クラスタとしたトラヒック特徴情報を白色のエントリで示している。すなわち、図１２の通番１と通番２と通番４とが同一クラスタに該当する。

　図１１に戻る。クラスタリング部３２ｂは、図１２に示すクラスタリング結果を入力とし、プロトコルに応じたクラスタリングを実施する（ステップＳ３０４）。ここでは、クラスタリング部３２ｂは、正規表現化トラヒックログのうちＦＱＤＮが同一かつＵＲＬパス部が同一かつＵＲＬクエリ部が同一かつＵｓｅｒＡｇｅｎｔが同一の場合に、同一のクラスタに分類するものとする。クラスタリング部３２ｂは、例えば、図１３に示すクラスタリング結果を特徴情報抽出部３２ｃに出力する（ステップＳ３０５）。

　図１３は、第１の実施形態に係るクラスタリング結果の他の一例を示す図である。図１３では、通信プロトコルのヘッダ情報又はデータ情報の各項目を用いたクラスタリングの例を示す。図１３では、通信プロトコルとしてＨＴＴＰ、項目としてＨＴＴＰヘッダを利用する際に正規表現化トラヒックログをクラスタリングする例を示す。図１３では、特にＦＱＤＮが同一かつＵＲＬパス部が同一かつＵＲＬクエリ部が同一かつＵｓｅｒＡｇｅｎｔが同一の場合に、トラヒックログを同一のクラスタに分類する例を示す。なお、クラスタリング部３２ｂは、図１３に示すように、選択したヘッダ情報あるいはデータ情報が完全に同一のトラヒックログを同一クラスタと扱うだけでなく、各ヘッダ情報あるいは各データ情報間の距離を定義し、ある距離以下のトラヒックログ同士を同一とみなしてクラスタリングを行ってもよい。なお、図１３に示す例では、同一クラスタとしたトラヒックログを白色のエントリで示している。すなわち、図１３の通番１と通番２と通番５が同一クラスタに該当する。

　図１４は、第１の実施形態に係る情報収集配信サーバ３０の特徴情報抽出部３２ｃによるトラヒック特徴情報の抽出処理の手順を示すフローチャートである。図１４に示すように、特徴情報抽出部３２ｃは、正規表現化トラヒックログのクラスタリング結果を入力する（ステップＳ４０１）。例えば、特徴情報抽出部３２ｃは、図１３に示すクラスタリング結果を入力する。

　次に、特徴情報抽出部３２ｃは、同一クラスタに含まれるエントリごとに、各エントリから当該エントリ以外のすべてのエントリまでの距離の総和を計算する（ステップＳ４０２）。

　そして、特徴情報抽出部３２ｃは、総和が最小となるエントリを各クラスタの代表点とみなし、当該エントリをトラヒック特徴情報として抽出する（ステップＳ４０３）。また、特徴情報抽出部３２ｃは、抽出したトラヒック特徴情報を出力する（ステップＳ４０４）。例えば、特徴情報抽出部３２ｃは、図１５に示すトラヒック特徴情報を出力する。

　図１５は、第１の実施形態に係る特徴情報抽出部３２ｃによる各クラスタからトラヒック特徴情報を抽出する処理動作を説明するための図である。図１５では、図１２や図１３で示すクラスタが形成されている場合に、特徴情報抽出部３２ｃが、クラスタ内からトラヒック特徴情報を抽出する例を示す。ここでは、特徴情報抽出部３２ｃが、ＵＲＬクエリ部の正規表現の文字数の差分を距離と定義する場合を例に説明する。この場合、特徴情報抽出部３２ｃは、通番「３」のエントリと、それ以外の各通番のエントリとの距離の総和が最小となると判定する。このため、特徴情報抽出部３２ｃは、通番「３」をトラヒック特徴情報として抽出する。なお、図１５では、通番「３」で識別されるエントリがトラヒック特徴情報に該当し、抽出されたトラヒック特徴情報を白色のエントリで示している。

　図１６は、第１の実施形態に係る情報収集配信サーバ３０の絞り込み部３２ｄによる統計値算出処理の手順を示すフローチャートである。絞り込み部３２ｄは、防御対象ネットワークでの正規表現化トラヒックログの図１０を入力する（ステップＳ５０１）。次に、絞り込み部３２ｄは、当該トラヒックログの中から、統計値を算出する項目を選択する（ステップＳ５０２）。図１６では、絞り込み部３２ｄは、通信元ＩＰアドレス数、通信先ＦＱＤＮ数を選択するものとする。

　そして、絞り込み部３２ｄは、統計値を算出する（ステップＳ５０３）。図１６では、絞り込み部３２ｄは、通信元ＩＰアドレス数、通信先ＦＱＤＮ数から、通信先ＩＰアドレス人気度、通信先ＦＱＤＮ人気度、稀少度を算出するのものとする。続いて、絞り込み部３２ｄは、正規表現化トラヒックログの統計値を出力する（ステップＳ５０４）。例えば、絞り込み部３２ｄは、図１７に示す各統計値を出力する。

　図１７は、第１の実施形態に係る絞り込み部３２ｄによる正規表現化トラヒックログからトラヒックログ内での統計値を算出する処理動作を説明するための図である。図１７では、正規表現化トラヒックログに含まれる各項目を当該トラヒックログ内で集計した際の、通信元ＩＰアドレス数、通信先ＦＱＤＮ数、通信元ＩＰアドレス人気度、通信先ＦＱＤＮ人気度、稀少度という５つの統計値を算出する例を示す。なお、統計値は、これらの項目に限定されるものではない。また、通信元ＩＰアドレス人気度は、「(通信元ＩＰアドレス人気度)＝(通信元ＩＰアドレス数)／(通信元ＩＰアドレス数の最大値)」、また、通信先ＦＱＤＮ数人気度は、「(通信先ＦＱＤＮ人気度)＝(通信先ＦＱＤＮ数)／(通信先ＦＱＤＮ数の最大値)」と定義する。

　また稀少度は、通信元ＩＰアドレス人気度と通信先ＦＱＤＮ人気度とを使って、例えば、次のように定義される。すなわち、稀少度は、「(稀少度)＝１－(通信先ＩＰアドレス人気度と通信先ＦＱＤＮ人気度のうちの最小値)」である。例えば、絞り込み部３２ｄは、通番１のデータについて今回例示する統計値を算出する場合、通番１のデータの通信を行った通信元ＩＰアドレス数が１００、通信先ＦＱＤＮ数が１００であることを算出し、当該トラヒック内での通信元ＩＰアドレス数の最大値が１０００、通信先ＦＱＤＮ数の最大値が１０００であることを算出すると、以下の統計値を算出する。すなわち、絞り込み部３２ｄは、「(通番１の通信元ＩＰアドレス人気度)＝１００／１０００＝０．１」、「(通番１の通信先ＦＱＤＮ人気度)＝１００／１０００＝０．１」及び「(通番１の稀少度)＝１－０．１＝０．９」であると算出する。

　図１８は、第１の実施形態に係る情報収集配信サーバ３０の絞り込み部３２ｄによるトラヒック特徴情報とトラヒックログの統計値とを突合する処理の手順を示すフローチャートである。図１８に示すように、絞り込み部３２ｄは、トラヒック特徴情報とトラヒックログの統計値とを入力する（ステップＳ６０１）。例えば、絞り込み部３２ｄは、図１５に示すトラヒック特徴情報と図１７に示すトラヒックログの統計値とを入力する。

　次に、絞り込み部３２ｄは、トラヒック特徴情報と、トラヒックログ統計値の対応する項目を突合する（ステップＳ６０２）。例えば、絞り込み部３２ｄは、トラヒック特徴情報に含まれる各ＵＲＬパス部、ＵＲＬクエリ部、ＵｓｅｒＡｇｅｎｔについて、当該項目のトラヒックログの統計値を図１７との突合によって付与する。

　そして、絞り込み部３２ｄは、統計値が閾値以上であるか否かを判定する（ステップＳ６０３）。例えば、絞り込み部３２ｄは、トラヒック特徴情報のうち、ＵＲＬパス部、ＵＲＬクエリ部、ＵｓｅｒＡｇｅｎｔの各統計値について、予め定めた閾値以上になるか否かを判定する。ここで、絞り込み部３２ｄは、統計値が閾値以上であると判定しなかった場合（ステップＳ６０３、Ｎｏ）、処理を終了する。

　一方、絞り込み部３２ｄは、統計値が閾値以上であると判定した場合（ステップＳ６０３、Ｙｅｓ）、トラヒック特徴情報から抽出する（ステップＳ６０４）。そして、絞り込み部３２ｄは、トラヒック特徴情報の抽出結果を出力する（ステップＳ６０５）。例えば、絞り込み部３２ｄは、トラヒック特徴情報のうち、ＵＲＬパス部、ＵＲＬクエリ部、ＵｓｅｒＡｇｅｎｔの各統計値について、予め定めた閾値以上になる場合のみを抽出して、図１９として出力する。

　図１９は、第１の実施形態に係る絞り込み部３２ｄによる突合処理の結果の一例を示す図である。図１９では、クラスタリングの結果得られた図１５に示すトラヒック特徴情報と、図１７に示すトラヒックログ統計値とを突合し、統計値が閾値以上になるトラヒック特徴情報を抽出した例を示す。図１９に示すように、絞り込み部３２ｄは、図１５から抽出したクラスタのトラヒック特徴情報と、それ以外のクラスタから抽出されたトラヒック特徴情報に対し、図１７に示したトラヒックログ統計値のうち、ＵＲＬパス部稀少度、ＵＲＬクエリ部稀少度、ＵｓｅｒＡｇｅｎｔ稀少度を付与し、それぞれの稀少度の閾値が０．９以上のものを抽出する。なお、図１９に示す例では、抽出されたトラヒック特徴情報を白色のエントリで示しており、通番１が抽出されたトラヒック特徴情報に該当する。また、閾値は一例であり、任意に変更可能である。

　図２０は、第１の実施形態に係る情報収集配信サーバ３０の特定部３２ｅによる対象処理の手順を示すフローチャートである。図２０に示すように、特定部３２ｅは、統計値突合済トラヒック特徴情報と、防御対象ネットワークのトラヒックログとを入力する（ステップＳ７０１）。例えば、特定部３２ｅは、図１９に示す統計値突合済トラヒック特徴情報と図３に示す防御対象ネットワークのトラヒックログとを入力する。

　次に、特定部３２ｅは、防御対象ネットワークのトラヒックログに含まれる各エントリと、統計値突合済トラヒック特徴情報とを対照し、スコアを算出する（ステップＳ７０２）。例えば、特定部３２ｅは、防御対象ネットワークのトラヒックログに含まれる各エントリに対し、統計値突合済トラヒック特徴情報に含まれるＵＲＬパス部とＵＲＬクエリ部の対照を行い、スコアを算出する。なお、スコアは任意に定義可能であるが、図２０ではトラヒック特徴情報とトラヒックログのＵＲＬのうちＦＱＤＮ、ＵＲＬパス部、ＵＲＬクエリ部が完全に一致する場合のみ、スコアが閾値以上となるように定義する。また、スコアの定義方法の別例としては、トラヒック特徴情報に共通に含まれる項目同士の類似度の平均と定義することが考えられる。また、図２０では、各項目には文字列のみが含まれており、文字列同士の類似度の計算は先行技術を利用することが可能である。

　特定部３２ｅは、算出したスコアが予め指定した閾値以上であるか否かを判定する（ステップＳ７０３）。ここで、特定部３２ｅは、算出したスコアが予め指定した閾値以上であると判定しなかった場合（ステップＳ７０３、Ｎｏ）、処理を終了する。一方、特定部３２ｅは、算出したスコアが予め指定した閾値以上であると判定した場合（ステップＳ７０３、Ｙｅｓ）、防御対象ネットワークの当該エントリの送信元ホストを特定する（ステップＳ７０４）。ここで、算出したスコアが予め指定した閾値以上である場合、エントリはトラヒック特徴情報と類似していることを意味する。特に、図２０に示す場合、マルウェアによるトラヒックから生成されたトラヒック特徴情報と類似していることから、その送信元ホストを特定することで、マルウェア感染端末を発見することが可能となる。

　そして、特定部３２ｅは、トラヒック特徴情報と防御対象ネットワークのトラヒックログの対照結果を出力する（ステップＳ７０５）。例えば、特定部３２ｅは、送信元ホストを特定した結果として図２１に示す結果を出力する。

　図２１は、第１の実施形態に係る対照結果の一例を示す図である。図２１では、図３で示した防御対象ネットワークでのトラヒックログと図１９で示した統計値突合済トラヒック特徴情報とを対照して、ＵＲＬのうちＦＱＤＮ、ＵＲＬパス部、ＵＲＬクエリ部が完全に一致する場合に、当該ＵＲＬの通信元ＩＰアドレスより、送信元ホストを特定する例を示す。なお、図２１では、特定された送信元ホストを含むトラヒックログを白色のエントリで示しており、通番１が該当する。

　なお、単語リストテーブル３４ｂは、マルウェアが発生させるトラヒックログにおいて通信のプロトコルスタックで利用される項目の統計値を算出し、算出した統計値が閾値以上となる項目に含まれる任意の文字列を抽出することにより生成される。

　例えば、正規表現化部３２ａは、同種類または複数種類のマルウェアが発生させるトラヒックログを通信のプロトコルスタックで利用される１つのプロトコル又は複数のプロトコルの組合せに含まれるヘッダ情報またはデータ情報の各項目の統計値を算出する。そして、正規表現化部３２ａは、特定の項目で統計値が閾値以上となるヘッダ情報またはデータ情報に含まれる任意の文字列を抽出する。

　図２２は、第１の実施形態に係る情報収集配信サーバ３０の正規表現化部３２ａによる単語リスト生成処理の手順を示すフローチャートである。図２２では、図２に示すトラヒックログから単語リストを作成する例を示す。正規表現化部３２ａは、図２で示すマルウェアが発生させるトラヒックログを入力する（ステップＳ２０１）。

　次に、正規表現化部３２ａは、プロトコルスタックを選択する（ステップＳ２０２）。なお、ここでは、プロトコルスタックとしてＨＴＴＰを選択する場合について説明する。そして、正規表現化部３２ａは、ＨＴＴＰのヘッダ情報に含まれるＵＲＬの統計値（出現頻度）を算出する（ステップＳ２０３）。

　正規表現化部３２ａは、この統計値が予め定めた閾値以上となるか否かを判定する（ステップＳ２０４）。ここで、正規表現化部３２ａは、統計値が予め定めた閾値以上となると判定しなかった場合（ステップＳ２０４、Ｎｏ）、処理を終了する。一方、正規表現化部３２ａは、統計値が予め定めた閾値以上となると判定した場合（ステップＳ２０４、Ｙｅｓ）、文字列を単語として抽出し（ステップＳ２０５）、抽出された単語を単語リストとして出力する（ステップＳ２０６）。例えば、正規表現化部３２ａは、図２の通番１、通番３、通番２３３を単語として抽出する。選択するプロトコルスタックと情報の選択、この統計値と閾値は任意に選択可能とする。閾値以上となったＵＲＬのパス部とクエリ部に含まれる二文字以上の文字列を選択して単語として抽出する。これにより、正規表現化部３２ａは、例えば図５に示す単語リストテーブル３４ｂを生成する。

　上述したように、第１の実施形態では、正規表現化したトラヒックログのエントリをクラスタリングし、クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する。これにより、第１の実施形態によれば、精度の高い攻撃の特徴情報を低コストで抽出することができる。

　また、第１の実施形態では、マルウェアが発生させるトラヒックログから作成したトラヒック特徴情報と、防御対象ネットワークでのトラヒックログ統計値とを両方を用いて、トラヒック特徴情報を抽出する。これにより、防御対象ネットワークのトラヒックログ内で、トラヒック特徴情報に類似し、かつ防御対象ネットワークで稀少なトラヒックを効率的に抽出することが可能となる。また、第１の実施形態によれば、このようなトラヒックの送信元ホストを特定することで、マルウェア感染端末を効率的に発見可能である。

　なお、第１の実施形態では、情報収集配信サーバ３０は、ネットワーク１に接続され、独立に設けられるものとして説明したが、実施形態はこれに限定されるものではない。例えば、情報収集配信サーバ３０がトラヒック特徴情報抽出・対照部３２として有する機能（正規表現化部３２ａと、クラスタリング部３２ｂと、特徴情報抽出部３２ｃと、絞り込み部３２ｄと、特定部３２ｅ）を、ネットワーク２内やネットワーク３内に設けてもよい。かかる場合、情報収集配信サーバ３０は、オペレータが個々の機器やソフトウェアから個別にトラヒックログを収集してトラヒック特徴情報抽出・対照手法を実施する。

　また、上述した実施形態では、情報収集配信サーバ３０は、トラヒックログを収集してトラヒック特徴情報抽出し、抽出したトラヒック特徴情報を防御対象の任意のトラヒックログと対照するものとして説明したが実施形態はこれに限定されるものではない。例えば、情報収集配信サーバ３０は、抽出したトラヒック特徴情報をトラヒックログと対照する処理を実行しなくてもよい。すなわち、情報収集配信サーバ３０は、図７に示すステップＳ４及びステップＳ５の処理を実行しなくてもよい。かかる場合、情報収集配信サーバ３０は、トラヒックログを収集してトラヒック特徴情報抽出する。また、情報収集配信サーバ３０は、特徴情報の抽出のみが必要である場合、特徴情報収集配信部３３を有さずに構成されてもよい。

（第２の実施形態）
　さて、これまで本発明の実施形態について説明したが、本発明は上述した実施形態以外にも、その他の実施形態にて実施されてもよい。そこで、以下では、その他の実施形態を示す。

（システム構成）
　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述の文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については（例えば、図１～図２２）、特記する場合を除いて任意に変更することができる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

（プログラム）
　また、上記第１の実施形態に係る情報収集配信サーバ３０が実行する処理をコンピュータが実行可能な言語で記述したトラヒック特徴情報抽出プログラムを生成することもできる。この場合、コンピュータがトラヒック特徴情報抽出プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるオンラインサインアップ制御プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたトラヒック特徴情報抽出プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、図１などに示した情報収集配信サーバ３０と同様の機能を実現するトラヒック特徴情報抽出プログラムを実行するコンピュータの一例を説明する。

　図２３は、トラヒック特徴情報抽出プログラムを実行するコンピュータ１０００を示す図である。図２３に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）などのブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスクなどの着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、図２３に示すように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明したトラヒック特徴情報抽出プログラムは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、トラヒック特徴情報抽出プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した正規表現化部３２ａと同様の情報処理を実行する正規表現化手順と、クラスタリング部３２ｂと同様の情報処理を実行するクラスタリング手順と、特徴情報抽出部３２ｃと同様の情報処理を実行する特徴情報抽出手順とが記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、トラヒック特徴情報抽出プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、トラヒック特徴情報抽出プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１などを介してＣＰＵ１０２０によって読み出されてもよい。あるいは、トラヒック特徴情報抽出プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）などのネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

（その他）
　なお、本実施形態で説明したトラヒック特徴情報抽出プログラムは、インターネットなどのネットワークを介して配布することができる。また、特定プログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

１～５　　ネットワーク
６～１３　　パケット転送部
１４　　　囮サーバ
１５　　　囮端末
１６　　　端末型サンドボックス
１７　　　サーバ型サンドボックス
１８～１９　ユーザサーバ
２０～２１　ユーザ端末
２２～２４　通信監視部
２５　　　端末用攻撃検知ソフトウェア
２６　　　サーバ用攻撃検知ソフトウェア
２７　　　攻撃者端末
２８　　　マルウェア配布サーバ
２９　　　悪性サーバ
３０　　　情報収集配信サーバ
３１　　　ログ収集部
３２　　　トラヒック特徴情報抽出・対照部
３２ａ　　正規表現化部
３２ｂ　　クラスタリング部
３２ｃ　　特徴情報抽出部
３２ｄ　　絞り込み部
３２ｅ　　特定部
３３　　　特徴情報収集配信部
３４　　　記憶部
３４ａ　　正規表現パターンテーブル
３４ｂ　　単語リストテーブル
３４ｃ　　宛先情報テーブル
１０００　　コンピュータ
１０１０　　メモリ
１０１１　　ＲＯＭ
１０１２　　ＲＡＭ
１０２０　　ＣＰＵ
１０３０　　ハードディスクドライブインタフェース
１０３１　　ハードディスクドライブ
１０４０　　ディスクドライブインタフェース
１０４１　　ディスクドライブ
１０５０　　シリアルポートインタフェース
１０５１　　マウス
１０５２　　キーボード
１０６０　　ビデオアダプタ
１０６１　　ディスプレイ
１０７０　　ネットワークインタフェース
１０８０　　バス
１０９１　　ＯＳ
１０９２　　アプリケーションプログラム
１０９３　　プログラムモジュール
１０９４　　プログラムデータ

Claims

　トラヒック特徴情報抽出装置で実行されるトラヒック特徴情報抽出方法であって、
　トラヒックログから予め設定した項目を抽出し、当該項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する正規表現化工程と、
　前記正規表現化したトラヒックログのエントリをクラスタリングするクラスタリング工程と、
　前記クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する特徴情報抽出工程と
　を含んだことを特徴とするトラヒック特徴情報抽出方法。
　前記正規表現化工程は、抽出した前記項目に含まれる部分文字列に、単語リストに記載された単語が存在するか否かを判定し、前記単語が存在する場合には、当該部分文字列を正規表現化せず、前記単語が存在しない場合には、当該部分文字列を所定の規則に基づいて正規表現化することを特徴とする請求項１に記載のトラヒック特徴情報抽出方法。
　前記単語リストは、マルウェアが発生させるトラヒックログにおいて通信のプロトコルスタックで利用される項目の統計値を算出し、算出した前記統計値が閾値以上となる項目に含まれる任意の文字列を抽出することにより生成されることを特徴とする請求項２に記載のトラヒック特徴情報抽出方法。
　前記クラスタリング工程は、通信の宛先を示す宛先情報を用いてトラヒックログをクラスタリングする手法、及び通信のプロトコルを用いてトラヒックログをクラスタリングする手法の少なくともいずれか一つの手法を用いることを特徴とする請求項１に記載のトラヒック特徴情報抽出方法。
　前記正規表現化したトラヒックログから予め設定した指標に従って当該トラヒックログ内での統計値を算出し、前記クラスタリングしたトラヒックログから抽出した前記特徴情報と、前記統計値とに基づいて、特徴情報を絞り込む絞り込み工程を更に含んだことを特徴とする請求項１に記載のトラヒック特徴情報抽出方法。
　絞り込んだ前記特徴情報と、防御対象ネットワークの任意のトラヒックログとを対照して、予め設定した指標を用いてスコアを算出し、当該スコアが閾値以上となるトラヒックログ内のエントリを特定する特定工程を更に含んだことを特徴とする請求項５に記載のトラヒック特徴情報抽出方法。
　トラヒックログから予め設定した項目を抽出し、当該項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する正規表現化部と、
　前記正規表現化したトラヒックログのエントリをクラスタリングするクラスタリング部と、
　前記クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する特徴情報抽出部と
　を有することを特徴とするトラヒック特徴情報抽出装置。
　トラヒックログから予め設定した項目を抽出し、当該項目に含まれる部分文字列について、所定の規則に基づいて正規表現化する正規表現化手順と、
　前記正規表現化したトラヒックログのエントリをクラスタリングするクラスタリング手順と、
　前記クラスタリングしたトラヒックログに含まれるエントリ間の距離の総和が最小となるエントリを各クラスタのトラヒック特徴情報として抽出する特徴情報抽出手順と
　をコンピュータに実行させるためのトラヒック特徴情報抽出プログラム。