WO2016194909A1

WO2016194909A1 - アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム

Info

Publication number: WO2016194909A1
Application number: PCT/JP2016/066054
Authority: WO
Inventors: 俊樹芝原; 毅八木; 満昭秋山; 雄太高田
Original assignee: 日本電信電話株式会社
Priority date: 2015-06-02
Filing date: 2016-05-31
Publication date: 2016-12-08
Also published as: JP6557334B2; JPWO2016194909A1; EP3287909B1; US20180176242A1; EP3287909A1; US10462168B2; EP3287909A4

Abstract

アクセス分類装置（１０）は、木構築部（１３）と類似度算出部（１４）と分類部（１６）とを有する。木構築部（１３）は、第１のサーバ及び複数の第２のサーバをノードとし、上記第１のサーバから上記複数の第２のサーバへ一連のアクセスを自動転送する命令をエッジとする複数の木を作成する。類似度算出部（１４）は、作成された上記複数の木の各々を構成する部分木の一致度合いに基づき、上記複数の木間の類似度を算出する。分類部（１６）は、算出された上記類似度に基づき、上記アクセスを分類する。

Description

アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム

　本発明は、アクセス分類装置、アクセス分類方法、及びアクセス分類プログラムに関する。

　従来、ユーザ端末がアクセスするｗｅｂサイトの中から、マルウェアを感染させる悪性ｗｅｂサイトを識別する手法である悪性ｗｅｂサイト識別手法が存在する。この様な悪性ｗｅｂサイト識別手法は、動的解析と静的解析とに分類される。動的解析は、ｗｅｂサーバ等のサーバから取得されたＨＴＭＬ（HyperText　Markup　Language）やJavaScript（登録商標）等のコンテンツを実行し、その時のホスト上での挙動から脆弱性に対する攻撃を検知することにより、悪性ｗｅｂサイトを識別する手法である。これに対し、静的解析は、サーバからコンテンツの取得のみを行い、該コンテンツのコード解析を行い、プログラム上の特徴や、ドメイン、ＵＲＬ（Uniform　Resource　Locator）に関連する情報を用いて、良性ｗｅｂサイトで観察される特徴との違いから、悪性ｗｅｂサイトを識別する手法である。

　以下、静的解析による悪性ｗｅｂサイトの識別に係る従来技術について説明する。静的解析による悪性ｗｅｂサイト識別手法には、単一ページから取得されたコンテンツの特徴を用いて識別する手法と、ｗｅｂサイトのリダイレクトによって発生した複数ページへのアクセスから特徴を抽出して識別する手法とがある。前者の識別手法では、コンテンツ中のJavaScript（登録商標）を解析して識別する手法が多く提案されている。これらの手法の中には、例えば、スクリプトの行数や文字数、スクリプト中のキーワードの出現回数を用いて特徴ベクトルを記述し、機械学習の手法を用いて識別する手法（非特許文献１）がある。あるいは、for文やwhile文中での処理を抽出し、特徴ベクトルを作成して識別する手法（非特許文献２）がある。更に、JavaScript（登録商標）から作成された抽象構文木のノードタイプから構成される系列を作成し、該系列の類似度によって識別する手法（非特許文献３）等がある。

　JavaScript（登録商標）以外にも、ＨＴＭＬやＵＲＬ及びホストの情報を利用する手法も存在する。例えば、ＨＴＭＬを利用する手法には、iframeやscriptタグの出現回数、タグのサイズ等から、コンテンツの悪性判定を行う決定木を作成して識別する手法（非特許文献４）がある。また、ＵＲＬ及びホストの情報を利用する手法には、ＵＲＬに含まれるキーワード、ＤＮＳ（Domain　Name　System）問合せの結果、ＩＰ（Internet　Protocol）アドレスに紐付く地理的情報を用いて、ＵＲＬの悪性判定を行う手法（非特許文献５）がある。更には、JavaScript（登録商標）、ＨＴＭＬ、ＵＲＬ及びホストの各情報から悪性判定を行う識別器をそれぞれ構築し、複数の識別器の判定を総合してｗｅｂサイトの悪性判定を行う手法（非特許文献６）も存在する。あるいは、同一のページに異なる時刻にアクセスした際に取得されるコンテンツから差分を抽出し、該差分を基に悪性判定を行う手法（非特許文献７）も提案されている。

　上記以外にも、転送により発生した複数回のｗｅｂサイトへのアクセスを基に識別を行う手法では、様々な方法により、悪性ｗｅｂサイトの識別が行われる。例えば、Matsunakaらの手法（非特許文献８）では、実行ファイルのダウンロード時におけるＨＴＴＰ（Hyper　Text　Transfer　Protocol）ヘッダや、ダウンロード以前に取得されたコンテンツにダウンロードを示す情報が無いこと等を根拠として、脆弱性への攻撃によって発生した転送が検知される。また、Stringhiniらの手法（非特許文献９）では、各ユーザが自動転送によってアクセスした一連のページの時系列から、最終ページが同一のアクセス群を作成した後、それらのアクセス群から、ＩＰアドレス数やリダイレクト数等の特徴ベクトルを作成し、悪性ｗｅｂサイトを識別する。更に、Rafiqueらの手法（非特許文献１０）では、リダイレクトによってアクセスしたページの系列からマルウェアのダウンロードに必須な部分を、系列中の複数のページへ個別にアクセスすることによって抽出し、シグネチャを作成することで、悪性ｗｅｂサイトの識別を行っている。

Peter　Likarish,　Eunjin　Jung,　and　Insoon　Jo.,　"Obfuscated　Malicious　JavaScript(登録商標)　Detection　using　Classification　Techniques.",　IEEE　4th　International　Conference　on　Malicious　and　Unwanted　Software　(MALWARE),　2009. Charlie　Curtsinger,　et　al.,　"ZOZZLE:　Fast　and　Precise　In-Browser　JavaScript(登録商標)　Malware　Detection.",　USENIX　Security　Symposium.　2011. Alexandros　Kapravelos,　et　al.,　"Revolver:　An　Automated　Approach　to　the　Detection　of　Evasive　Web-based　Malware.",　USENIX　Security.　2013. Christian　Seifert,　Ian　Welch,　and　Peter　Komisarczuk.,　"Identification　of　Malicious　Web　Pages　with　Static　Heuristics.",　IEEE　Telecommunication　Networks　and　Applications　Conference,　2008. Justin　Ma,　et　al.,　"Beyond　Blacklists:　Learning　to　Detect　Malicious　Web　Sites　from　Suspicious　URLs.",　Proceedings　of　the　15th　ACM　SIGKDD　international　conference　on　Knowledge　discovery　and　data　mining,　2009. Davide　Canali,　et　al.,　"Prophiler:　A　Fast　Filter　for　the　Large-Scale　Detection　of　Malicious　Web　Pages.",　Proceedings　of　the　20th　international　conference　on　World　wide　web,　2011. Kevin　Borgolte,　Christopher　Kruegel,　and　Giovanni　Vigna.,　"Delta:　Automatic　Identification　of　Unknown　Web-based　Infection　Campaigns."　Proceedings　of　the　2013　ACM　SIGSAC　conference　on　Computer　&　communications　security,　2013. Takashi　Matsunaka,　Ayumu　Kubota,　and　Takahiro　Kasama.,　"An　Approach　to　Detect　Drive-by　Download　by　Observing　the　Web　Page　Transition　Behaviors.",　Ninth　Asia　Joint　Conference　on　Information　Security,　2014. Gianluca　Stringhini,　Christopher　Kruegel,　and　Giovanni　Vigna.,　"Shady　Paths:　Leveraging　Surfing　Crowds　to　Detect　Malicious　Web　Pages.",　Proceedings　of　the　2013　ACM　SIGSAC　conference　on　Computer　&　communications　security,　2013. M.　Zubair　Rafique,　et　al.,　"Network　Dialog　Minimization　and　Network　Dialog　Diffing:　Two　Novel　Primitives　for　Network　Security　Applications.",　Proceedings　of　the　30th　Annual　Computer　Security　Applications　Conference,　2014.

　しかしながら、上述したコンテンツに基づく悪性ｗｅｂサイト識別手法では、サーバから取得されたコンテンツの情報や、ＵＲＬ及びホストの情報を使用するため、攻撃者による回避が容易である。例えば、攻撃者が、悪性ｗｅｂサイトにおいて使用するＨＴＭＬタグやJavaScript（登録商標）の関数の傾向を、良性サイトに近くなる様に変更すると、本来は悪性ｗｅｂサイトであるサイトが、良性ｗｅｂサイトと誤識別されてしまうことがある。その結果、コンテンツの提供側は、検知されなかった悪性ｗｅｂサイトをブラックリストに記載することができず、ユーザによる悪性ｗｅｂサイトへのアクセスを許可してしまうという問題が発生し得る。また、リダイレクトに着目した上述の手法でも、複数回のアクセスが必要となり、１回のアクセスから悪性ｗｅｂサイトを識別することはできないため、手法の適用範囲は限定的である。このため、攻撃者によるコンテンツ等の変更に影響され難く、１回のアクセスにより識別可能な悪性ｗｅｂサイト識別手法の構築が望まれている。

　開示の実施例は、上記に鑑みてなされたものであって、攻撃者による回避が困難であり、かつ、容易に悪性ｗｅｂサイトを検知することができるアクセス分類装置、アクセス分類方法、及びアクセス分類プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本願の開示するアクセス分類装置は、一つの態様において、第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成部と、作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出部と、算出された前記類似度に基づき、前記アクセスを分類する分類部とを有する。

　また、本願の開示するアクセス分類方法は、一つの態様において、第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成工程と、作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出工程と、算出された前記類似度に基づき、前記アクセスを分類する分類工程とを含む。

　更に、本願の開示するアクセス分類プログラムは、一つの態様において、第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成ステップと、作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出ステップと、算出された前記類似度に基づき、前記アクセスを分類する分類ステップとをコンピュータに実行させる。

　本願の開示するアクセス分類装置、アクセス分類方法、及びアクセス分類プログラムは、攻撃者による回避が困難であり、かつ、容易に悪性ｗｅｂサイトを検知することができるという効果を奏する。

図１は、アクセス分類装置の構成を示す図である。図２は、アクセス分類装置に入力される解析対象アクセスの例を示す図である。図３は、アクセス分類装置に入力される既知アクセスの例を示す図である。図４は、アクセス分類装置により構築される木の構造を示す図である。図５は、木から部分木が抽出される過程を示す図である。図６は、共通部分木の割合に基づき、木の類似度を算出する方法を示す図である。図７は、共通部分木の数に基づき、木の類似度を算出する方法を示す図である。図８は、共通木の大きさに基づき、木の類似度を算出する方法を示す図である。図９は、複数の木を複数の集合へ分類する方法を示す図である。図１０は、木の集合から代表木を作成する方法を示す図である。図１１は、類似度を内積値として用いる場合の識別モデル作成処理を説明するためのフローチャートである。図１２は、類似度を内積値として用いる場合のアクセス識別処理を説明するためのフローチャートである。図１３は、代表木との類似度を用いる場合の識別モデル作成処理を説明するためのフローチャートである。図１４は、代表木との類似度を用いる場合のアクセス識別処理を説明するためのフローチャートである。図１５は、アクセス分類プログラムによる情報処理がコンピュータを用いて具体的に実現されることを示す図である。

　以下に、本願の開示するアクセス分類装置、アクセス分類方法、及びアクセス分類プログラムの実施例を、図面を参照しながら詳細に説明する。なお、以下の実施例により本願の開示するアクセス分類装置、アクセス分類方法、及びアクセス分類プログラムが限定されるものではない。

　まず、本願の開示する一実施例に係るアクセス分類装置１０の構成を説明する。図１は、アクセス分類装置１０の構成を示す図である。図１に示す様に、アクセス分類装置１０は、対象アクセス入力部１１と既知アクセス入力部１２と木構築部１３と類似度算出部１４と代表木作成部１５と分類部１６とを有する。これら各構成部分は、一方向又は双方向に、各種信号やデータの入出力が可能な様に接続されている。

　対象アクセス入力部１１は、解析対象のサーバへのアクセスを入力として許容する。既知アクセス入力部１２は、悪性ｗｅｂサイトを提供するサーバへのアクセスであることが既知である既知悪性アクセスと、これとは反対に良性ｗｅｂサイトを提供するサーバへのアクセスであることが既知である既知良性アクセスとを入力として許容する。木構築部１３は、対象アクセス入力部１１と既知アクセス入力部１２とにより入力された各アクセスから、解析対象のサーバへのアクセス元（自動転送元）及びアクセス先（自動転送先）のサーバを「ノード」とし、自動転送命令を「エッジ」とする木を構築する。類似度算出部１４は、木構築部１３により構築された木の部分木と、代表木作成部１５により代表木として作成された部分木との一致度合いを基に、複数の木の類似度を算出する。また、類似度算出部１４は、木構築部１３により作成された木同士の類似度を算出する。代表木作成部１５は、既知アクセス入力部１２により入力されたアクセスを、類似度算出部１４により算出された上記類似度を基に複数の集合に分割し、各集合内の木に共通する部分木を代表木として作成する。分類部１６は、類似度算出部１４により算出された類似度を用いて、対象アクセス入力部１１により入力されたアクセスが、悪性ｗｅｂサイトへのアクセスであるか否かの判定を行う。

　図２は、アクセス分類装置１０に入力される解析対象アクセス１１ａの例を示す図である。図２に示す様に、解析対象アクセス１１ａの転送先及び転送元としてはＵＲＬがあるが、これに限らず、例えば、ＦＱＤＮ（Fully　Qualified　Domain　Name）、ドメイン、ホスト名等であってもよい。また、転送命令に関しても、図２に示す様に、ＨＴＭＬタグのiframeタグによるリンクを表す「ＳＲＣ－ＩＦＲＡＭＥ」やＨＴＭＬタグのScriptタグによるリンクを表す「ＳＲＣ－ＳＣＲＩＰＴ－ＳＲＣ」等があるが、これに限らない。例えば、ＨＴＭＬタグのAppletタグによるリンクを表す「ＳＲＣ－ＡＰＰＬＥＴ－ＡＲＣＨＩＶＥ」、ＨＴＴＰによる転送を表す「ＨＴＴＰ３０２Ｒｅｄｉｒｅｃｔ」、ＨＴＭＬタグのObjectタグによるリンクを表す「ＳＲＣ－ＯＢＪＥＣＴ－ＣＯＤＥＢＡＳＥ」等であってもよい。

　図３は、アクセス分類装置１０に入力される既知アクセス１２ａの例を示す図である。図３に示す様に、既知アクセス１２ａの転送先及び転送元としてはＵＲＬがあるが、これに限らず、例えば、ＦＱＤＮ、ドメイン、ホスト名等であってもよい。また、転送命令に関しても、図３に示す様に、上述した「ＳＲＣ－ＩＦＲＡＭＥ」や「ＳＲＣ－ＳＣＲＩＰＴ－ＳＲＣ」等があるが、これに限らない。既知アクセス１２ａには、転送先のｗｅｂサイト等の性質を識別するためのラベルが付与されるが、該ラベルは、図３に示した「良性」や「悪性」に限るものではなく、「広告」、「Ｄｒｉｖｅ－ｂｙ－Ｄｏｗｎｌｏａｄ」、「Ｐｈｉｓｈｉｎｇ」等であってもよい。

　図４は、アクセス分類装置１０により構築される木の構造を示す図である。図４に示す様に、アクセス分類装置１０の木構築部１３は、図２及び図３に示したアクセスの転送情報を基に、転送元及び転送先を「ノード」とし、転送命令を「エッジ」とする木を構築する。例えば、木構築部１３は、ｗｅｂサイトのＵＲＬをノードＮ１～Ｎ４とし、該ＵＲＬ間の転送命令に対応するエッジＥ１～Ｅ３を、転送元ＵＲＬと転送先ＵＲＬとの間に作成する。木構築部１３は、エッジＥ１～Ｅ３の作成が完了すると、各ノードＮ１～Ｎ４に付されているＵＲＬの情報を除去する。これにより、ＵＲＬに依存しないリダイレクト構造に着目した、ｗｅｂサイトの識別が可能となる。なお、図４では、ノードＮ１～Ｎ４に一旦付されたＵＲＬが除去された例を示したが、ＵＲＬは、除去されなくてもよい。

　次に、アクセス分類装置１０の動作を説明する。

　図５は、木から部分木が抽出される過程を示す図である。図５に示す様に、アクセス分類装置１０の木構築部１３は、構築された木（図４参照）から、該木を構成する部分木を抽出する。例えば、木構築部１３は、図５（ａ）に示す様に、一連のアクセスの中で最初にアクセスしたサーバに対応するノードＮ１から、他の末端ノードＮ３、Ｎ４までのパスを抽出する。次に、木構築部１３は、図５（ｂ）に示す様に、パス中に含まれる全ての部分パスを抽出する。そして、木構築部１３は、図５（ｃ）に示す様に、抽出された部分パスを部分木に分解する。このとき、重複する部分木がある場合には、木構築部１３は、重複する部分木の一方を削除するものとしてもよい。

　図６は、共通部分木Ｔ３の割合に基づき、木の類似度を算出する方法を示す図である。図６に示す様に、類似度算出部１４は、抽出された部分木（図５（ｃ）参照）を基に、複数の木の類似度を算出する。まず、類似度算出部１４は、比較対象の木の内、閾値（例えば、４～６割程度）以上の割合の木に含まれる部分木の集合を、共通部分木とする。次に、類似度算出部１４は、比較対象の全ての木の部分木から、重複する部分木を除去した部分木の集合を、全部分木とする。そして、類似度算出部１４は、共通部分木の数を全部分木の数により除算して得られた値を類似度とする。

　例えば、図６に示す例では、類似度算出部１４は、比較対象の木Ｔ１、Ｔ２の内、双方（閾値以上）の木Ｔ１、Ｔ２に含まれる部分木（Ｎ１－Ｅ３－Ｎ４）を、共通部分木Ｔ３とする。次に、類似度算出部１４は、比較対象の全ての木Ｔ１、Ｔ２の部分木から、重複する部分木（Ｎ５－Ｅ６－Ｎ８）を除去した部分木の集合を、全部分木Ｔ４とする。そして、類似度算出部１４は、共通部分木Ｔ３の数である“１”を、全部分木Ｔ４の数である“７”により除算して得られた値を類似度とする。従って、図６に示す例では、類似度は“１／７”となる。

　なお、ノードＮ１～Ｎ８に付されたＵＲＬ情報を除去しない態様の場合には、類似度算出部１４は、転送命令だけでなくＵＲＬ情報も含めて、共通部分木Ｔ３の抽出あるいは重複部分木の除去のための一致・不一致の判定を行うものとしてもよい。また、全部分木Ｔ４の作成に際し、重複する部分木の除去は行わなくてもよい。更に、比較対象の木の数は、２に限らず、２以上であればよい。また、類似度の算出に用いるパラメータに関しても、全部分木数に対する共通部分木数の割合を例示したが、例えば、重み付けを適宜付した上での割合や差分等、共通部分木数と全部分木数とを比較するものであればよい。

　図７は、共通部分木Ｔ３の数に基づき、木の類似度を算出する方法を示す図である。図７に示す様に、類似度算出部１４は、抽出された部分木（図５（ｃ）参照）を基に、複数の木の類似度を算出する。まず、類似度算出部１４は、比較対象の木の内、全ての木に含まれる部分木の集合を、共通部分木とする。そして、類似度算出部１４は、共通部分木の数を計数して得られた値を類似度とする。

　例えば、図７に示す例では、類似度算出部１４は、比較対象の木Ｔ１、Ｔ２の内、双方（全て）の木Ｔ１、Ｔ２に含まれる部分木（Ｎ１－Ｅ３－Ｎ４）を、共通部分木Ｔ３とする。そして、類似度算出部１４は、共通部分木Ｔ３の数である“１”を類似度とする。従って、図７に示す例では、類似度は“１”となる。

　なお、ノードＮ１～Ｎ８に付されたＵＲＬ情報を除去しない態様の場合には、類似度算出部１４は、転送命令だけでなくＵＲＬ情報も含めて、共通部分木Ｔ３の抽出のための一致・不一致の判定を行うものとしてもよい。また、比較対象の木の数は、２に限らず、２以上であればよい。また、類似度の算出に用いるパラメータに関しても、共通部分木の数を例示したが、必ずしも共通部分木数自体でなくてもよく、例えば、共通部分木に含まれるノードの数やエッジの数等、共通部分木数に基づくものであればよい。

　図８は、共通木Ｔ８の大きさに基づき、木の類似度を算出する方法を示す図である。図８に示す様に、類似度算出部１４は、抽出された木（図４参照）を基に、複数の木の類似度を算出する。まず、類似度算出部１４は、複数の木に共通する部分木を抽出する。次に、類似度算出部１４は、抽出された共通部分木の中から、ノード数が最大の共通部分木を「共通木」として抽出する。そして、類似度算出部１４は、抽出された共通木のノード数を計数して得られた値を類似度とする。

　例えば、図８に示す例では、類似度算出部１４は、比較対象の木Ｔ５、Ｔ６の内、双方の木Ｔ５、Ｔ６に共通する部分木（Ｎ１－Ｅ１－Ｎ２－Ｅ２－Ｎ３、Ｎ１－Ｅ１－Ｎ２）を抽出し、共通部分木Ｔ７とする。次に、類似度算出部１４は、共通部分木Ｔ７の中から、最大のノード数“３”を有する共通部分木（Ｎ１－Ｅ１－Ｎ２－Ｅ２－Ｎ３）を抽出し、共通木Ｔ８とする。そして、類似度算出部１４は、共通木Ｔ８のノード数である“３”を類似度とする。従って、図８に示す例では、類似度は“３”となる。

　なお、ノードＮ１～Ｎ６に付されたＵＲＬ情報を除去しない態様の場合には、類似度算出部１４は、転送命令だけでなくＵＲＬ情報も含めて、共通部分木Ｔ７の抽出のための一致・不一致の判定を行うものとしてもよい。また、比較対象の木の数は、２に限らず、２以上であればよい。更に、類似度の算出に用いるパラメータに関しても、共通木のノード数を例示したが、例えば、共通木のエッジ数等、共通木の大きさに関連するものであればよい。

　図９は、複数の木を複数の集合へ分類する方法を示す図である。図９に示す様に、アクセス分類装置１０は、分類部１６により、図４に示した複数の木（アクセス）を、類似度の高い木で構成される複数の集合へ分類する。分類部１６は、各集合がそれぞれ１つずつの木のみで構成されている状態から、各集合に属する木同士の上記類似度の最大値が閾値以上の場合に集合を結合する。分類部１６は、この結合処理を、結合させる集合が無くなるまで繰り返し実行する。

　例えば、図９（ａ）に示す例では、各集合Ｃ１～Ｃ５が、それぞれ１つずつの木（木Ｔ１１～Ｔ１５）のみにより構成されている。分類部１６は、複数の木Ｔ１１～Ｔ１５を、類似度の高い木で構成される複数の集合Ｃ１’～　Ｃ３’へ分類する。図９（ｂ）に示す例では、類似度の最大値が閾値以上の木Ｔ１１と木Ｔ１２とがそれぞれ属する集合Ｃ１と集合Ｃ２とが結合され、同一の集合Ｃ１’に分類される。同様に、類似度の最大値が閾値以上の木Ｔ１３と木Ｔ１５とがそれぞれ属する集合Ｃ３と集合Ｃ５とが結合され、同一の集合Ｃ２’に分類される。この結合処理は繰り返し実行されるため、図９（ｃ）に示す様に、集合Ｃ１”に属する全ての木Ｔ１１、Ｔ１２において、同じ集合Ｃ１”に属する他の木との類似度の最大値が閾値以上となる。同様に、集合Ｃ２”に属する全ての木Ｔ１３～Ｔ１５において、同じ集合Ｃ２”に属する他の木との類似度の最大値が閾値以上となる。これにより、類似度が高い木（木Ｔ１１、Ｔ１２と木Ｔ１３～Ｔ１５）で構成される複数の集合（集合Ｃ１”と集合Ｃ２”）への分類が可能となる。

　なお、集合を結合させる基準として、分類部１６は、類似度の最大値を用いたが、これに限らず、類似度の最小値や平均値を用いてもよい。類似度の最大値を用いた場合、複数の木に共通して含まれる一部の部分木が共通な木の集合が作成されるが、最大値の代わりに類似度の最小値を用いた場合、分類部１６は、多くの部分木が共通な木の集合を作成することができる。また、平均値を用いた場合、分類部１６は、それらの中間の木の集合を作成することができる。また、集合を結合させる基準として閾値を設定したが、分類部１６は、閾値を設定することなく、類似度が最大となる集合同士から優先的に結合させ、該結合処理を、全体が１つの集合になるまで繰り返し、その後、各集合を結合させた過程の内、何れの段階を採用するかを決定するものとしてもよい。更に、結合対象の集合の数は、２に限らず、２以上であればよい。

　図１０は、木の集合から代表木を作成する方法を示す図である。図１０に示す様に、アクセス分類装置１０は、代表木作成部１５により、木構築部１３の抽出した部分木（図５参照）を基に、分類部１６の分類した木の集合（図９参照）から、代表木を作成する。例えば、代表木作成部１５は、集合中の全ての木に共通する部分木を代表木とする。図１０に示す例では、代表木作成部１５は、同一集合中の木Ｔ１、Ｔ２に共通する部分木（Ｎ１－Ｅ３－Ｎ４）を、代表木Ｔ９とする。

　なお、代表木作成部１５は、集合中の全ての木に共通する部分木を代表木としたが、これに限らず、集合中の所定割合以上の木に含まれる部分木の集合を代表木としてもよい。また、ノードＮ１～Ｎ８に付されたＵＲＬ情報を除去しない態様の場合には、代表木作成部１５は、転送命令だけでなくＵＲＬ情報も含めて、代表木Ｔ９の作成のための一致・不一致の判定を行うものとしてもよい。更に、比較対象の木の数は、２に限らず、２以上であればよい。

　次に、図１１～図１４を参照しながら、アクセス分類装置１０の動作について、より詳細に説明する。

　図１１は、類似度を内積値として用いる場合の識別モデル作成処理を説明するためのフローチャートである。Ｓ１では、既知アクセス入力部１２は、既知良性アクセス及び既知悪性アクセス（図３参照）を入力する。Ｓ２では、木構築部１３は、入力されたアクセスから木を構築し、構築された木から部分木を抽出する（図４、図５参照）。Ｓ３では、類似度算出部１４は、抽出された部分木の一致度合いから木の類似度を算出する（図６～図８参照）。

　Ｓ４では、分類部１６は、Ｓ１にて入力されたアクセスとＳ３にて算出された類似度とを、入力の高次元空間への変換後の内積値を利用する教師あり機械学習に適用する。すなわち、分類部１６は、Ｓ１にて入力された既知良性アクセスと既知悪性アクセスとを「教師データ」とし、Ｓ３にて算出された類似度を、教師データを特徴量空間上のベクトルへ変換した後の「内積値」とした教師あり機械学習により、識別モデルを作成する。なお、教師あり機械学習の手法は、例えば、サポートベクターマシン等であるが、これに限らない。Ｓ５では、分類部１６は、作成された識別モデルを、後述するハードディスクドライブ１０８に出力する。出力された識別モデルは、ハードディスクドライブ１０８内にデータとして保存される。

　図１２は、類似度を内積値として用いる場合のアクセス識別処理を説明するためのフローチャートである。Ｓ１１では、対象アクセス入力部１１は、解析対象アクセス（図２参照）を入力する。Ｓ１２では、木構築部１３は、入力されたアクセスから木を構築し、構築された木から部分木を抽出する（図４、図５参照）。Ｓ１３では、類似度算出部１４は、抽出された部分木の一致度合いから木の類似度を算出する（図６～図８参照）。

　Ｓ１４では、分類部１６は、Ｓ１１にて入力されたアクセスとＳ１３にて算出された類似度とを、入力の高次元空間への変換後の内積値を利用する教師あり機械学習に適用する。すなわち、分類部１６は、Ｓ１１にて入力された解析対象アクセスを「テストデータ」とし、Ｓ１３にて算出された類似度を、テストデータを特徴量空間上のベクトルへ変換した後の「内積値」とした教師あり機械学習により、識別結果を作成する。なお、教師あり機械学習の手法は、例えば、サポートベクターマシン等であるが、上述した識別モデル作成処理に用いた手法と同一の手法であれば、これに限らない。Ｓ１５では、分類部１６は、作成された識別結果を、後述するディスプレイ１１２等の表示装置に出力する。

　図１３は、代表木との類似度を用いる場合の識別モデル作成処理を説明するためのフローチャートである。図１３は、図１１と同様のステップを複数含むので、共通するステップには、末尾が同一の参照符号を付すと共に、その詳細な説明は省略する。具体的には、図１３のステップＳ２１～Ｓ２３、Ｓ２５の各処理は、図１１に示したステップＳ１～Ｓ３、Ｓ５の各処理にそれぞれ対応する。

　Ｓ２６では、分類部１６は、Ｓ２３にて算出された類似度に基づき、Ｓ２２にて構築された複数の木を、類似度の高い木から構成される複数の集合に分類する（図９参照）。Ｓ２７では、代表木作成部１５は、Ｓ２６の分類により得られた各集合毎に、各集合の特徴を表す部分木（例えば、同一集合内の共通部分木）を、代表木として作成する（図１０参照）。

　Ｓ２８では、類似度算出部１４は、図６～図８の何れかに示した方法により、Ｓ２７にて作成された代表木と、Ｓ２１にて入力された既知良性アクセスまたは既知悪性アクセスから作成された木（部分木を含む）との類似度を算出する（図６～図８参照）。Ｓ２９では、分類部１６は、Ｓ２１にて入力されたアクセスとＳ２３にて算出された類似度とを、教師あり機械学習に適用する。すなわち、分類部１６は、上記代表木との類似度を並べたベクトルを上記アクセスの特徴ベクトルとして用いた教師あり機械学習により、識別モデルを作成する。なお、教師あり機械学習の手法は、例えば、線形判別分析、サポートベクターマシン、ランダムフォレスト等であるが、これらの手法に限らない。

　図１４は、代表木との類似度を用いる場合のアクセス識別処理を説明するためのフローチャートである。図１４は、図１２と同様のステップを複数含むので、共通するステップには、末尾が同一の参照符号を付すと共に、その詳細な説明は省略する。具体的には、図１４のステップＳ３１、Ｓ３２、Ｓ３５の各処理は、図１２に示したステップＳ１１、Ｓ１２、Ｓ１５の各処理にそれぞれ対応する。

　Ｓ３６では、類似度算出部１４は、図６～図８の何れかに示した方法により、Ｓ２７にて作成された代表木と、Ｓ３１にて入力された解析対象アクセスから作成された木（部分木を含む）との類似度を算出する（図６～図８参照）。Ｓ３７では、分類部１６は、Ｓ３１にて入力されたアクセスとＳ３６にて算出された類似度とを、教師あり機械学習に適用する。すなわち、分類部１６は、上記代表木との類似度を並べたベクトルを上記アクセスの特徴ベクトルとして用いた教師あり機械学習により、識別結果を作成する。なお、教師あり機械学習の手法は、例えば、線形判別分析、サポートベクターマシン、ランダムフォレスト等であるが、上述した識別モデル作成処理に用いた手法と同一の手法であれば、これらの手法に限らない。

　以上説明した様に、アクセス分類装置１０は、木構築部１３と類似度算出部１４と分類部１６とを有する。木構築部１３は、第１のサーバ（例えば、ｗｅｂサーバ）及び複数の第２のサーバ（例えば、悪性ｗｅｂサイトのサーバ）をノードとし、上記第１のサーバから上記複数の第２のサーバへ一連のアクセスを自動転送する命令をエッジとして表した複数の木を作成する。類似度算出部１４は、作成された上記複数の木の各々を構成する部分木の一致度合いに基づき、上記複数の木間の類似度を算出する。分類部１６は、算出された上記類似度に基づき、上記アクセスを分類する。

　例えば、アクセス分類装置１０において、類似度算出部１４は、上記複数の木を構成する全ての部分木（全部分木）の数に対する、上記複数の木に共通する部分木（共通部分木）の数の割合を、上記類似度として算出する。また、類似度算出部１４は、上記複数の木に共通する部分木（共通部分木）の数を、上記類似度として算出するものとしてもよい。あるいは、類似度算出部１４は、上記複数の木に共通する部分木（共通部分木）の内、上記ノードの数が最大の部分木（共通木）のノード数を、上記類似度として算出するものとしてもよい。更に、分類部１６は、上記類似度を用いて、上記複数の木の特徴量の空間での内積値を算出し、上記アクセスを分類するものとしてもよい。

　また、アクセス分類装置１０は、木構築部１３と類似度算出部１４と分類部１６と代表木作成部１５とを有する。木構築部１３は、複数の木を作成する。類似度算出部１４は、作成された上記複数の木の各々を構成する部分木の一致度合いに基づき、上記複数の木間の類似度を算出する。分類部１６は、算出された上記類似度に基づき、上記複数の木を、上記類似度の高い複数の木により構成される複数の集合に分類する。代表木作成部１５は、上記分類により得られた集合毎に、各集合の特徴を表す単数または複数の部分木（例えば、同一集合内の共通部分木）を、代表木として作成する。アクセス分類装置１０において、分類部１６は、上記代表木と上記アクセスとの類似度に基づき、上記アクセスを分類するものとしてもよい。

　換言すれば、アクセス分類装置１０は、自動転送を含むサーバへの一連のアクセスを分類する。これにより、ユーザ端末からｗｅｂサーバへのアクセスを自動転送し、転送先のｗｅｂサイトでブラウザやプラグインの脆弱性を攻撃することでマルウェアをダウンロードさせる悪性ｗｅｂサイトが有っても、アクセス分類装置１０は、リダイレクトパターンの特徴から、悪性ｗｅｂサイトを識別することができる。従って、アクセス分類装置１０は、悪性と判定されたｗｅｂサイトへのユーザのアクセスを遮断することで、ユーザのマルウェアへの感染を未然に防止することができる。その結果、攻撃者によるコンテンツ等の変更に影響され難く、１回のアクセスにより識別可能な悪性ｗｅｂサイト識別手法の構築が可能となる。

　加えて、アクセス分類装置１０は、サーバから得られるコンテンツ、ＵＲＬ、ホスト等の情報に頼ることなく、悪性ｗｅｂサイトを識別することができる。このため、アクセス分類装置１０は、コンテンツが改変されたり、ＵＲＬが意図的に変更されたりした場合でも、悪性ｗｅｂサイトを介したユーザへの攻撃を検知することができる。従って、攻撃者に回避され難い、悪性ｗｅｂサイトの識別ひいては攻撃の検知が実現される。

（アクセス分類プログラム）
　図１５は、アクセス分類プログラムによる情報処理がコンピュータ１００を用いて具体的に実現されることを示す図である。図１５に示す様に、コンピュータ１００は、例えば、メモリ１０１と、ＣＰＵ（Central　Processing　Unit）１０２と、ハードディスクドライブインタフェース１０３と、ディスクドライブインタフェース１０４と、シリアルポートインタフェース１０５と、ビデオアダプタ１０６と、ネットワークインタフェース１０７とを有し、これらの各部はバスＢによって接続される。

　メモリ１０１は、図１５に示す様に、ＲＯＭ（Read　Only　Memory）１０１ａ及びＲＡＭ（Random　Access　Memory）１０１ｂを含む。ＲＯＭ１０１ａは、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３は、図１５に示す様に、ハードディスクドライブ１０８に接続される。ディスクドライブインタフェース１０４は、図１５に示す様に、ディスクドライブ１０９に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０９に挿入される。シリアルポートインタフェース１０５は、図１５に示す様に、例えばマウス１１０、キーボード１１１に接続される。ビデオアダプタ１０６は、図１５に示す様に、例えばディスプレイ１１２に接続される。

　ここで、図１５に示す様に、ハードディスクドライブ１０８は、例えば、ＯＳ（Operating　System）１０８ａ、アプリケーションプログラム１０８ｂ、プログラムモジュール１０８ｃ、プログラムデータ１０８ｄ、部分木や代表木を含む木、アクセス関連情報等を記憶する。すなわち、開示の技術に係るアクセス分類プログラムは、コンピュータ１００によって実行される指令が記述されたプログラムモジュール１０８ｃとして、例えばハードディスクドライブ１０８に記憶される。具体的には、上記実施例で説明した対象アクセス入力部１１、既知アクセス入力部１２、木構築部１３、類似度算出部１４、代表木作成部１５、分類部１６の各々と同様の情報処理を実行する各種手順が記述されたプログラムモジュール１０８ｃが、ハードディスクドライブ１０８に記憶される。また、アクセス分類プログラムによる情報処理に用いられるデータは、プログラムデータ１０８ｄとして、例えばハードディスクドライブ１０８に記憶される。そして、ＣＰＵ１０２が、ハードディスクドライブ１０８に記憶されたプログラムモジュール１０８ｃやプログラムデータ１０８ｄを必要に応じてＲＡＭ１０１ｂに読み出し、上記各種手順を実行する。

　なお、アクセス分類プログラムに係るプログラムモジュール１０８ｃやプログラムデータ１０８ｄは、ハードディスクドライブ１０８に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１０９等を介してＣＰＵ１０２によって読み出されてもよい。あるいは、アクセス分類プログラムに係るプログラムモジュール１０８ｃやプログラムデータ１０８ｄは、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７を介してＣＰＵ１０２によって読み出されてもよい。

　また、上述したアクセス分類装置１０の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的態様は、図示のものに限らず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することもできる。例えば、アクセス分類装置１０に関し、対象アクセス入力部１１と既知アクセス入力部１２、あるいは、類似度算出部１４と代表木作成部１５を１つの構成要素として統合してもよい。反対に、分類部１６に関し、アクセスを分類する部分と、複数の木を集合に分類する部分とに分散してもよい。更に、部分木や代表木を含む木、アクセス関連情報等を格納するハードディスクドライブ１０８を、アクセス分類装置１０の外部装置として、ネットワークやケーブル経由で接続する様にしてもよい。

１０　アクセス分類装置
１１　対象アクセス入力部
１１ａ　解析対象アクセス
１２　既知アクセス入力部
１２ａ　既知アクセス
１３　木構築部
１４　類似度算出部
１５　代表木作成部
１６　分類部
１００　コンピュータ
１０１　メモリ
１０１ａ　ＲＯＭ
１０１ｂ　ＲＡＭ
１０２　ＣＰＵ
１０３　ハードディスクドライブインタフェース
１０４　ディスクドライブインタフェース
１０５　シリアルポートインタフェース
１０６　ビデオアダプタ
１０７　ネットワークインタフェース
１０８　ハードディスクドライブ
１０８ａ　ＯＳ
１０８ｂ　アプリケーションプログラム
１０８ｃ　プログラムモジュール
１０８ｄ　プログラムデータ
１０９　ディスクドライブ
１１０　マウス
１１１　キーボード
１１２　ディスプレイ
Ｂ　バス
Ｃ１～Ｃ５、Ｃ１’～Ｃ３’、Ｃ１”、Ｃ２”　集合
Ｅ１～Ｅ６　エッジ
Ｎ１～Ｎ８　ノード
Ｔ１、Ｔ２、Ｔ５、Ｔ６、Ｔ１１～Ｔ１５　木
Ｔ３、Ｔ７　共通部分木
Ｔ４　全部分木
Ｔ８　共通木
Ｔ９　代表木

Claims

　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成部と、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出部と、
　算出された前記類似度に基づき、前記アクセスを分類する分類部と
　を有することを特徴とするアクセス分類装置。
　前記算出部は、前記複数の木を構成する全ての部分木の数に対する、前記複数の木に共通する部分木の数の割合を、前記類似度として算出することを特徴とする請求項１に記載のアクセス分類装置。
　前記算出部は、前記複数の木に共通する部分木の数を、前記類似度として算出することを特徴とする請求項１に記載のアクセス分類装置。
　前記算出部は、前記複数の木に共通する部分木の内、前記ノードの数が最大の部分木のノード数を、前記類似度として算出することを特徴とする請求項１に記載のアクセス分類装置。
　前記分類部は、前記類似度を用いて、前記複数の木の特徴量の空間での内積値を算出し、前記アクセスを分類することを特徴とする請求項１に記載のアクセス分類装置。
　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する木作成部と、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出部と、
　算出された前記類似度に基づき、前記複数の木を、前記類似度の高い複数の木により構成される複数の集合に分類する分類部と、
　前記分類により得られた集合毎に、各集合の特徴を表す部分木を、代表木として作成する代表木作成部と
　を有することを特徴とするアクセス分類装置。
　前記分類部は、前記代表木とサーバへのアクセスとの類似度に基づき、前記アクセスを分類することを特徴とする請求項６に記載のアクセス分類装置。
　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成工程と、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出工程と、
　算出された前記類似度に基づき、前記アクセスを分類する分類工程と
　を含むことを特徴とするアクセス分類方法。
　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する木作成工程と、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出工程と、
　算出された前記類似度に基づき、前記複数の木を、前記類似度の高い複数の木により構成される複数の集合に分類する分類工程と、
　前記分類により得られた集合毎に、各集合の特徴を表す部分木を、代表木として作成する代表木作成工程と
　を含むことを特徴とするアクセス分類方法。
　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する作成ステップと、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出ステップと、
　算出された前記類似度に基づき、前記アクセスを分類する分類ステップと
　をコンピュータに実行させるためのアクセス分類プログラム。
　第１のサーバ及び第２のサーバをノードとし、前記第１のサーバから前記第２のサーバへアクセスを転送する命令をエッジとする複数の木を作成する木作成ステップと、
　作成された前記複数の木の各々を構成する部分木の一致度合いに基づき、前記複数の木間の類似度を算出する算出ステップと、
　算出された前記類似度に基づき、前記複数の木を、前記類似度の高い複数の木により構成される複数の集合に分類する分類ステップと、
　前記分類により得られた集合毎に、各集合の特徴を表す部分木を、代表木として作成する代表木作成ステップと
　をコンピュータに実行させるためのアクセス分類プログラム。