WO2021229786A1

WO2021229786A1 - 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム

Info

Publication number: WO2021229786A1
Application number: PCT/JP2020/019390
Authority: WO
Inventors: 駿小出; 大紀千葉
Original assignee: 日本電信電話株式会社
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-18
Also published as: JP7439916B2; EP4137976A1; US20230179627A1; JPWO2021229786A1; EP4137976A4

Abstract

学習装置（１０）は、偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付け、Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

Description

学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム

　本発明は、学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムに関する。

　近年、攻撃者は、ユーザの端末を不正に操作したり、個人情報を窃取するために、偽アンチウイルスソフトを用いたりすることがある。偽アンチウイルスソフトは、ユーザの端末からマルウェア（悪意のあるソフトウェアの総称）を除去するアンチウイルスソフトに偽装したマルウェアの一種である。従来、攻撃者はＷｅｂページ上で嘘のウイルス感染警告を表示したり、端末の高速化を謳ったWeb広告を表示したりすることで、ユーザを心理的に誘導し、偽アンチウイルスソフトをインストールさせる。

　攻撃者は、偽のウイルス感染警告やＷｅｂ広告を用いてユーザを騙すほかに、偽のウイルス除去方法を紹介するＷｅｂページを用意してユーザに偽アンチウイルスソフトをインストールさせることがある。このようなＷｅｂページを偽除去情報紹介サイトと呼ぶ。偽除去情報紹介サイトは、マルウェアに感染していたり、悪性サイトにアクセスしていたりといったすでにセキュリティ被害を受けているユーザを標的にする。偽除去情報紹介サイトはそれらのセキュリティ被害を対処する偽の方法を紹介することでユーザを騙す。偽除去情報紹介サイトは、偽アンチウイルスソフトのインストールを提案し、騙されたユーザは偽アンチウイルスソフトを自らダウンロードしてインストールする。

　偽アンチウイルスソフトを配布する悪性なＷｅｂページを検出する既存の方法として、たとえば、ドメイン名の登録情報やＩＰアドレスといったネットワークの情報を特徴量としてグラフに基づくクラスタリングにより悪性なＷｅｂページを検出する方法が存在する（例えば、非特許文献１参照）。その方法が検出の対象とする悪性なＷｅｂページは、ユーザのシステムに存在する脆弱性を狙う攻撃を行うＷｅｂページや、偽の感染警告を表示することでユーザを騙すＷｅｂページである。

　また、Ｗｅｂブラウザを用いてＷｅｂページにアクセスし、テクニカルサポート詐欺やサーベイ詐欺といった悪性なＷｅｂページに固有の特徴を抽出してそれらのＷｅｂページを特定する方法が知られている（非特許文献２、３参照）。特定した悪性なＷｅｂページにＷｅｂブラウザを用いてアクセスして巡回を行うことで、偽の感染警告を表示して偽アンチウイルスソフトを配布する悪性なＷｅｂページに到達することがある。

M.　Cova,　C.　Leita,　O.　Thonnard,　A.D.　Keromytis,　M.　Dacier,　"An　Analysis　of　Rogue　AV　Campaigns,"　Proc.　Recent　Advances　in　Intrusion　Detection,　RAID　2010,　pp.442-463,　2010. A.　Kharraz,　W.　Robertson,　and　E.　Kirda,　"Surveylance:　Automatically　Detecting　Online　Survey　Scams,"　Proc.　-　IEEE　Symp.　Secur.　Priv.,　vol.2018-May,　pp.70-86,　2018. B.　Srinivasan,　A.　Kountouras,　N.　Miramirkhani,　M.　Alam,　N.　Nikiforakis,　M.　Antonakakis,　and　M.　Ahamad,　"Exposing　Search　and　Advertisement　Abuse　Tactics　and　Infrastructure　of　Technical　Support　Scammers,"　Proceedings　of　the　2018　World　Wide　Web　Conference　on　World　Wide　Web　-　WWW　’18,　pp.319-328,　2018.

　上述の既存技術は、システムの脆弱性を狙ってユーザのシステムに偽アンチウイルスソフトをインストールしたり、偽の感染警告を表示してユーザをだまして偽アンチウイルスソフトを自らインストールさせる悪性なＷｅｂページを検出したり、効率的に収集する技術である。しかし、偽除去情報紹介サイトは、システムの脆弱性を狙って偽アンチウイルスソフトをインストールさせるのではなく、心理的な誘導のテクニックによりユーザを騙して偽アンチウイルスソフトをインストールさせる。

　また、その心理的な誘導のテクニックは、偽の感染警告を表示してユーザを騙す従来の方法ではなく、実際にマルウェア感染といったセキュリティ被害を受けているユーザを標的として、その解決方法を紹介することでユーザを騙す。したがって、偽除去情報紹介サイトは、既存技術が対象とする悪性なＷｅｂページとは攻撃方法の観点で異なるため、それらの攻撃の方法に固有の特徴を捉えて悪性なＷｅｂページを検出する既存技術では特定することができない。

　つまり、従来の方法では、心理的な誘導のテクニックにより、セキュリティ被害を受けているユーザを標的に、その解決方法を紹介することで偽アンチウイルスソフトをインストールさせるようなＷｅｂページを検出することはできないという課題があった。

　本発明は、上記に鑑みてなされたものであって、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときのＷｅｂページ情報を用いて、すでにセキュリティ被害を受けているユーザを偽の除去情報を紹介することで騙し、偽アンチウイルスソフトをインストールさせる悪性なＷｅｂページである、偽除去情報紹介サイトを検出することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明の学習装置は、偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付ける入力部と、前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部とを有することを特徴とする。

　また、本発明の検出装置は、Ｗｅｂページに関する情報の入力を受け付ける入力部と、前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Ｗｅｂページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部とを有することを特徴とする。

　本発明によれば、偽アンチウイルスソフトをインストールさせる悪性なＷｅｂページである、偽除去情報紹介サイトを検出することができるという効果を奏する。

図１は、実施の形態における検出システムの構成の一例を示す図である。図２は、図１に示す学習装置の構成の一例を示す図である。図３は、図１に示す検出装置の構成の一例を示す図である。図４は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときにＷｅｂブラウザから取得できるＷｅｂページ情報の一例を示す図である。図５は、Ｗｅｂページ情報の一部である通信ログ情報の一例を示す図である。図６は、語句出現頻度を計測する対象の一例を示す図である。図７は、出現頻度を計測する語句の一例を示す図である。図８は、語句出現頻度の特徴ベクトルの一例を示す図である。図９は、偽除去情報紹介サイトのＷｅｂページの画像の一例を示す図である。図１０は、出現頻度を計測する画像データのカテゴリの一例を示す図である。図１１は、画像出現頻度の特徴ベクトルの一例を示す図である。図１２は、ＨＴＭＬタグ出現頻度の特徴ベクトルの一例を示す図である。図１３は、リンク先ＵＲＬ出現頻度の特徴ベクトルの一例を示す図である。図１４は、通信先ＵＲＬ出現頻度の特徴ベクトルの一例を示す図である。図１５は、特徴量を統合した特徴ベクトルの一例を示す図である。図１６は、訓練モデル生成処理のフローチャートを示す図である。図１７は、検出処理のフローチャートを示す図である。図１８は、プログラムを実行するコンピュータを示す図である。

　以下に、本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムが限定されるものではない。

［実施形態］
　本発明の実施の形態について説明する。図１は、実施の形態における検出システムの構成の一例を示す図である。図１に示すように、実施の形態に係る検出システム１は、学習装置１０と、検出装置２０とを有する。学習装置１０は、Ｗｅｂページが偽除去情報紹介サイトであることを検出するための訓練モデルを生成する。具体的には、学習装置１０は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときのＷｅｂページに関する情報（以下Ｗｅｂページ情報と記載）の入力を受け付ける。

　学習装置１０は、Ｗｅｂページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、ＨＴＭＬの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

　検出装置２０は、学習装置１０によって生成された訓練モデルを受信し、訓練モデルを用いて、Ｗｅｂページが偽除去情報紹介サイトであることを検出する。具体的には、検出装置２０は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときのＷｅｂページ情報の入力を受け付ける。検出装置２０は、Ｗｅｂページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、ＨＴＭＬの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして用いて、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてＷｅｂページが偽除去情報紹介サイトであることを検出する。

［学習装置および検出装置の構成］
　次に、学習装置１０の構成について説明する。図２は、図１に示す学習装置の構成の一例を示す図である。学習装置１０は、Ｗｅｂページ情報入力部１１、語句出現頻度特徴量抽出部（第一の特徴量抽出部）１２、画像出現頻度特徴量抽出部（第二の特徴量抽出部）１３、ＨＴＭＬ特徴量抽出部（第三の特徴量抽出部）１４、通信ログ特徴量抽出部（第四の特徴量抽出部）１５、学習部１６、記憶部１７を有する。

　次に、検出装置２０の構成について説明する。図３は、図１に示す検出装置の構成の一例を示す図である。検出装置２０は、Ｗｅｂページ情報入力部２１、語句出現頻度特徴量抽出部２２、画像出現頻度特徴量抽出部２３、ＨＴＭＬ特徴量抽出部２４、通信ログ特徴量抽出部２５、検出部２６、出力部２７、記憶部２８を有する。

　以下に、学習装置１０の各部について説明する。Ｗｅｂページ情報入力部１１は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付ける。具体的には、Ｗｅｂページ情報入力部１１は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスし、Ｗｅｂブラウザから取得したＷｅｂページ情報の入力を受け付ける。例えば、Ｗｅｂページ情報入力部１１は、複数の既知の偽除去情報紹介サイトのＷｅｂページ情報と複数の偽除去情報紹介サイト以外のＷｅｂページ情報を入力する。ここでＷｅｂページ情報とは、ＷｅｂブラウザによってＷｅｂページにアクセスした際に、Ｗｅｂブラウザから取得できる情報である。

　Ｗｅｂページ情報入力部１１が取得するＷｅｂページ情報は、図４に示す項目を構成する。図４は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときにＷｅｂブラウザから取得できるＷｅｂページ情報の一例を示す図である。図４では、Ｗｅｂページ情報を構成する項目の一例を示す。Ｗｅｂページ情報の項目の例は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときに、Ｗｅｂブラウザから取得したＷｅｂページの画像、ＨＴＭＬソースコード、通信ログである。Ｗｅｂページ情報は、Ｗｅｂブラウザに導入したブラウザ拡張機能、Ｗｅｂブラウザの開発者用デバッグツールなどを用いることで、Ｗｅｂブラウザのアクセスを操作し、取得することができる。

　図５の例を用いて、Ｗｅｂページの通信ログの一例について説明する。図５は、Ｗｅｂページ情報の一部である通信ログ情報の一例を示す図である。通信ログの項目の例は、通信が発生した時間であるタイムスタンプ、通信先ＵＲＬ、通信先のＩＰアドレス、直前にアクセスした通信先を表すＨＴＭＬリファラー、ＨＴＭＬの通信内容を表すＨＴＭＬステータスコードである。

　語句出現頻度特徴量抽出部１２は、語句に関する特徴量として、Ｗｅｂページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。つまり、Ｗｅｂページ情報に含まれる偽除去情報紹介サイトに固有の言語的な特徴を捉えることを目的として、語句出現頻度特徴量抽出部１２は、Ｗｅｂページ情報に含まれるＷｅｂページの特徴量として、語句の出現頻度を計測し、特徴ベクトルを生成する。計測する対象の一例を図６に示す。図６は、語句出現頻度を計測する対象の一例を示す図である。

　図６に例示するように、語句出現頻度特徴量抽出部１２は、タイトル、テキスト、ドメイン名、ＵＲＬパスのうち、いずれか一つまたは複数の計測対象から語句の出現頻度をそれぞれ計測する。語句出現頻度特徴量抽出部１２は、ＷｅｂページのＨＴＭＬソースコードからＷｅｂページに表示されるタイトル、テキストを抽出する。タイトルは、ｔｉｔｌｅタグで囲まれた文字列を抽出することで取得できる。テキストは、各ＨＴＭＬタグに囲まれた文字列を抽出し、Ｗｅｂブラウザが処理するためのＪａｖａＳｃｒｉｐｔ（登録商標）ソースコードをあらわすｓｃｒｉｐｔタグやＷｅｂページのメタ情報を表すｍｅｔａタグに囲まれた文字列を除外することで取得できる。

　また、語句出現頻度特徴量抽出部１２は、通信ログから通信先ＵＲＬを取得し、通信先ＵＲＬからドメイン名とＵＲＬパスを取得する。出現頻度を計測する対象の語句は、同一の役割を持つ語句のカテゴリごとに予め設定する。図７は、出現頻度を計測する語句の一例を示す図である。図７の例では、語句とそのカテゴリの一例を示している。語句出現頻度特徴量抽出部１２は、「方法」、「除去」、「脅威」、「デバイス」のうち、いずれか一つまたは複数のカテゴリごとに、既知の偽除去情報紹介サイトから頻出する語句を事前に抽出しておき、各カテゴリの語句の出現頻度を計測する。

　図８では、語句出現頻度特徴量抽出部１２が抽出した特徴量の特徴ベクトルの一例を示す。図８は、語句出現頻度の特徴ベクトルの一例を示す図である。語句出現頻度特徴量抽出部１２は、計測対象ごとに、それぞれのカテゴリに設定した語句の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。

　画像出現頻度特徴量抽出部１３は、画像に関する特徴量として、Ｗｅｂページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。つまり、Ｗｅｂページ情報に含まれる偽除去情報紹介サイトに固有の画像的な特徴を捉えることを目的として、画像出現頻度特徴量抽出部１３は、Ｗｅｂページ情報に含まれるＷｅｂページの特徴量として、画像の出現頻度を計測し、特徴ベクトルを生成する。画像出現頻度特徴量抽出部１３は、Ｗｅｂブラウザによって描画されたＷｅｂページの画像の内部に含まれる、画像データの出現頻度を計測する。偽除去情報紹介サイトのＷｅｂページの画像の一例を図９に示す。図９は、偽除去情報紹介サイトのＷｅｂページの画像の一例を示す図である。

　画像データは、既知の偽除去情報紹介サイトに頻出する画像をカテゴリごとに予め設定する。画像データのカテゴリの一例を図１０に示す。図１０は、出現頻度を計測する画像データのカテゴリの一例を示す図である。偽認証ロゴは、Ｗｅｂページの安全性を主張するために、偽除去情報紹介サイトが悪用するセキュリティベンダ企業やＯＳベンダ企業のロゴ画像である。

　偽アンチウイルスソフトのパッケージは、偽アンチウイルスソフト製品のパッケージ画像である。ダウンロードボタンは偽アンチウイルスソフトのダウンロードを促すためのダウンロードボタンである。画像出現頻度特徴量抽出部１３は、ＨＴＭＬソースコードのａタグやｉｍｇタグに一致するＨＴＭＬエレメントの画像領域をＷｅｂページから抽出し、予め設定した画像データとの類似度を測定する。類似度の測定方法として、ｐｅｒｃｅｐｔｕａｌ　ｈａｓｈといった画像のハッシュ化アルゴリズムを利用することができる。

　図１１では、画像出現頻度特徴量抽出部１３が抽出した特徴量の特徴ベクトルの一例を示す。図１１は、画像出現頻度の特徴ベクトルの一例を示す図である。画像出現頻度特徴量抽出部１３は、画像データのカテゴリごとに画像の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。

　ＨＴＭＬ特徴量抽出部１４は、ＨＴＭＬソースコードに関する特徴量として、Ｗｅｂページ情報からＨＴＭＬソースコード情報を抽出し、ＨＴＭＬ情報に含まれるリンク先の出現回数と構造情報を計測する。つまり、Ｗｅｂページ情報に含まれる偽除去情報紹介サイトに固有のＨＴＭＬの構造的な特徴を捉えることを目的として、ＨＴＭＬ特徴量抽出部１４は、Ｗｅｂページ情報に含まれるＷｅｂページの特徴量として、ＨＴＭＬタグやリンク先のＵＲＬの出現頻度を計測し、特徴ベクトルを生成する。ＨＴＭＬ特徴量抽出部１４は、ＨＴＭＬソースコードから通常使用されるＨＴＭＬタグのうち、いずれか一つまたは複数のＨＴＭＬタグの出現頻度を計測する。

　また、ＨＴＭＬ特徴量抽出部１４は、ａタグに含まれるＷｅｂページ内のリンク先のＵＲＬの出現頻度を計測する。予め、偽除去情報紹介サイトに頻出する外部サイトのリンク先ＵＲＬを設定しておく。図１２において、ＨＴＭＬ特徴量抽出部１４が抽出したＨＴＭＬタグの出現頻度の特徴量の特徴ベクトルの一例を示す。図１２は、ＨＴＭＬタグ出現頻度の特徴ベクトルの一例を示す図である。また、図１３において、ＨＴＭＬ特徴量抽出部１４が抽出したリンク先ＵＲＬの出現頻度の特徴量の特徴ベクトルの一例を示す。図１３は、リンク先ＵＲＬ出現頻度の特徴ベクトルの一例を示す図である。ＨＴＭＬ特徴量抽出部１４は、ＨＴＭＬタグの出現頻度とリンク先ＵＲＬの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。

　通信ログ特徴量抽出部１５は、通信ログに関する特徴量として、Ｗｅｂページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。つまり、Ｗｅｂページ情報に含まれる偽除去情報紹介サイトに固有の通信的な特徴を捉えることを目的として、通信ログ特徴量抽出部１５は、Ｗｅｂページ情報に含まれるＷｅｂページの特徴量として、通信先ＵＲＬの出現頻度を計測し、特徴ベクトルを生成する。通信ログ特徴量抽出部は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときに発生した通信のうち、外部サイトに対する通信内容から、通信先ＵＲＬの出現頻度を計測する。予め、偽除去情報紹介サイトにアクセスしたときの通信に頻繁に含まれる外部サイトのＵＲＬを設定しておく。

　図１４において、ＨＴＭＬ特徴量抽出部が抽出した通信先ＵＲＬの出現頻度の特徴量の特徴ベクトルの一例を示す。図１４は、通信先ＵＲＬ出現頻度の特徴ベクトルの一例を示す図である。通信ログ特徴量抽出部１５は、通信先ＵＲＬの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。

　学習部１６は、Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。例えば、学習部１６は、Ｗｅｂページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、ＨＴＭＬの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を統合した特徴ベクトルを訓練データとして用いて、訓練モデルを生成する。

　図１５において、Ｗｅｂページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、ＨＴＭＬの特徴量、通信ログの特徴量を統合した訓練データの一例を示す。図１５は、特徴量を統合した特徴ベクトルの一例を示す図である。学習部１６は、２クラス分類を実施可能な教師あり機械学習手法を用いて訓練モデルの生成を行い、記憶部１７に訓練モデルを記録する。２クラス分類を実施可能な教師あり機械学習手法の例としてサポートベクターマシンやランダムフォレストがあるが、これらに限るものではない。学習部１６は、既知の偽除去情報紹介サイトとそれ以外のＷｅｂページから特徴量を抽出して訓練データを作成し、教師あり機械学習手法を用いて訓練モデルを生成する。

　続いて、以下に、検出装置２０の各部について説明する。なお、Ｗｅｂページ情報入力部２１、語句出現頻度特徴量抽出部２２、画像出現頻度特徴量抽出部２３、ＨＴＭＬ特徴量抽出部２４、通信ログ特徴量抽出部２５は、それぞれ、上述したＷｅｂページ情報入力部１１、語句出現頻度特徴量抽出部１２、画像出現頻度特徴量抽出部１３、ＨＴＭＬ特徴量抽出部１４、通信ログ特徴量抽出部１５と同様の処理を行っているため、重複する説明は省略して簡単に説明する。

　Ｗｅｂページ情報入力部２１は、検出対象のＷｅｂページに関する情報の入力を受け付ける。具体的には、Ｗｅｂページ情報入力部２１は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスし、Ｗｅｂブラウザから取得したＷｅｂページ情報の入力を受け付ける。

　語句出現頻度特徴量抽出部２２は、語句に関する特徴量として、Ｗｅｂページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。画像出現頻度特徴量抽出部２３は、画像に関する特徴量として、Ｗｅｂページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。

　ＨＴＭＬ特徴量抽出部２４は、ＨＴＭＬソースコードに関する特徴量として、Ｗｅｂページ情報からＨＴＭＬソースコード情報を抽出し、ＨＴＭＬ情報に含まれるリンク先の出現回数と構造情報を計測する。通信ログ特徴量抽出部２５は、通信ログに関する特徴量として、Ｗｅｂページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。

　検出部２６は、Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、検出対象のＷｅｂページが偽除去情報紹介サイトであることを検出する。

　具体的には、検出部２６は、記憶部２８から訓練モデルを読み出し、学習部１６と同様に、Ｗｅｂページ情報から抽出した特徴ベクトルを入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてＷｅｂページが偽除去情報紹介サイトであることを検出する。なお、検出部２６は、検出対象のＷｅｂページが偽除去情報紹介サイトであるか否かを判定するだけでなく、訓練モデルの出力結果に応じて検出対象のＷｅｂページが偽除去情報紹介サイトである確率を示す数値をもとめてもよい。

　出力部２７は、検出部２６によって検出された結果を出力する。例えば、出力部２７は、検出対象のＷｅｂページが偽除去情報紹介サイトであるか否かを示すメッセージを出力してもよいし、検出対象のＷｅｂページが偽除去情報紹介サイトである確率を示すメッセージを出力してもよい。なお、出力態様は、メッセージ限定されるものではなく、画像や音声等どのようなものであってもよい。

［学習処理および検出処理の処理手順］
　次に、図１６および図１７を用いて、実施の形態に係る学習処理および検出処理の処理手順について説明する。図１６は、訓練モデル生成処理のフローチャートを示す図である。図１７は、検出処理のフローチャートを示す図である。

　図１６に示すように、学習装置１０のＷｅｂページ情報入力部１１は、偽除去情報紹介サイトである、またはそうでないことが既知のＷｅｂページのＷｅｂページ情報の入力を受け付ける（ステップＳ１０１）。そして、語句出現頻度特徴量抽出部１２は、語句出現頻度特徴量の抽出処理を行う（ステップＳ１０２）。具体的には、語句出現頻度特徴量抽出部１２は、語句に関する特徴量として、Ｗｅｂページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。

　続いて、画像出現頻度特徴量抽出部１３は、画像出現頻度特徴量の抽出処理を行う（ステップＳ１０３）。具体的には、画像出現頻度特徴量抽出部１３は、画像に関する特徴量として、Ｗｅｂページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、ＨＴＭＬ特徴量抽出部１４は、ＨＴＭＬ特徴量の抽出処理を行う（ステップＳ１０４）。具体的には、ＨＴＭＬ特徴量抽出部１４は、ＨＴＭＬソースコードに関する特徴量として、Ｗｅｂページ情報からＨＴＭＬソースコード情報を抽出し、ＨＴＭＬ情報に含まれるリンク先の出現回数と構造情報を計測する。

　続いて、通信ログ特徴量抽出部１５は、通信ログ特徴量の抽出を行う（ステップＳ１０５）。具体的には、通信ログ特徴量抽出部１５は、通信ログに関する特徴量として、Ｗｅｂページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。その後、学習部１６は、各特徴量を統合して訓練データを生成する（ステップＳ１０６）。そして、学習部１６は、教師あり機械学習手法により訓練モデルを生成する（ステップＳ１０７）。

　また、図１７に示すように、検出装置２０のＷｅｂページ情報入力部２１は、検出対象のＷｅｂページのＷｅｂページ情報の入力を受け付ける（ステップＳ２０１）。そして、語句出現頻度特徴量抽出部２２は、語句出現頻度特徴量の抽出処理を行う（ステップＳ２０２）。具体的には、語句出現頻度特徴量抽出部２２は、語句に関する特徴量として、Ｗｅｂページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。

　続いて、画像出現頻度特徴量抽出部２３は、画像出現頻度特徴量の抽出処理を行う（ステップＳ２０３）。具体的には、画像出現頻度特徴量抽出部２３は、画像に関する特徴量として、Ｗｅｂページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、ＨＴＭＬ特徴量抽出部２４は、ＨＴＭＬ特徴量の抽出処理を行う（ステップＳ２０４）。具体的には、ＨＴＭＬ特徴量抽出部２４は、ＨＴＭＬソースコードに関する特徴量として、Ｗｅｂページ情報からＨＴＭＬソースコード情報を抽出し、ＨＴＭＬ情報に含まれるリンク先の出現回数と構造情報を計測する。

　続いて、通信ログ特徴量抽出部２５は、通信ログ特徴量の抽出を行う（ステップＳ２０５）。具体的には、通信ログ特徴量抽出部２５は、通信ログに関する特徴量として、Ｗｅｂページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。

　そして、検出部２６は、特徴量を統合して入力データを生成する（ステップＳ２０６）。続いて、検出部２６は、学習済みの訓練モデルに入力データを入力し、Ｗｅｂページが偽除去情報紹介サイトであることを検出する（ステップＳ２０７）。

［実施形態の効果］
　このように、第１の実施形態に係る学習装置１０は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付け、Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

　また、検出装置２０は、Ｗｅｂページに関する情報の入力を受け付け、Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、Ｗｅｂページが偽除去情報紹介サイトであることを検出する。

　このため、実施形態に係る検出システム１は、Ｗｅｂブラウザから取得したＷｅｂページ情報から、言語的特徴、画像的特徴、ＨＴＭＬの構造的特徴、リンク先の特徴、通信先の特徴を分析することで、偽除去情報紹介サイトに固有の特徴をとらえ、従来技術で検出できなかった偽除去情報紹介サイトを精度良く検出することができる。

　つまり、検出システム１では、Ｗｅｂブラウザを用いてＷｅｂページにアクセスしたときのＷｅｂページ情報を用いて、セキュリティ被害を受けたユーザに対処する偽の方法を紹介する悪性なＷｅｂページである偽除去情報紹介サイトの言語的、画像的、ＨＴＭＬの構造的特徴を、ユーザに対する心理的な働きかけと、それに伴うシステムの構造という観点でとらえ、入力した任意のＷｅｂページから偽除去情報紹介サイトを検出することができるという効果を奏する。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１８は、プログラムを実行するコンピュータを示す図である。図１８では、プログラムが実行されることにより、学習装置１０または検出装置２０が実現されるコンピュータの一例を示す。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０または検出装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク、ＷＡＮを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　検出システム
　１０　学習装置
　１１、２１　Ｗｅｂページ情報入力部
　１２、２２　語句出現頻度特徴量抽出部
　１３、２３　画像出現頻度特徴量抽出部
　１４、２４　ＨＴＭＬ特徴量抽出部
　１５、２５　通信ログ特徴量抽出部
　１６　学習部
　１７、２８　記憶部
　２６　検出部
　２７　出力部

Claims

　偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付ける入力部と、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部と
を有することを特徴とする学習装置。
　前記語句に関する特徴量として、前記Ｗｅｂページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する第一の特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
　前記画像に関する特徴量として、前記Ｗｅｂページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する第二の特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
　前記ＨＴＭＬソースコードに関する特徴量として、前記Ｗｅｂページに関する情報からＨＴＭＬソースコード情報を抽出し、ＨＴＭＬ情報に含まれるリンク先の出現回数と構造情報を計測する第三の特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
　前記通信ログに関する特徴量として、前記Ｗｅｂページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
　Ｗｅｂページに関する情報の入力を受け付ける入力部と、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Ｗｅｂページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部と
　を有することを特徴とする検出装置。
　学習装置によって実行される学習方法であって、
　偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付ける入力工程と、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習工程と
　を含むことを特徴とする学習方法。
　検出装置によって実行される検出方法であって、
　Ｗｅｂページに関する情報の入力を受け付ける入力工程と、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Ｗｅｂページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出工程と
　を含むことを特徴とする検出方法。
　偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるＷｅｂページに関する情報の入力を受け付ける入力ステップと、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習ステップと
　をコンピュータに実行させることを特徴とする学習プログラム。
　Ｗｅｂページに関する情報の入力を受け付ける入力ステップと、
　前記Ｗｅｂページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、ＨＴＭＬソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Ｗｅｂページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出ステップと
　をコンピュータに実行させることを特徴とする検出プログラム。