WO2019142399A1

WO2019142399A1 - 収集装置、収集方法及び収集プログラム

Info

Publication number: WO2019142399A1
Application number: PCT/JP2018/034625
Authority: WO
Inventors: 駿小出; 大紀千葉
Original assignee: 日本電信電話株式会社
Priority date: 2018-01-17
Filing date: 2018-09-19
Publication date: 2019-07-25
Also published as: US20200364589A1; JPWO2019142399A1; US11556819B2; EP3722974B1; EP3722974A1; EP3722974A4; JP6823205B2

Abstract

収集装置（４）は、ユーザ操作を誘導するＷｅｂページのＵＲＬを収集する収集装置であって、デジタルコンテンツ名と該デジタルコンテンツの付随キーワードとを組み合わせて検索クエリを生成する検索クエリ生成部（３１）と、生成した検索クエリの特徴情報を基に、該検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いを予測する適合度予測部（３２）と、予測した度合いに基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、度合いと検索結果情報とを基に、ＷｅｂページのＵＲＬの解析優先度を決定する決定部（３３）と、検索したＷｅｂページのＵＲＬと該ＵＲＬの解析優先度とを出力する通信部（１０）とを有する。

Description

収集装置、収集方法及び収集プログラム

　本発明は、収集装置、収集方法及び収集プログラムに関する。

　悪意のあるソフトウェアの総称であるマルウェアの感染は、ユーザのＷｅｂページ閲覧に起因することが多い。このマルウェアのユーザへの侵入の際に、ドライブ・バイ・ダウンロード（Drive-By　Download：ＤＢＤ）攻撃が用いられる。ＤＢＤ攻撃は、Ｗｅｂブラウザを用いて、Ｗｅｂページに接続したユーザを、自動で攻撃ページに転送し、マルウェアに感染させる攻撃である。ＤＢＤ攻撃は、Ｗｅｂブラウザやそれに導入されるプラグインの脆弱性を悪用してユーザにマルウェアを感染させる。

　ＤＢＤ攻撃を発生させるＷｅｂページを分析するために、脆弱性を内包するおとりのシステムであるＷｅｂクライアント型ハニーポットを使用する方法がある。この方法では、Ｗｅｂクライアント型ハニーポットを用いてＷｅｂページを分析し、ＤＢＤ攻撃を発生する悪性なＷｅｂページであると判明した場合、そのＷｅｂページのＵＲＬ（Uniform　Resource　Locator）、ドメイン名、ＩＰアドレスを代表とする通信先情報をブラックリストとして設定する。そして、各セキュリティ装置は、このブラックリストに対するＷｅｂアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。

L.　Invernizzi,　P.　M.　Comparetti,　S.　Benvenuti,　C.　Kruegel,　M.　Cova,　and　G.　Vigna,　"EVILSEED:　A　Guided　Approach　to　Finding　Malicious　Web　Pages",　IEEE　S&P.,　pp.428－442,　2012. T.　Nelms,　R.　Perdisci,　M.　Antonakakis,　and　M.　Ahamad,　"Towards　Measuring　and　Mitigating　Social　Engineering　Software　Download　Attacks",　USENIX　Security　Symposium,　pp.773－789,　2016.

　悪性Ｗｅｂページの通信先情報を示すブラックリストを生成するためには、Ｗｅｂページを解析して、Ｗｅｂページを経由した攻撃の発生の有無を分析する必要がある。このＷｅｂページの解析時間の大部分は、配信元サーバの処理時間及びデータ転送時間である。すなわち、Ｗｅｂページの解析においては、配信元サーバの処理時間とデータ転送時間とに長時間を要するため、Ｗｅｂページの解析の高速化が難しく、解析時間の短縮には限界がある。

　また、Ｗｅｂ空間には１０億件以上のＷｅｂページが存在し、その数は日々増大しているため、全てのＷｅｂページを順次解析し、そのＷｅｂページが有効な期間内にブラックリスト化することは困難である。

　したがって、悪性である可能性が高いＷｅｂページを優先的に収集し、解析の入力とすることが必要である。

　ＤＢＤ攻撃が発生するＷｅｂページの多くは、攻撃者が改ざんした正規のＷｅｂページである。従来では、ＤＢＤ攻撃が発生するＷｅｂページを効率的に収集するために、Ｗｅｂページの改ざんに使われた脆弱性の特徴を用いて検索エンジンによって収集する方法、及び、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名登録情報からＷｅｂページのドメイン名を収集する方法などが提案されている。

　一方、近年では、ＤＢＤ攻撃のようにシステムの脆弱性を悪用する攻撃とは異なる「ユーザ操作を誘導する攻撃」が増加している。「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。

　「ユーザ操作を誘導する攻撃」の具体的な攻撃方法として、例えば、人気のあるデジタルコンテンツ（映像、音楽、ソフトウェア等）を非正規に無料で入手可能に見せかけるボタンを表示する場合がある。そして、このボタンをユーザにクリックさせることによって、端末画面のＷｅｂページを別のＷｅｂページに遷移させたり、端末にマルウェアや悪性なブラウザ拡張機能をダウンロードさせたりすることが考えられる。

　この「ユーザ操作を誘導する攻撃」が発生するＷｅｂページは、改ざんされた正規のＷｅｂページではなく、攻撃者が用意したＷｅｂページや広告が起点となることが多い。このため、脆弱性を持つＷｅｂページの特徴を用いて検索エンジンによる検索を行う方法では、この攻撃が発生するＷｅｂページのＵＲＬを効率的に収集することが難しい。また、「ユーザ操作を誘導する攻撃」が発生するＷｅｂページは、Ｗｅｂページのドメイン名が長期間使用される傾向がある。このため、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名を抽出する方法では、この攻撃の起点となるＷｅｂページのドメイン名を抽出することが難しい。

　このように、ＤＢＤ攻撃が発生するＵＲＬの収集に用いられた従来の手法は、「ユーザ操作を誘導する攻撃」に対して有用であるとは言い難い。また、「ユーザ操作を誘導する攻撃」の特徴を捉え、効率的にＵＲＬを収集する方法は、従来提案されていなかった。

　本発明は、上記に鑑みてなされたものであって、ユーザ操作をマルウェア感染に誘導するＷｅｂページのＵＲＬを効率的に収集する収集装置、収集方法及び収集プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る収集装置は、ＷｅｂページのＵＲＬを収集する収集装置であって、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、検索クエリ生成部が生成した検索クエリの特徴情報を基に、生成した検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いを予測する度合い予測部と、度合い予測部が予測した度合いに基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、検索したＷｅｂページのＵＲＬに対して、検索クエリの度合いと検索結果情報とを基に、ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、決定部が検索したＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置に出力する出力部と、を有することを特徴とする。

　本発明によれば、ユーザ操作をマルウェア感染に誘導するＷｅｂページのＵＲＬを効率的に収集できる。

図１は、実施の形態における解析システムの構成の一例を示す図である。図２は、図１に示す収集装置の構成の一例を示す図である。図３は、図２に示すカテゴリデータベース（ＤＢ）が記憶するカテゴリデータのデータ構成の一例を示す図である。図４は、図２に示す既知検索クエリＤＢが記憶するデータの一例を示す図である。図５は、ホワイトリストのデータ構成の一例を示す図である。図６は、図２に示す第１キーワード収集部が収集した第１キーワードと付加情報とを示す図である。図７は、図２に示す第２キーワード収集部が収集する第２キーワードの一例を示す図である。図８は、図２に示す生成部が生成した検索クエリの一例を示す図である。図９は、図２に示す特徴情報抽出部が抽出する検索クエリの特徴情報の一例を示す図である。図１０は、図２に示す解析優先度算出部が算出したＵＲＬに対する解析優先度の一例を示す図である。図１１は、図２に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。図１２は、図２に示す収集装置が実行するＷｅｂページの収集処理の処理手順を示すフローチャートである。図１３は、図１２に示す検索クエリ生成処理の処理手順を示すフローチャートである。図１４は、図１２に示す適合度予測処理の処理手順を示すフローチャートである。図１５は、図１２に示す解析優先度決定処理の処理手順を示すフローチャートである。図１６は、プログラムが実行されることにより、収集装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
　本発明の実施の形態について説明する。図１は、実施の形態における解析システムの構成の一例を示す図である。

　図１に示すように、実施の形態に係る解析システム１は、解析装置３と、ネットワーク２と解析装置３との間に設けられた収集装置４とを有する。収集装置４は、ネットワーク２を介して、外部装置（不図示）と接続する。

　収集装置４は、ユーザ操作を誘導するＷｅｂページのＵＲＬを収集する。収集装置４は、ネットワーク２を介して収集したＷｅｂページのうち、「ユーザ操作を誘導する攻撃」が発生するＷｅｂページである可能性が高いＷｅｂページのＵＲＬを優先的に収集して、解析装置３に出力する。なお、「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。

　解析装置３は、収集装置４が出力した「ユーザ操作を誘導する攻撃」が発生するＷｅｂページである可能性が高いＷｅｂページを入力として、解析を行い、攻撃発生の有無を分析する。そして、解析装置３は、分析結果を基にブラックリストを生成する。そして、各セキュリティ装置（不図示）は、このブラックリストに対するＷｅｂアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。

　ここで、攻撃者にとって、「ユーザ操作を誘導する攻撃」は、攻撃を発動させるユーザ操作をどれだけ発生させるかが重要である。この観点で、デジタルデータのダウンロードボタンを表示することによる誘導は広く行われていると考えられる。中でもＷｅｂページに掲載される順位情報（購入数順位やおすすめ順位等）が高く、人気があるデジタルコンテンツはダウンロードボタンへの多数のクリックが期待されることから、「ユーザ操作を誘導する攻撃」で多く利用されることが推測される。収集装置４は、この点に着目し、「ユーザ操作を誘導する攻撃」が発生するＷｅｂページである可能性が高いＷｅｂページのＵＲＬを優先的に収集する。

　具体的には、収集装置４は、デジタルコンテンツ名とその付随キーワードとを組み合わせて生成した検索クエリによりＵＲＬ抽出を行う。そして、収集装置４は、新たに抽出した検索クエリおよび既知の検索クエリの特徴情報（デジタルコンテンツの順位情報を含む）に基づいて、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合い（適合度）を予測する。続いて、収集装置４は、予測した適合度を用いて、抽出したＵＲＬの解析優先度を決定し、抽出したＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置３に出力する。

［収集装置の構成］
　そこで、収集装置４の構成について説明する。図２は、図１に示す収集装置４の構成の一例を示す図である。図２に示すように、収集装置４は、通信部１０、記憶部２０及び制御部３０を有する。また、収集装置４は、操作者からの各種操作を受け付ける入力インタフェース（不図示）や、表示装置、印刷装置、情報通信装置等によって実現された出力装置（不図示）を有する。

　通信部１０は、ネットワーク２等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１０は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置と制御部３０（後述）との間の通信を行う。例えば、通信部１０は、ネットワーク２を介して、Ｗｅｂページを収集する。また、通信部１０は、制御部３０によって抽出された「ユーザ操作を誘導する攻撃」が発生するＷｅｂページである可能性が高いＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置３に出力する。

　記憶部２０は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部２０は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部２０は、収集装置４で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。さらに、記憶部２０は、プログラムの実行で用いられる各種情報を記憶する。記憶部２０は、カテゴリＤＢ２１、既知キーワードＤＢ２２、既知検索クエリＤＢ２３、適合度予測モデル２４（予測モデル）及びホワイトリストＤＢ２５を有する。

　カテゴリＤＢ２１は、カテゴリ入力部３１１（後述）が入力を受け付けるデジタルデータのカテゴリと、各カテゴリに対応する収集先のＷｅｂページとを示すカテゴリデータを記憶する。

　図３は、図２に示すカテゴリＤＢ２１が記憶するカテゴリデータのデータ構成の一例を示す図である。カテゴリデータは、図３に示すように、デジタルデータカテゴリと、各カテゴリに対応する収集先のＷｅｂページとが対応付けられており、それぞれに通番が付されている。第１キーワード収集部３１２（後述）は、カテゴリＤＢ２１を参照して、入力されたデジタルデータのカテゴリに対応する収集先Ｗｅｂページを巡回して、第１キーワードを収集する。

　ここで、図３に示す各カテゴリは、カテゴリ入力部３１１において入力が期待されるデジタルデータのカテゴリである。具体的には、図３に示すように、カテゴリ入力部３１１において入力が期待されるデジタルデータのカテゴリとして、「Movie」、「Game」、「Software」、「Book」、「Music」等がある。カテゴリは、これらに限るものではない。

　また、各カテゴリに対応する収集先Ｗｅｂページは、デジタルデータのコンテンツ名を掲載するＷｅｂページである。収集先Ｗｅｂページは、カテゴリごとに予め設定され、カテゴリＤＢ２１に記憶される。なお、Ｗｅｂページが掲載するデジタルデータのコンテンツ名は、第１キーワード収集部３１２が、デジタルデータのカテゴリに属する任意のデジタルコンテンツ名である第１キーワードとして収集するものである。例えば、デジタルデータのコンテンツ名として、ＰＣソフトウェアの製品名、映画や書籍の商品名、投稿された動画名等がある。コンテンツ名は、これらに限るものではない。

　例えば、通番「1」のカテゴリ「Movie」については、映画の名称「Movie1」をコンテンツ名として掲載するＷｅｂページのＵＲＬ「http://movie1.example.com」が対応付けられている。また、通番「2」のカテゴリ「Game」については、ゲームの名称「Game1」をコンテンツ名として掲載するＷｅｂページのＵＲＬ「http://game1.example.org」が対応付けられている。

　既知キーワードＤＢ２２は、予めカテゴリごとに求められた既知の第２キーワードを記憶する。第２キーワードは、検索エンジンの検索クエリに第１キーワードが含まれる場合に、第１キーワードに付随する付随キーワードである。そして、この第２のキーワードのうち、ユーザ操作を誘導するＷｅｂページを多く出力する文字列が、既知の第２キーワードとして、予め求められ、既知キーワードＤＢ２２に格納される。例えば、既知キーワードＤＢ２２は、カテゴリ「Movie」の既知の第２キーワードとして「free」を記憶する。また、既知キーワードＤＢ２２は、カテゴリ「Game」の既知の第２キーワードとして「download」を記憶する。

　既知検索クエリＤＢ２３は、検索結果が既知である検索クエリと、その検索クエリの適合度とを対応付けて記憶する。これらの検索結果が既知である検索クエリと、その検索クエリの適合度とは、予め求められたものである。検索クエリの適合度は、前述したように、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合である。言い換えると、適合度は、ユーザ操作を誘導するＷｅｂサイトを検索結果として出力するという目的にどれくらい適合しているかを表す指標である。

　また、検索結果が既知である検索クエリは、ユーザ操作を誘導するＷｅｂページを検索結果に含む既知の検索クエリ（悪性検索クエリ）と、ユーザ操作を誘導するＷｅｂページを検索結果に含まない既知の検索クエリ（良性検索クエリ）とである。

　図４は、図２に示す既知検索クエリＤＢ２３が記憶するデータの一例を示す図である。既知検索クエリＤＢ２３は、図４に示すように、検索結果が既知である検索クエリと、該検索クエリの適合度とを記憶する。ここで、ユーザ操作を誘導するＷｅｂページが１件でも検索結果に含まれると、この検索クエリは、悪性検索クエリとして扱われる。図４の例では、適合度が「0」である通番「101」の検索クエリ「MovieA　online」は、良性検索クエリである。それ以外の適合度が０より大の検索クエリは、悪性クエリである。

　検索結果が既知である検索クエリの適合度は、予め求められ、各検索クエリに対応付けられた状態で、既知検索クエリＤＢ２３に格納される。この適合度は、例えば、（１）式を用いて求められる。

　例えば、検索クエリ「MovieA　free　download」について、検索結果の出力結果数が１０件であり、ユーザ操作を誘導するＷｅｂページ数が７件である場合を例に説明する。この場合には、（１）式に、これらの件数を適用することによって、検索クエリ「MovieA　free　download」に対し、適合度「0.7」が求められる。なお、適合度は、（１）式に限らず、他の演算式を用いて算出されてもよい。また、既知検索クエリＤＢ２３は、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するＷｅｂページの集合とを対応付けて記憶していてもよい。

　適合度予測モデル２４は、検索クエリの特徴情報が入力されると、入力された特徴情報に応じた適合度を出力するモデルである。適合度予測モデル２４は、既知の悪性検索クエリの適合度及び既知の悪性検索クエリと、既知の良性検索クエリの適合度及び既知の良性検索クエリの特徴情報と、を基に、既知の検索クエリの適合度と、既知の検索クエリの特徴情報とが有する特徴を学習したモデルの各種パラメータを含む。適合度予測モデル２４は、モデル構築部３２３（後述）によって、Ｗｅｂページ収集処理前に、事前学習によって各種パラメータが最適化されている。

　ホワイトリストＤＢ２５は、解析装置３の解析対象外のＷｅｂページ群が、カテゴリごとに予め設定されたホワイトリストを記憶する。図５は、ホワイトリストのデータ構成の一例を示す図である。

　ホワイトリストは、図５に示すように、ドメイン名およびＵＲＬ等の通信先情報と、カテゴリとが対応付けられ、それぞれに通番が付されたデータ構成を有する。このホワイトリストは、解析装置３の解析対象外のＷｅｂページ群が、カテゴリごとに予め設定されたものである。なお、図５では、ホワイトリストとして設定する通信先の種別として、Ｗｅｂページのドメイン名やＵＲＬを例示したが、これらの項目に限るものではない。このホワイトリストは、ホワイトリスト除外部３３３（後述）により参照される。

　制御部３０は、収集装置４全体を制御する。制御部３０は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部３０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部３０は、各種のプログラムが動作することにより各種の処理部として機能する。制御部３０は、検索クエリ生成部３１、適合度予測部３２（度合い予測部）及び解析優先度決定部３３（決定部）を有する。

　検索クエリ生成部３１は、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。

　適合度予測部３２は、検索クエリ生成部３１が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する。適合度は、生成した検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いである。

　解析優先度決定部３３は、適合度予測部３２が予測した適合度に基づいた検索順で検索クエリによるＷｅｂページの検索を実施する。そして、解析優先度決定部３３は、検索したＷｅｂページのＵＲＬに対して、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する。解析優先度は、ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である。なお、通信部１０は、解析優先度決定部３３が検索したＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置３に出力する。

［検索クエリ生成部］
　次に、検索クエリ生成部の構成について説明する。検索クエリ生成部３１は、カテゴリ入力部３１１、第１キーワード収集部３１２、第２キーワード収集部３１３及び生成部３１４を有する。

　カテゴリ入力部３１１は、デジタルデータのカテゴリの入力を受付ける。カテゴリ入力部３１１は、第１キーワードを収集するためのカテゴリを入力として許容する。第１キーワードは、カテゴリに属する任意のデジタルコンテンツ名である。

　第１キーワード収集部３１２は、予め収集先として設定されたＷｅｂサイトから、カテゴリに属する任意のデジタルコンテンツ名を第１キーワードとして収集する。第１キーワード収集部３１２は、カテゴリ入力部３１１から入力されたデジタルデータのカテゴリごとにＷｅｂページを選択する。第１キーワード収集部３１２は、カテゴリＤＢ２１を参照して、入力されたカテゴリに対応する収集先Ｗｅｂページを選択する。第１キーワード収集部３１２は、選択したＷｅｂページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第１キーワードとして抽出することによって、第１キーワードを収集する。第１キーワード収集部３１２は、第１キーワードとともに、第１キーワードの付加情報も収集する。

　図６は、図２に示す第１キーワード収集部３１２が収集した第１キーワードと付加情報とを示す図である。第１キーワード収集部３１２は、カテゴリ入力部３１１においてカテゴリが入力されると、図６に示すカテゴリごとに設定された収集先ＷｅｂページにＷｅｂアクセスを行う。そして、図３に示すように、第１キーワード収集部３１２は、Ｗｅｂアクセスを行った各Ｗｅｂページから、カテゴリに属する任意のデジタルコンテンツ名を、第１キーワードとして収集する。

　さらに、第１キーワード収集部３１２は、第１キーワードとともに付加情報を抽出する。付加情報は、図６に例示するように、第１キーワードに紐づくカテゴリ、収集先Ｗｅｂページ、順位情報である。順位情報は、購入数順位、おすすめ順位、動画の投稿日時順位、ユーザ評価による人気順位等である。付加情報は、これらの項目に限るものではない。

　具体的には、第１キーワード収集部３１２は、入力されたカテゴリが「Movie」である場合には、カテゴリ「Movie」に対応するＵＲＬ「http://movie1.example.com」（図３参照）のＷｅｂページにアクセスする。この場合、第１キーワード収集部３１２は、このＷｅｂページに映画の名称「MovieA」が掲載されている場合には、この「MovieA」を第１キーワードとして収集する（図３参照）。また、第１キーワード収集部３１２は、このＷｅｂページに含まれる付加情報を抽出する。例えば、第１キーワード収集部３１２は、このＷｅｂページから、第１キーワード「MovieA」に紐づくカテゴリ「Movie」、収集先Ｗｅｂページ「http://movie1.example.com」、順位情報「1」を、付加情報として抽出する。この付加情報は、解析優先度の算出のために用いられる場合がある。

　第１キーワード収集部３１２は、各Ｗｅｂページから第１キーワード及び付加情報を収集するためのＷｅｂページ巡回処理と文字列抽出処理として、例えば、ブラウザ操作自動化ツールや、プログラミング言語によりブラウザ操作を記述可能なＷｅｂブラウザを用いて実行する。第１キーワード収集部３１２は、他の方法を用いることもできる。また、第１キーワード収集部３１２が実行するＷｅｂページ巡回及び文字列抽出の処理手順は、Ｗｅｂページごとに予め設定される。

　第２キーワード収集部３１３は、第２キーワードを収集する。第２キーワードは、検索エンジンの検索クエリに第１キーワードが含まれる場合に、第１キーワードに付随する付随キーワードである。言い換えると、第２キーワードは、検索エンジンの検索クエリとして第１キーワードに付加されることが多い文字列である。

　第２キーワード収集部３１３は、第１キーワード収集部３１２によって収集された第１キーワードを用いて、新たな第２のキーワードを収集する。具体的には、第２キーワード収集部３１３は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第１キーワードを含む文字列を抽出し、該文字列から第１キーワード以外の文字列を第２キーワードとして抽出する。

　なお、一部の第２キーワードについては、予めカテゴリごとに求められており、既知の第２キーワードとして既知キーワードＤＢ２２に格納される。この既知の第２キーワードは、任意の第１キーワードに付加して検索すると、ユーザ操作を誘導するＷｅｂページを多く出力する文字列である。

　図７は、図２に示す第２キーワード収集部３１３が収集する第２キーワードの一例を示す図である。第２キーワード収集部３１３は、第１キーワード収集部３１２が収集した第１キーワードを用いて第２キーワードの収集を行う。前述したように第２キーワードは、検索エンジンの検索クエリとして第１キーワードに付加されることが多い文字列である。

　第２キーワード収集部３１３は、第１キーワードに付加して検索するとユーザ操作を誘導するＷｅｂページを多く出力する既知の第２キーワードを用いて、検索エンジンの検索サジェスト機能と関連検索機能による第２キーワードの抽出を行う。第２キーワード収集部３１３は、既知キーワードＤＢ２２を参照して、既知の第２キーワードを取得する。

　例えば、第２キーワード収集部３１３は、図７の通番「1」に示すように、カテゴリ「Movie」に属する第１キーワード「MovieA」に、既知の第２キーワード「free」を付加して文字列「MovieA　free」を構成する。

　続いて、第２キーワード収集部３１３は、文字列「MovieA　free」を検索サジェスト機能に入力し、検索サジェスト機能から出力された文字列「MovieA　free　download」を得る。第２キーワード収集部３１３は、出力された文字列「MovieA　free　download」のうち新たに得られた文字列「download」を、カテゴリ「Movie」に属する第２キーワードとして抽出する。なお、第２キーワードは図７に示すものに限らず、また、その抽出方法も他の方法を適用可能である。

　生成部３１４は、第１キーワードと第２キーワードとを組み合わせて検索クエリを生成する。生成部３１４は、第１キーワード収集部３１２が収集した第１キーワードと、第２キーワード収集部３１３が収集した第２キーワードとを組み合わせて、検索クエリを生成する。生成部３１４は、生成した検索クエリを、適合度予測部３２に出力する。

　図８は、図２に示す生成部３１４が生成した検索クエリの一例を示す図である。生成部３１４は、第１キーワードと、該第１キーワードとカテゴリが一致する既知の第２キーワードとを連結して検索クエリを構成する。または、生成部３１４は、第１キーワードと、該第１キーワードを用いて収集した第２キーワードとを連結して検索クエリを構成する。

　例えば、生成部３１４は、第１キーワード「MovieA」と、該第１キーワード「MovieA」と同カテゴリ「Movie」である既知の第２キーワード「free」とを連結して、検索クエリ「MovieA　free」を生成する（図８の通番「1」参照）。また、生成部３１４は、第１キーワード「MovieA」と、該第１キーワード「MovieA」と同カテゴリ「Movie」である既知の第２キーワード「free」と、第２キーワード収集部３１３が収集した第２キーワード「download」を連結して、検索クエリ「MovieA　free　download」を生成する（図８の通番「2」参照）。

　生成部３１４は、第１キーワードと、該第１キーワードとカテゴリが異なる既知の第２キーワード、または、収集した第２キーワードとを連結して検索クエリを構成してもよい。なお、第１キーワードと第２キーワードとの組み合わせは、図８に示したものに限るものではない。

［適合度予測部］
　次に、適合度予測部３２の構成について説明する。適合度予測部３２は、適合度取得部３２１、特徴情報抽出部３２２、モデル構築部３２３及び予測部３２４を有する。

　適合度取得部３２１は、検索結果が既知である検索クエリの適合度を取得する。適合度取得部３２１は、既知検索クエリＤＢ２３を参照して、検索結果が既知である検索クエリの適合度を取得する。また、既知検索クエリＤＢ２３が、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するＷｅｂページの集合とが対応付けて記憶する場合には、適合度取得部３２１は、既知検索クエリＤＢ２３から、適合度取得対象の検索クエリのデータを取得し、（１）式を用いて適合度を算出して、適合度を取得する。適合度取得部３２１は、（１）式に限らず、他の演算式を用いて適合度を算出してもよい。

　特徴情報抽出部３２２は、検索クエリの特徴情報を抽出する。特徴情報抽出部３２２は、検索結果が既知である検索クエリの特徴情報を抽出する。また、検索クエリ生成部３１が生成した検索クエリの特徴情報を抽出する。検索クエリの特徴情報は、例えば、検索クエリを構成する文字列が属するカテゴリ、検索クエリ全他の単語数や文字数などがある。

　図９は、図２に示す特徴情報抽出部３２２が抽出する検索クエリの特徴情報の一例を示す図である。検索クエリの特徴情報は、例えば、図９の各項目に示すように、検索クエリ生成部３１が検索クエリの生成に使用した第１のキーワードの付加情報である順位やカテゴリ、第２キーワードの個数（第２キーワード数）、Ｂａｇ　ｏｆ　Ｗｏｒｄｓモデル、検索クエリ全体の単語数、或いは、文字数が考えられる。検索情報特徴情報は、図９に示す項目に限るものではない。

　特徴情報抽出部３２２が、検索クエリ生成部３１が生成した検索クエリのうち、例えば、検索クエリ「MovieA　free」から特徴情報を抽出する場合について説明する。この場合、特徴情報抽出部３２２は、検索クエリ「MovieA　free」に、「free」が１回出現するため、Ｂａｇ　ｏｆ　Ｗｏｒｄｓモデルの「free」欄に対応する特徴情報として「1」を抽出する。続いて、特徴情報抽出部３２２は、検索クエリ「MovieA　free」に既知の第２キーワード「free」があるため、第２キーワード数の対応する特徴情報として「1」を抽出する。特徴情報抽出部３２２は、検索クエリ「MovieA　free」の単語数「2」、文字数「1」を抽出する。さらに、特徴情報抽出部３２２は、検索クエリ「MovieA　free」のうちの第１のキーワード「MovieA」の付加情報から順位「1」を抽出し、カテゴリとして「Movie」を抽出する。

　モデル構築部３２３は、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル２４に学習させる。検索結果が既知である検索クエリの適合度は、適合度取得部３２１が取得した物である。検索結果が既知である検索クエリの特徴情報は、特徴情報抽出部３２２が、検索結果が既知である検索クエリから抽出したものである。なお、適合度予測モデル２４は、記憶部２０に記憶されている。

　モデル構築部３２３は、例えば、教師あり機械学習手法を採用し、検索結果が既知である検索クエリの特徴情報及び適合度を教師データとして、適合度予測モデル２４に学習させる。なお、適用可能な教師あり機械学習手法として、サポートベクターマシンやランダムフォレストがあるが、これらの手法に限るものではない。

　予測部３２４は、検索クエリ生成部３１が生成した検索クエリの特徴情報を用いて、検索クエリ生成部３１が生成した検索クエリの適合度を予測する。予測部３２４は、適合度予測モデル２３に、検索クエリ生成部３１が生成した検索クエリの特徴情報を入力し、適合度予測モデル２３が出力した検索クエリの適合度を取得する。

［解析優先度決定部］
　次に、解析優先度決定部３３の構成について説明する。解析優先度決定部３３は、検索順決定部３３１、検索実施部３３２、ホワイトリスト除外部３３３及び解析優先度算出部３３４を有する。

　検索順決定部３３１は、適合度予測部３２が予測した適合度に基づいて検索クエリ生成部１１が生成した検索クエリの検索順を決定する。検索順決定部３３１は、適合度予測部３２が予測した適合度を用いて、検索クエリ生成部１１が生成した検索クエリのうち、検索実施部３３２が実施する検索に使用する検索クエリと、その検索順を決定する。例えば、検索順決定部３１は、検索クエリ生成部１１が生成した検索クエリから、予め設定した適合度の閾値を超える検索クエリを抽出し、該抽出した検索クエリに対し、適合度が高い順に検索されるように検索順を決定する。

　検索実施部３３２は、検索順決定部３３１が決定した検索順で検索クエリによるＷｅｂページの検索を実施する。そして、検索実施部３３２は、検索クエリを用いた検索結果として、ＷｅｂページのＵＲＬを抽出する。

　ホワイトリスト除外部３３３は、予めカテゴリごとに求められたＵＲＬであって解析装置３における解析対象外のＷｅｂページのＵＲＬを、検索実施部３３２が検索したＷｅｂページのＵＲＬから除外する。解析対象外のＷｅｂページのＵＲＬは、ホワイトリストＤＢ２５が記憶するホワイトリストに予め示されている。ホワイトリスト除外部３３３は、ホワイトリストＤＢ２５のホワイトリストを参照して、解析対象外のＷｅｂページのＵＲＬを、検索実施部３３２が検索したＷｅｂページのＵＲＬから除外する。

　解析優先度算出部３３４は、ホワイトリスト除外部３３３による除外後のＵＲＬについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出する。この除外後のＵＲＬと、該ＵＲＬの解析優先度は、通信部１０から、解析装置３に出力される。例えば、通信部１０からは、解析優先度が高い順に、ＵＲＬが出力される。解析装置３では、このＵＲＬの解析優先度を、ユーザ操作を誘導するＷｅｂページを優先的に解析するための指標として用いることによって、解析の効率化を図る。

　具体的に、解析優先度の算出方法について説明する。解析優先度算出部３３４は、除外後のＵＲＬに対し、検索エンジンの出力結果の集合、ＵＲＬの検索時の検索クエリの検索順位、及び、このＵＲＬの検索時の検索クエリの適合度を、（２）式に適用して、解析優先度を算出する。なお、検索クエリの適合度は、適合度予測部３２によって予測される。また、ＵＲＬの検索順位は、検索順決定部３３１によって、適合度予測部３２が予測した適合度を基に決定される。

　図１０は、図２に示す解析優先度算出部３３４が算出したＵＲＬに対する解析優先度の一例を示す図である。図１０には、ホワイトリスト除外部３３３から出力されたＵＲＬに対する解析優先度の一例を示す。

　図１０に示すように、解析優先度算出部３３４は、（２）式を用いて、ＵＲＬ「http://movie.example.com/」の解析優先度を「0.9」と算出する。また、解析優先度算出部３３４は、（２）式を用いて、ＵＲＬ「http://game.example.com/」の解析優先度を「0.8」と算出する。通信部１０は、図１０に示すＵＲＬと該ＵＲＬの解析優先度とを対応付けたデータを、収集したＵＲＬを示すデータとして解析装置３に出力する。

　なお、解析優先度算出部３３４は、（２）式に限らず、他の方法を用いて解析優先度を算出してもよい。例えば、解析優先度算出部３３４は、(３)式を用いて、第１キーワードの付加情報である第１キーワード順位を用いて、解析優先度を算出してもよい。

［適合度予測モデルの構築処理の処理手順］
　次に、適合度予測モデルの構築処理について説明する。図１１は、図２に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。

　まず、適合度取得部３２１は、既知検索クエリＤＢ２３を参照して、検索結果が既知である検索クエリを取得する（ステップＳ１）とともに、既知である検索クエリの適合度を算出する（ステップＳ２）。特徴情報抽出部３２２は、適合度取得部３２１が取得した、検索結果が既知である検索クエリの特徴情報を取得する（ステップＳ３）。

　モデル構築部３２３は、教師あり機械学習を適用して（ステップＳ４）、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル２４に学習させる。そして、モデル構築部３２３は、学習により各種パラメータが最適化された適合度予測モデル２４を更新し（ステップＳ５）、適合度予測モデルの構築処理を終了する。この処理は、少なくとも、Ｗｅｂページ収集処理前に実行される。また、この処理は、Ｗｅｂページの収集処理と並行して実行されてもよい。

［Ｗｅｂページの収集処理の処理手順］
　次に、収集装置４が実行するＷｅｂページの収集処理の処理手順について説明する。図１２は、図２に示す収集装置４が実行するＷｅｂページの収集処理の処理手順を示すフローチャートである。

　図１２に示すように、収集装置４では、検索クエリ生成部３１が、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成処理を行う（ステップＳ１１）。そして、適合度予測部３２が、検索クエリ生成部３１が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する適合度予測処理を行う（ステップＳ１２）。

　続いて、解析優先度決定部３３が、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する解析優先度決定処理を行う（ステップＳ１３）。通信部１０は、解析優先度決定部３３が検索したＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて解析装置３に出力する出力処理を行って（ステップＳ１４）、処理を終了する。

［検索クエリ生成処理の処理手順］
　次に、検索クエリ生成処理（ステップＳ１１）の処理手順について説明する。図１３は、図１２に示す検索クエリ生成処理の処理手順を示すフローチャートである。

　図１３に示すように、検索クエリ生成部１１では、まず、カテゴリ入力部３１１が、デジタルデータのカテゴリの入力を受付ける（ステップＳ２１）。続いて、第１キーワード収集部３１２は、入力されたカテゴリごとに予め設定されたＵＲＬ群を収取先ＷｅｂページのＵＲＬとして、収集先Ｗｅｂページにアクセスし、カテゴリに属する任意のデジタルコンテンツ名を第１キーワードとして収集する第１キーワード収集処理を行う（ステップＳ２２）。この際、第１キーワード収集部３１２は、収集先Ｗｅｂページにアクセスし、Ｗｅｂブラウザの操作を記述可能なソフトウェアを用いてＷｅｂブラウザを自動操作し、予め設定されたＷｅｂページ巡回処理や文字列抽出処理に基づき、図３に示すような第１キーワードとその付加情報を抽出する。

　そして、第２キーワード収集部３１３は、第２キーワードを収集する第２キーワード収集処理を行う（ステップＳ２３）。第２キーワードは、前述したように、検索エンジンの検索クエリに第１キーワードが含まれる場合に、第１キーワードに付随する付随キーワードである。

　続いて、生成部３１４は、第１キーワードと第２キーワードとを組み合わせて検索クエリを生成する検索クエリ生成処理を行う（ステップＳ２４）。検索クエリ生成部３１は、生成部３１４が生成した検索クエリを適合度予測部３２に出力して（ステップＳ２５）、検索クエリ生成処理を終了する。

［適合度予測処理の処理手順］
　次に、適合度予測処理（ステップＳ１２）の処理手順について説明する。図１４は、図１２に示す適合度予測処理の処理手順を示すフローチャートである。

　図１４に示すように、適合度予測部３２では、特徴情報抽出部３２２が、検索クエリ生成部３１が生成した検索クエリの特徴情報を抽出する（ステップＳ３１）。予測部３２４は、適合度予測モデルに、特徴情報抽出部３２２が抽出した検索クエリの特徴情報を入力して（ステップＳ３２）、適合度予測モデル２４が出力した検索クエリの適合度を取得する適合度予測処理を行う（ステップＳ３３）。適合度予測部３２は、検索クエリと、該検索クエリに対して予測部３２４が予測した適合度とを対応付けて、解析優先度決定部３３に出力して（ステップＳ３４）、処理を終了する。

［解析優先度決定処理の処理手順］
　次に、解析優先度決定処理（ステップＳ１３）の処理手順について説明する。図１５は、図１２に示す解析優先度決定処理の処理手順を示すフローチャートである。

　図１５に示すように、解析優先度決定部３３では、検索順決定部３３１は、適合度予測部３２が予測した適合度に基づいて検索クエリ生成部３１が生成した検索クエリの検索順を決定する（ステップＳ４１）。検索実施部３３２は、検索順決定部３３１が決定した検索順で検索クエリによるＷｅｂページの検索を実施する（ステップＳ４２）。

　そして、ホワイトリスト除外部３３３は、ホワイトリストに示された解析対象外のＷｅｂページのＵＲＬを、検索実施部３３２が検索したＷｅｂページのＵＲＬから除外する（ステップＳ４３）。続いて、解析優先度算出部３３４は、ホワイトリスト除外部３３３による除外後のＵＲＬについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出し（ステップＳ４４）、処理を終了する。

［実施の形態の効果］
　このように、本実施の形態に係る収集装置４では、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。そして、収集装置４では、生成された検索クエリの特徴情報を基に、生成された検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いである適合度を予測する。そして、収集装置４では、予測された適合度に基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、検索したＷｅｂページのＵＲＬに対して、検索クエリの適合度と検索結果情報とを基に、ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である解析優先度を決定する。さらに、収集装置４では、検索されたＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置３に出力する。

　したがって、本実施の形態によれば、デジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、ユーザ操作を誘導するＷｅｂページを検索結果に出力する検索クエリを生成している。そして、本実施の形態によれば、生成された検索クエリの特徴情報を基に、この検索クエリの適合度を予測することによって、ユーザ操作をマルウェア感染に誘導するＷｅｂページが検索結果に出力される検索クエリを優先的に抽出することができる。また、本実施の形態によれば、予測された適合度に基づいた検索順で検索クエリによるＷｅｂページの検索を実施することによって、検索クエリでの検索を効率的に行うことができる。そして、本実施の形態によれば、優先的に抽出した検索クエリで検索した検索結果のＷｅｂページに対し、解析優先度を決定することによって、解析装置３において、ユーザ操作をマルウェア感染に誘導するＷｅｂページのＵＲＬを優先的に解析するための指標にすることができ、効率的な解析を実現することができる。

　以上のように、本実施の形態によれば、ユーザ操作をマルウェア感染に誘導するＷｅｂページのＵＲＬを効率的に収集できる。

　また、本実施の形態に係る収集装置４では、検索クエリ生成部３１は、デジタルデータのカテゴリの入力を受付けると、該カテゴリに属する任意のデジタルコンテンツ名を第１キーワードとして収集する。この場合、検索クエリ生成部３１は、デジタルデータのカテゴリごとにＷｅｂページを選択し、該選択したＷｅｂページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第１キーワードとして抽出する。したがって、本実施の形態によれば、第１キーワードを効率よく抽出することができる。

　そして、検索クエリ生成部３１は、検索エンジンの検索クエリに第１キーワードが含まれる場合に、第１キーワードに付随する付随キーワードを第２キーワードとして収集する。この場合、検索クエリ生成部３１は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第１キーワードを含む文字列を抽出し、該文字列から第１キーワード以外の文字列を第２キーワードとして抽出する。したがって、本実施の形態によれば、ユーザ操作を誘導するＷｅｂページに到達するユーザが、検索クエリとして選択する第１キーワードと第２キーワードとを効率的に収集することができる。

　また、検索クエリ生成部３１は、第１キーワードと第２キーワードとを組み合わせて検索クエリを生成する。このため、本実施の形態によれば、ユーザ操作を誘導するＷｅｂページを検索結果に出力する検索クエリを優先的に生成することができる。

　そして、本実施の形態に係る収集装置４では、適合度予測部３２は、ユーザ操作を誘導するＷｅｂページを検索結果に含む既知の検索クエリと、ユーザ操作を誘導するＷｅｂページを検索結果に含まない既知の検索クエリとにおける特徴情報及び適合度を、適合度予測モデル２４に学習させる。そして、適合度予測部３２は、この適合度予測モデル２４を用いて、検索クエリ生成部３１が生成した検索クエリの特徴情報を基に該検索クエリの適合度を予測する。

　このため、本実施の形態によれば、この適合度予測モデル２４を用いることによって、検索クエリ生成部３１が生成した検索クエリの適合度を適切に予測することができる。また、適合度は、ユーザ操作を誘導するＷｅｂページを検索結果に出力する検索クエリを効率的に選出する指標である。このため、本実施の形態によれば、後段の解析優先度決定部３３において、適切かつ効率的にユーザ操作を誘導するＷｅｂページを収集することができる。

　本実施の形態に係る収集装置４では、解析優先度決定部３３は、予測された適合度に基づいた検索順で検索クエリによるＷｅｂページの検索を実施する。その後、解析優先度決定部３３は、解析装置３における解析対象外のホワイトリストのＷｅｂページのＵＲＬを、検索したＷｅｂページのＵＲＬから除外することによって、解析対象外のＷｅｂページを解析するコストを削減している。

　そして、解析優先度決定部３３は、除外後のＵＲＬについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出している。この解析優先度は、解析装置３において、Ｗｅｂページを解析する際に、ユーザ操作を誘導する攻撃の起点となる可能性の高いＷｅｂページを効率的に選出する指標であり、解析装置３における効率的な解析を実現することができる。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１６は、プログラムが実行されることにより、収集装置４が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、収集装置４の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、収集装置４における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１　解析システム
　２　ネットワーク
　３　解析装置
　４　収集装置
　１０　通信部
　２０　記憶部
　２１　カテゴリＤＢ
　２２　既知キーワードＤＢ
　２３　既知検索クエリＤＢ
　２４　適合度予測モデル
　２５　ホワイトリストＤＢ
　３０　制御部
　３１　検索クエリ生成部
　３２　適合度予測部
　３３　解析優先度決定部
　３１１　カテゴリ入力部
　３１２　第１キーワード収集部
　３１３　第２キーワード収集部
　３１４　生成部
　３２１　適合度取得部
　３２２　特徴情報抽出部
　３２３　モデル構築部
　３２４　予測部
　３３１　検索順決定部
　３３２　検索実施部
　３３３　ホワイトリスト除外部
　３３４　解析優先度算出部

Claims

　ＷｅｂページのＵＲＬ（Uniform　Resource　Locator）を収集する収集装置であって、
　デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、
　前記検索クエリ生成部が生成した検索クエリの特徴情報を基に、前記生成した検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いを予測する度合い予測部と、
　前記度合い予測部が予測した前記度合いに基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、検索したＷｅｂページのＵＲＬに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、
　前記決定部が検索したＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置に出力する出力部と、
　を有することを特徴とする収集装置。
　前記検索クエリ生成部は、
　デジタルデータのカテゴリの入力を受付けるカテゴリ入力部と、
　前記カテゴリに属する任意のデジタルコンテンツ名を第１キーワードとして収集する第１キーワード収集部と、
　検索エンジンの検索クエリに前記第１キーワードが含まれる場合に、前記第１キーワードに付随する付随キーワードを第２キーワードとして収集する第２キーワード収集部と、
　前記第１キーワードと前記第２キーワードとを組み合わせて前記検索クエリを生成する生成部と、
　を有することを特徴とする請求項１に記載の収集装置。
　前記第１キーワード収集部は、前記デジタルデータのカテゴリごとにＷｅｂページを選択し、該選択したＷｅｂページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第１キーワードとして抽出し、
　前記第２キーワード収集部は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて前記第１キーワードを含む文字列を抽出し、該文字列から前記第１キーワード以外の文字列を前記第２キーワードとして抽出することを特徴とする請求項２に記載の収集装置。
　前記度合い予測部は、
　前記ユーザ操作を誘導するＷｅｂページを検索結果に含む既知の検索クエリと、前記ユーザ操作を誘導するＷｅｂページを検索結果に含まない既知の検索クエリとにおける前記特徴情報及び前記度合いを、予測モデルに学習させるモデル構築部と、
　前記予測モデルを用いて、前記検索クエリ生成部が生成した検索クエリの特徴情報を基に該検索クエリの前記度合いを予測する予測部と、
　を有することを特徴とする請求項１に記載の収集装置。
　前記決定部は、
　前記度合い予測部が予測した前記度合いに基づいて前記検索クエリ生成部が生成した検索クエリの検索順を決定する検索順決定部と、
　前記検索順決定部が決定した検索順で前記検索クエリによるＷｅｂページの検索を実施する検索実施部と、
　予めカテゴリごとに求められたＵＲＬであって前記解析装置における解析対象外のＷｅｂページのＵＲＬを、前記検索実施部が検索したＷｅｂページのＵＲＬから除外する除外部と、
　前記除外部による除外後のＵＲＬについて、前記検索クエリの度合いと前記検索クエリの検索順位と前記検索結果情報とを基に前記解析優先度を算出する解析優先度算出部と、
　を有することを特徴とする請求項１に記載の収集装置。
　ＷｅｂページのＵＲＬ（Uniform　Resource　Locator）を収集する収集装置が実行する収集方法であって、
　デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する工程と、
　生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いでを予測する工程と、
　予測された前記度合いに基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、検索したＷｅｂページのＵＲＬに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である解析優先度を決定する工程と、
　前記決定する工程において検索されたＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置に出力する工程と、
　を含んだことを特徴とする収集方法。
　デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成するステップと、
　生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するＷｅｂページを検索結果として出力する度合いを予測するステップと、
　予測された前記度合いに基づいた検索順で検索クエリによるＷｅｂページの検索を実施し、検索したＷｅｂページのＵＲＬ（Uniform　Resource　Locator）に対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するＷｅｂページであるか否かを解析する際の優先度である解析優先度を決定するステップと、
　前記決定するステップにおいて検索されたＷｅｂページのＵＲＬと、該ＵＲＬの解析優先度とを対応付けて、解析装置に出力するステップと、
　をコンピュータに実行させるための収集プログラム。