WO2011052116A1

WO2011052116A1 - ウェブクローリング初期点選択システム、方法及びプログラム

Info

Publication number: WO2011052116A1
Application number: PCT/JP2010/004738
Authority: WO
Inventors: 中山裕貴; 門馬道也; 森永聡
Original assignee: 日本電気株式会社
Priority date: 2009-10-28
Filing date: 2010-07-26
Publication date: 2011-05-05

Abstract

　グラフ構成手段は、指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとそのウェブデータの重みとを含むグラフである重み付き有向グラフを構成する。初期点選択手段は、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則に基づいて、スコアがより大きいウェブデータを初期点として選択する。クローリング深度決定手段は、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則に基づいて、ウェブデータをクローリングする初期点からの深さを決定する。

Description

ウェブクローリング初期点選択システム、方法及びプログラム

　本発明は、ウェブクローリング初期点選択システム、ウェブクローリング初期点選択方法及びウェブクローリング初期点選択プログラムに関し、特にユーザの興味を反映して単数または複数のクローリングの初期点を求めるウェブクローリング初期点選択システム、ウェブクローリング初期点選択方法及びウェブクローリング初期点選択プログラムに関する。

　一般的なトピック特化型ウェブクローリングは、前もって決定されたウェブページの初期点からクローリングを開始し、探索の幅を拡げながら、特定のトピックに適合したウェブページを選択的に収集する。例えば、非特許文献１には、フォーカスドクローラについて記載されている。非特許文献１に記載されたフォーカスドクローラは、関連するページ同士はリンクで繋がっている可能性が高いとする考え方をもとに、ウェブページを収集する。

　非特許文献１に記載されたフォーカスドクローラのように、ウェブクローリングを行うシステムでは、一般的にウェブデータを保存する記憶装置と、ウェブページのトピックに対する適合度を計算し、その適合度に基づきクローリングを行うページの優先度を定める計算装置と、クローリングされたページを記憶装置に保存する保存手段（装置）から構成される。

　具体的には、記憶装置がクローリングにより得られたウェブページを保存する。計算装置は、与えられたトピックと、クローリングを行ったウェブページのトピックに対する適合度を計算し、そのウェブページからハイパーリンクが貼られているウェブページを待ち行列の適切な位置に挿入する。保存手段は、クローリングが行われたページのコンテンツを、メタデータとともに記憶装置に保存する。

　一方、ウェブクローリングが行われる探索の深さを固定し、ウェブクローリングの初期点となるウェブページを選択するアプローチも存在する。この場合、選択された単数または複数の初期点から、その深さ内のすべてのウェブページが探索範囲とされ、その範囲内でクローリングした結果が記憶装置等に保存される。例えば、非特許文献２には、Graph Based Crawler Seed Selectionについて記載されている。非特許文献２に記載されたGraph Based Crawler Seed Selectionでは、予め定められたホップ（深さ）ｈの範囲内で、ページのスコアの和が最大になる点ｓを初期点として決定し、ウェブクローリングを行う。

S.Chakrabarti, M.Berg and B.Dom著、"Focused crawling: A new approach for topic-specific resource discovery"、" Computer Networks (First appeared in Proceedings of the 8th World Wide Web Conference)、"Elsevier Science"、1999/5/17、第31巻、pp.1623-1640 S.Zheng, P.Dmitriev and C.L.Giles著、"Graph Based Crawler Seed Selection"、"Proceedings of the 18th World Wide Web Conference"、"ACM New York"、（米国）、2009/4/22、pp.1089-1090

　一般的なトピック特化型ウェブクローリングシステムでは、初期点を決定する際に、ウェブページの初期点が前もって決定され、トピックとの適合度が考慮されていない。そのため、前もって決定された初期点やその付近に、トピックとの適合度が高いウェブページが存在することは保証されず、初期点を効率的に選択できるとは言い難い。

　非特許文献１に記載されたフォーカスドクローラでは、初期点がランダムに選択されてウェブクローリングが行われる。この場合も、ランダムに選択された初期点やその付近に、トピックとの適合度が高いウェブページが存在することは保証されていない。したがって、この場合も、ユーザの要求するトピックとの適合度が高いウェブページを効率的に収集することが出来ないという課題がある。

　一方、初期点から予め定められた探索の深さまでに存在するウェブページがどの程度トピックに適合するかを考慮することで、トピックとの適合度が高い初期点を決定することはある程度可能である。しかし、一般的なトピック特化型ウェブクローリングシステムや、クローリング初期点の自動決定システムを用いたクローリングでは、クローラが取得可能なウェブページの数に制約があると、探索の深さを条件に加味したクローリングを行うことは困難である。

　また、非特許文献２に記載されたGraph Based Crawler Seed Selectionでは、ホップ（深さ）ｈが大きくなった場合、初期点からｈホップ以内に存在するウェブページの個数は膨大なものになる。そのため、不要な（トピックとの適合度が低い）ウェブページを大量に収集してしまうという課題がある。

　そこで、本発明は、ユーザの興味を反映したウェブページをクローリングするための初期点を効率的に選択できるクローリング初期点選択システム、ウェブクローリング初期点選択方法及びウェブクローリング初期点選択プログラムを提供することを目的とする。

　本発明によるウェブクローリング初期点選択システムは、指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとそのウェブデータの重みとを含むグラフである重み付き有向グラフを構成するグラフ構成手段と、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点としてスコアがより大きいウェブデータを選択する初期点選択手段と、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする初期点からの深さを決定するクローリング深度決定手段とを備えたことを特徴とする。

　本発明によるウェブクローリング初期点選択方法は、指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとウェブデータの重みとを含むグラフである重み付き有向グラフを構成し、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点としてスコアがより大きいウェブデータを選択し、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする初期点からの深さを決定することを特徴とする。

　本発明によるウェブクローリング初期点選択プログラムは、コンピュータに、指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとそのウェブデータの重みとを含むグラフである重み付き有向グラフを構成するグラフ構成処理、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点としてスコアがより大きいウェブデータを選択する初期点選択処理、および、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする初期点からの深さを決定するクローリング深度決定処理を実行させることを特徴とする。

　本発明によれば、ユーザの興味を反映したウェブページをクローリングするための初期点を効率的に選択できる。

本発明の第１の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。第１の実施形態における動作の例を示すフローチャートである。第１の実施形態で行われる処理の例を説明する説明図である。重み付き有向グラフの例を示す説明図である。本発明の第２の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。第２の実施形態における動作の例を示すフローチャートである。第２の実施形態で行われる処理の例を説明する説明図である。本発明の第３の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。本発明によるウェブクローリング初期点選択システムの最小構成例を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明の第１の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。本実施形態におけるウェブクローリング初期点選択システムは、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置などの出力装置４とを備えている。

　記憶装置３は、カテゴリ辞書記憶部３１と、ウェブデータ記憶部３２とを備えている。ウェブデータ記憶部３２は、過去のクローリングにより得られたウェブデータを、そのデータのメタデータとともに予め記憶する。カテゴリ辞書記憶部３１は、カテゴリを見出し語として、そのカテゴリに含まれる単語をそのカテゴリの情報として予め記憶する。具体的には、カテゴリ辞書記憶部３１は、カテゴリに関連する他のカテゴリを対応付けて記憶する。そして、カテゴリ辞書記憶部３１は、各カテゴリに属する単語も合わせて記憶する。

　カテゴリ辞書記憶部３１が記憶するカテゴリの例として、例えば、「政治」、「経済」、「趣味」、「政令指定都市」等が挙げられる。また、カテゴリが「政令指定都市」の場合、そのカテゴリには、例えば「川崎市」などの単語が含まれる。また、カテゴリ辞書記憶部３１は、カテゴリを階層的に記憶していてもよい。例えば、カテゴリとして「コンピュータ」を記憶している場合、「コンピュータ」の下位層に「ソフトウェア」や「ハードウェア」といったカテゴリを記憶してもよい。以下、階層関係や包含関係など、関連性を有するカテゴリを関連カテゴリと記すこともある。なお、カテゴリ辞書記憶部３１及びウェブデータ記憶部３２は、記憶装置３が備える磁気ディスク装置等によって実現される。

　データ処理装置２は、ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２３とを備えている。ユーザ興味拡張手段２１は、入力装置１から入力されたユーザの興味をキーにして、カテゴリ辞書記憶部３１に記憶された関連カテゴリの集合を探索して検索する。すなわち、ユーザ興味拡張手段２１は、ユーザの興味として指定されたカテゴリの関連カテゴリを抽出する。例えば、カテゴリ辞書記憶部３１が、親子関係を有する木構造でカテゴリを記憶しているものとし、カテゴリ「コンピュータ」が子カテゴリ「ソフトウェア」及び「ハードウェア」を有しているものとする。このとき、ユーザの興味として「コンピュータ」が入力されると、ユーザ興味拡張手段２１は、木を辿るように「コンピュータ」の関連カテゴリとしてカテゴリの子孫に該当するカテゴリ「ソフトウェア」及び「ハードウェア」を抽出する。そして、ユーザ興味拡張手段２１は、抽出した「ソフトウェア」及び「ハードウェア」を、入力された「コンピュータ」と合わせて、ユーザの興味とする。このように、ユーザ興味拡張手段２１は、入力されたユーザの興味に関する情報をもとに、その情報に関連するカテゴリにまでユーザの興味を拡張していると言える。

　重み付きグラフ構成手段２２は、ユーザ興味拡張手段２１が拡張したユーザの興味をキーにして、ウェブデータ記憶部３２に記憶されたウェブデータのスコアリングを行い、重み付き有向グラフを構成する。以下、この重み付き有向グラフを符号Ｇを用いて表す。ここで、重み付き有向グラフＧとは、拡張されたユーザの興味に該当するウェブデータ間の向きを有するリンク情報（以下、有向リンクと記す。）と、それらのウェブデータの重みとを含む情報である。以下、重み付き有向グラフＧは、点（ウェブデータ）の集合Ｖ、辺（ウェブデータ間のリンク構造）の集合Ｅ、Ｖから実数への写像ｗ：Ｖ→Ｒ、及び、Ｅの元（げん）一つに対し、Ｖの二つの元（げん）を対応させる写像ｆ：Ｅ→Ｖ×Ｖの四つ組Ｇ：＝（ｆ，ｗ，Ｖ，Ｅ）により構成されるものとする。

　具体的には、重み付きグラフ構成手段２２は、拡張されたユーザの興味に該当するウェブデータをウェブデータ記憶部３２から抽出する。例えば、重み付きグラフ構成手段２２は、ユーザの興味としてカテゴリ「政令指定都市」が入力されたときに、そのカテゴリに含まれる単語「川崎市」が含まれるウェブデータを抽出してもよい。なお、入力されたキーワードに該当するウェブデータを抽出する方法は広く知られているため、詳細な説明は省略する。なお、ここで抽出されたウェブデータが点の集合Ｖに相当し、これらウェブデータのリンク関係を表す情報が、辺の集合Ｅ及び写像ｆに相当する。また、点の集合Ｖ、辺の集合Ｅ及び写像ｆは、ウェブデータ記憶部３２にあらかじめ記憶された情報である。

　そして、重み付きグラフ構成手段２２は、ユーザの興味に合致しているほどウェブデータの重みを高く算出するスコアリング方法を用いて、抽出された各ウェブデータに対する重みを算出する。すなわち、重み付きグラフ構成手段２２は、指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出する。例えば、カテゴリには、そのカテゴリに属する単語の集合が割り当てられている。そこで、重み付きグラフ構成手段２２は、ウェブデータのテキストを走査し、ユーザ興味拡張手段２１が抽出したカテゴリに属する単語がウェブデータ中に出現している場合、その出現頻度に応じてウェブデータの重みを増加させてもよい。なお、カテゴリに属する単語がユーザの興味として入力された場合、重み付きグラフ構成手段２２は、その単語の出現頻度に応じてウェブデータの重みを増加させてもよい。

　以下、具体例を用いて、重み付きグラフ構成手段２２がウェブデータに対する重みを算出する方法について説明する。例えば、ユーザ興味拡張手段２１により得られたカテゴリの集合が、「路線」、「都市」、「政令指定都市」であり、ウェブデータのテキストが「私は南武線で川崎市に行った。」であるものとする。このとき、「南武線」という単語が、カテゴリ「路線」に含まれており、「川崎市」という単語が、カテゴリ「政令指定都市」に含まれている場合、重み付きグラフ構成手段２２は、ウェブデータの重みを増加させる。例えば、最も簡単な例として、出現頻度を重みとする場合、重み付きグラフ構成手段２２は、このウェブデータの重みを「２」に増加させる。

　上記具体例では、重み付きグラフ構成手段２２が、カテゴリに属する単語の出現頻度をもとにウェブデータの重みを増加させる場合について説明した。ただし、重み付きグラフ構成手段２２が、ウェブデータの重みを算出する方法は、カテゴリに属する単語の出現頻度を利用する方法に限定されない。重み付きグラフ構成手段２２は、ユーザの興味に合致しているほどウェブデータの重みを高く算出する他の算出方法を用いて、抽出された各ウェブデータに対する重みを算出してもよい。なお、ここでウェブデータに対する重みを算出する方法（規則）が、重み付き有向グラフにおける写像ｗに相当する。

　初期点集合決定手段２３は、重み付きグラフ構成手段２２で構成された重み付き有向グラフをもとに、点の集合Ｖの部分集合である単数または複数の初期点（ウェブクローリングを開始するウェブデータ）を、その初期点から探索を行う深さとともに決定し、出力装置４にその結果を出力させる。なお、以下の説明で、初期点からの深さとは、初期点になるウェブデータから他のウェブデータまで最短経路を辿った場合に経由するリンクの数を意味する。

　まず、初期点集合決定手段２３は、ウェブデータとそのウェブデータにリンクされている他のウェブデータの重みが高いほどスコアを高く算出する規則に基づいて、対象のウェブデータ（点の集合Ｖ）のうち、ウェブクローリングの対象になっていないウェブデータの中から、スコアが最大になるウェブページを初期点として選択する。以下、このように算出されたスコアを、ウェブスコアと記す。例えば、初期点集合決定手段２３は、以下の式１に基づいてウェブスコアを算出し、ウェブスコアが最大になる初期点を選択してもよい。

　ここで、γは定数、ｗ（ｓ）は点ｓの重み、Ａ（ｓ，１）は、点ｓからの最短経路の距離が１である（すなわち、点ｓからリンクしている）重み付き有向グラフ中の点の集合、｜Ａ（ｓ，１）｜は、Ａ（ｓ，１）に属する点の個数を表す。なお、γは、初期点の重みと、初期点にリンクする他のウェブデータとの間に生じさせる重み付けの程度の差異に応じて定められる値である。このように、初期点集合決定手段２３は、重み付き有向グラフＧをもとに、式１により算出されるスコアがより大きいウェブデータを初期点として選択する。

　次に、初期点集合決定手段２３は、ウェブデータの探索を行う初期点からの深さを深くし、ウェブデータの数が多くなるほどスコアを低く算出する規則に基づいて、既に選択された初期点からある深さに存在するウェブデータの数をもとに、その深さにおけるスコアを算出する。以下、このように算出されたスコアを、探索深度スコアと記す。例えば、初期点集合決定手段２３は、以下の式２に基づいて探索深度スコアを算出してもよい。

　ここで、ｗ（ｓ）は点ｓの重み、ｄは点ｓからの最短距離、Ａ（ｓ，ｄ＋１）は、点ｓからの最短経路の距離がｄ＋１である重み付き有向グラフ中の点の集合、｜Ａ（ｓ，ｄ＋１）｜は、集合Ａ（ｓ，ｄ＋１）に属する点の数を表す。

　そして、初期点集合決定手段２３は、探索深度スコアが予め定められた閾値を下回る深さを、その初期点における深さと決定する。すなわち、決定した深さの範囲内に存在するウェブデータが、ウェブクローリングの対象になる。以下、初期点集合決定手段２３は、初期点が予め定められた個数になるまで上記処理を繰り返せばよい。このように、初期点集合決定手段２３は、重み付き有向グラフＧをもとに、式２により算出されるスコアが予め定められた閾値を下回る深さを初期点からウェブデータをクローリングする深さと決定する。

　このように、式２では、初期点からの深さにおけるウェブページの数で除算を行っているため、その深さのウェブページ数が大きくなるほど式２の値が減少し、閾値を下回るようになる。すなわち、探索の深さを決定する際に用いられる規則（例えば、式２）によって、ウェブページの個数によるペナルティを課すことで、不要なウェブページを多く収集することを抑止できる。

　最後に、初期点集合決定手段２３は、選択した初期点及びその初期点からの探索深度を出力装置４に出力させる。

　ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２３とは、プログラム（初期点選択プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、データ処理装置２の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、ユーザ興味拡張手段２１、重み付きグラフ構成手段２２及び初期点集合決定手段２３として動作してもよい。また、ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２３とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、動作について説明する。図２は、第１の実施形態における動作の例を示すフローチャートである。まず、入力装置１にユーザの興味が入力されると、入力装置１は、その情報をユーザ興味拡張手段２１に通知する。ユーザ興味拡張手段２１は、入力されたユーザの興味と関連のあるカテゴリがカテゴリ辞書記憶部３１に記憶されているかどうかを調べる。カテゴリ辞書記憶部３１にユーザの興味と関連のあるカテゴリが記憶されていた場合、ユーザ興味拡張手段２１は、対応する１つ以上のカテゴリを読み出し、これを「拡張されたユーザ興味」とする。なお、カテゴリ辞書記憶部３１にユーザの興味と関連のあるカテゴリが記憶されていない場合、ユーザ興味拡張手段２１は、入力されたユーザの興味自身を「拡張されたユーザ興味」とすればよい（ステップＡ１）。

　次に、重み付きグラフ構成手段２２は、ウェブデータ記憶部３２に記憶されているウェブデータを読み出し、重み付き有向グラフの構成を行う。具体的には、重み付きグラフ構成手段２２は、拡張されたユーザ興味をもとに、ウェブデータ記憶部３２に記憶されているウェブデータを読み出し、重み付き有向グラフにおける点の集合Ｖ、辺の集合Ｅ及び写像ｆを抽出する。そして、重み付きグラフ構成手段２２は、読み出した各ウェブデータに対する重みを算出する（ステップＡ２）。重み付きグラフ構成手段２２は、これらの情報をもとに、重み付き有向グラフを構成する（ステップＡ３）。

　ここでの重み付き有向グラフは、点を各ウェブデータ、辺をウェブデータ間のリンク構造としたものである。重み付きグラフ構成手段２２は、この重み付き有向グラフに対し、グラフの各点（各ウェブデータ）の重みを、ウェブデータの内容が拡張されたユーザ興味と合致しているほど高くなるようなスコアリング方法により計算して、重み付き有向グラフを構成する。例えば、重み付きグラフ構成手段２２は、ウェブスコアを上記の式１に基づいて計算し、重み付き有向グラフを構成する。その後、初期点集合決定手段２３は、初期点として選択されたウェブページを格納するためのリスト（以下、リストＬと記す。）を初期化する（ステップＡ４）。以下、初期点集合決定手段２３は、重み付きグラフ構成手段２２が構成した重み付き有向グラフをもとに処理を行う。

　初期点集合決定手段２３は、リストＬに格納された初期点の数が予め定められた数（以下、ｋ個と記す。）に達しているか否かを調べる（ステップＡ５）。初期点の数がｋ個に達していた場合（ステップＡ５におけるイエス）、初期点集合決定手段２３は、現在のリストＬの内容を出力装置４に出力させる（ステップＡ１３）。

　初期点の数がｋ個に達していない場合（ステップＡ５におけるノー）、初期点集合決定手段２３は、重み付き有向グラフの各点に対応するウェブスコアを計算する。例えば、初期点集合決定手段２３は、上述の式１に基づいてウェブスコアを計算する。そして、初期点集合決定手段２３は、ウェブスコアが最大になる点（以下、点ｓと記す。）を重み付き有向グラフの中（すなわち、点の集合Ｖ）から選択し、点ｓからの探索の深さｄを１とする（ステップＡ６）。

　続いて、初期点集合決定手段２３は、点ｓからの探索の深さｄに対して、選択した点ｓに対応する探索深度スコアを計算する。例えば、初期点集合決定手段２３は、上述の式２に基づいて探索深度スコアを計算する（ステップＡ７）。そして、算出した探索深度スコアが予め定められた閾値以上か否かを判断する（ステップＡ８）。算出した探索深度スコアが予め定められた閾値以上の場合（ステップＡ８におけるイエス）、初期点集合決定手段２３は、点ｓからの探索の深さｄを１増加させ（ステップＡ１０）、新たにカバーされた点を重み付き有向グラフから削除する（ステップＡ１１）。すなわち、初期点集合決定手段２３は、点ｓから深さｄの範囲にあるウェブデータを、ウェブクローリングの対象とするとともに、初期点を決定するための候補から除外する。そして、再びステップＡ７に戻り、初期点集合決定手段２３は、算出する探索深度スコアが予め定められた閾値を下回るまで探索の深さｄを増やし続ける。

　一方、算出した探索深度スコアが予め定められた閾値を下回る以上の場合（ステップＡ８におけるノー）、初期点集合決定手段２３は、点ｓ及び点ｓからの探索の深さｄをペアにしてリストＬに追加する（ステップＡ９）。そして、初期点集合決定手段２３は、新たにカバーされた点を重み付き有向グラフから削除した後（ステップＡ１２）、ステップＡ５以降の処理を繰り返す。なお、上述の通り、ステップＡ５において初期点の数がｋ個に達していた場合（ステップＡ５におけるイエス）、初期点集合決定手段２３は、現在のリストＬの内容を出力装置４に出力させる（ステップＡ１３）。

　なお、ステップＡ８において、初期点集合決定手段２３が、探索深度スコアを算出できない場合（例えば、スコアを算出する対象になる点が存在しない場合）には、初期点集合決定手段２３は、ステップＡ９以降の処理（すなわち、初期点及びその時点における探索の深さｄをリストに追加する以降の処理）を行ってもよい。

　以上の処理について、具体例を用いてさらに説明する。図３は、第１の実施形態で行われる処理の例を説明する説明図である。図３に例示するように、以下の説明では、カテゴリ辞書記憶部３１は、「コンピュータ」というカテゴリに対して、「ハードウェア」及び「ソフトウェア」というカテゴリを関連するカテゴリとして記憶しているものとする。また、ウェブデータ記憶部３２が、複数のウェブデータを記憶しているものとし、そのうち「文書１」が「このコンピュータの特徴は、・・・ハードウェアが・・・」という文章を含んでいるものとする。また、ユーザの興味として「コンピュータ」が入力装置１に入力されたものとする。

　ユーザ興味拡張手段２１は、「コンピュータ」というカテゴリの入力に対し、カテゴリ辞書記憶部３１を検索し、「ハードウェア」及び「ソフトウェア」という関連カテゴリを読み出す。そして、ユーザ興味拡張手段２１は、「拡張されたユーザ興味」として、カテゴリの集合「コンピュータ」、「ハードウェア」及び「ソフトウェア」を重み付きグラフ構成手段２２に通知する（図２におけるステップＡ１）。重み付きグラフ構成手段２２は、この「拡張されたユーザ興味」をもとにウェブデータ記憶部３２から抽出したウェブデータから、重み付き有向グラフＧを構成する（図２におけるステップＡ２及びＡ３）。また、初期点集合決定手段２３は、リストＬを初期化する（ステップＡ４）。

　重み付き有向グラフＧの例を図４に示す。図４に例示する重み付き有向グラフＧは、点の集合Ｖが点ｓ１から点ｓ９までの９つの点を含んでいるものとする。また、辺の集合Ｅ及び写像ｆにより、点ｓ２から点ｓ１、点ｓ３から点ｓ１、点ｓ４から点ｓ２、点ｓ４から点ｓ３、点ｓ４から点ｓ５、点ｓ８から点ｓ７、及び、点ｓ９から点ｓ８の向きに、点ｓ５と点ｓ６及び点ｓ６と点ｓ７は双方向にそれぞれ点のリンク付けがなされるものとする。また、写像ｗにより、点ｓ１から点ｓ９までの重みが、それぞれ「スコア１」，「スコア２」，「スコア２」，「スコア５」，「スコア３」，「スコア１」，「スコア１」，「スコア２」，「スコア５」になるものとする。また、選択する初期点の個数の最大値を２、探索深度スコアの閾値を１とする。以上の条件のもとで、初期点を決定する場合について説明する。

　まず、初期点集合決定手段２３は、リストＬに格納された初期点の数が２個に達しているか否かを調べる（ステップＡ５）。初期の状態では、リストＬには初期点が格納されていない。そこで、初期点集合決定手段２３は、リストＬに格納された初期点の数が２個に達していないと判断し（ステップＡ５におけるノー）、初期点集合決定手段２３は、上述の式１に基づき、重み付き有向グラフの各点に対応するウェブスコアを計算する。そして、初期点集合決定手段２３は、ウェブスコアが最大になる点ｓを重み付き有向グラフの中から選択する。ここで、式１におけるγの値を１とすると、点ｓ４のウェブスコアが最大になる。そのため、初期点集合決定手段２３は、第１の初期点として重み付き有向グラフＧの中から点ｓ４を選択し、点ｓ４からの探索の深さｄを１とする（ステップＡ６）。

　続いて、初期点集合決定手段２３は、点ｓ４からの探索の深さ１に対して、選択した点ｓ４に対応する探索深度スコアを計算する（ステップＡ７）。ここで、初期点集合決定手段２３は、上述の式２に基づいて点ｓ４の探索深度スコアを（点ｓ１のスコア１＋点ｓ６のスコア１）／点の個数２個＝１と計算する。この値は、閾値１以上の値である。よって、初期点集合決定手段２３は、算出した探索深度スコアが予め定められた閾値以上であると判断し（ステップＡ８におけるイエス）、初期点集合決定手段２３は、点ｓ４からの探索の深さｄを１増加させ（ステップＡ１０）、新たにカバーされた点を重み付き有向グラフから削除する（ステップＡ１１）。

　引き続き、初期点集合決定手段２３は、点ｓ４からの探索の深さ２に対して、選択した点ｓ４に対応する探索深度スコアを計算する（ステップＡ７）。ここで、初期点集合決定手段２３は、上述の式２に基づいて点ｓ４の探索深度スコアを、（点ｓ７のスコア１）／（点の個数１個）＝１と計算する。この値は、閾値１以上の値である。よって、初期点集合決定手段２３は、算出した探索深度スコアが予め定められた閾値以上であると判断し（ステップＡ８におけるイエス）、初期点集合決定手段２３は、点ｓ４からの探索の深さｄを１増加させ（ステップＡ１０）、新たにカバーされた点を重み付き有向グラフから削除する（ステップＡ１１）。

　さらに、初期点集合決定手段２３は、点ｓ４からの探索の深さ３に対して、選択した点ｓ４に対応する探索深度スコアを計算する（ステップＡ７）。ここで、式２の分母における深さ（３＋１）＝４に該当する点が重み付き有向グラフに存在しないため、初期点集合決定手段２３は、探索深度スコアが算出できない。そのため、初期点集合決定手段２３は、点ｓ４からの探索の深さｄを３に決定し、点ｓ４および探索の深さ３をペアにしてリストＬに追加する（ステップＡ９）。そして、初期点集合決定手段２３は、新たにカバーされた点ｓ４から深さ３までの点（点ｓ１～点ｓ７）を重み付き有向グラフから削除する（ステップＡ１２）。

　ここで、リストＬに格納された初期点の数は１個のため、初期点集合決定手段２３は、リストＬに格納された初期点の数がまだ２個に達していないと判断する（ステップＡ５におけるノー）。このとき、初期点集合決定手段２３は、ウェブスコアが最大になる点ｓを残った重み付き有向グラフの中から選択する。ここで、式１におけるγの値を１とすると、点ｓ９のウェブスコアが最大になる。そのため、初期点集合決定手段２３は、第２の初期点として重み付き有向グラフＧの中から点ｓ９を選択し、点ｓ９からの探索の深さｄを１とする（ステップＡ６）。

　続いて、初期点集合決定手段２３は、点ｓ９からの探索の深さ１に対して、選択した点ｓ４に対応する探索深度スコアを計算する（ステップＡ７）。ここで、式２の分母における深さ（１＋１）＝２に該当する点が重み付き有向グラフに存在しないため、初期点集合決定手段２３は、探索深度スコアが算出できない。そのため、初期点集合決定手段２３は、点ｓ９からの探索の深さｄを１に決定し、点ｓ９および探索の深さ１をペアにしてリストＬに追加する（ステップＡ９）。そして、初期点集合決定手段２３は、新たにカバーされた点ｓ９から深さ１までの点（点ｓ８～点ｓ９）を重み付き有向グラフから削除する（ステップＡ１２）。

　ここで、リストＬに格納された初期点の数は２個になるため、初期点集合決定手段２３は、リストＬに格納された初期点の数が２個に達したと判断する（ステップＡ５におけるイエス）。そのため、初期点集合決定手段２３は、現在のリストＬの内容を出力装置４に出力させる（ステップＡ１３）。

　以上のように、本実施形態によれば、重み付きグラフ構成手段２２が、ユーザの興味として指定されたカテゴリに属する単語との合致度合いに応じてウェブデータの重みを算出して重み付き有向グラフＧを構成する。初期点集合決定手段２３は、その重み付き有向グラフＧをもとに、式１に基づいて算出されるスコアがより大きいウェブデータを初期点として選択する。そして、初期点集合決定手段２３は、重み付き有向グラフＧをもとに、式２に基づいて算出されるスコアが予め定められた閾値を下回る深さを初期点からウェブデータをクローリングする深さと決定する。そのため、ユーザの興味を反映したウェブページをクローリングするための初期点を効率的に選択できる。

　具体的には、重み付きグラフ構成手段２２が、ユーザの興味により合致したウェブページに高い重みが付けるため、ユーザの興味を反映したウェブページを優先的に選択することができる。また、初期点集合決定手段２３が、クローリングする対象のウェブページの数が多くなるほどスコアを低く算出する規則を利用し、算出したスコアが予め定められた閾値を下回る場合には、それ以上の深さのウェブページに対してクローリングを行うことを抑止する。そのため、不必要に深いクローリングを避ける事が可能になる。さらに、初期点集合決定手段２３は、初期点を決定する際にスコアを算出する対象を、初期点から深さ１の範囲とし、初期点が決定してから順次クローリングする深さを増加させていく。よって、初期点を決定するための計算量が膨大になることを抑止できるため、初期点を効率的に選択することができる。

　また、本実施形態では、ユーザ興味拡張手段２１が、ユーザの興味として指定されたカテゴリに関連する関連カテゴリを対応付けて記憶するカテゴリ辞書記憶部３１から、指定されたカテゴリの関連カテゴリを抽出する。そして、重み付きグラフ構成手段２２が、指定されたカテゴリ及び関連カテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出する。よって、よりユーザの興味を反映した初期点を選択できる。

　言い換えると、本実施形態によれば、初期点集合決定手段２３が、初期点、及びその初期点から探索を行う深さを合わせて決定する。そのため、ユーザの興味と合致しないページの取得を可能な限り抑えつつ、ユーザの興味と合致するページを重点的に収集することが可能になる。

実施形態２．
　図５は、本発明の第２の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態におけるウェブクローリング初期点選択システムは、キーボード等の入力装置１と、プログラム制御により動作するデータ処理装置５と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置などの出力装置４とを備えている。入力装置１、記憶装置３及び出力装置４については、第１の実施形態と同様である。

　データ処理装置５は、ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２４とを備えている。ユーザ興味拡張手段２１及び重み付きグラフ構成手段２２については、第１の実施形態と同様であるが、図１における初期点集合決定手段２３が、図５では初期点集合決定手段２４に置き換わっている点で第１の実施形態と異なる。

　初期点集合決定手段２４も、第１の実施形態における初期点集合決定手段２３と同様、重み付きグラフ構成手段２２で構成された重み付き有向グラフをもとに、点の集合Ｖの部分集合である初期点の集合を、その初期点から探索を行う深さとともに決定し、出力装置４にその結果を出力させる。ただし、初期点の集合を決定する方法が、第１の実施形態における初期点集合決定手段２３と異なる。

　まず、初期点集合決定手段２４は、ウェブデータとそのウェブデータにリンクされている他のウェブデータの重みが高いほどスコアを高く算出する規則に基づいて、対象のウェブデータ（点の集合Ｖ）のうち、ウェブクローリングの対象になっていないウェブデータの中から、スコアが最大になるウェブページを初期点として選択する。第１の実施形態と同様、以下、このように算出されたスコアを、ウェブスコアと記す。例えば、初期点集合決定手段２４は、上述の式１に基づいてウェブスコアを算出し、ウェブスコアが最大になる初期点を選択してもよい。すなわち、初期点集合決定手段２４は、重み付き有向グラフＧをもとに、式１により算出されるスコアがより大きいウェブデータを初期点として選択してもよい。なお、ここで、初期点集合決定手段２４は、選択した初期点と、初期点からの探索の深さとを対応付けておく。例えば、初期点集合決定手段２４は、点の集合Ｖから初期点を選択した際、選択した初期点と探索の深さ１とを対応付けておく。以下、この初期点に対応付けられた深さのことを深さｄ’と記す。

　次に、初期点集合決定手段２４は、ウェブデータの数が多くなるほどスコアを低く算出する規則に基づいて、既に選択された初期点から深さｄ’におけるウェブデータの数をもとに、その深さｄ’におけるスコアを算出する。第１の実施形態と同様、以下、このように算出されたスコアを、探索深度スコアと記す。例えば、初期点集合決定手段２４は、上述の式２に基づいて探索深度スコアを算出してもよい。そして、初期点集合決定手段２４は、探索深度スコアが最大になる初期点及び深さｄ’を選択する。

　さらに、初期点集合決定手段２４は、ウェブデータとそのウェブデータにリンクされている他のウェブデータの重みが高いほどスコアを高く算出する規則に基づいて、対象のウェブデータ（点の集合Ｖ）のうち、ウェブクローリングの対象になっていないウェブデータの中から、ウェブスコアが最大になるウェブページを選択する。例えば、初期点集合決定手段２４は、初めに初期点を決定する場合と同様に、上述の式１に基づいてウェブスコアを算出し、そのウェブスコアが最大になるウェブページを選択してもよい。そして、初期点集合決定手段２４は、探索深度スコアとウェブスコアとを比較し、どちらのスコアが大きいかを判断する。ウェブスコアが探索深度スコア以下の場合、初期点集合決定手段２４は、初期点からウェブデータをクローリングする深さをより深くする。一方、ウェブスコアが探索深度スコアよりも大きい場合、初期点集合決定手段２４は、ウェブスコアを算出する際に用いたウェブデータ（すなわち、ウェブスコアが最大になるウェブページ）を新たな初期点と決定する。以下、初期点集合決定手段２４は、初期点が予め定められた個数になるまで上記処理を繰り返せばよい。

　このように、初期点集合決定手段２４は、重み付き有向グラフＧをもとに、例えば、式２に基づいて算出される探索深度スコアが、既に選択されたウェブデータ以外で式１に基づいて算出されるウェブスコアよりも大きいか否かを判断する。そして、ウェブスコアが探索深度スコアよりも大きいことを条件に、初期点集合決定手段２４は、式１に基づいて算出する際に用いたウェブデータを新たな初期点と決定する。一方、ウェブスコアが探索深度スコア以下であることを条件に、初期点集合決定手段２４は、初期点からウェブデータをクローリングする深さをより深くすると決定する。

　なお、初期点集合決定手段２４は、ウェブデータを探索する深さについての閾値を予め設け、探索しようとする深さがこの閾値を超えていないことを条件にクローリングする深さをより深くすると決定してもよい。このような閾値を設けることで、クローリングする探索の深さが深くなりすぎることを抑止できる。

　最後に、初期点集合決定手段２４は、例えば、選択した初期点及びその初期点からの探索深度を出力装置４に出力させる。

　ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２４とは、プログラム（初期点選択プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、データ処理装置５の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、ユーザ興味拡張手段２１、重み付きグラフ構成手段２２及び初期点集合決定手段２４として動作してもよい。また、ユーザ興味拡張手段２１と、重み付きグラフ構成手段２２と、初期点集合決定手段２４とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、動作について説明する。図６は、第２の実施形態における動作の例を示すフローチャートである。なお、入力装置１にユーザの興味が入力されてから、重み付きグラフ構成手段２２が重み付き有向グラフを構成し、初期点集合決定手段２３が、初期点を格納するためのリスト（すなわち、リストＬ）を初期化するまでの処理は、第１の実施形態におけるステップＡ１～ステップＡ４までの処理と同様である。すなわち、図６に例示するステップＡ１～Ａ４で、ユーザ興味拡張手段２１及び重み付きグラフ構成手段２２が行う動作は、第１の実施形態のユーザ興味拡張手段２１及び重み付きグラフ構成手段２２が行う動作と同一のため、説明は省略する。

　リストＬの初期化後、第１の実施形態では、新たに初期点になる点を決定した後、その初期点からの探索深度スコアを算出し、探索の深さを決定していた。本実施形態では、初期点集合決定手段２４が、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ’によって算出される探索深度スコアの最大値を計算し、探索の深さ及び新たな初期点を決定する。

　まず、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。なお、ここでの「十分な深さ」とは、効率的にクローリングを行うための適切な深さという意味である。具体的には、後述のステップＢ５において、初期点集合決定手段２４が、リストＬに格納された全ての点ｓに対し、式２で算出される値が予め定められた閾値を下回った場合に、十分な深さに達したと判断する。なお、初期状態では、ステップＢ７の処理は行われておらず、リストＬに点ｓは格納されていない。そこで、ここでは、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達していないと判断する（ステップＢ１におけるノー）。

　次に、初期点集合決定手段２４は、式１の値が最大になる、初期点として未選択の点ｓと、式２の値が最大になる、既に初期点として選択されている点ｓ’とをもとにスコアを計算する（ステップＢ２）。すなわち、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ’によって算出される探索深度スコアの最大値を計算する。

　既に選択された初期点の個数がｋ個より少なく、かつ、点ｓにおける式１の値が点ｓ’における式２の値より大きい場合（ステップＢ３におけるイエス）、初期点集合決定手段２４は、点ｓからの探索の深さｄ’を１として、点ｓをリストＬに加える（ステップＢ４）。そして、初期点集合決定手段２４は、新たにカバーされた点を重み付き有向グラフＧから削除し（ステップＡ１２）、ステップＢ１以降の処理を繰り返す。一方、ステップＢ３において、既に選択された初期点の個数がｋ個に達している場合、または、点ｓにおける式１の値が点ｓ’における式２の値より以下の場合（ステップＢ３におけるノー）、初期点集合決定手段２４は、式２の値が閾値以上か否かを判断する（ステップＢ５）。式２の値が予め定められた閾値以上の場合（ステップＢ５におけるイエス）、初期点集合決定手段２４は、点ｓ’からの探索の深さｄ’を１増加させる（ステップＢ６）。そして、初期点集合決定手段２４は、新たにカバーされた点を重み付き有向グラフＧから削除し（ステップＡ１２）、ステップＢ１以降の処理を繰り返す。

　また、ステップＢ５において、式２の値が予め定められた閾値未満の場合（ステップＢ５におけるノー）、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したと判断する（ステップＢ７）。この場合、初期点集合決定手段２４は、新たにカバーされた点を重み付き有向グラフＧから削除したあと（ステップＡ１２）、ステップＢ１において、リストＬに格納された全ての点ｓが、十分な深さに達したと判断する（ステップＢ１におけるイエス）。そして、初期点集合決定手段２４は、現在のリストＬの内容を出力装置４に出力させる（ステップＡ１３）。

　なお、ステップＢ６において、初期点集合決定手段２４は、探索しようとする深さがウェブデータを探索する深さについての閾値を超えていないことを条件に探索の深さｄ’を１増加させると決定してもよい。

　以上の処理について、具体例を用いてさらに説明する。図７は、第２の実施形態で行われる処理の例を説明する説明図である。以下の説明では、第１の実施形態において図３に示す例と同様、例示するように、カテゴリ辞書記憶部３１は、「コンピュータ」というカテゴリに対して、「ハードウェア」及び「ソフトウェア」というカテゴリを関連するカテゴリとして記憶しているものとする。また、ウェブデータ記憶部３２が、複数のウェブデータを記憶しているものとし、そのうち「文書１」が「このコンピュータの特徴は、・・・ハードウェアが・・・」という文章を含んでいるものとする。また、ユーザの興味として「コンピュータ」が入力装置１に入力されたものとする。そして、ユーザ興味拡張手段２１及び重み付きグラフ構成手段２２が、図４に例示する重み付き有向グラフＧを構成したものとする。また、選択する初期点の個数の最大値を２、探索深度スコアの閾値を１とする。

　まず、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。初期状態では、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達していないと判断する（ステップＢ１におけるノー）。次に、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ’によって算出される探索深度スコアの最大値を計算する（ステップＢ２）。ここでは、既に初期点として選択されている点ｓ’は存在しないため、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値を算出する（ステップＢ２）。ここで、式１におけるγの値を１とすると、点ｓ４によって算出されるウェブスコアの値が「２２／３」と最大になる。

　ここでは、既に選択された初期点の個数が２個より少なく、かつ、式２の値は存在しないため（ステップＢ３におけるイエス）、初期点集合決定手段２４は、点ｓ４からの探索の深さｄ’を１として、点ｓ４をリストＬに加える（ステップＢ４）。そして、初期点集合決定手段２４は、新たにカバーされた、点ｓ４から深さ１に含まれる点である「点ｓ２、点ｓ３、点ｓ５」を重み付き有向グラフＧから削除する（ステップＡ１２）。

　再び、ステップＢ１に戻り、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。ここでは、まだ十分な深さに達していないため（ステップＢ１におけるノー）、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ４によって算出される探索深度スコアの最大値を計算する（ステップＢ２）。ここで、初期点集合決定手段２４は、重み付き有向グラフの中から「点ｓ９」を選択し、ウェブスコアを「５＋２＝７」と計算する。また、初期点集合決定手段２４は、リストＬの中から深さが「１」である「点ｓ４」を選択し、探索深度スコアを「（点ｓ１のスコア１＋点ｓ６のスコア１）／点の個数２＝１」と算出する。

　ここでは、初期点の個数は１個であり、かつ、式２の値は１であるため、ウェブスコアの値である７よりも小さい。すなわち、既に選択された初期点の個数が２個より少なく、かつ、点ｓ９における式１の値が深さ１である点ｓ４における式２の値より大きい（ステップＢ３におけるイエス）。よって、初期点集合決定手段２４は、点ｓ９からの探索の深さｄ’を１として、点ｓ９をリストＬに加える（ステップＢ４）。そして、初期点集合決定手段２４は、新たにカバーされた、点ｓ９から深さ１に含まれる点である「点ｓ８」を重み付き有向グラフＧから削除する（ステップＡ１２）。

　再び、ステップＢ１に戻り、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。ここでも、まだ十分な深さに達していないため（ステップＢ１におけるノー）、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ４又は点ｓ９によって算出される探索深度スコアの最大値を計算する（ステップＢ２）。ここで、初期点集合決定手段２４は、重み付き有向グラフの中から「点ｓ６」を選択し、ウェブスコアを「１＋１＝２」と計算する。また、初期点集合決定手段２４は、リストＬの中から深さが「１」である「点ｓ４」を選択し、探索深度スコアを「（点ｓ１のスコア＋点ｓ６のスコア）／点の個数２＝１」と算出する。

　ここでは、初期点の個数は２個であるため、既に選択された初期点の個数は２個以上である（ステップＢ３におけるノー）。よって、初期点集合決定手段２４は、式２の値が予め定められた閾値以上か否かを判断する（ステップＢ５）。ここでは、式２の値が予め定められた閾値１以上であるため（ステップＢ５におけるイエス）、初期点集合決定手段２４は、点ｓ４からの探索の深さｄ’を１増加させ、深さを２にする（ステップＢ６）。そして、初期点集合決定手段２４は、新たにカバーされた点ｓ１及び点ｓ６を重み付き有向グラフＧから削除する（ステップＡ１２）。

　再び、ステップＢ１に戻り、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。ここでも、まだ十分な深さに達していないため（ステップＢ１におけるノー）、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ４又は点ｓ９によって算出される探索深度スコアの最大値を計算する（ステップＢ２）。ここで、初期点集合決定手段２４は、重み付き有向グラフの中から「点ｓ７」を選択し、ウェブスコアを「１」と計算する。また、初期点集合決定手段２４は、リストＬの中から深さが「１」である「点ｓ９」を選択し、探索深度スコアを「（点ｓ７のスコア）／点の個数１＝１」と算出する。

　ここでは、初期点の個数は２個であるため、既に選択された初期点の個数は２個以上である（ステップＢ３におけるノー）。よって、初期点集合決定手段２４は、式２の値が予め定められた閾値以上か否かを判断する（ステップＢ５）。ここでは、式２の値が予め定められた閾値１以上であるため（ステップＢ５におけるイエス）、初期点集合決定手段２４は、点ｓ９からの探索の深さｄ’を１増加させ、深さを２にする（ステップＢ６）。そして、初期点集合決定手段２４は、新たにカバーされた点ｓ７を重み付き有向グラフＧから削除する（ステップＡ１２）。

　再び、ステップＢ１に戻り、初期点集合決定手段２４は、リストＬに格納された全ての点ｓが、十分な深さに達したか否かを判断する（ステップＢ１）。ここでも、まだ十分な深さに達していないため（ステップＢ１におけるノー）、初期点集合決定手段２４は、初期点として未選択の点ｓによって算出されるウェブスコアの最大値と、既に初期点として選択されている点ｓ４又は点ｓ９によって算出される探索深度スコアの最大値を計算する（ステップＢ２）。ただし、ここでは、既に未選択の点は存在しないため、ウェブスコアの計算は行わない。また、式２を算出する対象の点も存在しないため、探索深度スコアの計算も行わない。そして、初期点の個数はすでに２個であるため（ステップＢ３におけるノー）、初期点集合決定手段２４は、式２の値が予め定められた閾値以上か否かを判断する（ステップＢ５）。ここでは、式２の値は存在しないため、初期点集合決定手段２４は、予め定められた閾値１未満と判断する（ステップＢ５におけるノー）。そして、初期点集合決定手段２４は、リストＬに格納された全ての点ｓ４及び点ｓ９が、十分な深さに達したと判断する（ステップＢ７）。

　なお、この場合、新たにカバーされた点は存在しないため、初期点集合決定手段２４は、新たにカバーされた点を重み付き有向グラフＧから削除しない（ステップＡ１２）。そして、初期点集合決定手段２４は、ステップＢ１において、リストＬに格納された全ての点ｓが、十分な深さに達したと判断し（ステップＢ１におけるイエス）、現在のリストＬの内容（初期点ｓ４について深さ２、初期点ｓ９に対して深さ２）を出力装置４に出力させる（ステップＡ１３）。

　以上のように、本実施形態によれば、重み付きグラフ構成手段２２が、ユーザの興味として指定されたカテゴリに属する単語との合致度合いに応じてウェブデータの重みを算出して重み付き有向グラフＧを構成する。初期点集合決定手段２４は、その重み付き有向グラフＧをもとに、式１に基づいて算出されるスコアがより大きいウェブデータを初期点として選択する。そして、初期点集合決定手段２４は、重み付き有向グラフＧをもとに、式２に基づいて算出される探索深度スコアが、式２に基づいて算出される初期点以外のウェブデータのウェブスコアよりも大きいか否かを判断する。初期点集合決定手段２４は、ウェブスコアが探索深度スコアよりも大きいことを条件に、初期点以外のウェブデータを新たな初期点と決定し、ウェブスコアが探索深度スコア以下であることを条件に、初期点からの深さをより深くすると決定する。そのため、ユーザの興味を反映したウェブページをクローリングするための初期点を効率的に選択できる。

　具体的には、第１の実施形態と同様に、重み付きグラフ構成手段２２が、ユーザの興味により合致したウェブページに高い重みが付けるため、ユーザの興味を反映したウェブページを優先的に選択することができる。また、初期点集合決定手段２４が、クローリングする対象のウェブページの数が多くなるほどスコアを低く算出する規則を利用し、算出したスコアが予め定められた閾値を下回る場合には、それ以上の深さのウェブページに対してクローリングを行うことを抑止する。そのため、不必要に深いクローリングを避ける事が可能になる。さらに、ユーザ興味拡張手段２１が、ユーザの興味として指定されたカテゴリに関連する関連カテゴリを対応付けて記憶するカテゴリ辞書記憶部３１から、指定されたカテゴリの関連カテゴリを抽出する。そして、重み付きグラフ構成手段２２が、指定されたカテゴリ及び関連カテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出する。よって、よりユーザの興味を反映した初期点を選択できる。

　また、本実施形態では、初期点集合決定手段２４が、ウェブデータの価値（重み）を含む情報を定義した重み付き有向グラフに対し、クローリングする初期点と初期点からクローリングする深さとを並列的に決定している。このように、並列的に処理することにより、特定の初期点に対する探索の深さが大きくなりすぎることを抑止できるため、効率的なクローリングを実現することができる。

実施形態３．
　図８は、本発明の第３の実施形態におけるウェブクローリング初期点選択システムの例を示すブロック図である。なお、第１の実施形態及び第２の実施形態と同様の構成については、図１及び図６と同一の符号を付し、説明を省略する。本実施形態におけるウェブクローリング初期点選択システムは、キーボード等の入力装置１と、初期点自動選択用プログラム６を読み込んで動作するデータ処理装置７と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置などの出力装置４とを備えている。入力装置１、記憶装置３及び出力装置４については、第１の実施形態及び第２の実施形態と同様である。

　すなわち、初期点自動選択用プログラム６は、データ処理装置７に読み込まれてデータ処理装置７の動作を制御するプログラムである。データ処理装置７は、初期点自動選択用プログラム６に従って、第１の実施形態におけるデータ処理装置２、または、第２の実施形態におけるデータ処理装置５として動作する。言い換えると、初期点自動選択用プログラム６を読み込んだデータ処理装置７が、第１の実施形態においてデータ処理装置２が行う処理、または、第２の実施形態においてデータ処理装置５が行う処理を実行する。

　この場合、入力装置１からユーザの興味が与えられると、例えば、データ処理装置７のＣＰＵは、記憶装置３内のカテゴリ辞書記憶部３１に記憶されているカテゴリ辞書を用い、ユーザの興味の拡張を行う。次に、データ処理装置７のＣＰＵは、ウェブデータ記憶部３２に記憶されているウェブデータを用い、重み付き有向グラフを構成する。続いて、データ処理装置７のＣＰＵは、このようにして構成された重み付き有向グラフを用い、クローリングの初期点集合をその各々の点からの探索の深さとともに、出力装置４に表示させる。

　次に、本発明によるウェブクローリング初期点選択システムの最小構成例を説明する。図９は、本発明によるウェブクローリング初期点選択システムの最小構成の例を示すブロック図である。本発明によるウェブクローリング初期点選択システムは、指定されたカテゴリ（例えば、ユーザの興味）に属する情報との合致度合い（例えば、単語の出現頻度）に応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとそのウェブデータの重みとを含むグラフである重み付き有向グラフ（例えば、重み付き有向グラフＧ）を構成するグラフ構成手段８１（例えば、重み付きグラフ構成手段２２）と、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則であるウェブスコア算出規則（例えば、式１）に基づいて、クローリングを開始するウェブデータの初期位置である初期点としてスコアがより大きいウェブデータ（例えば、式１の値が最も大きいウェブデータ）を選択する初期点選択手段８２（例えば、初期点集合決定手段２３、初期点集合決定手段２４）と、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則（例えば、式２）に基づいて、ウェブデータをクローリングする初期点からの深さを決定するクローリング深度決定手段８３（例えば、初期点集合決定手段２３、初期点集合決定手段２４）とを備えている。

　そのような構成により、ユーザの興味を反映したウェブページをクローリングするための初期点を効率的に選択できる。

　なお、少なくとも以下に示すようなウェブクローリング初期点選択システムも、上記に示すいずれかの実施形態に開示されている。

（１）指定されたカテゴリ（例えば、ユーザの興味）に属する情報との合致度合い（例えば、単語の出現頻度）に応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクとそのウェブデータの重みとを含むグラフである重み付き有向グラフ（例えば、重み付き有向グラフＧ）を構成するグラフ構成手段（例えば、重み付きグラフ構成手段２２）と、重み付き有向グラフをもとに、ウェブデータとそのウェブデータにリンクされた他のウェブデータの重みが高いほど、そのウェブデータのスコアを高く算出する規則であるウェブスコア算出規則（例えば、式１）に基づいて、クローリングを開始するウェブデータの初期位置である初期点としてスコアがより大きいウェブデータ（例えば、式１の値が最も大きいウェブデータ）を選択する初期点選択手段（例えば、初期点集合決定手段２３、初期点集合決定手段２４）と、重み付き有向グラフをもとに、初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則（例えば、式２）に基づいて、ウェブデータをクローリングする初期点からの深さを決定するクローリング深度決定手段（例えば、初期点集合決定手段２３、初期点集合決定手段２４）とを備えたウェブクローリング初期点選択システム。

（２）クローリング深度決定手段（例えば、初期点集合決定手段２３）が、探索深度スコア算出規則に基づいて算出される探索深度スコアが予め定められた閾値を下回る深さを、初期点からウェブデータをクローリングする深さと決定するウェブクローリング初期点選択システム。

（３）クローリング深度決定手段（例えば、初期点集合決定手段２４）が、探索深度スコア算出規則に基づいて算出される探索深度スコアが、ウェブスコア算出規則に基づいて算出される初期点以外のウェブデータのスコアであるウェブスコアよりも大きいか否かを判断し、ウェブスコアが探索深度スコア以下であることを条件に、ウェブデータをクローリングする初期点からの深さをより深くすると決定し、ウェブスコアが探索深度スコアよりも大きいことを条件に、初期点以外のウェブデータを新たな初期点と決定するウェブクローリング初期点選択システム。

（４）カテゴリに関連する関連カテゴリを対応付けて記憶するカテゴリ記憶手段（例えば、カテゴリ辞書記憶部３１）から、指定されたカテゴリの関連カテゴリを抽出する関連カテゴリ抽出手段（例えば、ユーザ興味拡張手段２１）を備え、重み算出手段が、指定されたカテゴリ及び他のカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出するウェブクローリング初期点選択システム。

（５）重み算出手段が、カテゴリに属する情報がウェブデータ中に出現する頻度に応じて重みを算出するウェブクローリング初期点選択システム。

（６）初期点選択手段が、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、ウェブデータｓからの最短経路の距離が１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，１）とし、集合Ａ（ｓ，１）に含まれるウェブデータの数を｜Ａ（ｓ，１）｜とし、初期点の重みと、初期点にリンクする他のウェブデータとの間に生じさせる重み付けの程度の差異に応じて予め定められる値をγとしたときに、式１の関係を満たすウェブスコア算出規則により算出されるウェブスコアに基づいて、ウェブデータを選択するウェブクローリング初期点選択システム。

（７）クローリング深度決定手段が、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、初期点から探索する距離をｄとし、ウェブデータｓからの最短経路の距離がｄ＋１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，ｄ＋１）とし、集合Ａ（ｓ，ｄ＋１）に含まれるウェブデータの数を｜Ａ（ｓ，ｄ＋１）｜としたときに、式２の関係を満たす探索深度スコア算出規則により算出される探索深度スコアに基づいて、ウェブデータをクローリングする深さを決定するウェブクローリング初期点選択システム。

（８）クローリング深度決定手段が、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、初期点から探索する距離をｄとし、ウェブデータｓからの最短経路の距離がｄ＋１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，ｄ＋１）とし、集合Ａ（ｓ，ｄ＋１）に含まれるウェブデータの数を｜Ａ（ｓ，ｄ＋１）｜としたときに、式２の関係を満たす探索深度スコア算出規則により算出される探索深度スコアが、ウェブスコアよりも大きいか否かを判断するウェブクローリング初期点選択システム。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００９年１０月２８日に出願された日本特許出願２００９－２４７４８１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、ユーザの興味を反映して単数または複数のクローリングの初期点を求めるウェブクローリング初期点選択システムに好適に適用される。

　１　入力装置
　２　データ処理装置
　３　記憶装置
　４　出力装置
　５　データ処理装置
　６　初期点自動選択用プログラム
　７　データ処理装置
　２１　ユーザ興味拡張手段
　２２　重み付きグラフ構成手段
　２３　初期点集合決定手段
　２４　初期点集合決定手段
　３１　カテゴリ辞書記憶部
　３２　ウェブデータ記憶部

Claims

　指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクと当該ウェブデータの重みとを含むグラフである重み付き有向グラフを構成するグラフ構成手段と、
　前記重み付き有向グラフをもとに、ウェブデータと当該ウェブデータにリンクされた他のウェブデータの重みが高いほど、当該ウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点として前記スコアがより大きいウェブデータを選択する初期点選択手段と、
　前記重み付き有向グラフをもとに、前記初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする前記初期点からの深さを決定するクローリング深度決定手段とを備えた
　ことを特徴とするウェブクローリング初期点選択システム。
　クローリング深度決定手段は、探索深度スコア算出規則に基づいて算出される探索深度スコアが予め定められた閾値を下回る深さを、初期点からウェブデータをクローリングする深さと決定する
　請求項１記載のウェブクローリング初期点選択システム。
　クローリング深度決定手段は、探索深度スコア算出規則に基づいて算出される探索深度スコアが、ウェブスコア算出規則に基づいて算出される初期点以外のウェブデータのスコアであるウェブスコアよりも大きいか否かを判断し、前記ウェブスコアが前記探索深度スコア以下であることを条件に、ウェブデータをクローリングする前記初期点からの深さをより深くすると決定し、前記ウェブスコアが前記探索深度スコアよりも大きいことを条件に、前記初期点以外のウェブデータを新たな初期点と決定する
　請求項１記載のウェブクローリング初期点選択システム。
　カテゴリに関連する関連カテゴリを対応付けて記憶するカテゴリ記憶手段から、指定されたカテゴリの関連カテゴリを抽出する関連カテゴリ抽出手段を備え、
　重み算出手段は、指定されたカテゴリ及び前記他のカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出する
　請求項１から請求項３のうちのいずれか１項に記載のウェブクローリング初期点選択システム。
　重み算出手段は、カテゴリに属する情報がウェブデータ中に出現する頻度に応じて重みを算出する
　請求項１から請求項４のうちのいずれか１項に記載のウェブクローリング初期点選択システム。
　初期点選択手段は、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、ウェブデータｓからの最短経路の距離が１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，１）とし、前記集合Ａ（ｓ，１）に含まれるウェブデータの数を｜Ａ（ｓ，１）｜とし、初期点の重みと、初期点にリンクする他のウェブデータとの間に生じさせる重み付けの程度の差異に応じて予め定められる値をγとしたときに、式１の関係を満たすウェブスコア算出規則により算出されるウェブスコアに基づいて、ウェブデータを選択する
　請求項１から請求項５のうちのいずれか１項に記載のウェブクローリング初期点選択システム。
　クローリング深度決定手段は、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、初期点から探索する距離をｄとし、ウェブデータｓからの最短経路の距離がｄ＋１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，ｄ＋１）とし、前記集合Ａ（ｓ，ｄ＋１）に含まれるウェブデータの数を｜Ａ（ｓ，ｄ＋１）｜としたときに、式２の関係を満たす探索深度スコア算出規則により算出される探索深度スコアに基づいて、ウェブデータをクローリングする深さを決定する
　請求項２に記載のウェブクローリング初期点選択システム。
　クローリング深度決定手段は、あるウェブデータをｓとし、重み算出手段が算出するウェブデータｓの重みをｗ（ｓ）とし、初期点から探索する距離をｄとし、ウェブデータｓからの最短経路の距離がｄ＋１である重み付き有向グラフ中のウェブデータの集合をＡ（ｓ，ｄ＋１）とし、前記集合Ａ（ｓ，ｄ＋１）に含まれるウェブデータの数を｜Ａ（ｓ，ｄ＋１）｜としたときに、式３の関係を満たす探索深度スコア算出規則により算出される探索深度スコアが、ウェブスコアよりも大きいか否かを判断する
　請求項３に記載のウェブクローリング初期点選択システム。
　指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、
　ウェブデータ間の有向リンクと前記ウェブデータの重みとを含むグラフである重み付き有向グラフを構成し、
　前記重み付き有向グラフをもとに、ウェブデータと当該ウェブデータにリンクされた他のウェブデータの重みが高いほど、当該ウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点として前記スコアがより大きいウェブデータを選択し、
　前記重み付き有向グラフをもとに、前記初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする前記初期点からの深さを決定する
　ことを特徴とするウェブクローリング初期点選択方法。
　初期点からウェブデータをクローリングする深さを、探索深度スコア算出規則に基づいて算出される探索深度スコアが予め定められた閾値を下回る深さに決定する
　請求項９記載のウェブクローリング初期点選択方法。
　探索深度スコア算出規則に基づいて算出される探索深度スコアが、ウェブスコア算出規則に基づいて算出される初期点以外のウェブデータのスコアであるウェブスコアよりも大きいか否かを判断し、
　前記ウェブスコアが前記探索深度スコア以下であることを条件に、ウェブデータをクローリングする前記初期点からの深さをより深くすると決定し、前記ウェブスコアが前記探索深度スコアよりも大きいことを条件に、前記初期点以外のウェブデータを新たな初期点と決定する
　請求項９記載のウェブクローリング初期点選択方法。
　コンピュータに、
　指定されたカテゴリに属する情報との合致度合いに応じてウェブデータの重みを算出し、ウェブデータ間の有向リンクと当該ウェブデータの重みとを含むグラフである重み付き有向グラフを構成するグラフ構成処理、
　前記重み付き有向グラフをもとに、ウェブデータと当該ウェブデータにリンクされた他のウェブデータの重みが高いほど、当該ウェブデータのスコアを高く算出する規則であるウェブスコア算出規則に基づいて、クローリングを開始するウェブデータの初期位置である初期点として前記スコアがより大きいウェブデータを選択する初期点選択処理、および、
　前記重み付き有向グラフをもとに、前記初期点からの深さにおけるウェブデータの数が多くなるほどスコアを低く算出する規則である探索深度スコア算出規則に基づいて、ウェブデータをクローリングする前記初期点からの深さを決定するクローリング深度決定処理
　を実行させるためのウェブクローリング初期点選択プログラム。
　コンピュータに、
　クローリング深度決定処理で、探索深度スコア算出規則に基づいて算出される探索深度スコアが予め定められた閾値を下回る深さを、初期点からウェブデータをクローリングする深さと決定させる
　請求項１２記載のウェブクローリング初期点選択プログラム。
　コンピュータに、
　クローリング深度決定処理で、探索深度スコア算出規則に基づいて算出される探索深度スコアが、ウェブスコア算出規則に基づいて算出される初期点以外のウェブデータのスコアであるウェブスコアよりも大きいか否かを判断させ、前記ウェブスコアが前記探索深度スコア以下であることを条件に、ウェブデータをクローリングする前記初期点からの深さをより深くすると決定させ、前記ウェブスコアが前記探索深度スコアよりも大きいことを条件に、前記初期点以外のウェブデータを新たな初期点と決定させる
　請求項１２記載のウェブクローリング初期点選択プログラム。