WO2010041517A1

WO2010041517A1 - 情報収集装置、検索エンジン、情報収集方法およびプログラム

Info

Publication number: WO2010041517A1
Application number: PCT/JP2009/064362
Authority: WO
Inventors: 誠山本; 誠司濱田
Original assignee: インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date: 2008-10-08
Filing date: 2009-08-14
Publication date: 2010-04-15
Also published as: JPWO2010041517A1; JP5325229B2; US20110119263A1; US8676782B2

Abstract

【課題】　ネットワーク上の情報資源から情報を効率的に収集するための情報収集装置、情報収集方法およびプログラム、および情報が収集された情報資源を検索対象とする検索エンジンを提供すること。【解決手段】本発明の情報収集装置２０は、ネットワークを介して情報資源からデータを取得して、該データが含むリンク先アドレスを抽出する抽出部３４と、リンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する収集規則と照合して、該リンク先アドレスが指すリンク先情報資源の前記集合からの距離を反映するスコアを算出する算出部３４と、リンク先情報資源に対して算出された前記スコアに従って該リンク先情報資源を収集対象に含めるかを判定する判定部３０とを含み、ネットワーク上の情報資源から情報を収集している。

Description

情報収集装置、検索エンジン、情報収集方法およびプログラム

　本発明は、情報収集技術に関し、より詳細には、ネットワーク上の情報資源から情報を効率的に収集するための情報収集装置、情報収集方法およびプログラム、および情報収集された情報資源を検索対象とする検索エンジンに関する。

　従来より、ウェブ・クローラは、検索エンジンのデータベースやインデックスを作成するために、インターネットやエンタープライズ・ネットワークなどのネットワーク上の情報資源を、リンクを辿りながら巡回して、ウェブ・ページを定期的に収集するよう構成されたソフトウェア・コンポーネントである。通常、ウェブ・クローラは、収集の基点となる情報資源のＵＲＬ情報、および収集対象とするＵＲＬの範囲を限定するＵＲＬパターンを構成情報として保持している。

　従来技術では、管理者は、クローラを作動させる前に、対象のウェブ・サイトの構成を勘案して上記ＵＲＬパターンを収集規則として設定して、収集対象として許可するＵＲＬや禁止するＵＲＬを明示的に区分している（非特許文献１，非特許文献２）。そして、ウェブ・クローラは、管理者から設定された収集規則に従って、取得したウェブ・ページが含むリンク先のＵＲＬが許可されるか否かを判定しながらリンクを辿り、ウェブ・ページを収集する。また、ウェブ・クローラは、定期的に巡回して上記データベースやインデックスを更新している。

　収集規則により明示的に指定されないウェブ・ページへのリンクまたは転送が発生するような場合には、その宛先ページを収集対象とする場合には、管理者は、メンテナンス時などに、当該宛先ページを収集対象に含む規則を上記収集規則に手動で追加設定する。

　上述したように、従来からのウェブ・クローラでは、収集の基点となる情報資源のＵＲＬ情報、および収集対象とするＵＲＬの範囲を限定するＵＲＬパターンを使用して、収集の対象範囲を制限することができる。ネットワーク上の情報資源の範囲を制限する手法としては、その他、リンクパスに沿ったリンク数またはホップ数に基づく手法も知られている。

　例えば特開２００３－２４８６９６号公報（特許文献１）は、リンクパス情報を用いて対象ページのレイティングおよびフィルタリングを効率的かつ適確に行うことを目的として、規準となる各ページのＵＲＬの連結であるリンクパス情報からなるハイパーリンク情報をＤＢ部に格納し、対象ページからＤＢ部に格納されたリンクパス情報をパス探索部で検索し、ページ得点計算部において対象ページがデータベースに格納されたリンクパス情報に対して所定の基準に合致するか否かのレイティングを行い、このレイティング結果に基づき対象ページをフィルタリングする技術を開示している。

特開２００３－２４８６９６号公報

N. Alur, T. J Brown, C. Delgado, R. Isaacs, M. Przepiorka、Redbooks"WebSphere Information Integrator OmniFind Edition: Fast Track Implementation"、 "Appendix A. Template for topology and configuration information."，"Crawler properties templates"，"Web crawler properties template"，pp.566-570、［online］、２００５年７月１８日掲載，インターナショナル・ビジネス・マシーンズ・コーポレーション、［２００８年９月２９日検索］、インターネット<URL：http://www.redbooks.ibm.com/redbooks/pdfs/sg246697.pdf> "Administering Crawl for Web and File Share Content"、"Preparing for a Crawl"，"Configuring a Crawl"、［online］、２００７年７月掲載、グーグル・インク、［２００８年９月２９日検索］、インターネット<URL：http://code.google.com/apis/searchappliance/documentation/50/admin_crawl/Preparing.html#confh1>

　上述したように、ウェブ・クローラは、収集規則により規定された収集対象の範囲に従って、情報資源を巡回してウェブ・ページを収集し、エンド・ユーザによる検索などに供するためにデータベースやインデックスを最新の状態に維持している。しかしながら、収集規則により明示的に指定されないウェブ・ページへのリンクまたは転送が発生した場合には、管理者は、そのリンクまたは転送の発生を認識してから、例えば図１２に示すように、その宛先のページを収集対象とするための収集規則を手動で追加設定しなければならず、管理者の収集規則のメンテナンスにかかる負担を増大させていた。

　さらに、上述のように収集規則を設定変更する場合、不充分な詳細さで収集規則を変更してしまうと、不要なファイルまで収集範囲に含まれてしまう可能性があり、かといって、不要なファイルを除外するよう詳細に収集規則を設定すると、収集規則が複雑化してしまい、管理者の収集規則のメンテナンスにかかる負担を増大させてしまう。また、クローラの構成情報を設定する前に、必要なページおよび不要なページを区別できるほど充分に予めサイト構成を把握している必要があった。

　また、ウェブ・サイト上には、図１３に示すように、別サーバ上のウェブ・ページを直接出力するフレームを含んだウェブ・ページも存在する。このようなページ構成において、この別サーバ上の情報資源を収集対象に設定するためには、管理者は、収集規則を設定するために、各フレームのＵＲＬを取得しなければならない。一般にブラウザ上のアドレス・バーには、フレーム・セットのＵＲＬが記載されるのみであるが、収集規則を追加設定するためには、ウェブ・ページのソースを閲覧するか、または通信解析を行わなければならず、管理者の手間となっていた。

　さらに、上述のように手動で収集規則を設定変更した場合には、図１４に示すように、たとえ、新たに追加した規則によって収集対象とされたページが、サイト構成の変更などによって本来明示的に収集範囲に含められたページとの関連性が低くなったとしても、この追加の規則を適切に変更または削除しない限り、不要なページを収集し続けてしまうことになってしまう。すると、本来必要なページの収集に割り当てるべき処理リソースが奪われてしまい、従来のクローラでは、情報収集の処理効率を低下させてしまっていた。また、追加の規則を変更または削除しようとしても、サイト構成の変更などを監視していなければならず、また手動で行わなければならず、管理者の収集規則のメンテナンスにかかる負担を増大させていた。

　またネットワーク上の情報資源の範囲を規定する手法としては、上記特許文献1に開示される技術もあるが、これは、すべてのページ間のリンクを記録し、対象のページへ到達するまでに経由するページ数またはリンク数を利用してフィルタリングする対象を決定しようとするものである。特許文献１の技術では、到達可能なページの判定は、リンク数またはホップ数のみを基準としており、組織内ネットワークのようなドメイン構造を考慮できるものではなく、また、判定のために全体のリンク構造を保持しておかなければならならず、多くのリソースが必要となり、情報資源の対象範囲を規定する手法としても処理効率の観点から充分なものではなかった。

　すなわち、ネットワーク上の情報資源について、収集範囲を柔軟かつ適切な範囲に拡張可能であり、サイトの構成変更など、収集対象に含むべき情報資源の変更を発生し得る変更に対応可能なウェブ・クローラの開発が望まれていた。

　本発明は、上記問題点に鑑みてなされたものであり、管理者による収集規則の設定を煩雑にすることなく、また明示的に指定される収集範囲の収集効率の低下を低減しつつ、その収集範囲を適切な範囲へ柔軟に拡張可能であり、サイトの構成変更など、たとえ大きく情報資源間の関連性が変化するような環境変化に対応可能な、情報収集装置、情報収集方法およびプログラム、および情報収集された情報資源を検索対象とする検索エンジンを提供することを目的とする。

　本発明では、上記課題を解決するために、ネットワークを介して情報資源から取得したデータが含むリンク先アドレスを抽出し、抽出されたリンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する所与の収集規則と照合してスコアを算出する。上記スコアは、リンク先アドレスが指すリンク先情報資源と上記集合との距離を反映しているものである。そして、リンク先情報資源に対して算出されたスコアに従って、当該リンク先情報資源を収集対象に含めるかが判定される。

　上記構成により、例えば管理者によって明示的に設定された収集対象として適格なアドレスの集合を記述する収集規則の規定から外れてしまうアドレスに対しても、その集合からの距離を反映したスコアに対応させて、その情報資源を収集対象に含めることができ、情報資源間の関連性に応じて収集範囲を適切な範囲に拡張することが可能であり、もって効率的な情報収集が実現される。特に、管理者によって認識されなくとも、明示的に指定されたサイトと関連性の高いページが収集されるよう構成できるため、設定する収集規則を増やさなくとも効率的に収集対象を管理することができ、管理者による収集規則の設定および管理作業も容易なものとなる。

　また本発明では、リンク元情報資源に対し算出されたスコアを基準として、上記収集規則が含むアドレスの表現とリンク先アドレスとの適合の程度に応じて差分を決定し、上記リンク先情報資源に対するスコアを算出することができる。上記構成によれば、スコアがリンク元情報資源に対し算出されたスコアを基準に算出されるため、全体のリンク情報を保持してなくとも、リンク先情報資源に対するスコアを算出することが可能となり、もってスコア計算のためのリソースを最小化することができる。さらに、リンク元とリンク先とのスコアの差分を、収集規則が含むアドレスの表現とリンク先アドレスとの適合の程度に応じて決定できるため、アドレスに反映されるリンク先のサイト特性に応じたスコアリングが可能となり、より管理者の意図に沿うように収集範囲を拡張することができる。

　さらに本発明では、算出されたスコアに対し有効期限を設定することができ、リンク先情報資源に対しスコアが既に算出されている場合に、最大の有効なスコアを採用することができる。上記構成によれば、リンク先情報資源と上記集合との有効なリンク経路に沿った最短距離をスコアに反映させることが可能となる。すなわち、情報資源の削除などにより従前の有効な最短経路が断絶した場合であっても、次の有効な経路に沿った適切なスコアを算出して収集対象に含めるかを判定することができ、また上記集合からのすべての経路が断絶されるような場合には、有効期限の経過をまって収集対象から除外することができ、もって、情報資源間の関連性の経時的変化に対応することが可能となる。

　また本発明では、リンク先情報資源に対して算出されたスコアまたはその有効期限が収集対象または収集対象候補に含める範囲外となった場合に、収集対象または収集対象候補から該リンク先情報資源を除外し、リソースを開放することができる。上記構成では、スコアまたはその有効期限から、関連性がうすくなった情報資源が自動的に判定されて、その収集のために割かれたリソースが開放される。したがって、他の必要な情報資源に対する情報収集の遅延を好適に防止することができる。

　本発明では、上記差分を、リンク先アドレスが含むドメイン名と適格なアドレスの集合の要素が含むドメイン名との一致の程度、リンク先アドレスが含むパス部分と適格なアドレスの集合の要素が含むパス部分との一致の程度、リンク元情報資源からのリンク数およびリンク先アドレスが組織内ネットワーク上のものか否かに応じて、またはこれらの少なくとも１つに応じて決定することができる。

　上記構成によれば、例えば管理者によって明示的に設定される適格なアドレスの集合のサーバと同一サーバ上のリンク先情報資源や、近接ドメインのサーバ上のリンク先情報資源に対してスコアの差分を減少させたり、組織内ネットワーク外部のサーバ上のリンク先情報資源に対してスコアの差分を増大させたり、アドレスのパス部分の一致度、リンク元情報資源からのリンク数に応じてスコアの差分を増減させたりと、アドレス自体に表現されるリンク先のサイト特性や、リンク元情報資源の特性に応じて、よりユーザの意図を反映するように収集範囲を拡張することができる。また、その増減量を設定することにより、柔軟に収集の拡張範囲を管理することができる。

　さらに本発明によれば、収集規則に記述される集合に包含されないリンク先情報資源を収集対象に含めるよう判定した場合に、該リンク先情報資源のリンク先アドレスが含むドメイン名およびパスの少なくとも一部分を含むアドレスの表現を、追加の収集規則の候補として保持することができる。上記構成によれば、管理者が当初認識していなかった関連性の高いサイトに関する追加の収集規則が、候補として保持されるため、管理者は、そのサイトを容易に認識することができ、収集規則の設定変更を容易なもとすることができる。

　さらに本発明によれば、検索エンジンにおいて、クライアントからの検索要求に対し、該検索要求による照会集合に含まれる情報資源に対し算出された上記スコアを用いてランク付けして、検索結果を応答することができる。上記構成によれば、例えば管理者により明示的に設定された収集対象として適格なアドレスの集合からの距離を検索結果の順位に反映させることができる。

　上記集合からのリンク先情報資源の距離は、収集規則が含むアドレスの表現と、抽出された上記リンク先アドレスとの一致の程度に応じたリンク長を各リンクに沿って総和したものとすることができる。上記収集規則は、適格なアドレスを明示する許可アドレスの表現、または不適格なアドレスを明示する禁止アドレスの表現を含むことができる。

本発明の第１の実施形態による検索サーバを含んで構成される検索システムの概略図。本発明の第１の実施形態による検索サーバの機能ブロック図。本発明の第１の実施形態による検索サーバが保持する収集規則設定データのデータ構造を示す図。本発明の第１の実施形態による検索サーバが保持する（Ａ）巡回先テーブル、および（Ｂ）検索インデックス１２０のデータ構造を示す図。本発明の第１の実施形態によるリンク先情報資源に対するスコア評価手法を模式的に示す図。本発明の第１の実施形態によるリンク先の情報資源に対し算出されるスコアの更新手法を模式的に示す図。本発明の第１の実施形態によるクローラ部が実行する収集処理のフローチャート。本発明の第１の実施形態によるページ処理部が実行するページ処理のフローチャート。本発明の第１の実施形態によるリンク先評価部が実行するリンク先評価処理のフローチャート。本発明の第２の実施形態によるリンク先情報資源に対するスコア評価手法を模式的に示す図。本発明の第２の実施形態によるリンク先評価部が実行するスコア計算処理のフローチャート。従来技術による巡回収集の手順、および手動で追加設定される収集規則を示す図。従来からの他サーバ上のページをフレームに含むウェブ・ページを示す図。従来技術による巡回収集において、従前に収集されたページが削除された場合を示す図。

　以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。以下の実施形態では、ネットワーク上の情報資源からウェブ・ページを収集し、検索のために索引付けし、一方でクライアント・コンピュータ（以下、クライアントとして参照する。）１８からの検索要求に応える検索サーバ２０を例として説明する。

［第１の実施形態］
　図１は、本発明の第１の実施形態による検索サーバ２０を含んで構成される検索システム１０の概略図を示す。図１に示す検索システム１０は、組織内ネットワーク１２に接続される検索サーバ２０を含んで構成される。組織内ネットワーク１２は、例えば、ＴＣＰ／ＩＰおよびイーサネット（登録商標）によるローカル・エリア・ネットワーク（ＬＡＮ）、ＶＰＮ（Virtual Private Network）や専用線を使用するＷＡＮ（Wide Area Network）などとして構成され、例えばインターネット１４やウェブ・サーバ１６ａ，ｂに接続されている。

　検索サーバ２０は、所与の収集規則に従って、指定のウェブ・ページを基点としてリンクを辿りながら、ネットワーク上の情報資源からウェブ・ページを収集している。収集されたウェブ・ページには、クライアントからの検索要求に応えるために、構文解析および索引付けが施されて、検索インデックスが作成され、格納部２２（以下、検索インデックス格納部として参照する。）に格納される。また検索サーバ２０は、収集対象の候補とされる情報資源のアドレスが登録された巡回先テーブルを格納部２４（以下、巡回先テーブル格納部として参照する。）に格納し、収集規則に従って発見された新たな収集対象の候補を登録してゆく。この巡回先テーブルは、収集する際の待ちキューとして機能する。このアドレスは、ネットワーク上の情報資源を指し示すＵＲＩ（Uniform Resource Identifier）、より具体的には、ＵＲＬ（Uniform Resource Locator）やＵＲＮ（Uniform Resource Name）などとすることができる。なお、本実施形態では、ＵＲＬを用いて説明する。

　情報資源から収集されるデータとしては、ＨＴＭＬ（HyperText Markup Language）で記述される上記ウェブ・ページを挙げることができるが、特に限定されるものではない。その他、情報資源から収集されるデータとしては、データが他のデータを指し示すハイパーリンクを含み得る形式のデータ、例えばＸＭＬ（eXtensible Markup Language）およびＸＬｉｎｋ（XML Linking Language）で記述されるＸＭＬ文書、ハイパーリンクを含むドキュメント、スプレッドシート、プレゼンテーション、メール文書などを挙げることができる。その他、情報資源から収集されるデータとしては、イメージ、オーディオ、ビデオなどのマルチメディア・ファイルとしてもよい。

　上記検索サーバ２０は、概ねパーソナル・コンピュータ、ワークステーション、ミッドレンジまたはメインフレームなどの汎用コンピュータ装置として構成されている。検索サーバ２０は、より具体的には、シングルコア・プロセッサまたはマルチコア・プロセッサなどの中央処理装置（ＣＰＵ）、キャッシュ・メモリ、ＲＡＭ、ネットワーク・インタフェース・カード（ＮＩＣ）、ストレージ・インタフェースを介して接続されるストレージ装置などを備えている。ＮＩＣは、物理層レベルおよびリンク層レベルで検索サーバ２０を、ＴＣＰ／ＩＰなどの適切な通信プロトコルを使用する組織内ネットワーク１２へと接続している。ストレージ装置は、本検索サーバ２０が必要とする各種データを記憶するための記憶領域を提供している。

　検索サーバ２０は、ＷＩＮＤＯＷＳ（登録商標）２００Ｘ、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）、ｚ／ＯＳ（登録商標）などのオペレーティング・システム（以下、ＯＳとして参照する。）により制御され、例えばＤＢ２（登録商標）、Ｏｒａｃｌｅ（登録商標）Ｄａｔａｂａｓｅ、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬ　Ｓｅｒｖｅｒ（登録商標）などのデータベース管理システム（ＤＢＭＳ；Database Management System）を実装しており、上記ストレージ装置が提供する記憶領域に、データベースとして巡回先テーブル格納部２４および検索インデックス格納部２２を実現している。上記巡回先テーブルおよび検索インデックスは、コンピュータがアクセス可能なフォーマットでデータベース上に格納される。

　ウェブ・サーバ１６は、Apache HTTP Server、Microsoft（登録商標）Internet Information Servicesなどにより構成されており、潜在的な収集対象となる情報資源を提供している。ウェブ・サーバ１６には、それぞれ、組織内ネットワークのドメインを親ドメインとする固有のドメイン名が与えられていて、ウェブ・サーバ１６は、ＵＲＬのパス部分やクエリ文字列により指定される情報資源に対するデータの取得要求に応えている。上記インターネット１４にも、ウェブ・サーバ１６と同様の構成を有する図示しないサーバが存在し、これらのサーバ上の情報資源も潜在的な収集対象となる。上記ウェブ・サーバ１６も、検索サーバ２０と同様の汎用コンピュータ装置として構成することができる。

　また検索サーバ２０は、ＣＧＩ(Common Gateway Interface)、ＳＳＩ（Server Side Include）、サーブレット、ウェブ・アプリケーションなどのサーバ・プログラムを実装し、ＨＴＴＰプロトコルを使用して、クライアント１８からの検索要求を処理して、検索結果を返すよう構成されている。クライアント１８は、ウェブ・ブラウザ、プラグインなどを実装する汎用コンピュータ装置またはＰＤＡや携帯電話などの携帯端末装置などとして構成することができ、検索サーバ２０に対し検索要求を発行し、検索結果を取得している。

　図２は、本発明の第１の実施形態による検索サーバ２０上に実現される機能ブロックを示す。検索サーバ２０に含まれる各機能部（詳細は後述する。）は、コンピュータ可読な記録媒体からプログラムを読み出し、メモリ上にプログラムを展開し、プログラムを実行することより各ハードウェア資源を動作制御することによって実現される。なお、図２には、検索サーバ２０外部の構成である組織内ネットワーク１２およびインターネット１４が破線で囲まれて示されている。

　検索サーバ２０は、ネットワーク上の情報資源からウェブ・ページを収集するクローラ部３０を含んで構成される。クローラ部３０は、巡回先テーブル格納部２４が格納する巡回先テーブルに登録されたＵＲＬを順次読み出し、収集対象のＵＲＬが指し示す情報資源にアクセスして、ウェブ・ページを取得する。またクローラ部３０は、取得したウェブ・ページから適宜ハイパーリンクを識別し、予め設定された収集規則および評価方法に従って収集対象の候補とするべき情報資源を判定し、巡回先テーブルに登録して行く。

　収集の基点となるＵＲＬおよび収集規則は、クローラ部３０が参照する収集規則設定データ１００中に記述されている。図３は、本発明の第１の実施形態による検索サーバ２０が保持する収集規則設定データ１００のデータ構造を示す。クローラ部３０の設定情報として保持される収集規則設定データ１００は、基点となるＵＲＬが登録される基点ＵＲＬリスト１００ａと、収集対象として適格なＵＲＬの集合を記述する収集規則が登録される規則項目リスト１００ｂとを含んでいる。基点として登録されたＵＲＬは、まず巡回先テーブル格納部２４の巡回先テーブルに登録される。

　収集規則の各項目は、収集対象として適格なＵＲＬの集合を内包的に記述し、収集対象として明示的に許可する許可アドレス・パターン（allow）、または明示的に許可しない禁止アドレス・パターン（forbid）を含むことができる。各項目におけるアドレス・パターンとしては、例えば、ＨＴＴＰまたはＨＴＴＰＳスキームにより記述されるアドレスのプレフィックス（Prefix）、ドメインまたはＩＰアドレスを、ワイルドカード、範囲指定または正規表現により表現した文字列を採用することができるが、特に限定されるものではない。

　また、各項目間の優先順位については、複数の項目によって収集対象として適格なＵＲＬの集合が一義に規定され、任意のＵＲＬに対し明示的に許可または禁止が指定されるか、または規定されないかを判定可能である限り、特に限定されるものではない。例えば項目の設定順位、アドレス・パターンの特定の詳細度などに対して適宜ルールを設けることができる。また、収集規則設定データ１００には、収集の対象とする拡張子や除外する拡張子の指定などを含むこともできる。

　再び図２を参照すると、クローラ部３０は、より具体的には、サブモジュールとして、ページ処理部３２およびリンク先評価部３４を含んで構成される。ページ処理部３２は、収集対象の情報資源からウェブ・ページを取得し、そのページに対しＨＴＭＬ構文解析を施して、ページに埋め込まれたハイパーリンクを識別し、そのリンク先のＵＲＬを抽出し、リンク先評価部３４に渡している。取得されたウェブ・ページは、索引付けのためにページ格納部２６に格納される。ページ処理部３２は、本実施形態の抽出部として機能する。

　リンク先評価部３４は、抽出されたリンク先ＵＲＬそれぞれについて、上記収集規則設定データ１００によって規定される収集規則の各項目と照合しながら、所定の評価方法に従って、リンク先ＵＲＬが指し示す情報資源に対しスコア（スコアの評価手法については、詳細を後述する。）を算出する。リンク先評価部３４は、本実施形態の算出部として機能する。

　再び図３を参照すると、収集規則設定データ１００は、さらに、算出されたスコアに対する、収集対象に含めるための閾値１００ｃ、および収集対象の候補に含めるための閾値１００ｄを含んでいる。図２に示すリンク先評価部３４は、抽出されたそれぞれのリンク先ＵＲＬについて、算出されたスコアと閾値１００ｄとを比較して、リンク先ＵＲＬが指し示す情報資源を収集対象の候補に含めるか否かを判定する。そして、収集対象の候補の情報資源には、スコアの有効期限が定められ、そのＵＲＬ、スコアおよび有効期限が巡回先テーブルに登録される。スコアに設定される有効期限は、好適には、リンク元のウェブ・ページの次回収集予定日時を起点として所定のマージン設けた日時とすることができる。

　図４（Ａ）は、本発明の第１の実施形態による検索サーバ２０が保持する巡回先テーブル１１０のデータ構造を示す。図４（Ａ）に示す巡回先テーブル１１０は、収集対象の候補となる情報資源のＵＲＬが入力されるフィールド１１０ａと、その算出されたスコアが入力されるフィールド１１０ｂと、そのスコアの有効期限が入力されるフィールド１１０ｃとを含んでいる。巡回先テーブル１１０は、スコアのフィールド１１０ｂでソーティングされて、より大きなスコアの情報資源が優先して巡回されるよう構成することができる。

　図３に示した閾値１００ｃは、本実施形態において判定部として機能するクローラ部３０が、巡回先テーブル１１０に登録されたレコードを読み出した際に比較される。クローラ部３０は、図４（Ａ）に示す巡回先テーブル１１０のレコードを順次読み出して、そのスコアおよび有効期限を参照して、ＵＲＬが指し示す情報資源を収集対象としウェブ・ページを取得するか否かを判定している。取得されたウェブ・ページは、ページ格納部２６に格納されることになるが、好適には、検索の際にスコアを活用するために、そのスコアも対応付けてページ格納部２６に格納される。

　以下、図５を参照して、リンク先情報資源に対するスコア評価手法について説明する。図５は、リンク先情報資源に対するスコア評価手法を模式的に示す。図５には、ＵＲＬが指し示す情報資源として、複数のウェブ・ページ（以下、単にページとして参照する。）Ａ～Ｊが示されている。そして、各ページＡ～Ｊは、収集規則設定データ１００中の許可アドレス・パターンにより規定される許可集合の領域、禁止アドレス・パターンより許可集合から除外された集合の領域、および禁止アドレス・パターンより規定される禁止集合の領域、規定外の領域のいずれか領域上に存在する。

　各ページＡ～Ｊは、それぞれ実線で示すハイパーリンクにより他のページにリンクされており、クローラ部３０は、基点ＵＲＬが指し示すページＡから、ハイパーリンクを辿り、各リンク先のページについて順次スコアを算出する。図５に示すように、許可集合の要素であるページＡ～Ｄには、「１００」で示す最大値のスコアが割り当てられ、一方、禁止アドレス・パターンにより規定される集合に含まれるページＥ，Ｆには、「０」で示す最小値のスコアが割り当てられている。許可集合から禁止アドレス・パターンが規定する集合を除いた集合が、規則項目リスト１００ｂにより規定される収集対象として適格なＵＲＬの集合を構成している。

　収集規則の各項目に明示的に規定される領域外に存在するページＧ～Ｊには、中間的な値が算出され割り当てられている。図５に示す例では、ページＡから直接リンクが張られた規定外の領域にあるページＧには、許可集合に割り当てられる最大値のスコア「１００」から減算量「２５」が減算されたスコア「７５」が割り当てられている。規定外の領域のページＧからさらにリンクが張られたページＨには、さらに減算量「２５」で減算されたスコア「５０」が割り当てられている。

　一方、規定外のページＩには、許可集合の要素であるページＤと、規定外のページＧとの両方からリンクが張られており、この場合、ページＤから直接リンクされた場合に算出されるスコア「７５」が、ページＧを経由する場合のスコア「５０」より大きいために、優先されている。

　図５に模式的に示されるスコア評価手法によれば、上記スコアは、収集対象として適格なＵＲＬの集合に包含されるページから評価対象のページまで、経由するリンク毎に所定の減算量が減算されて求められる。つまり、所定の減算量をリンク長に対応させると、適格なＵＲＬの集合から評価対象のページまでの、経由するリンクのリンク長の総和として定義される距離を反映した値となる。図５に示す例では、リンク長、つまり減算量は、固定値とされているが、後述するように、リンク先のサイトの特性に応じた値とすることもできる。

　なお、本実施形態では、許可アドレス・パターンと禁止アドレス・パターンとを収集規則に記述し、その許可集合には最大値のスコアを、禁止集合には最小値のスコアを割り当てるよう構成している。しかしながら、収集規則とスコアとの対応は、特に限定されるものではなく、収集規則のアドレス・パターンにスコアを直接指定する手法を採用することもできる。

　以下、図６を参照して、スコアに対し設定される有効期限の働きについて説明する。図６は、リンク先の情報資源に対し算出されるスコアの更新手法を模式的に示す。図６は、クローラ部３０が、図５に示したページＡ～Ｊを一巡してから次の収集処理が開始されるまでの間に、サイト構成の変更などによりページＤが削除されてしまった場合を例示している。

　図６に示すように、以前に収集したページＤが削除されると、この例では、ページＦおよびページＪに対するリンクが断絶される。そのため、ページＦおよびページＪは、最後にページＤが取得されスコアが算出された際に付された有効期限が切れると、スコアが算出されないため、その有効期限が更新されなくなる。したがって、リンク元のページが削除され、リンク元の次回更新予定日時を起点として好適に設定される有効期限が切れると、その情報資源の対応するレコードが巡回先テーブル１１０から削除され、また対応するデータもページ格納部２６から削除されることとなる。

　一方、ページＤの削除に伴い、ページＤからページＩへのリンクも断絶される。しかしながら、図６に示す例では、ページＩにはページＧからのリンクも張られているため、ページＩのスコアは、ページＧを収集した際に再計算され、有効期限も更新されることとなる。したがって、ページＩのスコアは、ページＧを経由するルートで算出されるスコア「５０」にて更新され、好適にはページＧの次回更新予定日時を起点として設定されることとなる。

　スコアに対し有効期限を設定し、複数のリンク経路の存在により異なるスコアが算出される場合に最大のものを優先することにより、巡回収集のたびに、リンク先のページへの有効なリンク経路に沿った最短距離をスコアに反映させることが可能となる。つまり、ページ間のリンク構造の経時的変化に対応可能であるといえる。なお、本実施形態では、再び巡回収集された際に、その時点で有効なリンク経路に沿った最短距離を反映するスコアを再計算するよう構成されているが、他の実施形態では、スコアおよび有効期限の複数のセットを保持しておき、一方の有効期限が切れた際に、残されたより大きく有効なスコアを採用するように構成することもできる。

　またスコアに有効期限を設定することにより、例え収集対象として一度登録されたとしても、到達するルートが途絶えると、そのページが順次削除される。このため、スコアまたはその有効期限から、関連性がうすくなったページが自動的に判定されて、その収集のために割かれたリソースが開放される。したがって、他の必要なページに対する情報収集の遅延を好適に防止することができる。

　再び図２を参照すると、検索サーバ２０は、さらに、パーサ部４０、インデクサ部５０、および検索エンジン部６０を含んで構成される。パーサ部４０は、クローラ部３０によりページ格納部２６に収集されたウェブ・ページを読み出し、タグの除去処理などを施し、さらに形態素解析などの文字列解析処理を施して、算出されたスコアとともに解析結果をインデクサ部５０へ渡す。インデクサ部５０は、渡された解析結果を用いて索引付けを施して検索インデックスを作成し、検索インデックス格納部２２に格納する。

　図４（Ｂ）は、本発明の第１の実施形態による検索サーバ２０が保持する検索インデックス１２０のデータ構造を示す。図４（Ｂ）に示す検索インデックス１２０は、検索対象となる情報資源のＵＲＬが入力されるフィールド１２０ａと、その索引付けにより作成された索引情報が入力されるフィールド１２０ｂと、その算出されたスコアが入力されるフィールド１２０ｃとを含んでいる。実際に検索処理に供される検索インデックスは、好適には、ウェブ・ページ中の各語句の出現位置を示す情報を含んだ転置インデックス（Inverted Index）に上記スコアが付属情報として付加されたデータ構造として構築される。

　検索エンジン部６０は、上記スコアを付属情報として含む検索インデックスを参照して、クライアントからの検索要求を処理する。クライアントに返される検索結果が含む情報資源は、上記スコアを利用して、上記明示的に指定された適格なＵＲＬの集合から離れるほど、順位を下げるようにランク付けされる。

　なお、図２に示す検索サーバ２０は、ハードウェアおよびソフトウェアが協働して、ウェブ・サーバ１６およびインターネット１４上の情報資源から情報を収集するクローラとしての機能、収集した情報を索引付けするインデクサとしての機能、およびクライアントからの検索要求に応答して検索結果を返す検索エンジンとしての機能のすべての機能を提供するよう構成されている。しかしながら、他の実施形態では、クローラとしての機能を他の機能から分離して構成することもでき、特に限定されるものではない。

　以下、図７～図９を参照して、本発明の第１の実施形態による収集処理の詳細について説明する。図７は、本発明の第１の実施形態によるクローラ部３０が実行する収集処理のフローチャートを示す。図７に示す処理は、例えば、管理者などからの外部指令に応答したり、予め設定されたスケジュール、予め設定されたインターバルにより規定される時刻が到来したことに応答して、ステップＳ１００から開始される。

　なお、本実施形態では、説明の簡単のために、スケジュールなどに対応して一括にウェブ・ページの収集する場合を例に説明するが、巡回収集のスケジュール方法は、特に限定されるものでない。例えば、他の実施形態では、各ＵＲＬ毎に、そのページの更新頻度の統計情報を反映させて、設定の収集頻度の範囲に応じた収集予定日時を設定し、連続的に巡回収集するよう構成できる。その場合には、上記収集規則設定データ１００に明示される集合に包含されるＵＲＬに対しては、より高い頻度で優先的に、中間的なスコアが設定されるＵＲＬに対しては、より低い頻度で収集するよう構成することもできる。

　ステップＳ１０１では、クローラ部３０は、順次、巡回先テーブル１１０からレコードを取得し、収集対象の候補となるＵＲＬ、算出されたスコア、スコアに設定された有効期限を得る。ステップＳ１０２では、クローラ部３０は、収集対象に含めるための閾値（収集）１００ｃと、得られたスコアとを比較し、取得したレコードのＵＲＬが指し示す情報資源を収集対象とするか否かを判定する。ステップＳ１０２で、収集対象とすると判定された場合（ＹＥＳ）には、ステップＳ１０３へ処理を進める。ステップＳ１０３では、さらに、現在時刻とそのスコアに設定された有効期限とを比較し、まだ当該情報資源のスコアが有効であり、まだ収集対象として有効であるか否かを判定する。

　ステップＳ１０３、現在時刻が有効期限以内であり、スコアが有効であると判定された場合（ＹＥＳ）には、ステップＳ１０４へ処理を進める。ステップＳ１０４では、クローラ部３０は、ページ処理部３２を呼び出して、得たＵＲＬおよびスコアを引数として処理を渡す。ページ処理部３２から処理を戻されると、クローラ部３０は、ステップＳ１０５で、未だ未処理のレコードが有るか否かを判定する。

　ステップＳ１０５で、まだ未処理のレコードが有ると判定された場合（ＹＥＳ）には、ステップＳ１０１へ処理をループさせ、すべてのレコードについての処理が一巡するまで繰り返させる。一方、ステップＳ１０５で、未処理のレコードがもう存在しないと判定された場合（ＮＯ）には、ステップＳ１０６へ進め、当該収集処理を終了させる。

　一方、ステップＳ１０２で、スコアが収集対象に含めるための閾値（収集）１００ｃ未満であり、収集対象としないと判定された場合（Ｓ１０２：ＮＯ）、およびステップＳ１０３で、現在時刻が有効期限外であり、スコアが無効であると判定された場合（Ｓ１０３：ＮＯ）には、ステップＳ１０７へ処理を進める。ステップＳ１０７では、当該レコードに対応する情報資源のページ削除処理を実施する。このページ削除処理では、クローラ部３０は、当該ウェブ・ページを過去に収集していた場合には、そのページ・データをページ格納部２６から削除するか、あるいは索引付け対象外に設定する。また好適には、スコアの有効期限の切れたレコードを巡回先テーブル１１０から削除する。

　なお、本実施形態では、巡回先テーブル１１０には、閾値（格納）１００ｄ以上の収集対象の候補となるＵＲＬがレコードに登録され、レコードが読み出された際に、閾値（収集）１００ｃ以上のものを収集対象として判定するよう構成している。しかしながら、他の実施形態では、閾値（収集）１００ｃ以上の収集対象となるＵＲＬのみが巡回先テーブル１１０に登録され、レコードが読み出された際には、その有効期限の確認のみを行うように構成することもできる。

　図８は、本発明の第１の実施形態によるページ処理部３２が実行するページ処理のフローチャートを示す。図８に示す処理は、図７に示した収集処理のステップＳ１０４で、クローラ部３０から呼び出されて、ステップＳ２００から開始される。ステップＳ２０１では、ページ処理部３２は、渡されたＵＲＬに宛てて取得要求を発行し、情報資源からウェブ・ページを取得する。ステップＳ２０２では、ページ処理部３２は、ＨＴＭＬ構文解析により、ウェブ・ページ中に埋め込まれたハイパーリンクを識別して、リンク先ＵＲＬを抽出する。

　ステップＳ２０３では、ページ処理部３２は、未処理のリンクがあるか否かを判定する。ステップＳ２０３で、未処理のリンクが有ると判定された場合（ＹＥＳ）には、ステップＳ２０４へ処理を進める。ステップＳ２０４では、ページ処理部３２は、リンク先評価部３４を呼び出して、リンク元の当該ウェブ・ページのスコアを引数として処理を渡す。そして、リンク先評価部３４から処理を戻されると、ステップＳ２０３へループさせ、抽出されたすべてのハイパーリンクについて処理を繰り返させる。一方、ステップＳ２０３で、取得したウェブ・ページが含むすべてのリンクに対し処理が完了したと判定された場合（ＮＯ）には、ステップＳ２０５へ進め、当該ページ処理を終了させ、呼び出し元である図７に示す収集処理に処理を戻す。

　図９は、本発明の第１の実施形態によるリンク先評価部３４が実行するリンク先評価処理のフローチャートを示す。図９に示す処理は、図８に示したページ処理のステップＳ２０４で、ページ処理部３２から呼び出されて、ステップＳ３００から開始される。ステップＳ３０１では、リンク先評価部３４は、収集規則設定データ１００に明示的に指定される収集規則リストの各項目と、渡されたＵＲＬとを照合して行く。ステップＳ３０２では、リンク先評価部３４は、収集規則リスト中にそのＵＲＬと一致する項目があるか否かを判定する。

　ステップＳ３０２で、収集規則の項目に一致するものがあると判定された場合（ＹＥＳ）には、ステップＳ３０７へ処理を進める。ステップＳ３０７では、リンク先評価部３４は、当該ＵＲＬが許可アドレス・パターンと適合し、明示的に収集が許可されたものであるか否かを判定する。リンク先評価部３４は、ステップＳ３０７で、明示的に許可されたものであると判定された場合（ＹＥＳ）には、ステップＳ３０８へ処理を進め、リンク先ＵＲＬが指し示す情報資源に対し、最大値であるスコア「１００」を割り当てて、ステップＳ３１０へ処理を進める。一方、ステップＳ３０７で、明示的に禁止とされたものであると判定された場合（ＮＯ）には、ステップＳ３０９へ処理を進め、リンク先ＵＲＬが指し示す情報資源に対し、最小値であるスコア「０」を割り当てて、ステップＳ３１０へ処理を進める。

　一方、ステップＳ３０２で、収集規則の項目に一致するものがないと判定された場合（ＮＯ）には、ステップＳ３０３へ処理を進める。ステップＳ３０３では、リンク先評価部３４は、当該ウェブ・ページに割り当てられたスコアを基準として、所定の減算量を減算し、評価対象のリンク先ＵＲＬが指し示す情報源に対するスコアを算出する。ステップＳ３０４では、リンク先評価部３４は、算出されたスコアと、収集対象の候補に含めるための閾値（格納）１００ｄとを比較する。ステップＳ３０４で、算出されたスコアが閾値（格納）１００ｄ以上であると判定された場合（ＹＥＳ）には、ステップＳ３０５へ処理を進める。

　ステップＳ３０５では、リンク先評価部３４は、巡回先テーブル１１０を参照して、当該リンク先ＵＲＬに対応するスコアおよびその有効期限の取得を試み、算出されたスコアが、存在しうる有効なスコアの格納値以上であるか否かを判定する。ステップＳ３０５で、算出されたスコアが、存在しうる有効なスコアの格納値以上であると判定された場合（ＹＥＳ）では、ステップＳ３１０へ処理を進める。

　一方、ステップＳ３０４で、算出されたスコアが閾値（格納）１００ｄ未満であると判定された場合（Ｓ３０４：ＮＯ）、およびステップＳ３０５で、算出されたスコアが存在しうる有効なスコアの格納値未満であると判定された場合（ＮＯ）には、ステップＳ３０６へ進め、リンク先評価部３４は、本フローで算出されたスコアを破棄して、当該リンク先評価処理を終了させて、呼び出し元である図８に示すページ処理に戻す。

　ステップＳ３１０では、有効期限を設定して、ステップＳ３０８、ステップＳ３０９、またはステップＳ３０３で算出されたスコアを確定し、巡回先テーブル１１０に対応するレコードを適宜追加または更新し、ステップＳ３０６へ進めて、当該リンク先評価処理を終了させて、呼び出し元である図８に示すページ処理に戻す。

　上述したように、第１の実施形態の処理により、例えば管理者によって明示的に設定された収集規則の規定から外れてしまうＵＲＬに対しても、その収集規則が規定する収集対象として適格なアドレスの集合からの距離を反映したスコアに対応させて、適合するウェブ・ページを収集対象に含めることができ、ウェブ・ページ間のリンクによる関連性に応じて収集範囲を適切な範囲に拡張することが可能とされる。特に、管理者によって認識されなくとも関連性の高いサイトが収集されるよう構成されているため、設定する収集規則の項目の数や、その詳細度を増大させなくとも、効率的に収集対象の範囲を管理および制御することができ、管理者による収集規則の設定および管理作業も容易なものとなる。

　なお、他の実施形態では、図９に示すステップＳ３１０において、さらに、収集規則の規定外の収集対象の候補とするＵＲＬが見つかった場合に、そのＵＲＬが含むドメイン名およびパスの少なくとも一部分を含むアドレス・パターンを、収集規則の追加の項目の候補として保持しておき、管理者が収集規則設定データ１００を手動で設定変更する際に提示できるよう構成することができる。例えば、「http://www.docs.example.com/form/required.html」が収集対象の候補として見つかった場合に、「http://www.docs.example.com/form/*」や「http://www.docs.example.com/*」を許可アドレス・パターンの追加の候補として提案するために保持することができる。追加の候補として保持された許可アドレス・パターンは、後に管理用グラフィカル・ユーザ・インタフェースなどに表示させ、管理者による手動設定の際に提案することができる。

［第２の実施形態］
　上述までの第１の実施形態では、スコアを算出する際の減算量を一定としていた。以下、リンク先ＵＲＬのサイト特性などに応じて減算量を変化させ、より柔軟に収集範囲を拡張する第２の実施形態について説明する。なお、第２の実施形態の検索システム１０および検索サーバ２０は、第１の実施形態と大部分において同一の構成を有しているため、相違する部分を中心に説明する。

　以下、図１０を参照して、サイト特性に応じたリンク先情報資源に対するスコア評価手法について説明する。図１０は、第２の実施形態によるリンク先情報資源に対するスコア評価手法を模式的に示す。図１０には、図５と同様に、ＵＲＬが指し示す情報資源として複数のページＡ～Ｍが示されている。そして、ページＡ～Ｍは、それぞれ、許可集合の領域、除外された集合の領域、禁止集合の領域、さらに、許可集合に含まれるＵＲＬのものと同一サーバ上のＵＲＬの集合の領域、許可集合に含まれるＵＲＬのサーバの近接ドメインのサーバ上のＵＲＬの集合の領域、組織内ネットワーク１２外部のサーバ上のＵＲＬの集合の領域、それ以外の規定外の領域のいずれか領域上に存在することとなる。

　図１０に示す例では、図５と同様に、許可集合の要素であるページＡ～Ｄには、「１００」で示す最大値のスコアが割り当てられ、一方、禁止アドレス・パターンにより規定される集合に含まれるページＥ，Ｍには、「０」で示す最小値のスコアが割り当てられている。第１の実施形態と同様に、許可アドレス・パターンが規定する集合から禁止アドレス・パターンが規定する集合を除いた集合が、収集規則により明示的に規定される収集対象として適格なＵＲＬの集合を構成している。収集規則の各項目に規定される領域外に存在するページＦ～Ｌには、許可集合のページのスコアから所定の減算量だけ減算された中間的な値が算出される。

　第２の実施形態では、図１０に示すように、収集対象として適格なＵＲＬの集合として規定される領域外に、サイト特性に対応した複数の領域が存在する。サイト特性によるページの分類としては、その情報資源をホストするサーバと同一ドメイン名が許可アドレス・パターンに存在するページ（図１０の例示ではページＦ，Ｇ）がある。この分類に属するページは、明示的に収集対象とされた許可集合のＵＲＬのものと同一サーバ上の情報資源であるため、例えば、このページをリンク先としたスコアを評価する際には、減算量を（例えば減算量「１０」に）減量するよう構成することができる。

　また、同一サーバ上のページとしては、さらに、サーバのドメイン名のみならず、パスの一部分がマッチする許可アドレス・パターンが存在する場合がある。このような場合に、このページをリンク先としたスコアを評価する際には、減算量を（例えば、第１階層目までマッチする場合に減算量「５」に）減量するよう構成することができる。

　サイト特性によるページの分類としては、その他、その情報資源をホストするサーバのドメイン名の親ドメインが許可アドレス・パターンに存在するページ（図１０の例示ではページＨ，Ｉ）がある。この分類に属するページは、許可集合に含まれるＵＲＬのサーバの近接ドメインのサーバ上の情報資源であるため、例えば、このページをリンク先としたスコアを評価する際には、減算量を（例えば減算量「１５」に）減量するよう構成することができる。なお、近接ドメインの判定手法は、特に限定されるものではなく、親ドメインすべてとの一致の程度を判定することもでき、最上位ドメインを除く親ドメインの一致の程度を判定することもでき、親ドメイン部分の一致の程度に応じて減算量を変化させてもよい。

　サイト特性によるページの分類としては、さらに、その情報資源をホストするサーバの親ドメインが、検索サーバ２０の親ドメインと一致しない外部サーバ上のページ（図１０の例示ではページＪ，Ｋ）がある。この分類に属するページは、検索サーバ２０が所属する組織内ネットワーク１２外部のサーバ上の情報資源であるため、例えば、このページをリンク先としたスコアを評価する際には、減算量を（例えば減算量「３０」に）増量するよう構成することができる。

　サイト特性による上記分類のいずれにも属さないページ、例えばページＬに対しては、減算量をデフォルト値（例えば減算量「２５」）とするよう構成することができる。さらに、第２の実施形態では、図１０には示していないが、さらに、リンク元のウェブ・ページに含まれるリンク数に応じても、減算量を変化させるよう構成することができる。

　第２の実施形態による収集処理、ページ処理、およびリンク先評価処理の処理フローについては、第１の実施形態と同様に概ね図７～図９に示した処理フローとすることができる。しかしながら、第２の実施形態は、図９に示すステップＳ３０３において、図１１に示すスコア計算処理が呼び出される点で、第１の実施形態と相違している。

　以下、図１１を参照して、スコア計算処理の詳細について説明する。図１１は、本発明の第２の実施形態によるリンク先評価部３４が実行するスコア計算処理のフローチャートを示す。図１１に示す処理は、図９に示したステップＳ３０３の処理により呼び出されて、ステップＳ４００から開始される。

　ステップＳ４０１では、リンク先評価部３４は、減算量をデフォルト値（例えば「２５」）に設定する。リンク先評価部３４は、ステップＳ４０２で、リンク先のＵＲＬが含むサーバのドメイン名と、収集規則リストに含まれる許可アドレス・パターンとを照合し、ステップＳ４０３で、一致するサーバのドメイン名が収集規則リスト中に存在するか否かを判定する。

　ステップＳ４０３で、一致するものがあると判定された場合（ＹＥＳ）には、ステップＳ４０４へ処理を進める。ステップＳ４０４では、リンク先評価部３４は、リンク先ＵＲＬが含むサーバが許可されているサーバと同一であるとし、減算量を（例えば４割に）減らす。リンク先評価部３４は、ステップＳ４０５では、リンク先ＵＲＬのパス部分と一致した許可アドレス・パターンとを照合し、ステップＳ４０６で、まずパス部分の第１階層目まで一致するか否かを判定する。

　ステップＳ４０６で、第１階層目まで一致すると判定された場合（ＹＥＳ）には、ステップＳ４０７へ処理を進め、リンク先評価部３４は、さらに減算量を（例えば、５割に）減らし、ステップＳ４０５へ再びループさせ、次の階層を対象とした比較を進め、一致している間（ステップＳ４０６：ＹＥＳの間）ループさせる。一方、ステップＳ４０６で、階層が一致しないと判定された場合（ＮＯ）には、ステップＳ４１０へ処理を進める。

　再びステップＳ４０３に説明を戻すと、ステップＳ４０３で一致するサーバのドメイン名が収集規則リスト中に存在しないと判定された場合（ＮＯ）には、ステップＳ４０８へ処理を進める。ステップＳ４０８では、リンク先評価部３４は、リンク先ＵＲＬが含むサーバが、収集規則リスト中にあるサーバの近接ドメイン内にあるか否かを判定する。

　ステップＳ４０８で、近接ドメイン内に存在すると判定された場合（ＹＥＳ）には、ステップＳ４０９で、リンク先評価部３４は、減算量を（例えば６割に）減らし、ステップＳ４１０へ進める。一方、ステップＳ４０８で、近接ドメイン内ではないと判定された場合（ＮＯ）には、ステップＳ４１０へ直接進める。

　ステップＳ４１０では、リンク先評価部３４は、さらに、リンク先ＵＲＬが含むサーバの親ドメイン名と、検索サーバ２０に割り当てられる親ドメインとを比較し、ステップＳ４１１では、リンク先ＵＲＬが含むサーバが組織内ネットワーク１２外部のサーバであるか否かを判定する。ステップＳ４１１で、外部サーバであると判定された場合（ＹＥＳ）には、ステップＳ４１２へ進め、リンク先評価部３４は、減算量を（例えば、２割増しに）増やし、ステップＳ４１３へ処理を進める。一方、ステップＳ４１１で、組織内ネットワーク１２に所属するサーバであると判定された場合（ＮＯ）には、直接ステップＳ４１３へ進められる。

　ステップＳ４１３では、引き続き、リンク元のウェブ・ページが含むリンク数Ｌに応じて、減算量を増やす（例えば、リンク数Ｌ分だけ増やす）。これは、ブックマークやリンク集のようなウェブ・ページからのリンク先のスコアを低く評価し、収集対象に含まれにくいようにするためである。

　ステップＳ４１４では、リンク元のウェブ・ページのスコアから、ステップＳ４００～Ｓ４１３までの処理により求められた減算量分を減算し、最終的なスコアを算出し、ステップＳ４１５で、呼び出し元である図９に示したリンク先評価処理に戻す。

　図１０および図１１を参照して説明したスコア評価手法によれば、上記スコアは、収集対象として適格なＵＲＬの集合に包含されるページから評価対象のページまで、経由するリンク毎にそのサイト特性に応じた減算量が減算されて求められる。つまり、リンク元およびリンク先のスコアの差分である減算量をリンク長に対応させると、適格なＵＲＬの集合から評価対象のページまでの、経由するリンクのリンク長を総和して求められる距離を反映した値となる。図１０に示す例では、リンク長、つまり減算量は、ＵＲＬの文字列に表現されているリンク先のサイトの特性に応じて変化させることができ、これらの減算量を増減させる設定量を調整することで、より管理者の意図に沿うように収集範囲を拡張することが可能となる。

　以上説明したように、本発明の実施形態によれば、管理者による収集規則の設定を煩雑にすることなく、また明示的に指定される収集範囲の収集効率の低下を低減しつつ、その収集範囲を適切な範囲へ柔軟に拡張可能であり、サイトの構成変更など、たとえ大きく情報資源間の関連性が変化するような環境変化にも対応可能な、情報収集装置、情報収集方法およびプログラム、および情報収集された情報資源を検索対象とする検索エンジンを提供することが可能となる。

　なお、本発明につき、発明の理解を容易にするために各機能部および各機能部の処理を記述したが、本発明は、上述した特定の機能部が特定の処理を実行する外、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能部に、上述した処理を実行するための機能を割当てることができる。

　本発明の上記機能は、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｂｅａｎｓ、Ｊａｖａ（登録商標）Ａｐｐｌｅｔ、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔ、Ｐｅｒｌ、Ｒｕｂｙなどのオブジェクト指向プログラミング言語、ＳＱＬなどのデータベース言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。

　これまで本発明を、特定の実施形態をもって説明してきたが、本発明は、実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１０…検索システム、１２…組織内ネットワーク、１４…インターネット、１６…ウェブ・サーバ、１８…クライアント、２０…検索サーバ、２２…検索インデックス格納部、２４…巡回先テーブル格納部、２６…ページ格納部、３０…クローラ部、３２…ページ処理部、３４…リンク先評価部、４０…パーサ部、５０…インデクサ部、６０…検索エンジン部、１００…収集規則設定データ、１１０…巡回先テーブル、１２０…検索インデックス

Claims

　ネットワーク上の情報資源から情報を収集する情報収集装置であって、
　前記ネットワークを介して情報資源からデータを取得して、該データが含むリンク先アドレスを抽出する抽出部と、
　前記リンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する収集規則と照合して、該リンク先アドレスが指すリンク先情報資源の前記集合からの距離を反映するスコアを算出する算出部と、
　前記リンク先情報資源に対して算出された前記スコアに従って該リンク先情報資源を収集対象に含めるかを判定する判定部と
　を含む、情報収集装置。
　前記算出部は、リンク元情報資源に対し算出された前記スコアを基準として、前記収集規則が含むアドレスの表現と前記リンク先アドレスとの適合の程度に応じた差分を決定し、前記リンク先情報資源に対する前記スコアを算出する、請求項１に記載の情報収集装置。
　前記算出部は、前記スコアに対し有効期限を設定し、前記リンク先情報資源に対しスコアが既に算出されている場合には、最大の有効なスコアを採用する、請求項２に記載の情報収集装置。
　前記判定部は、前記リンク先情報資源に対して算出された前記スコアまたはその有効期限が収集対象または収集対象候補に含める範囲外となった場合に、前記収集対象または前記収集対象候補から該リンク先情報資源を除外し、リソースを開放する、請求項３に記載の情報収集装置。
　前記算出部は、前記リンク先アドレスが含むドメイン名と前記適格なアドレスの集合の要素が含むドメイン名との一致の程度、前記リンク先アドレスが含むパス部分と前記適格なアドレスの集合の要素が含むパス部分との一致の程度、リンク元情報資源からのリンク数および前記リンク先アドレスが組織内ネットワーク上のものか否かに応じて、またはこれらの少なくとも１つに応じて、前記差分を決定する、請求項４に記載の情報収集装置。
　前記判定部は、前記収集規則に記述される前記集合に包含されないリンク先情報資源を収集対象に含めるよう判定した場合に、該リンク先情報資源のリンク先アドレスが含むドメイン名およびパスの少なくとも一部分を含むアドレスの表現を、追加の収集規則の候補として保持する、請求項５に記載の情報収集装置。
　請求項１に記載の情報収集装置によってネットワーク上の情報資源から収集されたデータを索引付けた検索インデックスを参照する検索エンジンであって、
　クライアントからの検索要求に対し、該検索要求による照会集合に含まれる情報資源に対し算出された前記スコアを用いてランク付けして、検索結果を応答する検索処理部を含む、検索エンジン。
　ネットワーク上の情報資源から情報を収集する方法であって、コンピュータが、
　前記ネットワークを介して情報資源からデータを取得するステップと、
　前記データが含むリンク先アドレスを抽出するステップと、
　前記リンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する収集規則と照合して、該リンク先アドレスが指すリンク先情報資源の前記集合からの距離を反映するスコアを算出するステップと、
　前記リンク先情報資源に対して算出された前記スコアに従って該リンク先情報資源を収集対象に含めるかを判定するステップと
　を実行する、情報収集方法。
　前記算出するステップは、前記収集規則が含むアドレスの表現と前記リンク先アドレスとの適合の程度に応じた差分を決定するサブステップと、リンク元情報資源に対し算出された前記スコアを基準として、前記差分により前記リンク先情報資源に対する前記スコアを算出するサブステップとを含む、請求項８に記載の情報収集方法。
　コンピュータが、算出された前記スコアに対し有効期限を設定するステップをさらに実行し、前記算出するステップでは、リンク先情報資源に対しスコアが既に算出されている場合には、最高の有効なスコアを採用する、請求項９に記載の情報収集方法。
　コンピュータが、前記リンク先情報資源に対して算出された前記スコアまたはその有効期限が収集対象または収集対象候補に含める範囲外となった場合に、前記収集対象または前記収集対象候補から該リンク先情報資源を除外し、リソースを開放するステップをさらに実行する、請求項１０に記載の情報収集方法。
　コンピュータを、ネットワーク上の情報資源から情報を収集する情報収集装置として機能させるためのコンピュータ実行可能なプログラムであって、前記プログラムは、前記情報収集装置を、
　前記ネットワークを介して情報資源からデータを取得して、該データが含むリンク先アドレスを抽出する抽出部、
　前記リンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する収集規則と照合して、該リンク先アドレスが指すリンク先情報資源の前記集合からの距離を反映するスコアを算出する算出部、
　前記リンク先情報資源に対して算出された前記スコアに従って該リンク先情報資源を収集対象に含めるかを判定する判定部
　として機能させる、コンピュータ実行可能なプログラム。
　前記算出部は、リンク元情報資源に対し算出された前記スコアを基準として、前記収集規則が含むアドレスの表現と前記リンク先アドレスとの適合の程度に応じた差分を決定し、前記リンク先情報資源に対する前記スコアを算出する、請求項１２に記載のプログラム。
　前記算出部は、前記スコアに対し有効期限を設定し、前記リンク先情報資源に対しスコアが既に算出されている場合には、最大の有効なスコアを採用する、請求項１３に記載のプログラム。
　前記判定部は、前記リンク先情報資源に対して算出された前記スコアまたはその有効期限が収集対象または収集対象候補に含める範囲外となった場合に、前記収集対象または前記収集対象候補から該リンク先情報資源を除外し、リソースを開放する、請求項１４に記載のプログラム。
　ネットワーク上の情報資源から情報を収集する情報収集装置であって、
　前記ネットワークを介して情報資源からデータを取得して、該データが含むリンク先アドレスを抽出する抽出部と、
　前記リンク先アドレス毎に、収集対象として適格なアドレスの集合を記述する収集規則と照合して、該リンク先アドレスが指すリンク先情報資源の前記集合からの距離を反映するスコアを算出する算出部と、
　前記リンク先情報資源に対して算出された前記スコアに従って該リンク先情報資源を収集対象に含めるかを判定する判定部と
　を含み、
　前記算出部は、リンク元情報資源に対し算出された前記スコアを基準として、前記収集規則が含むアドレスの表現と前記リンク先アドレスとの適合の程度に応じた差分を決定し、前記リンク先情報資源に対する前記スコアを算出し、
　前記算出部は、前記スコアに対し有効期限を設定し、前記リンク先情報資源に対しスコアが既に算出されている場合には、最大の有効なスコアを採用し、
　前記判定部は、前記リンク先情報資源に対して算出された前記スコアが収集対象または収集対象候補に含める範囲外となった場合に、前記収集対象または前記収集対象候補から該リンク先情報資源を除外し、リソースを開放し、
　前記算出部は、前記リンク先アドレスが含むドメイン名と前記適格なアドレスの集合の要素が含むドメイン名との一致の程度、前記リンク先アドレスが含むパス部分と前記適格なアドレスの集合の要素が含むパス部分との一致の程度、リンク元情報資源からのリンク数および前記リンク先アドレスが組織内ネットワーク上のものか否かに応じて、またはこれらの少なくとも１つに応じて、前記差分を決定し、
　前記判定部は、前記収集規則に記述される前記集合に包含されないリンク先情報資源を収集対象に含めるよう判定した場合に、該リンク先情報資源のリンク先アドレスが含むドメイン名およびパスの少なくとも一部分を含むアドレスの表現を、追加の収集規則の候補として保持する、情報収集装置。