JPWO2008044542A1

JPWO2008044542A1 - 情報検索システムと情報検索方法ならびにプログラム

Info

Publication number: JPWO2008044542A1
Application number: JP2008538663A
Authority: JP
Inventors: 真樹菅; 善裕梶木; 山川　聡; 聡山川; 隆史鳥居; 金子　裕治; 裕治金子
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-10-06
Filing date: 2007-10-02
Publication date: 2010-02-12
Anticipated expiration: 2027-10-02
Also published as: JP5218060B2; US20100088318A1; US8301603B2; WO2008044542A1; CN101523391A

Abstract

検索対象の情報源が日々変化するシステムにおいて、ユーザが過去に行った検索操作と同等の操作を行った場合に、以前と同じ方法で同じ情報に辿り着くことを可能とするシステムを提供する。インデクッス登録手段２は、検索処理に用いるインデックスを時系列にしたがって区分した区分インデックスとして登録し、検索手段３は、指定された検索の基点となる時点よりも古いインデックスのみを読み込んで検索処理を行い、ある過去の時点に基づく検索処理を行う。

Description

［関連出願の記載］
本発明は、日本国特許出願：特願２００６−２７５１６９号（平成１８年１０月６日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は情報検索システム、情報検索方法及び情報検索用プログラムに関し、特に過去の視点に基づく検索を可能とする情報検索システム、情報検索方法及び情報検索用プログラムに関する。

Ｇｏｏｇｌｅ（登録商標）等に代表されるＷｅｂ検索システムの普及により、電子ファイル等に対する全文検索システムが一般化してきた。ユーザは検索システムを用いて情報を検索する作業を行うことを日常的に行うようになっている。

現在、電子ファイル等に対する全文検索システムは、高速に検索するためのインデックス（索引）をあらかじめ作成しておき、このインデックスを用いて電子ファイルを検索する仕組みが主流となっている。このような情報検索システムの例が、特許文献１、非特許文献１に記載されている。

インデックスを作成する技術として、Ｎ−ｇｒａｍを用いた方式、形態素解析方式が知られている（非特許文献１）。

これらの方式によって作成されたインデックスは、一般的に、非圧縮で、元文書の２００〜３００％の容量となり、大きな容量を必要とする。

また、このインデックスを動的に更新するのが困難である、という問題がある。

検索処理は、このインデックスを用いて行うために、ユーザは、インデックスを作成あるいは更新した時点における、検索対象のデータの状態に対する検索結果を得ることが出来る。

例えば、インデックスが１日前の時点の検索対象データに基づいて作成された場合、それ以降に検索対象データに対して増加あるいは更新された状態は、検索結果に反映されない。

従って、出来るだけリアルタイムに検索対象のデータをインデックスに取り込むことが求められている。そのような技術が、特許文献１、特許文献２に記載されている。

特許文献１には、新たに登録された文書ファイルに対応するインデックスを作成してメモリにしておき、文書検索部は、メモリに格納された新規文書データのインデックスデータと、ディスク装置に格納された既存の文書ファイルのインデックスデータの双方を用いて文書ファイルを検索する文書検索装置が開示されている。また特許文献２には、新規文書をインデックスに登録する際に、主インデックスよりも小さな副インデックスに登録し、検索時には、各インデックスにアクセスして検索し、その結果を合わせて検索結果とする文書検索装置が開示されている。

特開平９−２２３１５２号公報（第１頁）特開平７−１４６８８０号公報北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」共立出版、２００２年１月１日、ｐｐ．６、ｐｐ．１６０〜１７９

以上の特許文献及び非特許文献の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に、本発明による関連技術の分析を与える。従来及び現行の情報検索システムは、下記記載の問題点を有している。

すなわち、ユーザが過去に行った検索クエリーと同様の操作を行っても、以前と同じ方法で情報に辿り着くことが出来ない場合がある、ということである。

その理由は、検索対象となる情報源が、日々、増大／変更されるシステムにおいては、検索用インデックスも、日々追加／更新されるために、ユーザが行った検索クエリーが同一なものであっても、検索システムは異なる検索結果を返すためである。

ユーザが過去に発見したファイルや、Web上の情報源に辿り着くために、そのファイルのパスやＵＲＩ（Uniform Resource Identifier）を記憶しておくということが考えられる。

しかし、ユーザは、一般的に、ファイルのパスやＵＲＩを記憶しておかずに、どのように情報に辿り着いたかのみを記憶していることがある。

具体的には、今日のように、検索エンジンが一般化した状況では、検索エンジンに対して入力した検索クエリーだけを記憶しておき、再度、検索するのである。

例えば、「３日前に○○というキーワードで検索して見つかったあのＷｅｂページ」のように記憶しておくのである。

しかしながら、検索エンジンのインデックスは、日々更新／増加されているために、ユーザは同じキーワードで検索しても、異なる検索結果を得ることがある。そのため、以前得たファイルや情報に再び辿り着けなくなることがある。

過去の時点と同じ検索結果を得たいというユーザからのニーズが起きる可能性がある。

したがって、本発明は、上記課題に鑑みて全く新規に創案されたものであって、その主たる目的は、過去の基点に基づいた検索を可能とする情報検索システム、方法、プログラムを提供することにある。

本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。

本発明に係る情報検索システムは、情報検索用のインデックスとして、時系列に区分されてなる区分インデックスをインデックス格納手段に用意しておき、
検索要求で指定された条件に基づき、時系列にしたがって区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、前記選択した区分インデックスを用いて検索を行う手段を備えている。

本発明に係る情報検索システムは、文書検索用のインデックスとして、時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録手段と、検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件入力手段と、入力された検索の基点となる前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う検索手段と、を備えている。

本発明においては、検索の基点となる時間情報が指定入力されない場合、前記検索手段は、前記インデックス格納手段に登録されている、最新インデックスと過去の区分インデックスの全てを用いて検索する。

本発明においては、インデックスを区分して登録する契機を、前記インデックス登録手段に通知する区分契機通知手段を備えた構成としてもよい。

本発明においては、検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録手段に通知する手段を備えた構成としてもよい。

本発明においては、前記検索手段は、複数のインデックスに同一文書に対するインデックスデータが格納されている場合、新しいインデックスを優先して処理をする。

本発明においては、前記インデックス登録手段は、文書を格納する文書格納手段から、インデックスに登録する文書を読み出し、インデックスに登録するために必要な所定の事前処理を行って最新インデックスに対して登録し、インデックスの区分処理を行うにあたり、インデックスの区分の契機か否かを判断し、インデックス区分の契機の場合には、現在の最新インデックスのインデックスを区分インデックスの１つに設定した上で、最新インデックスを空で作成し、この空の最新インデックスを、前記インデックス登録手段のインデックスの登録先とする。

本発明においては、前記インデックス格納手段に記録される前記区分インデックスが、過去の時点での情報検索に利用された所定の属性情報を含み、前記過去の時点に対応する区分インデックスを選択して検索することで、前記過去の時点の属性情報に基づいた情報検索結果を出力自在としている。

本発明に係る方法は、情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う。

本発明に係る方法は、文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録工程と、
検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、
入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを、選択的に読み込み、検索処理を行う工程と、
を含む。

本発明に係る方法において、検索の基点時間情報が指定入力されない場合、前記インデックス格納手段に登録された全てのインデックスを用いて検索する。

本発明において、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む。

本発明に係る方法において、検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む。

本発明に係るコンピュータプログラムは、文書検索用のインデックスとして時系列にしたがって区分してなる区分インデックスをインデックス格納手段に登録する処理と、
検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、
入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択して検索を行う処理と、をコンピュータに実行させるプログラムよりなる。

本発明によれば、過去の基点に基づく検索処理を実現することができる。

その理由は、本発明においては、インデックスを時系列に区分して記録しておき、過去の基点よりも古いインデックスのみを用いて検索処理を行うためである。

本発明の第１の実施の形態の構成を示すブロック図である。本発明の第１の実施の形態における、インデックスの管理例を示す図である。本発明の第１の実施の形態における、検索処理動作を示す流れ図である。本発明の第１の実施の形態における、検索処理動作のインデックス読み込み処理を示す図である。本発明の第１の実施の形態における、インデックスへの追加処理を示す流れ図である。本発明の第１の実施の形態の動作を示す流れ図である。本発明の第１の実施の形態の変形例として、時系列分析機能の説明をするための図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態における、バックアップ手段と連携したインデックス区分の動作の流れを示す流れ図である。本発明の第２の実施の形態における、検索処理動作を示す流れ図である。本発明の第２の実施の形態における、検索処理中のインデックス読みこみ処理を示す図である。本発明の第３の実施の形態の構成を示すブロック図である。

符号の説明

１文書格納手段
２インデックス登録手段
３検索手段
４検索条件入力手段
５検索結果出力手段
６バックアップ手段
７区分契機通知手段
８インデックス管理手段
１０最新インデックス
１１〜１７区分インデックス
１００過去インデックス格納部

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１は、本発明の第１の実施の形態の構成を示す図である。図１を参照すると、文書格納手段１と、インデックス登録手段２と、検索手段３と、検索条件入力手段４と、検索結果出力手段５と、過去インデックス格納部１００とを備えている。

過去インデックス格納部１００は、区分インデックス１１〜１４を含む。区分インデックス１１〜１４は、図１では４つの構成であるが数に制限はない。

これらの手段はそれぞれ概略次のように動作する。

文書格納手段１は、検索対象の文書を保持する機能を果たす。文書格納手段１は、例えば、
・ユーザが保持するパーソナルコンピュータのハードディスク装置や、
・ＮＡＳ（Network Attached Storage）等の外部装置、
・ＷＷＷ（World Wide Web）、
・Intranet（企業内のWebページ群）
等が挙げられる。

検索対象の文書とは、上記のような格納手段内に存在するＷｅｂページやオフィス文書等の電子ファイル、データベース内の構造化された情報等がある。

インデックス登録手段２は、文書格納手段１が保持する検索対象の文書のインデックスを作成し最新インデックス１０に登録する機能を持つ。

検索手段３は、区分インデックス１０〜１４のインデックスを用いて、検索処理を行う。検索キーワードや検索する時点（いつの時点における文書群に対して検索するか）等の検索条件は、検索条件入力手段４から受け取る。検索処理の結果は、検索結果出力手段５に渡す。

検索条件入力手段４は、
・検索するための検索キーワードや、
・検索の基点となる情報、
等の検索条件を指定し、検索手段３に対して受け渡す機能を果たす。検索の基点となる情報は、例えば年月日、あるいは、時、分等の時間情報のほか、時間に関連したイベント等の契機情報であってもよい。

検索条件入力手段４の一例として、例えば、ユーザのＷｅｂブラウザ上から入力する検索キーワードの入力ボックス等を用いることができる。

検索結果出力手段５は、検索手段３が行った検索処理の結果を受け取り、ユーザに検索結果として出力する機能を果たす。検索結果出力手段５の一例として、例えば、ユーザのＷｅｂブラウザ上に検索結果の一覧を出力するソフトウェアが用いられる。

なお、インデックス登録手段２と、検索手段３と、検索条件入力手段４と、検索結果出力手段５は、コンピュータで動作するプログラム制御により、その機能、処理が実現される。

最新インデックス１０、及び、過去インデックス格納部１００に含まれる区分インデックス１１〜１４は、検索処理に用いるインデックスである。そのインデックスを何らかの契機により時系列に区分したものである。

このうち、最新の更新分の区分インデックスを最新インデックス１０とする。

インデックス登録手段２は、新規文書あるいは更新文書をインデックス化して、常に、最新インデックス１０へ登録する。

なお、図１では、過去の区分インデックスは合計４つの構成であるが、区分インデックスの数に制限はなく、時系列に区分されるたびに増加していく。

最新インデックス１０、区分インデックス１１〜１４は、メモリや磁気ディスク装置等の記憶装置に対して保存される。

保存する形式としては、
・通常のファイルの形式、
・データベース上のレコード
等がある。

最新インデックス１０、区分インデックス１１〜１４は、それぞれ異なる記憶装置に保存されてもよいし、同じ記憶装置に保存されてもよい。

図２は、インデックスの管理の一実施例を説明するための模式図である。図２の例の場合、時系列にインデックスが区分され、１日１回、インデックスが区分されるものとする。図２の例における現在の日付は、「５／１１」とし、
・現在における文書のインデックス登録は、最新インデックス１０に行われる。

区分インデックスとして、
・１日前の「５／１０」分の登録された分は、右隣の区分インデックス１１に保持され、
・２日前の「５／９」分に登録された分は区分インデックス１２に保持されている、
はずである。

このように、過去の最新インデックスを、そのまま、区分インデックスとして、順次、保持していく。

時間の経過とともに、過去のインデックスが増加していくこととなる。

ある定められたインデックスを区分する契機において、最新分のインデックス（インデックス登録手段２がインデックスを登録する対象）を新規に作成する。

そして、それまで、最新分のインデックスであったインデックス（最新インデックス１０）は、２番目に新しいインデックスとして、区分インデックスの１つとなる。

これらの仕組みを、インデックス登録手段２の登録先への登録パスを変更することによって実現してもよい。

または、最新インデックス１０のデータを、過去インデックス格納部１００にコピーして、新しい区分インデックスを作成し、最新インデックス１０を空にすることによって実現してもよい。

なお、最新インデックス１０及び区分インデックス１１〜１７の物理的あるいは論理的な記憶位置は問わない。

次に、図３のフローチャートを参照して、本実施の形態の検索処理動作について詳細に説明する。

まず、ユーザは検索条件入力手段４を介して、検索条件を入力する（図３のステップＳ１０１）。

検索条件には、
・通常の検索クエリーの情報（検索のキーワード等）と、
・必要ならば、検索処理の基点となる日時の情報（「基点情報」という）
を入力する。

この基点情報は、過去の視点に基づく、検索処理を行う際に必要な情報である。

過去の視点に基づく検索処理とは、例えば３日前に行った検索処理と全く同等の結果を得たい場合に、３日前の情報に基づく検索を行うことである。

次に、検索手段３は、基点情報が入力されているかどうかを確認する（ステップＳ１０２）。

基点情報が入力されていない場合（ステップＳ１０２のＮｏ分岐）、検索手段３は、インデックスを全て読んで検索を行う（ステップＳ１０３）。

ステップＳ１０３の処理について、図４に示した例に即して説明する。

区分インデックスは、１１から１７まで存在するとする。その時、最新インデックス１０から、区分インデックス１７まで、全てのインデックスを読んで検索処理を行う。

この際、同一文書に対して更新が行われた際には、複数のインデックスに、同一文書に対するインデックスデータが格納されていることになるが、常に、新しいインデックスを優先する（図４においては、左側に存在するインデックスを優先する）。

ステップＳ１０３で、検索手段３は、リード（Ｒｅａｄ）したインデックス情報に基づき、検索処理を実行する（ステップＳ１０４）。そして、検索手段３は、検索結果出力手段５に対して、検索結果を通知する。

ステップＳ１０２がＹｅｓの場合（基点情報が入力されている場合）、検索手段３は、指定された規定情報以前のインデックスを読んで検索を行う（ステップＳ１０５）。

ステップＳ１０５の動作について、図４に示した例に即して説明する。

今回は、基点情報が「５／８」と入力されたとする。このとき、「５／８」のインデックスに基づいて検索処理を行うため、検索手段３は、「５／８」分の区分インデックス１２からインデックス読み込みを行う。

つまり、最新の更新分（「５／１０」以降の情報）が登録されている最新インデックス１０と、「５／９」分が登録されている区分インデックス１１とは読み込まず、その他のインデックス全てを読み込んで検索処理を行う。

この際、ステップＳ１０３と同様に、同一文書に対して更新が行われた際には、複数のインデックスに同一文書に対するインデックスデータが格納されていることになるが、常に新しいインデックスを優先する（図４においては、左側に存在するインデックスを優先する）。

このような仕組みで検索処理を行うことによって、基点情報に入力された時間時点における、インデックスのデータに基づいて、検索処理を行うことが出来る。

本発明の実施形態の変形として、ステップＳ１０５あるいはＳ１０３の検索処理において、過去の区分インデックスを全て読まないようにしてもよい。

例えば、最新インデックス１０から、区分インデックス１４まで読み込み、それより古い区分インデックスを読み込まないようにする。

このようにすると、最新分から「５／６」の更新変更分までが、検索対象となり、それ以前の更新変更分は、検索対象にならない。

どの程度過去の区分インデックスまで読むかは、検索性能とのトレードオフである。

どの程度過去の区分インデックスまで読むかは、例えば、次のような方法で決定することが出来る。

（Ａ）検索条件入力手段４が、「何日前までに変更されたファイルを検索するか」を指定するか、
（Ｂ）検索手段３が読み込みを行う、インデックスの限界サイズを決めておき、それ以上の区分インデックスは読み込まないようにする、
等である。

（Ｂ）の方法は、検索処理を行うサーバのキャッシュメモリサイズにより決定する等の実施形態が考えられる。

この変形を用いることによって、検索処理性能を向上させることができる。

その理由は、検索処理性能を決定する一要素として読み込むインデックス容量があるためである。

次に、本発明の第１実施形態において、検索処理を行うための事前準備について説明する。

本実施の形態において、検索処理を行うために、
・検索対象の文書のインデックス化と、
・インデックスの区分処理、
の２つの処理が必要である。その処理動作について順に説明する。

まず、検索対象の文書のインデックス登録処理の動作について、図５のフローチャートを参照して説明する。

最初に、インデックス登録手段２は、文書格納手段１から、インデックスに登録する文書（検索対象とする文書）を読み出す（図５のステップＳ２０１）。

次に、インデックスに登録するための処理の事前処理を行う（ステップＳ２０２）。

この事前処理とは、インデックス手法の一方式である、転置ファイル法を例にあげると、以下の処理を含む。

・検索対象の文書を読み出してテキストを抽出し、そのテキストからインデックスに登録する索引語を抽出する。

・その索引語の出現位置、回数等を認識する。

インデックス化方法の詳細は、非特許文献１等の文献に記載されているため、省略する。

最後に、インデックス登録手段２は、事前処理によって明らかになったインデックスに登録するための情報を、最新インデックス１０に対して登録する（ステップＳ２０３）。

最新インデックス１０内に、該検索対象の文書の情報が存在しない場合には、新規追加の処理を行う。

最新インデックス１０内に該検索対象の文書の情報が存在する場合には、更新の処理を行う。

なお、通常の検索インデックスの作成においては、新規作成と更新、削除について、インデックスの更新処理を行う。

新規作成と更新については、前述した通りであるが、削除については、最新インデックス１０に対して、削除文書のインデックスを空として、登録する処理を行い、過去の区分インデックス１１以降を削除しない。

次に、インデックス区分処理の動作について、図６のフローチャートを参照して説明する。

なお、このインデックス区分処理は、インデックス登録手段２が行ってもよいし、別途インデックスを管理する手段を用意して行ってもよい。

まず、インデックスの区分の契機であるか否かを判断する（図６のステップＳ３０１）。

インデックスを区分する契機は、例えば、
・定期的に区分するとして、時刻や曜日を定めておいてもよいし、
・インデックスのサイズで決定して区分してもよい。

インデックス区分契機でない場合には、インデックス区分処理は必要ないため、本処理フローでは何も行わない。

インデックス区分の契機であった場合、現時点で最新インデックス１０であるインデックスを区分インデックスの１つとする（ステップＳ３０２）。

この実施例は様々な方法があるが、例えば
・最新インデックス１０を、過去インデックス格納部１００に、物理的あるいは論理的にコピーする、
・最新インデックス１０を区分インデックスとして扱うようリネームする、
・インデックス登録手段２の登録先のインデックスを変更する、
等がある。

最後に、新たな最新インデックス１０を新規に空で作成する（ステップＳ３０３）。

この最新インデックス１０を、以降のインデックス登録手段２のインデックス登録先とする。

なお、インデックスの区分処理は、このような図６のフローで行ってもよいが、他の何らかの手段からの通知により、イベントとして区分処理をしてもよい。

例えば、毎日０時にインデックスを区分する場合、毎日０時に、インデックスの区分処理を要求するための通知を送る手段を別途用意し、その通知を、区分処理担当の手段に対して通知する。０時以前の昨日の最新インデックスが、最新の過去の区分インデックスとなり、新たな最新インデックス１０を、以降のインデックス登録手段２の登録先として１日分の区分インデックスが作成される。

なお、後述する本発明の第２の実施の形態は、このような仕組みによるものの一例である。

また、インデックス区分処理は、インデックス登録手段２が行わなければならないものではなく、インデックスの区分のみを別に行う手段を別途用意してもよい。それぞれに最適な実装方法を選択すればよい。

本発明の第１の実施形態の作用効果を説明する。

過去のある時点に基づく検索処理を実現するためには、過去の時点におけるインデックスを全て保持しておく必要があるが、第１の実施形態では、時系列に区分して、インデックスを保持し、入力された基点情報に基づいて、読むインデックスを変更するために、過去インデックスの保持容量を削減することができる、という効果がある。

また、最新分のインデックスのみを保持する方法においても、過去の検索結果を保持しておくことによって、同様のことを実現することが出来るが、これは、過去に実際に行われた検索に対してしか、過去の視点における、検索結果を返すことができない。

本実施の形態においては、過去に検索クエリーが行われなくても、過去の視点に基づく検索を実現することが出来る。

また、最新インデックス１０は、最新登録分のインデックスのみが格納されているために、容量が小さくて済む。すなわち、最新登録分のインデックスのみが差分として格納される。基準となる過去の１つの区分インデックスに対して、以降の区分インデックスは、差分情報のみが蓄積されることになる。従って、高速な記憶装置（半導体メモリ等）に格納することができるため、インデックスの追加更新処理等を高速に行うことができる。

本発明の第１の実施の形態の変形（その２）について説明する。本発明の第１の実施の形態の変形２では、時系列に検索結果を分析する。

本発明の第１の実施の形態を応用することによって、次のような機能を得ることができる。

・ある検索クエリーに対する検索結果の時系列推移の表示、
・同一文書のある検索クエリーに対する検索順位の推移の表示。

図７を例に挙げて説明すると、このように、検索処理の対象となるインデックスを変更した検索処理を行うと、日付毎の検索結果を得ることができる。

この検索結果をまとめて集計することによって、上記の機能を達成することができる。

なお、本実施形態では、各区分インデックスは、インデックス登録時の日時等にしたがって時系列的に区分されているが、これとは別に、インデックスの作成で参照された文書の属性（例えばタイプスタンプ等）に基づいて、区分インデックスに区分けする構成としてもよい。

次に、本発明の第２の実施形態について図面を参照して詳細に説明する。図８を参照すると、本発明の第２の実施形態は、図１に示される第１の実施形態に加え、バックアップ手段６と、区分契機通知手段７とを含む。

この２つの手段以外は、前記第１の実施の形態と同一であるため、説明を省略する。バックアップ手段６と、区分契機通知手段７とは、概略次のように動作する。

バックアップ手段６は、文書格納手段１に格納されているデータのバックアップ（予備）を作成し記憶しておく手段である。

バックアップ手段６は、文書格納手段１に格納されているデータを、ある契機のデータに復元するためのものであり、実際に、データ全体又は変更分の複製を記憶装置に定期的に保存するものが例としてあげられる。

また、「スナップショット」と呼ばれるような、ディスク内のデータの位置を示すポインタ情報を記録するような仕組みで、実際のデータの複製を持たずに文書格納手段１のデータをある一時点に復元することができるものもバックアップ手段６の１つと見なす。

また、他には、
・ＣＤＰ（ＣｏｎｔｉｎｕｏｕｓＤａｔａＰｒｏｔｅｃｔｉｏｎ；継続的データ保護）制御ソフトウェアや、
・データベースソフトウェア、
・ジャーナリングソフトウェア
のような、過去のデータにアクセスすることが出来るデータ保護手法を、バックアップ手段６として利用しても良い。

ＣＤＰは、データが更新されるたびに、その変更内容を時系列的に保存してゆくデータ保護手法であり、ストレージに対するデータ書き込みをトラッキング、キャプチャし、データ更新が発生したとき、その変更内容を、二次ストレージ（変更履歴データベース）にジャーナリングしていく。

これにより、過去のどの時点のデータも、再現することができ（Any Point In Time（APIT）Recovery）、データ損失を回避することができる。

これは、秒単位で追加バックアップを取り続けることに相当する。

スナップショットでは、データは数十分のオーダでしか復元できないが、ＣＤＰでは、数秒レベルでデータの復旧地点を設定することができる。

なお、データの変更履歴の記録だけからは、実データ全体を復元することはできないため、スタート地点として、ボリューム全体のレプリケーションを行い、このレプリケーションに対する変更履歴を時系列で記録していく構成とされる）。

ＣＤＰのタイプとして、
・ブロック型、
・ファイル型、
・アプリケーション型
がある。

ブロック型は、物理ディスク又はロジカルボリュームレベルのブロック単位でデータ変更をトラックする。

ファイル型は、ファイル・レベルでデータ変更をトラックする。

アプリケーション型は、ログ情報やＡＰＩにより特定のアプリケーションの動きを認識し、ファイル更新やイベント単位でトラックする。

トラック頻度は、ブロック単位の場合、例えば秒単位以上、ファイル型、アプリケーション型は、例えばファイル・イベント更新毎を最小単位とする。

二次ストレージへの書き込みは、同期型、非同期型がある。

なお、ＣＤＰソフトウェアとしては、ＴｉｍｅＳｐｒｉｎｇ社の「ＴｉｍＤａｔａＴＭ」（商標）等が市販されている。

区分契機通知手段７は、バックアップ手段６が、文書格納手段１のデータの複製（あるいは復元可能な点）を保持している契機の一部あるいは全てを通知する手段である。

この通知された契機に従い、インデックス登録手段２は、インデックスの区分を行う。

具体的には、バックアップ手段６が、１日に１回、毎日０時に、バックアップを行うとすると、区分契機通知手段７は、インデックスの区分を、毎日０時に、インデックス登録手段２に指示する。

本発明の第２の実施形態における、バックアップシステムと連携して、インデックスを区分する動作の流れについて、図９を参照して説明する。

まず、バックアップ手段６が、文書格納手段１に保持されているデータのバックアップを取得する（図９のステップＳ４０１）。

具体的な実施例としては、文書格納手段１の記憶装置から、バックアップ時点のデータを読み込み、バックアップ手段の記憶装置に記憶するというものが挙げられる。

次に、バックアップ手段６がバックアップを取得した契機を、区分契機通知手段７がインデックス登録手段２（インデックス区分処理を担当する手段）に対して通知する（ステップＳ４０２）。

最後に、インデックス登録手段２が、インデックス区分処理を行う（ステップＳ４０３）。

インデックス区分処理に関しては、前記第１の実施の形態と同一である。

本発明の第２の実施の形態に基づくシステムでは、前記第１の実施の形態と同様の過去の基点に基づく検索に加え、バックアップデータに対する検索処理を実現することが出来る。

図１０のフローチャートを参照して、本実施の形態の検索処理動作について詳細に説明する。

まず、ユーザは検索条件入力手段４を介して、検索条件を入力する（図１０のステップＳ５０１）。

検索条件には、
・通常の検索クエリーの情報（検索のキーワード等）と、
・必要ならば検索対象のバックアップデータの種類（あるいは、バックアップ採取時間）を指定あるいは選択する。

毎日０時にバックアップを開始する場合、検索条件の時間情報としては、年月日情報を入力するようにしてもよいし、あるいは、月、週に何回かバックアップする場合、何月の何回目のバックアップ以前あるいは以降等という、バックアップイベント情報を、過去情報として指定してもよい。なお、検索の基点となる条件として、時間の範囲、あるいは論理式で与えるようにしてもよい。

次に、検索手段３が検索処理を行うが、その最初に、バックアップデータの種類が指定されているかどうかを確認する（ステップＳ５０２）。

バックアップデータが選択されていない場合（Ｎｏの場合）には、検索手段３はインデックスを全て読んで検索処理を行う（ステップＳ５０３）。

この処理については、第１の実施の形態と同様であるので、説明を省略する。

ステップＳ５０３で読み込んだインデックス情報に基づき、検索処理を完了する（ステップＳ５０５）。

検索手段３は、検索結果出力手段５に対して検索結果を通知する。

ステップＳ５０２がＹｅｓの場合（バックアップデータを指定されている場合）、検索手段３は指定されたバックアップデータの採取時点以前のインデックスを読んで検索を行う（ステップＳ５０４）。

ステップＳ５０４の動作について、図１１を例に説明する。

図１１は、インデックスの区分の様子を示した図である。１日に１回バックアップを取っているシステムであり、バックアップの契機でインデックスを区分している。

この場合、「５／９」に採取したバックアップから、「５／１０」にバックアップを取るまでの更新が区分インデックス１１に反映される。

今回、「５／９」に取得したバックアップデータに対して検索処理を行うとすると、検索手段３は、区分インデックス１２以降の区分インデックスを読み込み、検索処理を行う。

なお、前記例では、フルバックアップを採取したシステムを前提としたが、同様に、「５／９」に採取した差分バックアップデータに対する検索を行うことも出来る。

図１１を例に説明すると、検索手段３は、区分インデックス１２のみを読み込み、検索処理を行う。

なお、検索手段３の検索処理（ステップＳ５０４）、あるいは、検索結果出力手段５が行う結果の出力処理段階（ステップＳ５０５）において、検索結果のファイルへのパス（ＵＲＩやファイル名等）を書き換える必要がある。

検索インデックスに格納されている、検索対象文書へのパスは、文書格納手段１に存在することが前提なためである。

これは、バックアップ手段に記録される検索対象文書へのパスは、バックアップ手段が決定するルールに基づくため、その変換ルールをバックアップ手段６は、事前に検索手段３あるいは検索結果出力手段５に通知しておく。

図８の構成は、検索手段３（ステップＳ５０４）でパスの変換を行う場合である。

本発明の第２の実施の形態の変形は、過去のインデックスでヒットしたファイルは、参照先をバックアップ先に変更する、ＣＤＰソフトウェアのような動きが出来る。

また、本発明の第２の実施の形態における、検索処理（図１０のステップＳ５０３及びＳ５０４）において、旧版の文書を検索にヒットさせるように、第２の実施の形態を変形することが可能である。

本発明の第２の実施の形態においては、図１０のステップＳ５０３及びＳ５０４においては、前記第１の実施の形態と同様に、複数の区分インデックスに存在する同一文書のインデックスは、検索手段３が読み込む範囲で、一番新しい区分インデックスを優先するよう動作する。

本発明の第２の実施の形態の変形では、区分インデックスのいずれかでヒットした文書は、文書のパス（参照先）をバックアップ手段６における記憶先に変更する。

そして、同一文書のインデックスが複数ヒットしても、その両方を検索結果に提示する。

なお、区分インデックスでヒットした文書の全てのパスを、バックアップのパスへ変更してもよいが、その文書が最新の場合（ヒットした区分インデックスよりも新しいインデックスに、該文書が存在しない場合）には、パスを変更せずに、文書格納手段１のパスのまま提示し、バックアップ手段６にヒットした文書が存在する場合には、バックアップ手段６における記憶先に、当該文書のパスを変更するようにしてもよい。

バックアップ手段によって採取されたバックアップデータに対する検索機能を提供するには、現状では、バックアップデータに対してインデックスを作成する必要があった。

しかし、本実施の形態を用いることにより、主たる文書格納手段１に対するインデックスのみで、バックアップデータに対する検索機能を実現することが出来る、という効果がある。

これに伴い、バックアップデータに対するインデックス登録処理が不要であるため、インデックスに必要な記憶容量ならびに計算処理に必要な計算機資源を削減することができる。

過去の区分インデックスにおいて、検索ヒットした文書の参照先をバックアップ手段が記憶している場所にすることにより、本発明の検索システムは、ＣＤＰと同様に過去の履歴にアクセスできるという効果がある。また過去の状態に基づく検索が実現できるため、ファイルの過去のある時点にしか存在しなかった単語などで検索を行うことができる。

次に、本発明の第３の実施形態について図面を参照して詳細に説明する。本発明の第３の実施の形態においては、過去の区分インデックスをマージする構成としたものである。

図１２を参照すると、本発明の第３の実施形態は、図１に示した前記第１の実施形態に加え、インデックス管理手段８を含む。

これ以外は、前記第１の実施形態と同一であるため、説明を省略する。

なお、図８に示される、前記第２の実施の形態に、インデックス管理手段８を加えた構成として、第３の実施の形態を実現しても良い。

インデックス管理手段８は、概略、次のように動作する。インデックス管理手段８は、区分インデックスのうち単数あるいは複数にアクセスし、区分インデックスをマージして、１つの区分インデックスにするという機能を果たす。

区分インデックスをマージするということは、転置ファイル法によるインデックス作成方式を例に挙げると、複数含まれている同一文書のインデックスを、新しい方を残して１つにして、複数の転置ファイルを１つの転置ファイルとすることとなる。

区分インデックスをマージする処理は、次のような条件で行うことが考えられる。

・区分インデックスが一定数を超えた時、
・区分インデックスが一定容量を超えた時、
・区分インデックスが一定期間より古くなった時。

本実施の形態により、区分インデックスをマージすることによって、検索処理性能を高速化することができる。

その理由は、区分インデックスをマージすることにより、同一文書のインデックスを複数読むような、インデックスの非効率性が改善されるためである。

本発明の第３の発明の実施の形態の変形について説明する。

本変形では、第１の実施の形態の変形で、過去の区分インデックスの読み込みを途中で止めると、過去のファイルが検索ヒットしないという問題を解決するために、コンピュータにおけるキャッシュのようなインデックスの動作を果たす。本変形では、インデックス管理手段８が、次のような機能を果たす。

インデックス管理手段８が、最新インデックス及び区分インデックス１１〜１５を読み込み、インデックスに含まれる文書の幾つかを抽出して新たな区分インデックスを作成する。

そして、その区分インデックスは、通常の区分インデックスとは別に扱い、検索処理で読み込みを途中で止める場合にも、必ず読み込むこととする。

区分インデックスから選択する文書は、一定のルールで抽出すればよい。そのルールは、例えば次のような例が考えられる。

・一定期間以上更新されないが、ユーザからのＲＥＡＤは頻繁に行われる文書、
・ユーザが重要と指定した文書、
・特定のキーワードが文書内に含まれる文書。

このようにすることによって、第１の実施の形態の変形において、過去のファイルが検索ヒットしない、という問題が発生するが、インデックス管理手段８が選択した文書は更新されていなくても、検索にヒットしないということが起きないという効果がある。

なお、上記各実施形態及びその変形例において、インデックスに記録される情報（属性情報）として、後に再計算不可能な、あるいは再計算が困難な情報が記録される場合には、当該インデックスの属性に応じて、過去の時点における文書群の特徴に基づいた情報検索を、過去に遡った環境下で実現することができる。インデックスに記録される、後に再計算不可能な、あるいは再計算が困難な情報の例として、検索結果のランキングに利用する、キーワードの頻度等の数値データ、文書の重要度等を示すスコア等が挙げられる。過去の時点における、この種の情報が記録されると、後の情報検索において過去の検索時と同様のランキングの検索結果が出力可能となる。

本発明において、後に再計算可能な情報のみがインデックスに記録される場合には、過去の時点の文書に対する情報検索を効率的に実行できる。ここで、「情報検索の効率的な実行」とは、完全な過去のインデックスを保持する記憶容量や、バックアップ等からインデックスを再生成する計算量等を、削減可能であることをいう。後に再計算可能な情報の例としては、キーワードとその出現文書の対応情報等がある。

上記の再計算不可能なインデックス情報（静的なスコア情報）、及び、再計算可能なインデックス情報が別の記憶領域に格納されている場合には、両者を時系列に区分することで、本発明を適用することができる。図１には、時間軸に関して一つの系列の区分インデックス（１０〜１４）を備えた構成が示されているが、本発明においては、時間軸に関して複数系列の区分インデックスを備えた構成としてもよいことは勿論である。すなわち、インデックスを複数の記憶領域に配置するシステムにも本発明を適用することができる。この場合、複数の記憶領域のインデックスについて、それぞれ時系列に区分された、複数系列の区分インデックスが設けられる。

上記した各実施の形態の作用効果について説明する。

（A）過去の基点に基づく検索処理を実現することができる。その理由は、上記した実施の形態では、インデックスを時系列に区分して記録しておき、過去の基点より古いインデックスのみを用いて検索処理を行う構成としたためである。

（B）また、上記効果を奏しながら、インデックスの追加更新処理等を高速に行うことができる。その理由は、上記実施の形態においては、追加更新対象となるインデックスは、一定期間の追加更新分だけを記録する区分されたインデックスであるため、容量が小さくてすむ。従って、高速な記憶装置（半導体メモリ等）に格納することが出来るため、インデックスの追加更新処理等を高速に行うことが出来る。

（C）さらに、インデックスの保持容量の増大を抑止低減可能としている。過去のある時点に基づく検索処理を実現するためには、過去の時点におけるインデックスを全て保持しておく必要があるが、上記実施形態においては、時系列に区分してインデックスを保持し、入力された基点情報に基づいて、インデックスを変更するためである。

（D）さらにまた、バックアップデータにインデックスを作成する必要は無い。その理由は、上記実施の形態においては、インデックス区分の契機と、バックアップ取得の契機とを同一にし、検索結果の参照先を、バックアップデータに変更することによって、バックアップデータへの検索を、別のインデックスを用意することなく実現できるためである。これに伴い、バックアップデータに対するインデックス登録処理が不要であるため、バックアップ装置に、インデックス化に必要な記憶容量ならびに計算処理に必要な計算機資源を削減することができる。

本発明によれば、例えば、
・World Wide Webに存在する情報検索システムや、
・組織内の情報（イントラネットのWebや、組織における情報システム、データベース、ストレージ等が保有する情報）
に対する情報検索システムといった用途に適用できる。すなわち、本発明は、検索エンジン等に、上記した実施形態の情報検索システムを備えてもよいことは勿論である。

また、本発明は、何らかの分析のために中間データを保有する情報処理システムにも適用可能である。

本発明は、バックアップやアーカイブデータに対する検索システムといった用途にも適用可能である。例えば、データマイニング処理又はテキストマイニング処理を行うマイニング装置に、請求項１等の本発明の情報検索システムを備えた構成としてもよい。あるいは、携帯通信端末（携帯電話機）に、請求項１等の本発明の情報検索システムを備えた構成としてもよい。あるいは、音楽（音声）／画像（動画）等のメディア再生装置に、請求項１等の本発明の情報検索システムを備えた構成としてもよい。あるいは、名簿情報を管理する装置に、請求項１等の本発明の情報検索システムを備えた構成としてもよい。あるいは、カラオケ装置に、請求項１等の本発明の情報検索システムを備えた構成としてもよい。これらの装置において、例えばインデックスの属性に応じて、過去の時点における属性情報に基づいた情報検索を実現する構成とした場合、ユーザが過去に行った検索操作と同等の操作を行った場合に、以前と同じ方法で同じ情報に辿り着くことを可能としている。

以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

情報検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、前記選択した区分インデックスを用いて検索を行う検索手段を備えている、ことを特徴とする情報検索システム。
文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録手段と、
検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件入力手段と、を備え、
前記検索手段は、入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う、ことを特徴とする請求項１記載の情報検索システム。
前記検索の基点となる情報が指定入力されない場合、前記検索手段は、前記インデックス格納手段に登録されている、最新インデックスと過去の区分インデックスの全てを用いて検索する、ことを特徴とする請求項１又は２記載の情報検索システム。
インデックスを区分して登録する契機を、前記インデックス登録手段に通知する区分契機通知手段を備えたことを特徴とする請求項２記載の情報検索システム。
インデックスの作成対象となる文書のバックアップに関連付けて、インデックスを区分して登録する契機を、前記インデックス登録手段に通知する手段を備えている、ことを特徴とする請求項２記載の情報検索システム。
前記検索手段は、複数のインデックスに同一文書に対するインデックスデータが格納されている場合、新しいインデックスを優先して処理をする、ことを特徴とする請求項２記載の情報検索システム。
前記インデックス登録手段は、文書を記憶する文書格納手段から、インデックスに登録する文書を読み出し、インデックスに登録するために必要な所定の事前処理を行って最新インデックスに対して登録し、
インデックスの区分処理を行うにあたり、インデックスの区分の契機か否かを判断し、インデックス区分の契機の場合には、現在の最新インデックスのインデックスを区分インデックスの１つに設定した上で、最新インデックスを空で作成し、この空の最新インデックスを、前記インデックス登録手段のインデックスの登録先とする、ことを特徴とする請求項２記載の情報検索システム。
前記インデックス格納手段に記録される前記区分インデックスが、過去の時点での情報検索に利用された所定の属性情報を含み、
前記過去の時点に対応する区分インデックスを選択して検索することで、前記過去の時点の属性情報に基づいた情報検索結果を出力自在としてなる、ことを特徴とする請求項１又は２記載の情報検索システム。
検索対象の文書を格納する文書格納手段を備え、
前記インデックス登録手段は、前記文書格納手段が保持する検索対象の文書のインデックスを作成し、区分インデックスとして、前記インデックス格納手段に登録する、ことを特徴とする請求項２記載の情報検索システム。
前記文書格納手段のバックアップ手段を備え、
前記文書格納手段のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録手段に通知する手段を備えている、ことを特徴とする請求項９記載の情報検索システム。
情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う、ことを特徴とする情報検索方法。
文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録工程と、
検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、
を含み、
入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを、選択的に読み込み、検索処理を行う、ことを特徴とする請求項１１記載の情報検索方法。
検索の基点時間情報が指定入力されない場合、前記インデックス格納手段に登録された全てのインデックスを用いて検索する、ことを特徴とする請求項１１又は１２記載の情報検索方法。
インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む、ことを特徴とする請求項１２記載の情報検索方法。
検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む、ことを特徴とする請求項１２記載の情報検索方法。
情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う処理をコンピュータに実行させるプログラム。
文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録する処理と、
検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、
入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択して検索を行う処理と、
を前記コンピュータに実行させる請求項１６に記載のプログラム。