JPWO2008044542A1 - 情報検索システムと情報検索方法ならびにプログラム - Google Patents

情報検索システムと情報検索方法ならびにプログラム Download PDF

Info

Publication number
JPWO2008044542A1
JPWO2008044542A1 JP2008538663A JP2008538663A JPWO2008044542A1 JP WO2008044542 A1 JPWO2008044542 A1 JP WO2008044542A1 JP 2008538663 A JP2008538663 A JP 2008538663A JP 2008538663 A JP2008538663 A JP 2008538663A JP WO2008044542 A1 JPWO2008044542 A1 JP WO2008044542A1
Authority
JP
Japan
Prior art keywords
index
search
information
document
past
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008538663A
Other languages
English (en)
Other versions
JP5218060B2 (ja
Inventor
真樹 菅
真樹 菅
善裕 梶木
善裕 梶木
山川 聡
聡 山川
隆史 鳥居
隆史 鳥居
金子 裕治
裕治 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008538663A priority Critical patent/JP5218060B2/ja
Publication of JPWO2008044542A1 publication Critical patent/JPWO2008044542A1/ja
Application granted granted Critical
Publication of JP5218060B2 publication Critical patent/JP5218060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索対象の情報源が日々変化するシステムにおいて、ユーザが過去に行った検索操作と同等の操作を行った場合に、以前と同じ方法で同じ情報に辿り着くことを可能とするシステムを提供する。インデクッス登録手段2は、検索処理に用いるインデックスを時系列にしたがって区分した区分インデックスとして登録し、検索手段3は、指定された検索の基点となる時点よりも古いインデックスのみを読み込んで検索処理を行い、ある過去の時点に基づく検索処理を行う。

Description

[関連出願の記載]
本発明は、日本国特許出願:特願2006−275169号(平成18年10月 6日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は情報検索システム、情報検索方法及び情報検索用プログラムに関し、特に過去の視点に基づく検索を可能とする情報検索システム、情報検索方法及び情報検索用プログラムに関する。
Google(登録商標)等に代表されるWeb検索システムの普及により、電子ファイル等に対する全文検索システムが一般化してきた。ユーザは検索システムを用いて情報を検索する作業を行うことを日常的に行うようになっている。
現在、電子ファイル等に対する全文検索システムは、高速に検索するためのインデックス(索引)をあらかじめ作成しておき、このインデックスを用いて電子ファイルを検索する仕組みが主流となっている。このような情報検索システムの例が、特許文献1、非特許文献1に記載されている。
インデックスを作成する技術として、N−gramを用いた方式、形態素解析方式が知られている(非特許文献1)。
これらの方式によって作成されたインデックスは、一般的に、非圧縮で、元文書の200〜300%の容量となり、大きな容量を必要とする。
また、このインデックスを動的に更新するのが困難である、という問題がある。
検索処理は、このインデックスを用いて行うために、ユーザは、インデックスを作成あるいは更新した時点における、検索対象のデータの状態に対する検索結果を得ることが出来る。
例えば、インデックスが1日前の時点の検索対象データに基づいて作成された場合、それ以降に検索対象データに対して増加あるいは更新された状態は、検索結果に反映されない。
従って、出来るだけリアルタイムに検索対象のデータをインデックスに取り込むことが求められている。そのような技術が、特許文献1、特許文献2に記載されている。
特許文献1には、新たに登録された文書ファイルに対応するインデックスを作成してメモリにしておき、文書検索部は、メモリに格納された新規文書データのインデックスデータと、ディスク装置に格納された既存の文書ファイルのインデックスデータの双方を用いて文書ファイルを検索する文書検索装置が開示されている。また特許文献2には、新規文書をインデックスに登録する際に、主インデックスよりも小さな副インデックスに登録し、検索時には、各インデックスにアクセスして検索し、その結果を合わせて検索結果とする文書検索装置が開示されている。
特開平9−223152号公報 (第1頁) 特開平7−146880号公報 北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」共立出版、2002年1月1日、pp.6、pp.160〜179
以上の特許文献及び非特許文献の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に、本発明による関連技術の分析を与える。従来及び現行の情報検索システムは、下記記載の問題点を有している。
すなわち、ユーザが過去に行った検索クエリーと同様の操作を行っても、以前と同じ方法で情報に辿り着くことが出来ない場合がある、ということである。
その理由は、検索対象となる情報源が、日々、増大/変更されるシステムにおいては、検索用インデックスも、日々追加/更新されるために、ユーザが行った検索クエリーが同一なものであっても、検索システムは異なる検索結果を返すためである。
ユーザが過去に発見したファイルや、Web上の情報源に辿り着くために、そのファイルのパスやURI(Uniform Resource Identifier)を記憶しておくということが考えられる。
しかし、ユーザは、一般的に、ファイルのパスやURIを記憶しておかずに、どのように情報に辿り着いたかのみを記憶していることがある。
具体的には、今日のように、検索エンジンが一般化した状況では、検索エンジンに対して入力した検索クエリーだけを記憶しておき、再度、検索するのである。
例えば、「3日前に○○というキーワードで検索して見つかったあのWebページ」のように記憶しておくのである。
しかしながら、検索エンジンのインデックスは、日々更新/増加されているために、ユーザは同じキーワードで検索しても、異なる検索結果を得ることがある。そのため、以前得たファイルや情報に再び辿り着けなくなることがある。
過去の時点と同じ検索結果を得たいというユーザからのニーズが起きる可能性がある。
したがって、本発明は、上記課題に鑑みて全く新規に創案されたものであって、その主たる目的は、過去の基点に基づいた検索を可能とする情報検索システム、方法、プログラムを提供することにある。
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
本発明に係る情報検索システムは、情報検索用のインデックスとして、時系列に区分されてなる区分インデックスをインデックス格納手段に用意しておき、
検索要求で指定された条件に基づき、時系列にしたがって区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、前記選択した区分インデックスを用いて検索を行う手段を備えている。
本発明に係る情報検索システムは、文書検索用のインデックスとして、時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録手段と、検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件入力手段と、入力された検索の基点となる前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う検索手段と、を備えている。
本発明においては、検索の基点となる時間情報が指定入力されない場合、前記検索手段は、前記インデックス格納手段に登録されている、最新インデックスと過去の区分インデックスの全てを用いて検索する。
本発明においては、インデックスを区分して登録する契機を、前記インデックス登録手段に通知する区分契機通知手段を備えた構成としてもよい。
本発明においては、検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録手段に通知する手段を備えた構成としてもよい。
本発明においては、前記検索手段は、複数のインデックスに同一文書に対するインデックスデータが格納されている場合、新しいインデックスを優先して処理をする。
本発明においては、前記インデックス登録手段は、文書を格納する文書格納手段から、インデックスに登録する文書を読み出し、インデックスに登録するために必要な所定の事前処理を行って最新インデックスに対して登録し、インデックスの区分処理を行うにあたり、インデックスの区分の契機か否かを判断し、インデックス区分の契機の場合には、現在の最新インデックスのインデックスを区分インデックスの1つに設定した上で、最新インデックスを空で作成し、この空の最新インデックスを、前記インデックス登録手段のインデックスの登録先とする。
本発明においては、前記インデックス格納手段に記録される前記区分インデックスが、過去の時点での情報検索に利用された所定の属性情報を含み、前記過去の時点に対応する区分インデックスを選択して検索することで、前記過去の時点の属性情報に基づいた情報検索結果を出力自在としている。
本発明に係る方法は、情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う。
本発明に係る方法は、文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録工程と、
検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、
入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを、選択的に読み込み、検索処理を行う工程と、
を含む。
本発明に係る方法において、検索の基点時間情報が指定入力されない場合、前記インデックス格納手段に登録された全てのインデックスを用いて検索する。
本発明において、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む。
本発明に係る方法において、検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む。
本発明に係るコンピュータプログラムは、文書検索用のインデックスとして時系列にしたがって区分してなる区分インデックスをインデックス格納手段に登録する処理と、
検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、
入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択して検索を行う処理と、をコンピュータに実行させるプログラムよりなる。
本発明によれば、過去の基点に基づく検索処理を実現することができる。
その理由は、本発明においては、インデックスを時系列に区分して記録しておき、過去の基点よりも古いインデックスのみを用いて検索処理を行うためである。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態における、インデックスの管理例を示す図である。 本発明の第1の実施の形態における、検索処理動作を示す流れ図である。 本発明の第1の実施の形態における、検索処理動作のインデックス読み込み処理を示す図である。 本発明の第1の実施の形態における、インデックスへの追加処理を示す流れ図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第1の実施の形態の変形例として、時系列分析機能の説明をするための図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態における、バックアップ手段と連携したインデックス区分の動作の流れを示す流れ図である。 本発明の第2の実施の形態における、検索処理動作を示す流れ図である。 本発明の第2の実施の形態における、検索処理中のインデックス読みこみ処理を示す図である。 本発明の第3の実施の形態の構成を示すブロック図である。
符号の説明
1 文書格納手段
2 インデックス登録手段
3 検索手段
4 検索条件入力手段
5 検索結果出力手段
6 バックアップ手段
7 区分契機通知手段
8 インデックス管理手段
10 最新インデックス
11〜17 区分インデックス
100 過去インデックス格納部
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施の形態の構成を示す図である。図1を参照すると、文書格納手段1と、インデックス登録手段2と、検索手段3と、検索条件入力手段4と、検索結果出力手段5と、過去インデックス格納部100とを備えている。
過去インデックス格納部100は、区分インデックス11〜14を含む。区分インデックス11〜14は、図1では4つの構成であるが数に制限はない。
これらの手段はそれぞれ概略次のように動作する。
文書格納手段1は、検索対象の文書を保持する機能を果たす。文書格納手段1は、例えば、
・ユーザが保持するパーソナルコンピュータのハードディスク装置や、
・NAS(Network Attached Storage)等の外部装置、
・WWW(World Wide Web)、
・Intranet(企業内のWebページ群)
等が挙げられる。
検索対象の文書とは、上記のような格納手段内に存在するWebページやオフィス文書等の電子ファイル、データベース内の構造化された情報等がある。
インデックス登録手段2は、文書格納手段1が保持する検索対象の文書のインデックスを作成し最新インデックス10に登録する機能を持つ。
検索手段3は、区分インデックス10〜14のインデックスを用いて、検索処理を行う。検索キーワードや検索する時点(いつの時点における文書群に対して検索するか)等の検索条件は、検索条件入力手段4から受け取る。検索処理の結果は、検索結果出力手段5に渡す。
検索条件入力手段4は、
・検索するための検索キーワードや、
・検索の基点となる情報、
等の検索条件を指定し、検索手段3に対して受け渡す機能を果たす。検索の基点となる情報は、例えば年月日、あるいは、時、分等の時間情報のほか、時間に関連したイベント等の契機情報であってもよい。
検索条件入力手段4の一例として、例えば、ユーザのWebブラウザ上から入力する検索キーワードの入力ボックス等を用いることができる。
検索結果出力手段5は、検索手段3が行った検索処理の結果を受け取り、ユーザに検索結果として出力する機能を果たす。検索結果出力手段5の一例として、例えば、ユーザのWebブラウザ上に検索結果の一覧を出力するソフトウェアが用いられる。
なお、インデックス登録手段2と、検索手段3と、検索条件入力手段4と、検索結果出力手段5は、コンピュータで動作するプログラム制御により、その機能、処理が実現される。
最新インデックス10、及び、過去インデックス格納部100に含まれる区分インデックス11〜14は、検索処理に用いるインデックスである。そのインデックスを何らかの契機により時系列に区分したものである。
このうち、最新の更新分の区分インデックスを最新インデックス10とする。
インデックス登録手段2は、新規文書あるいは更新文書をインデックス化して、常に、最新インデックス10へ登録する。
なお、図1では、過去の区分インデックスは合計4つの構成であるが、区分インデックスの数に制限はなく、時系列に区分されるたびに増加していく。
最新インデックス10、区分インデックス11〜14は、メモリや磁気ディスク装置等の記憶装置に対して保存される。
保存する形式としては、
・通常のファイルの形式、
・データベース上のレコード
等がある。
最新インデックス10、区分インデックス11〜14は、それぞれ異なる記憶装置に保存されてもよいし、同じ記憶装置に保存されてもよい。
図2は、インデックスの管理の一実施例を説明するための模式図である。図2の例の場合、時系列にインデックスが区分され、1日1回、インデックスが区分されるものとする。図2の例における現在の日付は、「5/11」とし、
・現在における文書のインデックス登録は、最新インデックス10に行われる。
区分インデックスとして、
・1日前の「5/10」分の登録された分は、右隣の区分インデックス11に保持され、
・2日前の「5/9」分に登録された分は区分インデックス12に保持されている、
はずである。
このように、過去の最新インデックスを、そのまま、区分インデックスとして、順次、保持していく。
時間の経過とともに、過去のインデックスが増加していくこととなる。
ある定められたインデックスを区分する契機において、最新分のインデックス(インデックス登録手段2がインデックスを登録する対象)を新規に作成する。
そして、それまで、最新分のインデックスであったインデックス(最新インデックス10)は、2番目に新しいインデックスとして、区分インデックスの1つとなる。
これらの仕組みを、インデックス登録手段2の登録先への登録パスを変更することによって実現してもよい。
または、最新インデックス10のデータを、過去インデックス格納部100にコピーして、新しい区分インデックスを作成し、最新インデックス10を空にすることによって実現してもよい。
なお、最新インデックス10及び区分インデックス11〜17の物理的あるいは論理的な記憶位置は問わない。
次に、図3のフローチャートを参照して、本実施の形態の検索処理動作について詳細に説明する。
まず、ユーザは検索条件入力手段4を介して、検索条件を入力する(図3のステップS101)。
検索条件には、
・通常の検索クエリーの情報(検索のキーワード等)と、
・必要ならば、検索処理の基点となる日時の情報(「基点情報」という)
を入力する。
この基点情報は、過去の視点に基づく、検索処理を行う際に必要な情報である。
過去の視点に基づく検索処理とは、例えば3日前に行った検索処理と全く同等の結果を得たい場合に、3日前の情報に基づく検索を行うことである。
次に、検索手段3は、基点情報が入力されているかどうかを確認する(ステップS102)。
基点情報が入力されていない場合(ステップS102のNo分岐)、検索手段3は、インデックスを全て読んで検索を行う(ステップS103)。
ステップS103の処理について、図4に示した例に即して説明する。
区分インデックスは、11から17まで存在するとする。その時、最新インデックス10から、区分インデックス17まで、全てのインデックスを読んで検索処理を行う。
この際、同一文書に対して更新が行われた際には、複数のインデックスに、同一文書に対するインデックスデータが格納されていることになるが、常に、新しいインデックスを優先する(図4においては、左側に存在するインデックスを優先する)。
ステップS103で、検索手段3は、リード(Read)したインデックス情報に基づき、検索処理を実行する(ステップS104)。そして、検索手段3は、検索結果出力手段5に対して、検索結果を通知する。
ステップS102がYesの場合(基点情報が入力されている場合)、検索手段3は、指定された規定情報以前のインデックスを読んで検索を行う(ステップS105)。
ステップS105の動作について、図4に示した例に即して説明する。
今回は、基点情報が「5/8」と入力されたとする。このとき、「5/8」のインデックスに基づいて検索処理を行うため、検索手段3は、「5/8」分の区分インデックス12からインデックス読み込みを行う。
つまり、最新の更新分(「5/10」以降の情報)が登録されている最新インデックス10と、「5/9」分が登録されている区分インデックス11とは読み込まず、その他のインデックス全てを読み込んで検索処理を行う。
この際、ステップS103と同様に、同一文書に対して更新が行われた際には、複数のインデックスに同一文書に対するインデックスデータが格納されていることになるが、常に新しいインデックスを優先する(図4においては、左側に存在するインデックスを優先する)。
このような仕組みで検索処理を行うことによって、基点情報に入力された時間時点における、インデックスのデータに基づいて、検索処理を行うことが出来る。
本発明の実施形態の変形として、ステップS105あるいはS103の検索処理において、過去の区分インデックスを全て読まないようにしてもよい。
例えば、最新インデックス10から、区分インデックス14まで読み込み、それより古い区分インデックスを読み込まないようにする。
このようにすると、最新分から「5/6」の更新変更分までが、検索対象となり、それ以前の更新変更分は、検索対象にならない。
どの程度過去の区分インデックスまで読むかは、検索性能とのトレードオフである。
どの程度過去の区分インデックスまで読むかは、例えば、次のような方法で決定することが出来る。
(A)検索条件入力手段4が、「何日前までに変更されたファイルを検索するか」を指定するか、
(B)検索手段3が読み込みを行う、インデックスの限界サイズを決めておき、それ以上の区分インデックスは読み込まないようにする、
等である。
(B)の方法は、検索処理を行うサーバのキャッシュメモリサイズにより決定する等の実施形態が考えられる。
この変形を用いることによって、検索処理性能を向上させることができる。
その理由は、検索処理性能を決定する一要素として読み込むインデックス容量があるためである。
次に、本発明の第1実施形態において、検索処理を行うための事前準備について説明する。
本実施の形態において、検索処理を行うために、
・検索対象の文書のインデックス化と、
・インデックスの区分処理、
の2つの処理が必要である。その処理動作について順に説明する。
まず、検索対象の文書のインデックス登録処理の動作について、図5のフローチャートを参照して説明する。
最初に、インデックス登録手段2は、文書格納手段1から、インデックスに登録する文書(検索対象とする文書)を読み出す(図5のステップS201)。
次に、インデックスに登録するための処理の事前処理を行う(ステップS202)。
この事前処理とは、インデックス手法の一方式である、転置ファイル法を例にあげると、以下の処理を含む。
・検索対象の文書を読み出してテキストを抽出し、そのテキストからインデックスに登録する索引語を抽出する。
・その索引語の出現位置、回数等を認識する。
インデックス化方法の詳細は、非特許文献1等の文献に記載されているため、省略する。
最後に、インデックス登録手段2は、事前処理によって明らかになったインデックスに登録するための情報を、最新インデックス10に対して登録する(ステップS203)。
最新インデックス10内に、該検索対象の文書の情報が存在しない場合には、新規追加の処理を行う。
最新インデックス10内に該検索対象の文書の情報が存在する場合には、更新の処理を行う。
なお、通常の検索インデックスの作成においては、新規作成と更新、削除について、インデックスの更新処理を行う。
新規作成と更新については、前述した通りであるが、削除については、最新インデックス10に対して、削除文書のインデックスを空として、登録する処理を行い、過去の区分インデックス11以降を削除しない。
次に、インデックス区分処理の動作について、図6のフローチャートを参照して説明する。
なお、このインデックス区分処理は、インデックス登録手段2が行ってもよいし、別途インデックスを管理する手段を用意して行ってもよい。
まず、インデックスの区分の契機であるか否かを判断する(図6のステップS301)。
インデックスを区分する契機は、例えば、
・定期的に区分するとして、時刻や曜日を定めておいてもよいし、
・インデックスのサイズで決定して区分してもよい。
インデックス区分契機でない場合には、インデックス区分処理は必要ないため、本処理フローでは何も行わない。
インデックス区分の契機であった場合、現時点で最新インデックス10であるインデックスを区分インデックスの1つとする(ステップS302)。
この実施例は様々な方法があるが、例えば
・最新インデックス10を、過去インデックス格納部100に、物理的あるいは論理的にコピーする、
・最新インデックス10を区分インデックスとして扱うようリネームする、
・インデックス登録手段2の登録先のインデックスを変更する、
等がある。
最後に、新たな最新インデックス10を新規に空で作成する(ステップS303)。
この最新インデックス10を、以降のインデックス登録手段2のインデックス登録先とする。
なお、インデックスの区分処理は、このような図6のフローで行ってもよいが、他の何らかの手段からの通知により、イベントとして区分処理をしてもよい。
例えば、毎日0時にインデックスを区分する場合、毎日0時に、インデックスの区分処理を要求するための通知を送る手段を別途用意し、その通知を、区分処理担当の手段に対して通知する。0時以前の昨日の最新インデックスが、最新の過去の区分インデックスとなり、新たな最新インデックス10を、以降のインデックス登録手段2の登録先として1日分の区分インデックスが作成される。
なお、後述する本発明の第2の実施の形態は、このような仕組みによるものの一例である。
また、インデックス区分処理は、インデックス登録手段2が行わなければならないものではなく、インデックスの区分のみを別に行う手段を別途用意してもよい。それぞれに最適な実装方法を選択すればよい。
本発明の第1の実施形態の作用効果を説明する。
過去のある時点に基づく検索処理を実現するためには、過去の時点におけるインデックスを全て保持しておく必要があるが、第1の実施形態では、時系列に区分して、インデックスを保持し、入力された基点情報に基づいて、読むインデックスを変更するために、過去インデックスの保持容量を削減することができる、という効果がある。
また、最新分のインデックスのみを保持する方法においても、過去の検索結果を保持しておくことによって、同様のことを実現することが出来るが、これは、過去に実際に行われた検索に対してしか、過去の視点における、検索結果を返すことができない。
本実施の形態においては、過去に検索クエリーが行われなくても、過去の視点に基づく検索を実現することが出来る。
また、最新インデックス10は、最新登録分のインデックスのみが格納されているために、容量が小さくて済む。すなわち、最新登録分のインデックスのみが差分として格納される。基準となる過去の1つの区分インデックスに対して、以降の区分インデックスは、差分情報のみが蓄積されることになる。従って、高速な記憶装置(半導体メモリ等)に格納することができるため、インデックスの追加更新処理等を高速に行うことができる。
本発明の第1の実施の形態の変形(その2)について説明する。本発明の第1の実施の形態の変形2では、時系列に検索結果を分析する。
本発明の第1の実施の形態を応用することによって、次のような機能を得ることができる。
・ある検索クエリーに対する検索結果の時系列推移の表示、
・同一文書のある検索クエリーに対する検索順位の推移の表示。
図7を例に挙げて説明すると、このように、検索処理の対象となるインデックスを変更した検索処理を行うと、日付毎の検索結果を得ることができる。
この検索結果をまとめて集計することによって、上記の機能を達成することができる。
なお、本実施形態では、各区分インデックスは、インデックス登録時の日時等にしたがって時系列的に区分されているが、これとは別に、インデックスの作成で参照された文書の属性(例えばタイプスタンプ等)に基づいて、区分インデックスに区分けする構成としてもよい。
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図8を参照すると、本発明の第2の実施形態は、図1に示される第1の実施形態に加え、バックアップ手段6と、区分契機通知手段7とを含む。
この2つの手段以外は、前記第1の実施の形態と同一であるため、説明を省略する。バックアップ手段6と、区分契機通知手段7とは、概略次のように動作する。
バックアップ手段6は、文書格納手段1に格納されているデータのバックアップ(予備)を作成し記憶しておく手段である。
バックアップ手段6は、文書格納手段1に格納されているデータを、ある契機のデータに復元するためのものであり、実際に、データ全体又は変更分の複製を記憶装置に定期的に保存するものが例としてあげられる。
また、「スナップショット」と呼ばれるような、ディスク内のデータの位置を示すポインタ情報を記録するような仕組みで、実際のデータの複製を持たずに文書格納手段1のデータをある一時点に復元することができるものもバックアップ手段6の1つと見なす。
また、他には、
・CDP(Continuous Data Protection;継続的データ保護)制御ソフトウェアや、
・データベースソフトウェア、
・ジャーナリングソフトウェア
のような、過去のデータにアクセスすることが出来るデータ保護手法を、バックアップ手段6として利用しても良い。
CDPは、データが更新されるたびに、その変更内容を時系列的に保存してゆくデータ保護手法であり、ストレージに対するデータ書き込みをトラッキング、キャプチャし、データ更新が発生したとき、その変更内容を、二次ストレージ(変更履歴データベース)にジャーナリングしていく。
これにより、過去のどの時点のデータも、再現することができ(Any Point In Time(APIT)Recovery)、データ損失を回避することができる。
これは、秒単位で追加バックアップを取り続けることに相当する。
スナップショットでは、データは数十分のオーダでしか復元できないが、CDPでは、数秒レベルでデータの復旧地点を設定することができる。
なお、データの変更履歴の記録だけからは、実データ全体を復元することはできないため、スタート地点として、ボリューム全体のレプリケーションを行い、このレプリケーションに対する変更履歴を時系列で記録していく構成とされる)。
CDPのタイプとして、
・ブロック型、
・ファイル型、
・アプリケーション型
がある。
ブロック型は、物理ディスク又はロジカルボリュームレベルのブロック単位でデータ変更をトラックする。
ファイル型は、ファイル・レベルでデータ変更をトラックする。
アプリケーション型は、ログ情報やAPIにより特定のアプリケーションの動きを認識し、ファイル更新やイベント単位でトラックする。
トラック頻度は、ブロック単位の場合、例えば秒単位以上、ファイル型、アプリケーション型は、例えばファイル・イベント更新毎を最小単位とする。
二次ストレージへの書き込みは、同期型、非同期型がある。
なお、CDPソフトウェアとしては、TimeSpring社の「TimDataTM」(商標)等が市販されている。
区分契機通知手段7は、バックアップ手段6が、文書格納手段1のデータの複製(あるいは復元可能な点)を保持している契機の一部あるいは全てを通知する手段である。
この通知された契機に従い、インデックス登録手段2は、インデックスの区分を行う。
具体的には、バックアップ手段6が、1日に1回、毎日0時に、バックアップを行うとすると、区分契機通知手段7は、インデックスの区分を、毎日0時に、インデックス登録手段2に指示する。
本発明の第2の実施形態における、バックアップシステムと連携して、インデックスを区分する動作の流れについて、図9を参照して説明する。
まず、バックアップ手段6が、文書格納手段1に保持されているデータのバックアップを取得する(図9のステップS401)。
具体的な実施例としては、文書格納手段1の記憶装置から、バックアップ時点のデータを読み込み、バックアップ手段の記憶装置に記憶するというものが挙げられる。
次に、バックアップ手段6がバックアップを取得した契機を、区分契機通知手段7がインデックス登録手段2(インデックス区分処理を担当する手段)に対して通知する(ステップS402)。
最後に、インデックス登録手段2が、インデックス区分処理を行う(ステップS403)。
インデックス区分処理に関しては、前記第1の実施の形態と同一である。
本発明の第2の実施の形態に基づくシステムでは、前記第1の実施の形態と同様の過去の基点に基づく検索に加え、バックアップデータに対する検索処理を実現することが出来る。
図10のフローチャートを参照して、本実施の形態の検索処理動作について詳細に説明する。
まず、ユーザは検索条件入力手段4を介して、検索条件を入力する(図10のステップS501)。
検索条件には、
・通常の検索クエリーの情報(検索のキーワード等)と、
・必要ならば検索対象のバックアップデータの種類(あるいは、バックアップ採取時間)を指定あるいは選択する。
毎日0時にバックアップを開始する場合、検索条件の時間情報としては、年月日情報を入力するようにしてもよいし、あるいは、月、週に何回かバックアップする場合、何月の何回目のバックアップ以前あるいは以降等という、バックアップイベント情報を、過去情報として指定してもよい。なお、検索の基点となる条件として、時間の範囲、あるいは論理式で与えるようにしてもよい。
次に、検索手段3が検索処理を行うが、その最初に、バックアップデータの種類が指定されているかどうかを確認する(ステップS502)。
バックアップデータが選択されていない場合(Noの場合)には、検索手段3はインデックスを全て読んで検索処理を行う(ステップS503)。
この処理については、第1の実施の形態と同様であるので、説明を省略する。
ステップS503で読み込んだインデックス情報に基づき、検索処理を完了する(ステップS505)。
検索手段3は、検索結果出力手段5に対して検索結果を通知する。
ステップS502がYesの場合(バックアップデータを指定されている場合)、検索手段3は指定されたバックアップデータの採取時点以前のインデックスを読んで検索を行う(ステップS504)。
ステップS504の動作について、図11を例に説明する。
図11は、インデックスの区分の様子を示した図である。1日に1回バックアップを取っているシステムであり、バックアップの契機でインデックスを区分している。
この場合、「5/9」に採取したバックアップから、「5/10」にバックアップを取るまでの更新が区分インデックス11に反映される。
今回、「5/9」に取得したバックアップデータに対して検索処理を行うとすると、検索手段3は、区分インデックス12以降の区分インデックスを読み込み、検索処理を行う。
なお、前記例では、フルバックアップを採取したシステムを前提としたが、同様に、「5/9」に採取した差分バックアップデータに対する検索を行うことも出来る。
図11を例に説明すると、検索手段3は、区分インデックス12のみを読み込み、検索処理を行う。
なお、検索手段3の検索処理(ステップS504)、あるいは、検索結果出力手段5が行う結果の出力処理段階(ステップS505)において、検索結果のファイルへのパス(URIやファイル名等)を書き換える必要がある。
検索インデックスに格納されている、検索対象文書へのパスは、文書格納手段1に存在することが前提なためである。
これは、バックアップ手段に記録される検索対象文書へのパスは、バックアップ手段が決定するルールに基づくため、その変換ルールをバックアップ手段6は、事前に検索手段3あるいは検索結果出力手段5に通知しておく。
図8の構成は、検索手段3(ステップS504)でパスの変換を行う場合である。
本発明の第2の実施の形態の変形は、過去のインデックスでヒットしたファイルは、参照先をバックアップ先に変更する、CDPソフトウェアのような動きが出来る。
また、本発明の第2の実施の形態における、検索処理(図10のステップS503及びS504)において、旧版の文書を検索にヒットさせるように、第2の実施の形態を変形することが可能である。
本発明の第2の実施の形態においては、図10のステップS503及びS504においては、前記第1の実施の形態と同様に、複数の区分インデックスに存在する同一文書のインデックスは、検索手段3が読み込む範囲で、一番新しい区分インデックスを優先するよう動作する。
本発明の第2の実施の形態の変形では、区分インデックスのいずれかでヒットした文書は、文書のパス(参照先)をバックアップ手段6における記憶先に変更する。
そして、同一文書のインデックスが複数ヒットしても、その両方を検索結果に提示する。
なお、区分インデックスでヒットした文書の全てのパスを、バックアップのパスへ変更してもよいが、その文書が最新の場合(ヒットした区分インデックスよりも新しいインデックスに、該文書が存在しない場合)には、パスを変更せずに、文書格納手段1のパスのまま提示し、バックアップ手段6にヒットした文書が存在する場合には、バックアップ手段6における記憶先に、当該文書のパスを変更するようにしてもよい。
バックアップ手段によって採取されたバックアップデータに対する検索機能を提供するには、現状では、バックアップデータに対してインデックスを作成する必要があった。
しかし、本実施の形態を用いることにより、主たる文書格納手段1に対するインデックスのみで、バックアップデータに対する検索機能を実現することが出来る、という効果がある。
これに伴い、バックアップデータに対するインデックス登録処理が不要であるため、インデックスに必要な記憶容量ならびに計算処理に必要な計算機資源を削減することができる。
過去の区分インデックスにおいて、検索ヒットした文書の参照先をバックアップ手段が記憶している場所にすることにより、本発明の検索システムは、CDPと同様に過去の履歴にアクセスできるという効果がある。また過去の状態に基づく検索が実現できるため、ファイルの過去のある時点にしか存在しなかった単語などで検索を行うことができる。
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。本発明の第3の実施の形態においては、過去の区分インデックスをマージする構成としたものである。
図12を参照すると、本発明の第3の実施形態は、図1に示した前記第1の実施形態に加え、インデックス管理手段8を含む。
これ以外は、前記第1の実施形態と同一であるため、説明を省略する。
なお、図8に示される、前記第2の実施の形態に、インデックス管理手段8を加えた構成として、第3の実施の形態を実現しても良い。
インデックス管理手段8は、概略、次のように動作する。インデックス管理手段8は、区分インデックスのうち単数あるいは複数にアクセスし、区分インデックスをマージして、1つの区分インデックスにするという機能を果たす。
区分インデックスをマージするということは、転置ファイル法によるインデックス作成方式を例に挙げると、複数含まれている同一文書のインデックスを、新しい方を残して1つにして、複数の転置ファイルを1つの転置ファイルとすることとなる。
区分インデックスをマージする処理は、次のような条件で行うことが考えられる。
・ 区分インデックスが一定数を超えた時、
・ 区分インデックスが一定容量を超えた時、
・ 区分インデックスが一定期間より古くなった時。
本実施の形態により、区分インデックスをマージすることによって、検索処理性能を高速化することができる。
その理由は、区分インデックスをマージすることにより、同一文書のインデックスを複数読むような、インデックスの非効率性が改善されるためである。
本発明の第3の発明の実施の形態の変形について説明する。
本変形では、第1の実施の形態の変形で、過去の区分インデックスの読み込みを途中で止めると、過去のファイルが検索ヒットしないという問題を解決するために、コンピュータにおけるキャッシュのようなインデックスの動作を果たす。本変形では、インデックス管理手段8が、次のような機能を果たす。
インデックス管理手段8が、最新インデックス及び区分インデックス11〜15を読み込み、インデックスに含まれる文書の幾つかを抽出して新たな区分インデックスを作成する。
そして、その区分インデックスは、通常の区分インデックスとは別に扱い、検索処理で読み込みを途中で止める場合にも、必ず読み込むこととする。
区分インデックスから選択する文書は、一定のルールで抽出すればよい。そのルールは、例えば次のような例が考えられる。
・ 一定期間以上更新されないが、ユーザからのREADは頻繁に行われる文書、
・ ユーザが重要と指定した文書、
・ 特定のキーワードが文書内に含まれる文書。
このようにすることによって、第1の実施の形態の変形において、過去のファイルが検索ヒットしない、という問題が発生するが、インデックス管理手段8が選択した文書は更新されていなくても、検索にヒットしないということが起きないという効果がある。
なお、上記各実施形態及びその変形例において、インデックスに記録される情報(属性情報)として、後に再計算不可能な、あるいは再計算が困難な情報が記録される場合には、当該インデックスの属性に応じて、過去の時点における文書群の特徴に基づいた情報検索を、過去に遡った環境下で実現することができる。インデックスに記録される、後に再計算不可能な、あるいは再計算が困難な情報の例として、検索結果のランキングに利用する、キーワードの頻度等の数値データ、文書の重要度等を示すスコア等が挙げられる。過去の時点における、この種の情報が記録されると、後の情報検索において過去の検索時と同様のランキングの検索結果が出力可能となる。
本発明において、後に再計算可能な情報のみがインデックスに記録される場合には、過去の時点の文書に対する情報検索を効率的に実行できる。ここで、「情報検索の効率的な実行」とは、完全な過去のインデックスを保持する記憶容量や、バックアップ等からインデックスを再生成する計算量等を、削減可能であることをいう。後に再計算可能な情報の例としては、キーワードとその出現文書の対応情報等がある。
上記の再計算不可能なインデックス情報(静的なスコア情報)、及び、再計算可能なインデックス情報が別の記憶領域に格納されている場合には、両者を時系列に区分することで、本発明を適用することができる。図1には、時間軸に関して一つの系列の区分インデックス(10〜14)を備えた構成が示されているが、本発明においては、時間軸に関して複数系列の区分インデックスを備えた構成としてもよいことは勿論である。すなわち、インデックスを複数の記憶領域に配置するシステムにも本発明を適用することができる。この場合、複数の記憶領域のインデックスについて、それぞれ時系列に区分された、複数系列の区分インデックスが設けられる。
上記した各実施の形態の作用効果について説明する。
(A)過去の基点に基づく検索処理を実現することができる。その理由は、上記した実施の形態では、インデックスを時系列に区分して記録しておき、過去の基点より古いインデックスのみを用いて検索処理を行う構成としたためである。
(B)また、上記効果を奏しながら、インデックスの追加更新処理等を高速に行うことができる。その理由は、上記実施の形態においては、追加更新対象となるインデックスは、一定期間の追加更新分だけを記録する区分されたインデックスであるため、容量が小さくてすむ。従って、高速な記憶装置(半導体メモリ等)に格納することが出来るため、インデックスの追加更新処理等を高速に行うことが出来る。
(C)さらに、インデックスの保持容量の増大を抑止低減可能としている。過去のある時点に基づく検索処理を実現するためには、過去の時点におけるインデックスを全て保持しておく必要があるが、上記実施形態においては、時系列に区分してインデックスを保持し、入力された基点情報に基づいて、インデックスを変更するためである。
(D)さらにまた、バックアップデータにインデックスを作成する必要は無い。その理由は、上記実施の形態においては、インデックス区分の契機と、バックアップ取得の契機とを同一にし、検索結果の参照先を、バックアップデータに変更することによって、バックアップデータへの検索を、別のインデックスを用意することなく実現できるためである。これに伴い、バックアップデータに対するインデックス登録処理が不要であるため、バックアップ装置に、インデックス化に必要な記憶容量ならびに計算処理に必要な計算機資源を削減することができる。
本発明によれば、例えば、
・World Wide Webに存在する情報検索システムや、
・組織内の情報(イントラネットのWebや、組織における情報システム、データベース、ストレージ等が保有する情報)
に対する情報検索システムといった用途に適用できる。すなわち、本発明は、検索エンジン等に、上記した実施形態の情報検索システムを備えてもよいことは勿論である。
また、本発明は、何らかの分析のために中間データを保有する情報処理システムにも適用可能である。
本発明は、バックアップやアーカイブデータに対する検索システムといった用途にも適用可能である。例えば、データマイニング処理又はテキストマイニング処理を行うマイニング装置に、請求項1等の本発明の情報検索システムを備えた構成としてもよい。あるいは、携帯通信端末(携帯電話機)に、請求項1等の本発明の情報検索システムを備えた構成としてもよい。あるいは、音楽(音声)/画像(動画)等のメディア再生装置に、請求項1等の本発明の情報検索システムを備えた構成としてもよい。あるいは、名簿情報を管理する装置に、請求項1等の本発明の情報検索システムを備えた構成としてもよい。あるいは、カラオケ装置に、請求項1等の本発明の情報検索システムを備えた構成としてもよい。これらの装置において、例えばインデックスの属性に応じて、過去の時点における属性情報に基づいた情報検索を実現する構成とした場合、ユーザが過去に行った検索操作と同等の操作を行った場合に、以前と同じ方法で同じ情報に辿り着くことを可能としている。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (17)

  1. 情報検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に用意しておき、
    検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、前記選択した区分インデックスを用いて検索を行う検索手段を備えている、ことを特徴とする情報検索システム。
  2. 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録手段と、
    検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件入力手段と、を備え、
    前記検索手段は、入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う、ことを特徴とする請求項1記載の情報検索システム。
  3. 前記検索の基点となる情報が指定入力されない場合、前記検索手段は、前記インデックス格納手段に登録されている、最新インデックスと過去の区分インデックスの全てを用いて検索する、ことを特徴とする請求項1又は2記載の情報検索システム。
  4. インデックスを区分して登録する契機を、前記インデックス登録手段に通知する区分契機通知手段を備えたことを特徴とする請求項2記載の情報検索システム。
  5. インデックスの作成対象となる文書のバックアップに関連付けて、インデックスを区分して登録する契機を、前記インデックス登録手段に通知する手段を備えている、ことを特徴とする請求項2記載の情報検索システム。
  6. 前記検索手段は、複数のインデックスに同一文書に対するインデックスデータが格納されている場合、新しいインデックスを優先して処理をする、ことを特徴とする請求項2記載の情報検索システム。
  7. 前記インデックス登録手段は、文書を記憶する文書格納手段から、インデックスに登録する文書を読み出し、インデックスに登録するために必要な所定の事前処理を行って最新インデックスに対して登録し、
    インデックスの区分処理を行うにあたり、インデックスの区分の契機か否かを判断し、インデックス区分の契機の場合には、現在の最新インデックスのインデックスを区分インデックスの1つに設定した上で、最新インデックスを空で作成し、この空の最新インデックスを、前記インデックス登録手段のインデックスの登録先とする、ことを特徴とする請求項2記載の情報検索システム。
  8. 前記インデックス格納手段に記録される前記区分インデックスが、過去の時点での情報検索に利用された所定の属性情報を含み、
    前記過去の時点に対応する区分インデックスを選択して検索することで、前記過去の時点の属性情報に基づいた情報検索結果を出力自在としてなる、ことを特徴とする請求項1又は2記載の情報検索システム。
  9. 検索対象の文書を格納する文書格納手段を備え、
    前記インデックス登録手段は、前記文書格納手段が保持する検索対象の文書のインデックスを作成し、区分インデックスとして、前記インデックス格納手段に登録する、ことを特徴とする請求項2記載の情報検索システム。
  10. 前記文書格納手段のバックアップ手段を備え、
    前記文書格納手段のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録手段に通知する手段を備えている、ことを特徴とする請求項9記載の情報検索システム。
  11. 情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
    検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う、ことを特徴とする情報検索方法。
  12. 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録工程と、
    検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、
    を含み、
    入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを、選択的に読み込み、検索処理を行う、ことを特徴とする請求項11記載の情報検索方法。
  13. 検索の基点時間情報が指定入力されない場合、前記インデックス格納手段に登録された全てのインデックスを用いて検索する、ことを特徴とする請求項11又は12記載の情報検索方法。
  14. インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む、ことを特徴とする請求項12記載の情報検索方法。
  15. 検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む、ことを特徴とする請求項12記載の情報検索方法。
  16. 情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め用意しておき、
    検索要求で指定された条件に基づき、時系列に区分された複数の区分インデックスの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて検索を行う処理をコンピュータに実行させるプログラム。
  17. 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデックス格納手段に登録する処理と、
    検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、
    入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、過去の区分インデックスを選択して検索を行う処理と、
    を前記コンピュータに実行させる請求項16に記載のプログラム。
JP2008538663A 2006-10-06 2007-10-02 情報検索システムと情報検索方法ならびにプログラム Active JP5218060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008538663A JP5218060B2 (ja) 2006-10-06 2007-10-02 情報検索システムと情報検索方法ならびにプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006275169 2006-10-06
JP2006275169 2006-10-06
JP2008538663A JP5218060B2 (ja) 2006-10-06 2007-10-02 情報検索システムと情報検索方法ならびにプログラム
PCT/JP2007/069272 WO2008044542A1 (fr) 2006-10-06 2007-10-02 Système et procédé de recherche d'informations et programme

Publications (2)

Publication Number Publication Date
JPWO2008044542A1 true JPWO2008044542A1 (ja) 2010-02-12
JP5218060B2 JP5218060B2 (ja) 2013-06-26

Family

ID=39282751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008538663A Active JP5218060B2 (ja) 2006-10-06 2007-10-02 情報検索システムと情報検索方法ならびにプログラム

Country Status (4)

Country Link
US (1) US8301603B2 (ja)
JP (1) JP5218060B2 (ja)
CN (1) CN101523391A (ja)
WO (1) WO2008044542A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101380936B1 (ko) 2006-10-05 2014-04-10 스플렁크 인코퍼레이티드 시계열 검색 엔진
JP2010079601A (ja) * 2008-09-26 2010-04-08 Hitachi Software Eng Co Ltd 多世代ファイル探索システム
US9002811B2 (en) 2008-11-14 2015-04-07 Nec Corporation System, method and program for information processing
US8538188B2 (en) * 2009-08-04 2013-09-17 Mitre Corporation Method and apparatus for transferring and reconstructing an image of a computer readable medium
US8682886B2 (en) * 2012-05-18 2014-03-25 Splunk Inc. Report acceleration using intermediate summaries of events
KR101737246B1 (ko) * 2012-10-12 2017-05-17 에이나인.컴, 인크. 네트워크에서의 검색가능 데이터에 대한 인덱스 구성
US9507750B2 (en) * 2012-10-12 2016-11-29 A9.Com, Inc. Dynamic search partitioning
US9047326B2 (en) 2012-10-12 2015-06-02 A9.Com, Inc. Index configuration for searchable data in network
US9087055B2 (en) * 2013-01-28 2015-07-21 International Business Machines Corporation Segmenting documents within a full text index
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
WO2016094819A1 (en) * 2014-12-12 2016-06-16 Actifio, Inc. Searching and indexing of backup data sets
EP3528141A4 (en) * 2016-10-17 2020-05-13 Nippon Telegraph And Telephone Corporation DATA PROCESSING DEVICE AND DATA PROCESSING METHOD
US11609933B1 (en) 2018-07-18 2023-03-21 Amazon Technologies, Inc. Atomic partition scheme updates to store items in partitions of a time series database
US10983954B2 (en) * 2019-05-24 2021-04-20 Hydrolix Inc. High density time-series data indexing and compression
CN114205631A (zh) * 2021-10-28 2022-03-18 浙江大华技术股份有限公司 视频存储、目录生成、迁移方法、装置、设备和介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146880A (ja) 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法
US5778395A (en) * 1995-10-23 1998-07-07 Stac, Inc. System for backing up files from disk volumes on multiple nodes of a computer network
JPH09223152A (ja) 1996-02-16 1997-08-26 Toshiba Corp 文書検索装置
US6175835B1 (en) * 1996-07-26 2001-01-16 Ori Software Development, Ltd. Layered index with a basic unbalanced partitioned index that allows a balanced structure of blocks
JPH1049419A (ja) * 1996-08-02 1998-02-20 Nec Corp インデックス二重化による複数時点データ管理方式
JPH10154090A (ja) * 1996-11-22 1998-06-09 Mitsubishi Electric Corp データ管理システム
US6067541A (en) * 1997-09-17 2000-05-23 Microsoft Corporation Monitoring document changes in a file system of documents with the document change information stored in a persistent log
EP0920038A1 (de) * 1997-11-25 1999-06-02 Electrowatt Technology Innovation AG Schaltung zur Überwachung eines Wechselstromschalters
JP4208326B2 (ja) * 1999-03-05 2009-01-14 株式会社リコー 情報索引装置
JP4126843B2 (ja) * 2000-03-31 2008-07-30 株式会社日立製作所 データ管理方法および装置並びにデータ管理プログラムを格納した記録媒体
US20030101183A1 (en) * 2001-11-26 2003-05-29 Navin Kabra Information retrieval index allowing updating while in use
US6920460B1 (en) * 2002-05-29 2005-07-19 Oracle International Corporation Systems and methods for managing partitioned indexes that are created and maintained by user-defined indexing schemes
JP2004178070A (ja) 2002-11-25 2004-06-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び情報検索装置並びにプログラム
US7254580B1 (en) * 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database
US7225208B2 (en) * 2003-09-30 2007-05-29 Iron Mountain Incorporated Systems and methods for backing up data files
US7849063B2 (en) * 2003-10-17 2010-12-07 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US7293016B1 (en) * 2004-01-22 2007-11-06 Microsoft Corporation Index partitioning based on document relevance for document indexes
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7672979B1 (en) * 2005-04-22 2010-03-02 Symantec Operating Corporation Backup and restore techniques using inconsistent state indicators
US20070043705A1 (en) * 2005-08-18 2007-02-22 Emc Corporation Searchable backups
US8051045B2 (en) * 2005-08-31 2011-11-01 Sap Ag Archive indexing engine
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US20080091744A1 (en) * 2006-10-11 2008-04-17 Hidehisa Shitomi Method and apparatus for indexing and searching data in a storage system
US7747589B2 (en) * 2007-03-12 2010-06-29 Microsoft Corporation Transaction time indexing with version compression
US8171003B2 (en) * 2007-06-06 2012-05-01 Kunio Kamimura Method and apparatus for changing reference of database

Also Published As

Publication number Publication date
JP5218060B2 (ja) 2013-06-26
US20100088318A1 (en) 2010-04-08
US8301603B2 (en) 2012-10-30
WO2008044542A1 (fr) 2008-04-17
CN101523391A (zh) 2009-09-02

Similar Documents

Publication Publication Date Title
JP5218060B2 (ja) 情報検索システムと情報検索方法ならびにプログラム
JP5233233B2 (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
US11580066B2 (en) Auto summarization of content for use in new storage policies
EP4270209A2 (en) Deduplicated merged indexed object storage file system
US7831795B2 (en) Systems and methods for classifying and transferring information in a storage network
US8250033B1 (en) Replication of a data set using differential snapshots
CN104040481B (zh) 用于融合、存储和检索增量式备份数据的方法和系统
US7822749B2 (en) Systems and methods for classifying and transferring information in a storage network
US8527556B2 (en) Systems and methods to update a content store associated with a search index
US8548948B2 (en) Methods and apparatus for a fine grained file data storage system
US11113148B2 (en) Methods and systems for metadata tag inheritance for data backup
CN103460197A (zh) 计算机系统、文件管理方法以及元数据服务器
US11093448B2 (en) Methods and systems for metadata tag inheritance for data tiering
CN102955792A (zh) 一种实时全文搜索引擎事务处理的实现方法
US20200242077A1 (en) Methods and Systems for Metadata Tag Inheritance Between Multiple Storage Systems
US9405828B2 (en) System and method for phonetic searching of data
US11100048B2 (en) Methods and systems for metadata tag inheritance between multiple file systems within a storage system
CN105302669A (zh) 一种云备份过程中数据去重的方法和系统
JP5374881B2 (ja) 情報検索システム、情報検索方法およびプログラム
KR101086392B1 (ko) Wal 기법에서 대용량 객체의 파손 회복 방법
KR20110066344A (ko) 디지털 포렌식 시스템에서 대용량 증거 이미지의 다중 색인 장치 및 방법
KR102024719B1 (ko) 파일 기반 데이터베이스의 저널링 방법 및 장치
CN117033322A (zh) 一种流批一体的大数据存储方法、系统、电子设备及存储介质
KR20100066263A (ko) 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
JP2004272307A (ja) 文書群管理装置、文書群管理方法、文書群管理プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5218060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150