WO2008044542A1 - Système et procédé de recherche d'informations et programme - Google Patents

Système et procédé de recherche d'informations et programme Download PDF

Info

Publication number
WO2008044542A1
WO2008044542A1 PCT/JP2007/069272 JP2007069272W WO2008044542A1 WO 2008044542 A1 WO2008044542 A1 WO 2008044542A1 JP 2007069272 W JP2007069272 W JP 2007069272W WO 2008044542 A1 WO2008044542 A1 WO 2008044542A1
Authority
WO
WIPO (PCT)
Prior art keywords
index
search
information
document
division
Prior art date
Application number
PCT/JP2007/069272
Other languages
English (en)
French (fr)
Inventor
Masaki Kan
Yoshihiro Kajiki
Satoshi Yamakawa
Takashi Torii
Yuji Kaneko
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/443,403 priority Critical patent/US8301603B2/en
Priority to JP2008538663A priority patent/JP5218060B2/ja
Publication of WO2008044542A1 publication Critical patent/WO2008044542A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Definitions

  • the present invention relates to an information search system, an information search method, and an information search program, and more particularly, to an information search system, an information search method, and an information search program that enable search based on past viewpoints.
  • Non-patent Document 1 a method using N-gram and a morphological analysis method are known.
  • an index corresponding to a newly registered document file is created and stored in a memory, and the document search unit stores index data of new document data stored in the memory and a disk device.
  • a document search apparatus is disclosed which searches for a document file using both of the stored index data of existing document files. Further, according to Patent Document 2, when a new document is registered in the index, it is registered in a sub-index smaller than the main index, and when searching, each index is accessed and searched, and the results are combined to be a search result.
  • a document retrieval device is disclosed.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 9 223152 (Page 1)
  • Patent Document 2 Japanese Patent Application Laid-Open No. 7-146880
  • Non-Patent Document 1 Kenji Kita, Kazuhiko Tsuda, Masaki Tsujibori, "Information Search Algorithm” Kyoritsu, Edition, January 2002, 1st, pp. 6, pp. 160-179
  • the search index is also added / updated daily, so the search query performed by the user is identical. Even though the search system returns different search results.
  • the user does not memorize the path or URI of the file, and may memorize only how much information is transmitted or not! /, .
  • search engine index is updated / increased daily, users may obtain different search results even if they search with the same keyword. As a result, you may not be able to get back to the files and information you obtained earlier.
  • the present invention has been entirely proposed in view of the above problems, and its main object is to provide an information retrieval system, method, and program that enable retrieval based on past origins. It is to provide.
  • the invention disclosed in the present application is generally configured as follows in order to solve the problems.
  • the information search system prepares, as an index for information search, a divided index divided into time series in the index storage means.
  • the information search system is an index registration unit that registers, in the index storage unit, a divided index that is divided in time series as an index for document search, and a search base point as a search condition.
  • a search condition input means for inputting time or trigger information, and a search means for selectively reading a past category index from the index storage means based on the information serving as a base point of the input search and performing search processing And have.
  • the inspection when time information as a reference point of search is not designated and input, the inspection
  • the search means searches using all of the latest index and the past partitioned index registered in the index storage means.
  • division trigger notification means for notifying the index registration means of the trigger for dividing and registering the index.
  • the index registration unit may be notified of an opportunity to classify an index in association with the backup of the document to be searched.
  • the search means gives priority to new entries and indexes when processing is performed.
  • the index registration unit reads out the document to be registered in the index from the document storage unit which stores the document, and performs predetermined pre-processing necessary to register in the index.
  • index division processing it is determined whether it is an index division trigger or not, and in the case of index division trigger, the index of the current latest index is one of the division indexes. Then, the latest index is created empty, and this empty latest index is set as the index registration destination of the index registration means.
  • the division index recorded in the index storage means includes predetermined attribute information used for information retrieval at a past time, and corresponds to the past time.
  • An information search result based on the attribute information at the past time point can be output freely by selecting and searching the category index.
  • the method according to the present invention prepares, in advance, a divided index divided into time series as an index for information search;
  • the corresponding category index is selected from the plurality of category indexes divided in time series, and the search is performed using the selected category index.
  • the method according to the present invention comprises an index registration step of registering, in the index storage unit, a divided index that is divided in time series as an index for document search;
  • the search is performed using all the indexes registered in the index storage unit.
  • the present invention further includes the step of notifying the index registration step of the index division.
  • the method according to the present invention includes the step of notifying the index registration step of an index division index associated with the backup of the document to be retrieved.
  • the computer program according to the present invention includes a process of registering, in the index storage unit, a divided index formed according to a time series as an index for document search, and a time or opportunity serving as a search base as a search condition.
  • the program includes a program for causing a computer to execute a process of inputting information, and a process of selecting a past category index from the index storage means based on the information as a base point of the inputted search.
  • search processing based on a past base point can be realized.
  • the index is divided into time series and recorded, and the search processing is performed using only the index older than the past base point.
  • FIG. 1 is a block diagram showing a configuration of a first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of index management in the first embodiment of the present invention.
  • FIG. 3 is a flowchart showing a search processing operation in the first embodiment of the present invention.
  • FIG. 4 is a diagram showing an index reading process of a search process operation according to the first embodiment of the present invention.
  • FIG. 5 is a flow chart showing a process of adding an index in the first embodiment of the present invention.
  • FIG. 6 is a flow chart showing the operation of the first embodiment of the present invention.
  • FIG. 7 is a diagram for explaining a time series analysis function as a modified example of the first embodiment of the present invention.
  • FIG. 8 is a block diagram showing the configuration of a second embodiment of the present invention.
  • FIG. 9 is a flow chart showing the flow of the operation of index division linked with the backup means in the second embodiment of the present invention.
  • FIG. 10 is a flowchart showing search processing operation in the second embodiment of the present invention.
  • FIG. 11 is a diagram showing index reading processing during search processing in the second embodiment of the present invention.
  • FIG. 12 is a block diagram showing the configuration of a third embodiment of the present invention.
  • FIG. 1 is a diagram showing a configuration of the first embodiment of the present invention.
  • the document storage unit 1, the index registration unit 2, the search unit 3, the search condition input unit 4, the search result output unit 5, and the past index storage unit 100 are provided.
  • the past index storage unit 100 includes the division indexes 11 to 14. Classification index There are four configurations in Fig. 1 for the services 11 to 14, but the number is not limited.
  • the document storage unit 1 has a function of holding a document to be searched.
  • the document storage unit 1 has a function of holding a document to be searched.
  • Documents to be searched include electronic files such as Web pages and office documents existing in the storage means as described above, structured information in a database, and the like.
  • the index registration unit 2 has a function of creating an index of a document to be searched held by the document storage unit 1 and registering the index in the latest index 10.
  • the search means 3 performs a search process using the indexes of the division indexes 10 to 14.
  • Search conditions such as search keywords and the point in time to search (when the document group at which point in time is searched) are received from the search condition input means 4.
  • the result of the search process is passed to the search result output means 5.
  • Information that is the starting point of the search may be, for example, time information such as date, hour, minute, etc., or trigger information such as an event related to time!
  • search condition input means 4 for example, a search keyword input box or the like input from the user's Web browser can be used.
  • the search result output means 5 has a function of receiving the result of the search process performed by the search means 3 and outputting the result as a search result to the user.
  • the search result output means 5 for example, software for outputting a list of search results on the web browser of the user is used.
  • the functions and processing of the index registration unit 2, the search unit 3, the search condition input unit 4, and the search result output unit 5 are realized by program control operated by a computer.
  • the latest index 10 and the division indexes 1;! To 14 included in the past index storage unit 100 are indexes used for search processing.
  • the index is divided into time series by some business opportunity.
  • the latest updated partitioned index is referred to as the latest index 10.
  • the index registration unit 2 indexes new documents or updated documents and always
  • the division index in the past is increased each time the division into a time series that is limited in the number of power division indexes, which is a total of four configurations.
  • Latest index 10, division index; 14 may be stored in different storage devices! /, Or may be stored in the same storage device.
  • FIG. 2 is a schematic diagram for explaining an example of index management.
  • the index is divided into time series, and the index is divided once a day.
  • the current date in the example of Figure 2 is "5/11",
  • the latest index in the past is kept as it is as a divided index.
  • a latest index (target for index registration means 2 to register an index) is newly created.
  • the index that was the latest index becomes one of the partitioned indexes as the second most recent index.
  • data of the latest index 10 may be copied to the past index storage unit 100 to create a new partitioned index and empty the latest index 10.
  • the user inputs a search condition via the search condition input unit 4 (step of FIG. 3)
  • the search condition is
  • base point information If necessary, enter the date and time information (called “base point information”) that will be the base point of the search process.
  • the base point information is information necessary for performing a search process based on past viewpoints.
  • the search processing based on the past viewpoint is, for example, to perform a search based on the information of three days before, when it is desired to obtain the same result as the search processing performed three days ago.
  • the search means 3 confirms whether or not the base point information has been input (step S10).
  • step S103 The process of step S103 will be described based on the example shown in FIG.
  • the division index is assumed to exist from 11 to 17. At that time, search processing is performed by reading all the indexes from the latest index 10 to the division index 17.
  • the index data for the same document is stored in a plurality of indexes.
  • the new index is always prioritized (see FIG. In 4, priority is given to the index existing on the left side).
  • step S103 the search unit 3 executes a search process based on the read index information (step S104). Then, the search means 3 notifies the search result output means 5 of the search result.
  • step S102 when step S102 is Yes (when the base point information is input), the search means 3 reads an index before the specified regulation information and performs search (step S105).
  • step S105 The operation of step S105 will be described based on the example shown in FIG.
  • the latest index 10 in which the latest update (the information after “5/10”) is registered and the division index 11 in which the “5/9” is registered are not read, and others Loads all indents of and performs search processing.
  • step S103 when the same document is updated, index data for the same document is stored in a plurality of indexes. However, new indexes are always prioritized. (In Fig. 4, preference is given to the index present on the left).
  • all the past category indexes may not be read! // !.
  • the following method can be used to determine how much the past division index is read.
  • the search means 3 reads, and the limit size of the index is determined, and no more partial index is read,
  • an embodiment can be considered in which the method is determined based on the cache memory size of the server performing the search process.
  • the index registration unit 2 reads a document to be registered in the index (a document to be searched) from the document storage unit 1 (step S 201 in FIG. 5).
  • pre-processing of processing for registration in the index is performed (step S 202).
  • the pre-processing includes the following processing in the case of the inverted file method, which is one of the indexing methods.
  • Non-Patent Document 1 The details of the indexing method are omitted because they are described in documents such as Non-Patent Document 1.
  • the index registration unit 2 registers information for registering in the index identified by the pre-processing in the latest index 10 (step S203).
  • the latest index 10 is registered with the deleted document index as empty, and the past category index 11 and later are deleted. Shine.
  • This index division processing may be performed by the index registration unit 2 or may be separately performed by preparing a unit for managing the index.
  • the trigger for dividing an index is, for example,
  • index division If index division is not triggered, nothing is performed in this processing flow because index division processing is not necessary. If it is a trigger of index division, the index which is the latest index 10 at present is set as one of the division indexes (step S 302).
  • This latest index 10 is set as the index registration destination of the subsequent index registration means 2.
  • the index classification process may be performed according to the flow shown in FIG. 6, but may be classified as an event by notification from some other means.
  • a separate means for sending a notification for requesting the division process of the index is prepared separately at 0 o'clock every day, and the notification is notified to the means in charge of the classification process.
  • a means may be separately prepared to separately carry out only the classification of the index which is not to be performed by the index registration means 2. Let's choose the best implementation method for each.
  • search based on past viewpoints can be realized even if search queries have not been performed in the past.
  • the latest index 10 stores only the index for the latest registration, the capacity can be small. That is, only the latest registered index is stored as a difference. Only one difference information will be accumulated in the subsequent classification index for one past classification index as the reference. Therefore, since the data can be stored in a high-speed storage device (semiconductor memory etc.), it is possible to perform additional index update processing and the like at high speed.
  • a modification (part 2) of the first embodiment of the present invention will be described.
  • search results are analyzed in chronological order.
  • the above functions can be achieved by collecting and aggregating the search results.
  • each division index is based on the date and time at the time of index registration, and so forth. It may be configured to be divided into division indexes based on (for example, a stamp etc.).
  • the second embodiment of the present invention is in addition to the first embodiment shown in FIG. It includes a backup means 6 and a classification trigger notification means 7.
  • the backup unit 6 and the division trigger notification unit 7 operate as follows.
  • the backup means 6 is a means for creating and storing a backup (preliminary) of data stored in the document storage means 1.
  • the backup means 6 is for restoring the data stored in the document storage means 1 to the data of a certain trigger, and in fact, copying of the entire data or changes is periodically made to the storage device. What is stored in is an example.
  • a mechanism called “snapshot” is used to record pointer information indicating the position of data in the disk, and the data in document storage unit 1 is not stored in a copy of actual data. Things that can be restored to a point in time are also considered as one of the backup means 6.
  • a data protection method that can access past data such as the following may be used as the backup means 6.
  • CDP is a data protection method in which the contents of changes are stored in chronological order each time data is updated. When data writing to storage is tracked and tracked, data update occurs. Journal the changes to the secondary storage (change history database).
  • snapshots can only restore data on the order of tens of minutes
  • CDP can set recovery points of data at several seconds level.
  • the block type tracks data changes in units of physical disk or logical volume level blocks.
  • File types track data changes at the file level.
  • the application type recognizes the behavior of a specific application through log information and APIs.
  • the track frequency is, for example, a second unit or more
  • the file type and the application type have, for example, a file 'event update every time as a minimum unit.
  • TimeSpring's "TimDataTM” (trademark) and the like are marketed.
  • the division trigger notification means 7 is a means for the backup means 6 to hold a copy (or a recoverable point) of the data of the document storage means 1 and to notify some or all of the triggers for! /, Is
  • the index registration unit 2 divides the index according to the notified notification.
  • category trigger notification means 7 creates index categories at index o'clock every day at 0 o'clock. Direct to 2.
  • the backup unit 6 acquires a backup of data held in the document storage unit 1 (step S 401 in FIG. 9).
  • data read at the backup time point from the storage device of the document storage means 1 and stored in the storage device of the backup means can be mentioned.
  • the division trigger notification means 7 notifies the index registration means 2 (the means in charge of the index division process) of the trigger when the backup means 6 acquires the backup (step S402).
  • the index registration unit 2 performs index division processing (step S403).
  • the index classification processing is the same as that of the first embodiment.
  • search processing for backup data can be realized in addition to the search based on the past base point similar to that of the first embodiment.
  • the user inputs a search condition via the search condition input means 4 (step S501 in FIG. 10).
  • the search condition is
  • step S 502 it is checked whether the type of backup data is designated or not.
  • search means 3 If search data is selected! /! /! (If the result is No), the search means 3 reads all insets and performs search processing (step S 503).
  • step S503 Based on the index information read in step S503, the search process is completed (step S505).
  • the search means 3 notifies the search result output means 5 of the search result.
  • step S502 When backup data is specified, search means 3 performs a search by reading the index before the specified backup data collection time point (step S504).
  • step S 504 will be described by taking FIG. 11 as an example.
  • FIG. 11 is a diagram showing the state of division of the index. It is a system that backs up once a day, and indexes are divided at the time of backup.
  • search means 3 reads the division index of division index 12 and later and performs the search processing.
  • the search means 3 reads only the section index 12 and performs search processing.
  • step S 504 In the search processing of the search means 3 (step S 504) or in the output processing step of the results performed by the search result output means 5 (step S 505), the path to the search result file (
  • the configuration in FIG. 8 is a case where path conversion is performed by the search means 3 (step S 504).
  • a variation of the second embodiment of the present invention is that the file hit in the past index is It works like CDP software, changing the reference destination to the backup destination.
  • the second embodiment is modified such that the old version of the document is hit in the search. Is possible.
  • the indexes of the same document existing in a plurality of section indexes are the same as in the first embodiment.
  • the search means 3 In the range which the search means 3 reads, it operates so that the newest division index may be prioritized.
  • a document hit with any of the divided indexes changes the path (reference destination) of the document to the storage destination in the backup means 6.
  • index registration processing for backup data is not necessary, it is possible to reduce the storage capacity required for the index and the computer resources required for the calculation processing.
  • the third embodiment of the present invention includes index management means 8 in addition to the first embodiment shown in FIG.
  • the third embodiment may be realized as a configuration in which the index management means 8 is added to the second embodiment shown in FIG.
  • the index management means 8 operates as follows.
  • the index management means 8 performs the function of accessing a plurality of single segments of the segment index and merging the segment indexes into one segment index.
  • the process of merging partitioned indexes may be performed under the following conditions.
  • the con It acts as a cache-like index on computers.
  • the index management means 8 performs the following function.
  • the index management means 8 reads the latest index and partition index 11 to 15 and extracts some of the documents included in the index to create a new partition index.
  • the division index is handled separately from the normal division index, and it is always read even when reading is interrupted during search processing.
  • a document to be selected may be extracted according to a certain rule. For example, the following example may be considered.
  • a document that contains specific keywords in the document A document that contains specific keywords in the document.
  • information that can not be recalculated or is difficult to be recalculated later is recorded as information (attribute information) recorded in the index.
  • information retrieval based on the characteristics of the document group at a past time can be realized in an environment traced back to the past.
  • Examples of information recorded in the index that can not be recomputed or difficult to be recomputed later include numerical data such as the frequency of keywords used for ranking search results, scores indicating the importance of documents, etc. Can be mentioned.
  • this kind of information is recorded at a past time, it becomes possible to output a search result of the same ranking as that in the past search in the later information search.
  • Fig. 1 shows a configuration with one series of segment indices (10 to 14) with respect to the time axis! /, In the present invention! /, A series of segment indices with respect to the time axis
  • the present invention can be applied to a system in which indexes are arranged in a plurality of storage areas. In this case, for a plurality of storage area indexes, a plurality of series of division indexes are provided, each of which is divided into time series.
  • the index to be additionally updated is a divided index that records only the portion of additionally updating for a predetermined period, so the capacity can be small. Therefore, the data can be stored in a high-speed storage device (semiconductor memory or the like), so that it is possible to perform additional index update processing and the like at high speed.
  • the increase in index storage capacity can be suppressed and reduced.
  • the indexes are stored in chronological order. This is to change the index based on the input base point information.
  • the search engine etc. may be provided with the information search system of the above-mentioned embodiment, of course!
  • the present invention is also applicable to an information processing system which holds intermediate data for some analysis.
  • the present invention is also applicable to uses such as a search system for backup and archive data.
  • a mining apparatus that performs data mining processing or text mining processing may be configured to include the information search system of the present invention of claim 1 and the like.
  • the mobile communication terminal mobile phone
  • a media reproduction apparatus such as music (voice) / image (video) may be provided with the information search system of the present invention of claim 1 and the like.
  • the apparatus for managing the directory information may be provided with the information search system of the present invention of claim 1 and the like.
  • the karaoke apparatus may be configured to include the information search system of the present invention of claim 1 and the like.

Description

明 細 書
情報検索システムと情報検索方法ならびにプログラム
技術分野
[0001] [関連出願の記載]
本発明は、 日本国特許出願:特願 2006— 275169号(平成 18年 10月 6日出願) の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み 込み記載されてレ、るものとする。
本発明は情報検索システム、情報検索方法及び情報検索用プログラムに関し、特 に過去の視点に基づく検索を可能とする情報検索システム、情報検索方法及び情 報検索用プログラムに関する。
背景技術
[0002] Google (登録商標)等に代表される Web検索システムの普及により、電子ファイル 等に対する全文検索システムが一般化してきた。ユーザは検索システムを用いて情 報を検索する作業を行うことを日常的に行うようになっている。
[0003] 現在、電子ファイル等に対する全文検索システムは、高速に検索するためのインデ ックス(索引)をあらかじめ作成しておき、このインデックスを用いて電子ファイルを検 索する仕組みが主流となっている。このような情報検索システムの例力 特許文献 1、 非特許文献 1に記載されて!/、る。
[0004] インデックスを作成する技術として、 N— gramを用いた方式、形態素解析方式が知 られている(非特許文献 1)。
[0005] これらの方式によって作成されたインデックスは、一般的に、非圧縮で、元文書の 2
00〜300%の容量となり、大きな容量を必要とする。
[0006] また、このインデックスを動的に更新するのが困難である、という問題がある。
[0007] 検索処理は、このインデックスを用いて行うために、ユーザは、インデックスを作成あ るいは更新した時点における、検索対象のデータの状態に対する検索結果を得るこ とが出来る。
[0008] 例えば、インデックスが 1日前の時点の検索対象データに基づいて作成された場合 、それ以降に検索対象データに対して増加あるいは更新された状態は、検索結果に 反映されない。
[0009] 従って、出来るだけリアルタイムに検索対象のデータをインデックスに取り込むこと が求められている。そのような技術が、特許文献 1、特許文献 2に記載されている。
[0010] 特許文献 1には、新たに登録された文書ファイルに対応するインデックスを作成して メモリにしておき、文書検索部は、メモリに格納された新規文書データのインデックス データと、ディスク装置に格納された既存の文書ファイルのインデックスデータの双方 を用いて文書ファイルを検索する文書検索装置が開示されている。また特許文献 2 には、新規文書をインデックスに登録する際に、主インデックスよりも小さな副インデッ タスに登録し、検索時には、各インデックスにアクセスして検索し、その結果を合わせ て検索結果とする文書検索装置が開示されている。
[0011] 特許文献 1 :特開平 9 223152号公報 (第 1頁)
特許文献 2:特開平 7— 146880号公報
非特許文献 1 :北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」共立出 版、 2002年 1月 1曰、 pp. 6、 pp. 160—179
発明の開示
発明が解決しょうとする課題
[0012] 以上の特許文献及び非特許文献の開示事項は、本書に引用をもって繰り込み記 載されているものとする。以下に、本発明による関連技術の分析を与える。従来及び 現行の情報検索システムは、下記記載の問題点を有してレ、る。
[0013] すなわち、ユーザが過去に行った検索タエリーと同様の操作を行っても、以前と同 じ方法で情報に迪り着くことが出来ない場合がある、ということである。
[0014] その理由は、検索対象となる情報源が、 日々、増大/変更されるシステムにおいて は、検索用インデックスも、 日々追加/更新されるために、ユーザが行った検索クエリ 一が同一なものであっても、検索システムは異なる検索結果を返すためである。
[0015] ユーザが過去に発見したファイルや、 Web上の情報源に迪り着くために、そのフアイ ノレのパスや URI (Uniform Resource Identifier)を記憶しておくということが考えられる
〇 [0016] し力、し、ユーザは、一般的に、ファイルのパスや URIを記憶しておかずに、どのよう に情報に迪り着レ、たかのみを記憶して!/、ることがある。
[0017] 具体的には、今日のように、検索エンジンが一般化した状況では、検索エンジンに 対して入力した検索クエリーだけを記憶しておき、再度、検索するのである。
[0018] 例えば、「3日前に〇〇というキーワードで検索して見つかったあの Webページ」の ように記憶しておくのである。
[0019] しかしながら、検索エンジンのインデックスは、 日々更新/増加されているために、 ユーザは同じキーワードで検索しても、異なる検索結果を得ることがある。そのため、 以前得たファイルや情報に再び迪り着けなくなることがある。
[0020] 過去の時点と同じ検索結果を得たいというユーザからのニーズが起きる可能性があ
[0021] したがって、本発明は、上記課題に鑑みて全く新規に創案されたものであって、そ の主たる目的は、過去の基点に基づいた検索を可能とする情報検索システム、方法 、プログラムを提供することにある。
課題を解決するための手段
[0022] 本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
[0023] 本発明に係る情報検索システムは、情報検索用のインデックスとして、時系列に区 分されてなる区分インデックスをインデックス格納手段に用意しておき、
検索要求で指定された条件に基づき、時系列にしたがって区分された複数の区分 インデックスの中から、対応する区分インデックスを選択し、前記選択した区分インデ ックスを用いて検索を行う手段を備えて!/、る。
[0024] 本発明に係る情報検索システムは、文書検索用のインデックスとして、時系列に区 分されてなる区分インデックスをインデックス格納手段に登録するインデックス登録手 段と、検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件 入力手段と、入力された検索の基点となる前記情報に基づき、前記インデックス格納 手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う検索手段と 、を備えている。
[0025] 本発明においては、検索の基点となる時間情報が指定入力されない場合、前記検 索手段は、前記インデックス格納手段に登録されている、最新インデックスと過去の 区分インデックスの全てを用いて検索する。
[0026] 本発明にお!/、ては、インデックスを区分して登録する契機を、前記インデックス登録 手段に通知する区分契機通知手段を備えた構成としてもよい。
[0027] 本発明にお!/、ては、検索対象の文書のバックアップに関連付けて、インデックスを 区分する契機を、前記インデックス登録手段に通知する手段を備えた構成としてもよ い。
[0028] 本発明においては、前記検索手段は、複数のインデックスに同一文書に対するイン デッタスデータが格納されて!/、る場合、新しレ、インデックスを優先して処理をする。
[0029] 本発明にお!/、ては、前記インデックス登録手段は、文書を格納する文書格納手段 から、インデックスに登録する文書を読み出し、インデックスに登録するために必要な 所定の事前処理を行って最新インデックスに対して登録し、インデックスの区分処理 を行うにあたり、インデックスの区分の契機か否かを判断し、インデックス区分の契機 の場合には、現在の最新インデックスのインデックスを区分インデックスの 1つに設定 した上で、最新インデックスを空で作成し、この空の最新インデックスを、前記インデッ タス登録手段のインデックスの登録先とする。
[0030] 本発明におレ、ては、前記インデックス格納手段に記録される前記区分インデックス 力 過去の時点での情報検索に利用された所定の属性情報を含み、前記過去の時 点に対応する区分インデックスを選択して検索することで、前記過去の時点の属性 情報に基づいた情報検索結果を出力自在としている。
[0031] 本発明に係る方法は、情報検索用のインデックスとして時系列に区分されてなる区 分インデックスを予め用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデック スの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて 検索を行う。
[0032] 本発明に係る方法は、文書検索用のインデックスとして時系列に区分されてなる区 分インデックスをインデックス格納手段に登録するインデックス登録工程と、
検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、 入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から 、過去の区分インデックスを、選択的に読み込み、検索処理を行う工程と、
を含む。
[0033] 本発明に係る方法において、検索の基点時間情報が指定入力されない場合、前 記インデックス格納手段に登録された全てのインデックスを用いて検索する。
[0034] 本発明にお!/、て、インデックスを区分する契機を、前記インデックス登録工程に通 知する工程を含む。
[0035] 本発明に係る方法において、検索対象の文書のバックアップに関連付けて、インデ ックスを区分する契機を、前記インデックス登録工程に通知する工程を含む。
[0036] 本発明に係るコンピュータプログラムは、文書検索用のインデックスとして時系列に したがって区分してなる区分インデックスをインデックス格納手段に登録する処理と、 検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、 入力された検索の基点となる、前記情報に基づき、前記インデックス格納手段から 、過去の区分インデックスを選択して検索を行う処理と、をコンピュータに実行させる プログラムよりなる。
発明の効果
[0037] 本発明によれば、過去の基点に基づく検索処理を実現することができる。
[0038] その理由は、本発明においては、インデックスを時系列に区分して記録しておき、 過去の基点よりも古いインデックスのみを用いて検索処理を行うためである。
図面の簡単な説明
[0039] [図 1]本発明の第 1の実施の形態の構成を示すブロック図である。
[図 2]本発明の第 1の実施の形態における、インデックスの管理例を示す図である。
[図 3]本発明の第 1の実施の形態における、検索処理動作を示す流れ図である。
[図 4]本発明の第 1の実施の形態における、検索処理動作のインデックス読み込み処 理を示す図である。
[図 5]本発明の第 1の実施の形態における、インデックスへの追加処理を示す流れ図 である。
[図 6]本発明の第 1の実施の形態の動作を示す流れ図である。 [図 7]本発明の第 1の実施の形態の変形例として、時系列分析機能の説明をするた めの図である。
[図 8]本発明の第 2の実施の形態の構成を示すブロック図である。
[図 9]本発明の第 2の実施の形態における、バックアップ手段と連携したインデックス 区分の動作の流れを示す流れ図である。
[図 10]本発明の第 2の実施の形態における、検索処理動作を示す流れ図である。
[図 11]本発明の第 2の実施の形態における、検索処理中のインデックス読みこみ処 理を示す図である。
[図 12]本発明の第 3の実施の形態の構成を示すブロック図である。
符号の説明
[0040] 1 文書格納手段
2 インデックス登録手段
3 検索手段
4 検索条件入力手段
5 検索結果出力手段
6 バックアップ手段
7 区分契機通知手段
8 インデックス管理手段
10 最新インデックス
11— 17 区分インデックス
100 過去インデックス格納部
発明を実施するための最良の形態
[0041] 次に、本発明を実施するための最良の形態について図面を参照して詳細に説明 する。
[0042] 図 1は、本発明の第 1の実施の形態の構成を示す図である。図 1を参照すると、文 書格納手段 1と、インデックス登録手段 2と、検索手段 3と、検索条件入力手段 4と、検 索結果出力手段 5と、過去インデックス格納部 100とを備えている。
[0043] 過去インデックス格納部 100は、区分インデックス 11〜; 14を含む。区分インデック ス 11〜14は、図 1では 4つの構成であるが数に制限はない。
[0044] これらの手段はそれぞれ概略次のように動作する。
[0045] 文書格納手段 1は、検索対象の文書を保持する機能を果たす。文書格納手段 1は 、例えば、
'ユーザが保持するパーソナルコンピュータのハードディスク装置や、 •NAS (Network Attached Storage)等の外部装置、
• WWW (World Wide Web)、
•Intranet (企業内の Webページ群)
等が挙げられる。
[0046] 検索対象の文書とは、上記のような格納手段内に存在する Webページやオフィス 文書等の電子ファイル、データベース内の構造化された情報等がある。
[0047] インデックス登録手段 2は、文書格納手段 1が保持する検索対象の文書のインデッ タスを作成し最新インデックス 10に登録する機能を持つ。
[0048] 検索手段 3は、区分インデックス 10〜; 14のインデックスを用いて、検索処理を行う。
検索キーワードや検索する時点(いつの時点における文書群に対して検索するか) 等の検索条件は、検索条件入力手段 4から受け取る。検索処理の結果は、検索結果 出力手段 5に渡す。
[0049] 検索条件入力手段 4は、
'検索するための検索キーワードや、
•検索の基点となる情報、
等の検索条件を指定し、検索手段 3に対して受け渡す機能を果たす。検索の基点 となる情報は、例えば年月日、あるいは、時、分等の時間情報のほか、時間に関連し たイベント等の契機情報であってもよ!/、。
[0050] 検索条件入力手段 4の一例として、例えば、ユーザの Webブラウザ上から入力する 検索キーワードの入力ボックス等を用いることができる。
[0051] 検索結果出力手段 5は、検索手段 3が行った検索処理の結果を受け取り、ユーザ に検索結果として出力する機能を果たす。検索結果出力手段 5の一例として、例え ば、ユーザの Webブラウザ上に検索結果の一覧を出力するソフトウェアが用いられる [0052] なお、インデックス登録手段 2と、検索手段 3と、検索条件入力手段 4と、検索結果 出力手段 5は、コンピュータで動作するプログラム制御により、その機能、処理が実現 される。
[0053] 最新インデックス 10、及び、過去インデックス格納部 100に含まれる区分インデック ス 1;!〜 14は、検索処理に用いるインデックスである。そのインデックスを何らかの契 機により時系列に区分したものである。
[0054] このうち、最新の更新分の区分インデックスを最新インデックス 10とする。
[0055] インデックス登録手段 2は、新規文書あるいは更新文書をインデックス化して、常に
、最新インデックス 10へ登録する。
[0056] なお、図 1では、過去の区分インデックスは合計 4つの構成である力 区分インデッ タスの数に制限はなぐ時系列に区分されるたびに増加していく。
[0057] 最新インデックス 10、区分インデックス;!;!〜 14は、メモリや磁気ディスク装置等の 記憶装置に対して保存される。
[0058] 保存する形式としては、
•通常のファイルの形式、
'データベース上のレコード
等がある。
[0059] 最新インデックス 10、区分インデックス;!;!〜 14は、それぞれ異なる記憶装置に保 存されてもよ!/、し、同じ記憶装置に保存されてもょレ、。
[0060] 図 2は、インデックスの管理の一実施例を説明するための模式図である。図 2の例 の場合、時系列にインデックスが区分され、 1日 1回、インデックスが区分されるものと する。図 2の例における現在の日付は、「5/11」とし、
•現在における文書のインデックス登録は、最新インデックス 10に行われる。
[0061] 区分インデックスとして、
•1日前の「5/10」分の登録された分は、右隣の区分インデックス 11に保持され
• 2日前の「5/9」分に登録された分は区分インデックス 12に保持されて!/、る、 はずである。
[0062] このように、過去の最新インデックスを、そのまま、区分インデックスとして、順次、保 持していく。
[0063] 時間の経過とともに、過去のインデックスが増加していくこととなる。
[0064] ある定められたインデックスを区分する契機において、最新分のインデックス (イン デッタス登録手段 2がインデックスを登録する対象)を新規に作成する。
[0065] そして、それまで、最新分のインデックスであったインデックス(最新インデックス 10) は、 2番目に新しいインデックスとして、区分インデックスの 1つとなる。
[0066] これらの仕組みを、インデックス登録手段 2の登録先への登録パスを変更することに よって実現してもよい。
[0067] または、最新インデックス 10のデータを、過去インデックス格納部 100にコピーして 、新しい区分インデックスを作成し、最新インデックス 10を空にすることによって実現 してもよい。
[0068] なお、最新インデックス 10及び区分インデックス 11〜; 17の物理的あるいは論理的 な記憶位置は問わない。
[0069] 次に、図 3のフローチャートを参照して、本実施の形態の検索処理動作について詳 細に説明する。
[0070] まず、ユーザは検索条件入力手段 4を介して、検索条件を入力する(図 3のステップ
S 101)。
[0071] 検索条件には、
•通常の検索タエリーの情報 (検索のキーワード等)と、
•必要ならば、検索処理の基点となる日時の情報(「基点情報」という) を入力する。
[0072] この基点情報は、過去の視点に基づぐ検索処理を行う際に必要な情報である。
[0073] 過去の視点に基づく検索処理とは、例えば 3日前に行った検索処理と全く同等の 結果を得たい場合に、 3日前の情報に基づく検索を行うことである。
[0074] 次に、検索手段 3は、基点情報が入力されているかどうかを確認する (ステップ S 10
2)。 [0075] 基点情報が入力されていない場合 (ステップ S 102の No分岐)、検索手段 3は、イン
Figure imgf000012_0001
[0076] ステップ S103の処理について、図 4に示した例に即して説明する。
[0077] 区分インデックスは、 11から 17まで存在するとする。その時、最新インデックス 10か ら、区分インデックス 17まで、全てのインデックスを読んで検索処理を行う。
[0078] この際、同一文書に対して更新が行われた際には、複数のインデックスに、同一文 書に対するインデックスデータが格納されていることになる力 常に、新しいインデッ タスを優先する(図 4においては、左側に存在するインデックスを優先する)。
[0079] ステップ S103で、検索手段 3は、リード (Read)したインデックス情報に基づき、検 索処理を実行する(ステップ S104)。そして、検索手段 3は、検索結果出力手段 5に 対して、検索結果を通知する。
[0080] ステップ S102が Yesの場合(基点情報が入力されている場合)、検索手段 3は、指 定された規定情報以前のインデックスを読んで検索を行う(ステップ S105)。
[0081] ステップ S105の動作について、図 4に示した例に即して説明する。
[0082] 今回は、基点情報が「5/8」と入力されたとする。このとき、「5/8」のインデックスに 基づいて検索処理を行うため、検索手段 3は、「5/8」分の区分インデックス 12から
Figure imgf000012_0002
[0083] つまり、最新の更新分(「5/10」以降の情報)が登録されている最新インデックス 1 0と、「5/9」分が登録されている区分インデックス 11とは読み込まず、その他のイン デッタス全てを読み込んで検索処理を行う。
[0084] この際、ステップ S103と同様に、同一文書に対して更新が行われた際には、複数 のインデックスに同一文書に対するインデックスデータが格納されていることになるが 、常に新しいインデックスを優先する(図 4においては、左側に存在するインデックス を優先する)。
[0085] このような仕組みで検索処理を行うことによって、基点情報に入力された時間時点 における、インデックスのデータに基づいて、検索処理を行うことが出来る。
[0086] 本発明の実施形態の変形として、ステップ S105あるいは S103の検索処理におい て、過去の区分インデックスを全て読まな!/、ようにしてもよ!/、。 [0087] 例えば、最新インデックス 10から、区分インデックス 14まで読み込み、それより古い
Figure imgf000013_0001
[0088] このようにすると、最新分から「5/6」の更新変更分までが、検索対象となり、それ 以前の更新変更分は、検索対象にならない。
[0089] どの程度過去の区分インデックスまで読むかは、検索性能とのトレードオフである。
[0090] どの程度過去の区分インデックスまで読むかは、例えば、次のような方法で決定す ること力 S出来る。
[0091] (A)検索条件入力手段 4が、「何日前までに変更されたファイルを検索するか」を指 定するか、
(B)検索手段 3が読み込みを行う、インデックスの限界サイズを決めておき、それ以 上の区分インデックスは読み込まないようにする、
等である。
[0092] (B)の方法は、検索処理を行うサーバのキャッシュメモリサイズにより決定する等の 実施形態が考えられる。
[0093] この変形を用いることによって、検索処理性能を向上させることができる。
[0094] その理由は、検索処理性能を決定する一要素として読み込むインデックス容量が あるためである。
[0095] 次に、本発明の第 1実施形態において、検索処理を行うための事前準備について 説明する。
[0096] 本実施の形態において、検索処理を行うために、
•検索対象の文書のインデックス化と、
•インデックスの区分処理、
の 2つの処理が必要である。その処理動作につ!/、て順に説明する。
[0097] まず、検索対象の文書のインデックス登録処理の動作について、図 5のフローチヤ ートを参照して説明する。
[0098] 最初に、インデックス登録手段 2は、文書格納手段 1から、インデックスに登録する 文書 (検索対象とする文書)を読み出す(図 5のステップ S201)。
[0099] 次に、インデックスに登録するための処理の事前処理を行う(ステップ S202)。 [0100] この事前処理とは、インデックス手法の一方式である、転置ファイル法を例にあげる と、以下の処理を含む。
[0101] ·検索対象の文書を読み出してテキストを抽出し、そのテキストからインデックスに 登録する索引語を抽出する。
[0102] ·その索引語の出現位置、回数等を認識する。
[0103] インデックス化方法の詳細は、非特許文献 1等の文献に記載されているため、省略 する。
[0104] 最後に、インデックス登録手段 2は、事前処理によって明らかになったインデックス に登録するための情報を、最新インデックス 10に対して登録する(ステップ S203)。
[0105] 最新インデックス 10内に、該検索対象の文書の情報が存在しない場合には、新規 追加の処理を行う。
[0106] 最新インデックス 10内に該検索対象の文書の情報が存在する場合には、更新の 処理を行う。
[0107] なお、通常の検索インデックスの作成においては、新規作成と更新、削除について
、インデックスの更新処理を行う。
[0108] 新規作成と更新については、前述した通りである力 削除については、最新インデ ックス 10に対して、削除文書のインデックスを空として、登録する処理を行い、過去の 区分インデックス 11以降を削除しなレ、。
[0109] 次に、インデックス区分処理の動作について、図 6のフローチャートを参照して説明 する。
[0110] なお、このインデックス区分処理は、インデックス登録手段 2が行ってもよいし、別途 インデックスを管理する手段を用意して行ってもょレ、。
[0111] まず、インデックスの区分の契機であるか否かを判断する(図 6のステップ S301)。
[0112] インデックスを区分する契機は、例えば、
•定期的に区分するとして、時刻や曜日を定めておいてもよいし、
•インデックスのサイズで決定して区分してもよい。
[0113] インデックス区分契機でない場合には、インデックス区分処理は必要ないため、本 処理フローでは何も行わない。 [0114] インデックス区分の契機であった場合、現時点で最新インデックス 10であるインデッ タスを区分インデックスの 1つとする(ステップ S302)。
[0115] この実施例は様々な方法があるが、例えば
•最新インデックス 10を、過去インデックス格納部 100に、物理的あるいは論理的 にコピーする、
•最新インデックス 10を区分インデックスとして扱うようリネームする、 •インデックス登録手段 2の登録先のインデックスを変更する、
等がある。
[0116] 最後に、新たな最新インデックス 10を新規に空で作成する(ステップ S303)。
[0117] この最新インデックス 10を、以降のインデックス登録手段 2のインデックス登録先と する。
[0118] なお、インデックスの区分処理は、このような図 6のフローで行ってもよいが、他の何 らかの手段からの通知により、イベントとして区分処理をしてもよい。
[0119] 例えば、毎日 0時にインデックスを区分する場合、毎日 0時に、インデックスの区分 処理を要求するための通知を送る手段を別途用意し、その通知を、区分処理担当の 手段に対して通知する。 0時以前の昨日の最新インデックス力 最新の過去の区分ィ ンデッタスとなり、新たな最新インデックス 10を、以降のインデックス登録手段 2の登 録先として 1日分の区分インデックスが作成される。
[0120] なお、後述する本発明の第 2の実施の形態は、このような仕組みによるものの一例 である。
[0121] また、インデックス区分処理は、インデックス登録手段 2が行わなければならないも のではなぐインデックスの区分のみを別に行う手段を別途用意してもよい。それぞれ に最適な実装方法を選択すればょレ、。
[0122] 本発明の第 1の実施形態の作用効果を説明する。
[0123] 過去のある時点に基づく検索処理を実現するためには、過去の時点におけるイン デッタスを全て保持しておく必要があるが、第 1の実施形態では、時系列に区分して 、インデックスを保持し、入力された基点情報に基づいて、読むインデックスを変更す るために、過去インデックスの保持容量を削減することができる、という効果がある。 [0124] また、最新分のインデックスのみを保持する方法においても、過去の検索結果を保 持しておくことによって、同様のことを実現することが出来る力 これは、過去に実際 に行われた検索に対してし力、、過去の視点における、検索結果を返すことができない
[0125] 本実施の形態においては、過去に検索タエリーが行われなくても、過去の視点に基 づく検索を実現することが出来る。
[0126] また、最新インデックス 10は、最新登録分のインデックスのみが格納されているため に、容量が小さくて済む。すなわち、最新登録分のインデックスのみが差分として格 納される。基準となる過去の 1つの区分インデックスに対して、以降の区分インデック スは、差分情報のみが蓄積されることになる。従って、高速な記憶装置(半導体メモリ 等)に格納することができるため、インデックスの追加更新処理等を高速に行うことが できる。
[0127] 本発明の第 1の実施の形態の変形 (その 2)について説明する。本発明の第 1の実 施の形態の変形 2では、時系列に検索結果を分析する。
[0128] 本発明の第 1の実施の形態を応用することによって、次のような機能を得ることがで きる。
[0129] ·ある検索タエリーに対する検索結果の時系列推移の表示、
•同一文書のある検索クエリ に対する検索順位の推移の表示。
[0130] 図 7を例に挙げて説明すると、このように、検索処理の対象となるインデックスを変 更した検索処理を行うと、 日付毎の検索結果を得ることができる。
[0131] この検索結果をまとめて集計することによって、上記の機能を達成することができる
[0132] なお、本実施形態では、各区分インデックスは、インデックス登録時の日時等にした 力 Sつて時系列的に区分されている力 これとは別に、インデックスの作成で参照され た文書の属性 (例えばタイプスタンプ等)に基づいて、区分インデックスに区分けする 構成としてあよい。
[0133] 次に、本発明の第 2の実施形態について図面を参照して詳細に説明する。図 8を 参照すると、本発明の第 2の実施形態は、図 1に示される第 1の実施形態に加え、バ ックアップ手段 6と、区分契機通知手段 7とを含む。
[0134] この 2つの手段以外は、前記第 1の実施の形態と同一であるため、説明を省略する
。バックアップ手段 6と、区分契機通知手段 7とは、概略次のように動作する。
[0135] ノ ックアップ手段 6は、文書格納手段 1に格納されているデータのバックアップ(予 備)を作成し記憶しておく手段である。
[0136] バックアップ手段 6は、文書格納手段 1に格納されているデータを、ある契機のデー タに復元するためのものであり、実際に、データ全体又は変更分の複製を記憶装置 に定期的に保存するものが例としてあげられる。
[0137] また、「スナップショット」と呼ばれるような、ディスク内のデータの位置を示すポインタ 情報を記録するような仕組みで、実際のデータの複製を持たずに文書格納手段 1の データをある一時点に復元することができるものもバックアップ手段 6の 1つと見なす。
[0138] また、他には、
•CDP (Continuous Data Protection;継続的データ保護)制御ソフトウェアや
•データベースソフトウェア、
•ジャーナリングソフトウェア
のような、過去のデータにアクセスすることが出来るデータ保護手法を、バックアツ プ手段 6として利用しても良い。
[0139] CDPは、データが更新されるたびに、その変更内容を時系列的に保存してゆくデ ータ保護手法であり、ストレージに対するデータ書き込みをトラッキング、キヤプチヤし 、データ更新が発生したとき、その変更内容を、二次ストレージ (変更履歴データべ ース)にジャーナリングしていく。
[0140] これにより、過去のどの時点のデータも、再現することができ(Any Point In Time (
APIT) Recovery)、データ損失を回避することができる。
[0141] これは、秒単位で追加バックアップを取り続けることに相当する。
[0142] スナップショットでは、データは数十分のオーダでしか復元できないが、 CDPでは、 数秒レベルでデータの復旧地点を設定することができる。
[0143] なお、データの変更履歴の記録だけからは、実データ全体を復元することはできな いため、スタート地点として、ボリューム全体のレプリケーシヨンを行い、このレプリケー シヨンに対する変更履歴を時系列で記録して!/、く構成とされる)。
[0144] CDPのタイプとして、
•ブロック型、
•ファイル型、
•アプリケーション型
sある。
[0145] ブロック型は、物理ディスク又はロジカルボリュームレベルのブロック単位でデータ 変更をトラックする。
[0146] ファイル型は、ファイル.レベルでデータ変更をトラックする。
[0147] アプリケーション型は、ログ情報や APIにより特定のアプリケーションの動きを認識し
、ファイル更新やイベント単位でトラックする。
[0148] トラック頻度は、ブロック単位の場合、例えば秒単位以上、ファイル型、アプリケーシ ヨン型は、例えばファイル 'イベント更新毎を最小単位とする。
[0149] 二次ストレージへの書き込みは、同期型、非同期型がある。
[0150] なお、 CDPソフトウェアとしては、 TimeSpring社の「TimDataTM」(商標)等が巿 販されている。
[0151] 区分契機通知手段 7は、バックアップ手段 6が、文書格納手段 1のデータの複製(あ るいは復元可能な点)を保持して!/、る契機の一部あるいは全てを通知する手段であ
[0152] この通知された契機に従い、インデックス登録手段 2は、インデックスの区分を行う。
[0153] 具体的には、バックアップ手段 6が、 1日に 1回、毎日 0時に、バックアップを行うとす ると、区分契機通知手段 7は、インデックスの区分を、毎日 0時に、インデックス登録 手段 2に指示する。
[0154] 本発明の第 2の実施形態における、ノ ックアップシステムと連携して、インデックスを 区分する動作の流れについて、図 9を参照して説明する。
[0155] まず、バックアップ手段 6が、文書格納手段 1に保持されているデータのバックアツ プを取得する(図 9のステップ S401)。 [0156] 具体的な実施例としては、文書格納手段 1の記憶装置から、バックアップ時点のデ ータを読み込み、バックアップ手段の記憶装置に記憶すると!/、うものが挙げられる。
[0157] 次に、バックアップ手段 6がバックアップを取得した契機を、区分契機通知手段 7が インデックス登録手段 2 (インデックス区分処理を担当する手段)に対して通知する(ス テツプ S402)。
[0158] 最後に、インデックス登録手段 2が、インデックス区分処理を行う(ステップ S403)。
[0159] インデックス区分処理に関しては、前記第 1の実施の形態と同一である。
[0160] 本発明の第 2の実施の形態に基づくシステムでは、前記第 1の実施の形態と同様の 過去の基点に基づく検索に加え、バックアップデータに対する検索処理を実現する ことが出来る。
[0161] 図 10のフローチャートを参照して、本実施の形態の検索処理動作について詳細に 説明する。
[0162] まず、ユーザは検索条件入力手段 4を介して、検索条件を入力する(図 10のステツ プ S501)。
[0163] 検索条件には、
•通常の検索タエリーの情報 (検索のキーワード等)と、
•必要ならば検索対象のバックアップデータの種類(あるいは、バックアップ採取 時間)を指定あるいは選択する。
[0164] 毎日 0時にバックアップを開始する場合、検索条件の時間情報としては、年月日情 報を入力するようにしてもよいし、あるいは、月、週に何回力、バックアップする場合、何 月の何回目のバックアップ以前あるいは以降等という、バックアップイベント情報を、 過去情報として指定してもよい。なお、検索の基点となる条件として、時間の範囲、あ るいは論理式で与えるようにしてもょレ、。
[0165] 次に、検索手段 3が検索処理を行うが、その最初に、バックアップデータの種類が 指定されて!/、るかどうかを確認する(ステップ S 502)。
[0166] ノ ックアップデータが選択されて!/、な!/、場合 (Noの場合)には、検索手段 3はイン デッタスを全て読んで検索処理を行う(ステップ S 503)。
[0167] この処理については、第 1の実施の形態と同様であるので、説明を省略する。 [0168] ステップ S503で読み込んだインデックス情報に基づき、検索処理を完了する (ステ ップ S 505)。
[0169] 検索手段 3は、検索結果出力手段 5に対して検索結果を通知する。
[0170] ステップ S502が Yesの場合 (バックアップデータを指定されている場合)、検索手 段 3は指定されたバックアップデータの採取時点以前のインデックスを読んで検索を 行う(ステップ S 504)。
[0171] ステップ S504の動作について、図 11を例に説明する。
[0172] 図 11は、インデックスの区分の様子を示した図である。 1日に 1回バックアップを取 つているシステムであり、バックアップの契機でインデックスを区分している。
[0173] この場合、「5/9」に採取したバックアップから、「5/10」にバックアップを取るまで の更新が区分インデックス 11に反映される。
[0174] 今回、「5/9」に取得したバックアップデータに対して検索処理を行うとすると、検 索手段 3は、区分インデックス 12以降の区分インデックスを読み込み、検索処理を行
5。
[0175] なお、前記例では、フルバックアップを採取したシステムを前提とした力 同様に、「
5/9」に採取した差分バックアップデータに対する検索を行うことも出来る。
[0176] 図 11を例に説明すると、検索手段 3は、区分インデックス 12のみを読み込み、検索 処理を行う。
[0177] なお、検索手段 3の検索処理 (ステップ S504)、あるいは、検索結果出力手段 5が 行う結果の出力処理段階 (ステップ S505)において、検索結果のファイルへのパス(
URIやファイル名等)を書き換える必要がある。
[0178] 検索インデックスに格納されている、検索対象文書へのパスは、文書格納手段 1に 存在することが前提なためである。
[0179] これは、バックアップ手段に記録される検索対象文書へのパスは、バックアップ手段 が決定するルールに基づくため、その変換ルールをバックアップ手段 6は、事前に検 索手段 3あるいは検索結果出力手段 5に通知しておく。
[0180] 図 8の構成は、検索手段 3 (ステップ S504)でパスの変換を行う場合である。
[0181] 本発明の第 2の実施の形態の変形は、過去のインデックスでヒットしたファイルは、 参照先をバックアップ先に変更する、 CDPソフトウェアのような動きが出来る。
[0182] また、本発明の第 2の実施の形態における、検索処理(図 10のステップ S503及び S504)において、旧版の文書を検索にヒットさせるように、第 2の実施の形態を変形 することが可能である。
[0183] 本発明の第 2の実施の形態においては、図 10のステップ S503及び S504におい ては、前記第 1の実施の形態と同様に、複数の区分インデックスに存在する同一文 書のインデックスは、検索手段 3が読み込む範囲で、一番新しい区分インデックスを 優先するよう動作する。
[0184] 本発明の第 2の実施の形態の変形では、区分インデックスのいずれかでヒットした 文書は、文書のパス(参照先)をバックアップ手段 6における記憶先に変更する。
[0185] そして、同一文書のインデックスが複数ヒットしても、その両方を検索結果に提示す
[0186] なお、区分インデックスでヒットした文書の全てのパスを、バックアップのパスへ変更 してもよいが、その文書が最新の場合 (ヒットした区分インデックスよりも新しいインデッ タスに、該文書が存在しない場合)には、パスを変更せずに、文書格納手段 1のパス のまま提示し、バックアップ手段 6にヒットした文書が存在する場合には、バックアップ 手段 6における記憶先に、当該文書のパスを変更するようにしてもよい。
[0187] ノ ックアップ手段によって採取されたバックアップデータに対する検索機能を提供 するには、現状では、バックアップデータに対してインデックスを作成する必要があつ た。
[0188] しかし、本実施の形態を用いることにより、主たる文書格納手段 1に対するインデッ タスのみで、バックアップデータに対する検索機能を実現することが出来る、という効 果がある。
[0189] これに伴い、バックアップデータに対するインデックス登録処理が不要であるため、 インデックスに必要な記憶容量ならびに計算処理に必要な計算機資源を削減するこ と力 Sできる。
[0190] 過去の区分インデックスにおいて、検索ヒットした文書の参照先をバックアップ手段 が記憶している場所にすることにより、本発明の検索システムは、 CDPと同様に過去 の履歴にアクセスできるという効果がある。また過去の状態に基づく検索が実現でき るため、ファイルの過去のある時点にしか存在しなかった単語などで検索を行うことが できる。
[0191] 次に、本発明の第 3の実施形態について図面を参照して詳細に説明する。本発明 の第 3の実施の形態においては、過去の区分インデックスをマージする構成としたも のである。
[0192] 図 12を参照すると、本発明の第 3の実施形態は、図 1に示した前記第 1の実施形態 に加え、インデックス管理手段 8を含む。
[0193] これ以外は、前記第 1の実施形態と同一であるため、説明を省略する。
[0194] なお、図 8に示される、前記第 2の実施の形態に、インデックス管理手段 8を加えた 構成として、第 3の実施の形態を実現しても良い。
[0195] インデックス管理手段 8は、概略、次のように動作する。インデックス管理手段 8は、 区分インデックスのうち単数あるレ、は複数にアクセスし、区分インデックスをマージし て、 1つの区分インデックスにするという機能を果たす。
[0196] 区分インデックスをマージするということは、転置ファイル法によるインデックス作成 方式を例に挙げると、複数含まれている同一文書のインデックスを、新しい方を残し て 1つにして、複数の転置ファイルを 1つの転置ファイルとすることとなる。
[0197] 区分インデックスをマージする処理は、次のような条件で行うことが考えられる。
[0198] · 区分インデックスがー定数を超えた時、
• 区分インデックスが一定容量を超えた時、
• 区分インデックスが一定期間より古くなつた時。
[0199] 本実施の形態により、区分インデックスをマージすることによって、検索処理性能を 高速化することができる。
[0200] その理由は、区分インデックスをマージすることにより、同一文書のインデックスを複 数読むような、インデックスの非効率性が改善されるためである。
[0201] 本発明の第 3の発明の実施の形態の変形について説明する。
[0202] 本変形では、第 1の実施の形態の変形で、過去の区分インデックスの読み込みを 途中で止めると、過去のファイルが検索ヒットしないという問題を解決するために、コン ピュータにおけるキャッシュのようなインデックスの動作を果たす。本変形では、インデ ックス管理手段 8が、次のような機能を果たす。
[0203] インデックス管理手段 8が、最新インデックス及び区分インデックス 11〜; 15を読み 込み、インデックスに含まれる文書の幾つかを抽出して新たな区分インデックスを作 成する。
[0204] そして、その区分インデックスは、通常の区分インデックスとは別に扱い、検索処理 で読み込みを途中で止める場合にも、必ず読み込むこととする。
[0205] 区分インデックス力、ら選択する文書は、一定のルールで抽出すればよい。そのルー ノレは、例えば次のような例が考えられる。
[0206] ·一定期間以上更新されないが、ユーザからの READは頻繁に行われる文書、 •ユーザが重要と指定した文書、
.特定のキーワードが文書内に含まれる文書。
[0207] このようにすることによって、第 1の実施の形態の変形において、過去のファイルが 検索ヒットしない、という問題が発生するが、インデックス管理手段 8が選択した文書 は更新されてレ、なくても、検索にヒットしな!/、と!/、うことが起きな!/、と!/、う効果がある。
[0208] なお、上記各実施形態及びその変形例にぉレヽて、インデックスに記録される情報( 属性情報)として、後に再計算不可能な、あるいは再計算が困難な情報が記録され る場合には、当該インデックスの属性に応じて、過去の時点における文書群の特徴 に基づいた情報検索を、過去に遡った環境下で実現することができる。インデックス に記録される、後に再計算不可能な、あるいは再計算が困難な情報の例として、検 索結果のランキングに利用する、キーワードの頻度等の数値データ、文書の重要度 等を示すスコア等が挙げられる。過去の時点における、この種の情報が記録されると 、後の情報検索において過去の検索時と同様のランキングの検索結果が出力可能と なる。
[0209] 本発明において、後に再計算可能な情報のみがインデックスに記録される場合に は、過去の時点の文書に対する情報検索を効率的に実行できる。ここで、「情報検索 の効率的な実行」とは、完全な過去のインデックスを保持する記憶容量や、ノ ックアツ プ等からインデックスを再生成する計算量等を、削減可能であることをいう。後に再計 算可能な情報の例としては、キーワードとその出現文書の対応情報等がある。
[0210] 上記の再計算不可能なインデックス情報 (静的なスコア情報)、及び、再計算可能 なインデックス情報が別の記憶領域に格納されている場合には、両者を時系列に区 分することで、本発明を適用することができる。図 1には、時間軸に関して一つの系列 の区分インデックス(10〜14)を備えた構成が示されて!/、る力 本発明にお!/、ては、 時間軸に関して複数系列の区分インデックスを備えた構成としてもよいことは勿論で ある。すなわち、インデックスを複数の記憶領域に配置するシステムにも本発明を適 用すること力 Sできる。この場合、複数の記憶領域のインデックスについて、それぞれ時 系列に区分された、複数系列の区分インデックスが設けられる。
[0211] 上記した各実施の形態の作用効果について説明する。
[0212] (A)過去の基点に基づく検索処理を実現することができる。その理由は、上記した 実施の形態では、インデックスを時系列に区分して記録しておき、過去の基点より古 V、インデックスのみを用いて検索処理を行う構成としたためである。
[0213] (B)また、上記効果を奏しながら、インデックスの追加更新処理等を高速に行うこと ができる。その理由は、上記実施の形態においては、追加更新対象となるインデック スは、一定期間の追加更新分だけを記録する区分されたインデックスであるため、容 量が小さくてすむ。従って、高速な記憶装置 (半導体メモリ等)に格納することが出来 るため、インデックスの追加更新処理等を高速に行うことが出来る。
[0214] (C)さらに、インデックスの保持容量の増大を抑止低減可能としている。過去のある 時点に基づく検索処理を実現するためには、過去の時点におけるインデックスを全 て保持しておく必要があるが、上記実施形態においては、時系列に区分してインデッ タスを保持し、入力された基点情報に基づいて、インデックスを変更するためである。
[0215] (D)さらにまた、バックアップデータにインデックスを作成する必要は無い。その理 由は、上記実施の形態においては、インデックス区分の契機と、バックアップ取得の 契機とを同一にし、検索結果の参照先を、バックアップデータに変更することによって 、 ノ ックアップデータへの検索を、別のインデックスを用意することなく実現できるため である。これに伴い、ノ^クアップデータに対するインデックス登録処理が不要である ため、ノ ックアップ装置に、インデックス化に必要な記憶容量ならびに計算処理に必 要な計算機資源を削減することができる。
[0216] 本発明によれば、例えば、
•World Wide Webに存在する情報検索システムや、
•組織内の情報 (イントラネットの Webや、組織における情報システム、データべ一 ス、ストレージ等が保有する情報)
に対する情報検索システムといった用途に適用できる。すなわち、本発明は、検索 エンジン等に、上記した実施形態の情報検索システムを備えてもよ!/、ことは勿論であ
[0217] また、本発明は、何らかの分析のために中間データを保有する情報処理システム にも適用可能である。
[0218] 本発明は、バックアップやアーカイブデータに対する検索システムといった用途にも 適用可能である。例えば、データマイニング処理又はテキストマイニング処理を行うマ イニング装置に、請求項 1等の本発明の情報検索システムを備えた構成としてもよい 。あるいは、携帯通信端末 (携帯電話機)に、請求項 1等の本発明の情報検索システ ムを備えた構成としてもよい。あるいは、音楽(音声) /画像 (動画)等のメディア再生 装置に、請求項 1等の本発明の情報検索システムを備えた構成としてもよい。あるい は、名簿情報を管理する装置に、請求項 1等の本発明の情報検索システムを備えた 構成としてもよい。あるいは、カラオケ装置に、請求項 1等の本発明の情報検索シス テムを備えた構成としてもよい。これらの装置において、例えばインデックスの属性に 応じて、過去の時点における属性情報に基づいた情報検索を実現する構成とした場 合、ユーザが過去に行った検索操作と同等の操作を行った場合に、以前と同じ方法 で同じ情報に迪り着くことを可能としている。
[0219] 以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にの み制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変 形、修正を含むことは勿論である。

Claims

請求の範囲
[1] 情報検索用のインデックスとして時系列に区分されてなる区分インデックスをインデ ックス格納手段に用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデック スの中から、対応する区分インデックスを選択し、前記選択した区分インデックスを用 いて検索を行う検索手段を備えている、ことを特徴とする情報検索システム。
[2] 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデ ックス格納手段に登録するインデックス登録手段と、
検索条件として、検索の基点となる、時間又は契機情報を入力する検索条件入力 手段と、を備え、
前記検索手段は、入力された前記検索の基点となる情報に基づき、前記インデック ス格納手段から、過去の区分インデックスを選択的に読み込み、検索処理を行う、こ とを特徴とする請求項 1記載の情報検索システム。
[3] 前記検索の基点となる情報が指定入力されない場合、前記検索手段は、前記イン デッタス格納手段に登録されている、最新インデックスと過去の区分インデックスの全 てを用いて検索する、ことを特徴とする請求項 1又は 2記載の情報検索システム。
[4] インデックスを区分して登録する契機を、前記インデックス登録手段に通知する区 分契機通知手段を備えたことを特徴とする請求項 2記載の情報検索システム。
[5] インデックスの作成対象となる文書のバックアップに関連付けて、インデックスを区 分して登録する契機を、前記インデックス登録手段に通知する手段を備えている、こ とを特徴とする請求項 2記載の情報検索システム。
[6] 前記検索手段は、複数のインデックスに同一文書に対するインデックスデータが格 納されている場合、新しいインデックスを優先して処理をする、ことを特徴とする請求 項 2記載の情報検索システム。
[7] 前記インデックス登録手段は、文書を記憶する文書格納手段から、インデックスに 登録する文書を読み出し、インデックスに登録するために必要な所定の事前処理を 行って最新インデックスに対して登録し、
インデックスの区分処理を行うにあたり、インデックスの区分の契機か否かを判断し 、インデックス区分の契機の場合には、現在の最新インデックスのインデックスを区分 インデックスの 1つに設定した上で、最新インデックスを空で作成し、この空の最新ィ ンデッタスを、前記インデックス登録手段のインデックスの登録先とする、ことを特徴と する請求項 2記載の情報検索システム。
[8] 前記インデックス格納手段に記録される前記区分インデックスが、過去の時点での 情報検索に利用された所定の属性情報を含み、
前記過去の時点に対応する区分インデックスを選択して検索することで、前記過去 の時点の属性情報に基づいた情報検索結果を出力自在としてなる、ことを特徴とす る請求項 1又は 2記載の情報検索システム。
[9] 検索対象の文書を格納する文書格納手段を備え、
前記インデックス登録手段は、前記文書格納手段が保持する検索対象の文書のィ ンデッタスを作成し、区分インデックスとして、前記インデックス格納手段に登録する、 ことを特徴とする請求項 2記載の情報検索システム。
[10] 前記文書格納手段のバックアップ手段を備え、
前記文書格納手段のバックアップに関連付けて、インデックスを区分する契機を、 前記インデックス登録手段に通知する手段を備えて!/、る、ことを特徴とする請求項 9 記載の情報検索システム。
[11] 情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め 用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデック スの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて 検索を行う、ことを特徴とする情報検索方法。
[12] 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデ ックス格納手段に登録するインデックス登録工程と、
検索条件として、検索の基点となる、時間又は契機情報を入力する工程と、 を含み、
入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、 過去の区分インデックスを、選択的に読み込み、検索処理を行う、ことを特徴とする 請求項 11記載の情報検索方法。
[13] 検索の基点時間情報が指定入力されない場合、前記インデックス格納手段に登録 された全てのインデックスを用いて検索する、ことを特徴とする請求項 11又は 12記載 の情報検索方法。
[14] インデックスを区分する契機を、前記インデックス登録工程に通知する工程を含む
、ことを特徴とする請求項 12記載の情報検索方法。
[15] 検索対象の文書のバックアップに関連付けて、インデックスを区分する契機を、前 記インデックス登録工程に通知する工程を含む、ことを特徴とする請求項 12記載の 情報検索方法。
[16] 情報検索用のインデックスとして時系列に区分されてなる区分インデックスを予め 用意しておき、
検索要求で指定された条件に基づき、時系列に区分された複数の区分インデック スの中から、対応する区分インデックスを選択し、選択した区分インデックスを用いて 検索を行う処理をコンピュータに実行させるプログラム。
[17] 文書検索用のインデックスとして時系列に区分されてなる区分インデックスをインデ ックス格納手段に登録する処理と、
検索条件として、検索の基点となる、時間又は契機情報を入力する処理と、 入力された前記検索の基点となる情報に基づき、前記インデックス格納手段から、 過去の区分インデックスを選択して検索を行う処理と、
を前記コンピュータに実行させる請求項 16に記載のプログラム。
PCT/JP2007/069272 2006-10-06 2007-10-02 Système et procédé de recherche d'informations et programme WO2008044542A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/443,403 US8301603B2 (en) 2006-10-06 2007-10-02 Information document search system, method and program for partitioned indexes on a time series in association with a backup document storage
JP2008538663A JP5218060B2 (ja) 2006-10-06 2007-10-02 情報検索システムと情報検索方法ならびにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-275169 2006-10-06
JP2006275169 2006-10-06

Publications (1)

Publication Number Publication Date
WO2008044542A1 true WO2008044542A1 (fr) 2008-04-17

Family

ID=39282751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/069272 WO2008044542A1 (fr) 2006-10-06 2007-10-02 Système et procédé de recherche d'informations et programme

Country Status (4)

Country Link
US (1) US8301603B2 (ja)
JP (1) JP5218060B2 (ja)
CN (1) CN101523391A (ja)
WO (1) WO2008044542A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079601A (ja) * 2008-09-26 2010-04-08 Hitachi Software Eng Co Ltd 多世代ファイル探索システム
WO2010055901A1 (ja) * 2008-11-14 2010-05-20 日本電気株式会社 情報処理システムと方法並びにプログラム
CN114205631A (zh) * 2021-10-28 2022-03-18 浙江大华技术股份有限公司 视频存储、目录生成、迁移方法、装置、设备和介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112425B2 (en) 2006-10-05 2012-02-07 Splunk Inc. Time series search engine
US8538188B2 (en) * 2009-08-04 2013-09-17 Mitre Corporation Method and apparatus for transferring and reconstructing an image of a computer readable medium
US8682886B2 (en) * 2012-05-18 2014-03-25 Splunk Inc. Report acceleration using intermediate summaries of events
US9047326B2 (en) 2012-10-12 2015-06-02 A9.Com, Inc. Index configuration for searchable data in network
EP2907034A4 (en) * 2012-10-12 2016-05-18 A9 Com Inc INDEX CONFIGURATION FOR SEARCHABLE DATA IN A NETWORK
US9507750B2 (en) * 2012-10-12 2016-11-29 A9.Com, Inc. Dynamic search partitioning
US9087055B2 (en) * 2013-01-28 2015-07-21 International Business Machines Corporation Segmenting documents within a full text index
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
WO2016094819A1 (en) * 2014-12-12 2016-06-16 Actifio, Inc. Searching and indexing of backup data sets
EP3528141A4 (en) * 2016-10-17 2020-05-13 Nippon Telegraph And Telephone Corporation DATA PROCESSING DEVICE AND DATA PROCESSING METHOD
US11609933B1 (en) 2018-07-18 2023-03-21 Amazon Technologies, Inc. Atomic partition scheme updates to store items in partitions of a time series database
US10983954B2 (en) * 2019-05-24 2021-04-20 Hydrolix Inc. High density time-series data indexing and compression

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259646A (ja) * 1999-03-05 2000-09-22 Ricoh Co Ltd 情報索引装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146880A (ja) 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法
US5778395A (en) * 1995-10-23 1998-07-07 Stac, Inc. System for backing up files from disk volumes on multiple nodes of a computer network
JPH09223152A (ja) 1996-02-16 1997-08-26 Toshiba Corp 文書検索装置
US6175835B1 (en) * 1996-07-26 2001-01-16 Ori Software Development, Ltd. Layered index with a basic unbalanced partitioned index that allows a balanced structure of blocks
JPH1049419A (ja) * 1996-08-02 1998-02-20 Nec Corp インデックス二重化による複数時点データ管理方式
JPH10154090A (ja) * 1996-11-22 1998-06-09 Mitsubishi Electric Corp データ管理システム
US6067541A (en) * 1997-09-17 2000-05-23 Microsoft Corporation Monitoring document changes in a file system of documents with the document change information stored in a persistent log
EP0920038A1 (de) * 1997-11-25 1999-06-02 Electrowatt Technology Innovation AG Schaltung zur Überwachung eines Wechselstromschalters
JP4126843B2 (ja) * 2000-03-31 2008-07-30 株式会社日立製作所 データ管理方法および装置並びにデータ管理プログラムを格納した記録媒体
US20030101183A1 (en) * 2001-11-26 2003-05-29 Navin Kabra Information retrieval index allowing updating while in use
US6920460B1 (en) * 2002-05-29 2005-07-19 Oracle International Corporation Systems and methods for managing partitioned indexes that are created and maintained by user-defined indexing schemes
JP2004178070A (ja) 2002-11-25 2004-06-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び情報検索装置並びにプログラム
US7254580B1 (en) * 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database
US7225208B2 (en) * 2003-09-30 2007-05-29 Iron Mountain Incorporated Systems and methods for backing up data files
US7849063B2 (en) * 2003-10-17 2010-12-07 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US7293016B1 (en) * 2004-01-22 2007-11-06 Microsoft Corporation Index partitioning based on document relevance for document indexes
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7672979B1 (en) * 2005-04-22 2010-03-02 Symantec Operating Corporation Backup and restore techniques using inconsistent state indicators
US20070043705A1 (en) * 2005-08-18 2007-02-22 Emc Corporation Searchable backups
US8051045B2 (en) * 2005-08-31 2011-11-01 Sap Ag Archive indexing engine
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US20080091744A1 (en) * 2006-10-11 2008-04-17 Hidehisa Shitomi Method and apparatus for indexing and searching data in a storage system
US7747589B2 (en) * 2007-03-12 2010-06-29 Microsoft Corporation Transaction time indexing with version compression
US8171003B2 (en) * 2007-06-06 2012-05-01 Kunio Kamimura Method and apparatus for changing reference of database

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259646A (ja) * 1999-03-05 2000-09-22 Ricoh Co Ltd 情報索引装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079601A (ja) * 2008-09-26 2010-04-08 Hitachi Software Eng Co Ltd 多世代ファイル探索システム
WO2010055901A1 (ja) * 2008-11-14 2010-05-20 日本電気株式会社 情報処理システムと方法並びにプログラム
JP5549596B2 (ja) * 2008-11-14 2014-07-16 日本電気株式会社 情報処理システムと方法並びにプログラム
US9002811B2 (en) 2008-11-14 2015-04-07 Nec Corporation System, method and program for information processing
CN114205631A (zh) * 2021-10-28 2022-03-18 浙江大华技术股份有限公司 视频存储、目录生成、迁移方法、装置、设备和介质

Also Published As

Publication number Publication date
CN101523391A (zh) 2009-09-02
US8301603B2 (en) 2012-10-30
JP5218060B2 (ja) 2013-06-26
JPWO2008044542A1 (ja) 2010-02-12
US20100088318A1 (en) 2010-04-08

Similar Documents

Publication Publication Date Title
JP5218060B2 (ja) 情報検索システムと情報検索方法ならびにプログラム
JP5233233B2 (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
US10496283B2 (en) Adaptive prefix tree based order partitioned data storage system
US11580066B2 (en) Auto summarization of content for use in new storage policies
US10620862B2 (en) Efficient recovery of deduplication data for high capacity systems
JP7410181B2 (ja) ハイブリッド・インデックス作成方法、システム、プログラム
US8527556B2 (en) Systems and methods to update a content store associated with a search index
US7257690B1 (en) Log-structured temporal shadow store
US9665304B2 (en) Storage system with fast snapshot tree search
US7831795B2 (en) Systems and methods for classifying and transferring information in a storage network
US8548948B2 (en) Methods and apparatus for a fine grained file data storage system
US11755427B2 (en) Fast recovery and replication of key-value stores
US11093448B2 (en) Methods and systems for metadata tag inheritance for data tiering
US11113148B2 (en) Methods and systems for metadata tag inheritance for data backup
US20200242080A1 (en) Methods and Systems for Natural Language Processing of Metadata
US11113238B2 (en) Methods and systems for metadata tag inheritance between multiple storage systems
US20200242159A1 (en) Methods and systems for event based tagging of metadata
US9405828B2 (en) System and method for phonetic searching of data
CN110858210A (zh) 数据查询方法及装置
US11100048B2 (en) Methods and systems for metadata tag inheritance between multiple file systems within a storage system
US11829291B2 (en) Garbage collection of tree structure with page mappings
JP4825504B2 (ja) データ登録・検索システムおよびデータ登録・検索方法
US20230315705A1 (en) Creating a secondary index using a clone
US20230244649A1 (en) Skip-List Checkpoint Creation
US20230315707A1 (en) Creating a secondary index

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780037369.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07829012

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008538663

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12443403

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07829012

Country of ref document: EP

Kind code of ref document: A1