WO2009063925A1

WO2009063925A1 - 文書管理・検索システムおよび文書の管理・検索方法

Info

Publication number: WO2009063925A1
Application number: PCT/JP2008/070630
Authority: WO
Inventors: Yukitaka Kusumura; Toshiyuki Kamiya
Original assignee: Nec Corporation
Priority date: 2007-11-15
Filing date: 2008-11-06
Publication date: 2009-05-22
Also published as: US9454597B2; US20100281030A1; JP5376163B2; JPWO2009063925A1

Abstract

　単語の集合に対して、文書集合内での各単語の出現位置を単語インデックとして記憶し、また、単語に付加されたタグの集合に対して、各タグの右と左に登場した単語の集合を記憶すると共に、各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置をタグＬＲインデックスとして記憶し、タグの検索時にクエリのフレーズに含まれる隣接した単語とタグに対し、タグとその右あるいは左の単語をキーとしてインデックスを参照し、タグ名を２次キーに持たなくとも読み込む文書リストの量を削減する。また、タグを更新する際には、タグＬＲインデックスに２箇所の更新を加えるのみでタグを更新する。

Description

文書管理 ·検索システムおよび文書の管理 ·検索方法技術分野：

本発明は、文書中の部分文字列にタグを付加し、そのタグを元に文書情報を管理および検索する技術に関する。特に、情報検索のための処理要求（クエリ）として、タグを含むフレーズを使用可能とする技術に関する。

明背景技術：

書

図 2はタグ付けされた文書の一例を示す。本明細書において「文章」とは、少なくとも、ユニークな識別子とである文書番号と、検索の対象となる文字列（本文）と、を含むデータをいう。また、「タグ」とは、ある文書中の一つ以上の単語に対して付加されるデータをいう。図 2の例では、「A B C産業の山田太郎社長は. . .」という文字列を含む文書において、 1文字目から 5文字目までの「a b c 産業」に対して付加される「企業名」というタグの例と、 7文字目から 1 0文字目までの「山田太郎 j に対して、「人名」というタグの例を示している。本明細書では、「企業名」や「人名」ように、タグを表現する文字列をタグ名と呼ぶ。さらに、本明細書において「単語」とは，形態素解析や Nグラム（文字列を N文字ごとに区切る）など、何らかの一定の基準で作成された本文の部分文字列をいう。このようなタグを付加した文章に対して文書管理および検索を行う文書管理 · 検索システムには、文書中の部分文字列に対してタグを付加あるいは削除する機能と、タグを用いたフレーズによる文書の検索する機能とが備えられる。タグを用いたフレーズによる文書の検索とは、タグ名ゃ文字列を含む連続した文字列を入力とし、そのフレーズを含む文書集合を出力する機能を意味する。例えば、タグを用いたフレーズとして「[企業名] の [人名]」が挙げられる。なお、この構文では「[J と「]」で囲まれた文字列をタグ名として捉える。このとき、このフレーズを検索クエリとして捉えると、「企業名」というタグが付加された任意の語、「の」という語、「人名」というタグが付加された任意の語が連続して登場する文書を返却せよ、という意味になる。

このようなタグを用いた文書の管理 ·検索を実現する方法として、タグ付きの文書を XML (ExtensibleMarkup Language) などの階層的な構造の記述形式で表現した上で、階層的な構造文書の検索装置 XMLDB (XMLData Base) を利用する方法が知られている（例えば特開 2005— 1881 1号公報参照、以下特許文献 1と記す)。

XMLの一例を図 3ないし図 5を参照して説明する。図 3はタグを付加された文書を XMLにより表現した例を示し、図 4は同文書の一部をタグの包含関係を元に木構造として表現したもの、図 5は階層的な情報を管理するための表を示す。図 4において、楕円のノードはタグを、長方形の葉ノードはテキストを意味し、それらの間のエッジは、それらのタグもしくはテキストの間に包含関係が存在することを意味している。さらに、図 4では、各ノードの下にパス階層と呼ばれる情報を記述している。パス階層とは、各ノードの文書中での位置を表す情報である。パス階層はノードの位置を示す数字を区切り記号（「.」）と共に記述したものである。例えば、図 4の「人名」ノードには「1. 1. 3」というパス階層が付加されているが、これはルートから見て「1番目のノード（「文書」ノード）の下の 1番目のノード（「本文」ノード）の下の 3番目のノード」という意味を持つ。これらの階層的な情報は、図 5に示したような表で管理される。ただし、この表は論理的な関係を示すものであり、実際には複数の表で表現されることが多い。図 5に示した表では、文書集合内のノードに対して、ノード I D、文書番号、テキスト、タグ名、パス階層の情報を管理している。ノード I Dは、文書集合内の全ノードに対してユニークな識別子である。文書番号とは、そのノードが含まれる文書を示す I Dである。テキストとは、葉ノードに含まれる文字列である。ただし、葉ノードでないノードに対しては、「NULL」が入力されるものとする。タグ名とは、各ノードのタグ名である。ただし、葉ノードに対しては「# t e x t」が入力されるものとする。パス階層とは各ノードのパス階層を意味する。このような情報を検索する方法について、特許文献 1に開示された検索装置の動作を例に説明する。

例えばクエリとして「[企業名]の [人名]」というフレーズが与えられた場合、この検索装置はまず、クエリを複数の検索条件に分解する。このクエリの場合には、 A：企業名というタグがあること、 B ：「の」という語が含まれること、 C ：人名というタグがあること、の 3つに分解される。次にこの検索装置は、各条件を元にそれぞれ図 5に示した表を参照し、タグ名が「企業名」であるノードのリスト（Aリストとする）と、テキストが「の」であるノードのリスト（Bリストとする）、タグ名が「人名」であるノードのリスト（Cリストとする）を得る。次にこの検索装置は、 Aリスト、 Bリスト、 Cリスト内のノードを比較し、文書番号が等しいノードの組み合わせを取り出し、 Aリスト内の「企業名」ノード、 B リスト内の「の」ノード、 Cリスト内の「人名」ノードの位置関係がクエリと同じ順序で連続しているものを取り出す。この位置関係の判定はパス階層を比較することで行われる。このクエリの場合、「企業名」ノードと「の」ノードと「人名」ノードは兄弟ノードであり、この検索装置は、次の三つの条件を満たすノードから、検索結果を作成する。

条件 1 ：「企業名」ノードのパス階層と、「の」ノードのパス階層と「人名」ノードのパス階層が、末尾の数以外の部分で一致し；

条件 2 ：「の」ノードのパス階層の末尾の数 = 「企業名」ノードのパス階層の末尾の数 + 1であり；

条件 3 ：「人名」ノードのパス階層の末尾の数 = 「の」ノードのパス階層の末尾の数 + 1である。

しかし、この方法には二つの問題がある。まず、第一の問題は、タグを追加した場合にパス階層の更新が必要であり、処理に時間がかかるということである。図 6に、タグの追加によるパス階層の変更の例を示す。図 6では、文書に人名というタグを追加する例について、追加前の文書構造を左側に、追加後の文書構造とそのパス階層の更新範囲を右側に示す。右側の更新範囲では、点線で示される範囲のノードのパス階層を更新する必要があることを示している。このように、パス階層はノードの位置を文書全体の階層構造を用いて表現しているため、文書中の一部が変更になった場合でも大幅に変更が必要となる。

第二の問題は、一般的な語句や頻度の高いタグ名のみから成るフレーズを検索クエリとした場合に、検索に時間がかかるということである。これは、一般的な語句や頻度の高いタグ名で検索した場合、個々の条件でノードを検索する際に大量のノードが発見されるため、大量のノードに対して文書番号と位置関係を調べる必要があり、検索速度が低下するという問題である。例えば、「[企業名] の [人名]」というクエリの場合、クエリは、企業名というタグがあること、「の」という語が含まれること、人名というタグがあること、に分解され、それぞれの条件に合うノードのリストが取り出される。し力し、それぞれの条件は一般的過ぎるため大量のノードが発見され、位置関係を調べるために大きな時間が必要になる。このように、 XM L D Bを用いた文書管理 ·検索システムは文書の階層構造までをインデックス化するために、タグの更新（追加や削除）や、検索に時間がかかってしまう。そこで、タグを用いたフレーズ検索を実現する別の方法として、階層構造をィンデックス化せず、全文検索ィンデッタスで利用される転置ィンデックスを用いることが考えられる。

図 7は転置インデックスの例を示す。図 7において（a ) に示されるデータ構造では、ある単語をキーとして入力することで、その単語を含む文書の数（頻度）と、その単語を含む文書の文書番号と、その文書内でのその単語の登場位置（登場位置、文書前方からの文字数で表現される）のリスト（以下、文書リストと呼ぶ）を得ることができる。転置インデックスを用いてタグによるフレーズ検索を実現するには、（a ) で示した通常の転置インデックスの他に、（b ) に示すタグの転置インデックスを用いる。（b ) は、単語の場合と同様、あるタグ名のタグに関して、そのタグを含む文書の数（頻度）と、そのタグを含む文書番号と、その文書内でのタグの登場位置を示す情報（開始位置と終了位置、文書前方からの文字数で表現される）のリスト（以下、タグ文書リストと呼ぶ）を得ることができる。

このようなインデックスを用いることにより、タグを付加 ·削除する際は、タグの転置ィンデッタスの該当部分のみを追加 ·削除することで、タグの更新を行うことができる。

しかし、この方法を用いた場合でも、一般的な語句や頻度の高いタグ名のみから成るフレーズを検索クエリとした検索時には、その処理時間が問題となる。例えば、クエリとして「[企業名] の [人名]」というフレーズが与えられた場合、このインデックスを持つ検索システムは、特許文献 1で示される装置と同様に、 A：企業名というタグがあること、 B ：「の」という語が含まれること、 C :人名というタグがあること、に分解し、各転置インデックスを参照する。し力し、 X M L D Bの場合と同様、それぞれの条件は一般的過ぎるため、個々の条件で非常に長い文書リストが発見され、位置関係を調べるのに時間がかかる。

また、一般的な語句から成る検索クエリに対し、文書リストの長さを削減しフレーズ検索を高速化する手法として、 N e X t w o r dインデックスと呼ばれる手法がある（H. E. Will iams, J. Zobel and D. Bahle, "Fast Phrase Querying with Combined Indexes", ACM Transactions on Information Systems, 22 (4)， pp. 573-594， 2004 を参照、以下非特許文献 1と記す）。 N e x t w o r dインデックスは、高い頻度を持つ一般的な語の文書リストを、その次（横書きを前提とし、これを「右」という）に登場する単語を元に分割したデータ構造を持つ。図 8は N e X t w o r dインデックスのデータ構造例を示す。 N e x t w o r dインデックスでは、ある単語をキーとし、その単語の右に登場した単語（N e x t w o r d ) の集合を記憶し、さらに、キーとなった単語と一つの N e X t w o r dとの組から、その 2つの語が隣接して登場した文書集合に対する文書リストを参照することができる。

図 9はインデックスの一例を示す。この例では、「の」という単語の N e x t w o r dとして「山田」と「会社」が登録されており、さらにそれぞれに対して「の山田」を含む文書の文書リストと、「の会社」含む文書の文書リストが登録されていることを意味する。以下の説明では、このように 2つの単語（あるいは条件）からなるキ一を「A→B」（例えば「の→山田」など）と表現し、 Aを 1次キー、 Bを 2次キーと呼ぶこととする。

非特許文献 1に開示された検索システムは、高い頻度の単語に対してこの N e

X t w o Γ dインデックスを利用することで、検索速度を向上させている。例えば、検索時にクエリとして「a b c産業の山田」というフレーズが入力され、「a b e産業」が低い頻度の語、「の」が高い頻度の語であると仮定すると、この検索システムは次のように検索を行う。まず、低い頻度の語に対して通常の転置インデックスを参照し、「a b c産業」に対応する文書リストを得る。次に、高い頻度の語に対しては、 N e x t w o r dインデックスを参照し、「の→山田」とレヽぅ参照から文書リストを得る。さらに、これらの二つの文書リストを比較し、同じ文書で、かつ、登場位置がクエリと同じである文書の集合を出力する。このように、 Ne X t wo r dインデックスによると、 2つの語の隣接関係をキーとして文書リストを読み込むことができるため、検索速度を向上させることができる。

しかし、この手法はあくまで単純なフレーズ検索のために用いられるものであり、タグを付加された文書を対象とした場合、タグの更新処理に時間がかかるという問題がある。

図 10は Ne x two r dインデックスを用いた検索システムにおいてタグの更新処理に時間がかかることを説明する図である。ここでは、「 a b c産業の山田」というフレーズについて、タグを追加 ·削除する際に更新が必要な範囲を示す。図 10において（a) に示すように、「a b e産業の山田」という文字列に対して、 a b e産業に [名詞]、 [企業名] というタグが、「の」に対して [助詞] というタグが、山田に対して [人名] というタグが付加されている。（a) 内の 8本の点線の矢印は、それぞれ Ne X two r dインデックス内に作成される隣接関係のキーを意味する。なお、図 10内の「a b c産業」は低頻度とし、通常の転置インデックスに格納されるものとしている。

このとき、このうち「の」という語に [所属] というタグを追加することを考える。この場合、新たに（b) 内の実線の矢印の関係が発生するため、「[名詞] → [所属]」というキー、「[企業名] → [所属]」というキー、「[所属] —山田 J というキー、「[所属] → [名詞]」というキーに対応する部分を更新せねばならなレ、。

また、「の」に付加された [助詞] というタグを削除することを考える。この場合、同様に（c) 内の実線の矢印の関係を削除しなければならない。つまり「[名詞] → [助詞]」というキー、「[企業名] → [助詞]」というキー、「[助詞] →山田 j というキー、「[助詞] _→ [固有名詞]」というキーに対応するについて文書リストを参照し、該当部分を修正する必要がある。

このように、 Ne x two r dインデックスはタグを付加することを想定しておらず、単純にタグ付き文書に適用すると、更新する箇所が多く、タグの更新に時間がかかるという問題がある。なお、これは 2次キーにタグを用いると、あるタグに関する参照が分散することが原因となっている。発明の開示：

発明が解決しようとする課題

上述したように、特許文献 1に記載された検索装置では、フレーズ検索だけでなく、階層的なタグ構造によるクエリ（「Z文書本文企業名」という構造を持つ文書を返せ、など）も想定しており、階層的なインデックスを持っために、ィンデッタスの更新に時間がかかっていた。また、特許文献 1に記載された検索装置は、フレーズを個々の単語の条件に分解した後、個々の条件で検索する、という思想に基づいており、個々の単語の条件がすべて一般的なパターンである場合、大量の情報を読み出さなければならず、検索に時間がかかっていた。

非特許文献 1に記載の検索システムでは、二つの語の隣接関係を元に読み込む文書リストの量を削減することができるが、タグの付加された文書を考慮しておらず、タグの付加された文書では単語やタグ間の隣接関係が複雑するため、タグの更新に時間がかかっていた。

本発明は、このような課題を角军決し、タグを含むフレーズの検索において、一般的な語句と頻度の高いタグとからなるクエリに対する効率の良い検索と、タグの効率良い更新と、を両立した文書管理 ·検索システムおよび文書の管理 ·検索方法を提供することを目的とする。

課題を解決するための手段

本発明発の文書管理 ·検索システムは、単語の集合に対して、文書集合内での各単語の出現位置を記憶する単語ィンデックス記憶部と、単語に付加されてその単語の属性を表すタグの集合に対して、各タグの右と左に登場した単語の集合を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L Rィンデックス記憶部と、検索クエリとしてタグと単語から成るフレーズを入力とし、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用してタグ L Rィンデックス記憶部を参照し、そのフレーズを含む文書の識別子の一覧を返却する文書検索部と、特定の文書中の部分文字列に対してタグを追加 ·削除するクエリを解釈し、タグ L Rインデックス記憶部の記憶内容を更新するタグ更新部と、一つ以上の文書が与えられた場合に、単語インデックス記憶部内のインデックスを更新する文書ィンデックス作成部とを備えたことを特徴とする。

この構成において、任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定部を備え、タグ更新部は、タグを付加する際に高速タグ値判定部内のデータを更新する手段を含み、文書検索部は、タグが連続するフレーズが検索クエリとして入力された場合に、高速タグ値判定部とタグ L Rインデックス記憶部とを参照して、特定のタグ名を含む可能性のある単語に絞って問い合わせを実行する手段を含むことが望ましい。

高頻度語とタグ名とをキーとし、その単語およびタグをそれぞれ含む文書の集合を表すビット列を記憶するビット列記憶部を備え、文書ィンデックス作成部は、文書からインデックスを作成する際にビット列記憶部内のビット列を更新する手段を含み、タグ更新部は、タグを更新する際に追加 ·削除されたタグを元にビット列記憶部内のビット列を更新する手段を含み、文書検索部は、検索時に予めクエリに含まれる高頻度語およびタグ名を元にビット列記憶部を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書番号の集合を得て、その文書番号を元に文書集合を絞り込んだ上で文書集合内にフレーズの登場位置を読み込む手段を含むこともできる。

タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rィンデックス記憶部と、このタグ N L Rインデックス記憶部内のィンデッタスをタグ L Rィンデックス記憶部内のィンデックスに変換する変換手段と、タグの登場頻度に基づきィンデッタスの記憶方法を変更する管理手段とを備えることもできる。

本発明の文書の管理 ·検索方法は、一つ以上の文書が与えられた場合に、その文書に含まれる単語の集合に対し、各単語をキーとして、その登場位置を記憶する文書ィンデックス作成ステツプと、特定の文書中の部分文字列に対しタグを追加 ·削除するクエリが与えられた場合に、そのタグ名をキーとしタグの登場位置を記憶するタグ更新ステップと、このタグ更新ステップ内において、入力されたタグに対し、タグの右と左に登場した単語を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L R記憶ステップと、タグと単語から成るフレーズが検索クエリとして与えられた場合に、その検索クェリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して複数のキーを作成し、これらのキーを元に文書インデックス作成ステップにおいて記憶されたキーを元に単語の登場位置、タグ更新ステップにおいて記憶されたキ一を元に各タグの登場位置をそれぞれ参照し、その上でそれらを統合することでそのフレーズを含む文書の識別子の一覧を返却する文書検索ステップとを含むことを特徴とする。

任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定ステップを含み、タグ更新ステップは、タグを付加する際にタグ名と文字列の関係を表すデータを更新するステップを含み、文書検索ステップは、タグ名が連続するフレーズを検索クエリが入力された場合に、高速タグ値判定ステップを利用し、特定のタグ名を含む可能性のある単語のみに絞ってタグの登場位置を読み込むステップを含むことが望ましい。文書インデックスステップにおいて高頻度語とタグ名とをキーとし、その単語およびタグをそれぞれ含む文書の集合を表すビット列を記憶するビット列記憶ステツプを含み、タグ更新ステップは、タグを更新する際に追カ卩 ·削除されたタグを元にビット列記憶部内のビット列を更新するステップを含み、文書検索ステツプは、検索クエリに含まれる高頻度語とタグ名とをキーとしてビット列記憶ステップで記憶されたビット列を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書の集合を表すデータを得、そのデータを元に文書集合を絞り込んだ上で単語とタグの登場位置を読み込むステップを含むことができる。

タグ更新ステップは、タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rインデックスステツプを含み、タグ更新ステップおよび文書検索ステップは、タグをキーとしその登場位置を更新あるいは検索する際に、そのタグがタグ N L Rインデックスステップで記憶されているかタグ L R更新ステップで記憶されているかによって、参照先を選択するステップと、タグに関する頻度を元に、タグ N L Rインデックスステップで作成されたデータを削除し、タグ L Rインデックスステツプで作成するィンデックス変換ステップとを含むこともできる。

本発明はコンピュータ ·プログラムとして実施することもできる。すなわち、一つ以上の文書が与えられた場合に、その文書に含まれる単語の集合に対し、各単語をキーとして、その登場位置を記憶する文書インデックス作成処理と、特定の文書中の部分文字列に対しタグを追加 ·削除するクエリが与えられた場合に、そのタグ名をキーとしタグの登場位置を記憶するタグ更新処理と、このタグ更新処理内において、入力されたタグに対し、タグの右と左に登場した単語を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L R記憶処理と、タグと単語から成るフレーズが検索クエリとして与えられた場合に、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して複数のキーを作成し、これらのキーを元に文書ィンデッタス作成処理において記憶されたキーを元に単語の登場位置、タグ更新処理において記憶されたキーを元に各タグの登場位置をそれぞれ参照し、その上でそれらを統合することでそのフレーズを含む文書の識別子の一覧を返却する文書検索処理とをコンピュータに実行させることを特徴とする。

任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定処理と、タグ更新処理においてタグを付加する際にタグ名と文字列の関係を表すデータを更新する処理と、文書検索処理においてタグ名が連続するフレーズを検索クエリが入力された場合に、高速タグ値判定処理を利用し、特定のタグ名を含む可能性のある単語のみに絞ってタグの登場位置を読み込む処理とをさらにコンピュータに実行させることが望ましレ、。 ·

文書インデックス処理において高頻度語およびタグ名をキーとし、その単語およびタグを含む文書の集合を表すビット列を記憶するビット列記憶処理と、タグ更新処理において、タグを更新する際に追加 ·削除されたタグを元にビット列記憶処理で記憶されたビット列を更新する処理と、文書検索処理において、検索クエリに含まれる高頻度語およびタグ名をキーとしてビット列記憶処理で記憶されたビット列を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書の集合を表すデータを得、そのデータを元に文書集合を絞り込んだ上で単語とタグの登場位置を読み込む処理とをさらにコンピュータに実行させることもできる。タグ更新処理内において、タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rィンデックス処理をコンピュータに実行させ、タグ更新ステップ内および文書検索ステップ内において、タグをキーとしその登場位置を更新あるいは検索する際に、そのタグがタグ N L Rインデックス処理で記憶されている力 \ タグ L R更新処理で記憶されているかによって、参照先を選択する処理と、タグに関する頻度を元に、タグ N L Rインデックス処理で作成されたデータを削除し、タグ L Rィンデックス処理で作成するインデックス変換処理とをコンピュータに実行させることもできる。

発明の効果

本発明によれば、検索時にクエリのフレーズに含まれる隣接した単語とタグに対し、タグとその右あるいは左の単語をキーとしてインデックスを参照でき、読み込む文書リストの量を削減できるため、高速に検索処理を行うことができる。また、タグを更新する際には、タグ L Rインデックス記憶部に 2箇所の更新を加えるのみでタグの更新が可能であり、少量の更新を行うのみでタグの更新を高速に行うことができる。図面の簡単な説明：

図 1は本発明の望ましい第一の実施形態を示すプロック構成図である。

図 2はタグ付けされた文書の一例を示す図である。

図 3はタグが付加された文書を XM Lで表現した例を示す図である。

図 4は XM L D Bで用いられるパス階層を示す図である。

図 5は X M L D Bで用いられるインデックスの論理的構造を示す図である。図 6は XM L D Bにおいてタグを追加する際に更新が必要な範囲を示す図である。

図 7は転置ィンデッタスの一例を示す図である。

図 8は N e x t w o r dインデックスのデータ構造例を示す図である。

図 9は N e X t w o r dインデックスの一例を示す図である。

図 1 0は N e X t w o r dインデックスを用いた検索システムにおいてタグを追加 ·削除する際に更新が必要な範囲を示す図である。

図 1 1は本発明の第一の実施形態で想定する転置ィンデッタスの例を示す図である。

図 1 2はタグ L Rインデックス記憶部内のデータの一例を示す図である。図 1 3は本発明の望ましい第二の実施形態を示すプロック構成図である。図 1 4は高速タグ値判定部の構成例を示すプロック図である。

図 1 5はタグ値テーブルの一例を示す図である。

図 1 6は問い合わせタスクのリストの一例を示す図である。

. 図 1 7は文書リスト列の一例を示す図である。

図 1 8は検索プロセスの処理のフローチャートである。

図 1 9はキー列の一例を示す図である。

図 2 0は問い合わせタスクのリストを作成する処理のフローチャートである。図 2 1は問い合わせタスクの実行処理のフローチヤ一トである。

図 2 2は文書リストの統合処理のフローチヤ一トである。

図 2 3は位置関係のチェック処理を説明する図であり、キーごとの問い合わせにおける 4つのケースを示す図である。

図 2 4は位置関係のチェック処理のフローチャートである。

図 2 5はタグの更新プロセスを説明する図である。

図 2 6は単語と文書番号と登場位置のリストの一例を示す図である。

図 2 7はキー列の一例を示す図である。

図 2 8は本発明の本発明の望ましい第三の実施形態を示すプロック構成図である。

図 2 9はビット列記憶部に記憶されるデータの一例を示す図である。

図 3 0は本発明の望ましい第四の実施形態を示すプロック構成図である。図 3 1はタグ L R文書リストの一例を示す図である。

図 3 2は管理テーブルの一例を示す図である。

図 3 3はィンデックス種が N L Rである場合の処理のフローチヤ一トである。図 3 4はィンデッタスの最適化プロセスのフローチヤ一トである。発明を実施するための最良の形態：

本発明を実施するための最良の形態について図面を参照して詳細に説明する。

(第一の実施形態）

図 1は本発明の第一の望ましい実施形態を示すプロック構成図であり、文書管理 -検索システムの構成例を示す。この文書管理 ·検索システムは、単語の集合に対して、文書集合内での各単語の出現位置を記憶する単語ィンデックス記憶部 1 3と、単語に付加されてその単語の属性を表すタグの集合に対して、各タグの右と左に登場した単語の集合を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L Rインデックス記憶部 1 4と、検索クエリとしてタグと単語から成るフレーズを入力とし、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用してタグ L Rインデックス記憶部 1 4を参照し、そのフレーズを含む文書の識別子の一覧を返却する文書検索部 1 5と、特定の文書中の部分文字列に対してタグを追加 ·削除するクエリを解釈し、タグ L Rインデックス記憶部 1 4の記憶内容を更新するタグ更新部 1 2と、一つ以上の文書が与えられた場合に、単語インデックス記憶部 1 3 内のインデックスを更新する文書インデックス作成部 1 1とを備える。

単語インデックス記憶部 1 3は、単語に対する転置インデックス（Nとする）を記憶する。転置インデックスとは、単語をキーとし、文書集合内でその単語が登場する文書の文書番号とその文書内での登場位置の集合を参照できるデータを意味する。

図 1 1は本実施形例で想定する転置インデックスの例を示す。この例では、「山田」という単語をキーとし、「山田」という単語が文書集合において 2回登場し、文書番号が 3 3 3の文書において 1回登場し、その登場位置は前方から 7文字目であること、また、文書番号が 3 4 6の文書において 2回登場し、その登場位置は前方から 4文字目と 2 0文字目であること、を示している。

単語ィンデックス記憶部 1 3は、文書ィンデックス作成部 1 1力ゝら、単語と、その単語を含む文書の文書番号と、その文書中での登場位置と、から成るデータの集合を受け取る。単語インデックス記憶部 1 3は、このデータを各単語をキーとした文書リストとして記憶する。さらに単語ィンデックス記憶部 1 3は、問い合わせ実行手段 1 5 2から、少なくとも一つの単語から成るクエリを受け取ると、その単語の文書リストを返却する。

タグ L Rインデックス記憶部 1 4は、タグとその左右の語に対する転置インデックスとして、タグ Lインデックス（T Lとする）とタグ Rインデックス（T R とする）から成るタグ L Rインデックスを記憶する。タグ Lインデックスはあるタグに対して、そのタグが登場した際にその左に登場した単語の集合と、そのタグとその左に登場した単語をキーとするタグ文書リストを記憶する。同様に、タグ Rインデックスはあるタグに対して、そのタグが登場した際に右側に存在した単語の集合と、そのタグとその右に登場した単語をキーとするタグ文書リストを記憶する。これにより、あるタグとその右 Z左に単語が存在するという条件でタグ文書リストを取り出すことができる。

図 1 2はタグ L Rインデックスの例を示す。この例では、 [人名] というタグのタグ Lインデックス内に「の」と「最近」という左の語のリストを、タグ Rインデックス内に「社長」と「氏」という右の語のリスト持つ。タグ Lインデックス ' タグ Rインデックス内の各データはタグ文書リストへの参照（ポインタ）として表現されており、例えば「[人名]→の」に対応するタグ文書リストはポインタ「# 1 2 5 6」の位置にあり、このパターンは全文書中 1 9 8 5 9回発生しており、文書番号が 3 3 3の文書において [人名] タグが前方から 7文字目から 1 0文字目に付加されていることを示している。

タグ L Rィンデックス記憶部 1 4は、タグ更新部 1 2から命令種、タグ名、文書番号、開始位置、終了位置、左の単語、右の単語を含むデータを受け取り、内部のタグ L Rインデックスを更新する。命令種とは、少なくとも追加削除の 2 種類のどちらかを識別する情報である。タグ名とは、追加削除されるタグの名前を示す。文書番号とは、タグを追加ノ削除する対象の文書の文書番号である。開始位置と終了位置は、タグを追加削除する文書内での位置である。左の単語は、開始位置の左に登場する単語である。右の単語は、開始位置の右に登場する単語である。

また、タグ L Rインデックス記憶部 1 4は、文書検索部 1 5から、参照先と参照キーとからなる問い合わせを受ける。なお、このうち参照先とはタグ Lインデックスかタグ Rインデックスかのどちらかを示すデータである。参照キーは「タグ名」カゝ「タグ名→単語」で指定される。タグ L Rインデックス記憶部 1 4は、参照先と参照キーを入力として問い合わせを受け、参照キーが「タグ名」である場合、タグ名を元に参照先のタグ Lインデックスタグ Rインデックス内を参照し、該当する左の語のリストノ右の語のリストを返却する。また、参照キーが「タグ名→単語」である場合、「タグ名→単語」というキーを元に参照先のタグ Lインデックスタグ Rインデックス内を参照し、該当するタグ文書リストを返却する。文書ィンデックス作成部 1 1は外部のプログラムあるいはユーザによって実行され、一つ以上の文書の集合が与えられた場合に、文書内に含まれる全単語を取り出し各単語に対し、少なくともその単語と、その文書の文書番号と、単語がその文書の本文内先頭から何文字目に登場するかを表す登場位置と、を単語インデックス記憶部 1 3に入力する。

タグ更新部 1 2は外部のプログラムあるいはユーザによって実行され、タグの追加 ·削除に関する命令文を入力とし、その命令文に従って、タグ L Rインデックス記憶部 1 4内のインデックスを更新する。タグの追加 ·削除に関する命令文とは、命令種、タグ名、文書番号、開始位置、終了位置、対象単語列、左の単語、右の単語、力ら成る情報である。

文書検索部 1 5は外部のプログラムあるいはユーザによって実行され、一つ以上のタグあるいは単語からなるフレーズ（検索クエリ）を入力とする。文書検索部 1 5はこの入力を元に、単語インデックス記憶部 1 3と、タグ L Rインデックス記憶部 1 4と、高速タグ値判定部 1 6とに問い合わせを行い、少なくとも文書番号のリストを検索結果として出力する。

この実施形態では、文書の検索時に、検索クエリに含まれる隣接した単語とタグに対し、タグ L Rインデックス記憶部 1 4内に記憶されたインデックスの双方向性を利用することでインデックスを参照でき、タグ名を 2次キーに持たなくとも読み込む文書リストの量を削減できるため、高速に検索処理を行うことができる。また、タグの更新時に、タグ L Rインデックス記憶部 1 4内の 2箇所に更新を加えるのみであり、少量の更新でタグの追加'削除を高速に行うことができる。

(第二の実施形態）

図 1 3は本発明の第二の望ましい実施形態を示すブロック構成図であり、文書管理 .検索システムの構成例を示す。この文書管理 ·検索システムは、任意の文字列に付加されている可能性のあるタグ名のリストを持ち、文字列に付加される可能性のあるタグ名のリストを高速に参照可能とする高速タグ値判定部 1 6を備えたことが第一の実施形態と異なる。また、図 1 3には文書検索部 1 5の詳細を示す。すなわち文書検索部 1 5は、検索クエリを解釈し複数の条件に分解するクエリ解釈手段 1 5 1と、クエリ解釈手段 1 5 1によって解釈された複数の条件を元に単語インデックス記憶部 1 3とタグ L Rインデックス記憶部 1 4と高速タグ値判定部 1 6に対して問い合わせを行う問い合わせ実行手段 1 5 2と、問い合わせ実行手段 1 5 2において得られた一つ以上の文書リストタグ文書リストをお互いに比較し、同じ文書番号を持ちかつ検索クエリと同じフレーズを持つ文書だけの文書リストに統合する文書リスト統合手段 1 5 3と、を有する。

図 1 4は高速タグ値判定部 1 6の構成例を示すプロック図である。高速タグ値判定部 1 6は、内部に、タグ値テーブル 1 6 1と、更新手段 1 6 2と、判定手段 1 6 3とを備える。タグ値テーブル 1 ·6 1は、タグとタグが付加される単語列との関係を記憶したテーブルである。更新手段 1 6 2は、タグの更新部 1 2によつて呼び出され、タグ名と、対象単語列（タグ付けの対象となる一つ以上の単語）と、命令種（追加 Ζ削除のどちらか）を入力とし、タグ値テーブル 1 6 1内の関係情報を更新する。判定手段 1 6 3は、問い合わせ実行手段 1 5 2によって呼び出され、ある単語列を入力とし、タグ値テーブル 1 6 1を参照した上で、その単語列に付加されている可能性のあるタグ名のリストを高速に返す。

図 1 5はタグ値テーブル 1 6 1の一例を示す。タグ値テーブル 1 6 1として、単語を 2文字ごとに区切った文字列（2グラム）と、その 2グラムに付加される可能性のあるタグ名のリスト（タグ名列）との間の関係を記憶したものを用いることができる。このタグ値テーブル 1 6 1は、メモリ上のプログラムとして実装することができる。図 1 5に示した例では、例えば「山田」が含まれる文字列には、 [人名] タグか [地名] タグが付カ卩される可能性があることを示している。なお、この例では、元々 1文字の単語（「の」など）に関しては、 1文字のままタグ値テーブル内に記憶するものとしている。

このようなタグ値テーブル 1 6 1に対して更新手段 1 6 2は、タグ更新部 1 2 によって入力された対象単語列を 2グラムごとに区切り、各 2グラムでタグ値テ一ブル 1 6 1を参照し、対応するタグ名列を更新する。また、判定手段 1 6 3は、問い合わせ実行手段 1 5 2によって入力された文字列を 2グラムごとに区切り、タグ値テーブル 1 6 1を参照した上で、その文字列に付加されている可能性のあるタグ名のリストを返す。

文書検索部 1 5内のクエリ解釈手段 1 5 1、問い合わせ実行手段 1 5 2および文書リスト統合手段 1 5 3について説明する。

クエリ解釈手段 1 5 1は、外部のプログラムあるいはユーザによって実行され、検索クエリを入力とし、問い合わせ実行手段 1 5 2に問い合わせタスクのリストを出力する。問い合わせタスクとは、参照先と参照キー、位置番号から成るデータである。参照先とは、問い合わせ時に参照するインデックスを意味しており、単語ィンデックス記憶部 1 3内の転置ィンデックス（ N ) か、タグ L Rィンデックス記憶部 1 4内のタグ Lインデックス（T L ) 、タグ Rインデックス（T R) か、のどれかである。参照キーは、インデックス内から文書リストを取り出すためのキーであり、参照先が Nである場合は一つの単語、参照先が T Lか T Rである場合は「[タグ名] —単語」あるいは「[タグ名] → [タグ名]」のような文字列で表現される 1次キーと 2次キーのセットである。なお、本発明では 2次キーがタグ名となるインデックスを持たないため、単純に「[タグ名] → [タグ名]」をキーとしたタグ文書リストを取得することはできないが、この点はこの時点では考慮しない。また、位置番号とは、参照キーのクエリ中での位置を示しており、キー列内の位置番号から作成される。

図 1 6は、問い合わせタスクのリストの一例として、「[企業名] の [人名]」というクエリを元に作成されたものを示す。この例では、位置番号が 1であり参照先が T Rすなわちタグ Rインデックスであり参照先が「[企業名]→の」である問い合わせタスクと、位置番号が 3であり参照先が T Lすなわちタグ Lィンデックスであり参照先が「[人名]—の」である問い合わせタスクとの二つの問い合わせタスクが作成されている。

問い合わせ実行手段 1 5 2は文書検索部 1 5によって呼び出され、問い合わせタスクのリストを入力とする。問い合わせ実行手段 1 5 2は、この問い合わせタスクのリストを元に、単語ィンデックス記憶部 1 3と、高速タグ値判定部 1 6と、タグ L Rインデックス記憶部 1 4と、を参照し、文書リスト列を文書リスト統合手段 1 5 3に出力する。

図 1 7は文書リスト列の一例を示す。文書リスト列とは、単語インデックス記憶部 1 3とタグ L Rインデックス記憶部 1 4から得られた文書リスト ·タグ文書リストの集合について、それぞれの文書リストと問い合わせタスクとを関連付ける情報である。図 1 7に示した例では、各問い合わせタスクの位置番号と、参照キーと、問い合わせによって得られた文書リストとを関係づけている。

文書リスト統合手段 1 5 3は文書検索部 1 5によって呼び出され、文書リスト列を入力とし、それらを一つにまとめた文書リストを結果リストとして出力する。次に、この実施形態における処理の流れを説明する。この実施形態おける処理は主に、検索プロセスと、タグの更新プロセスと、文書のインデックスプロセスの 3つのプロセスを持つ。以下ではこれらを順に説明する。

図 1 8は検索プロセスの処理の流れを示す。検索プロセスは、ユーザもしくは外部のプログラムが検索クエリを文書検索部 1 5に入力することで開始する。文書検索部 1 5はまず、クエリ解釈手段 1 5 1を利用し、入力された検索クェリからキー列を作成する（S 1 1 )。この処理は形態素解析や Nグラムなど、何らかの辞書やルールを用いて行われる。例えば、検索クエリの構文として、タグは「口と「]」で囲まれ、その内部にタグ名あるいは、「タグ名：タグが付カ卩される文字列」が記述されるもの、タグ以外の部分は自然言語で記述されるもの、として定義すると、この処理は、次のように行われる。クエリ解釈手段 1 5 1はまず、検索クエリに対して「[」と门」で囲まれる部分を取り出し、タグ名、あるいはタグ名とタグが付加される文字列を取り出す。次に、クエリ解釈手段 1 5 1は形態素解析を行い、入力されたフレーズを単語ごとに区切った上でキー列を作成する。キー列は単語キーの列とタグキーの列であり、単語キーとはフレーズ内の一つの単語を表す。タグキーはフレーズ内の一つのタグ名を表す。単語キーとタグキーはフレーズを単語 ·タグごとに区切った場合に各単語ノタグが先頭から何番目に登場するかを表す位置番号と共に記憶される。

図 1 9はキー列の一例を示す。ここでは、「[企業名： a b c産業] の [人名] 社長]」というフレーズを元に作成したキー列を示す。このクエリは、 [企業名] タグが付加された「a b e産業」という文字列、「の」という文字列、 [人名] タグが付加された任意の文字列、「社長」という文字列、が連続して登場する文書を返せ、というクエリを意味し、図 1 9では、位置 1に「a b c産業」という単語と [企業名] というタグが、位置 2に「の」という単語が、位置 3に [人名] というタグが、位置 4に「社長」という単語が示される。またそれ以外の位置に記述されている「一」は、その位置に条件が無いことを意味している。

次にクエリ解釈手段 1 5 1は、キー列を元に、問い合わせタスクのリスト（タスクリスト）を作成する（S 1 2 )。このステップ S 1 2について、本発明では、次の条件に基づいて問い合わせタスクを作成する任意の処理として定義する。 ' [条件 1 ] キー列内の各タグキーに対して、そのタグを 1次キーとする問い合わせタスクを一つ以上作成すること。

· [条件 2 ] キー列内の各単語キーに対して、その単語がキーに含まれる問い合わせタスクを一つ以上作成すること。

• [条件 3 ] 単語とタグが並んでいる場合は、タグ L Rインデックス記憶部 1 4への問い合わせを優先的に選択して問い合わせタスクを作成すること。

図 2 0は問い合わせタスクのリストを作成する処理（図 1 8のステップ S 1 2 ) を実現するアルゴリズムの一例のフローチャートを示す。

クエリ解釈手段 1 5 1はまず、キー列内の各タグキーの左右に単語がある場合に、タグ L Rインデックス記憶部 1 4への問い合わせタスクを作成する（S 1 2 1 )。クエリ解釈手段 1 5 1は、キー列を左から（位置 1から）順番に調べ、タグキーの右に単語キーが存在しないか調べる。存在する場合には、参照先を「T R」とし、参照キーを「そのタグキーのタグ名—その右の単語」、位置を「そのタグキ一の位置番号」をとして問い合わせタスクを作成し、タスクリストに追加する。タグキーの右に単語キーが存在しない場合には、タグキーの左に単語キーが存在しないか調べる。存在する場合には、参照先を「T L」とし、参照キーを「そのタグキーのタグ名→その左の単語」、位置を「そのタグキーの位置番号」をとして問い合わせタスクを作成し、タスクリストに追加する。

次にクエリ解釈手段 1 5 1は、まだ問い合わせタスクが作成されていないタグキーに対して、タグを連結した問い合わせタスクを作成する（S 1 2 2 )。クエリ解釈手段 1 5 1はキー列を左から（位置 1から）順番に調べ、タグキーを 1次キ一とする問い合わせタスクがまだ作成されていなレ、場合、そのタグキーの右にタグキーが存在しないか調べる。存在する場合には、参照先を「T R」とし、参照キーを「そのタグキーのタグ名→右のタグキーのタグ名」、位置を「そのタグキーの位置番号」をとして問い合わせタスクを作成し、タスクリストに追加する。タグキーの右に単語キーが存在しない場合には、タグキーの左に単語キーが存在しないか調べる。存在する場合は、参照先を「T L」とし、参照キーを「そのタグキーのタグ名→左のタグキーのタグ名」、位置を「そのタグキーの位置番号」をとして問い合わせタスクを作成し、タスクリストに追加する。

最後に、クエリ解釈手段 1 5 1は、まだ問い合わせタスクが作成されていない単語キーに対して、問い合わせタスクを作成する（S 1 2 3 )。クエリ解釈手段 1 5 1はキー列を左から（位置 1から）順番に調べ、単語キーを 1次キーあるいは 2次キーとする問い合わせタスクがまだ作成されていない場合、参照先を「NJ、参照キーを「その単語」、位置を「その単語の位置」をとして問い合わせタスクを作成し、タスクリストに追加する。

なお、図 2 0のフローチャートで示されるアルゴリズムは右方向（Rインデックス）への参照を優先するアルゴリズムになっているが、左方向を優先したアルゴリズムも考えられる。また、上記の 3つの条件を満たす上で左右どちらの参照でも良い場合に、両方の参照を元に文書リストの先頭の頻度を読み込み、少ない方を選択する、というアルゴリズムも考えられる。

次に、クエリ解釈手段 1 5 1が作成した問い合わせタスクの集合を元に、問い合わせ実行手段 1 5 2で各インデックスに問い合わせを行う（S 1 3 )。図 2 1にこの処理を実現するアルゴリズムの一例のフローチャートを示す。この処理はステツプ S 1 2で作成された問い合わせタスクそれぞれに対して行われる。

問い合わせタスクの参照先が「N」である場合、問い合わせ実行手段 1 5 2はその問い合わせタスクの参照キーで単語インデックス記憶部 1 3を調べ、該当する文書リストを読み込み、問い合わせタスクの参照キー、位置情報と共に保持する（S 1 3 1 )。

また、問い合わせタスクの参照先が「T L」もしくは「T R」である場合、問い合わせ実行手段 1 5 2はその問い合わせタスクの参照キー内の 2次キーが単語であるかタグであるかを調べる。単語である場合、参照先と参照キー「タグ名→ 単語」とをタグ L Rインデックス記憶部 1 4に問い合わせ、該当するタグ文書リストを読み込む（S 1 3 2 )。問い合わせタスクの参照キー内の 2次キーがタグである場合、問い合わせ実行手段 1 5 2はタグ L Rインデックス記憶部 1 4と高速タグ値判定部 1 6を利用してタグ文書リストを読み込む（ S 1 3 3 )。

ステップ S 1 3 3の処理をさらに詳細に説明する。問い合わせ実行手段 1 5 2 はまず、参照先と「1次キーのタグ名」とをタグ L Rインデックス記憶部 1 4に問い合わせ、 Lインデックスノ Rインデックス内の左の語のリスト右の語のリストを得る（S 1 3 3 1 )。次に問い合わせ実行手段 1 5 2は、右の語のリストノ左の語リスト内の各単語を高速タグ値判定部 1 6に入力し、タグ名列を取得する。そしてタグ名列に 2次キーのタグ名が含まれるかどうかを調べ、含まれない場合、その単語は読み込んだ右の語のリストノ左の語リストから削除する（S 1 3 3 2 )。次に問い合わせ実行手段 1 5 2は、 1次キーのタグ名と、右の語のリストノ左の語リスト内の各語を 2次キーとしたものを参照キーとして利用してタグ L Rィンデックス記憶部 1 4に問い合わせを行い、得られたタグ文書リストの集合を足し合わせたものを一つのタグ文書リストとする。

ステップ S 1 3の処理においては、複数の問い合わせタスクを実行するが、その順番は任意で良い。さらに、ある問い合わせタスクの結果から文書番号のリスト D Lを保持しておき、それ以降の問い合わせタスクにおいて文書リストタグ文書リストを読み込む際に、 D L内に文書番号が含まれない登場位置/開始位置と終了位置を読み込まないことで処理の高速化を計ることもできる。

ここでは高速タグ値判定部 1 6を利用したアルゴリズムについて説明したが、このアルゴリズムを少し修正することで、第一の実施形態のように高速タグ値判定部 1 6を設けない場合にも利用することができる。例えば、図 2 1のフローによって示されるアルゴリズムにおいて、ステップ S 1 3 3 2を行わず、ステップ S 1 3 3 3において、 1次キーのタグ名だけを条件としすべての右の語のリスト

Z左の語リストに対してタグ文書リストを読み込む、などが考えられる。また、予め一つのタグ名だけをキーとしたタグ文書リストを記憶する転置ィンデックスを作成しておき、ステップ S 1 3 3を、 1次キーだけを用いてその転置インデッタスを参照し、タグ文書リストを読み込む処理、に置き換えても良い。

次に、問い合わせ実行手段 1 5 2によって得られた M本の文書リストノタグ文書リストから成る文書リスト列を元に、文書リスト統合手段 1 5 3で、文書番号がすべて等しくかつ単語 ·タグの登場位置がキー列と等しい文書の文書番号を取り出す（S 1 4 )。図 2 2にこの処理を実現するアルゴリズムの一例のフローチヤートを示す。なお、このアルゴリズムは、単語インデックス記憶部 1 3内に記憶される文書リストと、タグ L Rィンデックス記憶部 1 4内に記憶されるタグ文書リストと、がそれぞれ文書番号と登場位置 Z開始位置を元にソートされていることを前提とする。

文書リスト統合手段 1 5 3はまず、各文書リストに対応する M個の整数値のポインタを用意し、初期値をすベて 1として作成する（S 1 4 1 )。次に文書リスト統合手段 1 5 3は、各文書リストノタグ文書リストからポインタ番目にある登場位置とその文書番号のセット開始位置と終了位置と文書番号のセットを取り出す（S 1 4 2 )。次に文書リスト統合手段 1 5 3は、ステップ S 1 4 2で得られた M個の文書番号がすべて等しいかどうか（S 1 4 3 )、また、それぞれの登場位置が、キー列の位置番号の隣接関係と正しいかどうか（S 1 4 4 ) を調べ、それらの条件を満たす場合、その文書がヒットしたと判定し、文書番号を出力結果リストに追加する（S 1 4 5 )。そうでない場合、 M個のポインタのうち、最小のものに 1を足し（S 1 4 6 )、そのボインタが文書リストの末尾に達したかどうかを調ベる（S 1 4 7 )。もし末尾に達している場合、処理を終了する（S 1 4 8 )。そうでない場合、ステップ S I 4 2に戻る。

図 2 3はステップ S 1 4 4のアルゴリズムを説明する図である。このアルゴリズムでは、キー列を左から順番に調べていき、各キーを 1次キーとして得た文書中の登場位置 Z開始位置と、一つ左のキーから得た終了位置と比較し、隣接しているかどうかを調べていく。ただし、この評価の方法は i番目のキーに対してどのように問い合わせが行われたかに依存する。そこでまず、位置 iのキーに対してその問い合わせ方を 4つのケースに分類する。図 2 3はこの 4つのケースを示し、各ケースを表現するために、それぞれキー列の例とそのキー列において問い合わせに使用した 1次キーを点線の楕円で、 1次キーから 2次キーへの参照を点線の矢印で表現している。

まず、ケース Aは i番目のキーを 1次キーとして使用した問い合わせが存在しないケースである。このケースは図で示すように単語キーが 2次キーとして使用されたケースである。ケース Bは i番目にタグキーのみが存在し、 1次キーがタグである問い合わせが行われたケースである。よって、 1次キーがタグである問い合わせ（この例では「B→A」）に対して位置のチェックを行う必要がある。ケース Cは i番目に単語キーのみが存在し、単語キーを 1次キーとして問い合わせが行われたケースである。よって、この単語キーのみを利用した問い合わせに対して位置のチェックを行う必要がある。ケース Dは i番目に単語キーとタグキーの両方があり、それぞれを 1次キーとした問い合わせが行われたケースである。よって、これらの問い合わせに対してそれぞれ位置関係をチェックする必要がある。そこで本アルゴリズムでは、これらのケースごとに位置のチェックを行っていくこととする。

図 2 4はステップ S 1 4 4のアルゴリズムを説明するフローチャートである。ステップ S 1 4 4において文書リスト統合手段 1 5 3は、まず、二つの変数 i を 1に Pを一 1に初期化する（S 1 4 4 0 1 )。なお、本アルゴリズムはキー列を左から順番に調べていく処理になっており、変数 iは現在調べているキーのキー列内での位置を表す。また、変数 Pは一つ左のキーから予測される位置 i番目のキーの文書内での登場位置開始位置を表す。

次に文書リスト統合手段 1 5 3は、キー列 i番目のキーに対してどのような問い合わせが行われたかを判定する（S 14402)。この判定処理は、位置番号が i となっている問い合わせタスクの参照キーにおいて 1次キーを調べ、それがタグキーであるか単語キーであるかを調べることで行われる。ケース Aの場合、位置チェックは行われず、 Pが初期値（_ 1) で無ければ次の（ i + 1番目の）キ一の位置チェックに備え、 Pに単語キーの文字長を足す（S 14403)。

ケース Bの場合、 i番目のタグキーに対する位置チェックが行われる（S 14 404)。タグキーに対する位置チェックとは、次の条件 T 1と T 2が満たされるかどうかを判定する処理を指す。

条件 T 1 ：タグキーを 1次キーとした問い合わせが複数ある場合に、それぞれの問い合わせで得られた開始位置同士と終了位置同士が一致していること。

条件 T2 ： Pが _ 1である（タグキーが先頭である）、もしくは、 Pがタグキーを 1次キーとして得られた開始位置と等しい（左のキーで得られた登場位置と隣接している）こと。

これらが満たされる場合、一致しているとみなし、 Pにタグキーを元に得られた終了位置 + 1を代入する（S 14405)。そうでない場合、一致しないと判定し、 S 144の処理を終える。

ケース Cの場合、 i番目の単語キーに対する位置チェックが行われる（S 14 406)。単語キーに対する位置チェックとは、次の条件 Wが満たされるかどうかを判定する処理を指す。

条件 W: Pが _ 1である（単語キーが先頭である）、もしくは、 Pが単語キーを 1 次キーとして得られた登場位置と等しい（左のキーで得られた登場位置と隣接している）こと。これが満たされる場合、一致しているとみなし、 Pに単語キーを元に得られた登場位置 +単語キーの文字長を代入する（S 14407)。そうでない場合、一致しないと判定し、 S 144の処理を終える。

ケース Dの場合、 i番目の単語キーとタグキーに対する位置チェックが行われる（S 14408)。単語キーとタグキーに対する位置チェックとは、条件 T l、条件 Τ2、条件 Wの条件に加え、次の条件 TWがすべて満たされるかどうかを判定する処理を指す。

条件 TW：タグキーを 1次キーとした問い合わせから得た終了位置と、単語キーをキーとした問い合わせから得た登場位置 +単語キーの文字長と、がー致すること。

これが満たされている場合、一致しているとみなし、 Pにタグキーを元に得られた終了位置 + 1を代入する（S 1 4 4 0 9 )。そうでない場合、一致しないと判定し、 S 1 4 4の処理を終える。

さらに、ステップ S 1 4 4 1 1において文書リスト統合手段 1 5 3は iに 1を足し、 iがキー列の長さを超えないかを調べ（S 1 4 4 1 2 )、もし超える場合、すべての位置関係が正しいと判断し、 S 1 4 4の処理を終える。そうでない場合、ステップ S 1 4 4 0 2に戻る。

最後に、文書検索部 1 5は文書リスト統合手段 1 5 3によって得られた結果リストを出力する（S 1 5 )。

次に、文書インデックスの作成プロセスについて説明する。文書インデックスの作成プロセスは、外部のプログラムあるいはユーザによって一つ以上の文書が入力されることによって、動作を開始する。

一つ以上の文書が入力されると、文書インデックス作成部 1 1は、入力されたそれぞれの文書に対して、文書の本文を読み込み、形態素解析プログラムや Nグラム作成プログラムを用いて本文を単語ごとに区切り、単語列を作成する。次に、文書インデックス作成部 1 1は単語列を前方から順に調べ、各単語に対して文書先頭前方からの文字数を登場位置として数える。さらに文書インデックス作成部 1 1は、単語インデックス記憶部 1 3に対して各単語、文書番号、登場位置を与える。

図 2 5はタグの更新プロセスを説明する図である。タグの更新プロセスは、外部のプログラムあるいはユーザによってタグの追加 ·削除に関する命令文が入力され、タグ更新部 1 2が呼び出されることによって開始される。タグの追加 *削除に関する命令文とは、命令種（追加ノ削除）、タグ名、文書番号、開始位置、終了位置、タグ付けされる（されている）対象文字列、タグの左の単語、タグの右の単語、から成る情報である。

命令文が入力されると、タグ更新部 1 2は、タグ名とタグ付けされる左の語を元にタグ L Rィンデックス記憶部 1 4内の Lインデックスを参照し、該当のタグ文書リストを命令種に応じてタグ文書リストの更新を行う（S 2 1 )。命令種が追加である場合、該当のタグ文書リストに、文書番号とタグの開始位置とタグの終了位置とを追加する。命令種が削除である場合、該当するタグ文書リストを読み込み、文晝番号、開始位置、終了位置が一致する部分を探し、その部分を削除する。同様に、タグ名とタグ付けされる右の語を元にタグ L Rインデックス記憶部 1 4内の Rインデックスを参照し、文書番号とタグの開始位置とタグの終了位置の追加 ·削除を行う（S 2 2 )。

次にタグ更新部 1 2は、高速タグ値判定部 1 6内の更新手段 1 6 2を呼び出し、命令種、タグ名、タグ付けされる対象文字列を入力する（S 2 3 )。例えば、タグ値テーブル 1 6 1が図 1 5に示すテーブルをメモリ上のプログラムとして実装したものであるとする。この場合、更新手段 1 6 2は、命令種が追加である場合、タグの付加された文字列を 2グラムに区切り、各 2グラムに対してタグ値テープル 1 6 1を参照し、入力されたタグ名がタグ名列に含まれるか否かを調べる。もしタグ名がタグ名列に含まれない場合、そのタグ名をタグ名列に追加する。命令種を調べ削除である場合、何もしない。なお、第一の実施形態のように高速タグ値判定部 1 6を用いない場合には、 S 2 3の処理を行わないものとする。

以上説明した実施形態の動作について、具体的な例を用いてさらに詳しく説明する。

ここではまず、文書インデックスの作成プロセスについて説明する。例えば、図 2に示した文書 3 3 3が文書インデックス作成部 1 1に入力されると、文書ィンデックス作成部 1 1は本文内の単語を区切り、単語と文書番号と登場位置のリストを作成する。このリストの一部を図 2 6に示す。次に文書インデックス作成部 1 1は、このリストを単語インデックス記憶部 1 3に入力する。単語インデッタス記憶部 1 3は図 2 6のリストを元に、転置インデックスを作成する。この転置インデックスの一部の例が図 1 1に示したものである。

次に、タグの更新プロセスについて説明する。例えば、図 2に示した文書 3 3 3の 7文字目から 1 0文字目の「山田太郎」という 2単語に、「人名」というタグを付加することを考える。このとき、命令文として「命令種（タグ名、文書番号、開始位置、終了位置、対象語、左の語、右の語)」という構文を想定すると、「A D D (" 人名"、 3 3 3、 7、 1 0、" 山田太郎"、 " の"、" 社長"）」とレ、う命令文が入力される。なお、「A D D」は追加を意味する。

このとき、タグ更新部 1 2は、タグ L Rインデックス記憶部 1 4内の Lインデックスに「[人名] →の」というキーで問い合わせを行い、該当するタグ文書リストに、文書番号 3 3 3、開始位置 7、終了位置 1 0を追記する。さらに、タグ Rインデックス記憶部 1 4内の Rインデックスに「[人名]→社長」というキーで問い合わせを行い該当するタグ文書リストに、文書番号 3 3 3、開始位置 7、終了位置 1 0を追記する。この結果作成されたタグ L Rインデックス記憶部 1 4内のデータが図 1 2に示したものである。

また、タグ更新部 1 2は、命令文内の [人名] というタグ名と、「山田太郎」という文字列と、命令種「A D D」とを、高速タグ値判定部 1 6内の更新手段 1 6 2に入力する。更新手段 1 6 2は「山田太郎」という文字列を 2文字ごとに区切り、「山田」、「田太」および「太郎」という文字列を作成する。次に更新手段 1 6 2は、タグ値テーブル 1 6 1を参照し、「山田」、「田太」および「太郎」をキーとするタグ名列を参照し、「人名」が含まれていない場合、「人名」を追加する。この結果作成されたタグ値テーブル 1 6 1の例が図 1 5に示したものである。次に、削除の例を挙げる。ここでは同様に、図 2に示した文書 3 3 3の 7文字目から 1 0文字目の「山田太郎」という 2単語に付加された「人名」というタグを付加することを考える。このとき、命令文として「RM ("人名"、 3 3 3、 7、 1 0、" 山田太郎"、 " の"、" 社長"）」という命令文が入力される。なお、「RMJ は削除を意味する。

このとき、タグ更新部 1 2は、タグ L Rインデックス記憶部 1 4内の Lインデックスに「[人名] →の」というキーで問い合わせを行い、該当するタグ文書リストを読み込み、文書番号 3 3 3、開始位置 7、終了位置 1 0となっている部分を削除する。

さらに、タグ L Rインデックス記憶部 1 4内の Rインデックスに「[人名] →社長」というキーで問い合わせを行い該当するタグ文書リストに、文書番号 3 3 3、開始位置 7、終了位置 1 0となっている部分を削除する。

また、タグ更新部 1 2は、命令文内の [人名] というタグ名と「山田太郎」という文字列と命令種「RM」を高速タグ値判定部 1 6内の更新手段 1 6 2に入力する。この場合、命令種が「R M」（削除）であるため、更新手段 1 6 2は何もしない。

次に、検索プロセスの具体的な例を示す。例えば、検索クエリの構文として、タグは「口と「]」で囲まれ、その内部にタグ名あるいは、「タグ名：タグが付カロされる文字列」が記述されるもの、タグ以外の部分は自然言語で記述されるもの、として定義したときに、「[企業名] の [人名]」というクエリが投げられた場合、文書検索部 1 5は次のように動作する。

クエリ解釈手段 1 5 1はまず、このクエリを解釈し、図 2 7に示したキー列に変換する（S 1 1 )。次にクエリ解釈手段 1 5 1は、このキー列を元にステップ S 1 2 1の処理を行い、図 1 6に示した問い合わせタスクを作成する（S 1 2 )。問い合わせ実行手段 1 5 2は、これら二つのタスクをそれぞれタグ L Rインデックス記憶部 1 4に問い合わせ、図 1 7に示したような文書リスト列を作成する。文書リスト統合手段 1 5 3は、この文書リスト列を元に、文書番号が一致し、各単語タグがフレーズ通りになっている文書集合を表す結果リストを作成する。この処理は次のように行われる。

文書リスト統合手段 1 5 3はまず、図 1 7に示したタグ文書リストを先頭から順に読み込み、「[企業名] —の」という問い合わせから文書番号 3 3 3、開始位置 1、終了位置 5、「[人名] →の」という問い合わせから文書番号 3 3 3、開始位置 7、終了位置 1 0、というデータを読み出す（S 1 4 2 )。

文書リスト統合手段 1 5 3は、これらのデータの間で文書番号が一致していることを確かめ（S 1 4 3 )、ステップ S 1 4 4の処理に進む。ステップ S 1 4 4で文書リスト統合手段 1 5 3は、キー列を前方から順に調べる。キー列の 1番目はタグキー [企業名] であり、 [企業名] を 1次キーとする問い合わせタスクが存在するため、ステップ S 1 4 4 0 2ではケース Bとして判定し、 S 1 4 4 0 4の処理を行う。ここではタグキーが単一で Pが初期値の一 1であるため、ステップ S 1 4 4 0 5の処理を行い、 P = 6 (「[企業名] →の」という問い合わせから得た終了位置 5 + 1 ) とされる。

次に文書リスト統合手段 1 5 3は、キー列 2番を読み込む。キー列の 2番目は「の」であるが、「の」を 1次キーとする問い合わせタスクが存在しないため、ステツプ S 14402ではケース Aとして判定し、 Pに「の」の長さ 1を加え、 P = 7とする（S 14403)。

次に文書リスト統合手段 1 53は、キー列の 3番目を読み込む。キー列の 3番目は [人名] であり、該当する問い合わせタスクが存在するため、さらに、キー列 3番のタグキー [人名] に対しては、ステップ S144◦ 2でケース Bとして判定し、「[人名] →の」という問い合わせから得られた開始位置 7と Pの比較を行う（S 14404)。現在 P= 7であるため、 [企業名] タグと「の」と [人名] タグが隣接しており、文書リスト統合手段 1 53はステップ S 14405、 S 1 4410、 S 1441 1の処理を経て、正しいと判定され、 S 145の処理を行う。 S 145では、文書番号 333を結果リストに加える。

文書リスト統合手段 153は、 S 147の条件を満たすまでこの処理を行い、最終的に得られた結果リストを出力する（S 15)。

また、別の検索クエリの例として「[企業名] [助詞] [人名]」というフレーズを考える。この例の場合、クエリ解釈手段 151はクエリを解釈し（S 1 1)、キ一列に変換した上で下記の問い合わせタスクを作成する（S 12)。

•参照先「TR」、参照キー「[企業名] → [助詞]」、位置「1」

，参照先「TR」、参照キー「[助詞] → [人名]」、位置「2」

•参照先「TL」、参照キー「[人名] → [助詞]」、位置「3」

問い合わせ実行手段 152は、ステップ S 1 3の処理において、各問い合わせタスクをタグ LRインデックス記憶部 14に問い合わせる。なお、ここではこのうち、参照先「TL」、参照キー「[人名] → [助詞]」、位置「3」の問い合わせタスクについて説明する。

システムはまず、 [人名] を 1次キーとして、図 1 3に示した左の語リストとして、「の」と「最近」を読み込む（S 1 33 1)。次に問い合わせ実行手段 1 52 は、高速タグ値判定部 16にそれぞれの語を問い合わせ、助詞が含まれる可能性が無い語を削除する。例えば、高速タグ値判定部 16内のタグ値テーブルが図 1 5の通りであるとすると、「最近」という語に助詞は含まれないので削除する（S 1 332)。次に問い合わせ実行手段 1 52は、残った語「の」を利用して「[人名] → 「の」」という参照を元にタグ Lインデックス内からタグ文書リストを読み出す（S 1 3 3 3 )。以降のステップ S 1 4、 S 1 5は前述の例と同様であるため説明を省略する。

この実施形態では、第一の実施形態と同様に、高速に検索処理を行うことができるとともに、少量の更新でタグの追加 ·削除を高速に行うことができる。さらに、任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定部 1 6を備えたことにより、検索時に隣接したタグ A Bに対し、 Aの右に登場する単語の集合に対して Bのタグが付加されている可能性のある単語に絞ってタグ文書リストを読み出すことができるため、タグが隣接するクエリに対しても高速にフレーズを高速に参照できる。

(第三の実施形態）

図 2 8は本発明の第三の望ましい実施形態を示すブロック構成図であり、文書管理.検索システムの構成例を示す。この文書管理 ·検索システムは、本発明の第二の実施形態の構成に、ビット列記憶部 1 7をさらに備える。

ビット列記憶部 1 7は、単語あるいはタグ名と、各単語あるいはタグ名に対して、そのタグ名がどの文書に含まれるかを表すビット列との関係を記憶する。このビット列は文書集合と同じ長さを持ち、各ビットが各文書に对応し、キーが各文書に含まれている（1 ) かそうでない（0 ) かを表す。

図 2 9はビット列記憶部 1 7内に記憶されるデータの一例を示す。このデータは N番目のビットが文書番号 N番に対応しており、例えば、「は」という単語は文書番号 1番、 2番、 3番、 4番、 6番 · · ·の文書に含まれ、また、 [人名] というタグは文書番号 1番、 2番、 4番、 5番 · · ·の文書に含まれることを意味している。なお、図 2 9はビット列記憶部 1 7で管理されるデータの論理的な関係を表したものであり、実際のデータの記憶形式はどのようなものでも良いものとする。ビット列記憶部 1 7は、文書ィンデックス作成部 1 1から単語と文書番号を受け取り、入力された単語をキーとするビット列の更新を行う。また、ビット列記憶部 1 7は、タグ更新部 1 2からタグ名と文書番号と命令種とを受け取り、このタグ名に対応するビット列を更新する。また、ビット列記憶部 1 7は、問い合わせ実行手段により呼び出され、単語またはタグ名を入力とし、内部に対応するキ一が存在する場合、対応するビット列を返却する。

このとき、検索プロセスは次のように行われる。文書検索部 1 5に検索クエリが入力されると、文書検索部 1 5は検索プロセス P 1 0のステップ S 1 1によりクエリを解釈した後、キー列に含まれる単語 ·タグ名をそれぞれビット列記憶部 1 7に問い合わせ、それぞれのビット列を取り出す。そして文書検索部 1 5は、得られた複数のビット列に対し A N D演算を行うことで、キー列内のすべてのキ一が含まれる集合を表現したビット列 B Lを作成する。次に文書検索部 1 5は、 S 1 2の処理を行い問い合わせタスクの集合を作成した後、 S 1 3において各問い合わせタスクの文書リスト ·タグ文書リストに対する問い合わせを行い、文書リスト Zタグ文書リストを読み込む際（S 1 3 1、 S 1 3 2、 S 1 3 3 3 ) に、ビット列 B Lを参照し、文書リストタグ文書リスト内の個々の文書番号番目のビットが 1である場合（対応する文書にキーがすべて含まれている場合）のみに登場位置ノ開始位置と終了位置を読み込む。さらに、 S 1 4においては、 S 1 4 3の処理を行わず、 S 1 4 3の条件分岐では必ず S 1 4 4へ進むものとする。以降の処理は第一および第二の実施形態における検索プロセスと同じである。

タグの更新プロセスは次のように行われる。タグ更新部 1 2はステップ S 2 1 から S 2 3の処理を終えた後、新たにビット列記憶部 1 7の更新処理としてステップ S 2 4を行う。ステップ S 2 4とは、タグ名と文書番号と命令種をビット列記憶部 1 7に入力し、ビット列の更新を行う処理である。ステップ S 2 4においてビット列記憶部 1 7はまず、命令種を調べ、命令種が追加である場合、タグ名をキーとして対応するビット列を読み出し、文書番号番目のビットを「1」に更新する。命令種が削除である場合、何もしない。

文書の更新プロセスは次のように行われる。第一および第二の実施形態と同様の文書の更新プロセスを終えた後、ステップ S 3 1を行う。ステップ S 3 1とは、文書インデックス作成部 1 1が、ビット列記憶部 1 7に単語と文書番号を入力する処理である。この処理においてビット列記憶部 1 7は、単語をキーとして対応するビット列を読み出し、文書番号番目のビットを「1」に更新する。

なお、ステップ S 3 1の処理は、特定の単語のみに対して行うもの、としても良レ、。例えば、予め高い頻度を持つ単語の辞書 H Dを用意しておき、ステップ S 3 1の処理を行う前に単語と H Dを比較し、単語が H D内に含まれる場合のみ S 3 1を行うことが考えられる。

次に、具体的な例を用いて本実施形態の動作を説明する。例えば、「[企業名] の [人名]」というクエリが入力されたとすると、クエリ解釈手段 1 1は、 S 1 1 の処理を行い、 [企業名]、「の」、 [人名] というキーから成るキー列を作成する。次に問い合わせ実行手段 1 5 2は、ビット列記憶部 1 7内に記憶されたデータ（図 2 9 ) を参照し、それぞれのキーに対応するビット列を読み出し、 A N D演算を行う。この結果「1 1 0 0 1 0 1 0 0 0 1 0 0」というビット列を得る。これにより、 [企業名]、「の」、 [人名] という 3つのキーが登場する文書の集合を文書番号 1番、文書番号 2番、文書番号 5番 · · ·に絞り込むことができる。次に問い合わせ実行手段 1 5 2は、ステップ S 1 3において文書リスト ·タグ文書リストを読み込む際に、この文書集合に当てはまる部分だけを読み込む。以降の処理は、第一および第二の実施形態における文書の更新プロセスと同様である。

この実施形態では、問い合わせ実行手段において、検索時に予めクエリに含まれる単語タグ名を元にビット列記憶部を参照してビット列を読み込み、それを A N D演算によって調べることで、クエリ内のすべての単語/タグ名が含まれる文書を高速に発見できるため、文書リストの読み込み量を削減でき、検索をさらに高速に行うことができる。

(第四の実施形態）

図 3 0は本発明の第四の望ましい実施形態を示すブロック構成図である。この文書管理 ·検索システムは、タグを管理するタグ管理部 1 9を備え、このタグ管理部 1 9内に、タグ L Rインデックス記憶部 1 4と、タグの集合に対して文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rィンデックス記憶部 1 8と、タグ N L Rィンデックス記憶部 1 8内のィンデックスをタグ L Rィンデックス記憶部 1 4内のインデックスに変換する変換手段 2 0と、タグの統計情報に基づきインデックスの持ち方を変更する管理手段 2 1と、を備える。

タグ管理部 1 9は、問い合わせ実行手段 1 5 2から問い合わせを受けると、内部の管理手段 2 1にその入力のデータを渡し、管理手段 2 1が出力するデータを問い合わせ実行手段 1 5 2に返却する。また、タグ管理部 1 9は、タグ更新部 1 2から更新の命令文を受けると、内部の管理手段 2 1にその命令文に入力する。タグ N L Rインデックス記憶部 1 8は、内部に、タグの集合に対して各タグ名をキーとするタグ L R文書リストを持つ。タグ L R文書リストとは、タグ文書リストが持つデータに加えて、左の単語と、右の単語とを加えたデータである。図 3 1はタグ L R文書リストの一例を示す。この例では、 [人名] というタグが文書集合内で 1 0 0 0 0 1回登場し、文書番号 3 3 3の文書において 7文字目から 1 0文字目にあり、その左には「の」という単語が、その右には「社長」という単語があることを示している。

タグ L Rィンデックス記憶部 1 4は、第一の実施形態で示した図 1 2のタグ L Rインデックスと同じ情報を持つ。

変換手段 2 0は、管理手段 2 1に呼び出され、タグ L R文書リストを入力とし、 Lインデックスと Rインデックスを出力する。

管理手段 2 1は、内部に管理テーブルを持つ。管理テーブルとは、タグ名、タグの文書内の頻度、インデックス種の関係を記憶するテーブルである。なお、このうちインデックス種とは、該当のタグのィンデックスがどこに作成されているかを表し、その値はタグ N L Rインデックス記憶部 1 8である（N L R) か、タグ L Rインデックス記憶部 1 4である（L R) かのどちらかである。

図 3 2に管理テーブルの一例を示す。この例は、 [人名] タグが文書集合に 1 0 0 0 0 1回登場しており、インデックスが現在タグ N L Rインデックス記憶部 1 8内に記憶されていることを意味する。

管理手段 2 1は、命令種、タグ名、文書番号、開始位置、終了位置、左の単語、右の単語を含むデータ（命令文）を入力されると、タグ名を元に管理テーブルを参照し、タグ名に対応するインデックス種を取り出し、該当のインデックスに入力された命令文をそのままを入力する。管理手段 2 1は、参照キーと参照先とを入力とする問い合わせを受け、参照キー内のタグ名を元に管理テーブルを参照し、タグ名に対応するインデックス種を取り出し、該当のインデックスに問い合わせを行う。管理手段 2 1はまた、任意のタイミングで管理テーブル内のタグの頻度とインデックス種を調べる。そして、タグの頻度が閾値 αよりも大きく、かつ、インデックス種が「N L R」であるタグ名がある場合、タグ N L Rインデックス記憶部 1 8内からそのタグ名に対応するタグ L R文書リストを読み込み、変換手段 2 0を利用してタグ Lインデックスとタグ Rインデックスを作成し、タグ L R ィンデッタス記憶部 1 4内に追加する。なお、閾値 αとは任意の固定的な数である。

次にこの実施形態における処理の流れを説明する。この実施形態は主に、検索プロセスと、タグの更新プロセスと、文書のインデックスプロセスの 3つのプロセスを持つが、これらのプロセスは、第一ないし第三の実施形態におけるタグ L Rインデックス記憶部 1 4の動作をタグ管理部 1 9に置き換えたものと等しい。そこでここでは、タグ管理部 1 9内の処理のみを説明することとし、タグ管理部 1 9に対するタグの更新プロセスと、タグ管理部 1 9に対する問い合わせプロセスと、インデックスの最適化プロセスとを説明する。

まず、タグ管理部 1 9に対するタグの更新プロセスについて説明する。タグの更新プロセスは、タグ更新部 1 2が、タグの追加 ·削除に関する命令文を管理部 1 9に入力することで開始される。このとき、システムはまず、タグ名を元に管理テーブルを参照し、タグ名に対応する頻度を更新する。頻度の更新は次のように行われる。命令文の命令種が追加である場合には頻度に 1を足し、命令種が削除である場合には頻度から 1を引く。

次にシステムは、タグ名を元に管理テーブルを参照し、該当するインデックス種を取り出す。インデックス種が L Rである場合、命令文をタグ L Rインデックス記憶部 1 4に与え、ステップ S 2 1と S 2 2の処理を行う。インデックス種が N L Rである場合、システムは次のように処理を行う。システムは、入力されたタグ名をキーとしてタグ L R文書リストを読み込んだ上で、命令種が追加である場合には、タグ L R文書リストに文書番号、開始位置、終了位置、左の単語、右の単語を追加する。命令種が削除である場合には、タグ L R文書リストから文書番号、開始位置、終了位置が一致する部分を探し出しその部分を削除する。次に、タグ管理部 1 9に対する問い合わせプロセスについて説明する。このプロセスは、問い合わせ実行手段 1 5 2がタグ管理部 1 9に参照キーと参照先とを入力とする問い合わせを行うことで開始される。

このとき、システムはまず、タグ名を元に管理テーブルを参照し、該当するィンデックス種を取り出す。インデックス種が L Rである場合、タグ L Rインデッタス記憶部 1 4に対し問い合わせが行われる。この問い合わせ処理は、第一の実施形態におけるタグ L Rィンデックス記憶部 1 4に対する問い合わせと同様である。

図 3 はィンデッタス種が N L Rである場合の処理のフローチャートを示す。インデックス種が N L Rである場合、システムは、問い合わせ内の参照キーに含まれるタグ名を元に、対応するタグ L R文書リストを読み込み、変換手段 2 0を利用してタグ Lインデックスとタグ Rインデックスを作成する。

すなわち、システムはまず、コンピュータのメモリ上など高速に追加 '参照できる位置に、空のタグ Lインデックスと空の Rインデックスを作成する（S 5 1 )。次にシステムは、タグ L Rインデックスを前方から順に調べ、文書番号、開始位置、終了位置、左の語、右の語とから成る 5つのデータを読み込むたびに、次の処理を行う。システムは、タグ Lインデックス内に「タグ名→左の語」というキーを持つタグ文書リストが存在するかどうか調べ、もし存在すれば、タグ文書リストの末尾に文書番号と開始位置と終了位置を追加する。もし存在しなければ文書番号と開始位置と終了位置とを元に新たにタグ文書リストを作成し「タグ名 →左の語」というキーで登録する。さらに、タグ Rインデックスに対しても同様の処理を行い、タグ Rインデックスに「タグ名→右の語」というキーで文書番号と開始位置と終了位置とを追加する（S 5 2 )。

この上で、参照キーが「タグ名」である場合は右の単語リスト/左の単語リストを返却し、参照キーが「タグ名→単語」である場合は該当するタグ Lインデックスタグ Rィンデッタス内の該当の位置を参照し、タグ文書リストを返却する ( S 5 3 )。

図 3 4はィンデッタスの最適化プロセスのフローチヤ一トを示す。ィンデックスの最適化プロセスは、管理テーブル内の 1行のデータ（タグ名、頻度、インデックス種）を入力とし、任意のタイミングで実行される。例えば、この実行のタイミングとして、タグ管理部 1 9に対するタグの更新プロセスが終わった際にタグの更新プロセス内で更新された管理テ一ブル内の行に対して実行することや、毎日午前 3時に全行に対してそれぞれ実行すること、などが考えられる。ィンデックスの最適化プ口セスが開始されると、システムは頻度とィンデックス種を調べる。閾値 α以上でありかつインデックス種が「NLR」である場合、管理手段 21はタグ N L Rインデックス記憶部 18を調べ、このタグ名に対応するタグ LR文書リストを読み込む（S 6 1)。次に管理手段 21は、変換手段 20 を利用してこのタグ L R文書リストからタグ Lインデックスとタグ Rインデックスを作成する（S 62)。さらに管理手段 21は、作成したタグ Lインデックスとタグ Rインデックスをタグ LRインデックス記憶部 14内に追加する（S 63)。次に、管理手段 21は同タグ名を用いて管理テーブル内を参照し、インデックス種を「LR」に更新する（S 64)。最後に管理手段 21は、このタグ名に対応するタグ N L Rィンデックス記憶部 18内からこのタグ L R文書リストとキーを削除する（S 65)。

なお、上記のアルゴリズムでは、タグの頻度を元にインデックスの記憶先を変更しているが、この判定基準は他にも、左の語の種類数、右の語の種類数、タグに対する問い合わせ回数、あるいはそれらを組み合わせて算出される数などが考えられる。

次に、具体的な例を用いてこの実施形態の動作を説明する。なお、ここでは、ィンデッタスの最適化プロセスについて説明する。

例えば、図 32で示した管理テーブル内の人名タグの行に注目し、閾値 aが 1 00000である状況を想定する。このとき、インデックスの最適化プロセスは次のように動作する。管理手段 21はまず頻度とインデックス種を調べる。このとき、タグの頻度が閾値以上でありインデックス種が「NLR」であることから、管理手段 21はタグ NLRインデックス記憶部 18に対して問い合わせを行い、図 31の人名をキーとしたタグ LR文書リストを取得する（S 6 1)。さらに管理手段 2 1は、変換手段 20を利用してこのタグ LR文書リストからタグ Lインデックスとタグ Rインデックスを作成し、図 1 2で示したインデックスを得（S 6 2)、これをタグ LRインデックス記憶部 14に記憶する（S 63)。さらに管理手段 21は、図 32で示した管理テーブル内の人名に対するインデックス種を「L R」に変更し（S 64)、タグ NLRインデックス記憶部 18内からこのタグ LR 文書リストと「人名」というキーを削除する（S 65)。このように、本実施形態では、タグの統計情報を元に、タグ N L Rインデックスと、タグ L Rインデックスを切り替えて用いる。タグ L Rインデックスは左右の単語を元にそれぞれ文書リストを持っために高速な反面、双方向にインデックスを作成するため冗長であり記憶するデータ量が大きくなるという特徴がある。そこで、元々頻度が短く、検索時に文書リストの読み込み量が少ない低頻度なタグに関してはタグ N L Rインデックスを利用してィンデックスを小さくしておくことで、データ量と検索の高速化のバランスを取ることができる。すなわち、元々文書リストが短レ、低頻度なタグに対して L Rインデックスを作成することを避けることができ、インデックスとして保持するデータの量を削減しつつ、検索の高速性を維持することができる。

(第五の実施形態）

本発明はコンピュータ ·プログラムとして実施することができ、また、記憶媒体あるいはネットワークを経由して頒布することができる。

このようなコンピュータ.プロクラムは、一つ以上の文書が与えられた場合に、その文書に含まれる単語の集合に対し、各単語をキーとして、その登場位置を記憶する文書ィンデックス作成処理と、特定の文書中の部分文字列に対しタグを追加 ·削除するクエリが与えられた場合に、そのタグ名をキーとしタグの登場位置を記憶するタグ更新処理と、このタグ更新処理内において、入力されたタグに対し、タグの右と左に登場した単語を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L R記憶処理と、タグと単語から成るフレーズが検索クエリとして与えられた場合に、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して複数のキーを作成し、これらのキーを元に文書インデックス作成処理において記憶されたキーを元に単語の登場位置、タグ更新処理において記憶されたキーを元に各タグの登場位置をそれぞれ参照し、その上でそれらを統合することでそのフレーズを含む文書の識別子の一覧を返却する文書検索処理とをコンピュータに実行させるためのコードで構成される。

任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定処理と、タグ更新処理においてタグを付加する際にタグ名と文字列の関係を表すデータを更新する処理と、文書検索処理においてタグ名が連続するフレーズを検索クエリが入力された場合に、高速タグ値判定処理を利用し、特定のタグ名を含む可能性のある単語のみに絞ってタグの登場位置を読み込む処理とをさらにコンピュータに実行させるコードを含むことが望ましい。

文書インデックス処理において高頻度語およびタグ名をキーとし、その単語およびタグを含む文書の集合を表すビット列を記憶するビット列記憶処理と、タグ更新処理において、タグを更新する際に追加 ·削除されたタグを元にビット列記憶処理で記憶されたビット列を更新する処理と、文書検索処理において、検索クェリに含まれる高頻度語およびタグ名をキーとしてビット列記憶処理で記憶されたビット列を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書の集合を表すデータを得、そのデータを元に文書集合を絞り込んだ上で単語とタグの登場位置を読み込む処理とをさらにコンピュータに実行させるコードを含むことができる。

タグ更新処理内において、タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rインデックス処理をコンピュータに実行させ、タグ更新ステップ内および文書検索ステツプ内において、タグをキーとしその登場位置を更新あるいは検索する際に、そのタグがタグ N L Rインデックス処理で記憶されているか、タグ L R更新処理で記憶されているかによって、参照先を選択する処理と、タグに関する頻度を元に、タグ N L Rインデックス処理で作成されたデ一タを削除し、タグ L Rィンデックス処理で作成するィンデックス変換処理とをコンピュータに実行させるコードを含むこともできる。

本発明はタグを用いて文書を管理 ·検索するシステムの一部分として有効である。本発明では、タグを含むフレーズを元に、そのフレーズを含む文書集合を表す文書番号のリストを高速に決定する部分に焦点を絞っている。よって、本発明の構成に加え、文書番号から、その文書自体を参照する文書データベースを用意することにより、タグを含むフレーズにより、文書集合を読み出せる検索ェンジンとして利用可能である。

本発明は、タグの更新を想定した上でタグを含むフレーズ検索を実現する技術である。このような技術が求められるアプリケーションとしては、大規模な文書集合を分析するテキストマイニングの分野が挙げられる。テキストマイニングでは、文書にタグを付加し、そのタグを利用して分析が行われる。通常、文書集合に対してどのようなタグ付けが好ましいかどうかは事前にわからないことが多レ、。そこで、大量の文書集合を予めインデックス化しておき、種々のタグ付け手段を用いてタグ付けを行っていき、タグやそのタグを含むフレーズで検索し、その頻度や文書集合を取り出すことで、効率良く文書集合から知識を取り出すことができる。本発明はこのような場合に有益である。

この出願は、 2 0 0 7年 1 1月 1 5日に出願された日本出願特願第 2 0 0 7— 2 9 6 3 8 6号を基礎とする優先権を主張し、その開示のすべてをここに取り込むものである。

Claims

請求の範囲

1 . 単語の集合に対して、文書集合内での各単語の出現位置を記憶する単語ィンデックス記憶部と、

単語に付加されてその単語の属性を表すタグの集合に対して、各タグの右と左に登場した単語の集合を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L Rインデックス記憶部と、

検索クエリとしてタグと単語から成るフレーズを入力とし、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して上記タグ L Rインデックス記憶部を参照し、そのフレーズを含む文書の識別子の一覧を返却する文書検索部と、

特定の文書中の部分文字列に対してタグを追加 ·削除するクエリを解釈し、上記タグ L Rィンデックス記憶部の記憶内容を更新するタグ更新部と、

一つ以上の文書が与えられた場合に、上記単語ィンデックス記憶部内のィンデックスを更新する文書ィンデックス作成部と

を備えたことを特徴とする文書管理 ·検索システム。

2 . 任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速参照可能とする高速タグ値判定部を備え、

前記タグ更新部は、タグを付加する際に上記高速タグ値判定部内のデータを更新する手段を含み、

前記文書検索部は、タグが連続するフレーズが検索クエリとして入力された場合に、上記高速タグ値判定部と前記タグ L Rィンデックス記憶部とを参照して、特定のタグ名を含む可能性のある単語に絞って問い合わせを実行する手段を含むことを特徴とする請求項 1記載の文書管理 ·検索システム。

3 . 高頻度語とタグ名とをキーとし、その単語およびタグをそれぞれ含む文書の集合を表すビット列を記憶するビット列記憶部を備え、

前記文書ィンデックス作成部は、文書からィンデックスを作成する際に上記ビット列記憶部内のビット列を更新する手段を含み、

前記タグ更新部は、タグを更新する際に追加 ·削除されたタグを元に上記ビット列記憶部内のビット列を更新する手段を含み、

前記文書検索部は、検索時に予めクエリに含まれる高頻度語およびタグ名を元に上記ビット列記憶部を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書番号の集合を得て、その文書番号を元に文書集合を絞り込んだ上で文書集合内にフレーズの登場位置を読み込む手段を含む

ことを特徴とする請求項 1または 2記載の文書管理 ·検索システム。

4 . タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rィンデックス記憶部と、

このタグ N L Rインデックス記憶部内のィンデックスを前記タグ L Rィンデックス記憶部内のィンデックスに変換する変換手段と、

タグの登場頻度に基づきィンデッタスの記憶方法を変更する管理手段とを備えたことを特徴とする請求項 1ないし 3のいずれか記載の文書管理 ·検索システム。

5 . 一つ以上の文書が与えられた場合に、その文書に含まれる単語の集合に対し、各単語をキーとして、その登場位置を記憶する文書インデックス作成ステツプと、

特定の文書中の部分文字列に対しタグを追加 ·削除するクエリが与えられた場合に、そのタグ名をキーとしタグの登場位置を記憶するタグ更新ステップと、このタグ更新ステップ内において、入力されたタグに対し、タグの右と左に登場した単語を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L R記憶ステップと、

タグと単語から成るフレーズが検索クエリとして与えられた場合に、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して複数のキーを作成し、これらのキーを元に上記文書ィンデックス作成ステツプにおいて記憶されたキーを元に単語の登場位置、上記タグ更新ステップにおいて記憶されたキーを元に各タグの登場位置をそれぞれ参照し、その上でそれらを統合することでそのフレーズを含む文書の識別子の一覧を返却する文書検索ステップと

を含むことを特徴とする文書の管理 ·検索方法。

6 . 任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定ステップを含み、

前記タグ更新ステップは、タグを付加する際にタグ名と文字列の関係を表すデータを更新するステップを含み、

前記文書検索ステップは、タグ名が連続するフレーズを検索クエリが入力された場合に、高速タグ値判定ステップを利用し、特定のタグ名を含む可能性のある単語のみに絞ってタグの登場位置を読み込むステップを含む

ことを特徴とする請求項 5記載の文書の管理 ·検索方法。

7 . 文書インデックスステップにおいて高頻度語とタグ名とをキーとし、その単語およびタグをそれぞれ含む文書の集合を表すビット列を記憶するビット列記憶ステップを含み、

前記タグ更新ステップは、タグを更新する際に追加 ·削除されたタグを元にビット列記憶部内のビット列を更新するステップを含み、

文書検索ステップは、検索クエリに含まれる高頻度語とタグ名とをキーとしてビット列記憶ステップで記憶されたビット列を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書の集合を表すデータを得、そのデータを元に文書集合を絞り込んだ上で単語とタグの登場位置を読み込むステップを含む

ことを特徴とする請求項 5または 6記載の文書の管理 ·検索方法。

8 . 前記タグ更新ステップは、タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rインデックスステップを含み、前記タグ更新ステップぉよび前記文書検索ステップは、

タグをキーとしその登場位置を更新あるいは検索する際に、そのタグが前記タグ N L Rインデックスステツプで記憶されているか前記タグ L R更新ステップで記憶されているかによって、参照先を選択するステツプと、

タグに関する頻度を元に、タグ N L Rィンデックスステップで作成されたデータを削除し、タグ L Rインデックスステツプで作成するインデックス変換ステツプと

を含む

ことを特徴とする請求項 5ないし 7のいずれか記載の文書の管理 ·検索方法。

9 . 一つ以上の文書が与えられた場合に、その文書に含まれる単語の集合に対し、各単語をキーとして、その登場位置を記憶する文書ィンデックス作成処理と、特定の文書中の部分文字列に対しタグを追加 ·削除するクエリが与えられた場合に、そのタグ名をキーとしタグの登場位置を記憶するタグ更新処理と、このタグ更新処理内において、入力されたタグに対し、タグの右と左に登場した単語を記憶し、さらに各タグとその右に登場する語の組み合わせ、あるいは、各タグとその左に登場する語の組み合わせをキーとして文書集合内の各タグの登場位置を記憶するタグ L R記憶処理と、

タグと単語から成るフレーズが検索クエリとして与えられた場合に、その検索クエリを解釈した上でフレーズ内の隣接する単語とタグの左右の関係を利用して複数のキーを作成し、これらのキーを元に上記文書ィンデックス作成処理において記憶されたキーを元に単語の登場位置、上記タグ更新処理において記憶されたキーを元に各タグの登場位置をそれぞれ参照し、その上でそれらを統合することでそのフレーズを含む文書の識別子の一覧を返却する文書検索処理と

をコンピュータに実行させるためのコンピュータ ·プログラム。

1 0 . 任意の文字列をキーとし、その文字列に付加されている可能性のあるタグ名の集合を高速に参照可能とする高速タグ値判定処理と、

タグ更新処理においてタグを付加する際にタグ名と文字列の関係を表すデータを更新する処理と、

文書検索処理においてタグ名が連続するフレーズを検索クエリが入力された場合に、高速タグ値判定処理を利用し、特定のタグ名を含む可能性のある単語のみに絞ってタグの登場位置を読み込む処理と

をさらにコンピュータに実行させることを特徴とする請求項 9記載のコンビュータ ·プログラム。

1 1 . 文書インデックス処理において高頻度語およびタグ名をキーとし、その単語およびタグを含む文書の集合を表すビット列を記憶するビット列記憶処理と、前記タグ更新処理において、タグを更新する際に追加 ·削除されたタグを元に上記ビット列記憶処理で記憶されたビット列を更新する処理と、

前記文書検索処理において、検索クエリに含まれる高頻度語およびタグ名をキ一として上記ビット列記憶処理で記憶されたビット列を参照し、クエリ内の高頻度語およびタグ名がすべて含まれる文書の集合を表すデータを得、そのデータを元に文書集合を絞り込んだ上で単語とタグの登場位置を読み込む処理と

をさらにコンピュータに実行させることを特徴とする請求項 9または 1 0記載のコンピュータ .プログラム。

1 2 . 前記タグ更新処理内において、タグの集合に対して、各タグ名をキーとし、文書集合内のタグの登場位置と左右の単語を記憶するタグ N L Rインデックス処理をコンピュータに実行させ、

前記タグ更新ステップ内および前記文書検索ステップ内において、タグをキーとしその登場位置を更新あるいは検索する際に、そのタグが上記タグ N L Rインデックス処理で記憶されているか、前記タグ L R更新処理で記憶されているかによって、参照先を選択する処理と、タグに関する頻度を元に、タグ N L Rインデックス処理で作成されたデータを削除し、タグ L Rインデックス処理で作成するインデックス変換処理とをコンピュータに実行させる

ことを特徴とする請求項 9ないし 1 1のいずれか記載のコンピュータ 'プログラム。