WO2006059425A1

WO2006059425A1 - データベース構築装置、データベース検索装置、データベース装置、データベース構築方法、及びデータベース検索方法

Info

Publication number: WO2006059425A1
Application number: PCT/JP2005/017696
Authority: WO
Inventors: Mitsuaki Inaba; Yuji Kanno
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-11-30
Filing date: 2005-09-27
Publication date: 2006-06-08
Also published as: US20070168363A1; JP2006185408A

Abstract

　データベース装置は、要素の出現情報を、要素名ＩＤをキーにして格納した要素出現情報格納部と、要素の出現情報を、その要素の祖先パス名ＩＤをキーにして格納した祖先パス出現情報格納部と、属性の出現情報を、属性名ＩＤをキーにして格納した属性出現情報格納部と、要素実体のテキスト文字列と要素の持つ属性の属性値に関する出現情報を、部分文字列をキーにして格納したテキスト出現情報格納部とを備える。このことによって、様々な検索条件での構造化文書を構造条件のみで検索でき、また、属性値に対する文字列検索できるデータベース装置を得る。

Description

明細書

データベース構築装置、データベース検索装置、データベース装置、データベース構築方法、及びデータベース検索方法技術分野

[0001] 本発明は、 XMLなどの論理構造を有する構造化文書を管理するデータベース装置に関し、特に、大量の構造化文書を蓄積管理するデータベース構築装置とそれに蓄積された構造化文書を効率良く検索するデータベース検索装置に関する。

背景技術

[0002] 特開 2002— 202973号公報は、構造化文書を論理構造に基づいて登録し、論理構造を指定して全文検索する構造ィ匕文書管理装置を開示している。

[0003] 図 33は、従来の構造化文書管理装置の構成図である。構造化文書入力部 2402 は登録対象の構造化文書を入力する。構造解析部 2407は入力された構造化文書を木構造に解析する。検索エンジン 2405内で、構造情報作成部 2408は、各要素のタグ名（要素名）に名称 IDを割り振り、データ格納部 2406内の名称 IDテーブル格納部 2418に格納する。また、各要素のパス名称、すなわち、最上位階層から順にタグ名を連ねて記述した文字列には、パス名称 IDを割り振り、パス名称インデックス格納部 2416に格納する。各要素のパス階層、すなわち、パス名称の各階層の出現順序を連ねて記述した文字列には、ノス階層 IDを割り当て、パス階層インデックス格納部 2417に格納する。なお、パス名称の各階層の出現順序は、同じ親要素を持つ同じタグ名の要素の中で何番目に出現した要素かを示す。実体 (テキスト）を持つ要素（以下、「要素実体」と記載する)の場合は、各要素実体に対し、検索単位を一意に表す符合 (以下、「検索単位識別子」と記載する)を割り当て、要素管理テーブル格納部 2415に格納する。図 34は、従来の構造化文書管理装置における要素管理テーブルの例を示す図である。図 34においては、要素管理テーブル 2501は、検索単位識另 U子 2502をキーとして、文書番号 2503、ノス名称 ID2504、ノス階層 ID2505、名称 ID2506の組とで構成されて!、る。

[0004] 次に、文字列索引作成部 2409は、各要素実体の内容である文字列に対して、予め定められた文字数の文字連鎖を取り出す。そして、文字列索引作成部 2409は、この文字連鎖について、該当する検索単位識別子と、該文字連鎖先頭文字がその要素内容において何番目の文字かを表す番号 (以下、「文字位置番号」と記載する）とを文字列索引格納部 2419に格納する。図 35Aは、構造化文書の例を示す。また、図 35Bは、従来の構造化文書管理装置における文字列索引の例を示す図である。図 35Bにおいて、文字歹 IJ索引 2602のレコード 2606は、「検索単位識另 U子 2604カ ' 1"の要素の文字列中に、 "構造"という文字連鎖 2603が、文字位置番号 2605が" 1 "、すなわち、要素の先頭から" 1"文字目に存在する」ことを表す。

[0005] 次に、このようにして格納されたデータを用いた検索の概要を説明する。図 36A— 36Cを用いて、従来の構造ィ匕文書管理装置における検索処理の動作を説明する。図 36 Aは、検索条件の設定例を示す図である。図 36Aにおいて、構造を指定した検索条件 2701は、「パス名称が" Z論文 Z書誌 Zタイトル"である要素に"構造化"という文字列が含まれる文書」、を示す。検索条件解析部 2410は、パス名称インデックス格納部 2416を参照して、検索条件のパス名称をパス名称 ID"N2"に変換する（270 2)。次に文字列索引検索部 2411は、 "構造化"から 2文字連鎖"構造"ど'造化"を取り出す。そして、文字列索引を参照して、 "構造"ど'造化"が連続して出現し、かつ、検索単位識別子が同一のエントリの検索単位識別子を求める（2703)。ここでは、文字列索引検索結果群として、図 36Cに示すように、検索単位識別子" 1"ど' 8"が求められたとして説明する。

[0006] 次に、構造照合部 2412は、検索条件 2702、 2703の構造指定を満たす検索結果を求める。ここで、構造照合部 2412は、文字列索引検索結果群として得られた検索単位識別子をキーにして、図 36Bに示す要素管理テーブル 2501を検索する。そして、パス名称 ID力 N2"に一致するエントリを検索結果として決定する。検索結果を図 36Cに示す。もし、検索条件がタグ名を指定した条件の場合には、構造照合部 24 12は、要素管理テーブルの名称 IDが指定タグ名の名称 IDと一致するエントリを検索結果とする。また、検索条件が、パス名称とパス階層をともに指定した条件の場合には、構造照合部 2412は、要素管理テーブルのパス名称 IDが指定したパス名称のパス名称 IDと一致し、かつ、パス階層 IDが指定したパス階層のパス階層 IDと一致するエントリを検索結果とする。

[0007] また、特開 2004— 310607号公報は、構造ィ匕文書に含まれる要素を階層構造上の位置と結び付けるインデクスを生成する文書管理装置を開示して、る。この文書管理装置は、階層構造上の位置までの探索経路が同じである要素、すなわち 1の親ノードに対して複数の子ノードが存在するような構成の要素であっても、複数の要素それぞれを識別して管理することができる。

[0008] 上記従来の構造化文書管理装置は、まず文字列索引を参照して指定された文字列の出現する検索単位識別子を求めた後、検索単位識別子が指定された構造条件を満たす力どうかを、要素管理テーブルを参照して判定する。そのため、文書検索をするときに文字列検索条件を指定する必要があり、構造条件だけを指定した検索ができない。すなわち、構造条件だけを指定して検索するためには、全ての検索単位識別子について構造条件を満たす力どうかについて、要素管理テーブル全体をサーチして判定する。そのため、効率が非常に悪いという課題がある。

[0009] また、構造ィ匕文書データを蓄積する際に、全文検索のための検索インデクスデータに論理構造データを付加するデータ構造としている。そのため、構造条件だけを指定した検索に対して効率的な検索を可能とする構造の検索用データを構築することができない。

[0010] また、文字列索引は要素実体の内容文字列に対してのみ作成されるため、要素の属性値に対しては文字列検索することができな!/、。

発明の開示

[0011] 本発明のデータベース構築装置は、構造化文書にユニークな文書番号を割り当てるとともに構造を解析する入力文書解析部と、入力文書解析部の解析結果に基づいて、構造化文書に出現する各要素名に対してユニークな要素名 IDを割り当てて要素名辞書に登録する要素名登録部と、入力文書解析部の解析結果に基づいて、構造化文書に出現する各祖先ノス名に対してユニークな祖先パス名 IDを割り当てて祖先パス名辞書に登録する祖先パス名登録部と、入力文書解析部の解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして要素出現情報格納部に登録し、かつ、文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、祖先パス名 IDをキーとして祖先パス出現情報格納部に登録する出現情報登録部とを備える。

[0012] このデータベース構築装置では、構造ィ匕文書を登録蓄積する際に、要素の出現情報に基づいて適切な出現情報インデクスを生成する。したがって、文字列検索条件と構造条件をともに指定した場合だけでなく、文字列検索条件を伴わな、構造条件だけを指定した様々な検索条件に対しても、本発明のデータベース構築装置は、所望の文書を効率良く検索することが可能な構造の検索用データを構築できる。

図面の簡単な説明

[0013] [図 1]図 1は本発明の実施の形態 1におけるデータベース装置の構成を示すブロック図である。

[図 2]図 2は本発明の実施の形態 1における文書登録処理の手順を示す流れ図である。

[図 3]図 3は本発明の実施の形態 1における登録検索対象となる構造ィ匕文書の例を示す図である。

[図 4]図 4は本発明の実施の形態 1における構造ィ匕文書の論理構造を解析した結果の例を示す図である。

[図 5]図 5は本発明の実施の形態 1における祖先パス名を説明する図である。

[図 6]図 6は本発明の実施の形態 1における要素名辞書の内容の例を示す図である。

[図 7]図 7は本発明の実施の形態 1における祖先パス名辞書の内容の例を示す図である。

[図 8]図 8は本発明の実施の形態 1における属性名辞書の内容の例を示す図である。

[図 9]図 9は本発明の実施の形態 1における文字位置を説明する図である。

[図 10A]図 10Aは本発明の実施の形態 1における要素出現情報を説明する図である

[図 10B]図 10Bは本発明の実施の形態 1における要素出現情報を説明する図である

[図 11]図 11は本発明の実施の形態 1における祖先パス出現情報を説明する図である。

圆 12A]図 12Aは本発明の実施の形態 1における属性出現情報を説明する図である圆 12B]図 12Bは本発明の実施の形態 1における属性出現情報を説明する図である圆 13]図 13は本発明の実施の形態 1におけるテキスト出現情報を説明する図である

[図 14]図 14は本発明の実施の形態 1における検索式の例を示す図である。

[図 15]図 15は本発明の実施の形態 1におけるデータベース装置の検索処理の手順を示す流れ図である。

圆 16A]図 16Aは本発明の実施の形態 1における検索条件の例を説明する図である

[図 16B]図 16Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 16C]図 16Cは本発明の実施の形態 1における検索結果を説明する図である。圆 17A]図 17Aは本発明の実施の形態 1における検索条件の例を説明する図である圆 17B]図 17Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 17C]図 17Cは本発明の実施の形態 1における検索結果を説明する図である。圆 18A]図 18Aは本発明の実施の形態 1における検索条件の例を説明する図である

[図 18B]図 18Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 18C]図 18Cは本発明の実施の形態 1における検索結果を説明する図である。圆 19A]図 19Aは本発明の実施の形態 1における検索条件の例を説明する図である

[図 19B]図 19Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 19C]図 19Cは本発明の実施の形態 1における検索結果を説明する図である。圆 20A]図 20Aは本発明の実施の形態 1における検索条件の例を説明する図である

[図 20B]図 20Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 20C]図 20Cは本発明の実施の形態 1における検索結果を説明する図である。圆 21A]図 21Aは本発明の実施の形態 1における検索条件の例を説明する図である圆 21B]図 21Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 21C]図 21Cは本発明の実施の形態 1における検索結果を説明する図である。圆 22A]図 22Aは本発明の実施の形態 1における検索条件の例を説明する図である圆 22B]図 22Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 22C]図 22Cは本発明の実施の形態 1における検索結果を説明する図である。圆 23A]図 23Aは本発明の実施の形態 1における検索条件の例を説明する図である圆 23B]図 23Bは本発明の実施の形態 1におけるデータベース装置の検索動作を説明する図である。

圆 23C]図 23Cは本発明の実施の形態 1における検索結果を説明する図である。圆 24]図 24は本発明の実施の形態 2における空要素順の説明に用いる図である。圆 25A]図 25Aは本発明の実施の形態 2における部分祖先パス名を説明する図である。

圆 25B]図 25Bは本発明の実施の形態 2における祖先パス名辞書の内容を示す図である。

[図 25C]図 25Cは本発明の実施の形態 2における祖先パス名 ID列を説明する図である。

圆 26]図 26は本発明の実施の形態 2における要素出現情報を説明する図である。圆 27]図 27は本発明の実施の形態 2における祖先パス出現情報を説明する図である。

[図 28]図 28は本発明の実施の形態 2における検索式の例を示す図である。

圆 29A]図 29Aは本発明の実施の形態 2における検索動作を説明する図である。圆 29B]図 29Bは本発明の実施の形態 2における検索結果を説明する図である。

[図 30]図 30は本発明の実施の形態 3におけるデータベース装置の構成を示すブロック図である。

[図 31]図 31は本発明の実施の形態 3におけるデータベース装置の文書登録処理の手順を示す流れ図である。

圆 32]図 32は本発明の実施の形態 3におけるグループ化された要素出現情報を説明する図である。

圆 33]図 33は従来の構造化文書管理装置の構成図である。

圆 34]図 34は従来の構造ィ匕文書管理装置における要素管理テーブルの例を示す図である。

[図 35A]図 35Aは従来の構造化文書管理装置で処理する構造化文書の例を示す図である。

圆 35B]図 35Bは従来の構造ィ匕文書管理装置における文字列索引の例を示す図である。

[図 36A]図 36Aは従来の構造化文書管理装置における検索条件の例を説明する図である。

[図 36B]図 36Bは従来の構造化文書管理装置における検索動作を説明する図である。

[図 36C]図 36Cは従来の構造化文書管理装置における検索結果を説明する図である。

符号の説明

101 構造化文書群 102 入力文書解析部

103 要素名登録部

104 祖先パス名登録部

105 属性名登録部

106 出現情報登録部

107 要素名辞書

108 祖先パス名辞書

109 属性名辞書

110 出現位置索引

111 要素出現情報格納部

112 祖先パス出現情報格納部

113 属性出現情報格納部

114 テキスト出現情報格納部

115 検索式

116 検索条件入力部

117 検索条件解析部

118 出現情報取得部

119 検索結果出力部

120 検索結果

2101, 2102, 2103, 2104, 2105, 2106, 2107, 3201 検索式

3401 出現情報グループ化部

発明を実施するための最良の形態

(実施の形態 1)

図 1は、本発明の実施の形態 1におけるデータベース装置の構成を示すブロック図である。図 1において、本実施の形態におけるデータベース装置は、データベースに登録する構造化文書群 101を入力し、入力された構造ィ匕文書群 101の各文書についてユニークな文書番号を割り振るとともに論理構造を解析する入力文書解析部 ₁₀

2、入力文書解析部 102の解析結果から、文書に出現する要素名に対してユニークな識別子 (以下、「要素名 ID」と記載する）を割り当てて要素名辞書 107に登録する要素名登録部 103、入力文書解析部 102の解析結果から、文書に出現する祖先パス名（着目要素の祖先要素の要素名を最上位階層から順にスラッシュで区切って並ベた文字列で、着目要素自身の要素名は含まな!/、）に対してユニークな識別子 (以下、「祖先パス名 ID」と記載する）を割り当てて祖先パス名辞書 108に登録する祖先パス名登録部 104、入力文書解析部 102の解析結果から、文書に出現する属性名に対してユニークな識別子 (以下、「属性名 ID」と記載する）を割り当てて属性名辞書 109に登録する属性名登録部 105、入力文書解析部 102の解析結果から、出現位置索引 110の要素出現情報格納部 111、祖先パス出現情報格納部 112、属性出現情報格納部 113、テキスト出現情報格納部 114に 4種の出現情報を登録する出現情報登録部 106を備える。さらにデータベース装置は、上述した要素名 IDとそれに対応する要素名が記録された要素名辞書 107、祖先パス名 IDとそれに対応する祖先パス名が記録された祖先パス名辞書 108、属性名 IDとそれに対応する属性名が記録された属性名辞書 109、 4種の出現情報がそれぞれ格納されている出現位置索引 110を備える。この出現位置索引 110は、要素出現情報格納部 111、祖先パス出現情報格納部 112、属性出現情報格納部 113、テキスト出現情報格納部 114を備える。要素出現情報格納部 111は、各要素の出現する文書番号、文字位置、文字数、祖先パス名 ID 分岐順の情報を、要素名 IDをキーにして格納し、祖先パス出現情報格納部 112は、各要素の出現する文書番号、文字位置、文字数、要素名 ID、分岐順の情報を、その要素の祖先パス名 IDをキーにして格納し、属性出現情報格納部 113 は、各属性の出現する文書番号、文字位置、文字数、要素名 ID、祖先パス名 ID、分岐順の情報を、属性名 IDをキーにして格納し、テキスト出現情報格納部 114は、要素内のテキストから切り出した部分文字列、および要素の持つ属性の値から切り出した部分文字列に関して、出現する文書番号、文字位置、祖先パス名 ID、要素名 ID、属性名 ID、分岐順の情報を、部分文字列をキーにして格納する。さらに、データべース装置は、検索式 115を受け付ける検索条件入力部 116、検索条件入力部 116 に与えられた検索式を解析し、内部条件に変換して出現情報取得部 118に出力する検索条件解析部 117、検索条件解析部 117の出力した内部条件に応じて、出現位置索引 110に格納された 4種の出現情報力適切な情報を選択して取得し、検索条件にマッチする結果データ集合を求める出現情報取得部 118、結果データ集合を適切な形式で検索結果 120として出力する検索結果出力部 119を備える。

[0016] 本実施の形態におけるデータベース装置の動作について説明する。

[0017] はじめに、文書登録するデータベース構築処理について説明する。図 2は、本発明の実施の形態 1における文書登録処理の手順を示す流れ図である。

[0018] ステップ 2201において、入力文書解析部 102は、構造化文書群 101から構造ィ匕文書を 1つ読み込んで、文書毎にユニークな文書番号を割り振る。

[0019] ステップ 2202において、入力文書解析部 102は、この文書の論理構造を解析する。図 3は、本発明の実施の形態 1における登録検索対象となる構造ィ匕文書の例を示す図である。図 3に示した構造ィ匕文書 101aは、最上位階層にブック (book)要素を持ち、さらに、ブック要素はタイトル (title)要素と 2つのチヤプタ（chapter)要素を含む。タイトル要素は、要素実体の文字列"文書検索"を含み、さらに、 1つ目のチヤプタ要素は別のタイトル要素と 2つのセクション（section)要素および属性値が"歴史" であるキーワード (keyword)属性を持つ。また、入力文書解析部 102が構造ィ匕文書 101aを木構造に解析した結果を図 4に示す。図 4は、本発明の実施の形態 1における構造ィ匕文書の論理構造を解析した結果を示す図である。図 4において、木構造 30 0の四角い枠は要素 301〜303を表し、枠内に記された文字列は要素名 304を示す。また、楕円の点線枠は属性 305を表し、枠内に記された文字列は属性名 306 (アツプデート（update) )を示す。

[0020] 木構造 300の最上位階層の要素 301から着目要素に至る経路の途中に存在する要素 (以下、「祖先要素」と記載する)の要素名をスラッシュ記号" Z"で区切り順に並ベたものを「パス名」と呼ぶ。パス名の末尾部分、すなわち、着目要素自身の要素名を除いた部分を「祖先パス名」と呼ぶ。図 5は、本発明の実施の形態 1における祖先パス名を説明する図である。図 5において、図 4で網掛けを施した要素 302のノス名 701は、祖先パス名 702、要素名 703で構成される。

[0021] また、図 4において、各要素の右肩に記した文字列を「分岐順」と呼ぶ。例えば、要素 302の分岐順 307は「1Z2Z3」である。分岐順は、ノス名中の各要素について、同じ親要素を持つ同じ要素名の要素の中で何番目に出現したかを示す番号を順に並べたものである。図 4で網掛けした要素 302とその左隣の要素 303とは、パス名は同じであるが、分岐順 307、 308は異なる。なお、分岐順の表記方法はこれに限らない。例えば、 1以外の値を持つ階層の深さとその値を並べる方法でもよい。この方法で分岐順 307を表記すると「2 : 2, 3 : 3」となる。これは、深さ 1の値は「1」なので省略し、深さ 2の値力「2」であり、深さ 3の値力「3」であるためである。同じ要素名の兄弟要素がめったに現れない文書、すなわち、分岐順の値がほとんど「1」であるような文書を格納する場合には、この表記方法の方が出現位置索引ファイルのサイズを小さくできる。

[0022] ステップ 2203において、要素名登録部 103は、着目要素の要素名が要素名辞書 107に登録済みかどうかを調べる。もし、それが登録済みであれば対応する要素名 I Dを取得し、登録されていなければ新たに要素名 ID ( >0)を割り当てて、要素名と要素名 IDを要素名辞書 107に登録する。図 6に、図 3で示した構造化文書 101aを登録処理した後における要素名辞書 107の内容の例 (407)を示す。

[0023] ステップ 2204において、祖先パス名登録部 104は、着目要素の祖先パス名が祖先パス名辞書 108に登録済み力どうかを調べる。もし、それが登録済みであれば対応する祖先パス名 IDを取得し、登録されて、なければ新たに祖先パス名 ID ( >0)を割り当てて、祖先パス名を祖先パス名辞書 108に登録する。図 7に、図 3で示した構造ィ匕文書 10 laを登録処理した後における祖先パス名辞書 108の内容の例 (408)を示す。

[0024] ステップ 2205において、もし、着目要素が属性を持っていれば、ステップ 2206へ進み、持っていなければ、ステップ 2207へ進む。

[0025] ステップ 2206において、属性名登録部 105は、着目要素の各属性の属性名が属性名辞書 109に登録済みかどうかを調べる。もし、それが登録済みであれば対応する属性名 IDを取得し、登録されてヽなければ新たに属性名 ID ( >0)を割り当てて、属性名を属性名辞書 109に登録する。ここで、図 8に、図 3で示した構造化文書 101 aを登録処理した後における属性名辞書 109の内容の例 (409)を示す。

[0026] ステップ 2207において、出現情報登録部 106は、着目要素に関する要素出現情報を、要素名 IDをキーとして要素出現情報格納部 111に登録する。要素出現情報は、次の 5種類の値の組、すなわち、文書番号、着目要素 (子孫要素も含む）に含まれる（タグ以外の)テキストの先頭文字位置および文字数、祖先パス名 ID、分岐順の値の組から構成される。図 9は本実施の形態におけるデータベース装置での文字位置の数え方を説明する図である。図 9において、テーブル 410は、タグを除く当該文書内の全てのテキストをつなげた文字列において、各文字 411の文字位置 412を示す。なお、先頭の文字位置は「0」とする。図 10A—10Bは、本発明の実施の形態 1 における要素出現情報を説明する図である。図 10Bにおいて、図 4で網掛けを施したセクション要素 302の要素実体 304は、先頭文字 321の文字位置が「115」であり、要素実体 322全体の文字数が「40」である。セクション要素 302に関する要素出現情報 501を図 10Aに示す。図 10Aにおいて、セクション要素 302の要素名 ID (502) は「4」、文書番号（503)は「1」である。そして、セクション要素 302は、「115」文字目 (文字位置 504)力始まる長さ「40」文字 (文字数 505)の要素実体を含む。セクション要素 302の祖先パス名 ID (506)は「3」、分岐順（507)は「1/2/3」である。なお、祖先パス名 ID506が「3」の祖先パス名は「ZbookZchapter」である。

[0027] ステップ 2208において、出現情報登録部 106は、着目要素に関する祖先パス出現情報を、祖先パス名 IDをキーとして祖先パス出現情報格納部 112に登録する。この祖先パス出現情報は、次の 5種類の値の組、すなわち、文書番号、着目要素 (子孫要素も含む）に含まれる（タグ以外の)テキストの先頭文字位置および文字数、要素名 ID、分岐順の値の組で構成する。図 11は、本発明の実施の形態 1における祖先パス出現情報を説明する図である。図 11において、図 4の網掛けを施した要素 30 2に関する祖先パス出現情報の内容 511を示して、る。図 10Aと図 11に示すように、同一要素に関する要素出現情報と祖先パス出現情報は、キーとなる項目が要素名 I D502である力、あるいは、祖先パス名 ID506である力、という点が異なるのみである

[0028] ステップ 2209において、もし、着目要素が属性を持っているならば、ステップ 2210 に進み、着目要素が属性を持っていなければ、ステップ 2211へ進む。

[0029] ステップ 2210において、出現情報登録部 106は着目要素の各属性に関する属性出現情報を、属性名 IDをキーとして属性出現情報格納部 113に登録する。属性出現情報は、次の 6種類の値の組、すなわち、文書番号、属性値の先頭文字位置および文字数、祖先ノス名 ID、要素名 ID、分岐順の値の組から構成される。図 12A— 1 2Bは、本発明の実施の形態 1における属性出現情報を説明する図である。図 12B にお、て、図 4で網掛けを施したセクション要素 302はアップデート属性 305を含み、そのアップデート属性 305の属性値 350は、先頭文字 351の文字位置 351が「115」であり、属性値 305全体の文字数 352が「6」である。なお、属性出現情報における、属性値の先頭文字の文字位置は、図 12Bに示すように、仮想的に着目要素 322 (子孫要素も含む）に含まれる（タグ以外の)テキストの先頭文字 321の文字位置と同じ値とする。セクション要素 302のアップデート属性 305に関する属性出現情報 521を図 12Aに示す。図 12Aにおいて、属性名 ID (522)は「2」、文書番号（503)は「1」である。そして、アップデート属性 305は、「115」文字目（文字位置 504)力も始まる長さ「 6」文字 (文字数 505)の属性値を持つ。アップデート属性 305の所属する要素の祖先パス名 ID (506)は「3」、要素名 ID (502)は「4」、分岐順 (507)は「1/2/3」である。なお、属性名 ID力「2」の属性名は「update」であり、祖先パス名 ID506が「3」の祖先パス名は「ZbookZsection」である。また、要素名 ID502が「4」の要素名は「s ection」で teる。

[0030] ステップ 2211において、出現情報登録部 106は、着目要素の実体内容のテキスト力も部分文字列を切り出す。そして、テキスト出現情報を、切り出した部分文字列をキ一としてテキスト出現情報格納部 114に登録する。このとき、属性値と区別するため、属性名 IDには常に 0を格納する。テキスト出現情報は、次の 6種類の値の組、すなわち、文書番号、切り出された部分文字列の先頭文字位置、祖先パス名 ID、要素名 ID 、属性名 ID、分岐順の値の組から構成される。

[0031] ステップ 2212において、もし、着目要素が属性を持っているならば、ステップ 2213 に進み、属性を持っていなければ、ステップ 2214に進む。

[0032] ステップ 2213において、出現情報登録部 106は、着目要素が持つ各属性の属性値文字列から部分文字列を切り出す。そして、テキスト出現情報格納部 114に部分文字列をキーとして登録する。なお、属性値は図 11に示す位置に仮想的に出現しているとして、属性出現情報と同様に、文字位置を算出する。また、ステップ 2213では、ステップ 2211での処理とは異なり、属性名 IDには、着目している属性の属性名 ID ( >0)を格納する。図 13は、本発明の実施の形態 1におけるテキスト出現情報を説明する図である。図 13において、テキスト出現情報 531 (—部分）は、図 4で網掛けを施したセクション要素 302の要素実体 (テキスト）と、セクション要素 302のアップデート属性 305の属性値についてのテキスト出現情報を含む。出現情報レコード 1201は、セクション要素 302の要素実体の例を示す。セクション要素 302の要素実体の部分文字列（532) "極大"は、文書番号 (503)が「1」の文書の「118」文字目（文字位置 5 04)に現れる。そして、部分文字列の含まれる要素、すなわちセクション要素 302の祖先パス名 ID (506)は「3」、要素名 ID (502)は「4」、分岐順（507)は「1/2/3」である。なお、祖先パス名 ID506が 3の祖先パス名は「ZbookZsection」であり、要素名 ID502が 4の要素名は「chapter」である。ここで、部分文字列 532が属性値であるか否かは、属性名 ID522に応じて判別できる。ここでは、もし、属性名 IDが「0」であれば、部分文字列 532は属性値であると判別する。また、出現情報レコード 120 2は、セクション要素 302におけるアップデート属性 305の属性値の例を示す。アップデート属性 305の属性値の部分文字列（532) "00"は、文書番号（503)が「1」の文書の「116」文字目（文字位置 504)に現れる。そして、部分文字列の含まれる属性の要素、すなわちセクション要素 302の祖先パス名 IDは「3」、要素名 ID (502)は「4」、分岐順 (507)は「1Z2Z3」である。またその要素に属する属性名 ID (522)は「2」である。なお、祖先パス名 ID力「3」の祖先パス名は「ZbookZsection」、要素名 IDが「4」の要素名は「chapter」、属性名 IDが「2」の属性名は「update」である。

[0033] ステップ 2214において、この文書に出現する全ての要素について処理が終わった力どうかを調べ、もし未処理の要素が残っていればステップ 2203に戻って処理を繰り返す。

[0034] ステップ 2215において、全ての入力文書に対して処理が終わったかどうかを調べ、未処理の文書が残って!/ヽればステップ 2201に戻って処理を繰り返す。

[0035] 以上のようにして、本実施の形態におけるデータベース装置は、文書登録し、データベース構築処理を完了する。 [0036] 次に、本実施の形態におけるデータベース装置が登録済みの文書群を検索する処理に関して説明する。

[0037] 図 14は、本発明の実施の形態 1における検索式の例を示す図である。これらの検索式 2101— 2107は W3C (World Wide Web Consortium)の勧告として公開されているエックスパス（XPath)言語で記述されている。なお、エックスパス言語の詳細な仕様は URL"http : ZZwww. w3. orgZTRZxpath"に記載されている。

[0038] 検索式 2101は「最上位階層のブック要素の子のチヤプタ要素の子であるタイトル要素」を表す。検索式 2102は「最上位階層のブック要素の子のチヤプタ要素のいずれかの子要素」を表す。検索式 2103は、「いずれかの階層にあるタイトル要素」を表す。検索式 2104は「最上位階層のブック要素の子のチヤプタ要素の子の 2番目のセクシヨン要素」を表す。検索式 2105は、「最上位階層のブック要素の子のチヤプタ要素の子のセクション要素のアップデート属性」を表す。検索式 2106は、「最上位階層のブック要素の子のチヤプタ要素の子のセクション要素で、かつ要素実体内容に"極大単語"という文字列を含む要素」を表す。検索式 2107は、「最上位階層のブック要素の子のチヤプタ要素の子のセクション要素のアップデート属性で、かつその属性値に" 2004"という文字列を含む属性」を表す。

[0039] 次に、それぞれの検索式に対して、本実施の形態におけるデータベース装置が検索処理する動作を順に説明する。

[0040] (検索式 2101の場合）

まず、検索式 2101を検索条件として与えた場合の動作について説明する。図 15 は、本発明の実施の形態 1におけるデータベース装置の検索処理の手順を示す流れ図である。

[0041] ステップ 2301において、検索条件入力部 116は検索式 2101を入力する。

[0042] ステップ 2302において、検索条件解析部 117は、図 16Aに示すように、入力された検索式 2101を解析し、要素名辞書 107、祖先パス名辞書 108を参照して内部条件「祖先パス名 ID = 3かつ要素名 ID = 2」に変換する。そして結果を出現情報取得部 118に出力する。

[0043] ステップ 2303において、出現情報取得部 118は、出現位置索引 110を参照し、要素出現情報格納部 111における要素名 ID = 2のエントリ数 Nを取得する。

[0044] ステップ 2304において、出現情報取得部 118は、出現位置索引 110を参照し、祖先パス出現情報格納部 112における祖先パス名 ID = 3のエントリ数 Mを取得する。

[0045] ステップ 2305において、出現情報取得部 118は、取得したエントリ数 Nとエントリ数 Mとを比較する。もし、 N< Mならば、ステップ 2306へ進み、そうでなければ、ステツプ 2310へ進む。図 16Bは、要素出現情報格納部 111における要素名 ID= 2のェントリ 1301、図 17Bは祖先パス出現情報格納部 112における祖先パス名 ID = 3のェントリ 1401の例を示す。図 16Aに示した例では、 N = 8、 M= 12である。この場合、 N く Mとなり、ステップ 2306へ進む。図 16Bの要素出現情報格納部 111を選択する。

[0046] ステップ 2306において、出現情報取得部 118は、要素出現情報格納部 111の要素名 ID = 2のエントリ 1301から 1つ取得する。

[0047] ステップ 2307において、出現情報取得部 118は、このエントリの祖先パス名 IDが 3 であるかどうかを調べる。そして、もし祖先パス名 IDが 3であればステップ 2308へ進み、そうでなければ、ステップ 2309へ進む。

[0048] ステップ 2308において、出現情報取得部 118は、このエントリのデータを結果データ集合 1302に追加する。図 16Cに結果データ集合を示す。結果データ集合 1302 の各データは、例えば、（文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順）のような形式で格納される。

[0049] ステップ 2309において、出現情報取得部 118は、 Nエントリ全てについて処理したか調べる。もし、まだ処理していないエントリがあればステップ 2306に戻って処理を繰り返す。

[0050] 次に、ステップ 2305において、出現情報取得部 118は、 N< Mでないと判定した場合には、ステップ 2310へ進む。そして、出現情報取得部 118は、図 17Bに示すように、祖先パス出現情報格納部 112における祖先パス名 ID= 3の各エントリ 1401を調べる。そして、出現情報取得部 118は、要素名 IDが 2であるものを求め、図 17Cに示すように結果データ集合 1402に追加する（ステップ 2310〜ステップ 2313)。

[0051] ステップ 2314において、出現情報取得部 118は、求められた結果データ集合を検索結果出力部 119に出力する。検索結果出力部 119は求めた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0052] このように、本実施の形態におけるデータベース装置は、検索式 2101に対しては、要素出現情報格納部 111における指定した要素名 IDのエントリから指定した祖先パス名 IDを持つものを選ぶ処理と、祖先パス出現情報格納部 112における指定した祖先パス名 IDのエントリから指定した要素名 IDを持つエントリを選ぶ処理のどちらか、エントリ数の少ない方を選択する。そのため、検索対象構造化文書群の論理構造の特性に応じて処理量を抑えることができ、所望の文書を効率良く検索できる。

[0053] (検索式 2102の場合）

次に、検索条件入力部 116に検索式 2102を入力した場合の動作について説明する。検索条件解析部 117は、図 18Aに示すように、検索式 2102を解析し、祖先パス名辞書 108を参照して内部条件「祖先パス名 ID = 3」に変換する。そして、結果を出現情報取得部 118に出力する。出現情報取得部 118は、出現位置索引 110を参照し、図 18Bに示すように祖先パス出現情報格納部 112における祖先パス名 ID = 3の全てのエントリ 1501を求める。そして、例えば (文書番号，祖先パス名 ID,要素名 ID ,属性名 ID,分岐順)のような形式で、図 18Cに示すように、結果データ集合 1502として検索結果出力部 119に出力する。検索結果出力部 119は求めた結果データ集合 1502の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0054] このように、本実施の形態におけるデータベース装置は、検索式 2102に対しては、祖先パス出現情報格納部 112における指定した祖先パス名 IDのエントリを取得するだけで良いため、所望の文書を効率良く検索できる。

[0055] (検索式 2103の場合）

次に、検索条件入力部 116に検索式 2103を入力した場合の動作について説明する。検索条件解析部 117は、図 19Aに示すように、検索式 2103を解析し、要素名辞書 107を参照して内部条件「要素名 ID = 2」に変換する。そして、結果を出現情報取得部 118に出力する。出現情報取得部 118は、出現位置索引 110を参照し、図 19B のように要素出現情報格納部 111における要素名 ID = 2の全てのエントリ 1601を求める。そして、例えば (文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順)のような形式で、図 19Cに示すように、結果データ集合 1602を検索結果出力部 119に出力する。検索結果出力部 119は求められた結果データ集合 1602の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0056] このように、本実施の形態におけるデータベース装置は、検索式 2103に対しては、要素出現情報格納部 111における指定した要素名 IDのエントリを取得するだけで良いため、所望の文書を効率良く検索することができる。

[0057] (検索式 2104の場合）

次に、検索条件入力部 116に検索式 2104を入力した場合の動作について説明する。検索条件解析部 117は図 20Aに示すように、検索式 2104を解析し、要素名辞書 107、祖先パス名辞書 108を参照して内部条件「祖先パス名 ID = 3かつ要素名 ID =4かつ分岐順 = *Z*Z2」に変換する。そして、結果を出現情報取得部 118に出力する。分岐順のアスタリスク「 *」の部分はどんな数字でもマッチすることを表す。出現情報取得部 118は、出現位置索引 110を参照して、要素出現情報格納部 111 における要素名 ID = 4のエントリ数 Nと祖先ノス出現情報格納部 112における祖先パス名 ID = 3のエントリ数 Mとを求める。そして、エントリ数 Nと Mとを比較し、少ない方を選択する。もし、 N< Mでなければ、図 20Bに示すように祖先パス出現情報格納部 112における祖先パス名 ID = 3の各エントリ 1701を調べる。要素名 IDが 4であり、かつ分岐順が「*Z*Z2」であるエントリのデータを求める。そして、結果データ集合 1702として、図 20Cに示すように、例えば (文書番号，祖先パス名 ID,要素名 ID ,属性名 ID,分岐順)のような形式で検索結果出力部 119に出力する。もし、 N< M ならば、図示しな!、要素出現情報格納部 111における要素名 ID =4の各エントリを調べる。そして、祖先ノス名 IDが 3であり、かつ分岐順が「*Z*Z2」であるエントリのデータを求め、結果データ集合 1702として検索結果出力部 119に出力する。検索結果出力部 119は求められた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0058] このように、本実施の形態におけるデータベース装置は、検索式 2104に対しては、要素出現情報格納部 111における指定した要素名 IDのエントリから指定した祖先パス名 IDと分岐順を持つものを選ぶ処理と、祖先パス出現情報格納部 112における指定した祖先ノス名 IDのエントリから指定した要素名 IDと分岐順を持つものを選ぶ処理の、どちら力、エントリ数の少ない方を選択する。これにより、検索の処理量を減らすことが可能となり、所望の文書を効率良く検索することができる。

[0059] (検索式 2105の場合）

次に、検索条件入力部 116に検索式 2105を入力した場合の動作について説明する。検索条件解析部 117は、図 21Aに示すように、検索式 2105を解析し、要素名辞書 107、祖先パス名辞書 108、属性名辞書 109を参照して内部条件「祖先パス名 ID = 3かつ要素名 ID=4かつ属性名 ID= 2」に変換する。そして、結果を出現情報取得部 118に出力する。出現情報取得部 118は、出現位置索引 110を参照し、図 21B に示すように属性出現情報格納部 113における属性名 ID = 2の各エントリ 1801を調ベる。そして、祖先パス名 IDが 3であり、要素名 IDが 4であるエントリのデータを求める。そして、出現情報取得部 118は、図 21Cに示すように、例えば (文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順)のような形式で結果データ集合 1802として検索結果出力部 119に出力する。検索結果出力部 119は求められた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0060] このように、本実施の形態におけるデータベース装置は、検索式 2105に対しては、属性出現情報格納部 113における指定した属性名 IDのエントリから指定した祖先パス名 IDと要素名 IDを持つものを選び、所望の文書を検索することが可能となる。

[0061] (検索式 2106の場合）

次に、検索条件入力部 116に検索式 2106を入力した場合の動作について説明する。検索条件解析部 117は、図 22Aに示すように、検索式 2106を解析し、要素名辞書 107、祖先パス名辞書 108を参照して内部条件「祖先パス名 ID = 3かつ要素名 ID =4かつ要素内に文字列"極大単語"を含む」に変換する。そして、結果を出現情報取得部 118に出力する。出現情報取得部 118は、出現位置索引 110を参照し、図 2 2Bに示すように、テキスト出現情報格納部 114における"極大"のエントリ 1901と、 " 単語"のエントリ 1902とで連接演算する。その際、文書番号が同一であることど'単語 "が"極大"の 2文字後方に位置することだけでなぐ祖先パス名 IDが 3、かつ要素名 I Dが 4、かつ属性名 IDが 0、かつ分岐順が同一であるかチェックして、条件を満たすエントリを求める。そして、出現情報取得部 118は、図 22Cに示すように、例えば (文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順)のような形式で結果データ集合 1903として検索結果出力部 119に出力する。検索結果出力部 119は、求められた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0062] このように、本実施の形態におけるデータベース装置は、検索式 2106に対しては、テキスト出現情報格納部 114における部分文字列のエントリ同士で連接演算する際に、祖先パス名 IDおよび要素名 IDが指定した値であって、分岐順が同一であり、かつ属性名 IDが 0であるもの（1904、 1905)を選び、所望の文書を検索することが可能となる。

[0063] (検索式 2107の場合）

次に、検索条件入力部 116に検索式 2107を入力した場合の動作について説明する。検索条件解析部 117は、図 23Aに示すように、検索式 2107を解析し、要素名辞書 107、祖先パス名辞書 108、属性名辞書 109を参照して内部条件「祖先パス名 ID = 3かつ要素名 ID=4かつ属性名 ID= 2かつ属性値に文字列" 2004"を含む」に変換する。そして、結果を出現情報取得部 118に出力する。出現情報取得部 118は、出現位置索引 110を参照し、図 23Bに示すように、テキスト出現情報格納部 114における" 20"のエントリ 2001と" 04"のエントリ 2002との間で、連接演算する。その際、出現情報取得部 118は、文書番号が同一であることと" 20"が" 04"の 2文字後方に位置することだけでなぐ祖先パス名 IDが 3、かつ要素名 IDが 4、かつ属性名 IDが 2 、かつ分岐順が同一であるかをチェックし、条件を満たすエントリを求める。そして、出現情報取得部 118は、図 23Cに示すように、例えば (文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順)のような形式で結果データ集合 2003として検索結果出力部 119に出力する。検索結果出力部 119は求められた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0064] このように、本実施の形態におけるデータベース装置は、検索式 2107に対しては、テキスト出現情報格納部 114における部分文字列のエントリ同士で連接演算する際に、祖先パス名 IDおよび要素名 IDが指定した値であって、分岐順が同一であり、かつ属性名 IDが指定した値（>0)であるもの（2004、 2005)を選び、所望の文書を検索することが可能となる。

[0065] 以上説明したように、本実施の形態におけるデータベース装置は、要素の出現情報を、要素名 IDをキーにして格納した要素出現情報格納部と、要素の出現情報を、その要素の祖先パス名 IDをキーにして格納した祖先パス出現情報格納部と、属性の出現情報を、属性名 IDをキーにして格納した属性出現情報格納部とを設ける。そのため、このデータベース装置は、構造条件だけを指定した検索式に対しても効率良く所望の文書を検索することができる。

[0066] また、本実施の形態におけるデータベース装置は、要素実体のテキスト文字列および要素の持つ属性の属性値力切り出した部分文字列の出現情報を格納したテキスト出現情報格納部をさらに設ける。そのため、このデータベース装置は、要素実体のテキストに対してだけでなく属性値に対しても文字列検索できる。

[0067] なお、本実施の形態におけるデータベース装置は、データベース構築処理において、要素実体や属性値力固定長の 2文字連鎖で部分文字列を切り出す説明したが、他の切り出し方法、例えば特開平 8— 249354号公報「文書検索装置および単語索引作成方法および文書検索方法」に記載の方法等でも構わない。

[0068] また、本実施の形態におけるデータベース装置は、データベース検索処理において、検索条件式をエックスノス式で与えるとして説明した力同様の意味を表す他のクエリ言語で与えるとしても本発明を適用することは可能である。

[0069] このようにすることによって、本実施の形態におけるデータベース装置では、構造ィ匕文書の登録の際に、構造化文書に含まれる文書構造を示す要素名と祖先パス名と属性名の一覧と、それらの構造ィヒ文書中での出現位置情報のインデクスを生成する。そのため、このデータベース装置は、文字列検索条件と構造条件をともに指定した検索条件のみならず、構造だけを指定した様々な検索条件に対しても、所望の論理構造を持つ文書を効率良く検索するデータベースを構築できる。

[0070] また、要素実体のテキスト文字列に対してだけでなぐ属性値に対しても文字列検索できる。

[0071] なお、本実施の形態におけるデータベース装置では、構造化文書を登録する際に、文書構造を解析して辞書データおよび出現位置索引データを構築して構造ィ匕文書を登録する構成と、受け付けた文書構造を示す検索式に示される文書を辞書データおよび出現位置索引データに基づいて登録文書を効率的に検索する構成とを、同時に実現する形態とした。しかし、登録する機能のみの構成をデータベース構築装置として、ある、は検索のみの構成をデータベース検索装置として実現してもよヽ

[0072] なお、本実施の形態におけるデータベース装置では、構造化文書を登録する際に、要素と祖先パスに対する辞書データならびに出現位置索引データを生成して登録する構成と、この構成に属性に対する辞書データならびに出現位置索引データを生成して登録する構成と、さらにこの構成に要素や属性値のテキストに対する出現位置索引データを生成して登録する構成とを同時に実現する形態とした。しかし、要素と祖先パスのみを対象として登録する構成、あるいは、この構成に属性を対象にカ卩えて登録する構成、あるいは、さらにこの構成にテキストを対象に加えて登録する構成として実現してもよい。

[0073] (実施の形態 2)

次に、本実施の形態 2におけるデータベース装置の構成と動作について説明する。本実施の形態におけるデータベース装置は、図 1に示した実施の形態 1とほぼ同じ構成をしている。しかし、このデータベース装置は、次の点が実施の形態 1とは異なつている。このデータベース装置は、祖先パス名登録部 104が、文書に出現する各祖先パス名に対してではなぐ祖先パス名をいくつかに分割した各部分祖先パス名に対してユニークな祖先パス名 IDを割り当てて祖先パス名辞書 108に登録する。また、このデータベース装置は、出現情報登録部 106が、各要素の出現する文書番号、文字位置、文字数、祖先パス名 ID列、分岐順、空要素順の情報を、要素名 IDをキーにして要素出現情報格納部 111へ格納する。また、このデータベース装置は、各要素の出現する文書番号、文字位置、文字数、要素名 ID、分岐順、空要素順の情報を、祖先パス名 ID列をキーにして祖先パス出現情報格納部 112へ格納する。また、このデータベース装置は、各属性の出現する文書番号、文字位置、文字数、要素名 ID、祖先パス名 ID列、分岐順、空要素順の情報を、属性名 IDをキーにして属性出現情報格納部 113へ格納する。また、このデータベース装置は、要素内のテキストから切り出した部分文字列、および要素の持つ属性の値力切り出した部分文字列に関して、出現する文書番号、文字位置、祖先パス名 ID列、要素名 ID、属性名 ID、分岐順、空要素順の情報を、部分文字列をキーにしてテキスト出現情報格納部 114へ格納する。

[0074] 本実施の形態におけるデータベース装置が文書登録しデータベース構築する処理の動作について図 2を用いて説明する。なお、実施の形態 1と同様の処理については説明を省略する。

[0075] ステップ 2201において、入力文書解析部 102は構造化文書を 1つ読み込みュ- ークな文書番号を割り振る。

[0076] ステップ 2202において、この構造ィ匕文書の論理構造を解析する。その際、実施の形態 1の場合での処理に加え、各要素に関する「空要素順」の情報についても求める。ここで、「空要素」とは、子孫要素を含めて要素実体のテキストを全く持たない要素のことであり、「空要素順」とは、同じ親要素を持つ兄弟要素のうちで、先頭の要素である力もしくは直前の兄弟要素が空要素でない要素の場合には 1、それ以外の場合、すなわち、直前の兄弟要素が空要素である場合には、その空要素順の値に 1を加えた値を、最上位階層から当該要素に至るまでの各階層において求めて並べたものである。

[0077] 図 24は、本発明の実施の形態 2における空要素順の説明する図である。図 24において、文書の木構造 310と空要素順の一例を示す。斜線模様の四角い枠は要素実体のテキストを含む要素 2801、 2804、 2805を、無地の四角い枠は要素実体を含まない空要素 2802、 2803を、各要素の右肩に「1/2/3」の形式で記された文字列は、各要素の空要素順 2806の情報を表す。

[0078] 兄弟要素 2801〜2804の空要素順が示す最初の 2つの数字「1Z2」は祖先要素の空要素順にあたる。兄弟要素に共通であり、末尾の数字 nが兄弟要素毎に変わりうる。要素 2801は兄弟要素の中の先頭要素であるので n= lとなる。要素 2802は直前の要素 2801が空要素ではないので n= lとなる。要素 2803は直前の要素 2802 が空要素なので 1を加えて n= 2となる。要素 2804は直前の要素 2803が空要素なのでさらに 1をカ卩えて n= 3となる。したがって、兄弟要素 2801〜2804の空要素順はそれぞれ、 Γΐ/2/lJ , Γΐ/2/lJ , Γΐ/2/2] ,「1/2/3」となる。

[0079] なお、空要素順の表記方法はこれに限らない。例えば、 1以外の値を持つ階層の深さとその値を並べて表記する方法でもよい。この方法で空要素順 2806 (「lZ2Z 3」）を表記すると、「2 : 2, 3 : 3」となる。ここで、深さ 1の値は「1」なので省略し、深さ 2 の値が「2」であり、深さ 3の値が「3」である。そのため、空要素がほとんど現れない文書、すなわち、空要素順の値がほとんど「1」である文書を扱う場合には、後者の表記方法の方が出現位置索引ファイルのサイズを小さくできる。

[0080] ステップ 2203において、実施の形態 1と同様に、要素名登録部 103は、着目要素の要素名について、要素名辞書 107への登録処理をする。

[0081] ステップ 2204において、祖先パス名登録部 104は、着目要素の祖先パス名を 3階層毎に分割し、分割後の各部分祖先パス名が祖先パス名辞書 108に登録済みかどうかを調べる。もし、それが登録済みであれば対応する祖先パス名 IDを取得し、それが登録されて、なければ新たに祖先パス名 ID ( > 0)を割り当てて、祖先パス名辞書 108に登録する。なお、祖先パス名の深さが 3階層以下ならば、祖先パス名 ID列は、実施の形態 1の場合と同じように単一の祖先パス名 IDとなる。

[0082] 図 25Aは、本発明の実施の形態 2における部分祖先パス名を説明する図、図 25B は、祖先パス名辞書の内容を示す図、図 25Cは、祖先パス名 ID列を説明する図である。図 25Aにおいて、パス名 2900より要素名 2911を除いた祖先パス名 2901「Z AZBZCZAZBZCZAZBZCJは、さらに部分パス名 Γ/Α/Β/CJ (2913、 2 914)と「ZAZBZ」（2915)とに分解できる。ここで、図 25Bに示すように、祖先パス名辞書 108の内容 2903に、祖先パス名 2905「ZAZBZC」、「ZAZB」の祖先パス ID2904力それぞれ「83」、「25」と登録されている。この場合、図 25Cに示すように、祖先パス名 2901は、分解した各祖先パス名 2905を示す祖先パス ID2904と、記号「：」を用いて、祖先パス名 ID列 2902「83： 83： 25」のように表現できる。

[0083] このように、祖先パス名 2901を分割して各部分祖先パス名 2905に祖先パス名 ID 2904を割り当て、当該要素の祖先要素や他の要素との間で、登録済みの祖先パス名 ID2904を共通に用いることができる。また、祖先パス名 IDの重なる数を小さくでき、祖先パス名辞書 108のサイズを小さくできる。 [0084] なお、本実施例では祖先パス名を 3階層毎に分割する例を示したが、分割の方法はこれに限らない。例えば 4階層毎に分割し、階層の深さによって分割幅を変化させるようにしても構わない。また、祖先パス名 ID列の区切り文字として記号"："を用いた 1S 他の区切り文字でも構わない。

[0085] もし、着目要素が属性を持っているならば、ステップ 2205〜ステップ 2206において、属性名登録部 105は、実施の形態 1と同様に、着目要素の各属性の属性名辞書 109への登録処理をする。

[0086] ステップ 2207において、出現情報登録部 106は、着目要素に関する要素出現情報を、要素名 IDをキーとして要素出現情報格納部 111に登録する。要素出現情報は、次の 6種類の値の組、すなわち、文書番号、着目要素 (子孫要素も含む）に含まれる (タグ以外の)テキストの先頭文字位置および文字数、祖先パス名 ID列、分岐順、空要素順の値の組から構成される。なお、「文字位置」は、タグを除く当該文書内の全てのテキストをつなげた文字列において先頭力何文字目にあたるかで表す。また、着目要素が空要素である場合には、着目要素以降に初めて現れる (タグ以外の) テキストの先頭文字位置を着目要素の先頭文字位置とみなす。要素出現情報の一例を図 26に示す。図 26は、本発明の実施の形態 2における要素出現情報を説明する図である。実施の形態 1と異なるのは、要素出現情報 541の祖先パス名 506に、単一の祖先パス名 IDではなく 1つ以上の祖先パス名 IDを区切り文字で連ねた祖先パス名 ID列が記録されることと、空要素順 548の情報を含むことである。

[0087] ステップ 2208において、出現情報登録部 106は、着目要素に関する祖先パス出現情報を、祖先パス名 ID列をキーとして祖先パス出現情報格納部 112に登録する。祖先パス出現情報は、次の 6種類の値の組、すなわち、文書番号、着目要素 (子孫要素も含む）に含まれる（タグ以外の)テキストの先頭文字位置および文字数、要素名 ID、分岐順、空要素順の値の組で構成する。祖先パス出現情報の一例を図 27に示す。図 27は、本発明の実施の形態 2における祖先パス出現情報を説明する図である。実施の形態 1と異なるのは、祖先パス出現情報 551に空要素順 548の情報を含むことと、祖先ノス名 ID506に、単一の祖先パス名 IDではなく 1つ以上の祖先パス名 IDを区切り文字で連ねた祖先パス名 ID列をキーとして登録することである。 [0088] もし、着目要素が属性を持っているならば、ステップ 2209〜ステップ 2210において、出現情報登録部 106は着目要素の各属性に関する属性出現情報を、属性名 ID をキーとして属性出現情報格納部 113に登録する。属性出現情報は、次の 7種類の値の組、すなわち、文書番号、属性値の先頭文字位置および文字数、祖先パス名 I D列、要素名 ID、分岐順、空要素順の値の組から構成される。実施の形態 1と異なるのは、属性出現情報の祖先パス名 IDに単一の祖先パス名 IDではなく 1つ以上の祖先パス名 IDを区切り文字で連ねた祖先パス名 ID列を記録することと、空要素順の情報を含むことである。

[0089] ステップ 2211において、出現情報登録部 106は、着目要素の実体内容のテキスト力部分文字列を切り出し、テキスト出現情報を、切り出した部分文字列をキーとしてテキスト出現情報格納部 114に登録する。ただし、テキスト出現情報は属性値ではないので、属性名 IDには常に値「0」を格納する。テキスト出現情報は、次の 7種類の値の組、すなわち、文書番号、切り出した部分文字列の先頭文字位置、祖先パス名 ID 列、要素名 ID、属性名 ID、分岐順、空要素順の値の組から構成される。実施の形態 1と異なるのは、テキスト出現情報の祖先パス名 IDに単一の祖先パス名 IDではなく、 1つ以上の祖先パス名 IDを区切り文字で連ねた祖先ノス名 ID列が記録されることと、空要素順の情報を含むことである。

[0090] もし、着目要素が属性を持っているならば、ステップ 2212〜ステップ 2213において、出現情報登録部 106は、着目要素が持つ各属性の属性値文字列から部分文字列を切り出し、テキスト出現情報格納部 114に部分文字列をキーとして登録する。ステツプ 2211と同様に、実施の形態 1と異なるのは、テキスト出現情報に単一の祖先パス名 IDではなく 1つ以上の祖先パス名 IDを区切り文字で連ねた祖先パス名 ID列を記録することと、空要素順の情報を含むことである。

[0091] 以降、ステップ 2214〜2215を実施の形態 1と同様に実行し、文書登録してデータベース構築する。

[0092] 次に、登録済みの文書群を検索する処理に関して説明する。実施の形態 1で示した検索式と同様の形式の検索式による索処理については、検索条件解析部 117において、祖先パス名から祖先パス名 IDを求めて内部条件に変換する処理を、祖先パス名から祖先パス名 ID列を求める処理に変更することで実現できる。すなわち、検索条件解析部 117は祖先パス名を 3階層毎に分割し、祖先パス名辞書 108を参照して分割後の各部分祖先パス名に対応する祖先パス名 IDを求め、それらの祖先パス名 I Dを順に区切り文字で区切って並べ祖先パス名 ID列を求める。祖先パス名 ID列の形式は、文書登録処理の説明で図 25A—25Cに示した例と同様であり、祖先パス名の深さが 3階層以下の場合には単一の祖先パス名 IDとなる。実施の形態 1では出現情報取得部 118にお、て祖先パス名 IDで照合して、た各処理を、祖先パス名 ID列で照合するように変更することで、検索結果を求めることができる。

[0093] (検索式 3201の場合）

図 28は、本発明の実施の形態 2における検索式の例を示す図である。図 28に示す検索式 3201は「最上位階層の A要素の子の B要素の子の X要素の兄弟要素であり、かつ、 X要素より後ろに現れる Y要素」を表す。検索条件入力部 116より検索式 3 201を入力する。検索条件解析部 117は、検索式 3201を解析し、要素名辞書 107 、祖先パス名辞書 108を参照して内部条件に変換し、出現情報取得部 118に出力する。ただし、内部条件は、「C1かつ（C2または C3)、ただし、 Cx: {祖先パス名 ID = 25かつ要素名 ID= 10}、 Cy: {祖先パス名 ID= 25かつ要素名 ID= 14}、 Cl : {Cx と Cyの文書番号が同一で、かつ分岐順が末尾以外等しい }、 C2 : {Cxより Cyの方が文字位置の値が大きい }、 C3 : {Cxと Cyの文字位置の値が等しぐかつ Cxより Cyの方が空要素順の末尾の値が大きい }」である。ここで、祖先パス名 Γ/Α/Bjに対応する祖先パス名 IDは 25であり、要素名「X」に対応する要素名 IDは「10」であり、要素名「Y」に対応する要素名 IDは「14」ある。ここで内部条件に条件 C3を必要とする理由は、空要素とその直後に位置する要素では文字位置が同一になるため、前後関係を判断するために空要素順の値を比較しなければならな、からである。

[0094] 本発明の実施の形態 2における検索動作を説明する。出現情報取得部 118は、出現位置索引 110を参照し、図 29Aに示すように、祖先パス出現情報格納部 112における祖先パス名 IDが 25であるエントリのうち、要素名 IDが 10であるもの（Cx)、および要素名 IDが 14であるもの（Cy)を求める。続いて、 C1かつ（C2または C3)を満たす Cx、 Cyのエントリの組 3301、 3302を求める。そして、出現情報取得部 118は、図 29Bに示すように、例えば、（文書番号，祖先パス名 ID,要素名 ID,属性名 ID,分岐順，空要素順)のような形式で結果データ集合 3303として検索結果出力部 119に出力する。検索結果出力部 119は、求めた結果データ集合の文書実体を取得するなどして適切な形式で検索結果を出力する。

[0095] なお、 Cxおよび Cyのエントリを求める際に、祖先ノス出現情報格納部 112における指定祖先パス名 IDのエントリ数と、要素出現情報格納部 111における指定要素名 I Dのエントリ数を比較して少な、方を選択して求めてもょ、。

[0096] このようにして、本実施の形態におけるデータベース装置は、検索式 3201に対して、祖先パス出現情報格納部 112または要素出現情報格納部 111を参照して求めた 2つの要素の出現位置が同じ場合、すなわち、 2つの要素が、空要素とその直後の要素の関係にある場合であっても、空要素順の情報を比較して、前後関係の曖昧さを排除し、正しく検索結果を求めることができる。

[0097] 以上説明したように、本実施の形態におけるデータベース装置は、祖先パス名登録部 104が祖先パス名を分割し、分割後の各部分祖先パス名に対してユニークな祖先パス名 IDを割り当てて祖先パス名辞書 108に登録する。そのため、祖先パス名辞書のサイズを小さくすることができる。

[0098] また、出現情報登録部 106は要素出現情報格納部 111と、祖先パス出現情報格納部 112と、属性出現情報格納部 113と、テキスト出現情報格納部 114に空要素順の情報も格納する。そのため、本実施の形態におけるデータベース装置は、空要素とその直後の要素の開始文字位置が同じになるという前後関係の曖昧さを排除し、正 LV、検索結果を求めることができる。

[0099] このようにすることによって、本実施の形態におけるデータベース装置は、構造文書の要素にテキストが全く含まれない空要素である場合には、着目要素以降に初めて現れるテキストの先頭文字位置を着目要素の先頭文字位置とみなす。そのため、空要素の出現順を出現位置インデクスとして生成し、構造化文書に空要素が含まれる場合だけでなく空要素が連続して含まれる場合であっても、構造ィ匕文書構造の全文検索のみならず、空要素を含む文書構造を示す検索式に示される文書を効率的に検索することができる。 [0100] また、本実施の形態におけるデータベース装置は、祖先パス名を一定の条件で分割した部分パス名に基づいて祖先パス列として登録する。そのため、本実施の形態におけるデータベース装置は、部分パスを重複して蓄積することなぐ結果的に祖先ノス辞書のサイズを小さくでき、また、構造化対象を多く含む構造化文書であっても、文書構造を示す検索式に示される文書を効率的に検索できる。

[0101] なお、本実施の形態におけるデータベース装置は、構造化文書を登録する際に、文書構造を解析して辞書データおよび出現位置索引データを構築して構造ィヒ文書を登録する構成と、受け付けた文書構造を示す検索式に示される文書を辞書データおよび出現位置索引データに基づいて登録文書を効率的に検索する構成とを同時に実現する形態とした。しかし、構造化文書を登録する機能のみの構成、あるいは検索のみの構成として実現してもよ、。

[0102] なお、本実施の形態におけるデータベース装置は、構造化文書を登録する際に、テキスト要素を持たない空要素に対応する出現位置索引データを生成して登録する構成と、祖先パス名をいくつかに分割した各部分祖先パス名に対する辞書データならびに出現位置索引データを生成して登録する構成とを同時に実現する形態とした。しかし、空要素のみを対象として登録する構成、あるいは、祖先パス名のみを対象として登録する構成として実現してもよ!/、。

[0103] (実施の形態 3)

次に、本実施の形態 3におけるデータベース装置の構成と動作について説明する。図 30は、本発明の実施の形態 3におけるデータベース装置の構成を示すブロック図である。図 30において、本実施の形態 3におけるデータベース装置は、実施の形態 2とほぼ同じ構成をしている。しかし、このデータベース装置は次の点が実施の形態 2と異なっている。要素出現情報格納部 111、祖先パス出現情報格納部 112、属性出現情報格納部 113、テキスト出現情報格納部 114に格納されて、る情報をダループ化する出現情報グループィ匕部 3401が追加されて、る。

[0104] 文書登録するデータベース構築処理の動作について説明する。図 31は、本発明の実施の形態 3におけるデータベース装置の文書登録処理の手順を示す流れ図である。図 31において、ステップ 2201〜2215までの処理は実施の形態 2の場合と同じであるので、説明を省略する。

[0105] 最後のステップ 3501において、出現情報グループィ匕部 3401は、要素出現情報格納部 111に同じ要素名 IDをキーとして登録されて、るエントリ群の中で、文書番号と文字位置を除いた 4種類の情報項目（文字数、祖先パス名 ID、分岐順、空要素順）の値が全て共通しているエントリ同士を集め、それらのエントリの数が閾値 (例えば、 1 0エントリ）を超えていたらそれらのエントリをグループィ匕する。次に、出現情報グループ化部 3401は、残りのエントリ群について、文書番号と文字位置を除いた 4種類の情報項目（文字数、祖先パス名 ID、分岐順、空要素順)のうち、いずれか 3種類の情報項目の値が共通して、るエントリ群を求め、そのエントリの数が閾値を超えて、たらグループィ匕する。なお、複数のグループに属する可能性があるエントリは、エントリ数の最も多いグループに含める。さらに、出現情報グループィ匕部 3401は、同様に、いずれ力 2種類の情報項目の値が共通するエントリのグループを作成する。さらに、出現情報グループィ匕部 3401は、いずれ力 1種類の情報項目の値が共通するエントリのグループを作成し、最後に残ったエントリは共通情報項目無しのグループとして登録する。

[0106] 図 32は、本発明の実施の形態 3におけるグループ化された要素出現情報を説明する図である。図 32において、要素名 IDが 14である要素出現情報がグループ化され、グループ情報と個々のエントリで構成されている。グループ情報 3601〜3604には、各グループに属するエントリ 3605〜3608に共通する情報項目の値と、個々のエントリへのリンク' |·青報 3615〜3618を格糸内して!/ヽる。偶々のエントリ 3605〜3608【こは、共通しな、情報項目の値のみを格納して、る。

[0107] 第 1のグループ情報 3601は、当該グループに属する要素出現情報のエントリはいずれも（文字数 = 10,祖先パス名 ID= 100,分岐順 ="1Z1Z1",空要素順 ="1

という値を共通に持つ。当該グループに属する個々のエントリ 3605は、それぞれの文書番号と文字位置だけを格納している。第 2のグループ情報 3602は、当該グループに属する要素出現情報のエントリはいずれも (祖先パス名 ID= 200,分岐順 ="1Z2Z1",空要素順 ="1Z2Z3")という値を共通に持つが、記号「*」で示される文字数の情報項目は共通な値ではないことを表す。個々のエントリ 3606は、文書番号、文字位置とともに文字数を格納する。第 3のグループ情報 3603は、当該グループに属する要素出現情報のエントリはいずれも（文字数 =8,祖先パス名 ID = 150,空要素順 = "1Z2")という値を共通に持ち、記号「*」で示される分岐順の情報項目は共通な値ではないことを表す。個々のエントリ 3607は文書番号、文字位置とともに分岐順を格納する。第 4のグループ情報 3604は共通する情報項目がないグループであり、各エントリ 3608に全ての情報項目を格納する。

[0108] 祖先パス出現情報格納部 112、属性出現情報格納部 113、テキスト出現情報格納部 114に格納する各情報についても同様に、文書番号と文字位置以外の共通な値の情報項目を持つエントリ同士をグループィ匕し、文書登録するデータベース構築処理を完了する。

[0109] そのため、本実施の形態におけるデータベース装置の出現情報取得部 118は、登録済みの文書群を検索する処理として、グループィ匕した各エントリの内容とグループ情報に基づいて全ての情報項目の値を復元し、実施の形態 2と同様に検索結果を求める。

[0110] このようにして、本実施の形態におけるデータベース装置の出現情報グループィ匕部 3401は、出現位置索引 110に格納されるエントリ群をグループィ匕し、そのグループ内で共通する情報項目の値を括りだし、個々

、。そのため、本実施の形態におけるデータベース装置は、索引サイズを減らすことができる。

[0111] このように、本実施の形態におけるデータベース装置は、各要素、祖先パスなどの出現位置情報につ!、て、ある条件下で情報項目の値が共通する部分をグループ化して、共通化できない部分とは異なる構造で格納する。そのため、共通する部分を重複して蓄積することなぐ索引のサイズを小さくできる。

産業上の利用可能性

[0112] 本発明によるデータベース構築装置は、構造化文書を効率良く検索することが可能な構造の検索用データを構築でき、効率良く検索可能なデータベース装置等に有用である。

Claims

請求の範囲

[1] 構造化文書を管理するデータベース構築装置において、

構造ィヒ文書にユニークな文書番号を割り当てるとともに構造を解析する入力文書解析部と、

前記入力文書解析部の解析結果に基づいて、前記構造化文書に出現する各要素名に対してユニークな要素名 IDを割り当てて要素名辞書に登録する要素名登録部と、

前記入力文書解析部の解析結果に基づいて、前記構造化文書に出現する各祖先パス名に対してユニークな祖先パス名 IDを割り当てて祖先パス名辞書に登録する祖先パス名登録部と、

前記入力文書解析部の解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして要素出現情報格納部に登録し、かつ、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、祖先パス名 IDをキーとして祖先パス出現情報格納部に登録する出現情報登録部と、を有するデータベース構築装置。

[2] 前記入力文書解析部の解析結果に基づいて、構造化文書に出現する各属性名に対してユニークな属性名 IDを割り当てて属性名辞書に登録する属性名登録部を有し、

前記出現情報登録部が、前記入力文書解析部の解析結果に基づいて、着目属性の出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと分岐順の情報を少なくとも含む属性出現情報を、属性名 IDをキーとして属性出現情報格納部に登録する請求項 1に記載のデータベース構築装置。

[3] 前記出現情報登録部が、前記入力文書解析部の解析結果に基づ!、て、要素実体テキストおよび属性値力切り出された部分文字列に関し、出現する文書番号と文字位置と祖先ノス名 IDと要素名 IDと属性名 IDと分岐順の情報を少なくとも含むテキスト出現情報を、切り出された部分文字列をキーとしてテキスト出現情報格納部に登録する請求項 1に記載のデータベース構築装置。

[4] 前記要素出現情報は、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順と空要素順の情報を少なくとも含み、

前記祖先パス出現情報は、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順と空要素順の情報を少なくとも含む

請求項 1に記載のデータベース構築装置。

[5] 前記要素出現情報は、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順と空要素順の情報を少なくとも含み、

前記祖先パス出現情報は、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順と空要素順の情報を少なくとも含み、

前記属性出現情報は、着目属性の出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと分岐順と空要素順の情報を少なくとも含む

請求項 2に記載のデータベース構築装置。

[6] 前記要素出現情報は、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順と空要素順の情報を少なくとも含み、

前記テキスト出現情報は、要素実体テキストおよび属性値カゝら切り出された部分文字列に関し、出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと属性名 IDと分岐順と空要素順の情報を少なくとも含む

請求項 3に記載のデータベース構築装置。

[7] 前記祖先パス名登録部は、前記構造ィ匕文書に出現する各祖先パス名を 1つ以上に分割した各々の部分祖先パス名に対してユニークな祖先パス名 IDを割り当てて前記祖先パス名辞書に登録する

請求項 1に記載のデータベース構築装置。

[8] 前記要素出現情報格納部に同じ要素名 IDをキーにして登録されて、る前記要素出現情報のエントリ群と、前記祖先パス出現情報格納部に同じ祖先パス名 IDをキーにして登録されている前記祖先パス出現情報のエントリ群とに対して、文書番号と文字位置以外の 1つ以上の情報項目の値が共通するエントリ同士をグループィ匕する出現情報グループ化部を有する

請求項 1に記載のデータベース構築装置。

[9] 構造化文書を管理するデータベース検索装置において、

構造ィ匕文書に出現する各要素名に対してユニークな要素名 IDを登録した要素名辞書と、

前記構造ィ匕文書に出現する各祖先ノス名に対してユニークな祖先パス名 IDを登録した祖先パス名辞書と、

前記構造化文書の解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして格納した要素出現情報格納部と、

前記構造化文書の解析結果に基づいて、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、祖先パス名 IDをキーとして格納した、祖先パス出現情報格納部と、

検索式を入力するための検索条件入力部と、

前記要素名辞書と前記祖先パス名辞書とを参照して、前記入力された検索式を内部条件式に変換する検索条件解析部と、

前記検索条件解析部の出力した内部条件式にしたがって、前記要素出現情報格納部からの要素出現情報および、前記祖先パス出現情報格納部力の祖先パス出現情報から検索結果群を求める出現情報取得部と、

を有するデータベース検索装置。

[10] 属性名 IDと対応する属性名の記録された属性名辞書と、

着目属性の出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと分岐順の情報を少なくとも含む属性出現情報を、属性名 IDをキーとして格納した属性出現情報格納部とを有し、

前記検索条件解析部が、前記要素名辞書と前記祖先パス名辞書と前記属性名辞書とを参照して、前記検索条件入力部力入力された検索式を内部条件式に変換し、前記出現情報取得部が、前記検索条件解析部の出力した内部条件式にしたがって、前記要素出現情報格納部からの要素出現情報、前記祖先パス出現情報格納部からの祖先パス出現情報および、前記属性出現情報格納部からの属性出現情報から検索結果群を求める

請求項 9に記載のデータベース検索装置。

[11] 要素実体テキストおよび属性値力切り出された部分文字列に関し、出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと属性名 IDと分岐順の情報を少なくとも含むテキスト出現情報を、切り出された部分文字列をキーとして格納した、テキスト出現情報格納部を有し、

前記出現情報取得部が、前記検索条件解析部の出力した内部条件式にしたがって、前記要素出現情報格納部からの要素出現情報、前記祖先パス出現情報格納部からの祖先パス出現情報、および、前記テキスト出現情報格納部力のテキスト出現情報から検索結果群を求める

請求項 9に記載のデータベース検索装置。

[12] 前記出現情報取得部は、前記要素出現情報格納部における指定要素名 IDのェントリ数と、前記祖先パス出現情報格納部における指定祖先パス名 IDのエントリ数の大小を比較し、少な、方の出現情報を参照するようにして検索結果群を求める請求項 9乃至 11のいずれかに記載のデータベース検索装置。

[13] 構造化文書を管理するデータベース構築方法にお!、て、

構造ィ匕文書にユニークな文書番号を割り当てるとともに構造を解析するステップと、前記解析結果に基づいて、構造化文書に出現する各要素名に対してユニークな要素名 IDを割り当てて要素名辞書に登録するステップと、

前記解析結果に基づいて、構造ィ匕文書に出現する各祖先パス名に対してユニークな祖先ノス名 IDを割り当てて祖先パス名辞書に登録するステップと、

前記解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 I Dと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして要素出現情報格納部に、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先ノス出現情報を、祖先パス名 IDをキーとして祖先パス出現情報格納部にそれぞれ登録するステップと、を有するデータベース構築方法。

[14] 前記要素出現情報は、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順と空要素順の情報を少なくとも含み、

前記祖先パス出現情報は、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順と空要素順の情報を少なくとも含む、

請求項 13に記載のデータベース構築方法。

[15] 前記祖先パス名辞書に登録するステップは、構造化文書に出現する各祖先パス名を 1つ以上に分割した各々の部分祖先パス名に対してユニークな祖先ノス名 IDを割り当てて登録するステップであり、

前記要素出現情報には、単一の祖先パス名 IDの代わりに 1つ以上の祖先パス名 ID の列を含み、

前記祖先パス出現情報格納部には、単一の祖先パス名 IDの代わりに 1つ以上の祖先パス名 IDの列をキーとして前記祖先ノス出現情報を登録する、

請求項 13記載のデータベース構築方法。

[16] 前記要素出現情報格納部に同一の要素名 IDをキーとして登録され、文書番号と文字位置以外の情報項目の値が共通であるような前記要素出現情報のエントリ同士をグループィ匕し、前記祖先パス出現情報格納部に同一の祖先パス名 IDをキーとして登録され、文書番号と文字位置以外の情報項目の値が共通であるような前記祖先パス出現情報のエントリ同士をグループィ匕するステップを有する

請求項 13記載のデータベース構築方法。

[17] 構造化文書を管理するデータベース検索方法において、

前記構造化文書の解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして格納した要素出現情報格納部と、前記構造化文書の解析結果に基づいて、着目要素の出現する文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、祖先パス名 IDをキーとして格納した、祖先パス出現情報格納部と、を備えたデータベース検索装置を用い、

検索式を入力するためのステップと、

前記要素名辞書と前記祖先パス名辞書とを参照して、前記入力された検索式を内部条件式に変換するステップと、

前記内部条件式にしたがって、前記要素出現情報格納部からの要素出現情報および、前記祖先パス出現情報格納部からの祖先パス出現情報力検索結果群を求めるステップと、

を有するデータベース検索方法。

構造化文書を管理するデータベース装置において、

構造ィ匕文書に出現する各要素名に対してユニークな要素名 IDを記憶する要素名辞書と、

前記構造化文書に出現する各祖先パス名に対してユニークな祖先パス名 IDを記憶する祖先パス名辞書と、

前記入力文書解析部の解析結果に基づいて、前記構造化文書に出現する各要素名に対してユニークな要素名 IDを割り当てて前記要素名辞書に登録する要素名登録部と、

前記入力文書解析部の解析結果に基づいて、前記構造化文書に出現する各祖先パス名に対してユニークな祖先パス名 IDを割り当てて前記祖先パス名辞書に登録する祖先パス名登録部と、

文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、要素名 IDをキーとして記憶する要素出現情報格納部と、

文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、祖先パス名 IDをキーとして記憶する祖先パス出現情報格納部と、前記入力文書解析部の解析結果に基づいて、着目要素の出現する文書番号と文字位置と祖先パス名 IDと分岐順の情報を少なくとも含む要素出現情報を、前記着目要素の要素名 IDをキーとして前記要素出現情報格納部に登録し、かつ、前記着目要素の出現する文書番号と文字位置と要素名 IDと分岐順の情報を少なくとも含む祖先パス出現情報を、前記着目要素の祖先パス名 IDをキーとして前記祖先パス出現情報格納部に登録する出現情報登録部とを具備するデータベース構築装置と、検索式を入力する検索条件入力部と、

前記要素名辞書と前記祖先パス名辞書とを参照して、前記検索条件入力部で入力された検索式につ!ヽて要素名と祖先パス名とをそれぞれ要素名 IDと祖先パス名 IDとで表現した内部条件式に変換する検索条件解析部と、

前記要素出現情報格納部に記憶している要素出現情報、および、前記祖先パス出現情報格納部に記憶している祖先パス出現情報から、前記検索条件解析部で生成された前記内部条件式にあてはまる検索結果群データを抽出する出現情報取得部とを具備するデータベース検索装置と

を有するデータベース装置。

属性名 IDと対応する属性名を記憶する属性名辞書と、

前記入力文書解析部の解析結果に基づいて、前記構造化文書に出現する各属性名に対してユニークな属性名 IDを割り当てて前記属性名辞書に登録する属性名登録部と、

文書番号と文字位置と祖先パス名 IDと要素名 IDと分岐順の情報を少なくとも含む属性出現情報を、属性名 IDをキーとして記憶する属性出現情報格納部とをさらに有し前記出現情報登録部は、さらに、前記入力文書解析部の解析結果に基づいて、着目属性の出現する文書番号と文字位置と祖先パス名 IDと要素名 IDと分岐順の情報を少なくとも含む属性出現情報を、属性名 IDをキーとして前記属性出現情報格納部に登録するようにし、

前記検索条件解析部は、さらに、前記属性名辞書を参照して、前記検索条件入力部で入力された検索式にっ、て、属性名を属性 IDで表現した内部条件式に変換するようにし、

前記出現情報取得部は、さらに、前記要素出現情報格納部に記憶している要素出現情報と、前記祖先パス出現情報格納部に記憶している祖先パス出現情報と、前記属性出現情報格納部に記憶している属性出現情報とから前記検索条件解析部の出力した前記内部条件式にあてはまる検索結果群データを抽出する

請求項 18に記載のデータベース装置。