WO2008047432A1

WO2008047432A1 - Programme de recherche d'informations, supports d'enregistrement comprenant un tel programme enregistré, procédé de recherche d'informations, dispositif de recherche d'informations

Info

Publication number: WO2008047432A1
Application number: PCT/JP2006/320827
Authority: WO
Inventors: Masahiro Kataoka; Hiroyuki Torii; Masahiro Kurishima; Hideo Kasai
Original assignee: Fujitsu Limited
Priority date: 2006-10-19
Filing date: 2006-10-19
Publication date: 2008-04-24
Also published as: US9081874B2; US8131721B2; JP4707198B2; US20120072434A1; US20090193020A1; JPWO2008047432A1

Description

明細書

情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置

技術分野

[0001] 本発明は、帳票や治験データベースなどの数値データに対する、数値の一致検索や範囲検索、および数値抽象化検索の高速ィ匕技術に関する情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置である。背景技術

[0002] 従来の全文検索では、文字列に対してはインデックスを作成し、検索の高速化が図られている力数値は未対応である。さらに、数字文字列の一致比較は行われている 1S 数値としての一致比較が行われていない。たとえば、全角数字の「6850円」や半角数字の「¥6, 850. -」などの異なる数値表現に対しては、同じ数値に関わらず、数字文字列の比較では「不一致」と判断される。

[0003] 従来より、帳票システムでは、電子帳簿保存法で数値の範囲指定に適合した数値の検索機能 (たとえば、下記特許文献 1を参照。）の実装が義務付けられている。また、電子帳簿はデータ容量の削減とセキュリティのため、圧縮 '暗号化され保管されている。

[0004] したがって、保管されている電子帳簿の数値検索には、各帳簿のファイルの伸長と復号ィヒを行い、各数値データと大小比較を行っており、多大なハードウェア資源と処理時間が必要となっている。なお、関連する全文検索の方式については以下の 3種に大別できるが、いずれも数値検索の高速ィ匕が図られていない。

[0005] ·高度インデックス全文検索:インターネットの全文検索では高度なインデックスを利用することで高速化が図られて、るが、数値の検索〖こはさらに膨大なインデックスが必要となるため、高速化の対象外となっている。

[0006] ·簡易インデックス全文検索:漢字に関する文字構成表などの簡易インデックスにより全文検索の高速ィ匕を行うものであるが、数値に関する高速ィ匕は図られていない。

[0007] ·インデックスレス全文検索:全データに対し、高速な検索エンジンにより文字列照合を行うものであり、数値の検索の高速化は行われてヽな、。

[0008] 特許文献 1 :特開平 3— 19081号公報

発明の開示

発明が解決しょうとする課題

[0009] し力しながら、上述した従来技術における数値の一致検索の場合、非圧縮'非暗号化の数値の一致検索では、インデックスによる高速ィ匕などは図られておらず、数値の一致照合に多大な時間を費やしている。また、「6850円」や「¥6, 850. 一」などの異なる数値表現に対して、「一致」と判定することができない。したがって、簡易インデックスを利用した一致検索の高速化、および「一致」の判定方法の改善が課題である

[0010] また、従来技術における数値の一致検索の場合、圧縮 '暗号化された数値の一致検索では、電子帳簿データなどは保管やセキュリティのため、圧縮 '暗号化されているが、伸長と復号ィ匕の後に大小比較をおこなっており、多大な処理時間を費やしている。したがって、伸長と復号ィ匕の見直しによる速度の改善が課題である。

[0011] また、従来技術における数値の範囲検索の場合、非圧縮'非暗号ィ匕の数値の一致検索では、上述した「数値の一致検索の場合」と同様、簡易インデックスを利用した高速ィ匕が課題である。

[0012] また、従来技術における数値の範囲検索の場合、圧縮 '暗号化された数値の範囲検索では、上述した「数値の一致検索の場合」と同様、伸長と復号化の見直しによる速度の改善が課題である。

[0013] さらに、治験データなどに関する数値の抽象化検索の場合、従来技術には無ぐ数値の範囲検索を工夫し、かつ、人間の判断を交え、さらに各検索を組み合わせて対応して!、る。抽象化の技術の確立と高速化が課題である。

[0014] 本発明は、上記に鑑みてなされたものであって、数値範囲内の数値が存在するファィルを圧縮したまま特定することにより、数値範囲検索の高速化および高精度化を図ることができる情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置を提供することを目的とする。

課題を解決するための手段 [0015] 上述した課題を解決し、目的を達成するために、第 1の発明の情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置は、任意の数値範囲の境界を規定する数値を取得し、取得された境界を規定する数値の桁数および先頭数字を検出し、桁数および先頭数字を満たす数値群内の数値の存否を検索対象ファイルごとにあらわしたビット列の集合の中から、検出された桁数および先頭数字を満たす数値群内の数値の存否を前記検索対象ファイルごとにあらわしたビット列を抽出し、抽出されたビット列の中の、検出された桁数および先頭数字を満たす数値群内の数値の存在を示すビットに対応する検索対象ファイルを、前記複数の検索対象ファイルの中から特定し、特定された検索対象ファイルに含まれてヽるフアイル内数値が、前記境界を規定する数値との境界条件を充足して、る力否かを判断し、判断された判断結果に基づいて、特定された検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定することを特徴とする。

[0016] この発明によれば、数値範囲検索に先立って、桁数および先頭数字を満たす数値群内の数値が含まれている検索対象ファイルの絞込みをおこなうことができる。

[0017] また、上記発明にお!/、て、前記境界を規定する一方の数値の桁数および先頭数字を満たす一方の数値群と、前記境界を規定する他方の数値の桁数および先頭数字を満たす他方の数値群との間に、中間の数値群が存在するか否かを判断し、前記一方の数値群内の数値が存在する検索対象ファイルのうち前記中間数値群内の数値が存在しなヽ検索対象ファイル (以下、「一方の検索対象ファイル」ヽぅ）を特定するとともに、前記他方の数値群内の数値が存在する検索対象ファイルのうち前記中間数値群内の数値が存在しない検索対象ファイル (以下、「他方の検索対象ファイル」 t ヽぅ）を特定し、特定された一方の検索対象ファイルに含まれて！/、るファイル内数値が前記境界を規定する一方の数値との境界条件を充足しているか否か、および、特定された他方の検索対象ファイルに含まれているファイル内数値が前記境界を規定する他方の数値との境界条件を充足して!/ヽるカゝ否かを判断し、判断された判断結果に基づいて、前記一方の検索対象ファイル、前記他方の検索対象ファイル、または前記中間数値群内の数値が存在する検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定することとしてもょヽ。 [0018] この発明によれば、桁数および先頭数字を満たす数値群内の数値が含まれて!/、る検索対象ファイルの絞込みの高速ィ匕を図ることができる。

[0019] また、第 2の発明の情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置は、任意の数値範囲の境界を規定する数値を取得し、取得された境界を規定する数値を所定の圧縮形式で圧縮し、前記境界を規定する数値に関する圧縮情報と、検索対象ファイルを前記所定の形式で圧縮した圧縮化検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足しているか否かを判断し、判断された判断結果に基づいて、前記圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定することを特徴とする。

[0020] この発明によれば、圧縮状態のまま数値の大小を比較することができる。

[0021] また、上記発明にお!/、て、前記境界を規定する数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む圧縮情報に圧縮し、圧縮された圧縮情報と、前記ファィル内数値の桁数を示す数字に関する圧縮符号および前記ファイル内数値の桁ごとの数字に関する圧縮符号とを含む前記ファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足して!ヽるカゝ否かを判断することとしてもよ!ヽ。

[0022] この発明によれば、桁数や先頭桁の数字、 2番目の桁の数字、…と!/、つた順に照合することで、数値の大小比較を段階的に圧縮した状態でおこなうことができる。

[0023] また、上記発明にお!/、て、前記境界を規定する一方の数値の桁数および先頭数字を満たす一方の数値群と、前記境界を規定する他方の数値の桁数および先頭数字を満たす他方の数値群との間に、中間の数値群が存在するか否かを判断し、前記一方の数値群内の数値が存在する圧縮化検索対象ファイルのうち前記中間数値群内の数値が存在しな!、圧縮化検索対象ファイル (以下、「一方の圧縮化検索対象フアイル」という）を特定するとともに、前記他方の数値群内の数値が存在する圧縮化検索対象ファイルのうち前記中間数値群内の数値が存在しない圧縮ィ匕検索対象ファイル (以下、「他方の圧縮化検索対象ファイル」という）を特定し、前記境界を規定する一方の数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む一方の圧縮情報に圧縮するとともに、前記境界を規定する他方の数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む他方の圧縮情報に圧縮し、前記一方の圧縮情報と前記一方の圧縮ィ匕検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合すること〖こより、当該ファイル内数値が前記境界を規定する数値との境界条件を充足しているか否かを判断するとともに、前記他方の圧縮情報と前記他方の圧縮ィ匕検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、当該ファイル内数値が前記境界を規定する数値との境界条件を充足しているカゝ否かを判断し、判断された判断結果に基づいて、前記一方の圧縮化検索対象ファイル、前記他方の圧縮化検索対象ファイル、または前記中間数値群内の数値が存在する圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定することとしてもよい。

[0024] この発明によれば、桁数や先頭桁の数字、 2番目の桁の数字、…と!/、つた順に照合することで、数値範囲検索を段階的に圧縮した状態でおこなうことができる。

[0025] また、上記発明において、前記検索対象ファイル内に存在する数字の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正し、補正された出現頻度に基づいて、前記検索対象ファイルを圧縮し、前記境界を規定する数値に関する圧縮情報と、前記ファイル圧縮工程によって圧縮された前記圧縮ィ匕検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足して!ヽるカゝ否かを判断することとしてもよ!ヽ。

[0026] この発明によれば、数値の圧縮効率を文字データよりも優先的に高くすることができる。

[0027] また、上記発明において、さらに、前記検索対象ファイル内に存在するカンマの出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度にネ ΐ正することとしてもよ、。 [0028] この発明によれば、カンマを含む数値の圧縮効率を文字データよりも優先的に高くすることができる。

[0029] また、上記発明において、さらに、前記検索対象ファイル内に存在する小数点の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度にネ ΐ正することとしてもよ、。

[0030] この発明によれば、小数点を含む数値の圧縮効率を文字データよりも優先的に高くすることがでさる。

[0031] また、第 3の発明の情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置は、数字と文字とが混在する検索対象ファイルの中から数値の存在を示すフィーダを検出し、検出されたフィーダに関連付けられている数値の桁数を検出し、前記検索対象ファイル内に含まれている数字の出現頻度に基づいて、前記数値を前記フィーダに関連付けて、検出された桁数を示す数字に関する圧縮符号と前記数値の桁数ごとの数字に関する圧縮符号とを含む圧縮情報に圧縮することを特徴とする。

[0032] この発明によれば、文字列の中に数字が混在して、るファイル力もも高速に数値を抽出することができる。

[0033] また、上記発明にお、て、前記フィーダは、前記数値の種類を特定する情報としてちょい。

[0034] この発明によれば、圧縮された数値を分類することができ、同種の数値どうしについて数値の大小比較や数値範囲検索をおこなうことができる。

[0035] また、上記発明において、前記数値が全角または半角であることを検出し、さらに、前記数値を、検出された検出結果に関する圧縮符号を含む圧縮情報に圧縮することとしてちよい。

[0036] この発明によれば、数値の全角.半角の区別についても圧縮しておくことにより、全角'半角の区別を示す圧縮符号を無視することで、全角 ·半角の相違を除外して数値の大小比較や数値範囲検索をおこなうことができる。

[0037] また、上記発明において、前記数値の中からカンマを検出し、さらに、前記数値を、検出された検出結果に関する圧縮符号を含む圧縮情報に圧縮することとしてもよい [0038] この発明によれば、数値のカンマの有無についても圧縮しておくことにより、カンマの有無を示す圧縮符号を無視することで、カンマの相違を除外して数値の大小比較や数値範囲検索をおこなうことができる。

[0039] また、上記発明において、前記検索対象ファイル内に存在する数字の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正し、補正された出現頻度に基づいて、前記数値を圧縮することとしてもよい。

[0040] この発明によれば、数値の圧縮効率を文字データよりも優先的に高くすることができる。

[0041] また、上記発明において、さらに、前記検索対象ファイル内に存在するカンマの出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度にネ ΐ正することとしてもよ、。

[0042] この発明によれば、カンマを含む数値の圧縮効率を文字データよりも優先的に高くすることができる。

[0043] また、上記発明において、さらに、前記検索対象ファイル内に存在する小数点の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度にネ ΐ正することとしてもよ、。

[0044] この発明によれば、小数点を含む数値の圧縮効率を文字データよりも優先的に高くすることがでさる。

発明の効果

[0045] この発明によれば、中間数値群内の数値に対して数値検索をおこなうことなぐ数値範囲内の数値が存在するカゝ否かを判断することができ、数値検索の高速ィ匕を図ることができる。

[0046] 本発明に力かる情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置は、数値範囲内の数値が存在するファイルを圧縮したまま特定することにより、数値範囲検索の高速ィ匕および高精度化を図ることができるという効果を奏する。

図面の簡単な説明 [図 1]図 1は、この発明の実施の形態に力かる情報検索装置のハードウェア構成を示すブロック図である。

[図 2]図 2は、電子帳票のデータ構成を示す説明図である。

[図 3]図 3は、図 2に示したファイル構成データ 300を示す説明図である。

[図 4]図 4は、図 2に示したページリストデータ 400を示す説明図である。

[図 5]図 5は、数値'文字出現頻度管理データ 500を示す説明図である。

[図 6]図 6は、この発明の実施の形態に力かる情報検索装置の機能的構成を示すブロック図である。

[図 7]図 7は、図 6に示した数値 ·文字出現頻度管理データ生成部 612の機能的構成を示すブロック図である。

[図 8]図 8は、数値'文字出現頻度管理データ 500の生成処理を示すデータ構成図である。

[図 9]図 9は、連字 Z外字置換処理を示すデータ構成図である。

[図 10]図 10は、最終的に生成された連字 Z外字置換テーブル 640を示す説明図である。

[図 11]図 11は、図 6に示した圧縮 Z暗号ィ匕部 613の詳細な機能的構成を示すブロック図である。

[図 12]図 12は、数字等の出現頻度の補正の一例を示す説明図である。

[図 13]図 13は、数字等の出現頻度の補正の他の例を示す説明図である。

[図 14]図 14は、圧縮 Z暗号化部 613による具体的なハフマン木生成処理を示す説明図である。

[図 15]図 15は、図 11に示したファイルファイル圧縮部 1106の詳細な機能的構成を示すブロック図である。

圆 16- 1]図 16— 1は、数値圧縮処理の第 1の例を示す説明図である。

圆 16-2]図 16— 2は、数値圧縮処理の第 2の例を示す説明図である。

圆 16-3]図 16— 3は、数値圧縮処理の第 3の例を示す説明図である。

[図 16-4]図 16— 4は、数値抽象化データの圧縮処理例を示す説明図である。

[図 17-1]図 17— 1は、ファイル圧縮部 1106によって圧縮された圧縮ィ匕帳票ファイルのデータ構造を示す説明図である。

[図 17-2]図 17— 2は、圧縮ブロックデータ Cl〜Cmと、圧縮前の元のブロックデータとの比較を示す図表である。

[図 18]図 18は、図 6に示した検索初期化部 621の詳細な機能的構成を示すブロック図である。

圆 19]図 19は、第 1の区点対応テーブルと出現マップとの対応関係を示す説明図である。

[図 20]図 20は、第 2の区点対応テーブルと出現マップとの対応関係を示す説明図である。

[図 21]図 21は、検索実行部 622内の全文検索実行部 624の詳細な機能的構成を示すブロック図である。

[図 22]図 22は、圧縮ィ匕帳票ファイル Fiの絞込みの一例を示す説明図である。

[図 23]図 23は、全文検索実行部 624における不一致照合処理を示す説明図である

[図 24]図 24は、図 23に示した圧縮ブロックデータのシフト操作を示す図表である。圆 25]図 25は、照合予測テーブルの生成処理を示す説明図である。

[図 26]図 26は、全ビット不一致照合処理を示す説明図である。

[図 27]図 27は、検索実行部 622内の数値検索実行部 625の詳細な機能的構成を示すブロック図である。

圆 28- 1]図 28— 1は、数値範囲の大小比較例を示す説明図（その 1)である。

圆 28- 2]図 28— 2は、数値範囲の大小比較例を示す説明図（その 2)である。

圆 28- 3]図 28— 3は、数値範囲の大小比較例を示す説明図（その 3)である。

圆 28- 4]図 28— 4は、数値範囲の大小比較例を示す説明図（その 4)である。

[図 29]図 29は、図 6に示した検索結果表示部 623の詳細な機能的構成を示すブロック図である。

[図 30]図 30は、この発明の実施の形態に力かる情報検索装置 600の情報検索処理手順を示すフローチャートである。

[図 31]図 31は、図 30に示した数値 ·文字出現頻度管理データ生成処理 (ステップ S3 001)の詳細な処理手順を示すフローチャートである。

[図 32-1]図 32— 1は、上述した数値 ·文字出現頻度集計処理 (ステップ S3102)の詳細な処理手順を示すフローチャート（前半)である。

[図 32-2]図 32— 2は、数値 ·文字出現頻度集計処理 (ステップ S3102)の詳細な処理手順を示すフローチャート (後半)である。

[図 33]図 33は、図 30に示した圧縮 Z暗号ィ匕処理 (ステップ S 3002)の詳細な処理手順を示すフローチャートである。

[図 34]図 34は、図 33のステップ S3308に示した圧縮処理の詳細な処理手順を示すフローチャートである。

[図 35]図 35は、図 30に示した検索初期化処理 (ステップ S3003)の詳細な処理手順を示すフローチャートである。

[図 36]図 36は、図 30に示した検索処理 (ステップ S 3004)の詳細な処理手順を示すフローチャートである。

[図 37]図 37は、照合予測テーブル生成処理手順を示すフローチャートである。

[図 38]図 38は、圧縮ブロックデータと圧縮キーワードとの不一致判定処理手順を示すフローチャートである。

[図 39]図 39は、全ビット不一致照合処理 (ステップ S 3812およびステップ S 3817)を示すフローチャートである。

[図 40]図 40は、この発明の実施の形態にカゝかる数値検索モードにおける数値検索実行処理手順を示すフローチャートである。

[図 41]図 41は、図 40に示した下限特定 Z比較処理手順を示すフローチャートである

[図 42]図 42は、下限数値照合処理手順を示すフローチャートである。

[図 43]図 43は、図 40に示した上限特定 Z比較処理手順を示すフローチャートである

[図 44]図 44は、上限数値照合処理手順を示すフロ

符号の説明

500 数値 ·文字出現頻度管理データ 510 出現マップ

600 情報検索装置

601 編集部

602 検索部

622 検索実行部

623 検索結果表示部

624 全文検索実行部

625 数値検索実行部

2701 取得部

2702 数値圧縮部

2703 検出部

2704 中間数値群判断部

2706 省略マップ設定部

2707 下限 Z上限マップ生成部

2708 特定部

2709 圧縮情報検索部

2710 境界条件判断部

2711 決定部

発明を実施するための最良の形態

[0049] (情報検索装置のハードウェア構成）

まず、この発明の実施の形態に力かる情報検索装置のハードウェア構成について説明する。図 1は、この発明の実施の形態に力かる情報検索装置のハードウェア構成を示すブロック図である。

[0050] 図 1において、情報検索装置は、 CPU101と、 ROM102と、 RAM103と、 HDD ( ハードディスクドライブ） 104と、 HD (ノヽードディスク） 105と、 FDD (フレキシブルディスクドライブ） 106と、着脱可能な記録媒体の一例としての FD (フレキシブルディスク) 107と、ディスプレイ 108と、 IZF (インターフェース） 109と、キーボード 110と、マウス 111と、スキャナ 112と、プリンタ 113と、を備えている。また、各構成部はバス 100 によってそれぞれ接続されて！、る。

[0051] ここで、 CPU101は、情報検索装置の全体の制御を司る。 ROM102は、ブートプログラムなどのプログラムを記 '慮している。 RAM103は、 CPU101のワークエリアとして使用される。 HDD104は、 CPU101の制御にしたがって HD105に対するデータのリード Zライトを制御する。 HD105は、 HDD104の制御で書き込まれたデータを feす。。

[0052] FDD106は、 CPU101の制御にしたがって FD107に対するデータのリード Zライトを制御する。 FD107は、 FDD106の制御で書き込まれたデータを記憶したり、 FD 107に記憶されたデータを情報検索装置に読み取らせたりする。

[0053] また、着脱可能な記録媒体として、 FD107のほ力、 CD-ROM (CD-R, CD-R W)、 MO、 DVD (Digital Versatile Disk)、メモリーカードなどであってもよい。デイスプレイ 108は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ 108は、たとえば、 CRT, TFT 液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

[0054] IZF109は、通信回線を通じてインターネットなどのネットワーク 114に接続され、このネットワーク 114を介して他の装置に接続される。そして、 IZF109は、ネットワーク 114と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。 I ZF109には、たとえばモデムや LANアダプタなどを採用することができる。

[0055] キーボード 110は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タツチパネル式の入力パッドやテンキーなどであってもよい。マウス 111は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

[0056] スキャナ 112は、画像を光学的に読み取り、情報検索装置内に画像データを取り込む。なお、スキャナ 112は、 OCR機能を持たせてもよい。また、プリンタ 113は、画像データや文書データを印刷する。プリンタ 113には、たとえば、レーザプリンタゃィンクジェットプリンタを採用することができる。

[0057] (電子帳票のデータ構成）つぎに、電子帳票のデータ構成について説明する。図 2は、電子帳票のデータ構成を示す説明図である。図 2において、本明細書において電子帳票とは、帳簿や伝票と、つた帳票を電子化したデータである。電子帳票をあらわすコンテンツ 200は、上位フォルダ 201に保存されている。さら〖こ、上位フォルダ 201〖こは、管理フォルダ 2 02と帳票フォルダ 203と!、う下位のフォルダが含まれて!/、る。

[0058] 管理フォルダ 202には、ファイル構成データ 300 (図 3参照）、ページリストデータ 40 0 (図 4参照）、および数値 ·文字出現頻度管理データ 500 (図 5参照）が保存されている。また、帳票フォルダ 203には、複数の帳票ファイル fi (i=0〜n)力なる帳票フアイル群 fが保存されて、る。

[0059] 各帳票ファイル fiはそれぞれ帳票データ gj (j = 1〜P)を有しており、全帳票ファイル fO〜fnで Pページ分有している。各帳票データ gjは、たとえば、 HTML形式または X ML形式で構成され、アンカーや見出し語などを含むヘッダ部 (宛先データ）、品名データ、数量データ、金額データ、小計部、合計部、トレーラ部などの各種項目データを有している。

[0060] 図 3は、図 2に示したファイル構成データ 300を示す説明図である。ファイル構成データ 300は、各帳票ファイル fO〜fnのファイル番号 i(i=0〜n)ごとにファイルパスを関連付けたデータである。図 3では、ファイル番号 iの帳票ファイル fiを「file (i) . html 」と表記している。

[0061] 図 4は、図 2に示したページリストデータ 400を示す説明図である。ページリストデータ 400とは、図 2に示した帳票ファイル fiと帳票データ gjとファイル構成データ 300とを関連付けるデータである。ページリストデータ 400は、帳票ファイル fiの全ファイル数（ n+ 1個）、ブロックサイズ (m byte)、帳票データ gjの全データ数（P個）、帳票フアイル fiのファイルパスデータ FP (0)〜FP (n)、ページリストを有する。

[0062] また、ページリストデータ 400は、ファイルパスデータ FP (i)ごとに、ファイル番号とブロック数と図 3に示したファイルパスとを有する。また、ページリスト 401は、ファイル番号 iごとにオフセット、レングス、ページ番号見出し語が記述されているリストである。

[0063] 図 5は、数値 ·文字出現頻度管理データ 500を示す説明図である。図 5において、数値 ·文字出現頻度管理データ 500は、数値 ·文字データの出現頻度を管理するデータである。ここで、数値'文字データは、数値データと文字データとに分けられる。数値データとは、 0〜9の数字、 00〜99などの 2以上の連続する数字からなる数字連字、桁数および先頭数字が共通する数値群、軽度高血圧など数値を抽象的な表現であらわした抽象化数値データを含むデータである。

[0064] ここで、数値群とは、桁数および先頭数字により規定される数値範囲内の数値の集合である。たとえば、 3桁でかつ先頭数字が 2である数値群とは、数値範囲 200〜29 9内の数値の集合である。

[0065] また、文字データとは、英字、かな、漢字、文字連字などを含むデータである。具体的には、 8ビット系（ASCII)である英字、カタカナ、記号、 16ビット系 (JIS)の英字、力タカナ、記号、 16ビット系 CFIS)の仮名や漢字などが文字データに含まれる。これら英字や、仮名、カタカナなどの 8ビットコードが中心である表音文字および漢字の文字データを、本明細書にぉ、て「標準文字データ」と称す。

[0066] また、文字データには、標準文字データのほか、外字および文字連字が含まれる。

文字連字とは、 2以上の文字列力もなる文字データである。たとえば、 16ビットの 2つの仮名の文字連字である場合、当該文字連字は、 32ビットコードの文字データからなる。また、非文字データではあるがアドレスポインタなどのバイナリデータも便宜的に上記「文字データ」に含めることとする。以下、特に断りがない限り、「文字データ」という用語には、バイナリデータも含まれる。

[0067] また、数値 ·文字出現頻度管理データ 500は、数値'文字データの出現頻度、出現ファイル数（ブロック数でもよい）、出現順位、出現マップ 510 (501〜509)を有する。出現頻度とは、全帳票ファイル fO〜fnにおいて当該数値 ·文字データが出現した頻度（回数)である。出現ファイル数とは、全帳票ファイル fO〜fnにおいて当該数値 '文字データが出現した帳票ファイルの数である。出現順位とは、出現頻度順のランクである。

[0068] 出現マップ 510とは、帳票ファイル fi順に配列された n+ 1ビットのビット列であり、数値'文字データの存否をあらわしている。図 5では、左端のビットが帳票ファイル fOに対応するビットであり、右端のビットが帳票ファイル fnに対応するビットである。 [0069] 各ビットにおいて「1」が ONをあらわしており、「0」が OFFをあらわしている。すなわち、ある数値'文字データにおいて、その出現マップ 510中、帳票ファイル fiに対応するビットが「1」である場合、当該数値'文字データが帳票ファイル fiに存在することをあらわしている。また、帳票ファイル fiに対応するビットが「0」である場合、当該数値 •文字データが帳票ファイル fiに存在しなヽことをあらわしてヽる。

[0070] (情報検索装置の機能的構成）

つぎに、この発明の実施の形態に力かる情報検索装置の機能的構成について説明する。図 6は、この発明の実施の形態に力かる情報検索装置の機能的構成を示すブロック図である。図 6において、情報検索装置 600は、編集部 601と検索部 602とから構成されている。

[0071] まず、編集部 601は、ファイル構成データ抽出部 611と、数値'文字出現頻度管理データ生成部 612と、圧縮 Z暗号化部 613と、カゝら構成されている。ここでは、検索対象として帳票ファイルを例に挙げて、るが、数値データが含まれて、るコンテンツであれば、帳票ファイル以外のデータでもよい。

[0072] ファイル構成データ抽出部 611は、図 3に示したファイル構成データ 300を参照して、帳票ファイル fO〜fnから図 4に示したページリストデータ 400を抽出する。また、数値 ·文字出現頻度管理データ生成部 612は、帳票ファイル f 0〜f nから数値 ·文字出現頻度管理データ 500を生成する。さらに、数値 ·文字出現頻度管理データ生成部 612は、複数の帳票ファイル fO〜fnに記述されている数字連字や文字連字を外字に置換する連字 Z外字置換テーブル 640を生成する。以降、数字連字および文字連字をまとめて、「連字データ」と称す。

[0073] また、圧縮 Z暗号化部 613は、帳票ファイル fO〜fnを圧縮して圧縮ィ匕帳票ファイル群 Fを生成するとともに、数値 ·文字出現頻度管理データ 500および連字 Z外字置換テーブル 640を暗号ィ匕して、暗号化数値'文字出現頻度管理データ 650および暗号化連字 Z外字置換テーブル 660を生成する。

[0074] また、検索部 602は、検索初期化部 621と、検索実行部 622と、検索結果表示部 6 23とから構成されている。検索初期化部 621は、暗号化数値 ·文字出現頻度管理データ 650および暗号ィ匕連字 Z外字置換テーブル 660を復号して、検索部 602による検索の初期化を実行する。

[0075] また、検索実行部 622は、数値 ·文字出現頻度管理データ 500や連字 Z外字置換テーブル 640を用いて、検索処理を実行することにより、検索候補一覧を生成する。具体的には、検索実行部 622は、全文検索を実行する全文検索実行部 624と、数値検索を実行する数値検索実行部 625とを備える。

[0076] 全文検索実行部 624は、検索キーワードの入力を受け付け、圧縮化帳票ファイルの全文検索を実行することにより、検索キーワードに該当する帳票ファイル fiを示す検索候補一覧を生成する。

[0077] また、数値検索実行部 625は、数値や数値範囲の入力を受け付け、圧縮化帳票フアイル群 Fに対して数値検索を実行することにより、入力された数値や数値範囲に該当する帳票ファイル fiを示す検索候補一覧を生成する。

[0078] また、検索結果表示部 623は、検索実行部 622による検索候補の中から、ユーザに選択された検索候補を伸長して、検索結果として表示する。なお、上述した帳票フアイル、数値'文字出現頻度管理データ 500、ファイル構成データ 300、ページリストデータ 400、連字 Z外字置換テーブル 640、圧縮化帳票ファイル群 F、暗号化数値 · 文字出現頻度管理データ 650および暗号ィ匕連字 Z外字置換テーブル 660は、具体的には、たとえば、図 1に示した ROM102、 RAM103、 HD105などの記録媒体によって、その機能を実現する。

[0079] また、編集部 601 (内部の機能的構成含む)および検索部 602 (内部の機能的構成含む）は、具体的には、たとえば、図 1に示した ROM102、 RAM103、 HD105などの記録媒体に記録されたプログラムを、 CPU101が実行することによって、その機能を実現する。

[0080] (数値'文字出現頻度管理データ生成部 612の機能的構成）

つぎに、図 6に示した数値 ·文字出現頻度管理データ生成部 612の機能的構成について説明する。図 7は、図 6に示した数値 ·文字出現頻度管理データ生成部 612の機能的構成を示すブロック図である。図 7において、数値'文字出現頻度管理データ生成部 612は、数値，文字データ抽出部 701と、数値，文字出現頻度集計部 702と、ソート部 703と、生成処理部 704とから構成されてヽる。 [0081] 数値 ·文字データ抽出部 701は、帳票ファイルから数値'文字データを順次抽出する。数値'文字出現頻度集計部 702は、数値 ·文字データ抽出部 701によって抽出された数値'文字データの帳票ファイル fiにおける出現頻度を集計する。また、数値- 文字出現頻度集計部 702は、数値'文字データの帳票ファイル fO〜fnごとの存否も検出する。

[0082] また、ソート部 703は、出現頻度順に数値'文字データをソートする。生成処理部 7 04は、ソートされた各数値'文字データの出現頻度と、存否検出結果である各数値' 文字データの出現マップ 501〜509とを用いて、数値'文字出現頻度管理データ 50 0を生成する。また、連字 Z外字置換テーブル 640も生成する。ここで、数値'文字出現頻度管理データ生成部 612による数値 ·文字出現頻度管理データ 500および連字 Z外字置換テーブル 640の生成処理を具体的に説明する。

[0083] 図 8は、数値 ·文字出現頻度管理データ 500の生成処理を示すデータ構成図である。図 8において、（A)は、数値'文字出現頻度集計部 702によって数値'文字データが集計されたときの数値'文字出現頻度管理データ 500のデータ構成、（B)は、連字 Z外字置換処理後の数値'文字出現頻度管理データ 500のデータ構成、 (C)は、標準文字データおよび外字データ力なる混合データのソート後における数値 ·文字出現頻度管理データ 500のデータ構成、 (D)は、低出現頻度の混合データのカツト後における数値 ·文字出現頻度管理データ 500のデータ構成、（E)は、最終的に生成された数値 ·文字出現頻度管理データ 500のデータ構成を示している。

[0084] (A)にお、て、符号 800は、文字出現頻度管理データ 500の管理領域である。また、符号 801は、数値データ (数字連字を除く）の出現頻度、出現ファイル数、出現順位、出現マップを記憶する数値領域である。また符号 802は、 8ビット系 (ASCII) である英字、カタカナ、記号、 16ビット系 (JIS)の英字、カタカナ、記号、 16ビット系 (J IS)のかなや漢字などの標準文字データの出現頻度、出現ファイル数、出現順位、出現マップを記憶する標準文字領域である。

[0085] また、符号 803は、外字の出現頻度、出現ファイル数、出現順位、出現マップを記憶する外字領域である。また、符号 804は、連字データの出現頻度、出現ファイル数、出現順位、出現マップを記憶する連字領域である。また、符号 805は、 8ビットのバイナリデータの出現頻度、出現ファイル数、出現順位を記憶するバイナリ領域である

[0086] (A)のデータ構造において、連字領域 804の連字データは、その出現頻度順にソートされる。そして、所定の出現頻度以上の連字データを、外字データと重複しないように、他の外字データ（以下、「連字外字データ」）に置換する。このように、出現頻度の高、複数の文字列からなる連字データを、単一文字データである外字データに置換することにより、データ量の削減を図ることができ、圧縮効率の向上を図ることができる。なお、所定の出現頻度未満の連字データは、低出現頻度の連字データであるため、単一の文字データに分解されて、該当する領域に割り当てられる。この結果、（B)連字 Z外字置換処理後の数値'文字出現頻度管理データ 500のデータ構成となる。

[0087] また、（B)のデータ構造において、数値領域 801のデータ、標準文字領域 802の標準文字データおよび外字領域 803の外字データを混合して高出現頻度順にソートした結果力（C)のデータ構造である。（C)のデータ構造において、（B)に示した連字外字領域 814の連字外字データおよびバイナリ領域 805のバイナリデータは、ソートの対象外である。

[0088] (C)のデータ構造にお!、て、数値データと標準文字データと外字データとが混在する混合領域 812において、低出現頻度、たとえば、出現回数 0回のデータはカットされる。このカットされたときのデータ構造力（D)のデータ構造である。（D)において、管理領域 800および混合領域 812と、連字外字領域 814と、バイナリ領域 805とを結合することで、（E)のデータ構造で示したような、最終的な数値'文字出現頻度管理データ 500を生成することができる。

[0089] この数値.文字出現頻度管理データ 500において、管理領域 800には、ファイル. ブロック数と、出現文字データの種類の数（出現文字数 (種類)）と、連字外字データの数 (連字数 (256種)）と、バイナリデータ数 (バイナリ（256種)）とが記録される。

[0090] そして、図 5に示した数値 ·文字出現頻度管理データ 500は、バイナリデータを除く数値 ·文字データごとに、出現頻度と出現マップ 510とが対応付けられている。数値' 文字データは高出現頻度順にソートされている。なお、後述するが、図 5に示した数値-文字出現頻度管理データ 500において、数値 ·文字データとその出現頻度は、所定のマスタキーを用い、暗号ィ匕アルゴリズムである排他的論理和 (XOR)などによつて暗号ィ匕される。

[0091] つぎに、連字 Z外字置換処理について具体的に説明する。図 9は、連字 Z外字置換処理を示すデータ構成図である。図 9において、（F)は、数値'文字出現頻度集計部 702によって連字データが集計されたときの数値'文字出現頻度管理データ 500 の連字領域 804のデータ構成、（G)は、連字データのソート後における連字領域 80 4のデータ構成、（H)は、置換後におけるデータ構成を示している。

[0092] (F)のデータ構造にお!、て、連字領域 804は、領域 901〜907を有して!/、る。領域 901には、 8ビット系（ASCII)の数字列データ（「00」〜「99」）の情報（当該数字列データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。

[0093] 領域 902には、 8ビット系（八3じ11)の英字列データ（「^」〜「22」）の情報（当該英字列データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。また、領域 903には、 8ビット系 (ASCII)のカタカナ列データ（「ァァ」〜「ンン」、濁音 •半濁音)の情報（当該カタカナデータ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。

[0094] 領域 904には、 16ビット系（JIS)の数字列データ（「00」〜「99」）の情報（当該数字列データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。また、領域 905には、 16ビット系(113)の英字列データ（「^」〜「22」）の情報（当該数字列データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。

[0095] 領域 906には、 16ビット系（JIS)のカタカナ列データ（「ァァ」〜「ンン」、濁音 ·半濁音)の情報（当該カタカナ列データ、出現頻度、出現ファイル数、出現順位、出現マツプ）が記憶されている。また、領域 907には、 16ビット系 (JIS)の仮名列データ（「ああ」〜「んん」、濁音，半濁音)の情報（当該仮名列データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。

[0096] また、（G)のデータ構造は、（F)のデータ構造を、各連字データの高出現順にソートすることにより得られるデータ構造である。（G)のデータ構造において、領域 911は、高出現頻度の連字データの情報であり、外字データへの置換対象となる。一方、領域 912は、所定の出現頻度以下の連字データ (低出現頻度連字データ）の情報である。この低出現頻度連字データは、単一の文字データに分解される。これにより文字データの出現頻度と出現マップ 505〜509とが補正される。

[0097] また、（H)のデータ構造は、（G)のデータ構造のうち高出現頻度の連字データを外字に置換することによって得られるデータ構造である。連字外字領域 814には、置換された連字外字データの情報（当該連字外字データ、出現頻度、出現ファイル数、出現順位、出現マップ）が記憶されている。

[0098] また、図 10は、最終的に生成された連字 Z外字置換テーブル 640を示す説明図である。連字 Z外字置換テーブル 640は、（G)のデータ構造の領域 911の連字データと、 (H)のデータ構造の領域 814の連字外字データとを対応させることによって生成される。

[0099] (圧縮 Z暗号化部 613の詳細な機能的構成）

つぎに、図 6に示した圧縮 Z暗号ィ匕部 613の詳細な機能的構成について説明する。図 11は、図 6に示した圧縮 Z暗号ィ匕部 613の詳細な機能的構成を示すブロック図である。図 11において、圧縮 Z暗号ィ匕部 613は、出現頻度補正部 1101と、低出現頻度数値，文字データ分解部 1102と、暗号化部 1103と、生起確率演算部 1104と、ハフマン木生成部 1105と、ファイル圧縮部 1106と、力構成されている。

[0100] まず、出現頻度補正部 1101は、数値 ·文字出現頻度管理データ 500内の数字に関する出現頻度を補正する。具体的には、たとえば、 0〜9の数字や小数点、フィーダ (以下、「数字等」という）に対する圧縮符号のビット幅を設定し、そのビット幅に応じた出現頻度を、 0〜9の数字等に対して設定する。より具体的には、文字データの出現頻度よりも高くなるように強制的に数字等の出現頻度を補正する。

[0101] 図 12は、数字等の出現頻度の補正の一例を示す説明図である。図 12では、数値' 文字データの出現頻度を補正する符号ィ匕テーブルを示している。図 12では、圧縮符号のビット幅力ビットであるため、数値等の各出現頻度を 1Z16とする。そして、さらに出現順位に応じて出現頻度を加算している。図 12に示した補正例は、数値が多い帳票ファイルに有効である。なお、補正により出現頻度の総和が 1を超過した場合

、その他の文字データの出現頻度に応じて、その他の文字データの出現頻度が補正される。

[0102] 図 13は、数字等の出現頻度の補正の他の例を示す説明図である。図 13でも、数値'文字データの出現頻度を補正する符号ィ匕テーブルを示している。図 13では、圧縮符号のビット幅が 5ビットであるため、数値等の各出現頻度を 1Z32とする。そして、さらに出現順位に応じて出現頻度を加算している。図 13に示した補正例は、文字データが多いホームページなどに有効である。なお、補正により出現頻度の総和が 1 を超過した場合、その他の文字データの出現頻度に応じて、その他の文字データの出現頻度が補正される。

[0103] また、図 11において、低出現頻度数値'文字データ分解部 1102は、数値'文字出現頻度管理データ 500内における文字領域の数値 ·文字データを高出現頻度順にソートする。そして、所定の出現頻度以下の残余の低出現頻度の数値'文字データを 8ビットコードに分解して、同じ 8ビットコードであるバイナリデータが記憶されているノイナリ領域に記憶する。

[0104] 暗号ィ匕部 1103は、低出現頻度数値 ·文字データ分解部 1102による分解によって得られた数値'文字出現頻度管理データ 500を、所定のマスタキーを用いて XOR〖こよる暗号ィ匕をおこない、暗号ィ匕数値 ·文字出現頻度管理データ 650を生成する。連字 Z外字置換テーブル 640も同様に、所定のマスタキーを用いて XORによる暗号ィ匕をおこな、、暗号ィ匕連字 Z外字置換テーブル 660を生成することとしてもょ、。

[0105] また、生起確率演算部 1104は、低出現頻度数値 ·文字データ分解部 1102による分解によって得られた文字出現頻度管理データ 500における数値データ、標準文字データ、連字外字データおよびバイナリデータを高出現順にソートして、これらの生起確率を演算する。また、ハフマン木生成部 1105は、生起確率演算部 1104によつて演算された生起確率力ハフマン木を生成する。

[0106] また、ファイル圧縮部 1106は、ハフマン木生成部 1105によって生成されたハフマン木を用いて帳票ファイル群 fを圧縮し、圧縮化帳票ファイル群 Fを生成する。具体的には、各帳票ファイル fO〜fnに記述されている数値 ·文字データに対して、補正後の出現頻度が高い順、すなわち生起確率が高い順に短いビットを割り当てて、帳票ファィル群 fを圧縮する。ファイル圧縮部 1106による帳票ファイル群 fの圧縮は、数値と文字データとで圧縮法が異なる。この点については後述する。

[0107] つぎに、圧縮 Z暗号ィ匕部 613による具体的なハフマン木生成処理について説明する。図 14は、圧縮 Z暗号化部 613による具体的なハフマン木生成処理を示す説明図である。図 14の (I)に示した数値'文字出現頻度管理データ 500を、低出現頻度数値'文字データ分解部 1102により、低出現頻度の文字データを分解して、バイナリデータが記憶されて、るバイナリ領域に記憶する（図 14中 ω )。

[0108] つぎに、 ωのデータ構造にぉ、て、混合領域、連字外字領域、およびバイナリ領域内のすべての数値 ·文字データを高出現頻度順にソートする（図 14中（Κ) )。そして、（Κ)の領域 1400において、出現頻度をノヽフマンの圧縮パラメータとして各数値' 文字データの生起確率を演算する（図 14中（L) )。最後に (L)において、各数値'文字データの生起確率からハフマン木 1401を生成する（図 14中（M) )。

[0109] (ファイル圧縮部 1106の詳細な機能的構成）

つぎに、図 11に示したファイル圧縮部 1106の詳細な機能的構成にっ、て説明する。図 15は、図 11に示したファイル圧縮部 1106の詳細な機能的構成を示すブロック図である。

[0110] 図 15において、ファイル圧縮部 1106は、フィーダ検出部と、文字データ抽出部と、数値抽出部と、数値詳細情報検出部と、圧縮処理部と、から構成されている。

[0111] まず、フィーダ検出部 1501は、帳票ファイル fiの中力もフィーダを検出する。フィーダは数値の先頭に位置するため、フィーダが検出されると、その後には数値が存在することとなり、フィーダが検出されないと、当該文字データと認識される。

[0112] また、文字データ抽出部 1502は、フィーダ検出部 1501によりフィーダにフィーダが検出されな力つた場合、その位置のデータを文字データとして抽出する。抽出された文字データは圧縮処理部 1505にお、て圧縮処理される。

[0113] 数値抽出部 1503は、フィーダ検出部 1501によりフィーダが検出された場合、当該フィーダに関連付けられている数値、たとえば、フィーダに続く数字列を数値として抽出する。この場合、数字列の中に、カンマや小数点が含まれている場合、そのカンマや小数点も抽出する。

[0114] また、数値詳細情報検出部 1504は、数値抽出部 1503によって抽出された数値の詳細な情報を抽出する。ここで、詳細な情報とは、たとえば、桁数はいくつか、数値が全角であるか半角である力カンマが含まれている力、小数点が含まれている力、含まれて、る場合の小数点の位置などを検出する。

[0115] また、圧縮処理部 1505は、ハフマン木生成部 1105によって生成されたハフマン木を用いて、文字データ抽出部 1502によって抽出された文字データや、数値抽出部 1503によって抽出された数値データを圧縮する。

[0116] 数値を圧縮する場合、ハフマン木を用いて、桁数を示す数字や桁ごとの数字を、当該数字に応じた圧縮符号に変換する。このとき、桁ごとの数字の圧縮符号は、桁順に配列するものとする。また、数値に小数点が含まれている場合、小数点に応じた圧縮符号に変換する。カンマの有無や全角'半角については、 1ビットであらわす。

[0117] (数値圧縮処理）

つぎに、上述した圧縮処理部 1505における数値圧縮処理について説明する。数値圧縮処理では、まず、金額や血圧などの数値情報から数値のみを抽出する。そして、この抽出された数値を圧縮する。具体的には、図 12や図 13に示した符号ィ匕テ一ブルを参照して、フィーダの圧縮符号を読み出す。

[0118] つぎに、数値が半角か全角かを示すビット（全角 ·半角ビット）を設定する。この全角

'半角ビットは全角の場合が「1」で半角の場合が「0」である。また、数値がカンマ「，」を用いた表記である力否かを示すカンマ有無ビットを設定する。このカンマ有無ビットはカンマ有りの場合が「 1」でカンマ無しの場合が「0」である。

[0119] つぎに、数値の桁数を検出する。検出された桁数は小数点以下の桁数は含まれないこととする。そして、検出された桁数が示す数字の圧縮符号を図 12に示した符号化テーブルから読み出す。また、数値を構成する先頭桁から末尾桁までの数字の圧縮符号を、図 12や図 13に示した符号ィ匕テーブルカゝら読み出す。

[0120] つぎに、数値に小数点があれば小数点の圧縮符号を図 12や図 13に示した符号ィ匕テーブルから読み出す。このようにして、数値は、圧縮符号およびビットからなる数字列に圧縮される。以下、図 12の符号ィ匕テーブルを用いた圧縮処理例について説明する。なお、圧縮処理された数値を、圧縮数値と称す。

[0121] 図 16— 1は、数値圧縮処理の第 1の例を示す説明図である。図 16— 1においては、数値情報「¥6, 800.―」から先頭の「¥」および末尾の「―」を分離して、数値「6, 800.」を抽出する。そして、この数値「6, 800.」を圧縮する。

[0122] 具体的には、数値の開始位置を示すフィーダ「x' B'」の圧縮符号「1011」を図 12 に示した符号ィ匕テーブル力も読み出す。つぎに、数値「6, 800.」が半角であることを示す全角.半角ビット「0」を設定する。また、数値データ「6, 800.」がカンマ「，」を用いた表記であることを示すカンマ有無ビット「1」を設定する。つぎに、数値「6, 800 .」の桁数「4」を検出し、検出された桁数「4」の圧縮符号「0100」を図 12に示した符号化テーブルから読み出す。

[0123] つぎに、数値「6, 800.」の先頭数字「6」、第 2数字「8」、第 3数字「0」、および末尾数字「0」までの数字の圧縮符号「0110」，「1000」，「0000」，「0000」を、図 12に示した符号ィ匕テーブル力も読み出す。最後に、数値「6, 800.」の小数点「x'A'」の圧縮符号「1010」を、図 12に示した符号ィ匕テーブル力も読み出す。このようにして、数値「6, 800.」は圧縮されることとなる。

[0124] 図 16— 2は、数値圧縮処理の第 2の例を示す説明図である。図 16— 2においては、数値情報「 $ 680. 50—」から先頭の「 $」および末尾の「―」を分離して、数値「68 0. 50」を抽出する。そして、この数値「680. 50」を圧縮する。

[0125] 具体的には、数値の開始位置を示すフィーダ「x' B'」の圧縮符号「1011」を図 12 に示した符号ィ匕テーブル力も読み出す。つぎに、数値「680. 50」が半角であることを示す全角.半角ビット「0」を設定する。また、数値「680. 50」がカンマ「，」を用いていない表記であることを示すカンマ有無ビット「0」を設定する。つぎに、数値「680. 5 0」の桁数「3」を検出し、検出された桁数「3」の圧縮符号「0011」を図 12に示した符号化テーブルから読み出す。

[0126] つぎに、数値「680. 50」の先頭数字「6」、第 2数字「8」、第 3数字「0」、小数点「x， A'」、第 4数字「5」、および末尾数字「0」までの数字の圧縮符号「0110」，「1000」，「0000」，「1010」，「0101」，「0000」を、図 12に示した符号ィ匕テープノレ力ら読み出す。このようにして、数値「680. 50」は圧縮されることとなる。

[0127] 図 16— 3は、数値圧縮処理の第 3の例を示す説明図である。図 16— 3においては、数値情報「6800円」から末尾の「円」を分離して、数値「6800」を抽出する。そして、この数値「6800」を圧縮する。

[0128] 具体的には、数値の開始位置を示すフィーダ「x' B'」の圧縮符号「1011」を図 12 に示した符号ィ匕テーブルカゝら読み出す。つぎに、数値「6800」が全角であることを示す全角.半角ビット「1」を設定する。また、数値「6800」がカンマ「，」を用いていない表記であることを示すカンマ有無ビット「0」を設定する。つぎに、数値「6800」の桁数「4」を検出し、検出された桁数「4」の圧縮符号「0100」を図 12に示した符号ィ匕テ一ブルから読み出す。

[0129] つぎに、数値「6800」の先頭数字「6」、第 2数字「8」、第 3数字「0」、および末尾数字「0」までの数字の圧縮符号「0110」，「1000」，「0000」，「0000」を、図 12に示した符号ィ匕テーブル力も読み出す。このようにして、数値「6800」は圧縮されることとなる。

[0130] 図 16— 4は、数値抽象化データの圧縮処理例を示す説明図である。図 16— 4においては、 HTMLデータ中、最小血圧の値を示す数値抽象化データ「<最小血圧 > 1 07<最小血圧 >」から先頭および末尾の「 < Z最小血圧 >」を分離して、数値「107 」を抽出する。そして、この数値「107」を圧縮する。

[0131] 具体的には、数値の開始位置を示すフィーダ「x' 0B'」の圧縮符号「00001011」を図 12に示した符号ィ匕テーブル力も読み出す。このフィーダ「x' 0B'」は、数値が最終血圧であることを識別するフィーダである。つぎに、数値「107」が半角であることを示す全角.半角ビット「0」を設定する。また、数値「107」がカンマ「，」を用いていない表記であることを示すカンマ有無ビット「0」を設定する。つぎに、数値「107」の桁数「 3」を検出し、検出された桁数「3」の圧縮符号「0011」を図 12に示した符号ィ匕テープルから読み出す。

[0132] つぎに、数値「107」の先頭数字「1」、第 2数字「0」、および第 3数字「7」までの数字の圧縮符号「0001」，「0000」，「0111」を、図 12に示した符号化テーブルから読み出す。このようにして、数値「107」は圧縮されることとなる。

[0133] (圧縮化帳票ファイルのデータ構造）

つぎに、ファイル圧縮部 1106によって圧縮された圧縮ィ匕帳票ファイルのデータ構造について説明する。図 17—1は、ファイル圧縮部 1106によって圧縮された圧縮ィ匕帳票ファイルのデータ構造を示す説明図である。図 17— 1では、任意の圧縮化帳票ファイル Fiに着目して説明する。この圧縮ィ匕帳票ファイル Fiは、ブロック数情報 (m個 )を格納する領域 1701と、 m個の各ブロックのアドレス情報（# l〜# m)を格納する領域 1702と、各ブロックの圧縮ブロックデータ Cl〜Cmを格納する領域 1703から構成される。

[0134] また、図 17— 2は、圧縮ブロックデータ Cl〜Cmと、圧縮前の元のブロックデータとの比較を示す図表である。図 17— 2を参照すると、圧縮ブロックデータ Cl〜Cmのレンダスが、対応する元のブロックデータのレングスの約半分に圧縮されて、ることがわかる。

[0135] (検索初期化部 621の詳細な機能的構成）

つぎに、図 6に示した検索初期化部 621の詳細な機能的構成について説明する。図 18は、図 6に示した検索初期化部 621の詳細な機能的構成を示すブロック図である。図 18において、検索初期化部 621は、復号部 1801と、低出現頻度数値，文字データ分解部 1802と、生起確率演算部 1803と、ハフマン木生成部 1804と、出現マップ設定部 1805と、力構成されている。

[0136] まず、復号部 1801は、暗号化数値'文字出現頻度管理データ 650を復号する。具体的には、図 11で用いた暗号ィ匕のマスタキーを用いて排他的論理和 (XOR)による復号処理を実行する。同様に、暗号化連字 Z外字置換テーブル 660も、元の連字 Z外字置換テーブル 640に戻す。また、低出現頻度数値 ·文字データ分解部 1802 、生起確率演算部 1803およびノヽフマン木生成部 1804は、図 11に示した低出現頻度数値 ·文字データ分解部 1102、生起確率演算部 1104およびハフマン木生成部 1 105と同一の処理を実行し、ハフマン木 1810を生成する。このハフマン木は、出現頻度補正部 1101により補正されたハフマン木となる。

[0137] また、出現マップ設定部 1805は、復号された数値 ·文字出現頻度管理データ 500 の出現マップ 510を読み込んでメモリ展開し、区点対応テーブルとリンクする。区点は、 JISによって制定された全角文字向けの文字コードであり、区点対応テーブルは、各区点のアドレスを記憶したテーブルである。

[0138] 図 19は、文字の区点対応テーブルと出現マップとの対応関係を示す説明図である。文字の区点対応テーブル 1900は、数値'文字出現頻度管理データ 500の文字データと出現マップ 505〜509とを対応づけるテーブルである。この文字の区点対応テ一ブル 1900により、区点に対応する文字データの存否をあらわすビット列の出現マップ 505〜509を呼び出すことができる。

[0139] 図 20は、数値の区点対応テーブルと出現マップとの対応関係を示す説明図である。数値の区点対応テーブル 2000は、数値'文字出現頻度管理データ 500の数値群と出現マップ 503とを対応づけるテーブルである。この数値の区点対応テーブル 200 0により、区点に対応する数値群内の数値の存否をあらわすビット列の出現マップ 50 3を呼び出すことができる。

[0140] (全文検索実行部 624の詳細な機能的構成）

つぎに、図 6に示した検索実行部 622内の全文検索実行部 624の詳細な機能的構成について説明する。図 21は、検索実行部 622内の全文検索実行部 624の詳細な機能的構成を示すブロック図である。

[0141] 図 21において、全文検索実行部 624は、検索キーワード入力処理部 2101と、検索キーワード圧縮部 2102と、出現マップ読取部 2103と、圧縮化帳票ファイル特定部 2104と、圧縮ィ匕帳票ファイル抽出部 2105と、判定部 2106と、ブロック伸長部 21 07と、文字列比較部 2108と、ファイル構成データ特定部 2109と、検索候補一覧表示部 2110と、検索候補選択部 2111と、力構成されている。

[0142] まず、検索キーワード入力処理部 2101は、ユーザからの検索キーワードの入力を受け付ける。また、検索キーワードが複数ある場合、各検索キーワードの文字列を連結する。さらに、検索キーワードの連字が所定の連字に該当する場合、連字 Z外字置換テーブル 640を用いて、連字を外字に置換する。このあと、検索キーワード入力処理部 2101は、検索キーワードを単一文字に分解する。

[0143] また、検索キーワード圧縮部 2102は、検索キーワード入力処理部 2101によって入力された検索キーワードを、検索初期化部 621のハフマン木生成部 1804によって生成されたハフマン木 1810を用いて圧縮する。また、出現マップ読取部 2103は、出現マップ設定部 1805によって設定された出現マップ 510を用いて、検索キーワードの各文字の各帳票ファイル fO〜fnにおけるビット列を読み取る。具体的には、この出現マップ 510における各文字データは、区点対応テーブルにより区点とリンクしているため、区点と一致する検索キーワードの各文字データのビット列を読み取ることができる。

[0144] 圧縮ィ匕帳票ファイル特定部 2104は、出現マップ 510から読み取られた各文字の各帳票ファイル fO〜fnにおけるビット列の論理積を算出することにより、検索キーワードの各文字データがすべて存在する圧縮化帳票ファイルを特定することで、圧縮化帳票ファイルの絞込みをおこなう。ここで、絞込みの一例について説明する。

[0145] 図 22は、圧縮ィ匕帳票ファイル Fiの絞込みの一例を示す説明図である。図 22においては、検索キーワードを『出金伝票』とし、帳票ファイルの数を 4個、すなわち、ファィル番号 i=0〜3までとする。図 22において、たとえば、文字『出』のビット列は [110 0]である。このビット列は、ファイル番号 0、 1の帳票ファイル f0、 flには文字『出』が含まれており、ファイル番号 2、 3の帳票ファイル f2、 f3には文字『出』が含まれていないことを示している。

[0146] そして、図 22において、絞込み結果は、ファイル番号 iごとのビットの論理積 (AND )結果を示している。この絞込み結果によれば、ファイル番号 1の帳票ファイル flのみ力存在を示すビット「1」となっているため、検索キーワードを構成するすべての文字『出』、『金』、『伝』および『票』は、帳票ファイル flにのみ存在し、他の帳票ファイル fO 、 f2、 f 3には存在しないことがわかる。これにより、検索対象としてオープンするフアイルを、帳票ファイル flを圧縮した圧縮ィ匕帳票ファイル F1のみに特定することができ、無駄なファイルのオープン Zクローズ処理を防止して検索速度の向上を図ることができる。

[0147] また、図 21において、圧縮ィ匕帳票ファイル抽出部 2105は、圧縮化帳票ファイル群 Fの中から、圧縮ィ匕帳票ファイル特定部 2104によって特定された帳票ファイル Fiを抽出する。図 22の例では、ファイル番号 1の圧縮ィ匕帳票ファイル F1を抽出する。

[0148] また、判定部 2106は、圧縮ィ匕帳票ファイル抽出部 2105によって抽出された圧縮化帳票ファイル Fiに、検索キーワード圧縮部 2102によって圧縮された検索キーヮード (以下、「圧縮キーワード」）が含まれている力否かを判定する。具体的には、圧縮ィ匕帳票ファイル Fi内の圧縮ブロックデータごとに判定をおこなっている。 [0149] この判定結果が不一致である場合、圧縮ィ匕帳票ファイル Fiには、検索キーワードが含まれていないことがわかる。一方、判定結果が一致である場合、圧縮化帳票フアイル Fiには、検索キーワードが含まれていることがわかる。たとえば、図 22においては、圧縮ィ匕帳票ファイル F1に、検索キーワード『出金伝票』と!、う文字列が含まれて、ることがわ力ゝる。

[0150] また、ブロック伸長部 2107は、判定部 2106により一致すると判定された圧縮ィ匕帳票ファイル Fiの圧縮ブロックデータのみ伸長する。この判定部 2106およびブロック伸長部 2107により、圧縮ィ匕帳票ファイル Fiのまま判定をおこなうことができ、不一致であれば、圧縮化帳票ファイル Fiを伸長する前に検索候補から外し、一致した帳票ファィルのみ伸長することができる。また、ブロック伸長部 2107において、伸長された帳票ファイル fiに連字外字データが含まれている場合、復号部 1801によって復号された連字 Z外字置換テーブル 640を用いて、連字外字データを元の連字データに置換する。

[0151] また、文字列比較部 2108は、ブロック伸長部 2107によって伸長されたブロックデータ内の文字列と、検索キーワード入力処理部 2101によって入力された検索キーヮ一ドとを比較する。

[0152] ファイル構成データ特定部 2109は、検索キーワードに一致する文字列の帳票データ gjがあつた場合、当該帳票データ gjのページ番号 jおよび当該帳票データ _gjが属する帳票ファイル fiのファイル番号 iを特定する。

[0153] 検索候補一覧表示部 2110は、ページリストデータ 400を編集して、ファイル構成データ 300内のファイルリストのうち、文字列比較部 2108により帳票データ gjのページ番号 jおよび当該帳票データ gjが属する帳票ファイル fiのファイル番号 iが特定されたファイルリストを、検索候補一覧 (たとえば、見出し語の一覧）として図 1に示したデイスプレイ 108に表示する。

[0154] また、検索候補選択部 2111は、検索候補一覧表示部 2110によって表示された検索候補一覧の中から、ユーザの操作によって選択された検索候補を受け付ける。

[0155] (全文検索機能における不一致照合処理）

つぎに、上述した全文検索実行部 624における不一致照合処理について説明する。上述した全文検索の文字列の不一致照合方式は、圧縮 '暗号化されたデータを伸長せず、検索キーワードを圧縮し不一致照合をおこなうこととして、る。

[0156] 非圧縮データの文字列の照合は 1バイト毎、もしくは文字単位に比較されるが、圧縮データでは、文字の境界の識別が困難であり、 1ビット毎にシフトを行い比較することが必要である。ここでは、この点に着目して、圧縮ィ匕帳票ファイルに対して、 CPU1 01が得意であるバイト毎の操作をもとにした不一致照合処理を全文検索実行部 624 において実行する。

[0157] 図 23は、全文検索実行部 624における不一致照合処理を示す説明図である。図 2 1に示した検索キーワード入力処理部 2101により入力された検索キーワード 2301 は、検索キーワード圧縮部 2102によりハフマン木 1810を用いて Xビットの圧縮キーワード 2302に圧縮され、レジスタ Raにセットされる。

[0158] 一方、圧縮ィ匕帳票ファイル抽出部 2105によって抽出された特定圧縮ィ匕帳票フアイル（圧縮化帳票ファイル） 2311内の圧縮ブロックデータ 2312をレジスタ Rbにセットして、レジスタ Raにセットされた圧縮キーワード 2302と比較する。具体的には、レジスタ Rbには、所定バイトずつシフトされた圧縮ブロックデータ 2312がセットされ、順次圧縮キーワード 2302と比較される。

[0159] 具体的には、圧縮キーワード 2302と圧縮ブロックデータ 2312との XOR演算により比較結果 2320を出力する。そして、比較結果 2320における末尾 8ビット（図 23中、網掛け表示）のビット列 2330を抽出して、不一致照合をおこなう。

[0160] 図 24は、図 23に示した圧縮ブロックデータのシフト操作を示す図表である。このシフト操作では、圧縮キーワード 2302の圧縮サイズ (圧縮キーワード長）に応じた照合間隔分シフトする。なお、圧縮キーワード長が 16ビット以上である場合、照合判定のビット長は 8ビットとなるが、 11ビット以上 15ビット以下の場合、 3〜7ビットとして、末尾のビットを調整する。また、圧縮キーワード長力^〜 10ビットの場合、圧縮形式の不一致照合はおこなわず、伸長後に検索キーワード 2301を照合する。

[0161] 図 25は、照合予測テーブルの生成処理を示す説明図である。図 25において、レジスタ Raに圧縮キーワード 2302をセットする。レジスタ Ra内の「 *」（末尾 8ビット）は、圧縮キーワード 2302が保持されていないビットである。図 25では、そして、レジスタ R a内の圧縮キーワード 2302を 1ビットごとシフトして、シフトテーブル 2500を生成する。すなわち、圧縮キーワード 2302は nビットであるため、シフト数 0ビットから X— 8ビットまでのシフトビット列によりシフトテーブル 2500を生成する。

[0162] そして、レジスタ Raにセットされている圧縮キーワード 2302とシフトテーブル 2500 とを照合予測する。具体的には、 XOR演算を施すことにより、 XORテーブル 2501を生成する。そして、 XORテーブル 2501の各シフトビット列において、「*」が含まれて V、ない 17ビット目力も 24ビット目までの 8ビット分の部分ビット列（図中網掛け表示）と対応するシフトビット列のシフト数とを連結して部分判定テーブル 2502を生成する。

[0163] つぎに、高速判定するための照合予測テーブル 2503を生成する。照合予測テーブル 2503は、部分判定テーブル 2502を参照して、 8ビットのアドレスに、シフト数を割り当てる。なお、シフト数が重複するビット列が出現した場合、当該ビット列には「64 」がセットされ、照合の際、部分判定テーブル 2502を参照する。また、部分判定テーブル 2502とは一致しないアドレスには、シフト数として「一1」を割り当てる。この照合予測テーブル 2503と不一致照合用のビット列 2330とを比較することで、不一致照合を実行する。

[0164] 図 26は、全ビット不一致照合処理を示す説明図である。図 26において、現在のシフト数を 8で除算することにより、その除数および余りを算出する。そして、特定圧縮化帳票ファイル 2311の現在のポインタに除数を加算することで、加算後のポインタに応じた圧縮ブロックデータ 2312を再取得してレジスタ Rbにセットする。そして、セットされた圧縮ブロックデータ 2312を余りの値分シフトする。

[0165] また、圧縮キーワード 2302をレジスタ Raにセットする。両レジスタ Ra、 Rbにおいて照合対象外となるビットのマスクを OFFにし、両レジスタ Ra、 Rbを比較する。そして、全ビットが一致した場合に、その一致したアドレスを記録することとする。

[0166] (数値検索実行部の詳細な機能的構成）

図 27は、検索実行部 622内の数値検索実行部 625の詳細な機能的構成を示すブロック図である。なお、図 21に示した構成と同一構成については同一符号を付し、その説明を省略する。

[0167] 図 27において、数値検索実行部 625は、取得部 2701と、数値圧縮部 2702と、検出部 2703と、中間数値群判断部 2704と、出現マップ抽出部 2705と、省略マップ設定部 2706と、下限 Z上限マップ生成部 2707と、特定部 2708と、圧縮情報検索部 2 709と、境界条件判断部 2710と、決定部 2711と、を有している。

[0168] まず、取得部 2701は、任意の数値範囲の境界を規定する数値を取得する。ここで、数値範囲とは、境界を規定する数値と境界を規定する演算子とにより特定される区間である。境界を規定する数値とは、数値範囲の下限を規定する数値 (下限数値) N Xや上限を規定する数値 (上限数値) Nyである。また、境界を規定する演算子とは、「 ≤」、「く」、「」、「>」といった不等号を示す演算子であり、下限数値や上限数値の境界条件となる。

[0169] これにより、任意の数値を Zとすると、取得部 2701では、ユーザ入力や演算子の初期設定などにより、数値 Nが取りうる以下の数値範囲を設定することができる。

•Nx<Z

•Nx≤Z

•Ny>Z

•Ny≥Z

•Nx<Z<Ny

•Nx≤Z<Ny

•Nx<Z≤Ny

•Nx≤Z≤Ny

[0170] また、数値圧縮部 2702は、取得部 2701によって取得された数値を圧縮する。具体的には、数値であることを識別するフィーダの圧縮符号、全角'半角ビットの圧縮符号、カンマ有無ビットの圧縮符号、桁数の圧縮符号、各桁の数字の圧縮符号、小数点を含む場合は小数点の圧縮符号などからなる圧縮情報に圧縮する。なお、各圧縮化帳票ファイル Fi内の数値も同様な規則で圧縮されている。また、全角'半角ビットおよび圧縮符号、カンマ有無ビットは一律「0」（OFF)としておく。

[0171] また、検出部 2703は、取得部 2701によって取得された境界を規定する数値の桁数および先頭数字を検出する。たとえば、数値 Nが N= 12, 345である場合、桁数は「5」であり、先頭数字は「1」である。また、数値に小数が含まれている場合、小数点以下の桁数も計数する。たとえば、数値 Nが N= 12, 345. 67である場合、桁数は「 7」であり、先頭数字は「1」である。また、先頭桁は最上位の 1桁とした力先頭からの連続する複数の上位桁としてもよい。たとえば、数値 N (N= 12, 345)では、先頭数字は、「12」としてもよい。

[0172] また、中間数値群判断部 2704は、取得部 2701によって取得された数値範囲に中間数値群が含まれているカゝ否かを判断する。ここで、中間数値群とは、数値範囲の下限数値を含む数値群 (以下、「下限数値群」と称す)と、数値範囲の上限数値を含む数値群 (以下、「上限数値群」と称す)との間に存在する数値群である。下限数値群と上限数値群との桁数が相違していれば、中間数値群が存在すると判断する。また、桁数が同一であっても、先頭数字が相違していれば、中間数値群が存在すると判断する。

[0173] たとえば、数値範囲が『3, 700以上 6, 300以下』である場合、下限数値群として 4 桁'先頭数字 3の数値群と、上限数値群として 4桁'先頭数字 6の数値群とが検出される。この場合、中間数値群として、 4桁'先頭数字 4の数値群と 4桁'先頭数字 5の数値群とが数値範囲内に存在することとなる。

[0174] また、数値範囲が『3, 700以上 16, 300以下』である場合、下限数値群として 4桁' 先頭数字 3の数値群と、上限数値群として 5桁'先頭数字 1の数値群とが検出される。この場合、中間数値群として、 4桁'先頭数字 4の数値群〜 4桁'先頭数字 9の数値群が数値範囲内〖こ存在することとなる。

[0175] また、数値範囲が『3, 700以上 4, 300以下』である場合、下限数値群として 4桁' 先頭数字 3の数値群と、上限数値群として 4桁'先頭数字 4の数値群とが検出される。この場合、中間数値群は存在しない。

[0176] 同様に、数値範囲が『3, 700以上 3, 900以下』である場合、下限数値群として 4桁 •先頭数字 3の数値群と、上限数値群として 4桁'先頭数字 3の数値群とが検出される。すなわち、下限数値群および上限数値群が同一の数値群となる。この場合も、中間数値群は存在しない。

[0177] また、出現マップ抽出部 2705は、数値群の出現マップの中から、検出部 2703によつて検出された桁数および先頭数字に応じた出現マップを抽出する。たとえば、検出部 2703により、桁数「5」で先頭数字「1」が検出された場合、 5桁 '先頭数字 1の数値群に関する出現マップを抽出する。また、中間数値群が存在する場合、中間数値群に関する出現マップも抽出する。

[0178] 省略マップ設定部 2706は、中間数値群に関する出現マップに基づいて、省略マツプを設定する。省略マップとは、下限数値群に関する出現マップや上限数値群に関する出現マップとの論理積を演算するためのマップである。省略マップ自体は、数値群に関する出現マップ 503と同様、帳票ファイル fiにおける存否をビットの ONZOF Fであらわしている。したがって、 ONになっているビットに対応する帳票ファイル fiには、中間数値群内の数値が存在していることをあらわしており、 OFFになっているビットに対応する帳票ファイル fiには、中間数値群内の数値が存在しないことをあらわしている。

[0179] 省略マップは、具体的には、中間数値群に関する出現マップの論理和を演算することにより中間結果マップを算出し、この中間結果マップ内のビットを反転することにより、省略マップを設定する。なお、中間数値群に関する出現マップ力 S1つしか存在しない場合、当該出現マップ内のビットを反転することにより省略マップを設定することができる。また、中間数値群に関する出現マップがない場合、全ビット OFFの省略マップを設定する。

[0180] また、下限 Z上限マップ生成部 2707は、下限マップおよび上限マップを生成する。ここで、下限マップとは、下限数値群に関する出現マップ (下限数値群マップ）と省略マップとの論理積により得られるマップであり、上限マップとは、上限数値群に関する出現マップ（上限数値群マップ）と省略マップとの論理積により得られるマップである。この論理積演算により、下限マップは下限数値群内数値のみの存否をあらわすマップとなり、上限マップは上限数値群内数値のみの存否をあらわすマップとなる。

[0181] また、特定部 2708は、複数の圧縮化検索対象ファイルの中から、検出部 2703によって検出された桁数および先頭数字を満たす数値群内の数値が存在する圧縮ィ匕検索対象ファイルを特定する。具体的には、下限マップ内のビットのうち、 ONになつてヽるビットに対応する帳票ファイル fiを特定し、圧縮化帳票ファイル群 Fの中から圧縮化帳票ファイル Fiを抽出する。同様に、上限マップ内のビットのうち、 ONになっているビットに対応する帳票ファイル fiを特定し、圧縮化帳票ファイル群 Fの中から圧縮化帳票ファイル Fiを抽出する。

[0182] また、圧縮情報検索部 2709は、特定部 2708によって特定された圧縮化帳票ファィル Fiの中から、ファイル内数値に関する圧縮情報を検索する。圧縮化帳票ファイル fi内においては、ファイル内数値は、フィーダの圧縮符号、全角'半角フラグの圧縮符号、カンマフラグの圧縮符号、桁数の圧縮符号、各桁の数字の圧縮符号などからなる圧縮情報により圧縮されている。圧縮情報検索部 2709は、ファイル内数値に関する圧縮情報 (たとえば、フィーダの圧縮符号のみ）を検出することで、ファイル内数値に関する圧縮情報を抽出する。

[0183] また、境界条件判断部 2710は、数値圧縮部 2702によって圧縮された境界を規定する数値の圧縮情報と、圧縮情報検索部 2709によって検索されたファイル内数値の圧縮情報とを比較することにより、ファイル内数値が境界を規定する数値との境界条件を充足しているカゝ否かを判断する。境界条件とは、（境界を規定する数値)以上、以下、より大きい、より小さいといった境界を規定する数値との大小関係をあらわす条件である。

[0184] たとえば、まず、桁数の数字の圧縮符号どうしを比較することにより、圧縮元となる数値どうしの大小を比較する。また、同一桁数である場合、先頭数字の圧縮符号どうしを比較することにより、圧縮元となる数値どうしの大小を比較する。また、先頭数字が同一である場合、順次、つぎの桁の数字どうしを比較することにより、圧縮元となる数値どうしの大小を比較する。これにより、ファイル内数値が境界を規定する数値との境界条件を充足している力否かを判断することができる。

[0185] また、全角 ·半角ビットおよび圧縮符号、カンマ有無ビットは一律「0」（OFF)としてあるため、ファイル内数値の圧縮情報との比較の際、ファイル内数値の圧縮情報において、全角'半角ビットおよび圧縮符号、カンマ有無ビットを「0」（OFF)に設定する。これにより、全角 '半角の相違やカンマの有無を考慮することなぐ数値検索をおこなうことができる。

[0186] また、決定部 2711は、境界条件判断部 2710によって判断された判断結果に基づいて、特定部 2708によって特定された圧縮ィ匕検索対象ファイル Fiを、数値範囲内の数値を含むファイルに決定する。具体的には、ファイル内数値が境界を規定する数値との境界条件を充足した場合、特定部 2708によって特定された圧縮化検索対象ファイル Fiを、数値範囲内の数値を含むファイルに決定する。この決定処理では、出現マップと同様、帳票ファイルに対応するビット列であらわされる下限比較結果マップおよび上限比較結果マップを用いる。初期設定として全ビットを OFFにしておく。

[0187] そして、圧縮ィ匕帳票ファイル Fiにお、て、ファイル内数値が下限数値との境界条件を充足した場合、下限比較結果マップ内の当該圧縮化帳票ファイル Fiに対応するビットを ONにする。同様に、ファイル内数値が上限数値との境界条件を充足した場合、上限比較結果マップ内の当該圧縮ィ匕帳票ファイル Fiに対応するビットを ONにする

[0188] そして、決定部 2711は、最終的に得られた下限比較結果マップと上限比較結果マップと中間結果マップが存在する場合には中間結果マップとの論理和を演算することにより、数値範囲内の数値が存在する圧縮ィ匕帳票ファイル Fiを決定することができる。

[0189] なお、ファイル構成データ特定部 2109は、決定部 2711により数値範囲内の数値が存在する圧縮ィ匕帳票ファイル Fiが決定された場合、境界を規定する数値との境界条件を満足したファイル内数値が存在する帳票データ gjのページ番号 jおよび当該帳票データ gjが属する帳票ファイル fiのファイル番号 iを特定する。

[0190] (数値範囲の大小比較例）

つぎに、数値範囲の第 1の大小比較例について説明する。ここでは、数値範囲を特定する下限の数値と上限の数値とが同一桁数で、かつ、先頭桁の数字が異なる場合を例にして説明する。図 28— 1〜図 28— 4は、数値範囲の大小比較例を示す説明図である。ここでは、例として、数値範囲『3, 700円以上 6, 300円以下』が与えられたとして、当該数値範囲で指定された範囲の金額 (数値)を含む圧縮化帳票ファイル Fiを検索する例である。なお、数値範囲の下限数値の数値情報「3, 700円」および上限数値の数値情報「6, 300円」は、ともに図 16— 3に示した圧縮処理により圧縮される。

[0191] 図 28— 1において、まず、数値範囲『3, 700円以上 6, 300円以下』について、中間数値群の出現マップを抽出する。具体的には、下限数値群の出現マップとなる 4 桁 ·先頭数字 3マップ M43と上限数値群の出現マップとなる 4桁 ·先頭数字 6マップ M46との間の 4桁 ·先頭数字 4マップ M44および 4桁 ·先頭数字 5マップ M45を、中間数値群の出現マップとして抽出する。

[0192] 4桁 '先頭数字 3マップ M43は、 4桁 '先頭数字 3の数値を有する帳票ファイル fiの存否をあらわしている。 4桁'先頭数字 4マップ M44は、 4桁'先頭数字 4の数値を有する帳票ファイル fiの存否をあらわしている。 4桁 ·先頭数字 5マップ M45は、 4桁 '先頭数字 5の数値を有する帳票ファイル fiの存否をあらわしている。 4桁'先頭数字 6マップ M46は、 4桁 ·先頭数字 6の数値を有する帳票ファイル fiの存否をあらわして!/、る

[0193] ここで、 4桁 ·先頭数字 3マップ M43および 4桁 ·先頭数字 6マップ M46は、大小比較に用いる出現マップである。また、 4桁 '先頭数字 4マップ M44および 4桁 '先頭数字 5マップ M45は、論理和をとつて中間結果マップ M01とする。中間結果マップ MO 1は、数値 4000〜5999が存在する帳票ファイル fiの存否をあらわしている。そして、この中間結果マップ M01内のビットを反転させることで、省略マップ M02を得る。

[0194] 図 28— 2では、図 28— 1で得られた 4桁 ·先頭数字 3マップ M43と省略マップ M02 との論理積をとることで、下限マップ M03を得る。省略マップ M02との論理積をとることで、中間数値群内の数値を有する帳票ファイルを除外することができる。

[0195] この下限マップ M03において、ビットが ONである圧縮化帳票ファイル Fiを抽出する。この圧縮化帳票ファイル Fiを先頭力もサーチしてフィーダ（図 28 - 2では「x' B'」 )の圧縮符号「1011」を探索する。フィーダの圧縮符号「1011」が探索されると、そのフィーダの圧縮符号「1011」を先頭とする圧縮情報 2801を読み出す。この圧縮情報 2801のうち、全角 ·半角ビットおよびカンマ有無ビットが「1」である場合、「0」に変換することでマスクする。この変換後の圧縮情報を比較対象圧縮情報 2810と称す。

[0196] そして、圧縮ィ匕帳票ファイル Fi内の数値情報「3, 300円」を圧縮した比較対象圧縮情報 2810と、下限の数値情報「3, 700円」を圧縮処理した下限の圧縮情報 2802とを比較する。まず、比較対象圧縮情報 2810および下限の圧縮情報 2802のフィーダ ,桁数，先頭数字の圧縮符号どうしの一致比較をおこなう。この段階でいずれか一つの圧縮符号が不一致であれば、圧縮化帳票ファイル Fi内のつぎのフィーダをサーチする。

[0197] 一方、フィーダの圧縮符号が一致していれば、同種の数値情報であることがわかり、さらに桁数が一致していれば、比較対象圧縮情報 2810は少なくとも 4桁数字の数値の圧縮形式であることがわかり、さらに先頭数字が一致していれば、比較対象圧縮情報 2810は少なくとも先頭数字が「3」の数値の圧縮形式であることがわかる。したがつて、フィーダ，桁数，および先頭数字の圧縮符号がすべて一致した場合、同一桁における数字の圧縮符号の大小比較をおこなう。

[0198] この例では、第 2数字の圧縮符号を比較することで、比較対象圧縮情報 2802のフアイル内の数値情報「3, 300円」よりも下限数値の数値情報「3, 700円」が大きいことがわかる。この場合、下限比較結果マップ M04において、圧縮化帳票ファイル Fi に対応するビットは「0」のままである。そして、圧縮ィ匕帳票ファイル Fi内のつぎのフィーダをサーチして、下限数値の数値情報「3, 700円」以上の数値情報がある場合、下限比較結果マップ M04において、圧縮化帳票ファイル Fiに対応するビットを「1」とする。

[0199] この比較処理を、下限マップ M03内においてビットが立っているすべての圧縮化帳票ファイル F0〜Fnにつ!/、ておこなうことで、下限比較結果マップ M04を得ることができる。このように、下限マップ M03から 4桁でかつ先頭数字が「3」である数値を含む圧縮化帳票ファイル Fiを抽出することで、帳票ファイル fiを圧縮形式のまま検索することができる。

[0200] 図 28— 3では、図 28— 1で得られた 4桁 ·先頭数字 6マップ M46と省略マップ M02 との論理積をとることで、上限マップ M05を得る。省略マップ M02との論理積をとることで、中間数値群内の数値を有する帳票ファイルを除外することができる。

[0201] この上限マップ M05において、ビットが ONである圧縮化帳票ファイル Fiを抽出する。この圧縮化帳票ファイル Fiを先頭力もサーチしてフィーダ（図 28 - 3では「x' B'」 )の圧縮符号「1011」を探索する。フィーダの圧縮符号「1011」が探索されると、そのフィーダの圧縮符号「1011」を先頭とする圧縮情報 2803を読み出す。この圧縮情報 2803のうち、全角 ·半角ビットおよびカンマ有無ビットが「1」である場合、「0」に変換することでマスクする。この変換後の圧縮情報を比較対象圧縮情報 2830と称す。

[0202] そして、圧縮ィ匕帳票ファイル Fi内の数値情報「6, 200円」を圧縮した比較対象圧縮情報 2830と、上限の数値情報「6, 300円」を圧縮処理した上限の圧縮情報 2804とを比較する。まず、比較対象圧縮情報 2830および上限の圧縮情報 2804のフィーダ ,桁数，先頭数字の圧縮符号どうしの一致比較をおこなう。この段階でいずれか一つの圧縮符号が不一致であれば、圧縮化帳票ファイル Fi内のつぎのフィーダをサーチする。

[0203] 一方、フィーダの圧縮符号が一致していれば、同種の数値情報であることがわかり、さらに桁数が一致していれば、比較対象圧縮情報 2830は少なくとも 4桁数字の数値の圧縮形式であることがわかり、さらに先頭数字が一致していれば、比較対象圧縮情報 2830は少なくとも先頭数字が「3」の数値の圧縮形式であることがわかる。したがつて、フィーダ，桁数，および先頭数字の圧縮符号がすべて一致した場合、同一桁における数字の圧縮符号の大小比較をおこなう。

[0204] この例では、第 2数字の圧縮符号どうしを比較することで、比較対象圧縮情報 2830 の数値情報「6, 200円」よりも上限数値の数値情報「6, 300円」が大きいことがわかる。この場合、上限比較結果マップ M06において、圧縮化帳票ファイル Fiに対応するビットを「1」とする。

[0205] この比較処理を、上限マップ M05内においてビットが立っているすべての圧縮化帳票ファイル Fiにつ、ておこなうことで、上限比較結果マップ M06を得ることができる。このように、上限マップ M05から 4桁でかつ先頭数字が「6」である数値を含む圧縮化帳票ファイル Fiを抽出することで、帳票ファイル fiを圧縮形式のまま検索することができる。

[0206] 図 28— 4では、下限比較結果マップ M04、中間結果マップ M01、および上限比較結果マップ M06の論理和をとることで、統合結果マップ M07を得ている。これにより、数値範囲『3, 700円以上 6, 300円以下』内の数値情報を含む帳票ファイル fiを圧縮形式のまま特定することができる。

[0207] なお、上述した図 28— 1〜図 28— 4の例では、数値範囲を特定する下限数値と上限数値とが同一桁数で、かつ、先頭桁の数字が異なる場合を例にして説明したが、上限の数値の桁数が大き!、場合 (または下限の数値の桁数が小さ!、場合)も同様に比較することができる。たとえば、数値範囲が『3, 700円以上 64, 000円以下』である場合、 4桁先頭数字 4マップ〜 4桁先頭数字 9マップと 5桁先頭数字 1マップ〜 5桁先頭数字 5マップまでを中間数値群の出現マップとして抽出すればよい。

[0208] また、数値範囲が『3, 700円以上 3, 900円以下』や『3, 700円以上 4, 500円以下』など、中間数値群が存在しない場合は、中間結果マップ M01が存在しないため、省略マップ M02の全ビットを OFFにする。そして、統合結果マップ M07を得る場合も中間結果マップ M01が存在しな、ため、下限比較結果マップ M04と上限比較結果マップ M06との論理和により統合結果マップ M07を演算する。

[0209] (検索結果表示部 623の詳細な機能的構成）

つぎに、図 6に示した検索結果表示部 623の詳細な機能的構成について説明する。図 29は、図 6に示した検索結果表示部 623の詳細な機能的構成を示すブロック図である。図 29において、検索結果表示部 623は、読出し部 2901と、ファイル伸長部 2902と、フアイノレ表示咅 2903と、力ら構成されてヽる。

[0210] まず、読出し部 2901は、検索候補選択部 2111によって選択された検索候補である項目データを、圧縮ィ匕帳票ファイル群 Fの圧縮ィ匕帳票ファイル Fiから読み出す。また、ファイル伸長部 2902は、読出し部 2901によって読み出された項目データを、ハフマン木 1801によって伸長する。ファイル表示部 2903は、ファイル伸長部 2902によって伸長された項目データを検索結果として表示する。

[0211] (情報検索処理手順）

つぎに、この発明の実施の形態に力かる情報検索装置 600の情報検索処理手順について説明する。図 30は、この発明の実施の形態に力かる情報検索装置 600の情報検索処理手順を示すフローチャートである。図 30において、まず、数値'文字出現頻度管理データ生成部 612により、数値 ·文字出現頻度管理データ生成処理を実行する（ステップ S 3001)。

[0212] そして、圧縮 Z暗号ィ匕部 613により、圧縮 Z暗号ィ匕処理を実行する (ステップ S300

2)。このあと、検索初期化部 621により、検索初期化処理を実行する (ステップ S300

3)。つぎに、検索実行部 622により、検索処理を実行する (ステップ S3004)。 [0213] 最後に、検索結果表示部 623により、検索結果表示処理を実行する (ステップ S30 05)。なお、検索結果表示処理では、検索候補一覧から選択された検索候補 (項目データ）を圧縮帳票ファイル F も読み出して、ハフマン木 1810にて伸長することにより、項目データの全文を検索結果として表示することができる。

[0214] つぎに、図 30に示した数値 ·文字出現頻度管理データ生成処理 (ステップ S3001) の詳細な処理手順について説明する。図 31は、図 30に示した数値 ·文字出現頻度管理データ生成処理 (ステップ S3001)の詳細な処理手順を示すフローチャートである。図 31において、まず、初期化処理を実行する (ステップ S3101)。具体的には、 8 , 16ビットの数値'文字データ、連字データ、バイナリデータの区点対応の集計領域を確保し、出現頻度と出現マップのセグメント等を初期化する。また、数値'文字データのコードをセットし、各種カウンタを初期化する。

[0215] つぎに、数値'文字出現頻度集計処理を実行する (ステップ S3102)。この数値'文字出現頻度集計処理の詳細な処理手順については後述する。この数値 ·文字出現頻度集計処理のあと、数値'文字出現頻度管理データ 500の領域確保とその領域の初期化を実行し (ステップ S3103)、 8, 16ビットの数値'文字データ、連字データ、バイナリデータの文字コードと出現頻度をセットする (ステップ S3104)。

[0216] そして、出現マップの各セグメントを連結し (ステップ S3105)。連字領域の連字デ一タを高出現頻度順にソートする (ステップ S3106)ことで、 256種の連字データを選択する。これにより、連字データの削減を図ることができる。

[0217] つぎに、連字 Z外字置換をおこなうとともに、連字 Z外字置換テーブル 640を生成する (ステップ S3107)。具体的には、高出現頻度順に連字データを外字データに置換することにより、連字外字データと連字 Z外字置換テーブル 640を生成する。

[0218] そして、低出現頻度の連字データ、すなわち外字に置換されなかった連字データを単一文字データに分解し、該当する文字領域に割り振る補正をおこなう (ステップ S 3108)。すなわち、低出現頻度の連字データを表音文字データに分割し、当該文字データの頻度の加算と出現マップの OR演算を実行する。

[0219] このあと、数値 ·文字データを高出現頻度順にソートし (ステップ S3109)、頻度 0回の数値'文字データをカットして、連字外字データとバイナリデータとを結合し (ステツプ S3110)、この結合によって得られた数値 ·文字出現頻度管理データ 500をフアイノレ【こ出力する（ステップ S3111)。これ【こ Jり、ステップ S 3002【こ移行する。

[0220] つぎに、上述した数値 ·文字出現頻度集計処理 (ステップ S3102)の詳細な処理手順について説明する。図 32— 1は、上述した数値'文字出現頻度集計処理 (ステップ S3102)の詳細な処理手順を示すフローチャート（前半)である。図 32— 1において、まず、先頭帳票ファイル fOをオープンする（ステップ S3201)。

[0221] つぎに、オープンされた帳票ファイル力も順次データを抽出する。抽出されたデータがバイナリデータである場合 (ステップ S3202 : Yes)、当該バイナリデータの出現頻度を加算し、当該バイナリデータの出現マップにおけるオープン中のファイルに対応するビットを「1」に設定し、さらに、バイトカウンタを加算する (ステップ S3203)。そして、図 32— 2【こ示すステップ S 3211【こ移行する。

[0222] 一方、ステップ S3202において、抽出されたデータがバイナリデータではない場合

(ステップ S3202 :No)、数値であるか否かを判定する（ステップ S3204)。たとえば、数字のみ力もなる数字列であれば、数値と判定する。また、数字のほか「，」（カンマ）や「-」（小数点)が数字列に含まれている場合も、数値と判定する。

[0223] そして、数値である場合 (ステップ S3204 : Yes)、当該数値の出現頻度を加算し、当該数値の出現マップにおけるオープン中のファイルに対応するビットを「1」に設定し、さらに、バイトカウンタを加算する (ステップ S3205)。そして、図 32— 2に示すステップ S 3211に移行する。

[0224] 一方、ステップ S3204にお、て、抽出されたデータが数値ではな、場合 (ステップ S3204 : No)、連字データであるか否かを判定する（ステップ S3206)。連字データである場合 (ステップ S3206 :Yes)、当該連字データの出現頻度を加算し、当該連字データの出現マップにおけるオープン中のファイルに対応するビットを「1」に設定し、さらに、バイトカウンタを加算する (ステップ S3207)。そして、図 32— 2に示すステップ S 3211に移行する。

[0225] 一方、ステップ S3206において、抽出されたデータが連字データでない場合 (ステップ S3206 : No)、漢字データであるか否かを判定する（ステップ S3208)。漠字データでない場合 (ステップ S3208 :No)、当該データは表音文字データであるため、その表音文字データの出現頻度を加算し、当該表音文字データの出現マップにおけるオープン中のファイルに対応するビットを「1」に設定し、ノイトカウンタを加算する (ステップ S3209)。そして、図 32— 2【こ示すステップ S 3211【こ移行する。

[0226] 一方、ステップ S3208において、抽出されたデータが漢字データである場合 (ステップ S3208 :Yes)、当該漢字データの出現頻度を加算し、当該漢字データの出現マップにおけるオープン中のファイルに対応するビットを「1」に設定し、ノイトカウンタをカロ算する（ステップ S3210)。そして、図 32— 2〖こ示すステップ S3211〖こ移行する。

[0227] 図 32— 2は、数値 ·文字出現頻度集計処理 (ステップ S3202)の詳細な処理手順を示すフローチャート（後半）である。図 32— 2において、出現マップのセグメントのセグメントカウンタを加算し (ステップ S3211)、セグメント終了力否力、すなわちセグメントの集計が終了した力否かを判断する (ステップ S3212)。セグメントの集計が終了した場合 (ステップ S3212 :Yes)、出現マップのセグメントをファイルに追カ卩出力し、セグメントカウンタをクリアする（ステップ S3213)。そして、ステップ S3214に移行する。

[0228] 一方、セグメントの集計が終了していない場合 (ステップ S3212 :No)、またはステツプ S3213のあと、ブロック終了か否か、たとえば、集計した数値'文字データ数が 40 00文字に到達したカゝ否かを判断する (ステップ S3214)。

[0229] そして、ブロック終了した場合 (ステップ S3214 : Yes)、当該ブロックデータを有する帳票ファイル fiのファイル番号 i、当該ブロックデータのブロック番号 m、オフセット、文字数、およびレングス力なるブロック情報を生成してファイルに追カ卩出力するとともに、バイトカウンタをクリアする（ステップ S3215)。そして、ステップ S3216に移行する。

[0230] 一方、ブロック終了していない場合 (ステップ S3214 :No)、またはステップ S3215 のあと、ファイル終了か否力すなわち、現在オープンしている帳票ファイル fiの集計が終了した力否かを判断する（ステップ S3216)。現在オープンしている帳票ファイル fiの集計が終了してヽな、場合 (ステップ S3216： No)、図 32— 1に示したステップ S 3202に戻って次のデータを抽出し、抽出したデータの種類を特定して、集計する (ステツプ S3202〜S3210)。

[0231] 一方、ステップ S3216において、現在オープンしている帳票ファイルの集計が終了した場合 (ステップ S3216 : Yes)、集計終了力否力すなわち、現在オープンしている帳票ファイル fiをクローズする（ステップ S3217)。このあと、すべての帳票ファイル f 0〜fnからの集計が終了した力否かを判断する（ステップ S3218)。

[0232] すべての帳票ファイル fO〜fnの集計が終了して!/、な!/、場合 (ステップ S3218： No) 、つぎのファイル番号 i (i=i+ l)の帳票ファイル fiをオープンし (ステップ S3219)、図 32— 1に示したステップ S3202に戻って次のデータを抽出し、抽出したデータの種類を特定して、集計する（ステップ S3202〜S3210)。

[0233] 一方、ステップ S3218において、すべての帳票ファイル fO〜fnの集計が終了した場合 (ステップ S3218 :Yes)、出現マップ 510のセグメントをファイルに追加出力し（ステップ S3220)、ステップ S3203に移行することで一連の処理を終了する。

[0234] つぎに、図 30に示した圧縮 Z暗号化処理 (ステップ S3002)の詳細な処理手順について説明する。図 33は、図 30に示した圧縮 Z暗号ィ匕処理 (ステップ S3002)の詳細な処理手順を示すフローチャートである。図 33において、まず、数字や小数点、フィーダ (以下、「数字等」と称す)の出現頻度の補正をおこなう（ステップ S3301)。そして、その他の文字データの出現頻度を補正する (ステップ S3302)。

[0235] そして、出現頻度順に混合領域 812の数値 ·文字データをソートする (ステップ S33 03)。つぎに、低出現頻度の数値 ·文字データを 8ビットに分解し、該当するバイナリデータの出現頻度に加算する (ステップ S3304)。そして、混合領域 812の数値'文字データ、連字外字データ、バイナリデータを連結し、出現頻度順にソートする (ステップ S3305)。

[0236] このあと、ソートされた数値'文字データごとに、補正された出現頻度に基づいて生起確率を演算し (ステップ S3306)、この生起確率に基づいて、 8, 16ビットの数値' 文字データに共通のハフマン木を生成する（ステップ S3307)。

[0237] そして、各帳票ファイルの圧縮処理を実行する (ステップ S3308)。この圧縮処理の具体的な手順は図 33において後述する。そして、数値'文字出現頻度管理データ 5 00を暗号ィ匕する (ステップ S3309)。具体的には、数値'文字出現頻度管理データ 5 00の暗号ィ匕領域 (数値 ·文字データおよび出現頻度の領域)を、マスタキーを用いて排他的論理和 (XOR)により暗号ィ匕する。 [0238] そして、連字 Z外字置換テーブル 640を暗号ィ匕する (ステップ S3310)。具体的には、連字 Z外字置換テーブル 640の暗号ィ匕領域を、マスタキーを用いて排他的論理和 (XOR)により暗号化する。そして、検索初期化処理 (ステップ S3003)に移行し、一連の処理を終了する。

[0239] つぎに、図 33のステップ S3308に示した圧縮処理の詳細な処理手順について説明する。図 34は、図 33のステップ S3308に示した圧縮処理の詳細な処理手順を示すフローチャートである。まず、ファイル番号 iを i=0とし (ステップ S3401)、帳票ファィル fiを、たとえば 4000文字ごとにブロック化する（ステップ S3402)。つぎに、帳票ファイル fi内のデータを順次読み込み、読み込んだデータがフィーダであるか否かを判断する（ステップ S3403)。

[0240] フィーダであると判断された場合 (ステップ S3403： Yes)、フィーダに続く連続する数字を数値として読み込んで (ステップ S3404)、全角 ·半角、数値の桁数を検出する（ステップ S3405)。そして、ハフマン木による数値圧縮を実行し (ステップ S3406) 、ステップ S 3408に移行する。

[0241] 一方、フィーダでないと判断された場合 (ステップ S3403 : No)、当該データはその他の文字データであるため、ハフマン木を用いて文字データ圧縮を実行し (ステップ S3407)、ステップ S 3408に移行する。

[0242] そして、ステップ S3408において、当該ブロックにおける圧縮が終了したか否かを判断する（ステップ S3408)。圧縮が終了していない場合 (ステップ S3408 : No)、ステツプ S3403に戻って、つぎのデータを読み込む。一方、圧縮終了である場合 (ステップ S3408 : Yes)、未処理ブロックがあるか否かを判断する（ステップ S3409)。

[0243] 未処理ブロックがある場合 (ステップ S3409： Yes)、当該未処理ブロックを読み込んで (ステップ S3410)、ステップ S3403に戻って、データの読み込みをおこなう。一方、未処理ブロックがない場合 (ステップ S3409 : No)、ファイル番号 iをインクリメントし (ステップ S 3411 )、 i > nか否かを判断する（ステップ S 3412)。

[0244] i>nでない場合 (ステップ S3412 :No)、ステップ S3402に戻って、つぎの帳票ファィル fiをブロック化する。一方、 i>nである場合 (ステップ S3412 :Yes)、図 33に示したステップ S3309に移行する。これにより、圧縮処理における一連の処理を終了する [0245] つぎに、図 30に示した検索初期化処理 (ステップ S3003)の詳細な処理手順について説明する。図 35は、図 30に示した検索初期化処理 (ステップ S3003)の詳細な処理手順を示すフローチャートである。

[0246] 図 35において、まず、検索初期化処理の起動を待ち受け (ステップ S3501 : No)、起動した場合 (ステップ S3501： Yes)、圧縮 Z暗号化処理において暗号化された暗号ィ匕数値'文字出現頻度管理データ 650を復号ィ匕する (ステップ S3502)。具体的には、暗号ィ匕数値'文字出現頻度管理データ 650の暗号ィ匕領域 (数値'文字データおよび出現頻度の領域)を、暗号ィ匕したときのマスタキーを用いて排他的論理和 (X OR)により復号する。

[0247] つぎに、暗号ィ匕連字 Z外字置換テーブル 660を復号ィ匕する (ステップ S3503)。具体的には、暗号ィ匕連字 Z外字置換テーブル 660の暗号ィ匕領域を、暗号ィ匕したときのマスタキーを用いて排他的論理和 (XOR)により復号する。

[0248] つぎに、圧縮 Z暗号化処理で示したステップ S3401〜S3405までの処理と同様の処理を実行する。すなわち、高出現頻度順に数値 ·文字データをソートし (ステップ S 3504)、低出現頻度の数値 ·文字データを 8ビットに分解し、該当するバイナリデータの出現頻度に加算する (ステップ S3505)。

[0249] そして、数値'文字データ、連字データ、バイナリデータを連結し、高出現頻度順にソートする (ステップ S3506)。このあと、数値'文字データごとに、出現頻度に基づいて生起確率を演算し (ステップ S3507)、この生起確率に基づいて、 8, 16ビットの数値'文字データに共通のハフマン木を生成する（ステップ S3508)。

[0250] このあと、出現マップ 510の設定処理を実行する（ステップ S3509)。具体的には、第 1の区点対応テーブルおよび第 2の区点対応テーブルの領域確保、各文字データの出現順位の第 1の区点対応テーブルへのセット、各数値データの出現順位の第 2の区点対応テーブルへのセット、復号された数値 ·文字出現頻度管理データ 500 の出現マップのメモリ展開、当該出現マップと第 1の区点対応テーブルおよび第 2の区点対応テーブルとのリンクを実行する。このあと、検索処理 (ステップ S3004)に移行して、一連の処理を終了する。 [0251] つぎに、図 30に示した検索処理 (ステップ S3004)の詳細な処理手順について説明する。図 36は、図 30に示した検索処理 (ステップ S3004)の詳細な処理手順を示すフローチャートである。検索初期化処理 (ステップ S3003)のあと、図 36において、まず、検索モード画面の呼び出しをおこない (ステップ S3601)、数値検索モードまたは文字検索モードの選択を待ち受ける (ステップ S3602)。

[0252] 数値検索モードが選択された場合 (ステップ S3602： Yes)、図 40に示すステップ S 4001に移行する。一方、文字検索モードが選択された場合 (ステップ S3602 : No)、検索キーワードの入力を受け付ける（ステップ S3603)。

[0253] 検索キーワードが複数でない場合 (ステップ S3604 : No)、ステップ S3606に移行する。一方、検索キーワードが複数である場合 (ステップ S3604 : Yes)、各キーヮードの文字列を連結して（ステップ S3605)、ステップ S3606に移行する。

[0254] このあと、ステップ S3606において、検索キーワード内に連字データがない場合 (ステツプ S3606 :No)、ステップ S3608に移行する。一方、連字データがある場合 (ステツプ S3606 : Yes)、連字 Z外字置換テーブル 640を用いて、その連字データを 2 文字の外字データに置換して（ステップ S3607)、ステップ S3608〖こ移行する。

[0255] このあと、ステップ S3608において、検索キーワードを単一文字データに分解して、出現マップ力も各文字データの各帳票ファイルにおける存否ビット列を読み取る (ステツプ S3608)。そして、各文字データの存否ビット列の論理積により、圧縮化帳票フアイルを特定 (絞込み)する (ステップ S3609)。また、検索キーワードを検索初期化処理 (ステップ S3003)において生成されたハフマン木で圧縮する（ステップ S3610)

[0256] つぎに、照合予測テーブル生成処理 (ステップ S3611)を実行する。この照合予測テーブル生成処理の詳細な処理手順については図 37において後述する。照合予測テーブルを生成後、ファイルカウンタを初期化する (ステップ S3612)。

[0257] このあと、ステップ S3609で特定された圧縮ィ匕帳票ファイル (以下、「特定圧縮化帳票ファイル」と称す。）をオープンし (ステップ S3613)、オープンされた特定圧縮ィ匕帳票ファイルの圧縮ブロックデータごとに、圧縮キーワードとの不一致判定処理をおこなう（ステップ S3614)。この不一致判定処理にっ、ては図 38にお!/、て後述する。 [0258] この不一致判定処理において、すべての圧縮ブロックデータについて不一致であると判定された場合 (ステップ S3615 :Yes)、ステップ S3618に移行する。一方、 1つでも一致すると判定された場合 (ステップ S3615 :No)、当該一致すると判定された圧縮ブロックデータを、ハフマン木を用いて伸長する（ステップ S3616)。そして、伸長されたブロックデータと検索キーワードとを比較し、検索キーワードに一致した項目データのファイル番号およびアンカーを記録して（ステップ S3617)、ステップ S3618 に移行する。

[0259] このあと、オープンしている特定圧縮化帳票ファイルをクローズし (ステップ S3618) 、ファイルカウンタを更新する（ステップ S3619)。ファイルカウンタの更新により、未処理の特定圧縮ィ匕帳票ファイルがあると判断された場合 (ステップ S3620 : Yes)、ステップ S 3613に移行して、つぎの特定圧縮ィ匕帳票ファイルをオープンする。

[0260] 一方、未処理の特定圧縮化帳票ファイルがな!/、と判断された場合 (ステップ S3620 ： No)、検索候補一覧を表示し (ステップ S3621)、ユーザ力もの選択入力を待ち受ける（ステップ S3622)ことにより、検索結果表示処理 (ステップ S 3005)に移行して、一連の処理を終了する。

[0261] このように、コンテンツが複数の帳票ファイル力構成されて、ても、単一の圧縮情報 (数値 ·文字出現頻度管理データ 500)により共通化することができる。

[0262] また、サイズが大き!/、帳票ファイルでは文字データ数に応じてブロック化をおこなヽ、 8ビットコード、 16ビットコードまたは 32ビットコードの文字データが混在する検索対象ファイルについてのハフマン圧縮技術を確立することができる。

[0263] また、サイズ (容量)ではなぐ文字データ数に応じたブロック化をおこない、帳票フアイル内の各文字データの出現頻度の集計時に、文字データの種類 (8ビットコード、 16ビットコードまたは 32ビットコード)を判定し、出現頻度を集計することができる。

[0264] また、英和辞典での英字データなど出現頻度の高い 8ビットコードの文字データに対しては、 Ox' FF * *，など 16ビットコードの文字データに置換し、ハフマン圧縮をおこなう。これにより、低出現率の 8ビットコードの文字データと区別して、効率的な圧縮をおこなうことができる。

[0265] また、ポインタなどの非文字データはランダムな値であるため、 8ビットコードに置換する。また、ハフマン木のサイズ縮小のため、出現頻度の低い 16ビットコードの文字データを分割し、 8ビットコードの文字データに置換する。これにより、効率的な圧縮をおこなうことができる。

[0266] また、圧縮のためのハフマン木の生成元である数値.文字出現頻度管理データ 50 0またはその一部を暗号化する。すなわち、コンテンツや、コンテンツ圧縮のためのハフマン木を直接暗号ィ匕せず、ハフマン木の生成元を暗号ィ匕しているため、セキユリティの向上を図ることができる。

[0267] また、数値 ·文字出現頻度管理データ 500をもとに、全文検索の高速ィ匕を図ることができる。また、連続する表音文字データの出現頻度の高い 2文字の連字データを外字データに置換した後、コンテンツ圧縮をおこなっているため、圧縮率の向上を図ることがでさる。

[0268] また、連字データにより、オープン Zクローズするファイル数を削減することができ、文字列の比較領域の縮小により全文検索の高速ィ匕を図ることができる。さらに、全文検索は伸長後に外字データのままで文字列比較を行うことで、さらに検索速度の向上を図ることができる。

[0269] (照合予測テーブル生成処理手順）

つぎに、上述した照合予測テーブル生成処理 (ステップ S3611)について詳細に説明する。図 37は、照合予測テーブル生成処理手順を示すフローチャートである。図 37において、まず、圧縮キーワード 2302の総シフト数を演算する（ステップ S370 Do具体的には、圧縮キーワード長とレジスタ Raのビット長と力も圧縮キーワード 230 2が保持されていないビット長（図 25の「 *」）を総シフト数として算出する。

[0270] つぎに、図 24に示したシフト操作の図表を参照して、照合間隔 (バイト数)を演算する（ステップ S3702)。そして、圧縮キーワード 2302を、上記総シフト分 1ビットずっシフトして、シフトテーブル 2500を作成する（ステップ S3703)。このシフトテーブル 25 00の各ビット列と圧縮キーワード 2302とを XOR演算して XORテーブル 2501を作成する（ステップ S3704)。

[0271] そして、作成された XORテーブル 2501と XORテーブル 2501を構成する各ビット列のシフト数力もなる部分判定テーブル 2502を作成する（ステップ S3705)。そして、部分判定テーブル 2502を用いて、照合予測テーブル 2503を作成し (ステップ S3 706)、ステップ S3612へ移行する。

[0272] (圧縮ブロックデータと圧縮キーワードとの不一致判定処理手順）

つぎに、上述した圧縮ブロックデータと圧縮キーワードとの不一致判定処理 (ステツプ S3614)について説明する。図 38は、圧縮ブロックデータと圧縮キーワードとの不一致判定処理手順を示すフローチャートである。図 38において、まず、圧縮キーヮード 2302をレジスタ Raにセットする（ステップ S3801)。

[0273] つぎに、圧縮ブロックデータ 2312をシフトさせる照合間隔 (バイト数)をセットし (ステップ S 3802)、特定圧縮化帳票ファイル 2311のポインタを初期化する（ステップ S 38 03)。このあと、現在のポインタにしたがって、圧縮ブロックデータ 2312をレジスタ Rb にセットする（ステップ S3804)。そして、レジスタ Raとレジスタ Rbとを XOR演算して（ステップ S3805)、下位 8ビットのビット列 2330を抽出する（ステップ S3806)。

[0274] つぎに、抽出された下位 8ビットのビット列 2330と照合予測テーブル 2503とを照合して、照合予測テーブル 2503内のビット列のうち、下位 8ビットのビット列 2330と一致するビット列のシフト数を検出し、検出されたシフト数が「一 1」であるか否力、すなわち不一致である力否かを判断する（ステップ S3807)。

[0275] そして、シフト数が「ー1」である場合 (ステップ S3807 :Yes)、特定圧縮ィ匕帳票ファィル 2311のポインタを照合間隔分加算する (ステップ S3808)。そして、圧縮ブロックデータ 2312がないか否かを判断する（ステップ S3809)。圧縮ブロックデータ 2312 力 ^sある場合 (ステップ S3809 :No)、ステップ S3804に戻る。一方、圧縮ブロックデータ 2312力ない場合 (ステップ S3809 :Yes)、ステップ S3615に移行する。このステツプ S3804〜ステップ S3809 :Noのループ〖こより、不一致であることを高速で照合することができ、検索速度の高速ィ匕を実現することができる。

[0276] また、ステップ S3807において、シフト数が「一 1」でない場合 (ステップ S3807 :No )、シフト数が0〜63でぁる場合(ステップ33810 : 0〜63)、すなゎち、部分一致となる場合、当該シフト数を取得して (ステップ S3811)、全ビット不一致照合処理を実行する (ステップ S3812)。全ビット不一致照合処理 (ステップ S3812)については後述する。このあと、ステップ S3808に移行する。 [0277] また、ステップ S3810において、シフト数が 64である場合 (ステップ S3810 : 64)、すなわち、重複部分一致となる場合、部分判定テーブル 2502のポインタを初期化し (ステップ S3813)、現在のポインタに対応する部分判定テーブル 2502の XOR結果を取得する (ステップ S3814)。そして、対応するビット列と、現在のポインタに対応する部分判定テーブル 2502の XOR結果とがー致するカゝ否かを判断する (ステップ S3 815)。不一致の場合 (ステップ S3815 :No)、ステップ S3818に移行する。

[0278] 一方、一致する場合 (ステップ S3815 :Yes)、その XOR結果に対応するシフト数を部分判定テーブル 2502から取得して (ステップ S3816)、全ビット不一致照合処理を実行する (ステップ S3817)。この全ビット不一致照合処理 (ステップ S3817)は、全ビット不一致照合処理 (ステップ S3812)と同一であるため後述する。

[0279] そして、全ビット不一致照合処理 (ステップ S3817)のあと、部分判定テーブル 250 2のポインタをカ卩算する（ステップ S3818)。部分判定テーブル 2502の現在のポインタが最終ポインタでない場合 (ステップ S3819 :No)、ステップ S3814に戻る。一方、部分判定テーブル 2502の現在のポインタが最終ポインタである場合 (ステップ S 381 9 : Yes)、ステップ S 3808に移行する。

[0280] (全ビット不一致照合処理手順）

つぎに、上述した全ビット不一致照合処理 (ステップ S3812およびステップ S3817) について詳細に説明する。図 39は、全ビット不一致照合処理 (ステップ S3812およびステップ S3817)を示すフローチャートである。図 39において、シフト数を 8で除算することにより、その除数および余りを取得する (ステップ S3901)。

[0281] つぎに、特定圧縮ィ匕帳票ファイル 2311の現在のポインタに除数を加算し (ステップ S3902)、圧縮ブロックデータ 2312をレジスタ Rbにセットする（ステップ S3903)。そして、セットされた圧縮ブロックデータ 2312を余りの値分シフトする（ステップ S3904)

[0282] つぎに、圧縮キーワード 2302をレジスタ Raにセットし (ステップ S3905)、両レジスタ Ra、 Rbにおいて照合対象外となるビットのマスクを OFFにする（ステップ S3906)。そして、全ビットが一致する場合 (ステップ S3907 : Yes)、一致したアドレスを記録し（ステップ S3908)、ステップ S3808 (また ίま S3817)に移行する。一方、全ビット力ー致しない場合 (ステップ S3907 :No)、ステップ S3808 (またはステップ S3817)に移行する。

[0283] これにより、特定圧縮化帳票ファイル 2311に対して、コンピュータの CPU101が得意であるバイト毎の操作をもとにした不一致照合の方式を実現することができる。すなわち、ビット毎の照合予測を目的に、入力された検索キーワード 2301を圧縮した圧縮キーワード 2302とその圧縮キーワード 2302を 1ビット毎シフトしたデータの集合であるシフトテーブル 2500との XOR演算をおこない、その演算結果をもとに不一致照合をおこなう。そして、圧縮キーワード長に応じて、特定圧縮化帳票ファイル 2311との照合間隔を長くすることにより不一致照合の高速ィ匕を図ることができる。

[0284] (数値検索モードにおける数値検索実行処理手順）

つぎに、この発明の実施の形態にカゝかる数値検索モードにおける数値検索実行処理手順について説明する。図 40は、この発明の実施の形態に力かる数値検索モードにおける数値検索実行処理手順を示すフローチャートである。

[0285] 図 36におけるステップ S3602 : Yesのあと、取得部 2701により数値範囲を取得する (ステップ S4001)。つぎに、検出部 2703により、数値範囲の境界を規定する数値 (下限数値、上限数値)の桁数および先頭数字を検出する (ステップ S4002)。そして、数値圧縮部 2702により、下限数値および上限数値を圧縮する (ステップ S4003)。

[0286] このあと、出現マップ抽出部 2705により、出現マップ 510から下限数値群〜上限数値群の出現マップを抽出する (ステップ S4004)。そして、中間数値群判断部 2704 により、中間数値群があるカゝ否かを判断する (ステップ S4005)。中間数値群があると判断された場合 (ステップ S4005 : Yes)、省略マップ設定部 2706により、中間数値群の出現マップの論理和をとることにより、中間結果マップを生成し (ステップ S4006 )、中間結果マップ内の全ビットを反転させて省略マップに変換する (ステップ S4007

) o

[0287] 一方、中間数値群がな、と判断された場合 (ステップ S4005： No)、省略マップを初期化する（ステップ S4008)。すなわち、帳票ファイル f0〜fnに対応するビット列をすべて OFFにすることで、全ビット「0」の省略マップを得る。そして、ステップ S4009 に移行する。 [0288] このあと、下限特定 Z比較処理 (ステップ S4009)および上限特定 Z比較処理 (ステツプ S4010)を実行する。下限特定 Z比較処理 (ステップ S4009)および上限特定 Z比較処理 (ステップ S4010)の詳細な処理手順にっヽては後述する。

[0289] そして、決定部 2711により、数値範囲内の数値が存在する圧縮化帳票ファイル Fi を決定する（ステップ S4011)。このあと、ファイル構成データ特定部 2109により、数値範囲内の数値が存在する圧縮ィ匕帳票ファイル Fiのページリストを特定し (ステップ S4012)、図 36に示したステップ S3621に移行する。これにより、数値検索実行処理の一連の手順を終了する。

[0290] (下限特定 Z比較処理手順）

つぎに、図 40に示した下限特定 Z比較処理の詳細な処理手順にっ、て説明する

。図 41は、図 40に示した下限特定 Z比較処理手順を示すフローチャートである。図

41においては、図 28— 1〜図 28— 4に示した大小比較例を参照しながら説明する。

[0291] まず、図 28— 2で示したように、下限数値群マップ（4桁先頭数字 3マップ M43)と省略マップ M02との論理積演算をおこなうことにより、下限マップ M03を得る (ステツプ S4101)。つぎに、ファイル番号 iを i=0とし、下限比較結果マップ M04を初期化（全ビット OFF)する（ステップ S4102)。

[0292] そして、下限マップ M03中、 i番目のビットが ONであるか否かを判断する（ステップ

S4103)。ビットが OFFである場合 (ステップ S4103 : No)、ステップ S4110に移行する。

[0293] 一方、ビットが ONである場合 (ステップ S4103 : Yes)、圧縮化帳票ファイル Fの中から圧縮化帳票ファイル Fiを抽出する（ステップ S4104)。このあと、圧縮化帳票ファィル Fiの中に、ファイル内数値の圧縮情報（図 28— 2では圧縮情報 2801)がある力否かを判断する（ステップ S4105)。

[0294] 圧縮情報がある場合 (ステップ S4105： Yes)、下限数値照合処理を実行する (ステップ S4106)。この下限数値照合処理については図 42で後述する。そして、下限数値照合処理による照合結果により、下限数値の境界条件を充足しているか否かを判断する（ステップ S4107)。

[0295] 充足していない場合 (ステップ S4107 :No)、ステップ S4105に戻る。一方、境界条件を充足している場合 (ステップ S4107 : Yes)、下限比較結果マップ M04中、 i番目のビットが OFFのままか否かを判断する（ステップ S4108)。すでに ONになっている場合 (ステップ S4108 : No)、ステップ S4105に移行する。

[0296] 一方、ビットが OFFである場合 (ステップ S4108： Yes)、その i番目のビットを OFF 力も ONにして（ステップ S4109)、ステップ S4105に戻る。また、ステップ S4105において、未照合のファイル内数値の圧縮情報がない場合 (ステップ S4105 : No)、ステツプ S4110〖こ移行する。ステップ S4110では、ファイル番号 iを 1つインクリメントする。そして、 i>nである力否かを判断する（ステップ S4111)。

[0297] i>nでない場合 (ステップ S4111 :No)、ステップ S4103に戻る。一方、 i>nである場合 (ステップ S4111： Yes)、図 40で示したステップ S4011に移行する。これにより、下限特定 Z比較処理の一連の手順を終了する。

[0298] (下限数値照合処理手順）

つぎに、図 41に示した下限数値照合処理の詳細な処理手順につ、て説明する。図 42は、下限数値照合処理手順を示すフローチャートである。図 42において、下限数値の圧縮情報内の全角 ·半角ビットおよびカンマ有無ビットと、ファイル内数値の圧縮情報内の全角 ·半角ビットおよびカンマ有無ビットとを OFFにする（ステップ S4201

) o

[0299] そして、圧縮情報どうしを比較してフィーダが一致する力否かを判断する (ステップ S4201)。不一致である場合 (ステップ S4202 :No)、ステップ S4107に移行する。一方、フィーダが一致した場合 (ステップ S4202 : Yes)、桁数が一致する力否かを判断する（ステップ S4203)。

[0300] 桁数が不一致である場合 (ステップ S4203 : No)、ステップ S4107に移行する。一方、桁数も一致する場合 (ステップ S4203 :Yes)、桁数カウンタ Nを N = Nmaxに設定する（ステップ S4204)。 Nmaxは下限数値およびファイル内数値の桁数である。

[0301] そして、ファイル内数値の N桁目の数字が下限数値の N桁目の数字以上であるか否かを判断する (ステップ S4205)。ここで、判断基準として下限数値の N桁目の数字以上としたのは、数値範囲における下限数値の境界条件が「≤」であるからであり、当該境界条件が「<」である場合、ファイル内数値の N桁目の数字が下限数値の N 桁目の数字よりも大き、か否かを判断することとなる。

[0302] そして、下限数値の N桁目の数字以上でな!、場合 (ステップ S4205： No)、ステツプ S4107〖こ移行する。一方、下限数値の N桁目の数字以上である場合 (ステップ S4 205 : Yes)、桁数カウンタ Nを 1つデクリメントし (ステップ S4206)、桁数カウンタ Nが N< 0であるか否かを判断する（ステップ S4207)。 N< 0でな!/、場合 (ステップ S420 7 :No)、下限数値の圧縮情報とファイル内数値の圧縮情報のうちいずれか一方にだけ、 N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がある力否かを判断する（ステップ S4208)。

[0303] V、ずれか一方にだけ N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がない場合 (ステップ S4208 : No)、すなわち、ともに小数点の圧縮符号があるか、いずれにも小数点の圧縮符号がない場合、ステップ S4205に戻る。

[0304] 一方、、ずれか一方にだけ N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がある場合 (ステップ S4208 :Yes)、ステップ S4107 に移行する。

[0305] また、ステップ S4207において、 Nく 0である場合 (ステップ S4207 : Yes)、ステツプ S4107〖こ移行する。これにより、下限数値照合処理の一連の手順を終了する。

[0306] そして、図 41に示したステップ S4107では、ステップ S4207で Nく 0である場合 (ステツプ S4207 : Yes)、下限数値の境界条件を充足していると判断し、一方、ステップ S4202、ステップ S4203、ステップ S4205またはステップ S4208で Noと半 IJ断された場合、下限数値の境界条件を充足して、な、と判断する。

[0307] (上限特定 Z比較処理手順）

つぎに、図 40に示した上限特定 Z比較処理の詳細な処理手順にっ、て説明する。図 43は、図 40に示した上限特定 Z比較処理手順を示すフローチャートである。図 43においては、図 28— 1〜図 28— 4に示した大小比較例を参照しながら説明する。

[0308] まず、図 28— 2で示したように、上限数値群マップ（4桁先頭数字 6マップ M46)と省略マップ M02との論理積演算をおこなうことにより、上限マップ M05を得る（ステツプ S4301)。つぎに、ファイル番号 iを i=0とし、上限比較結果マップ M06を初期化（全ビット OFF)する（ステップ S4302)。

[0309] そして、上限マップ M05中、 i番目のビットが ONであるか否かを判断する（ステップ S4303)。ビットが OFFである場合 (ステップ S4303 :No)、ステップ S4310に移行する。

[0310] 一方、ビットが ONである場合 (ステップ S4303 : Yes)、圧縮化帳票ファイル Fの中から圧縮化帳票ファイル Fiを抽出する（ステップ S4304)。このあと、圧縮化帳票ファィル Fiの中に、ファイル内数値の圧縮情報（図 28— 3では圧縮情報 2803)がある力否かを判断する（ステップ S4305)。

[0311] 圧縮情報がある場合 (ステップ S4305 :Yes)、上限数値照合処理を実行する (ステップ S4306)。この上限数値照合処理については図 44で後述する。そして、上限数値照合処理による照合結果により、上限数値の境界条件を充足しているか否かを判断する（ステップ S4307)。

[0312] 充足していない場合 (ステップ S4307 :No)、ステップ S4305に戻る。一方、境界条件を充足している場合 (ステップ S4307 : Yes)、上限比較結果マップ M06中、 i番目のビットが OFFのままか否かを判断する（ステップ S4308)。すでに ONになっている場合 (ステップ S4308 :No)、ステップ S4305に移行する。

[0313] 一方、ビットが OFFである場合 (ステップ S4308： Yes)、その i番目のビットを OFF 力ら ONにして（ステップ S4309)、ステップ S4305に戻る。また、ステップ S4305において、未照合のファイル内数値の圧縮情報がない場合 (ステップ S4305 : No)、ステツプ S4310〖こ移行する。ステップ S4310では、ファイル番号 iを 1つインクリメントする（ステップ S4310)。そして、 i>nであるか否かを判断する（ステップ S4311)。

[0314] i>nでない場合 (ステップ S4311 :No)、ステップ S4303に戻る。一方、 i>nである場合 (ステップ S4311 :Yes)、図 40で示したステップ S4011に移行する。これにより、上限特定 Z比較処理の一連の手順を終了する。

[0315] (上限数値照合処理手順）

つぎに、図 43に示した上限数値照合処理の詳細な処理手順について説明する。図 44は、上限数値照合処理手順を示すフローチャートである。図 44において、上限数値の圧縮情報内の全角 ·半角ビットおよびカンマ有無ビットと、ファイル内数値の圧縮情報内の全角 ·半角ビットおよびカンマ有無ビットとを OFFにする（ステップ S4401

) o

[0316] そして、圧縮情報どうしを比較してフィーダが一致する力否かを判断する (ステップ S4402)。不一致である場合 (ステップ S4402 :No)、ステップ S4307に移行する。一方、フィーダが一致した場合 (ステップ S4402 : Yes)、桁数が一致する力否かを判断する（ステップ S4403)。

[0317] 桁数が不一致である場合 (ステップ S4403 : No)、ステップ S4307に移行する。一方、桁数も一致する場合 (ステップ S4403 :Yes)、桁数カウンタ Nを N = Nmaxに設定する（ステップ S4404)。 Nmaxは上限数値およびファイル内数値の桁数である。

[0318] そして、ファイル内数値の N桁目の数字が上限数値の N桁目の数字以下であるか否かを判断する (ステップ S4405)。ここで、判断基準として「上限数値の N桁目の数字以下」としたのは、数値範囲における上限数値の境界条件が「≥」であるからであり、当該境界条件力^ >」である場合、ファイル内数値の N桁目の数字が上限数値の N 桁目の数字よりも小さ、か否かを判断することとなる。

[0319] そして、上限数値の N桁目の数字以下でない場合 (ステップ S4405 : No)、ステツプ S4307〖こ移行する。一方、上限数値の N桁目の数字以下である場合 (ステップ S4 405 : Yes)、桁数カウンタ Nを 1つデクリメントし (ステップ S4406)、桁数カウンタ Nが N< 0であるか否かを判断する（ステップ S4407)。 N< 0でな!/、場合 (ステップ S440 7 :No)、上限数値の圧縮情報とファイル内数値の圧縮情報のうちいずれか一方にだけ、 N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がある力否かを判断する（ステップ S4408)。

[0320] いずれか一方にだけ N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がない場合 (ステップ S4408 : No)、すなわち、ともに小数点の圧縮符号があるか、いずれにも小数点の圧縮符号がない場合、ステップ S4405に戻る。

[0321] 一方、、ずれか一方にだけ N— 1桁目の数字の圧縮符号と N桁目の数字の圧縮符号との間に小数点の圧縮符号がある場合 (ステップ S4408 : Yes)、ステップ S4307 に移行する。 [0322] また、ステップ S4407において、 Nく 0である場合 (ステップ S4407 : Yes)、ステツプ S4307〖こ移行する。これにより、上限数値照合処理の一連の手順を終了する。

[0323] そして、図 43に示したステップ S4307では、ステップ S4407で Nく 0である場合 (ステツプ S4407 : Yes)、上限数値の境界条件を充足していると判断し、一方、ステップ S4402、ステップ S4403、ステップ S4405またはステップ S4408で Noと判断された場合、上限数値の境界条件を充足して、な、と判断する。

[0324] 以上のことから、この発明の実施の形態によれば、中間数値群を検出して省略マツプ M02に反映させているため、中間数値群の出現マップにより特定される圧縮化帳票ファイルに対して数値範囲内の数値の一致照合をするまでもなぐ数値範囲内の数値の有無を検出することができる。

[0325] また、下限数値群や上限数値群についてのみ数値の一致照合をおこなうが、フアイル内数値はフィーダに関連付けられているため、圧縮ィ匕帳票ファイル Fiの中力数値情報のみを高速に検索することができる。また、数値の圧縮情報どうしで一致照合して、るため、フィーダや桁数の圧縮符号どうしの一致照合のみで大小比較をおこなうことができ、高精度な検索を高速でおこなうことができる。

[0326] また、数値 ·文字出現頻度管理データ 500において、数字等の出現頻度を補正することにより、数値の一致照合や伸長の高速ィ匕を図ることができる。特に、検索対象フアイルに数値データと文字データが混在する場合に、数値の一致照合や伸長の高速ィ匕を図ることができる。

[0327] このように、この発明の実施の形態によれば、数値範囲内の数値が存在するフアイルを圧縮したまま特定することにより、数値範囲検索の高速ィ匕および高精度化を図ることができると!/、う効果を奏する。

産業上の利用可能性

[0328] 以上のように、本発明に力かる情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置は、数値範囲の検索に有用であり、特に、帳票ファイルのような数値が多数含まれて、るコンテンツに適して、る。

Claims

請求の範囲

[1] 任意の数値範囲の境界を規定する数値を取得させる取得工程と、

前記取得工程によって取得された境界を規定する数値の桁数および先頭数字を検出させる検出工程と、

桁数および先頭数字を満たす数値群内の数値の存否を検索対象ファイルごとにあらわしたビット列の集合の中から、前記検出工程によって検出された桁数および先頭数字を満たす数値群内の数値の存否を前記検索対象ファイルごとにあらわしたビット列を抽出させるビット列抽出工程と、

前記ビット列抽出工程によって抽出されたビット列の中の前記検出工程によって検出された桁数および先頭数字を満たす数値群内の数値の存在を示すビットに対応する検索対象ファイルを、前記複数の検索対象ファイルの中から特定させる特定ェ程と、

前記特定工程によって特定された検索対象ファイルに含まれているファイル内数値力前記境界を規定する数値との境界条件を充足している力否かを判断させる境界条件判断工程と、

前記境界条件判断工程によって判断された判断結果に基づ!/ヽて、前記特定工程によって特定された検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定させる決定工程と、

をコンピュータに実行させることを特徴とする情報検索プログラム。

[2] 前記境界を規定する一方の数値の桁数および先頭数字を満たす一方の数値群と、前記境界を規定する他方の数値の桁数および先頭数字を満たす他方の数値群との間に、中間の数値群が存在するカゝ否かを判断させる中間数値群判断工程を、前記コンピュータに実行させ、

前記特定工程は、

さらに、前記一方の数値群内の数値が存在する検索対象ファイルのうち前記中間数値群内の数値が存在しない検索対象ファイル (以下、「一方の検索対象ファイル」という）を特定させるとともに、前記他方の数値群内の数値が存在する検索対象フアイルのうち前記中間数値群内の数値が存在しない検索対象ファイル (以下、「他方の検索対象ファイル」 t 、う）を特定させ、

前記境界条件判断工程は、

前記特定工程によって特定された一方の検索対象ファイルに含まれているファイル内数値が前記境界を規定する一方の数値との境界条件を充足して!/、るか否か、および前記特定工程によって特定された他方の検索対象ファイルに含まれているフアイル内数値が前記境界を規定する他方の数値との境界条件を充足しているか否かを判断させ、

前記決定工程は、

前記境界条件判断工程によって判断された判断結果に基づ!ヽて、前記一方の検索対象ファイル、前記他方の検索対象ファイル、または前記中間数値群内の数値が存在する検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定させることを特徴とする請求項 1に記載の情報検索プログラム。

[3] 任意の数値範囲の境界を規定する数値を取得させる取得工程と、

前記取得工程によって取得された境界を規定する数値を所定の圧縮形式で圧縮させる数値圧縮工程と、

前記数値圧縮工程によって得られた前記境界を規定する数値に関する圧縮情報と、検索対象ファイルを前記所定の形式で圧縮した圧縮化検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足している力否かを判断させる境界条件判断工程と、

前記境界条件判断工程によって判断された判断結果に基づ!ヽて、前記圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定させる決定工程と、をコンピュータに実行させることを特徴とする情報検索プログラム。

[4] 前記数値圧縮工程は、

前記境界を規定する数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む圧縮情報に圧縮させ、

前記境界条件判断工程は、前記数値圧縮工程によって圧縮された圧縮情報と、前記ファイル内数値の桁数を示す数字に関する圧縮符号および前記ファイル内数値の桁ごとの数字に関する圧縮符号とを含む前記ファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足している力否かを判断させることを特徴とする請求項 3に記載の情報検索プログラム。

前記境界を規定する一方の数値の桁数および先頭数字を満たす一方の数値群と、前記境界を規定する他方の数値の桁数および先頭数字を満たす他方の数値群との間に、中間の数値群が存在するか否かを判断させる中間数値群判断工程と、前記一方の数値群内の数値が存在する圧縮化検索対象ファイルのうち前記中間数値群内の数値が存在しない圧縮化検索対象ファイル (以下、「一方の圧縮化検索対象ファイル」 t ヽぅ）を特定させるとともに、

前記他方の数値群内の数値が存在する圧縮化検索対象ファイルのうち前記中間数値群内の数値が存在しない圧縮化検索対象ファイル (以下、「他方の圧縮化検索対象ファイル」という）を特定させる特定工程とを、前記コンピュータに実行させ、前記数値圧縮工程は、

前記境界を規定する一方の数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む一方の圧縮情報に圧縮させるとともに、

前記境界を規定する他方の数値を、前記境界を規定する数値の桁数を示す数字に関する圧縮符号および前記境界を規定する数値の桁数ごとの数字に関する圧縮符号を含む他方の圧縮情報に圧縮させ、

前記境界条件判断工程は、

前記数値圧縮工程によって得られた前記一方の圧縮情報と前記一方の圧縮ィ匕検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、当該ファイル内数値が前記境界を規定する数値との境界条件を充足しているか否かを判断させるとともに、

前記数値圧縮工程によって得られた前記他方の圧縮情報と前記他方の圧縮化検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、当該ファイル内数値が前記境界を規定する数値との境界条件を充足しているか否かを判断させ、

前記決定工程は、

前記境界条件判断工程によって判断された判断結果に基づ!ヽて、前記一方の圧縮化検索対象ファイル、前記他方の圧縮化検索対象ファイル、または前記中間数値群内の数値が存在する圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定させることを特徴とする請求項 3または 4に記載の情報検索プログラム

[6] 前記検索対象ファイル内に存在する数字の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正させる補正工程と、前記補正工程によって補正された出現頻度に基づいて、前記検索対象ファイルを圧縮させるファイル圧縮工程と、を前記コンピュータに実行させ、

前記境界条件判断工程は、

前記数値圧縮工程によって得られた前記境界を規定する数値に関する圧縮情報と、前記ファイル圧縮工程によって圧縮された前記圧縮ィヒ検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足している力否かを判断させることを特徴とする請求項 3に記載の情報検索プログラム。

[7] 前記補正工程は、

さらに、前記検索対象ファイル内に存在するカンマの出現頻度を、前記検索対象フアイル内に存在する文字の出現頻度よりも高い出現頻度に補正させることを特徴とする請求項 6に記載の情報検索プログラム。

[8] 前記補正工程は、

さらに、前記検索対象ファイル内に存在する小数点の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正させることを特徴とする請求項 6または 7に記載の情報検索プログラム。

[9] 数字と文字とが混在する検索対象ファイルの中から数値の存在を示すフィーダを検出させるフィーダ検出工程と、前記フィーダ検出工程によって検出されたフィーダに関連付けられている数値の桁数を検出させる桁数検出工程と、

前記検索対象ファイル内に含まれている数字の出現頻度に基づいて、前記数値を前記フィーダに関連付けて、前記桁数検出工程によって検出された桁数を示す数字に関する圧縮符号と前記数値の桁数ごとの数字に関する圧縮符号とを含む圧縮情報に圧縮させる圧縮工程と、

[10] 前記フィーダは、前記数値の種類を特定する情報であることを特徴とする請求項 9 に記載の情報検索プログラム。

[11] 前記数値が全角または半角であることを検出させる全角 Z半角検出工程を前記コンピュータに実行させ、

前記圧縮工程は、

さらに、前記数値を、前記全角 Z半角検出工程によって検出された検出結果に関する圧縮符号を含む圧縮情報に圧縮させることを特徴とする請求項 9また 10に記載の情報検索プログラム。

[12] 前記数値の中からカンマを検出させるカンマ検出工程を前記コンピュータに実行させ、

前記圧縮工程は、

さらに、前記数値を、前記カンマ検出工程によって検出された検出結果に関する圧縮符号を含む圧縮情報に圧縮させることを特徴とする請求項 9または 10に記載の情報検索プログラム。

[13] 前記検索対象ファイル内に存在する数字の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正させる補正工程を前記コンビユータに実行させ、

前記圧縮工程は、

前記補正工程によって補正された出現頻度に基づいて、前記数値を圧縮させることを特徴とする請求項 9に記載の情報検索プログラム。

[14] 前記補正工程は、さらに、前記検索対象ファイル内に存在するカンマの出現頻度を、前記検索対象フアイル内に存在する文字の出現頻度よりも高い出現頻度に補正させることを特徴とする請求項 9に記載の情報検索プログラム。

[15] 前記補正工程は、

さらに、前記検索対象ファイル内に存在する小数点の出現頻度を、前記検索対象ファイル内に存在する文字の出現頻度よりも高い出現頻度に補正させることを特徴とする請求項 9に記載の情報検索プログラム。

[16] 請求項 1、 3または 9のいずれか一つに記載の情報検索プログラムを記録した前記コンピュータに読み取り可能な記録媒体。

[17] 任意の数値範囲の境界を規定する数値を取得する取得工程と、

前記取得工程によって取得された境界を規定する数値の桁数および先頭数字を検出する検出工程と、

桁数および先頭数字を満たす数値群内の数値の存否を検索対象ファイルごとにあらわしたビット列の集合の中から、前記検出工程によって検出された桁数および先頭数字を満たす数値群内の数値の存否を前記検索対象ファイルごとにあらわしたビット列を抽出するビット列抽出工程と、

前記ビット列抽出工程によって抽出されたビット列の中の前記検出工程によって検出された桁数および先頭数字を満たす数値群内の数値の存在を示すビットに対応する検索対象ファイルを、前記複数の検索対象ファイルの中から特定する特定工程と、

前記特定工程によって特定された検索対象ファイルに含まれているファイル内数値力前記境界を規定する数値との境界条件を充足して、る力否かを判断する境界条件判断工程と、

前記境界条件判断工程によって判断された判断結果に基づ!ヽて、前記特定工程によって特定された検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定する決定工程と、

を含んだことを特徴とする情報検索方法。

[18] 任意の数値範囲の境界を規定する数値を取得する取得工程と、前記取得工程によって取得された境界を規定する数値を所定の圧縮形式で圧縮する数値圧縮工程と、

前記数値圧縮工程によって得られた前記境界を規定する数値に関する圧縮情報と、検索対象ファイルを前記所定の形式で圧縮した圧縮化検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足している力否かを判断する境界条件判断工程と、

前記境界条件判断工程によって判断された判断結果に基づ!ヽて、前記圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定する決定工程と、を含んだことを特徴とする情報検索方法。

[19] 数字と文字とが混在する検索対象ファイルの中から数値の存在を示すフィーダを検出するフィーダ検出工程と、

前記フィーダ検出工程によって検出されたフィーダに関連付けられている数値の桁数を検出する桁数検出工程と、

前記検索対象ファイル内に含まれている数字の出現頻度に基づいて、前記数値を前記フィーダに関連付けて、前記桁数検出工程によって検出された桁数を示す数字に関する圧縮符号と前記数値の桁数ごとの数字に関する圧縮符号とを含む圧縮情報に圧縮する圧縮工程と、

を含んだことを特徴とする情報検索方法。

[20] 任意の数値範囲の境界を規定する数値を取得する取得手段と、

前記取得手段によって取得された境界を規定する数値の桁数および先頭数字を検出する検出手段と、

桁数および先頭数字を満たす数値群内の数値の存否を検索対象ファイルごとにあらわしたビット列の集合の中から、前記検出手段によって検出された桁数および先頭数字を満たす数値群内の数値の存否を前記検索対象ファイルごとにあらわしたビット列を抽出するビット列抽出手段と、

前記ビット列抽出手段によって抽出されたビット列の中の前記検出手段によって検出された桁数および先頭数字を満たす数値群内の数値の存在を示すビットに対応する検索対象ファイルを、前記複数の検索対象ファイルの中から特定する特定手段と、

前記特定手段によって特定された検索対象ファイルに含まれているファイル内数値力前記境界を規定する数値との境界条件を充足して、る力否かを判断する境界条件判断手段と、

前記境界条件判断手段によって判断された判断結果に基づ!、て、前記特定手段によって特定された検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定する決定手段と、

を備えることを特徴とする情報検索装置。

[21] 任意の数値範囲の境界を規定する数値を取得する取得手段と、

前記取得手段によって取得された境界を規定する数値を所定の圧縮形式で圧縮する数値圧縮手段と、

前記数値圧縮手段によって得られた前記境界を規定する数値に関する圧縮情報と、検索対象ファイルを前記所定の形式で圧縮した圧縮化検索対象ファイルに含まれているファイル内数値に関する圧縮情報とを照合することにより、前記ファイル内数値が前記境界を規定する数値との境界条件を充足している力否かを判断する境界条件判断手段と、

前記境界条件判断手段によって判断された判断結果に基づ!、て、前記圧縮化検索対象ファイルを、前記数値範囲内の数値を含むファイルに決定する決定手段と、を備えることを特徴とする情報検索装置。

[22] 数字と文字とが混在する検索対象ファイルの中から数値の存在を示すフィーダを検出するフィーダ検出手段と、

前記フィーダ検出手段によって検出されたフィーダに関連付けられている数値の桁数を検出する桁数検出手段と、

前記検索対象ファイル内に含まれている数字の出現頻度に基づいて、前記数値を前記フィーダに関連付けて、前記桁数検出手段によって検出された桁数を示す数字に関する圧縮符号と前記数値の桁数ごとの数字に関する圧縮符号とを含む圧縮情報に圧縮する圧縮手段と、を備えることを特徴とする情報検索装置。