JPS6091444A - 情報検索方式 - Google Patents

情報検索方式

Info

Publication number
JPS6091444A
JPS6091444A JP58198536A JP19853683A JPS6091444A JP S6091444 A JPS6091444 A JP S6091444A JP 58198536 A JP58198536 A JP 58198536A JP 19853683 A JP19853683 A JP 19853683A JP S6091444 A JPS6091444 A JP S6091444A
Authority
JP
Japan
Prior art keywords
data
segment list
keyword
generated segment
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58198536A
Other languages
English (en)
Inventor
Masayuki Kozuka
雅之 小塚
Shinichi Tsujita
辻田 眞一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58198536A priority Critical patent/JPS6091444A/ja
Publication of JPS6091444A publication Critical patent/JPS6091444A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、データ処理装置と外部記憶装置とで構成され
る情報検索装置において、大量のデータの検索・登録等
を行なう情報検索方式の物理的ファイル編成に関するも
のである。
従来例の構成とその問題点 第1図は、逆ファイル構造を用いた情報検索方式の記憶
領域の編成方式の一例であり、第1図(a)はその全体
構成を表しくニ)はその内部構造を示す。
2はめるデータを格納するデータ領域であり、。
1はデータを取出すために使用する索引部で、索引1は
辞書部3と発生セグメントリスト部4とに分けられる。
6は発生セグメントリスト部4における発生セグメント
リストを表し、6は辞書部3において検索キーワードと
検索キーワードに対応する発生セグメントリスト6のポ
インターとを持つキーワードセルである。
3 び 第2図は前記情報検索方式の論理構成を示すものであり
、61・62・63は第1図における発生セグメントリ
スト6に対応する、7は発生セグメントリスト6の中に
存在するデータの格納位置を意味するポインターである
データ番号であり、キーワードセル6はキーワードがど
のデータ番号の入った発生セスメン) IJタスト持つ
か示すもので、キーワード・発生セグメントリストを示
すポインター等から構成される。第3図〜第6図は従来
例の情報検索方式の索引部分を示し、aは辞書部をbは
発生セグメントリスト部を表し、8はキーワードセルを
、9はキーワードを、10は発生セグメントリストのポ
インターを、11は発生セグメントリストを、12は発
生セグメントリストの識別番号を、13はデータ番号を
、14は次発生セグメントリストへのポインターを表す
一般に大量のデータの検索・登録等を行なうデータベー
スの物理編成において大量のデータの高速な検索が必要
となる場合、その物理的ファイル編成方式として第1図
・第2図に示すように索引1網I3九〇−91444(
2) 部1を辞書部3と発生セグメントリスト部4に分け、発
生セグメントリスト6内にデータ番号アを持ちキーワー
ドに対応するデータの検索を行なう逆ファイル記憶構造
の情報検索方式がある。この情報検索方式により登録さ
れたデータを取出す場合、求めたいキーワードごとに辞
書部を検索し、キーワードごとの発生セグメントリスト
を取出し、その発生セグメントリストに含まれるデータ
番号群どうしで、論理演算を行いその結果からめたいデ
ータのデ〜り番号を取出し、そのデータ番号を用いてめ
るデータを取出すことができる。
従来この情報検索方式においては、その索引部を第3図
・第4図に示すように、辞咽部(a)がキーワードセル
8にそれぞれのキーワード9とキーワードに対応するデ
ータ番号群を格納する発生セグメントリストのポインタ
ー10を格納し、この辞書部内のキーワードセル8を検
索することによ)キーワード9に対応するデータのデー
タ番号13をめていた。この逆ファイル構造を採用した
情報検索方式は検索対象のキーワードに関係するゾロニ
ージ ータの位置を示すデータ番号をまとめて取出すことが出
来るために、非常に高速な検索が可能であり一般的に用
いられている。ところがこの方式では、高速な登録・削
除を行なうために、従来、第3図・第4図のように発生
セグメントリスト部(b)をキーワード9ごとに、ある
一定伊数のデータ番号が入る領域を持った発生セグメン
トリストに分はデータ番号を格納し、データ番号の追加
・削除時には、発生セグメントリスト内に空きがある場
合はそこに追加し、ない場合は新しい発生セグメントリ
ストを生成し、そこにデータ番号を追加することにより
高速処理を可能にしていた。
この場合、大量のデータ番号を持ったキーワードのデー
タ番号を取出す場合にアクセスすべき発生セグメントリ
ストの個数が多くなるために外部記憶装置のアクセス回
数が増加する。例えば第6図において、キーワードrF
UJITA」のデータ 。
番号を取出す場合、03・04・o6・o6の4個の発
生セグメントリストをアクセスしなくてはならないため
に、最悪4回の外部記憶装置のアク6ベージ セスが必要となる。同様にキーワードl’−HARAJ
の場合もo7・08・o9・10の4個の発生セグメン
トリストをアクセスしなくてはならないために、最悪4
回の外部記憶装置のアクセスが必要となる。そこで高速
なデータ番号の取出しを可能にするためには発生セグメ
ントリストに格納出来るデータ番号の個数をかなり大き
くすることにより、アクセスしなくてはならない発生セ
グメントリストの個数を少なくして、大量のデータを持
ったキーワードの取出しの場合も外部記憶装置のアクセ
ス回数の増加が極端に遅くなる可能性を排除しなくては
ならない。即ち第6図においては第5図の場合に比べ2
倍の発生セグメントリストの容量を持つため、当然デー
タ番号の個数が少ないキーワードに対しては、発生セグ
メントリスト内のデータ番号の収容効率は悪くなるが、
第5図においては4回のアクセスが必要であったキーワ
ード「FUJITAJ rHARAJについても2回の
アクセスでよいことが分かる、このことから高速の検索
が必要な場合についてはアクセスする発生7゛(−ジ セグメントリストの個数を下げる必要があるためある程
度の大きさを持った発生セグメントリストが必要なこと
が分かる。しかしながらこのような索引ファイルにおい
てはキーワードに対して1ないし2個程度のデータ番号
のみを有するものが一般に多数存在するが、このような
キーワードに対しても、1個の発生セグメントリストを
割り当てる必要が有る。このため、第3図・第4図の例
からも明らかなように、そのようなキーワードの発生セ
スメン) IJストの内部には使われていないデータ番
号の格納領域が多数存在することになり、この空き領域
が無駄々ことと、このようなキーワードに対しても発生
セグメントリストを生成するため、発生セグメントリス
トの個数が必要以上に多くなり登録出来うるキーワード
の数が低く抑えられるという二点で、索引郡全体の記憶
領域の効率を落としていた。
発明の目的 本発明は、このような従来の欠点を除去するものであり
、通常のキーワード検索時の高速性を損なうことなしに
、辞書部にデータ番号を持つことによりほとんど使用さ
れていない発生セグメントリストを生成する可能性を減
少させ、それにより記憶領域の無駄を大幅に減少させた
優れた情報検索方式を提供するものである。
発明の構成 本発明の情報検索方式は、従来辞書部にあるキーワード
に対応して発生セグメントリストが少数のデータ番号し
か格納されておらず、はとんど無駄になっている場合に
おいても必ず発生セグメントリストを1個以上必要とし
ていた、このため1個のキーワードに対し少数のデータ
番号しか持たないキーワードが多数存在する場合にお−
ては、索引部の記憶領域の効率が著しく悪化した。そこ
で本発明の情報検索方式においては辞書部に少数のデー
タ番号を格納する領域を持たせ、そのために少数のデー
タ番号しか持たないキーワードがほとんど空の発生セグ
メントリストを生成することを防ぎ、このことにより索
引部の記憶領域の効率が悪化することを大幅に減少させ
たものである。
9ページ 実施例の説明 本発明の情報検索方式の説明を図を用いて行なう。第7
図〜第10図は本発明の情報検索方式の索引部分を示し
、(a)は辞書部を(b)は発生セグメントリスト部を
表す。8はキーワードセルを、9はキーワードを、1o
は発生セグメントリストのポインターを、11は発生セ
グメントリストを、12は発生セグメントリストの識別
番号を、13はデータ番号を、14は次発生セグメント
リストへのポインターを表す(従来例と共通する部分に
は同一番号を付している)。
第3図の例においてキーワードに対応したデータ番号が
単一のものが多数存在するが、これらキーワードに対し
ても発生セグメントリストを割当ている。そのため発生
セスメン) IJスト部内のデータ番号の収容効率が悪
化する一方、キーワードも発生セスメン) IJストの
個数以上はその発生セスメン) IJストの領域に未使
用部分が有っても登録することができない。そこで、こ
の第3図のようにキーワードが登録された状態を本情報
検索方10ページ 式を用いて登録した場合を考える。ここで辞書部のキー
ワードを格納する領域にデータを1個格納した場合が第
7図であり、2個格納した場合が第8図である。第7図
においては、キーワードに対して1個のデータ番号しか
持たないものは発生セグメントリストを生成しな−ため
、各発生セグメントリスト内のデータ番号の収容効率が
かなり改善され、かつ無駄な発生セグメントリストを生
成しないことにより、発生セグメントリスト部に余裕が
出来、さらに大量のキーワードを辞書部に登録すること
が可能になる。第8図にお込ては、さらに発生セスメン
) IJスト部の記憶効率は良くなるが、辞書部におけ
るデータ番号を格納する領域の無駄も大きくなるととも
に、辞書部の容量が大きくなる。従って登録されるキー
ワードとデータ番号の個数との関係を調べ、最適な個数
を選択する必要がある。
このことは第4図のようにキーワードが登録された状態
を本情報検索方式を当てはめた場合である第9図・第1
0図により容易に理解できる。す11 ページ なわち、キーワードに対して1個のデータ番号を持つ物
が少ない場合においては、この第9図のように辞書部の
キーワードを格納する領域にデータ番号を1個格納した
場合、即ち単一のデータ番号を持つキーワードを特別扱
いしても発生セグメントリスト部分の中に殆ど使われて
−ない発生セグメントリストが多数残るために収容効率
はほとんど改善されない。しかし、キーワードに対して
2個以下のデータ番号を持つキーワードがかなりの数存
在するため、第10図のように辞書部のキーワードを格
納する領域にデータ番号を2個格納した場合は多数の殆
ど使われていない発生セグメントリストを取り除くこと
が可能となる。このため辞書部のキーワードを格納する
領域にデータ番号を2個格納した方式は、非常に有効な
発生セグメントリスト部の記憶効率改善の方法となるこ
とが分る。同様に考えることにより、検索システムのキ
ーワードとデータ番号の関係等により最適な辞書部のキ
ーワードを格納する領域にデータ番号を格納する個数を
決めることが出来、その結果を本情報検索方式に用いる
ことにより索引部の記憶効率の改善とキーワードの収容
可能個数の増加を図ることが可能となることがわかる。
即ち、本発明の情報検索方式においては、登録されるキ
ーワードとデータ番号の個数との関係、さらにキーワー
ド・データ番号の占める領域の量等により、動的に辞書
部に持つべきデータ番号の個数を変えることにより、よ
り効率的な発生セグメントリストの記憶領域の構成が可
能となる。
本発明における情報検索方式は、第3図と第7図の違い
および第4図と第10図の違いから明らかなように、辞
書部にもデータ番号を格納可能な領域を持つことによシ
、発生セグメントリスト部にほとんどデータ番号を格納
していない発生セグメントリストを生成することを防ぎ
、このことにより発生セグメントリスト部の収容効率を
上げることができる。また従来例の情報検索方式による
ものと比較して、明らかに発生セグメントリストの生成
個数が少なくても良いために、単位発生セグメントリス
ト数に対してよシ大量のキーワード13、−ジ 群を登録することが可能である。以上の点で本情報検索
方式は従来方式に比べ索引部内の単位記憶領域当りのキ
ーワード・データ番号の収容効率を高くできるために、
大量の情報検索を高速に行なうことが必要とされる場合
非常に有効方式である。
発明の効果 以上のように本発明は高速な検索が必要な場合一般的に
用いられている、辞書部と発生セグメントリスト部とを
索引部に持つ逆ファイル構造を持った情報検索方式にお
いて、キーワードの追加・肖餘が多い場合に一般的に用
いられる方式である、一定個数のデータ番号が格納出来
る領域を持った発生セグメントリストを用い、その発生
セグメントリスト内に空いたデータ番号の領域があれば
、その領域に新たなデータ番号を追加し、無ければ新た
な発生セス、メントリストを生成し、その中の空き領域
に新たなデータ番号を追加することにより、追加のたび
発生セスメン) IJスト部の再構成を行なうことを必
要としない方式の高速に検索・登録が行なえるという長
所を活かしつつ、その太き147<−ジ な欠点であった記憶領域の無駄を、データ番号を余り持
たないキーワードに対してはそのデータ番号を辞書部に
格納することにより、発生セグメントリストの生成の機
会を減少させ、発生セグメントリスト内のデータ番号の
収容効率を高めることと、発生セグメントリストの個数
を抑えることにより、排除するものである。したがって
記憶領域の制約が、かなりある場合においても高速な検
索・登録が期待でき、また記憶領域をあまり必要とせず
に大量の情報検索が可能な情報検索方式をも実現できる
【図面の簡単な説明】
第1図は逆ファイル構造を用いた情報検索方式の記憶領
域の編成方式の一例を示す図、第2図は前記情報検索方
式の論理構成図、第3図〜第6図は従来例の情報検索方
式の索引部の図、第7図〜第10図は本発明の実施例に
おける情報検索方式の索引部の図である。 1・・・・・・索引部、2・・・・・・データ領域、3
・旧・・辞書部、4・・・・・・発生セグメントリスト
群、5・・・・・・キー15ページ ワードセル、6・・・・・・発生セグメントリスト、了
・・・・・・データ番号、61・62・63・・・・・
・発生セグメントリスト、8・・・・・・キーワードセ
ル、9・・・・・・キーワード、1o・・・・・・発生
セグメントリストのポインター、11・・・・・・発生
セグメントリスト−12・・・・・・発生セグメントリ
ストの識別番号、13・・・・・・データ番号、14・
・・・・・次発化セグメントリストへのポインター。

Claims (1)

  1. 【特許請求の範囲】 検索されるデータと検索するために付与されたキーワー
    ドとを格納した外部記憶装置を有し、前記外部記憶装置
    内に前記検索されるデータの特定のデータを検索するた
    めのキーワードで構成された索引ファイルを有し、前記
    索引ファイルは複数のキーワードが収納され特定のキー
    ワードを取出すことが可能なように構成されたキーワー
    ドの辞書部と、前記辞書部より選ばれたキーワードによ
    り取出すことが可能なデータのその格納位置を意味する
    データ番号を格納する領域である発生セグメントリスト
    が複数個集まって構成された発生セグメントリスト部と
    を有し、そのファイル構造は逆ファイル構造であシ、前
    記辞書部内に少なくとも1個以上のそのキーワードに対
    応するデータ番号を格納することにより、キーワードが
    持つデータ番号群の個数が一定個数以下のキーワードに
    つ2べ、ジ いては、発生セグメントリストを生成しないことを特徴
    とする情報検索方式。
JP58198536A 1983-10-24 1983-10-24 情報検索方式 Pending JPS6091444A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58198536A JPS6091444A (ja) 1983-10-24 1983-10-24 情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58198536A JPS6091444A (ja) 1983-10-24 1983-10-24 情報検索方式

Publications (1)

Publication Number Publication Date
JPS6091444A true JPS6091444A (ja) 1985-05-22

Family

ID=16392780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58198536A Pending JPS6091444A (ja) 1983-10-24 1983-10-24 情報検索方式

Country Status (1)

Country Link
JP (1) JPS6091444A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273574A (ja) * 1991-02-28 1992-09-29 Sanyo Electric Co Ltd 分類記憶装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273574A (ja) * 1991-02-28 1992-09-29 Sanyo Electric Co Ltd 分類記憶装置

Similar Documents

Publication Publication Date Title
US10114908B2 (en) Hybrid table implementation by using buffer pool as permanent in-memory storage for memory-resident data
JP3640978B2 (ja) ページテーブル中のハッシュアドレスタグを用いたメモリアドレス制御装置
US4611272A (en) Key-accessed file organization
US5826262A (en) Parallel bottom-up construction of radix trees
EP0127753B1 (en) Method for executing a distribution sort
KR100886189B1 (ko) 데이터 베이스
KR19990070838A (ko) 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
KR20010022028A (ko) 데이터-베이스 구조
US7987205B1 (en) Integrated search engine devices having pipelined node maintenance sub-engines therein that support database flush operations
Bercea et al. Fully-dynamic space-efficient dictionaries and filters with constant number of memory accesses
Kannan The design of a mass memory for a database computer
JPS63298626A (ja) デ−タベ−ス管理方法
US7953721B1 (en) Integrated search engine devices that support database key dumping and methods of operating same
JPS6091444A (ja) 情報検索方式
US5410663A (en) Method and system for cache memory congruence class management in a data processing system
JP2675958B2 (ja) 情報検索用計算機システム及びその記憶装置の動作方法
Lin Concurrent frame signature files
JPS6091443A (ja) 情報検索方式
EP0117906B1 (en) Key-accessed file organization
KR20190089420A (ko) 서브 인덱스 저장 방식의 데이터 구축 및 관리 시스템
KR20010002567A (ko) 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법
JPS6143338A (ja) 連想技術を使用して稀薄なデータベースをサーチする方法
Theaker et al. Memory Management—Paging Systems
JPS6091445A (ja) 情報検索方式
Wung Experimental Implementation for Prefix B-tree and Associated Dynamic Lists