JPS62159223A - 文書情報検索方式 - Google Patents

文書情報検索方式

Info

Publication number
JPS62159223A
JPS62159223A JP61000527A JP52786A JPS62159223A JP S62159223 A JPS62159223 A JP S62159223A JP 61000527 A JP61000527 A JP 61000527A JP 52786 A JP52786 A JP 52786A JP S62159223 A JPS62159223 A JP S62159223A
Authority
JP
Japan
Prior art keywords
document information
search
document
information
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61000527A
Other languages
English (en)
Other versions
JP2550022B2 (ja
Inventor
Hiroyuki Kinukawa
博之 絹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61000527A priority Critical patent/JP2550022B2/ja
Publication of JPS62159223A publication Critical patent/JPS62159223A/ja
Application granted granted Critical
Publication of JP2550022B2 publication Critical patent/JP2550022B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、文書情報検索方式に関し、特に情報検索シス
テムにおいて、大量の各種文書情報を含むデータファイ
ルから文書全文を高速に探索するのに好適な文書情報検
索方式。
〔発明の背景〕
従来、電算機の大容量記憶能力と高速なデータ処理能力
とを利用して、大量に記憶された情報(文書情報など)
の中から短時間のうちに指定の情報を検索するのに情報
検索システムが用いられる。
この情報検索システムには、情報の蓄積と検索の二つの
ステップがあるが、これを容易にするため、分類用語ま
たはキーワードを情報内容のヘッドに付ける方式がとら
れる。予め定められたシソーラス(索引用単語辞典)の
規定に基づいて選択されたキーワードを蓄積情報に与え
て蓄積し、ファイルを作成する。一方、キーワード検索
もシソーラスの規定にもとづいて行われる。キーワード
として。
英字数字などが用いられる。
このような情報検索システムのファイル構造については
、1件毎の情報単位に配列されたシリアルファイルと、
シリアルの探索キーになる部分およびそのキーの付与さ
れている情報単位の識別子からなるインバーテツドファ
イルとの2種があり、検索質問式に対する探索は、主と
して、インバーテツドファイルから得て、情報単位識別
子を介してキー以外の詳細情報をシリアルファイルから
得るという方式が知られている(中原啓−による文献「
情報検索」 (社)電子通信学会 1)I)、205〜
207.1974−8参照)。この方式は、情報蓄積時
に、あらかじめ分類・検索の仕方が定まっているシステ
ムに対しては、有効である。しかしながら、情報蓄積時
に、概括的な情報分類以外、分類・検索や利用の仕方が
予測できないシステムに対しては、検索要求発生時に、
所望情報の探索とその絞り込みができないという問題が
あった。また、検索質問式を構成する質問語と、ファイ
ル中の情報構成項目との照合方法については、前記文献
の203ページから205ページにおいて、論じられて
いる。
二こで、論じられている照合方法には、完全マツチと部
分マツチがある1文書情報そのものの照合は、部分マツ
チによる必要があるが、前記インバーテツドファイルと
、シリアルファイルの構成では、照合時間が長くかかる
という問題があった。
〔発明の目的〕
本発明の目的は、このような従来の問題を解消し、情報
蓄積時に想定していないような質問条件式に対しても1
条件に合致する文書情報を高速に検索できる文書情報検
索方式を提供することにある。
〔発明の概要〕
上記目的を達成するために1本発明の文書情報検索方式
は、質問条件式と記憶装置に蓄積された文書情報群とを
照合して、該質問条件式に合う文書情報を検索する情報
検索システムにおいて、複数の上記文書情報を一度に検
索させるために複数の同一構造の記憶装置を配置し、各
記憶装置に同一機能の文書照合・検索手段を設け、上記
文書情報群を各記憶装置に分割して蓄積し、上記質問条
件式の入力により、各文書照合・検索手段が対応する記
憶装置上の文書情報と比較して、それぞれ独立に、照合
・検索することに特徴がある。
−〔発明の実施例〕 以下、本発明の一実施例を、図面により詳細に説明する
本実施例では、スキャン検索を照合対象アイテム構成文
字列の先頭から末尾までの全体について。
部分マツチすることの意味に使用する。また、本実施例
では、文書情報の概括的な分類により作成した索引のイ
ンバーテツドファイルにより、質問条件式に合致する文
書情報を粗く絞り、その後、文書構成文章を複数の内容
ファイルに分散して蓄積し、各内容ファイル中の、上記
の粗く絞った文書情報のみ、全文スキャン検索すること
を、並列実行し、すべてのスキャン検索終了後、結果を
まとめるという方法を採用した。
第1図は1本発明の一実施例を示す情報検索システムの
概略構成図である。これは、文書情報ファイルを高速に
探索する構成の主要部を示したものである。
第1図において、1は利用者の質問条件式を入力する入
力部、2は文書情報を検索するときのキーワードとして
の索引を格納している索引ファイル、3は入力部1から
入力された質問条件式に対する索引検索を行う索引検索
部、4は質問条件式と索引検索結果を格納する索引検索
結果格納部、51.52.  ・・・、5nは本発明に
より設けられたスキャン検索部(ここで、n≧1の自然
数)、61.62.  ・・・、6nは本発明により設
けられたスキャン検索部51.  ・・・、5nの検索
対象を格納している検索対象内容ファイル(以下、内容
ファイルという)である(ここで、n≧1の自然数)。
7は上記の複数のスキャン検索部51.・・・、5nに
より質問条件式に合致する内容ファイル61.・・・、
6nをスキャンした結果を格納するスキャン検索結果格
納部、8はスキャン検索結果格納部7を配列・編集して
その結果を統合出力する出力部である。本実施例では、
スキャン検索部51.・・・、5nは、すべて同等の機
能を有し、内容ファイル61.  ・・・、6nの構造
は、すべて同等であるものとする。
以下、第1図の動作を簡単に説明し、後述第2図〜第4
図のフローチャートにより本実施例を詳細に説明する。
入力部1より質問条件式が入力されると、索引検索部3
の索引検索機能が起動され、索引ファイル2に格納され
た索引ファイルを照合し、質問条件式に合致する文書情
報を得る。次に、その文書情報を質問条件式と共に、索
引検索結果格納部4に格納する。この格納が終了すると
、n個のスキャン検索部51.・・・、5nが同時に起
動され、各スキャン検索部に対応する内容ファイル61
.・・・、6nに格納された内容ファイルが、索引結果
に合致するか否かを、文書構成全文のスキャン検索照合
により判別する。このスキャン検索照合においては、複
数のスキャン検索部を並行して、同時に内容ファイル照
合を行うので、全体的な検索時間が短くてすむ、上述し
た各スキャン検索結果はスキャン検索結果格納部7に格
゛納する。結果統合出力部8では、スキャン検索部51
.・・・。
5nによるスキャン検索照合のすべてが終了し、スキャ
ン検索結果格納部7に格納されたスキャン検索の条件合
致情報を配列・編集してから統合する。この統合された
情報を検索結果として表示部9に出力する。
第2図は、第1図の索引検索部3の処理手順を示すフロ
ーチャートである。以下、第2図のフローチャートに従
って説明する。
索引検索部3の索引検索機能が起動されると、入力部1
より質問条件式を読み込む(テップ2゜1)。次に、質
問条件式を構成する質問キーワードから、索引ファイル
2と照合するための索引検索条件を生成しくステップ2
02)、索引ファイル2と照合する(ステップ203)
。この照合結果、照合一致するものから、処理ステップ
202で生成した索引検索条件に合致する文書情報単位
の識別子を得て質問条件式とともに、索引検索結果格納
部4に格納しくステップ204)、索引検索機能の処理
を終了する。
第3図は、第1図の各スキャン検索部の処理手順を示す
フローチャー、トである。以下、第3図のフローチャー
トに従って説明する。
各スキャン検索部のスキャン検索機能が起動されると、
索引検索結果格納部か否かを判別しくステップ3o1)
、格納済みの時は、格納されている質問条件式と索引検
索結果を入力する(ステップ302)、格納済みでない
時は、格納されるのを待つ、ステップ302の処理の後
、対応する内容ファイル61.  ・・・、6nから、
文書情報を1件入力する(ステップ3o3)。内容ファ
イル中の文書情報をすべて入力したか否かを判別しくス
テップ304)、すべて入力済みで、ファイル末尾に至
った時は、ステップ309に分岐して内容検索済情報セ
ットをし、そうでない時は、ステップ305に分岐して
、内容ファイル61.  ・・・。
6nから入力した情報が索引検索結果に含まれるか否か
を判別し、含まれないときには、ステップ303に戻る
。含まれるときには1文書情報内容を構成する全文をス
キャンし、質問条件式との合致検査を行う(ステップ3
06)。この合致検査において、質問条件式に合致する
ものがあるが否かを判別しくステップ307)、合致す
るものがない時は、ステップ303に戻る。合致するも
のがある時は、スキャン検索結果として、スキャン検索
結果格納部7に格納する(ステップ308)。
以上の処理を繰返して、内容ファイル61.・・・、6
nのすべてについて合致情報の格納が終了した時は(ス
テップ3o4)、内容検索済情報をセットしくステップ
309)、スキャン検索機能の処理を終了する。
第4図は、第1図の結果統合出力部8の処理手順を示す
フローチャートである。以下、第4図のフローチャート
に従って説明する。
結果統合出力部8の結果統合出力機能が起動されると、
複数のスキャン検索部のスキャン検索機能の処理がすべ
て終了しているか否かを判別しくステップ401)、終
了していない時は、終了を待つ、終了している時は、各
スキャン検索の結果をすべて入力しくステップ402)
、配列・編集して出力しくステップ403)、結果統合
出力機能の処理を終了する。
このように、本実施例においては、まず、索引検索部3
で質問条件式に対する索引照合を行い、検索対象を粗く
絞り込み、さらに、検索結果格納部4に独立並列的に接
続された複数のスキャン検索部により文書情報の全文を
スキャン検索できるようになるので、情報蓄積時に想定
してないような質問条件式に対しても、条件に合致する
文書情報を検索できる。また、各部の機能単位に、専用
ハードウェア化すること、およびスキャン検索対象の内
容ファイル数を増やし、分散化率を高めることにより、
全体として高速化を図ることができる。特に、スキャン
検索部の検索機能の高速化が全体の高速化に対して有効
である。
〔発明の効果〕
以上説明したように、本発明によれば、文書情報内容を
直接、質問条件式と照合できるので、情報蓄積時に想定
していないような質問条件式に対しても、条件に合致す
る文書情報を検索できる。
また、文書情報内容と質問条件式との照合プロセスを、
文書情報ファイルを分散化するとともに、同時並行的に
照合検索を行うことができるので、高速に所望文書情報
を検索できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す情報検索システムの概
略構成図、第2図は第1図の索引検索部の処理手順を示
す処理フローチャート、第3図は第1図のスキャン検索
部の処理手順を示す処理フローチャート、第4図は第1
図の結果統合出力部の処理フローチャートである。 l二人力部、2・索引ファイル、3:索引検索部、4:
索引検索結果格納部、51,52.  ・・。 5nニスキャン検索部、61,62.  ・・・、6n
;:検索対象内容ファイル、7:スキャン検索結果格納
部、8:結果統合出力部、9:表示部。 \1、I

Claims (4)

    【特許請求の範囲】
  1. (1)質問条件式と記憶装置に蓄積された文書情報群と
    を照合して、該質問条件式に合う文書情報を検索する情
    報検索システムにおいて、複数の上記文書情報を一度に
    検索させるために複数の同一構造の記憶装置を配置し、
    各記憶装置に同一機能の文書照合・検索手段を設け、上
    記文書情報群を各記憶装置に分割して蓄積し、上記質問
    条件式の入力により、各文書照合・検索手段が対応する
    記憶装置上の文書情報と比較して、それぞれ独立に、照
    合・検索することを特徴とする文書情報検索方式。
  2. (2)質問条件式と記憶装置に蓄積された文書情報群と
    を照合して、該質問条件式に合う文書情報を検索する情
    報検索システムにおいて、複数の上記文書情報を一度に
    検索させるために複数の同一構造の記憶装置を配置し、
    各記憶装置に同一機能の文書照合・検索手段を設け、さ
    らに、上記質問条件式と文書情報とを照合・検索する前
    に照合・検索の対象とする文書情報の範囲を限定する手
    段を設け、上記質問条件式の入力後、上記限定手段によ
    り上記文書情報群から文書情報の範囲を限定し、限定さ
    れた文書情報を各記憶装置に分割して蓄積し、各文書照
    合・検索手段が対応する記憶装置上の文書情報と上記質
    問条件式とを比較して、それぞれ独立に、照合・検索す
    ることを特徴とする文書情報検索方式。
  3. (3)上記文書情報の範囲を限定する手段には、質問条
    件式を構成するキーワードによる索引検索を利用するこ
    とを特徴とする特許請求の範囲第2項記載の文書情報検
    索方式。
  4. (4)上記複数の照合・検索手段によって条件に合致し
    た文書情報を得た後、該文書情報を配列・編集すること
    を特徴とする特許請求の範囲第1項、第2項、または第
    3項記載の文書情報検索方式。
JP61000527A 1986-01-08 1986-01-08 文書情報検索方式 Expired - Lifetime JP2550022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61000527A JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61000527A JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Publications (2)

Publication Number Publication Date
JPS62159223A true JPS62159223A (ja) 1987-07-15
JP2550022B2 JP2550022B2 (ja) 1996-10-30

Family

ID=11476241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61000527A Expired - Lifetime JP2550022B2 (ja) 1986-01-08 1986-01-08 文書情報検索方式

Country Status (1)

Country Link
JP (1) JP2550022B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253474A (ja) * 1989-03-28 1990-10-12 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方法
JP2010191799A (ja) * 2009-02-19 2010-09-02 Fujitsu Ltd 情報検索システム、情報検索装置、情報検索プログラム及び情報検索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59108144A (ja) * 1982-12-14 1984-06-22 Fujitsu Ltd フレ−ム選択方式
JPS60105039A (ja) * 1983-11-12 1985-06-10 Nippon Telegr & Teleph Corp <Ntt> 文字列照合方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59108144A (ja) * 1982-12-14 1984-06-22 Fujitsu Ltd フレ−ム選択方式
JPS60105039A (ja) * 1983-11-12 1985-06-10 Nippon Telegr & Teleph Corp <Ntt> 文字列照合方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02253474A (ja) * 1989-03-28 1990-10-12 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方法
JPH0827803B2 (ja) * 1989-03-28 1996-03-21 日本電信電話株式会社 テキストベース検索方法
JP2010191799A (ja) * 2009-02-19 2010-09-02 Fujitsu Ltd 情報検索システム、情報検索装置、情報検索プログラム及び情報検索方法

Also Published As

Publication number Publication date
JP2550022B2 (ja) 1996-10-30

Similar Documents

Publication Publication Date Title
EP0590858B1 (en) Method for performing a search of a plurality of documents for similarity to a query
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US7970768B2 (en) Content data indexing with content associations
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
JPH08339378A (ja) 類似文字列の展開方法、検索方法及びそれらの装置
US7730062B2 (en) Cap-sensitive text search for documents
JPS62159223A (ja) 文書情報検索方式
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
JP2000231560A (ja) 文書自動分類方式
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JPH01149127A (ja) 情報検索装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2000322416A (ja) 文書検索装置
JPH0584938B2 (ja)
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP2003288366A (ja) 類似テキスト検索装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JPH09212523A (ja) 全文検索方法
KR100741283B1 (ko) 정보 검색시스템에서의 정보 검색을 위한 부분검색 장치 및 그 방법과 이의 인덱스 테이블 구축 방법
JPH02253474A (ja) テキストベース検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH0584937B2 (ja)
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법