JPS61243531A - 情報検索方式 - Google Patents

情報検索方式

Info

Publication number
JPS61243531A
JPS61243531A JP60085833A JP8583385A JPS61243531A JP S61243531 A JPS61243531 A JP S61243531A JP 60085833 A JP60085833 A JP 60085833A JP 8583385 A JP8583385 A JP 8583385A JP S61243531 A JPS61243531 A JP S61243531A
Authority
JP
Japan
Prior art keywords
keyword
search
keywords
data
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60085833A
Other languages
English (en)
Inventor
Kazushi Muraki
一至 村木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60085833A priority Critical patent/JPS61243531A/ja
Publication of JPS61243531A publication Critical patent/JPS61243531A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、情報検索システムに於いて格納した多量な文
書データから単にキーワードによる指定ではなく、関連
文書自体を検索キーとして用い関連該当文書を検索でき
る情報検索方式に関する。
(従来技術とその問題点) 情報検索システムに於いて、文書データを検索するため
に検索対象となる文書に人手あるいは機械によって、キ
ーワードを前もって付加し、その検索キーワード全文書
のインデクスとして管理して、利用者が検索対象文書を
検索キーワードによって指定する手法が採用されている
利用者はこの場合、検索キーワードとして何が使えるの
かけ、各々の検索システム個有の検索キーワードリスト
に記載されているかどうかチェックする必要がありわず
られしい。又、通常特定の文書を利用者が読み、その文
書に関連する内容の文書データを検索したいときには、
今興味をもつ文書の内容を検索キーワードに置き換える
必要がある。しかし、格納文書データに付加された検索
キーワードは別の人間や機械によって付加されており、
利用者が検索キーワードを選んだ考えとけ一致しないこ
とがあり、これによって、利用者指定の検索キーワード
では目的検索文書が検索できなかつたり、必要としてい
ない文書データが大量に検索されて適確な情報が得られ
なりことになる。
(発明の目的) 本発明ではこうした不都合を減少するために、今利用者
が検索したいと思う元の文書全て全検索キーワードに使
い関連文書の検索を可能にする高機能な情報検索方式を
提供することを目的とする。
(発明の構成) 本発明は、それに関する関連文書データを検索するため
のキーワードである原文書データを解析し単語を抽出す
る単語認定手段と前記単語認定手段より得られた単語リ
ストから検索キーワードを選択するキーワード生成手段
と検索文書データを格納する1コ以上の格納手段と前記
キーワード生成手段により生成されたキーワードリスト
と前記格納手段内の内容を対照して合致する文書データ
 ・を検索する検索手段とからなることを特徴とする。
(実施例) 第1図は本発明第1の実施例を示すブロック図である。
単語認定手段4は関連文書データを検索する原文書デー
タを信号@8よp読み込み、単語に分割しその単語リス
)1信号im7に出力する。この実現には通常の形態素
解析手法によって容易に実現できる。たとえば、最長一
致戦略金用いることとすれば、特願昭58−18343
4号明細書「形態素接続解析方式」に示された方式よっ
て実現できる。
キーワード生成手段3け、キーワード格納手段11に格
納されたキーワードリストを信号線10より読み込み信
号線7によp入力された単語リストの中でキーワードリ
ストに含まれるものをキーワード集合として信号線6に
出力する。
格納手段1け文書データ番号と文書と文書のキーワード
を統合管理格納し1文書のキーワードが文書内容である
場合には、前もって当該文書を格納する時点で単語認定
して単語リストの形式に変換したものを格納する12゜ 検索手段2は前記入力6キ一ワード集合全前記格納手段
1中の各文書データのキーワードと照合し該当するキー
ワードをもつ文書番号と内容全出力する9゜ 以上説明した実施例によれば、検索要求を単なるキーワ
ード単語の小さな集合として与えることによる誤り検索
率を低減させ得る原文書自身を検索キーワードに用いた
より文書内容にそった内容検索ができる。つまり利用者
が直接キーワード金設定した場合、例えばその検索要求
が原文書として具体的に存在する場合にも原文書から選
択する時点で誤シや、不足が起こるが、本実施例忙よれ
ばそれはもし原文書の単語リスト中に検索を指定するキ
ーワードが充分に入っていれば従来法による利用者のキ
ーワード指定に於ける障害を取り除くことができる。
しかl、tW報検索自身が予めもつキーワードリストに
登鎌された原文書中の単語以外では検索することができ
ないため、もしキーワードリスト自身が格納文書データ
の内容を正確に分類するには不十分であったり誤ってい
fcりすると検索要求を単にキーワード単語の小さな集
合として与える方式と同様に誤検索や利用者の意図する
検索文書の検索もれを起こす率が高い。
第2図はこの点を改良した本発明第2の実施例を示すブ
ロック図である。同図に於いて、単語認定手段4、検索
手段2、格納手段は本発明第1の実施例で示した機能を
もつものとして実現可能である。
キーワード生成手段3は前記単語認定手段4よりの出カ
フである単語リストからキーワード集合を生成し出力す
る6゜同キーワード集合は、単語リストの自立語(助動
詞、助詞、前置詞、特殊記号接続詞等をのぞいたもの)
で原文書データ中での自立語単語出現頻度を各単語Wi
に対しWip とすると、l<Wi p <: Kの範
囲のものをキーワード集合として生成する。このときJ
、にけ全単語リストのサイズWsと、原文書データ中の
単語総出現数Tによって決める。
以上説明した実施例によれば1%定子キーワードリスト
拘束されない、原文書内容に測ったキーワード集合が設
定できることにより、検索もれを最少にすることができ
る。
しかし、もし格納された文書データのキーワードにその
文書内容を用いるとキーワード集合と文書データのキー
ワードとの照合に過大なコストが必要となり、利用者が
原文書データを入力してから検索結果を得るのに大きな
時間がかかる。
第3図はこの点を改良した本発明筒3の実施例を示すブ
ロック図である。同図に於いて、単語認定手段4、格納
検索手段xi(t≦i≦l)。検索手段2j  (tく
j<k)は本発明筒2の実施例で示′した機能をもたせ
て実現できる。
キーワード生成手段3は、キーワード集合抽出に関して
は本発明筒1及び第2の実施例を示した機能のどちらか
により実現できるが、当該キーワード生成手段3に於い
ては、同キーワード集合を前記検索手段2jの各々に対
し出力する。
(発明の効果) 本発明は情報検索システムに於いて利用者が検索キーと
なるキーワードの小さな集合を指定することなく、それ
に関しての関連文書データを検索したい原文書の内容文
自体をキーワードとする情報検索機能を提供する。これ
により利用者がキーワード選択に関する誤りをおかすこ
とを排除できるとともに原文書の内容に側りた適確な検
索出力を得ることができる。また、検索対象データの格
納を分散させ同時に検索手段全複数化することによる高
速性により利用者の高速検索要求に答えることができる
またキーワード生成における実施例筒1.第2・第3は
各種の手法全利用して実現することができるが、本発明
はその具体的手法の差違にかかわらず本発明の構成によ
って得られるものは全て本発明の権利に含まれる。
【図面の簡単な説明】 第1図は本発明の第1の実施例を示すブロック図、第2
図は第2の実施例を示すブロック図、第3図は第3の実
施例を示すブロック図である。 図において。 1・・・・・・格納手段、  2・・・・・・検索手段
、  3・・・・・・キーワード生成手段、  4・・
・・・・単語認定手段、11・・・・・・キーワードリ
スト格納手段、をそれぞれ示す。 第 1 図

Claims (1)

  1. 【特許請求の範囲】 1、情報検索システムに於いて、検索データを格納する
    格納手段と前記格納手段の内容に対し与えられたキーワ
    ード集合を照合し該当データを検索する検索手段と、入
    力検索要求データを単語分割する単語認定手段と前記単
    語認定手段より得られた単語リストと当該情報システム
    の検索用キーワードを格納するキーワード格納手段と前
    記キーワード格納手段内のキーワードを対照しキーワー
    ド集合を生成するキーワード生成手段とからなることを
    特徴とする情報検索方式。 2、検索データを格納する格納手段と入力検索要求デー
    タを単語分割する単語認定手段と前記単語認定手段より
    得られた単語リストの統計データよりキーワード集合を
    決定するキーワード生成手段と、与えられたキーワード
    集合を前記格納手段の内容に対し照合し該当データを検
    索する検索手段とからなることを特徴とする情報検索方
    式。 3、検索データを格納する同一機能をもつ複数の格納手
    段と、入力検索要求データを単語分割する単語認定手段
    と前記単語認定手段より得られた単語リストより検索用
    キーワード集合を決定するキーワード生成手段と、与え
    られたキーワード集合を前記格納手段の格納された内容
    に照合し該当データを検索する同一機能をもつ複数個の
    検索手段とからなることを特徴とする情報検索方式。
JP60085833A 1985-04-22 1985-04-22 情報検索方式 Pending JPS61243531A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60085833A JPS61243531A (ja) 1985-04-22 1985-04-22 情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60085833A JPS61243531A (ja) 1985-04-22 1985-04-22 情報検索方式

Publications (1)

Publication Number Publication Date
JPS61243531A true JPS61243531A (ja) 1986-10-29

Family

ID=13869852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60085833A Pending JPS61243531A (ja) 1985-04-22 1985-04-22 情報検索方式

Country Status (1)

Country Link
JP (1) JPS61243531A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0701223A2 (en) * 1994-09-12 1996-03-13 Adobe Systems Inc. Method and apparatus for identifying words described in a page description language file
JPH08263516A (ja) * 1995-03-28 1996-10-11 Canon Inc 情報検索方法及びその装置
EP0702322A3 (en) * 1994-09-12 1997-06-04 Adobe Systems Inc Method and apparatus for identifying words described in a portable electronic document

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5759277A (en) * 1980-09-27 1982-04-09 Agency Of Ind Science & Technol Key word extracting device
JPS5850071A (ja) * 1979-12-28 1983-03-24 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文書抜粋記憶
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5850071A (ja) * 1979-12-28 1983-03-24 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文書抜粋記憶
JPS5759277A (en) * 1980-09-27 1982-04-09 Agency Of Ind Science & Technol Key word extracting device
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0701223A2 (en) * 1994-09-12 1996-03-13 Adobe Systems Inc. Method and apparatus for identifying words described in a page description language file
EP0701223A3 (en) * 1994-09-12 1997-05-28 Adobe Systems Inc Method and device for identifying words described in a page description language
EP0702322A3 (en) * 1994-09-12 1997-06-04 Adobe Systems Inc Method and apparatus for identifying words described in a portable electronic document
US5832531A (en) * 1994-09-12 1998-11-03 Adobe Systems Incorporated Method and apparatus for identifying words described in a page description language file
US5832530A (en) * 1994-09-12 1998-11-03 Adobe Systems Incorporated Method and apparatus for identifying words described in a portable electronic document
JPH08263516A (ja) * 1995-03-28 1996-10-11 Canon Inc 情報検索方法及びその装置

Similar Documents

Publication Publication Date Title
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US6389412B1 (en) Method and system for constructing integrated metadata
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
EP1585073B1 (en) Method for duplicate detection and suppression
EP0970428B1 (en) Automated document classification system and method
EP0862122B1 (en) Retrieval apparatus
US20090094223A1 (en) System and method for classifying search queries
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
CN101019121A (zh) 对存储在数据库中的文档编制索引和进行检索的方法和系统
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
WO2020248378A1 (zh) 业务查询方法、装置及存储介质、计算机设备
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
US8533150B2 (en) Search index generation apparatus
WO1998049632A1 (en) System and method for entity-based data retrieval
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
Lu et al. A novel approach towards large scale cross-media retrieval
JPS61243531A (ja) 情報検索方式
US20230394015A1 (en) LIST-BASED DATA STORAGE FOR DATA SEARCHPeter
Olsen et al. Full text searching and information overload
JP2715443B2 (ja) データベース装置
JP3422396B2 (ja) 観点に基づく類似検索方法
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
TW515963B (en) Database management and retrieval method