JPS63254522A - キ−ワ−ド抽出装置 - Google Patents

キ−ワ−ド抽出装置

Info

Publication number
JPS63254522A
JPS63254522A JP62089521A JP8952187A JPS63254522A JP S63254522 A JPS63254522 A JP S63254522A JP 62089521 A JP62089521 A JP 62089521A JP 8952187 A JP8952187 A JP 8952187A JP S63254522 A JPS63254522 A JP S63254522A
Authority
JP
Japan
Prior art keywords
unit
keyword
text
word
keyword candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62089521A
Other languages
English (en)
Inventor
Junichi Kubota
淳市 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP62089521A priority Critical patent/JPS63254522A/ja
Publication of JPS63254522A publication Critical patent/JPS63254522A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 文書ファイリング装置等において、検索を効率的に行う
ため、登録する文書に対してキーワードを設定すること
が一般に行われている。本発明は前記キーワードを文書
テキストから自動的に抽出するキーワード抽出装置に関
するものである。
従来の技術 近年光ディスクのような大容量の記憶装置を用いた文書
ファイリング装置の需要が特にOA(オフィス・オート
メーション)の分野で高まっている。これらの文書ファ
イリング装置では、記憶装置に格納する文書情報に対し
、後の検索処理を迅速かつ効率的に行うため、文書登録
時に検索キー情報として「文書キーワード」を加えるこ
とが一般に行われている。この際、オペレータが自ら登
録文書の文意°を解釈してキーワードを設定するものに
加えて、現在では文書テキストから半自動的にキーワー
ド候補を抽出するものがあり、キーワード登録処理作業
を効率的に行えるようにしている。従来のキーワード抽
出装置としては、例えば「ドクメンテーション研究Vo
w、35No。
6」に記載されているようなものがある。第3図はこの
ような従来のキーワード抽出装置の一例の構成を表すブ
ロック図である。
1はテキスト入力部である。これは、ファイルとして作
成された日本語文文字表記列情報を外部記憶装置から読
み込む。以降この日本語文字表記列をテキストと呼ぶ。
2はテキスト記憶部である。これは、テキスト入力部1
が読み込んだテキストを一時的に記憶する。
3は単語辞書である。これは、単語表記とその品詞で構
成されるレコードを格納している。このレコードは単語
表記に関して昇順に整列(ソート)されており、格納単
語数はおよそ5万語である。
4はキーワード候補抽出部である。これは、っぎのよう
な処理を行い、テキスト記憶部2に格納されたテキスト
から「す変名詞」「固有名詞」等を含む名詞属性の単語
を抽出する。
まず、テキスト情報を「漢字」「ひらがな」「英字」「
数字」「カタカナ」などの文字種の区切りに基づき、大
まかに分割する。これを部分テキストと呼ぶ。この処理
により、以降の辞書とのマツチング処理を効率的に行う
ことができる。
次に、単語辞書3に対して部分テキストの先頭から最長
一致する単語を検索し、後接する単語との接続検定をし
て、文節および単語の区切りを単語間に挿入する。
最後に、この中から「固有名詞」「す変名詞」など、体
言の性格をもつ自立語要素を単語、文節の区切り情報を
もとに抽出する。
5は不要語辞書である。これは、単語辞書3と同一形式
で、不要語の単語表記とその品詞がら成るレコードを格
納している。それぞれのレコードは単語表記順に関して
昇順に整列(ソート)されている。不要語とは、日本語
テキスト中にあられれる単語のうち、キーワードとして
選択される確率が著しく低い単語のことである。具体的
には、「こと」「もの」などの形式名詞などがある。
6は不要語除去部である。これは、キーワード候補抽出
部4で抽出されたキーワード候補単語から不要語を削除
する。すなわち、不要語辞書5内でキーワード候補単語
を検索し、不要語辞書5に該当する単語が存在する場合
には、その単語を削除する。
7はキーワード候補一時記憶部である。これは、キーワ
ード候補抽出部4で抽出されたキーワード候補単語およ
び、不要語除去部6で不要語を除去された後のキーワー
ド候補単語を格納するバッファ記憶である。
8は長単位抽出部である。これは、キーワード候補一時
記憶部7に格納されたキーワード候補単語の中から、文
節区切り情報で囲まれた一般に複合語と呼ばれる長単位
キ〒ワード候補単語を抽出する。 長単位キーワード候
補単語の例としては、「技術革新」「経済成長」などが
ある。
9は短単位抽出部である。これは、キーワード候補一時
記憶部7に格納されたキーワード候補単語の中から、文
節区切り情報および単語区切り情報で囲まれた短単位キ
ーワード候補単語を抽出する。短単位キーワード候補単
語の例としては「技術」「革新」「経済」「成長」など
がある。
10は長単位候補記憶部である。これは、長単位抽出部
8で抽出された長単位キーワード候補単語を一時格納す
るバッファ記憶である。
11は短単位候補記憶部である。これは、短単位抽出部
9で抽出された短単位キーワード候補単語を一時格納す
るバッファ記憶である。
12は頻度計数部である。これは、長単位候補記憶部1
0および短単位候補記憶部11に格納された、長/短単
位キーワード候補単語の重複を排除し、同時に各キーワ
ード候補単語の出現頻度を計数する。計数結果は、長単
位候補記憶部10および短単位候補記憶部11内のキー
ワード候補単語に対応付けて追記する。
13はキーワード出力部である。これは、キーワード候
補単語を順に出力するものである。
14は出力制御部である。これは、内部に記憶している
制御情報に従い、長単位キーワードもしくは短単位キー
ワードの出力を切り換える。また、後述する制御情報入
力部から入力される、長単位キーワードもしくは短単位
キーワードを選択する制御信号を入力し、それに対応し
た情報を制御情報として記憶する。
15は制御情報入力部である。これは、長単位キーワー
ドか短単位キーワードのいずれを抽出対象とするのか指
示する制御信号を入力する装置である。オペレータの操
作に基づき、対応する信号を出力制御部14に対して出
力する。
以上のように構成された従来のキーワード抽出装置は次
のように動作する。
まず、テキスト情報をテキスト入力部1から入力し、そ
れをテキスト記憶部2に一時記憶する。
その後、キーワード候補抽出部4が大まかな基準で単語
抽出を行った後、不要語除去部6が不要語を除去する。
この結果に対して、長単位抽出部8と短単位抽出部9が
長/短単位のキーワード候補単語抽出を行い、制御情報
入力部15からの指示に基づき頻度順にソートしたキー
ワード候補単語を出力する。
以下、従来のキーワード抽出装置の動作を第4図のフロ
ーチャートを用いて、更に詳細に説明する。
[制御情報設定] 101:制御情報入力 オペレータは入力テキストに対して、長単位のキーワー
ドを抽出したいのか、短単位のキーワードを抽出したい
のかを、制御情報入力部上の長単位選択キー、短単位選
択キーの押下という操作で指示する。これに対応して、
制御情報入力部15からは、長単位の場合信号lが、短
単位の場合信号Sが出力制御部14に対して出力される
102:制御情報記憶 出力制御部14は、制御情報入力部15からの指示信号
が与えられると、その内部の切り換え信号記憶部Mに制
御情報として格納する。指示信号が1の場合はMに指示
情報りが、指示信号がSの場合には、Mに指示情報Sが
格納される。ただし、出力制御部14がキーワード出力
部13への出力を実行している間にこの信号が入力され
ると、この信号は無視される。制御情報が設定されると
、入力待ちの状態になる。
[キーワード抽出] 201:テキスト入力 キーワード抽出の対象となるテキストがテキスト入力部
1から入力されると、そのデータは順次テキスト記憶部
2に蓄えられる。テキストの最後には入力テキストの最
終データを表現する特殊コード(EOF)があるので、
この特殊コードが入力された時点で、テキスト入力部1
はテキスト入力の終了を判定し、キーワード候補抽出部
4を起動する。
202:キーワード候補抽出 キーワード候補抽出部4は、テキスト記憶部2内に格納
されているテキスト情報に対して、次のような処理を実
施する。
まず、句読点、記号文字等のテキスト区切り情報に基づ
き、与えられたテキストをまず大きく分割する。これに
より、以降の辞書マツチ処理の負担を軽減する。つぎに
、分割されたテキストの先頭からの文字列を用いて単語
辞書3を検索する。
この際、検索は最長一致検索を行い、テキストの先頭文
字列と最も長(一致する単語をテキスト中に表れた単語
として認定する。該当するものがなければ、テキストの
先頭1文字を削除して同様の処理を続ける。この単語認
定の際、後接する単語との接続検定を行い、文節および
単語の区切り情報を単語データ間に挿入しておく。この
ようにして抽出したキーワード候補単語をキーワード候
補一時記憶部7に出力する。
203:不要語除去 キーワード候補一時記憶部7内の単語一つ一つについて
、その単語が不要語辞書5内に保持している不要語と一
致するか否かを判定する。一致している場合はキーワー
ド候補一時記憶部7から該当単語を除去する。この処理
をキーワード候補一時記憶部7内のすべてのキーワード
候補単語に対して行った後、長単位抽出部8と短単位抽
出部9を起動する。すなわち、処理は204と205に
進む。
204:長単位キーワード抽出 長単位抽出部8はキーワード候補一時記憶部7から文節
区切りで囲まれる単語列を長単位キーワード候補単語と
して抽出する。抽出結果をそれぞれ長単位候補記憶部1
0に対して出力する。たとえば、「予算会議の延期が決
まった。」という文は、「予算/会議の」、「延長が」
、「決まった」という3つの文節で構成されている。そ
こで、長単位キーワード候補単語は「予算会議」と「延
長」の2つになる。この後処理は、206に進む。
205:短単位キーワード抽出 短単位抽出部9は、キーワード候補一時記憶部7から文
節区切りと単語区切りで囲まれる単語を短単位キーワー
ド候補単語として抽出する。その後、抽出結果をそれぞ
れ、短単位候補記憶部11に対して出力する。たとえば
、「予算会議の延期が決まった。」という文は「予算/
会議の」、「延長が」、「決まった」という3つの文節
で構成されている。そこで、短単位のキーワード候補単
語は、「予算」「会議」「延長」の3つになる。この後
処理は、206に進む。
206: 頻度計数 長単位キーワード候補、短単位キーワード候補の抽出が
終了した時点で、頻度計数部12は、それぞれが、長単
位候補記憶部10、短単位候補記憶部11内にいくつ存
在したのか計数する。この際、長単位候補記憶部10お
よび短単位候補記憶部11内での重複は排除され、各々
の長単位キーワード候補単語および短単位キーワード候
補単語に対して頻度情報が付加される。さらに、このテ
キスト内頻度情報をキーとして各長単位キーワード候補
単語と、短単位キーワード候補単語はソートされ、頻度
が高い順に並べられる。
207:キーワード出力 出力制御部14はその内部に保存している制御情報を参
照し、長単位キーワードを指定する。Lが格納′されて
いる場合、長単位候補記憶部1o内のキーワード候補を
キーワード出力部13に出力する。短単位キーワードを
指定するSが格納されている場合、短単位候補記憶部1
1内のキーワードをキーワード出力部13に出力する。
発明が解決しようとする問題点 しかしながら、以上のように構成された従来のキーワー
ド抽出装置においては、オペレータが長単位と短単位の
キーワードのいずれかを出力とするか、明示的に指定し
なければならなかった。
長単位キーワードと短単位キーワード候補を抽出するこ
とによって、オペレータは所望のキーワードを得る可能
性が太き(増加したが、逆にオペレータの介在が必要に
なったため、「優先順位が高い上位10個のキーワード
を抽出する」というような処理が必要な場合、これを自
動的に行うのが困難になってしまった。
すなわち、従来の方式では長単位と短単位を全(別のキ
ーワードとしてあつがっていたので、オペレータが2種
類のキーワードを抽出した後、これらを比較対象し所望
のキーワードを二つのキーワードリストを比較しながら
インタラクティブに決定しなければならないという問題
点を有していた。
以下、具体例を示しながら、背景と問題についてさらに
説明を加える。
キーワード抽出装置の実現の際、最も困難だと考えられ
ているのは文書中単語のうちどれが重要な語であるかを
認定することである。本来これを実現するためにはキー
ワード自動抽出処理は単に文章解析のみならず文書内容
が言及している各分野の知識を要するような複雑な処理
が必要とされる。
これに対し、これまでのシステムは不要語除去のための
不要語テーブルをもち、文書中の単語と不要語テーブル
を対照し合致したものを取り除(ことでこの作業を代替
してきた。そのあとで、このようにして抽出したキーワ
ードを出現頻度で優先順位をつけて出力している。
一方、近年は抽出できるキーワードの種類を増やしたキ
ーワード抽出装置が開発されている。キ−ワードの種類
としては本実施例でも述べた「長単位キーワード」「短
単位キーワード」のほか「組み合わせキーワード」等が
ある。例えば、本実施例では第5図の文書中からキーワ
ード抽出すると長単位キーワード、短単位キーワードは
各々第6図および第7図のようになる。いずれにも「事
故防止」「事故」など重要なキーワードが含まれており
、複数種類のキーワードを出力することの長所が表れて
いる。
しかしながら、出力されるキーワードは各々の種類別に
出力されるので統一的な扱い、例えば「すべてのキーワ
ード中から上位10個の抽出を行うこと」など、ができ
ない。また、オペレータの判断に大きく依存して、最終
キーワードを付与することになり、キーワードの再現性
が失われてしまう。
このように、複数種類のキーワードの統一的な扱いがで
きないことが、問題となっている。
本発明は、前記従来のキーワード抽出装置の問題に鑑み
、「文章内側用頻度情報」その他の情報を利用して、長
単位キーワード、短単位キーワードに対して、一元的な
順序付けを施して順次出力し、オペレータの最終判断を
容易にすることのできるキーワード抽出装置を提供する
ことを目的とする。
問題点を解決するための手段 本発明は、日本語文字表記列をコード列として入力する
テキスト入力部と、入力されたテキストを一時格納する
テキスト記憶部と、前記テキスト記憶部内のテキストか
らキーワード候補単語を抽出するキーワード候補抽出部
と、前記キーワード候補抽出部で抽出されたキーワード
候補単3hを一時記憶するキーワード候補一時記憶部と
、前記キーワード候補一時記憶部から長単位キーワード
候補単語を抽出する長単位抽出部と、前記キーワード候
補一時記憶部から短単位キーワード候補単工りを抽出す
る短単位抽出部と、抽出したキーワード候補単語の使用
頻度を計数する頻度計数部と、少なくとも頻度をもとに
キーワード候補単語の尤度を計算する尤度計算部と、前
記尤度計算部で算出された尤度をキーとして長単位キー
ワード候補単語と短単位キーワード候補単語の両者を順
序付けるキーワード整列部を持つことを特徴とするキー
ワード抽出装置である。
作用 本発明は前記した構成により、テキストから長単位キー
ワード候補単語と短単位キーワード候補単語を抽出し、
それらを一元的に優先順位付けして出力する。この際、
前述した複数種類のキーワード候補単語は、使用頻度情
報等を用いて算出した尤度をキーとして順序つけられる
実施例 第1図は本発明の一実施例におけるキーワード抽出装置
の構成をあられすブロック図である。本構成図のうち1
.2.3.4.5.6.7.8.9.10.11.12
および13は第3図の従来例の同一番号の構成要素と同
一である。
16は尤度計算部である。これは、長単位候補記憶部1
0および短単位候補記憶部11内に格納されている長単
位キーワード候補単語、短単位キーワード候補単語の頻
度とそれらの表記長さを引数とする関数で表現される尤
度計算を行う。計算式としては、次のものを利用する。
尤度=(aX[単語頻度])+(bx(単語表記長さ]
)a、bは定数で、いずれも1である 計算結果の尤度値は長単位候補記憶部10および短単位
候補記憶部11内に格納されている長単位および短単位
キーワード候補単語レコードそれぞれに対して付加され
る。
17は尤度順整列部である。これは、尤度計算部が計算
した尤度をもとに長単位候補記憶部10および短単位候
補記憶部11内の長/短単位キーワード候補単語レコー
ドを尤度順に並べ直す。その結果は、順にキーワード出
力部に出力される。
以上のように構成された本実施例のキーワード抽出装置
につ−いて、以下その動作を第2図のフローチャートを
用いて説明する。
[キーワード抽出] 301:テキスト入力 キーワード抽出の対象となるテキストがテキスト入力部
1から入力されると、そのデータは順次テキスト記憶部
2に蓄えられる。テキストの最後には入力テキストの最
終データを表現する特殊コード(EOF)があるので、
この特殊コードが入力された時点で、テキスト入力の終
了を判定しキーワード候補抽出部4を起動する。
302;キーワード候補抽出 キーワード候補抽出部4は、テキスト記憶部2内に格納
されているテキスト情報に対して、次のような処理を実
施する。
まず、句読点、記号文字等のテキスト区切り情報に基づ
き、与えられたテキストをまず大きく分割する。これに
より、以降の辞書マツチ処理の負担を軽減する。
つぎに、分割されたテキストの先頭からの文字列を用い
て単語辞書3を検索する。この際、検索は最長一致検索
を行い、テキストの先頭文字列と最も長く一致する単語
をテキスト中に表れた単語として認定する。該当するも
のがなければ、亨キストの先頭1文字を削除して同様の
処理を続ける。この単語認定の際、後接する単語との接
続検定を行い、文節および単語の区切り情報を単語デー
タ間に挿入しておく。
最後に、単語のうち体言要素を残して他の単語を除去す
る。このようにして抽出した単語を1語ルコードの形式
でキーワード候補一時記憶部7に出力する。
303:不要語除去 キーワード候補一時記憶部7内の単語一つ一つについて
、その単語が不要語辞書5内に保持している不要語と一
致するか否かを判定する。一致している場合は、キーワ
ード候補一時記憶部7から該当単語を除去する。この処
理をキーワード候補一時記憶部7内のすべての単語に対
して行った後、長単位抽出部8と短単位抽出部9を起動
する。
その後処理の制御は304と305に進む。
304:長単位キーワード抽出 長単位抽出部8は、キーワード候補一時記憶部7から1
文節区切りで囲まれる単語列を抽出する。
その後、この抽出結果をそれぞれ長単位候補記憶部10
に対して出力する。この後処理は、306に進む。
305:短単位キーワード抽出 短単位抽出部9は、キーワード候補一時記憶部7から文
節区切り、および単語区切りで囲まれる単語を抽出する
。抽出結果をそれぞれ、短単位候補記憶部11に対して
出力する。この後処理は、306に進む。
306: 頻度計数 長単位キーワード候補単語、短単位キーワード候補単語
の抽出が終了した時点で、頻度計数部12は、それぞれ
が、長単位候補記憶部10.短単位候補記憶部11内に
いくつ存在したのか計数する。この段階で、長単位候補
記憶部10および短単位候補記憶部11内での重複は排
除され、各々の長単位キーワード候補単語と短単位キー
ワード候補単語に対して、テキスト内頻度情報が付加さ
れる。
307:尤度計算 長単位候補記憶部10および短単位候補記憶部11に格
納されている長/短単位キーワード候補単語に対して、
それぞれの尤度を計算し候補単語に付加する。
308:キーワード・ソート 尤度順整列部17は、長単位候補記憶部10および短単
位候補記憶部11に格納されているキーワード候補単語
の全レコードをその尤度に基づき整列(ソート)する。
309:キーワード出力 キーワード出力部13は、抽出結果としてのキーワード
候補を外部装置に対して出力する。
最後に、本実施例のキーワード抽出装置の動作を実際の
テキストを例として従来例と比較して説明する。
従来例と同じく、第5図に示す文書を入力として、本実
施例のキーワード抽出装置を適用すると第6図、および
第7図に示すような長/短単位キーワード候補単語を得
る。これらは、各々長単位候補記憶部10および短単位
候補記憶部11に格納される。
次に本実施例では各々のキーワード候補単語に対して尤
度を付与する。この結果を第8図、第9図に示す。この
図では、各々のキーワード候補毎に尤度順にソートしで
ある。
最後に、2種類のキーワードを尤度順にマージ出力した
結果を第10図に示す。長単位、短単位と2系列のキー
ワードが一つにまとまり、キーワードを定数個だけに絞
るような場合などに、特に有効であることが判る。
以上のように本実施例によれば、尤度を計算する際に頻
度の他に単語表記長さを用いている。これにより、抽出
キーワードの精度をさらに向上している。
また、本実施例では、頻度計数の処理を長単位候補と短
単位候補が抽出されたあとで行っており、処理効率を上
げている。逆の順に行うと、候補として抽出されないも
のまで、頻度計数を行う必要が出てくる。
また、短単位候補記憶部11および尤度計算部16は、
長単位キーワードと、短単位キーワードいずれの処理に
も利用しており、システム構成を簡略なものとし、シス
テムコストの低減を図っている。
なお、本実施例で使用している長単位キーワードは、文
節単位の複合語を前提としているが、これが他の基準で
選択されたものであってもよい。
なお、本実施例においては長単位抽出部8と短単位抽出
部9は並行して動作するものであるが、これが順次動作
するものであってもよい。
なお、本実施例では、短単位キーワード候補単語と長単
位キーワード候補単語を各々短単位候補記憶部、長単位
候補記憶部に格納していたが、これらが物理的に同じ記
憶媒体に格納されていてもよい。
なお、本実施例では、短単位キーワード候補単語と長単
位キーワード候補単語を各々短単位候補記憶部、長単位
候補記憶部に格納していたが、これらの候補単語を識別
情報を付して、同一記憶に混在して格納しているもので
あってもよい。
なお、本実施例においては尤度を得るための計算式を特
定のものを採用していたが、特にこれに限定している訳
ではない。
なお、本実施例においてはキーワード候補単語抽出処理
をテキストに対して直接行っていたが、その前にシソー
ラスを用いた用語の統一化処理をしておいてもよい。
なお、本実施例においては頻度計数に先立って長単位候
補と短単位候補の抽出を行っていたが、この順が逆であ
ってもよい。
なお、本実施例ではテキスト一時記憶部を実メモリー上
に実現していたが、これを2次記憶に実施してもよい。
発明の詳細 な説明したように、本発明によれば長単位キーワードと
短単位キーワードを一元的に順序付はオペレータの負担
を軽減することができ、その実用的効果は大きい。
【図面の簡単な説明】
第1図は本発明における一実施例のキーワード抽出装置
のブロック図、第2図は同実施例の動作を表すフローチ
ャート、第3図は従来のキーワード抽出装置の一例のブ
ロック図、第4図は従来のキーワード抽出装置の動作を
表すフローチャート、第5図は、キーワード抽出対象文
書の一例を表す説明図、第6図は長単位キーワードの一
例を示す説明図、第7図は短単位キーワードの一例を表
す説明図、第8図は尤度をつけた長単位キーワードの一
例を表す説明図、第9図は尤度をつけた短単位キーワー
ドの一例を表す説明図、第10図は長単位キーワードと
、短単位キーワードを尤度順にならべたものの一例を表
す説明図である。 1・・・・テキスト入力部、2・・・・テキスト記憶部
、4・・・・キーワード候補抽出部、7・・・・キーワ
ード候補一時記憶部、8・・・・長単位抽出部、9・・
・・短単位抽出部、12・・・・頻度計数部、16・・
・・尤度計算部、17・・・・尤度順整列部。 代理人の氏名 弁理士 中尾敏男 ほか1名第1図 :jSt:2図 [4−ワード抽出1    301 第3図 第4図 第5図 第 6 図        第 7 間第8図    
第9図 第10図

Claims (1)

    【特許請求の範囲】
  1. 日本語文字表記列をコード列として入力するテキスト入
    力部と、入力されたテキストを一時格納するテキスト記
    憶部と、前記テキスト記憶部内のテキストからキーワー
    ド候補単語を抽出するキーワード候補抽出部と、前記キ
    ーワード候補抽出部で抽出されたキーワード候補単語を
    一時記憶するキーワード候補一時記憶部と、前記キーワ
    ード候補一時記憶部から長単位キーワード候補単語を抽
    出する長単位抽出部と、前記キーワード候補一時記憶部
    から短単位キーワード候補単語を抽出する短単位抽出部
    と、抽出したキーワード候補単語の使用頻度を計数する
    頻度計数部と、少なくとも頻度をもとにキーワード候補
    単語の尤度を計算する尤度計算部と、前記尤度計算部で
    算出された尤度をキーとして長単位キーワード候補単語
    と短単位キーワード候補単語の両者を順序付けるキーワ
    ード整列部を持つことを特徴とするキーワード抽出装置
JP62089521A 1987-04-10 1987-04-10 キ−ワ−ド抽出装置 Pending JPS63254522A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62089521A JPS63254522A (ja) 1987-04-10 1987-04-10 キ−ワ−ド抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62089521A JPS63254522A (ja) 1987-04-10 1987-04-10 キ−ワ−ド抽出装置

Publications (1)

Publication Number Publication Date
JPS63254522A true JPS63254522A (ja) 1988-10-21

Family

ID=13973106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62089521A Pending JPS63254522A (ja) 1987-04-10 1987-04-10 キ−ワ−ド抽出装置

Country Status (1)

Country Link
JP (1) JPS63254522A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア

Similar Documents

Publication Publication Date Title
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JPH09259140A (ja) 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JP3791877B2 (ja) 文書の参照理由を用いて情報検索を行う装置
JPS63244259A (ja) キ−ワ−ド抽出装置
JPS63254522A (ja) キ−ワ−ド抽出装置
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP3350556B2 (ja) 検索システム
JP3253657B2 (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
CA1276728C (en) Information retrieval system and method
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP2880192B2 (ja) 文字列検索方法及び装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP3666066B2 (ja) 多言語文書登録検索装置
JPH10124524A (ja) 文書検索装置及び文書検索方法
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH08305726A (ja) 情報検索装置
JP2001344256A (ja) 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
JPH10177582A (ja) 最長一致検索方法及び装置
JPH0816617A (ja) 文書検索方法及び装置
JPH11143904A (ja) データベース検索方法,装置およびデータベース検索プログラムを記録した記録媒体
JPH02153474A (ja) 不要語辞書作成装置