JPS63244259A - キ−ワ−ド抽出装置 - Google Patents

キ−ワ−ド抽出装置

Info

Publication number
JPS63244259A
JPS63244259A JP62077729A JP7772987A JPS63244259A JP S63244259 A JPS63244259 A JP S63244259A JP 62077729 A JP62077729 A JP 62077729A JP 7772987 A JP7772987 A JP 7772987A JP S63244259 A JPS63244259 A JP S63244259A
Authority
JP
Japan
Prior art keywords
keyword
word
text
likelihood
keyword candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62077729A
Other languages
English (en)
Inventor
Junichi Kubota
淳市 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP62077729A priority Critical patent/JPS63244259A/ja
Publication of JPS63244259A publication Critical patent/JPS63244259A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 文書ファイリング装置等において、登録する文書に対し
て検索を効率的に行うために各文書に対してキーワード
を設定することが一般に行われている。本発明は前記キ
ーワードを文書テキストから自動的に抽出するキーワー
ド抽出装置に関するものである。
従来の技術 近年、光ディスクのような大容量の記憶装置を用いた文
書ファイリング装置の需要が特にオフィス・オートメー
ションの分野で高まっている。
これらの文書ファイリング装置等では、記憶装置に格納
する文書情報に対し、後の検索処理を迅速かつ効率的に
行うため、文書登録時に検索キー情報として「文書キー
ワード」を加えることが一般に行われている。この際、
オペレータが自ら登録文書の文意を解釈してキーワード
を設定するものに加えて、現在では文書テキストから半
自動的にキーワード候補を抽出するものがあり、キーワ
ード登録処理作業を効率的に行えるようにしている。
従来のキーワード抽出装置としては、例えば「ドクメン
テーシミン研究Vo1.35 No。
6」に記載されているようなものがある。第3図はこの
ような従来のキーワード抽出装置の構成の一例を表すブ
ロック図である。
1はテキスト入力部である。これは、ファイルとして作
成された日本語文字表記列情報を外部記憶装置から読み
込む。以降この日本語文字表記列をテキストと呼ぶ。
2はテキスト記憶部である。これはテキスト入力部1で
読み込まれたテキストを一時的に記憶す3は単語辞書で
ある。これは、単語表記とその品詞を格納しており、そ
れらを単語表記コード順に整列(ソート)している。
4はキーワード候補抽出部である。これは、テキスト記
憶部2に格納されたテキストを単語、および文節単位に
分割した後、キーワード候補を抽出する。
まず、テキスト情報を「漢字表記」か「ひらがな表記」
「英字J「数字」「カタカナ」などの文字種情報に従っ
て大まかに分割する。これを部分テキストと呼ぶ。
さらに、前記単語辞書3において部分テキストの先頭か
ら最長一致する単語を検索し、後接する付属語との接続
検定をして、文節および単語の区切りをテキスト中に挿
入する。
最後にこの中から、付属語を排除して個々のキーワード
候補単語を抽出する。
5は不要語辞書である。これは、単語辞書3と同一形式
で、不要語の単語表記とその品詞を格納しており、単語
表記コード順に整列(ソート)している。不要語とは、
日本語テキスト中にあられれる単語のうち、キーワード
として選択されることが著しく低い単語のことである。
具体的には、「こと」「もの」などの形式名詞、「それ
」「これコなどの連体詞などがこの不要語に属する。
6は不要語除去部である。これは、キーワード候補抽出
部4で得られたキーワード候補から、一般的にキーワー
ドとして選択されることが著しく少ない単語を削除する
。すなわち、不要語辞書5内でその単語を検索し、不要
語辞書5に該当する単語が存在する場合には、その単語
をキーワード候補抽出部4から削除する。
7はキーワード候補一時記憶部である。これは、不要語
除去部6で不要語を除いたキーワード候補単語を格納す
るバッファ記憶である。
8は頻度計数部である。これは、キーワード候補一時記
憶部7に格納された、キーワード候補単語の重複を取り
除き、各々のキーワード候補単語がいくつあるのかを計
数する。計数結果は、個々のキーワード候補単語に対応
させてキーワード候補一時記憶部7内に追記する。
9は頻度順整列部である。これは、頻度計数部8で計数
した頻度に基づきキーワード候補一時記憶部7内のキー
ワード候補単語を降順にソートする。
10はキーワード出力部である。これは、頻度順整列部
9で順位付けされたキーワード候補を頻度の高い順に出
力するものである。
以上のように構成された従来のキーワード抽出装置は次
のように動作する。まず、テキスト情報をテキスト入力
部1から入力し、それをテキスト記憶部2に一時記憶す
る。その後、キーワード候補抽出部4でキーワード候補
を抽出したのち、不要語除去部6の処理で候補を絞る。
この結果に対して、頻度計数部8はキーワード候補の頻
度を計数し、最後に頻度順整列部9の処理で頻度順にソ
ートしたキーワード候補を出力する。
以下、従来のキーワード抽出装置の動作を第4図のフロ
ーチャートを用いて、更に詳細に説明する。
[キーワード抽出] 101:テキスト入力 キーワード抽出の対象となるテキストがテキスト入力部
1から入力されると、そのテキストはコードデータとし
て順次テキスト記憶部2に蓄えられる。テキストの最後
には入力テキストの最終データを表現する特殊コード(
EOF)があるので、この特殊コードが入力された時点
でテキスト入力の終了を判定し、キーワード候補抽出部
4を起動する。
102:キーワード候補抽出 キーワード候補抽出部4はテキスト記憶部2内に格納さ
れているテキスト情報に対して、次のような処理を行う
まず、句読点、記号文字等のテキスト表記文字種の違い
に基づき、与えられたテキストを大分割する。これによ
り、以降の辞書マツチ処理の負担を軽減する。
つぎに、分割されたテキストの先頭からの文字列を用い
てテキスト記憶部2を検索する。この際、検索は最長一
致検索を行い、テキストの先頭文字列と最も長く一致す
る単語をテキスト中に表れた単語として認定する。該当
するものがなければ、テキストの先頭1文字を削除して
同様の処理を続ける。この際、付属語の直後すなわち、
文節区切りの箇所には、特殊コードBを、単語区切りの
箇所には、特殊コードTを挿入する。このようにしてテ
キストを分割した後、その結果から自立語を抽出して、
1語ルコードの形式でキーワード候補一時記憶部7に出
力する。
103:不要語除去 キーワード候補一時記憶部7内の単語一つ一つについて
、それぞれの単語が不要語辞書5内に保持している不要
語と一致するか否かを判定する。
一致している場合はキーワード候補一時記憶部7から該
当単語を除去する。この処理をキーワード候補一時記憶
部7内のすべての単語に対して行った後、頻度計数部8
を起動する。
104:頻度計数 不要語除去の処理が終了した時点で頻度計数部8は、キ
ーワード候補一時記憶部7内の単語の重複を排除し、そ
れと同時に各々の単語の出現頻度を計数する。その後、
各キーワード候補に対して、テキスト内出現頻度情報を
付加する。
105:頻度順整列 頻度計数部8は、キーワード候補一時記憶部7中の頻度
情報をキーとして、各キーワード候補をソートし、頻度
が高い順に並べる。
106:キーワード出力 キーワード出力部10は頻度順整列部9から入力される
キーワードを順に、すなわち頻度の降順に出力する。
発明が解決しようとする問題点 しかしながら、以上のように構成された従来のキーワー
ド抽出装置においては、あまり重要でない単語が上位の
候補として抽出されることが多かった。従来のキーワー
ド抽出装置は、キーワード候補単語を単に文章内の頻度
に基づいて出力しているので、キーワード優先度の順位
付けに特定の傾向が生じていた。すなわち、「表記が短
い単1はど出現頻度が高い」のである。
たとえば、「東京都」と「東京国際空港」がテキスト中
に現れた場合、「東京都」および「東京国際空港」は出
現頻度工なのに対して、「東京」は2になる。すなわち
、短い単位で計数すると、各々の単語が全(関係のない
独立の文脈中に現れた別々の単語であるとしても「東京
」は2回出現したことになってしまうのである。
また、「接辞」と呼ばれる一漢字語の出現頻度が高いこ
とはよ(知られている。上記の例で言えば、「都」など
の接尾語は比較的出現頻度が高(なる。
この問題は、すべての複合語を辞書中に登録しておけば
解決を図ることができるが、複合語単位であらゆる単語
をキーワード抽出システムに維持管理することは現実的
には著しく困難である。文章の特徴を正しく表現する妥
当なキーワードを抽出するためには、この単語出現頻度
の偏りに対する何らかの対策が必要である。
以下、この問題を具体例を加えて背景からもう一度整理
してみる。
キーワード抽出装置の実現の際、最も困難な問題は文書
中単語のうちどれが重要な語であるかを認定することで
ある。本来これを実現するためにはキーワード自動抽出
処理は単に文章解析のみな・らず文書内容が言及してい
る各分野の知識を要するような複雑な処理が必要である
。これに対し、これまでのシステムは不要語を格納した
不要語テーブルをもち、文書中の単語と不要語テーブル
を対照し、合致したものを取り除くことでこの作業を代
替してきた。ただし、この方法ではオペレータにとって
本当に重置な語にまぎれて、多くのあまり重要でないキ
ーワードが候補の中に混入することが多く、問題とされ
ていた。そのため、抽出したキーワード候補群をいかに
してうまく優先付けて出力するかが大きな課題であった
このような背景のもと、従来のキーワード抽出装置は単
語の出現頻度をもとにキーワード候補を順序付ける方式
をとっていた。例えば、第5図の文書中からキーワード
抽出するとキーワード候補は第6図のようになる。この
方法は、かなり有効なものであり、文章の特徴を示す単
語を効率的に抽出することができた。
しかしながら、頻度のみに基づく優先付けに不完全な要
素があることも分かってきた。たとえば、第5図の文章
中で、標題にも使われており明らかに重要である単語「
事故防止」とか「事故jなどと、あまり重要でない短い
表記の単語「方」が優先度が同じ単語として抽出されて
いる。
本発明は、前記従来のキーワード抽出装置の問題に鑑み
、「文章的使用頻度情報」だけでなく単語の「長さ情報
」を利用することで、単語出現分布の偏りを補正した優
先付けを行い、オペレータの最終判断を容易にすること
のできるキーワード抽出装置を提供することを目的とす
る。
問題点を解決するための手段 本発明は、少なくともキーワード候補単語の長さ情報と
前記頻度計数部で計数された単語使用頻度をもとにキー
ワード候補単語の尤度を計算する尤度計算部を備えたキ
ーワード抽出装置である。
作用 本発明は、前記した構成により文章内の単語の使用頻度
と単語の長さ情報を勘案して、より文章主題に即した高
品質のキーワードを抽出できる。
実施例 第1図は本発明の一実施例におけるキーワード抽出装置
の構成をあられすブロック図である。本構成図のうち1
.2.3.4.5.6.7.8および10は第4図の従
来例の同一番号の構成要素と同一である。
11は尤度計算部である。これは、キーワード候補一時
記憶部7内に格納されているキーワード候補各々に対す
る優先度を表す値、すなわち尤度の計算を行う。この計
算はキーワード候補の頻度と表記長さを引数とする関数
で表現される。
本実施例においては計算式として、次のものを利用する
尤度−(a×【単語頻度])+(b X [単語表記長
さ])ζ−1 12は尤度順整列部である。これは、尤度計算部11が
計算した尤度をもとにキーワード候補一時記憶部7内の
キーワード候補を尤度順に並べ直す。その結果は、順に
キーワード出力部に出力される。
以上のように構成された本実施例のキーワード抽出装置
について、以下その動作を第2図のフローチャートを用
いて説明する。
[キーワード抽出] 201:テキスト入力 キーワード抽出の対象となるテキストがテキスト入力部
1から入力されると、そのテキストはコードデータとし
て順次テキスト記憶部2に蓄えられる。テキストの最後
には入力テキストの最終データを表現する特殊コード(
EOF>があるので、この特殊コードが入力された時点
でテキスト入力の終了を判定し、キーワード候補抽出部
4を起動する。
202:キーワード候補抽出 キーワード候補抽出部4は、テキスト記憶部2内に格納
されているテキスト情報に対して、次のような処理を実
施する。まず、句読点、記号文字等のテキスト表記文字
種に基づき、与えられたテキストを大分割する。これに
より、以降の辞書マツチ処理の負担を軽減する。
つぎに、分割されたテキストの先頭からの文字列を用い
てテキスト記憶部2を検索する。この際、検索は最長一
致検索を行い、テキストの先頭文字列と最も長く一致す
る単語をテキスト中に表れた単語として認定する。該当
するものがなければ、テキストの先頭1文字を削除して
同様の処理を続ける。この際、付属語の直後すなわち、
文節区切りの箇所には、特殊コードBを、単語区切りの
箇所には、特殊コードTを挿入する。このようにしてテ
キストを分割した後、その結果から自立語を抽出して、
1語ルコードの形式でキーワード候補一時記憶部7に出
力する。
203:不要語除去 キーワード候補一時記憶部7内の単語一つ一つについて
、それぞれの単語が不要語辞書5内に保持している不要
語と一致するか否かを判定する。
一致している場合はキーワード候補一時記憶部7から該
当単語を除去する。この処理をキーワード候補一時記憶
部7内のすべての単語に対して行った後、頻度計数部8
を起動する。
204:頻度計数 不要語除去の処理が終了した時点で頻度計数部8は、キ
ーワード候補一時記憶部7内の単語の重複を排除し、そ
れと同時に各々の単語の出現頻度を計数する。その後、
各キーワード候補に対して、テキスト内出現頻度情報を
付加する。
205:尤度計算 この時点でキーワード候補一時記憶部7中には各キーワ
ード候補の表記、品詞および頻度情報が格納されている
。ここでは、キーワード候補一時記憶部7内に格納され
ている頻度情報と単語表記情報をもとに次のような計算
式で格納されてい各候補の尤度を計算する。
尤度=単語頻度十単語表記長さ この結果得られる尤度は、各キーワード候補単語ごとに
付与される。
206:尤度層整列 キーワード候補一時記憶部7中の尤度情報をキーとして
、各キーワード候補はソートされ、尤度が高い順に並べ
られる。
207:キーワード出力 キーワード出力部10は尤度順整列部12から入力され
るキーワードを順に、すなわち尤度の降順に出力する。
最後に、本実施例のキーワード抽出装置の動作を具体例
を示しながら、従来例と比較して説明する。
第5図に示す入力テキストに対して、本実施例を適用し
た時の抽出キーワードを第7図に示す。
第6図と比較すると第7図では、単語表記長さが長い単
語の尤度が高(なるため、「事故防止」「事故」などが
「方」よりも優先順位が上がっている。「事故防止」の
尤度が6なのに対し、「方」の尤度は3である。
以上のように本実施例によれば、尤度計算を頻度と表記
の長さの和として定義しており、「表記長さが大きい複
雑な構造を持つ単語が、文章中で頻繁に用いられている
場合、その単語は文中に現れる必然性が高いものであり
キーワードとしての優先度が高い」という一般的な考え
にも適合している。これにより妥当なキーワード優先順
位付けを実現している。
また、本実施例によれば、尤度計算が済んだ後のキーワ
ード候補を尤度層に並べ替えており、出力部での優先順
位の確認を容易にしている。
なお、本実施例で使用している単語辞書には表記と品詞
の情報を格納していたが、このほかの情報、例えば単語
の読みなどを格納しておいてもよい。
なお、本実施例では尤度を得るための計算式を特定のも
のを採用していたが、特にこれに限定している訳ではな
い。
なお、本実施例においてはキーワード候補単語抽出処理
を生のテキストに対して行っていたが、その前にシソー
ラスを用いた用語の統一化処理をしておいてもよい。
なお、本実施例ではテキスト一時記憶部を実メモリー上
に実現していたが、これを2次記憶に実施してもよい。
発明の詳細 な説明したように、本発明によればキーワード抽出処理
を高精度に行うことができ、高品質のキーワードを抽出
することができる。
【図面の簡単な説明】
第1図は本発明に招ける一実施例のキーワード抽出装置
のブロック図、第2図は同実施例の動作を表すフローチ
ャート、第3図は従来のキーワード抽出装置のブロック
図、第4図は従来のキーワード抽出装置の動作を表すフ
ローチャート、第5図はキーワード抽出対象テキストの
一例を示す説明図、第6図は従来のキーワード抽゛出装
置で抽出したキーワード候補単語の一例を示す説明図、
第7図は本発明の一実施例におけるキーワード候補単語
の一例を示す説明図である。 1・・・・テキスト入力部、2・・・・テキスト記憶部
、4・・・・キーワード候補抽出部、7・・・・キーワ
ード候補一時記憶部、8・・・・頻度計数部、11・・
・・尤度計算部。 代理人の氏名 弁理士 中尾敏男 ほか1名第2図 第4図 第5図 第6図   第7図

Claims (3)

    【特許請求の範囲】
  1. (1)日本語文字表記列をコード列として入力するテキ
    スト入力部と、入力されたテキストを一時格納するテキ
    スト記憶部と、前記テキスト記憶部内のテキストからキ
    ーワード候補単語を抽出するキーワード候補抽出部と、
    前記キーワード候補抽出部で抽出されたキーワード候補
    単語を一時記憶するキーワード候補一時記憶部と、抽出
    したキーワード候補単語のテキスト記憶部内使用頻度を
    計数する頻度計数部と、少なくともキーワード候補単語
    の長さ情報と前記頻度計数部で計数された単語使用頻度
    をもとにキーワード候補単語の尤度を計算する尤度計算
    部を持つことを特徴とするキーワード抽出装置。
  2. (2)尤度計算部は少なくともキーワード候補単語の表
    記長さと頻度計数部で計数された単語使用頻度をもとに
    キーワード候補単語の尤度を計算することを特徴とする
    特許請求の範囲第1項記載のキーワード抽出装置。
  3. (3)尤度計算部は少なくともキーワード候補単語の読
    み長さと頻度計数部で計数された単語使用頻度をもとに
    キーワード候補単語の尤度を計算することを特徴とする
    特許請求の範囲第1項記載のキーワード抽出装置。
JP62077729A 1987-03-31 1987-03-31 キ−ワ−ド抽出装置 Pending JPS63244259A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62077729A JPS63244259A (ja) 1987-03-31 1987-03-31 キ−ワ−ド抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62077729A JPS63244259A (ja) 1987-03-31 1987-03-31 キ−ワ−ド抽出装置

Publications (1)

Publication Number Publication Date
JPS63244259A true JPS63244259A (ja) 1988-10-11

Family

ID=13641988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62077729A Pending JPS63244259A (ja) 1987-03-31 1987-03-31 キ−ワ−ド抽出装置

Country Status (1)

Country Link
JP (1) JPS63244259A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129562A (ja) * 1989-10-16 1991-06-03 Sharp Corp インデックス作成支援装置
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH04274557A (ja) * 1991-02-28 1992-09-30 Hitachi Ltd フルテキストサーチ方法
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH0778165A (ja) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> テキスト中のエラーストリングを検出する方法及びコンピュータシステム
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JP2001202388A (ja) * 2000-12-11 2001-07-27 Hitachi Ltd フルテキストサーチ方法および装置
JP2004030697A (ja) * 2003-10-14 2004-01-29 Fujitsu Ltd 文分類装置
JP2009169924A (ja) * 2007-12-18 2009-07-30 Nippon Telegr & Teleph Corp <Ntt> 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH03129562A (ja) * 1989-10-16 1991-06-03 Sharp Corp インデックス作成支援装置
JPH04274557A (ja) * 1991-02-28 1992-09-30 Hitachi Ltd フルテキストサーチ方法
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH0778165A (ja) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> テキスト中のエラーストリングを検出する方法及びコンピュータシステム
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JP2001202388A (ja) * 2000-12-11 2001-07-27 Hitachi Ltd フルテキストサーチ方法および装置
JP2004030697A (ja) * 2003-10-14 2004-01-29 Fujitsu Ltd 文分類装置
JP2009169924A (ja) * 2007-12-18 2009-07-30 Nippon Telegr & Teleph Corp <Ntt> 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体

Similar Documents

Publication Publication Date Title
US5680628A (en) Method and apparatus for automated search and retrieval process
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
EP0437615A1 (en) Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
JPS63244259A (ja) キ−ワ−ド抽出装置
JPH0211934B2 (ja)
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP3253657B2 (ja) 文書検索方法
JPH0877196A (ja) 文書情報抽出装置
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JPH056398A (ja) 文書登録装置及び文書検索装置
JPS61248160A (ja) 文書情報登録方式
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH01295369A (ja) 漢字仮名混じり文節分割処理方式
JPS6368972A (ja) 未登録語処理方式
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH05233689A (ja) 文書自動要約方法
JPS63254522A (ja) キ−ワ−ド抽出装置
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
JPH04330565A (ja) 自然言語処理システム
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH0954781A (ja) 文書検索システム
JPS63192130A (ja) キ−ワ−ド自動抽出装置
JP3139624B2 (ja) 形態素解析装置