JPS63228326A

JPS63228326A - キ−ワ−ド自動抽出方式

Info

Publication number: JPS63228326A
Application number: JP62061181A
Authority: JP
Inventors: Yoshinori Hara; 良憲原
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1987-03-18
Filing date: 1987-03-18
Publication date: 1988-09-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、電子化文書中からキーワードを自動的に抽出
する方式に関するものであり、更に具体的には、メンテ
ナンスが容易でかつ利用者に依存したキーワードを抽出
することが可能なキーワード自動抽出方式に関する。

〔従来の技術〕

従来のキーワード自動抽出方式は、キーワードとなるべ
き語をあらかじめ辞書に登録しておき、対象文章と比較
して合致したものをキーワードとして抽出する方式と、
逆にキーワードにならない語（不要語）を用いてキーワ
ードを抽出する方式とに大別される。前者は、キーワー
ド辞書が充実していれば、精度よくキーワードが抽出さ
れる方式であり、例えば特開昭６０−３３６６５号公報
等で知られている。また、後者は、抽出精度がやや落ち
る可能性があるが、キーワード辞書にない語（例えば、
新語、造語）が表れてもキーワードとして抽出できる利
点があるので、商用の大規模システムに利用されている
。また、これらを組み合わせた方式も存在する。

〔発明が解決しようとする問題点〕

しかしながら、キーワードとなるべき語をあらかじめ登
録しておく方式では、精度向上維持のために辞書のメン
テナンスに労力がかかる。また、不要語除去方式では、
辞書メンテナンスが容易な反面、わかち書きの精度を保
証するものではない。

さらに組み合わせ方式では、わかち書きと不要語除去を
パイプライン的に行っているため、処理時間が増大する
。

本発明の目的は、このような問題点を解決し、形態素解
析処理の中に不要語除去処理を組み込んで処理時間を短
縮化させると共に、利用者辞書と基本辞書を分離するこ
とにより利用者固有のキーワードを優先的に抽出するこ
とが可能なキーワード自動抽出方式を提供することにあ
る。

〔問題点を解決するための手段〕

本発明のキーワード自動抽出方式は、文章中の文字列からキーワードを自動的に抽出するキー
ワード自動抽出方式において、文字列を入力する入力手
段と、利用者固有のキーワード候補並びに不要語情報を格納し
た利用者辞書格納手段と、利用者に依存しない見出し語並びに不要語情報を格納し
た基本辞書格納手段と、前記利用者辞書格納手段並びに基本辞書格納手段に格納
されている情報を用いて解析を行う手段であって、前記
利用者辞書格納手段を用いた処理を優先的に行う形態素
解析手段と、この形態素解析手段により得られたキーワード候補を優
先度順にランキングする統計処理手段と、キーワードを
出力する出力手段とを有することを特徴としている。

〔作用〕

本発明の構成によれば、文章中の文字列から、利用者な
いしは特定の分野に即したキーワードが自動的に抽出さ
れる。辞書は利用者辞書と基本辞書を分離し、前者の格
納手段には利用者固有のキーワード候補並びに不要語情
報を入れ、後者の格納手段には利用者に依存しない見出
し語並びに不要語情報を入れである。

入力手段から対象文字列（たとえば「・・・・・・は、
並列情報処理技術である。」という文）を入力した場合
、通常、基本辞書格納手段のみを用いて、形態素解析（
たとえば最長−成性による形態素解析）を行うと、キー
ワードとしては、基本辞書格納手段に格納されているも
の（たとえば、第２図（ｂ）の「並列情報」と「処理技
術」）が選ばれる。

これに対して、上述のような利用者辞書格納手段及び基
本辞書格納手段を用いると、利用者辞書格納手段が優先
的に処理されるので、キーワードとしては、利用者辞書
格納手段に格納されているもの（たとえば、第２図（ａ
）の「情報処理」）が採用される。このように、最長−
成性のような形態素解析戦略に先立って、利用者辞書格
納手段を用いた処理が優先的に行われるので、利用者な
いしは資料の該当分野を考慮したキーワード抽出処理が
行われる。また、従来の不要語除去方式によるキーワー
ド自動抽出処理では、まずキーワード候補の選択がなさ
れ、しかる後に、不要語辞書とマツチング処理を行い、
該当しなかった候補のみが、認定されるという２段階の
操作により行われる。

これに対して、本発明方式では、辞書引き操作は一括し
て行われ、不要語除去処理も形態素解析内で不要語情報
を用いて実施されるので、辞書アクセスの高速化、効率
化がはかられる。

〔実施例〕

次に、本発明について図面を参照して説明する。

第１図は、本発明の一実施例を示すブロック図である。

本実施例に係るキーワード自動抽出方式は、文字列を入
力する入力手段１と、利用者辞書格納手段２及び基本辞
書格納手段３と、形態素解析手段４と、統計処理手段５
と、そして辞書更新手段６並びにキーワードを出力する
出力手段７とを用いる。

入力手段１に入力される文字列からキーワードを抽出す
るのに使用する辞書は、利用者辞書と基本辞書との２分
に分離されている。利用者辞書格納手段２は、利用者固
有のキーワード候補並びに不要語情報を格納したもので
あり、一方、基本辞書格納手段３には、利用者に依存し
ない見出し語並びに不要語情報を格納しである。

形態素解析手段４は、利用者辞書格納手段２並びに基本
辞書格納手段３に格納されている情報を用いて解析を行
う手段である。利用者辞書格納手段２には利用者固有の
キーワード候補並びに不要語情報が、基本辞書格納手段
３には利用者に依存しない見出し語並びに不要語情報が
それぞれ格納されているので、形態素解析手段４では、
これら格納されている情報を用いて形態解析処理が行わ
れる。

この形態素解析手段４における処理では、上述の如く、
利用者辞書と基本辞書を分離したことにより、後述のよ
うに利用者辞書格納手段２を用いた処理を優先的に行う
ように処理をすることができる。また、不要語情報が格
納されているので、この形態素解析処理内で不要語除去
処理が実施されることになる。

統計処理手段５は、形態素解析手段４により得られたキ
ーワード候補を優先度順にランキングするものである。

更に、このキーワード自動抽出方式では、辞書更新手段
６を用いており、利用者辞書の内容は、利用者辞書格納
手段２に格納されている情報を更新する辞書更新手段６
により必要に応じて更新できるようになっている。

このように、文章中の文字列がら、キーワードを自動的
に抽出する方式において、文字列を入力する入力手段１
と、利用者固有のキーワード候補並びに不要語情報を格
納した利用者辞書格納手段２と、利用者に依存しない見
出し語並びに不要語情報を格納した基本辞書格納手段３
と、これら利用者辞書格納手段２並びに基本辞書格納手
段３に格納されている情報を用いて解析を行う形態素解
析手段４と、この形態素解析手段４により得られたキー
ワード候補を優先度順にランキングする統計処理手段５
と、利用者辞書格納手段２に格納されている情報を更新
する辞書更新手段６と、キーワードを出力する出力手段
７とを有している。

更に、第２図及び第３図をも参照して具体的に説明する
。

本実施例の入力手段１は、一般に文書ファイルから文章
を入力する手段である。

利用者辞書格納手段２）及び基本辞書格納手段３は、各
々格納した辞書構成の具体例を示す第２図（ａ）、　（
ｂｌのような構成になっている。再格納手段２．３共、
見出し語に対して、当該形態素が隣接形態素と文法的に
接続可能か否かを調べる接続情報と、わかち書きを行っ
た結果不要語とするか否かを調べる不要語マーカと、そ
の他適切な情報からなっている。

このように、利用者辞書格納手段２及び基本辞書格納手
段３は、各々第２図（ａｌ、　（ｂ）のような構成にな
っており、大量情報なので通常ディスク等の２次記憶装
置に格納される。必要なフィールドは見出し語、接続情
報、不要語マーカであるが、用途に応じて、「その他」
のフィールドに追加することも可能である。ただし、精
度向上と、辞書メンテナンス効率化のため、利用者辞書
格納手段には自立語のみ、また基本辞書格納手段には不
属語まで含めた基本見出し語をエントリするのが良い。

形態素解析手段４は、たとえば、特開昭６０−４３６６
２号公報に開示された形態素解析装置の動作手段と同様
にして構成可能である。

第３図は、形態素解析手段４の詳細な手順の一例を、流
れ図で表現したものである。まず、ステップ１１では、
利用者辞書格納手段２の情報を用いて形態素の候補選択
を行う。たとえば、文法的に接続可能で、見出し語長が
最長のものという戦略で候補選択を行うことが可能であ
る。もしそのような形態素候補が存在すれば、候補選択
がなされたか否かを判別するステップ１２でＹｅｓの判
別結果が得られるので、確定処理ステップ１７に進む。

存在しなければ、ステップ１３へ進み、このステンプ１
３において、今度は基本辞書格納手段３の情報を用いる
ことにより形態素の候補選択を行う。選択戦略はステッ
プ１１と同様で良い。もしそのような形態素候補が存在
すれば、候補選択がなされたか否かを判別するステップ
１４でＹｅｓの判別結果が得られるので、ステップ１４
を経て確定処理ステップ１７に進むことになる。

ここで、たとえば「・・・・・・は、並列情報処理技術
である。」という文を入力した場合を例に採って説明す
るに、通常、第２図（ｂｌの基本辞書格納手段３のみを
用いて、形態素解析（たとえば最長−成性による形態素
解析）を行うと、・キーワードとしては、「並列情報」
と「処理技術」が選ばれる。

これに対して、第２図（ａ）、　（ｂ）にあるような利
用者辞書格納手段２及び基本辞書格納手段３を用いると
、利用者辞書格納手段２が優先的に処理されるので、キ
ーワードとしては、「情報処理」が採用される。このよ
うに、最長−成性のような形態素解析戦略に先立って、
利用者辞書格納手段２を用いた処理が優先的に行われる
ので、利用者ないしは資料の該当分野を考慮したキーワ
ード抽出処理が行われる。

さて、ステップ１３において、もし、そのような形態素
候補が存在せず、かつバンクトランクが可能ならば、ス
テップ１４からバックトラック可能か否かを判別するス
テップ１５へ進んだとき、Ｙｅｓの判別結果が出るので
、次善の形態素候補を選択するためにステップ１１に戻
り処理を再実行する。

また逆に、辞書内容を用いても全く形態素候補が抽出さ
れず、しかもバックトラックが行われないならば、当該
入力文字列中に未登録語があったものとみなし、ステッ
プ１５からステップ１６へ進み、このステップ１６にお
いて、未登録語区間の推定を行う。この推定は、字種情
報や文節認定情報、特殊記号等の情報を用いて推定可能
である。この後、ステップ１８において、文の終りか否
かの認定を行う。これは、たとえば読点の情報を用いる
と認定可能である。

また、確定処理ステップ１７においては、不属語等の情
報を用いて、文節と認定された場合には、抽出された形
態素列が正しいものとみなし、わかち書きの確定を行う
。確定された形態素列に対応する文字列に対しては、バ
ックトラックを行わない。この後、ステップ１８に進み
、文の終りか否かの認定を行う。もし、文の終りでなけ
れば、ステップ１１に戻り、次の文字列に対して同様の
処理を行う。また、文の終りと認定された場合には、入
力文字列に対して、わかち書きの処理が完了したことに
なる。そこで次に、ステップ１９に進み、自立語（たと
えば、名詞、す変動詞、語幹、形容動詞語幹など）の選
択を、接続情報等の文法情報を用いて行う。未登録語に
対しては、その品詞はわからないが、大部分が固有名詞
と想定されるため、自立語とみなして、選択することに
する。そして、ステップ２０において、形態素の属性で
ある不要語マーカを用いて不要語除去を行う。この際に
も未登録語についてはわからないが、一応、重要語とみ
なしステップ２０を通過させる。このような方式で処理
すると、わかち書きと不要語除去を行うための辞書引き
マツチングが１回ですみ、処理高速化がはかられる。す
なわち、従来の不要語除去方式によるキーワード自動抽
出処理では、前出の例を用いて説明すると、まずキーワ
ード候補として「並列」、「情報処理」、「技術」と選
択され、しかる後に、不要語辞書とマツチング処理を行
い、該当しなかった「情報処理」の候補のみが、認定さ
れるという２段階の操作により行われる。これに対して
、本方式では、辞書引き操作は一括して行われ、不要語
除去処理も形態素解析内で不要語マーカを用いて実施さ
れるので、辞書アクセスの高速化、効率化がはかられる
。

以上のような手順で、形態素解析手段４を実施すること
が可能である。

また、第１図において、統計処理手段５は、利用者辞書
の内容を更新するための辞書更新手段６の前処理として
用いる。ここでは、たとえば、キーワード候補の出現頻
度を求めることにより、キーワード候補のランキングを
行い、識別力の高いキーワードを選別するための情報を
生成する。辞書更新手段６は、ランキングされたキーワ
ード候補を見ながら、対話的に、利用者辞書格納手段２
に入れるための必要情報（見出し語、キーワード／不要
語の別）、及び当時点のキーワードを指定する手段であ
る。通常、ディスプレイと、キーボード／マウスにより
構成される。また、特に利用者辞書格納手段２を更新す
る必要がなかったり、統計処理手段５からのキーワード
候補を全てキーワードと認定する場合には、この手段は
必要ない。

出力手段７は、最終的に認定されたキーワードを出力す
る手段である。出力の態様については、ディスプレイに
表示したり、出力ファイルに格納することにより実現さ
れる。

〔発明の効果〕

以上説明したように、本発明によれば、電子化文書中か
らキーワードを自動的に抽出する際に、利用者ないしは
特定の分野に即したキーワードが自動的に抽出される。

また、形態素解析処理内で不要語除去処理を実施できる
ので、辞書アクセスの高速化、効率化がはかられる。さ
らに利用者は、キーワード抽出精度維持のために、必要
最小限の指定を行うだけでよ（、辞書メンテナンスが容
易である。

【図面の簡単な説明】

第１図は本発明のキーワード自動抽出方式の一実施例を
示す機能的なブロック図、第２図（ａ）、　（ｂｌは本発明の方式により格納した
辞書構成の一具体例を示す図、第３図は本実施例の形態素解析手段の詳細な手順の一例
を示す流れ図である。ｌ・・・入力手段２・・・利用者辞書格納手段３・・・基本辞書格納手段４・・・形態素解析手段５・・・統計処理手段６・・・辞書更新手段７・・・出力手段代理人弁理士　　　岩　　佐　　義　　幸（ａ）　　　
　　　　　　　　（ｂ）第２図

Claims

【特許請求の範囲】

（１）文章中の文字列からキーワードを自動的に抽出す
るキーワード自動抽出方式において、文字列を入力する
入力手段と、利用者固有のキーワード候補並びに不要語情報を格納し
た利用者辞書格納手段と、利用者に依存しない見出し語並びに不要語情報を格納し
た基本辞書格納手段と、前記利用者辞書格納手段並びに基本辞書格納手段に格納
されている情報を用いて解析を行う手段であって、前記
利用者辞書格納手段を用いた処理を優先的に行う形態素
解析手段と、この形態素解析手段により得られたキーワード候補を優
先度順にランキングする統計処理手段と、キーワードを
出力する出力手段とを有することを特徴とするキーワー
ド自動抽出方式。
（２）特許請求の範囲第１項に記載のキーワード自動抽
出方式において、前記利用者辞書格納手段は、格納されている情報が辞書
更新手段によって更新されることを特徴とするキーワー
ド自動抽出方式。