JPS63228326A - キ−ワ−ド自動抽出方式 - Google Patents

キ−ワ−ド自動抽出方式

Info

Publication number
JPS63228326A
JPS63228326A JP62061181A JP6118187A JPS63228326A JP S63228326 A JPS63228326 A JP S63228326A JP 62061181 A JP62061181 A JP 62061181A JP 6118187 A JP6118187 A JP 6118187A JP S63228326 A JPS63228326 A JP S63228326A
Authority
JP
Japan
Prior art keywords
user
dictionary
storage means
dictionary storage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62061181A
Other languages
English (en)
Inventor
Yoshinori Hara
良憲 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62061181A priority Critical patent/JPS63228326A/ja
Publication of JPS63228326A publication Critical patent/JPS63228326A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、電子化文書中からキーワードを自動的に抽出
する方式に関するものであり、更に具体的には、メンテ
ナンスが容易でかつ利用者に依存したキーワードを抽出
することが可能なキーワード自動抽出方式に関する。
〔従来の技術〕
従来のキーワード自動抽出方式は、キーワードとなるべ
き語をあらかじめ辞書に登録しておき、対象文章と比較
して合致したものをキーワードとして抽出する方式と、
逆にキーワードにならない語(不要語)を用いてキーワ
ードを抽出する方式とに大別される。前者は、キーワー
ド辞書が充実していれば、精度よくキーワードが抽出さ
れる方式であり、例えば特開昭60−33665号公報
等で知られている。また、後者は、抽出精度がやや落ち
る可能性があるが、キーワード辞書にない語(例えば、
新語、造語)が表れてもキーワードとして抽出できる利
点があるので、商用の大規模システムに利用されている
。また、これらを組み合わせた方式も存在する。
〔発明が解決しようとする問題点〕
しかしながら、キーワードとなるべき語をあらかじめ登
録しておく方式では、精度向上維持のために辞書のメン
テナンスに労力がかかる。また、不要語除去方式では、
辞書メンテナンスが容易な反面、わかち書きの精度を保
証するものではない。
さらに組み合わせ方式では、わかち書きと不要語除去を
パイプライン的に行っているため、処理時間が増大する
本発明の目的は、このような問題点を解決し、形態素解
析処理の中に不要語除去処理を組み込んで処理時間を短
縮化させると共に、利用者辞書と基本辞書を分離するこ
とにより利用者固有のキーワードを優先的に抽出するこ
とが可能なキーワード自動抽出方式を提供することにあ
る。
〔問題点を解決するための手段〕
本発明のキーワード自動抽出方式は、 文章中の文字列からキーワードを自動的に抽出するキー
ワード自動抽出方式において、文字列を入力する入力手
段と、 利用者固有のキーワード候補並びに不要語情報を格納し
た利用者辞書格納手段と、 利用者に依存しない見出し語並びに不要語情報を格納し
た基本辞書格納手段と、 前記利用者辞書格納手段並びに基本辞書格納手段に格納
されている情報を用いて解析を行う手段であって、前記
利用者辞書格納手段を用いた処理を優先的に行う形態素
解析手段と、 この形態素解析手段により得られたキーワード候補を優
先度順にランキングする統計処理手段と、キーワードを
出力する出力手段とを有することを特徴としている。
〔作用〕
本発明の構成によれば、文章中の文字列から、利用者な
いしは特定の分野に即したキーワードが自動的に抽出さ
れる。辞書は利用者辞書と基本辞書を分離し、前者の格
納手段には利用者固有のキーワード候補並びに不要語情
報を入れ、後者の格納手段には利用者に依存しない見出
し語並びに不要語情報を入れである。
入力手段から対象文字列(たとえば「・・・・・・は、
並列情報処理技術である。」という文)を入力した場合
、通常、基本辞書格納手段のみを用いて、形態素解析(
たとえば最長−成性による形態素解析)を行うと、キー
ワードとしては、基本辞書格納手段に格納されているも
の(たとえば、第2図(b)の「並列情報」と「処理技
術」)が選ばれる。
これに対して、上述のような利用者辞書格納手段及び基
本辞書格納手段を用いると、利用者辞書格納手段が優先
的に処理されるので、キーワードとしては、利用者辞書
格納手段に格納されているもの(たとえば、第2図(a
)の「情報処理」)が採用される。このように、最長−
成性のような形態素解析戦略に先立って、利用者辞書格
納手段を用いた処理が優先的に行われるので、利用者な
いしは資料の該当分野を考慮したキーワード抽出処理が
行われる。また、従来の不要語除去方式によるキーワー
ド自動抽出処理では、まずキーワード候補の選択がなさ
れ、しかる後に、不要語辞書とマツチング処理を行い、
該当しなかった候補のみが、認定されるという2段階の
操作により行われる。
これに対して、本発明方式では、辞書引き操作は一括し
て行われ、不要語除去処理も形態素解析内で不要語情報
を用いて実施されるので、辞書アクセスの高速化、効率
化がはかられる。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は、本発明の一実施例を示すブロック図である。
本実施例に係るキーワード自動抽出方式は、文字列を入
力する入力手段1と、利用者辞書格納手段2及び基本辞
書格納手段3と、形態素解析手段4と、統計処理手段5
と、そして辞書更新手段6並びにキーワードを出力する
出力手段7とを用いる。
入力手段1に入力される文字列からキーワードを抽出す
るのに使用する辞書は、利用者辞書と基本辞書との2分
に分離されている。利用者辞書格納手段2は、利用者固
有のキーワード候補並びに不要語情報を格納したもので
あり、一方、基本辞書格納手段3には、利用者に依存し
ない見出し語並びに不要語情報を格納しである。
形態素解析手段4は、利用者辞書格納手段2並びに基本
辞書格納手段3に格納されている情報を用いて解析を行
う手段である。利用者辞書格納手段2には利用者固有の
キーワード候補並びに不要語情報が、基本辞書格納手段
3には利用者に依存しない見出し語並びに不要語情報が
それぞれ格納されているので、形態素解析手段4では、
これら格納されている情報を用いて形態解析処理が行わ
れる。
この形態素解析手段4における処理では、上述の如く、
利用者辞書と基本辞書を分離したことにより、後述のよ
うに利用者辞書格納手段2を用いた処理を優先的に行う
ように処理をすることができる。また、不要語情報が格
納されているので、この形態素解析処理内で不要語除去
処理が実施されることになる。
統計処理手段5は、形態素解析手段4により得られたキ
ーワード候補を優先度順にランキングするものである。
更に、このキーワード自動抽出方式では、辞書更新手段
6を用いており、利用者辞書の内容は、利用者辞書格納
手段2に格納されている情報を更新する辞書更新手段6
により必要に応じて更新できるようになっている。
このように、文章中の文字列がら、キーワードを自動的
に抽出する方式において、文字列を入力する入力手段1
と、利用者固有のキーワード候補並びに不要語情報を格
納した利用者辞書格納手段2と、利用者に依存しない見
出し語並びに不要語情報を格納した基本辞書格納手段3
と、これら利用者辞書格納手段2並びに基本辞書格納手
段3に格納されている情報を用いて解析を行う形態素解
析手段4と、この形態素解析手段4により得られたキー
ワード候補を優先度順にランキングする統計処理手段5
と、利用者辞書格納手段2に格納されている情報を更新
する辞書更新手段6と、キーワードを出力する出力手段
7とを有している。
更に、第2図及び第3図をも参照して具体的に説明する
本実施例の入力手段1は、一般に文書ファイルから文章
を入力する手段である。
利用者辞書格納手段2)及び基本辞書格納手段3は、各
々格納した辞書構成の具体例を示す第2図(a)、 (
blのような構成になっている。再格納手段2.3共、
見出し語に対して、当該形態素が隣接形態素と文法的に
接続可能か否かを調べる接続情報と、わかち書きを行っ
た結果不要語とするか否かを調べる不要語マーカと、そ
の他適切な情報からなっている。
このように、利用者辞書格納手段2及び基本辞書格納手
段3は、各々第2図(al、 (b)のような構成にな
っており、大量情報なので通常ディスク等の2次記憶装
置に格納される。必要なフィールドは見出し語、接続情
報、不要語マーカであるが、用途に応じて、「その他」
のフィールドに追加することも可能である。ただし、精
度向上と、辞書メンテナンス効率化のため、利用者辞書
格納手段には自立語のみ、また基本辞書格納手段には不
属語まで含めた基本見出し語をエントリするのが良い。
形態素解析手段4は、たとえば、特開昭60−4366
2号公報に開示された形態素解析装置の動作手段と同様
にして構成可能である。
第3図は、形態素解析手段4の詳細な手順の一例を、流
れ図で表現したものである。まず、ステップ11では、
利用者辞書格納手段2の情報を用いて形態素の候補選択
を行う。たとえば、文法的に接続可能で、見出し語長が
最長のものという戦略で候補選択を行うことが可能であ
る。もしそのような形態素候補が存在すれば、候補選択
がなされたか否かを判別するステップ12でYesの判
別結果が得られるので、確定処理ステップ17に進む。
存在しなければ、ステップ13へ進み、このステンプ1
3において、今度は基本辞書格納手段3の情報を用いる
ことにより形態素の候補選択を行う。選択戦略はステッ
プ11と同様で良い。もしそのような形態素候補が存在
すれば、候補選択がなされたか否かを判別するステップ
14でYesの判別結果が得られるので、ステップ14
を経て確定処理ステップ17に進むことになる。
ここで、たとえば「・・・・・・は、並列情報処理技術
である。」という文を入力した場合を例に採って説明す
るに、通常、第2図(blの基本辞書格納手段3のみを
用いて、形態素解析(たとえば最長−成性による形態素
解析)を行うと、・キーワードとしては、「並列情報」
と「処理技術」が選ばれる。
これに対して、第2図(a)、 (b)にあるような利
用者辞書格納手段2及び基本辞書格納手段3を用いると
、利用者辞書格納手段2が優先的に処理されるので、キ
ーワードとしては、「情報処理」が採用される。このよ
うに、最長−成性のような形態素解析戦略に先立って、
利用者辞書格納手段2を用いた処理が優先的に行われる
ので、利用者ないしは資料の該当分野を考慮したキーワ
ード抽出処理が行われる。
さて、ステップ13において、もし、そのような形態素
候補が存在せず、かつバンクトランクが可能ならば、ス
テップ14からバックトラック可能か否かを判別するス
テップ15へ進んだとき、Yesの判別結果が出るので
、次善の形態素候補を選択するためにステップ11に戻
り処理を再実行する。
また逆に、辞書内容を用いても全く形態素候補が抽出さ
れず、しかもバックトラックが行われないならば、当該
入力文字列中に未登録語があったものとみなし、ステッ
プ15からステップ16へ進み、このステップ16にお
いて、未登録語区間の推定を行う。この推定は、字種情
報や文節認定情報、特殊記号等の情報を用いて推定可能
である。この後、ステップ18において、文の終りか否
かの認定を行う。これは、たとえば読点の情報を用いる
と認定可能である。
また、確定処理ステップ17においては、不属語等の情
報を用いて、文節と認定された場合には、抽出された形
態素列が正しいものとみなし、わかち書きの確定を行う
。確定された形態素列に対応する文字列に対しては、バ
ックトラックを行わない。この後、ステップ18に進み
、文の終りか否かの認定を行う。もし、文の終りでなけ
れば、ステップ11に戻り、次の文字列に対して同様の
処理を行う。また、文の終りと認定された場合には、入
力文字列に対して、わかち書きの処理が完了したことに
なる。そこで次に、ステップ19に進み、自立語(たと
えば、名詞、す変動詞、語幹、形容動詞語幹など)の選
択を、接続情報等の文法情報を用いて行う。未登録語に
対しては、その品詞はわからないが、大部分が固有名詞
と想定されるため、自立語とみなして、選択することに
する。そして、ステップ20において、形態素の属性で
ある不要語マーカを用いて不要語除去を行う。この際に
も未登録語についてはわからないが、一応、重要語とみ
なしステップ20を通過させる。このような方式で処理
すると、わかち書きと不要語除去を行うための辞書引き
マツチングが1回ですみ、処理高速化がはかられる。す
なわち、従来の不要語除去方式によるキーワード自動抽
出処理では、前出の例を用いて説明すると、まずキーワ
ード候補として「並列」、「情報処理」、「技術」と選
択され、しかる後に、不要語辞書とマツチング処理を行
い、該当しなかった「情報処理」の候補のみが、認定さ
れるという2段階の操作により行われる。これに対して
、本方式では、辞書引き操作は一括して行われ、不要語
除去処理も形態素解析内で不要語マーカを用いて実施さ
れるので、辞書アクセスの高速化、効率化がはかられる
以上のような手順で、形態素解析手段4を実施すること
が可能である。
また、第1図において、統計処理手段5は、利用者辞書
の内容を更新するための辞書更新手段6の前処理として
用いる。ここでは、たとえば、キーワード候補の出現頻
度を求めることにより、キーワード候補のランキングを
行い、識別力の高いキーワードを選別するための情報を
生成する。辞書更新手段6は、ランキングされたキーワ
ード候補を見ながら、対話的に、利用者辞書格納手段2
に入れるための必要情報(見出し語、キーワード/不要
語の別)、及び当時点のキーワードを指定する手段であ
る。通常、ディスプレイと、キーボード/マウスにより
構成される。また、特に利用者辞書格納手段2を更新す
る必要がなかったり、統計処理手段5からのキーワード
候補を全てキーワードと認定する場合には、この手段は
必要ない。
出力手段7は、最終的に認定されたキーワードを出力す
る手段である。出力の態様については、ディスプレイに
表示したり、出力ファイルに格納することにより実現さ
れる。
〔発明の効果〕
以上説明したように、本発明によれば、電子化文書中か
らキーワードを自動的に抽出する際に、利用者ないしは
特定の分野に即したキーワードが自動的に抽出される。
また、形態素解析処理内で不要語除去処理を実施できる
ので、辞書アクセスの高速化、効率化がはかられる。さ
らに利用者は、キーワード抽出精度維持のために、必要
最小限の指定を行うだけでよ(、辞書メンテナンスが容
易である。
【図面の簡単な説明】
第1図は本発明のキーワード自動抽出方式の一実施例を
示す機能的なブロック図、 第2図(a)、 (blは本発明の方式により格納した
辞書構成の一具体例を示す図、 第3図は本実施例の形態素解析手段の詳細な手順の一例
を示す流れ図である。 l・・・入力手段 2・・・利用者辞書格納手段 3・・・基本辞書格納手段 4・・・形態素解析手段 5・・・統計処理手段 6・・・辞書更新手段 7・・・出力手段 代理人弁理士   岩  佐  義  幸(a)   
        (b) 第2図

Claims (2)

    【特許請求の範囲】
  1. (1)文章中の文字列からキーワードを自動的に抽出す
    るキーワード自動抽出方式において、文字列を入力する
    入力手段と、 利用者固有のキーワード候補並びに不要語情報を格納し
    た利用者辞書格納手段と、 利用者に依存しない見出し語並びに不要語情報を格納し
    た基本辞書格納手段と、 前記利用者辞書格納手段並びに基本辞書格納手段に格納
    されている情報を用いて解析を行う手段であって、前記
    利用者辞書格納手段を用いた処理を優先的に行う形態素
    解析手段と、 この形態素解析手段により得られたキーワード候補を優
    先度順にランキングする統計処理手段と、キーワードを
    出力する出力手段とを有することを特徴とするキーワー
    ド自動抽出方式。
  2. (2)特許請求の範囲第1項に記載のキーワード自動抽
    出方式において、 前記利用者辞書格納手段は、格納されている情報が辞書
    更新手段によって更新されることを特徴とするキーワー
    ド自動抽出方式。
JP62061181A 1987-03-18 1987-03-18 キ−ワ−ド自動抽出方式 Pending JPS63228326A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62061181A JPS63228326A (ja) 1987-03-18 1987-03-18 キ−ワ−ド自動抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62061181A JPS63228326A (ja) 1987-03-18 1987-03-18 キ−ワ−ド自動抽出方式

Publications (1)

Publication Number Publication Date
JPS63228326A true JPS63228326A (ja) 1988-09-22

Family

ID=13163733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62061181A Pending JPS63228326A (ja) 1987-03-18 1987-03-18 キ−ワ−ド自動抽出方式

Country Status (1)

Country Link
JP (1) JPS63228326A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0364179A2 (en) * 1988-10-11 1990-04-18 NeXT COMPUTER, INC. Method and apparatus for extracting keywords from text
JPH04243477A (ja) * 1991-01-17 1992-08-31 Dainippon Printing Co Ltd 自然言語処理システムによる索引語抽出方法
JPH04281564A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置及び文書検索方法
JPH0736917A (ja) * 1993-06-29 1995-02-07 Nec Corp キーワード自動抽出装置
JPH0954777A (ja) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd 情報検索装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262924A (ja) * 1985-05-17 1986-11-20 Canon Inc 電子フアイル装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262924A (ja) * 1985-05-17 1986-11-20 Canon Inc 電子フアイル装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0364179A2 (en) * 1988-10-11 1990-04-18 NeXT COMPUTER, INC. Method and apparatus for extracting keywords from text
JPH04243477A (ja) * 1991-01-17 1992-08-31 Dainippon Printing Co Ltd 自然言語処理システムによる索引語抽出方法
JPH04281564A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置及び文書検索方法
JPH0736917A (ja) * 1993-06-29 1995-02-07 Nec Corp キーワード自動抽出装置
JPH0954777A (ja) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd 情報検索装置

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5109509A (en) System for processing natural language including identifying grammatical rule and semantic concept of an undefined word
US5579224A (en) Dictionary creation supporting system
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JPH0424869A (ja) 文書処理システム
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH09198395A (ja) 文書検索装置
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
JPS63228326A (ja) キ−ワ−ド自動抽出方式
KR100504632B1 (ko) 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법
JPH0877196A (ja) 文書情報抽出装置
Souter et al. Using Parsed Corpora: A review of current practice
JPH06195371A (ja) 未登録語獲得方式
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JPH0950435A (ja) 翻訳装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
Khalfallah et al. Had, a platform to create a historical dictionary
JP3508312B2 (ja) キーワード抽出装置
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs