JPS63136224A - キ−ワ−ド自動抽出装置 - Google Patents

キ−ワ−ド自動抽出装置

Info

Publication number
JPS63136224A
JPS63136224A JP61282150A JP28215086A JPS63136224A JP S63136224 A JPS63136224 A JP S63136224A JP 61282150 A JP61282150 A JP 61282150A JP 28215086 A JP28215086 A JP 28215086A JP S63136224 A JPS63136224 A JP S63136224A
Authority
JP
Japan
Prior art keywords
word
words
keyword
dictionary
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61282150A
Other languages
English (en)
Other versions
JPH07111717B2 (ja
Inventor
Haruo Kimoto
木本 晴夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61282150A priority Critical patent/JPH07111717B2/ja
Publication of JPS63136224A publication Critical patent/JPS63136224A/ja
Publication of JPH07111717B2 publication Critical patent/JPH07111717B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、日本文データベースの検索のために日本文に
付与されるキーワードを当該日本文から自動的に抽出す
る装置に関するものである。
(従来の技術) 従来の技術は、 キーワード抽出対象日本文の分かち書きを、漢字、ひら
がな等の字種の変わり目、あるいは。
「、」「。」等の区ぎり信号に着目して行い、さらに分
かち書き用の辞書を用いて語を品詞単位に分割し、 次に、接頭語、接尾語を登録した辞書との照合により、
分かち書きされた語から接頭語、接尾語を取り去り。
次に、複合語の分割を、最小単位の単語を登録したい辞
書を利用して、例えばr情報検索」を「情報」と「検索
」のように分割し、 次に、数字の単位語を登録した単位語辞書、並びに「昨
日」、「傾向」、「いま」のような不要語あるいはスト
ップワードなどと称するひらがな列・漢字列の語であっ
て一般的でキーワードとはならない語を登録した不要語
辞書を作成しておき、これらの辞書と分かち書きされた
語との照合を行い、数字の単位語、並びに不要語を取り
除き、あわせて数字も取り除き、残った語の中で名詞を
キーワードとし。
これに続いて、予めキーワードとするものを登録した辞
書との照合によりキーワードを選択することも可能とす
る方法がある。
しかし、この方法は抽出されたキーワードの意味の幅広
さ、不明確さについてなんらの処理もしていない構成で
あったため、例えば「政治」、「経済」、「社会」のよ
うに、当該日本文が表わしてしる意味内容に対して、意
味が広すぎる語や、示す内容が明確でない語までもキー
ワードとされ、その結果、200〜300文字の日本文
に対して、インデクサと呼ばれるキーワード付けの専門
家が付けるキーワードの数は通常5〜6個であるのに対
して。
従来技術によると、20個以上ものキーワードがつけら
れることになり、このため日本文データベースをキーワ
ード検索する際に多数の不必要な日本文がキーワード検
索に適合するとか、データベースの中に不必要なキーワ
ードのために記憶スペースを確保しなければならないと
いう欠点を有していた。
(発明の目的) 従来技術では自動的に日本文からキーワードを抽出する
際に多数の不適切なキーワードも抽出しているが、本発
明の目的は、キーワードを抽出するとともに抽出された
キーワードの中でキーワードとして不適切なものを削除
して、その結果、日本文データベースのキーワードによ
る検索を効率的に行うとともにデータベース中における
キーワードの記憶のための容量を大幅に軽減することを
可能にするキーワード自動抽出装置を堤供することにあ
る。
(発明の構成) この目的を達成するために、本発明では、従来の技術に
加えて、最下位語選択部、見出し中の語・段落頭の語復
活部、シソーラスを備え。
最下位語選択部では、語の上位、下位関係等を示すシソ
ーラスにおいて下位語を持つ語、例えば「政治」、「経
済」、「社会」等の語を中上位記と称し、この中上位記
は通常複数の下位語をもっていて、意味的にも幅が広く
、具体的に示すものが不明確なため、この語をキーワー
ドにして日本文データベースをキーワード検索する膨大
な数の日本文が適合してしまうので、この中上位記は日
本文データベースを検索するための語としては適切な語
ではないとしてキーワードとして採用せず、かたや、下
位語を持たない語を最下位語と称し、これは明確な概念
を示す語でありこの最下位語をキーワードとすることに
よって、不要なキーワードを除去し。
見出し中の語・段落頭の語復活部では最下位語選択部で
削除された語の中でキーワード抽出対象日本文の見出し
中にある語、段落の最初の語を検出してこれらは日本文
の構造上で特に強調されているか、又は重要な語である
ので再キーワードとして復活させる。
ことを最も主要な特徴とする。
従来の技術とは、従来は不要語辞書として「昨日」、「
明日」、「傾向」のような一般的な語を登録した辞書を
用いてこれらの一般的な語を削除していたが、本発明で
はこの技術に加えて、シソーラスにおける語の上位、下
位関係、並びに日本文中における語の出現位置情報を利
用して、前記の一般的な記載外の不適切なキーワードを
も削除可能にした点が異なる。
(実施例) 第1図は本発明の基本構成例を示す図であり、1はキー
ボード、電算写植等の入力装置、2は入力装置1によっ
て読み込まれ、磁気記憶装置に文字コードの形式で記憶
されている入力された日本文データベース、 3は磁気記憶装置からの日本文を読み込む入力処理部、 4は読み込まれた日本文中から、「は」、rが」、「を
」等の名詞の後に続く助詞の直前の漢字カタカナ列を名
詞として抽出し、それらを抽出名詞テーブル5に登録す
る名詞抽出部、 5は名詞抽出処理の結果である抽出名詞テーブル、 6.7はそれぞれ接頭語辞書(助数詞を含む)。
接尾語辞書(助数詞も含む)、 8は抽出名詞テーブル5の中の個々の語に対して接頭語
辞書6、接尾語辞書7と照合を行って個々の語の中の接
頭語、接尾語、助数語を削除し、かつ個々の語の中の数
詞も削除して、抽出名詞テーブル5を更新する接辞・数
詞削除部、9は「昨日」「傾向」などの一般的な語でキ
ーワードにはならないものを登録した不要語辞書、10
は更新された抽出名詞テーブル5の中の個々の語に対し
て、不要語辞書9と照合を行って照合した不要語を削除
し、抽出名詞テーブル5を更新する不要語削除部、 11はシソーラスで、これはキーワードになり得る語を
登録し、さらにそれらの語の相互関係として、同義語、
上位語、下位語、関連語といった語関係を示したもの。
12は更新された抽出名詞テーブル5の中の個々の語に
対して、シソーラス】1と照合を行って照合した語をキ
ーワード候補とするシソーラス照合部、13はこのキー
ワード候補を登録したキーワード候補テーブル、 14はキーワード候補テーブル13中の個々の語に対し
て、シソーラスでの語と語の上下関係においてその語の
下位語が有るかどうかを判定し、下位語があれば最下位
語でないとしてキーワード候補テーブル13から削除す
る最下位語選択部、15は最下位語選択部14によって
キーワード候補テーブル13から削除された語の中で、
その語が入力日本文の見出し文の中にあるか、段落の第
一番目の語であればキーワード候補として再度、キーワ
ード候補テーブル13に登録する見出し中の語・段落頭
の詰腹活部、 16は特に重要な語であるとしてキーワードとしたい固
有基、地名等を登録した重要語辞書。
17は更新された抽出名詞テーブル5の中の個々の語に
対して1重要語辞書16ど照合を行って照合した語をキ
ーワード候補とし、キーワード候補テーブル13に登録
する重要語辞書照合部、18はキーワード候補テーブル
13に登録されている語をキーワードと確定して磁気記
憶装置、印字装置へ出力する結果出力部、 19は磁気記憶装置に出力された結果ファイル、20は
印字装置に出力された結果プリントである。
第2図は本発明の動作例を示す図である。
21は入力処理部3によって読み込まれたキーワード抽
出対象の日本文の一部、 22は名詞抽出部4によって作成された抽出名詞テーブ
ル5の中の語、 23は接辞・数詞削除部8によって接辞・数詞が削除さ
れた抽出名詞テーブル5の中の語、24は不要語削除部
10によって不要語が削除された抽出名詞テーブル5の
中の語、 25は、更新された抽出名詞テーブル5の中の語でシソ
ーラス照合部12の処理によってシソーラスと照合した
語を登録したキーワード候補テーブル13の中の語、 26はシソーラス最下位語選択部14の処理によって最
下位語以外の語、つまり中上位語が削除されたキーワー
ド候補テーブル】3の一一部、27はキーワード候補テ
ーブル13から削除された語の中で、見出し中の語・段
落頭の語を見出し中の語・段落頭の詰腹活部15の処理
によって復活させたキーワード候補テーブル13の中の
語である。
次に、本実施例の動作を説明する。
まずキーワード抽出の対象となる日本文がキーボード、
電算写植等の入力装置1から読み込まれ。
磁気記憶装置に記録され日本文データベース2となる。
この日本文データベース2からキーワード抽出対象日本
文が入力処理部3によって、名詞抽出部4に入力され、
ここで処理対象日本文中から。
「は」、「が」、「を」等の名詞の後に続く助詞の直前
の漢字カタカナ列が名詞として抽出され、それらが抽出
名詞テーブル5に登録される。22はこの登録された語
の一例である。
次の動作として、接辞・数詞削除部8がこの抽出名詞テ
ーブル5に登録されている語に対して接頭語辞書(助数
詞も含む)6、接尾語辞書(助数詞も含む)7、と照合
を行って個々の語の中の接頭語、接尾語、助数詞を削除
し、かつ個々の語の中の数詞も削除し、抽出名詞テーブ
ル5を更新する。
23はこの削除後の語の一例である。
次の動作として不要語削除部10が更新された抽出名詞
テーブル5の中の個々の語に対して、不要語辞書9と照
合を行って照合した「調査」、「昨日」、「傾向」など
の一般的な語でキーワードにならない不要語を削除し、
抽出名詞テーブル5を更新する。
24はこの不要語の削除後の語の一例である。
次の動作としてシソーラス照合部12が更新された抽出
名詞テーブル5の中の個々の語に対して、シソーラス1
1と照合を行って照合した語をキーワード候補としキー
ワード候補テーブル13に登録する。25はこのW8さ
れた語の一例である。
シソーラス11はキーワードになり得る語を登録し、さ
らにそれらの語の相互の関係として、同義語、上位後、
下位語、関連語といった語関係を示したものである。
次の動作として最下位語選択部14がキーワード候補テ
ーブル13の中の個々の語に対して、シソーラス11で
の語と語の上下関係においてその語の下位語が有るかど
うかを判定し、下位語があれば最下位語でないとしてキ
ーワード候補テーブル13がら削除する。
次の動作として見出し中の語・段落頭の詰腹活部15が
最下位語選択部14によってキーワード候補テーブル1
3から削除された語の中で、その語が入力日本文の、見
出し中にあるか9段落の第一番目の語であればキーワー
ド候補として再度、キーワード候補テーブル13に登録
する。、27はこの再登録された語の一例である。
次の動作として重要語辞書照合部17が更新された抽出
名詞テーブル5の中の個々の語に対して、特に重要な語
であるとしてキーワードとする固有名、地名等を登録し
た重要語辞書16と照合を行って照合した語をキーワー
ド候補とし、キーワード候補テーブル13に加える。
次に動作として結果出力部18がキーワード候補テーブ
ル13に登録されている語をキーワードと確定して磁気
記憶装置上に結果ファイル19、印字装置へ結果プリン
ト20を出力する。
このような構成および動作となっているので従来の技術
に比べて一般的でキーワードとならない語だけでなく、
キーワード抽出対象日本文に対して、意味的な幅が広す
ぎたり、具体的に指示するものが不明確な語を、キーワ
ードとしては不適切な語として削除することができ1日
本文につけられるキーワードの数を172以下にでき、
その結果、日本文データベースのキーワードによる検索
を効率的にし、またデータベース中のキーワードのため
の記憶容量も172以下にできた。
(発明の効果) 以上説明したように、本発明のキーワード自動抽出装置
は、従来の技術に加えてシソーラス最下位語選択部、見
出し中の語・段落頭の詰腹活部、シソーラスを備え。
最下位語選択部では、シソーラスにおいて語をその語が
下位語を持つかどうかによって、中上位語と最下位語と
に分け、それらの語の意味の幅広さ、あい味性に着目し
、中上位語は意味的にも幅が広く、具体的に指示するも
のが不明確なため。
日本文データベースを検索するための語としては適切な
語ではないとしてキーワードとして採用せず、がたや、
最下位語は明確な概念を示す語であり、この最下位語を
キーワードとすることによって不要なキーワードを除去
し、 さらに、見出し中の語・段落頭の詰腹活部では、最下位
語選択部で削除された語が、日本文の見出し・段落頭に
位置していれば、これらの語は日本文の構造上から特に
強調されているが、又は重要な語であるとして再度キー
ワードとして復活させることとしたものであるから、 従来技術では、例えば、200〜300文字の日本文に
対して、「政治」、「経済」、「文化」のような意味の
幅の広すぎる語も装置によって無条件にキーワードとさ
れ、20個以上ものキーワードがつけられていたが、本
装置ではその半分の10個以下にまで絞り込むことがで
き、 その結果1日本文データベースのキーワードによる検索
を効率的に行うとともにデータベース中におけるキーワ
ードの記憶のための容量を大幅に軽減する利点がある。
【図面の簡単な説明】
第1図は本発明装置の基本構成例を示す図、第2図は本
発明装置の動作例を示す図である。 1 ・・・入力装置、2・・・ 日本文データベース、
3 ・・・入力処理部、4 ・・・名詞抽出部、5 ・
・・抽出名詞テーブル、6 ・・・接頭語辞書、7・・
・接尾語辞書、8・・・接辞・数詞削除部、9 ・・・
不要語辞書、10・・・不要語削除部、11・・・シソ
ーラス、12・・・シソーラス照合部、13・・・ キ
ーワード候補テーブル、14・・・シソーラス最下位語
選択部、15・・・見出し中の語・段落頭の詰腹活部、
16・・・重要語辞書、17・・・重要語辞書照合部、
18・・・結果出力部、19・・・結果ファイル、20
・・・結果プリント、 21・・・キーワード抽出対象の日本文の一部、22・
・・抽出名詞テーブル5の中の語、23・・・接辞・数
詞が削除された抽出名詞テーブル5の中の語、 24・・・不要語が削除された抽出名詞テーブル5の中
の語、 25・・・シソーラスと照合した語を登録したキーワー
ド候補テーブル13の中の語、 26・・・最下位語以外の語が削除されたキーワード候
補テーブル13の中の語、 27・・・見出し中の語・段落頭の語を復活させたキー
ワード候補テーブル13の中の語。 漬2図

Claims (1)

  1. 【特許請求の範囲】 文書入力装置によって読み込まれ磁気記憶装置に記憶さ
    れている日本文データベースから入力処理部によって日
    本文を読み込み、読み込まれた日本文中から、「は」、
    「が」、「を」等の名詞の後に続く助詞の直前の漢字カ
    タカナ列を名詞として抽出し、それらを抽出名詞テーブ
    ルに登録する名詞抽出部と、 接頭語辞書(助数詞を含む)、接尾語辞書(助数詞も含
    む)と、 抽出名詞テーブルの中の個々の語に対して接頭語辞書、
    接尾語辞書と照合を行って個々の語の中の接頭語、接尾
    語、助数詞を削除し、かつ個々の語の中の数詞も削除し
    、抽出名詞テーブルを更新する接辞・数詞削除部と、 「昨日」、「傾向」などの一般的な語でキーワードには
    ならないものを登録した不要語辞書と、抽出名詞テーブ
    ルの語に対して、不要語辞書と照合を行って照合した不
    要語を削除し、抽出名詞テーブルを更新する不要語削除
    部と、 キーワードになり得る語を登録し、さらにそれらの語の
    相互関係として、同義語、上位語、下位語、関連語とい
    った語関係を示したシソーラスと、更新された抽出名詞
    テーブルの中の個々の語に対して、シソーラスと照合を
    行って照合した語をキーワード候補テーブルに登録する
    シソーラス照合部と、 キーワード候補テーブル中の個々の語に対して、シソー
    ラスでの語と語の上下関係においてその語の下位語が有
    るかどうかを判定し、下位語があれば最下位語でないと
    してキーワード候補テーブルから削除する最下位語選択
    部と、 最下位語選択によってキーワード候補テーブルから削除
    された語で、その語が入力日本文の、見出し文の中にあ
    るか、段落の第一番目の語であればキーワード候補とし
    て再度、キーワード候補テーブルに登録する見出し中の
    語・段落頭の語復活部と、 特に重要な語であるとしてキーワードとしたい固有名、
    地名等を登録した重要語辞書と、 更新された抽出名詞テーブルの中の個々の語に対して、
    重要語辞書と照合を行って照合した語をキーワード候補
    とし、キーワード候補テーブルに登録する重要語辞書照
    合部と、 キーワード候補テーブルに登録されている語をキーワー
    ドと確定して磁気記憶装置、印字装置へ出力する結果出
    力部とを有するキーワード自動抽出装置であって、 キーワード抽出対象日本文から名詞を抽出し、その名詞
    から接頭語辞書、接尾語辞書を利用して接頭語、接尾語
    、数詞を削除し、さらに不要語辞書を利用して不要語を
    削除し、残った名詞とシソーラスとを照合してキーワー
    ド候補を抽出し、そのキーワード候補の中でシソーラス
    において下位語があるものをキーワード候補から削除し
    た後、キーワード候補から削除された語の中でキーワー
    ド抽出対象日本文の中で見出し、または段落の最初にあ
    る語を再度キーワード候補として登録し、かつ特にキー
    ワードとしたい語を重要語としてキーワード候補に加え
    、この最終結果をキーワードとすることを特徴とするキ
    ーワード自動抽出装置。
JP61282150A 1986-11-28 1986-11-28 キ−ワ−ド自動抽出装置 Expired - Fee Related JPH07111717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61282150A JPH07111717B2 (ja) 1986-11-28 1986-11-28 キ−ワ−ド自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61282150A JPH07111717B2 (ja) 1986-11-28 1986-11-28 キ−ワ−ド自動抽出装置

Publications (2)

Publication Number Publication Date
JPS63136224A true JPS63136224A (ja) 1988-06-08
JPH07111717B2 JPH07111717B2 (ja) 1995-11-29

Family

ID=17648752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61282150A Expired - Fee Related JPH07111717B2 (ja) 1986-11-28 1986-11-28 キ−ワ−ド自動抽出装置

Country Status (1)

Country Link
JP (1) JPH07111717B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137965A (en) * 1981-02-20 1982-08-25 Nippon Kagaku Gijutsu Joho Center Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary)
JPS57182279A (en) * 1981-05-02 1982-11-10 Canon Inc Character processor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137965A (en) * 1981-02-20 1982-08-25 Nippon Kagaku Gijutsu Joho Center Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary)
JPS57182279A (en) * 1981-05-02 1982-11-10 Canon Inc Character processor

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN110162782B (zh) * 2019-04-17 2022-04-01 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JPH07111717B2 (ja) 1995-11-29

Similar Documents

Publication Publication Date Title
Robertson et al. Applications of n‐grams in textual information systems
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH0724055B2 (ja) 単語分割処理方法
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH0740275B2 (ja) キーワード重要度自動評価装置
JP2572314B2 (ja) キーワード抽出装置
JPS63136224A (ja) キ−ワ−ド自動抽出装置
Robertson et al. Searching for historical word-forms in a database of 17th-century English text using spelling-correction methods
JPH08314947A (ja) キーワード自動抽出装置
Robertson et al. A comparison of spelling-correction methods for the identification of word forms in historical text databases
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
Roberts Help: a question answering system
JPS63192130A (ja) キ−ワ−ド自動抽出装置
JPS61248160A (ja) 文書情報登録方式
JPH03116375A (ja) 情報検索装置
JPH02253474A (ja) テキストベース検索方法
JPS6057421A (ja) 文書作成装置
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH01114976A (ja) 文書処理装置の辞書構造
JPH0954781A (ja) 文書検索システム
JPH03229367A (ja) テキストベース検索方式
JPH04330565A (ja) 自然言語処理システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees