JPS63133228A - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JPS63133228A
JPS63133228A JP61282405A JP28240586A JPS63133228A JP S63133228 A JPS63133228 A JP S63133228A JP 61282405 A JP61282405 A JP 61282405A JP 28240586 A JP28240586 A JP 28240586A JP S63133228 A JPS63133228 A JP S63133228A
Authority
JP
Japan
Prior art keywords
dictionary
keyword
word
key word
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61282405A
Other languages
English (en)
Other versions
JPH0750487B2 (ja
Inventor
Akiko Nakajima
中嶋 章子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61282405A priority Critical patent/JPH0750487B2/ja
Publication of JPS63133228A publication Critical patent/JPS63133228A/ja
Publication of JPH0750487B2 publication Critical patent/JPH0750487B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文章情報処理に用いられる情報抽出装置に関
するものである。
従来の技術 近年、日本語文章中のキーワードから要旨を得ようとす
る研究が進められている。的確な要旨を得るためには、
最適なキーワードを取り出すことか重要なポイントとな
る0日本語は欧米の言語のように単語をスペースなどで
区切って表記する言語と違って、文字がべた書きされて
いる。最適なキーワードを取り出すには、まず入力され
た日本語文を単語に分割することが必要である。ところ
で、日本語には字種が多く、字種にはある情報が含まれ
ている0通常、日本語文では助詞、助動詞等は平板名書
きし、自立語の先頭は平板名以外の文字で書かれること
が多い、よって、キーワードとなる単語を見つけるには
平仮名から平板名以外の字種の文字へ変わるところを指
標とすることが゛多い、以下、平板名以外の字種の文字
を「カンノ」と表現することにする。
以下図面を参照しながら、従来の情報抽出装置の一例に
ついて説明する。
第5図は従来の情報抽出装置の構成図を示すものである
。第5図において、4は入力文字列から単語を抽出する
単語抽出部、5は単語に対応する情報を持つ単語辞書、
6は単語抽出部4で取り出した単語をキーワードとして
単語辞書5を検索する単語辞書検索部である。第6図は
単語辞書5の内部の一部を示したものである。
以上のように構成された情報抽出装置について、以下そ
の動作を例をあげて説明する。
日本語文字列、たとえば「この間増りはあまり感心しな
い」という文章が入力されたとする。この文字列から単
語を見つけるには、単語抽出部4において、前述したよ
うに平板名から「カンノ」へ字種が変わるところである
「間」と「感」の位置にそれぞれ印をつけ、印から次の
印までの文字列、「この」、「間取りはあまり」、「感
心しない」、を取り出す。次に単語辞書検索部6は、単
語抽出部4で取り出した文字列で単語辞書5を検索する
。検索した文字列が単語辞書5に存在しなかった場合は
文字列の最後の一文字を削除した新しい文字列で再び単
語辞書5を検索する。このようにして、「間取り」とい
うキーワードおよびそのキーワードに対する情報を得る
ことができる。
(たとえば、「日経エレクトロニクス」第324号19
9〜215ページ) 発明が解決しようとする問題点 しかしながら、上記のような構成では、−単語中に「平
板名−〉カンノ」の部分を持つような単語を含む文字列
、たとえば「聞き取りの試験がある」という文字列、あ
るいは「妹とあや取りをする」という文字列、を入力し
たとすると、希望するキーワード「間き取り」、あるい
は「あや取り」を得ることができないこととなる。そし
て、希望するキーワードを得るためには、「平仮名−麺
カンジ」の部分を含む単語の辞書を例外辞書として設け
て、「平仮名−−−カンジ」の部分を含まない単語の辞
書とのマツチングの前に前述の例外辞書とのマツチング
を行なうという方法、あるいは単語抽出部4の過程を省
いて、入力文字列の先頭から末尾までを単語辞書検索部
6に渡すことで、単純に入力文字列の先頭からの最長一
致による単語辞書とのマツチングを行なうという方法を
とらなければならない、前者の方法であれば、常に二つ
の辞書とのマツチング過程が必要であるし、後者の方法
では、マツチング回数が膨大になるという問題点を有し
ていた。
本発明は上記問題点に鑑み、「平板名−)カンノ」の部
分を持つような単語を含む文字列を入力しても、例外辞
書を設けることなく、またマツチング回数を増やすこと
なく、希望するキーワードからの情報を得ることができ
る情報抽出装置を提供するものである。
問題点を解決するための手段 上記問題点を解決するために、本発明のすn報抽出装置
は、同一字種文字列の検索キーワードに対応して情報が
入っているキーワード辞書と、入力文字列から同一字種
文字列の検索キーワードを取り出す検索キーワード抽出
部と、検索キーワード抽出部で取り出したキーワードを
用いてキーワード辞書を検索するキーワード辞書検索部
という構成を備えたものである。
作用 本発明は、上記した構成によって、「平仮名−→カンジ
」の部分を持つような単語を含む文字列を入力しても、
例外辞書を設けることなく、またマツチング回数を増や
すことなく、希望するキーワードからの情報を得ること
ができることとなる。
実施例 以下、本発明の一実施例の情報抽出装置について、図面
を参照しながら説明する。
第1図は本発明の一実施例における情報抽出装置の構成
図を示すものである。第1図において、lは入力文字列
から同一字種文字列の検索キーワードを取り出す検索キ
ーワード抽出部、2は同一字種文字列の検索キーワード
に対応して情報が入っているキーワード辞書、3は検索
キーワード抽出部1で取り出したキーワードを用いてキ
ーワード辞書2を検索するキーワード辞書検索部である
以上のように構成された管報抽出装置について、以下第
1図、第2図、第3図および第4図を用いてその動作を
説明する。
まず第2図は、キーワード辞書2の同一字種文字列のキ
ーワードと単語情報の格納状態を示したものである。第
3図は第2図におけるキーワードと単語情報格納部とが
分離したものを示したものである。第4図は、入力され
た文字列から最適な情報を取り出すまでの過程を示した
ものである。
第1の実施例として、−単語中に「平仮名−〉カンノ」
の部分を持つような単語を含む文字列、たとえば「あや
取りをする」という文字列、を入力したとする。検索キ
ーワード抽出部1は、入力文字列中の「平仮名−→カン
ジ」の部分を捜しにいく。そして、該当する「取」を見
つけると、その位置に印をつける。次に、今、見つけた
文字より後ろで、その文字と異なる字種に初めて変わる
ところを捜しにいく、この例の場合では、「す」を見つ
けて、その位置に印をつける。そうして、前の印から次
の印までの文字列を取り出す、この例では”取”になる
、これが、検索キーワードとなる。キーワード辞書検索
部3は、この検索キーワード”取”をキーとして、キー
ワード辞書2を検索しにいく、そしてキーワードの中か
ら”取”を捜し出し、キーワード辞書から°取1をキー
ワードとする単語を全て取り出す、そして、その取り出
した全ての単語の中から、入力文字列におけるキーワー
ド”取”の前後に存在する文字列と一致する単語だけを
取り出す、その結果、「あや取り」という単語が取り出
されることとなる。
次に、第2の実施例として、「見聞を広めることは大切
である」という文字列、を入力したとする。第1の実施
例と同様に、検索キーワード抽出部1は、入力文字列中
の「平仮名−〉カンノ」の部分を捜しにいく、そして、
該当する「見」を見つけると、その位置に印をつける0
次に、今、見つけた文字より後ろで、その文字と異なる
字種に初めて変わるところを捜しにいく、この例の場合
″では、「を」を見つけて、その位置に印をつける。
そうして、前の印から次の印までの文字列を取り出す。
この例では1見聞”になる。これが、検索キーワードと
なる。キーワード辞書検索部3は、この検索キーワード
”見聞”をキーとして、キーワード辞書2を検索しにい
く、そしてキーワードの中から”見聞”を捜し出し、キ
ーワード辞書から”見聞″をキーワードとする単語を全
て取り出す、そして、その取り出した全ての単語の中か
ら、入力文字列におけるキーワード”見聞”の前後に存
在する文字列と一致する単語だけを取り出す。
その結果、「見聞」という単語だけが取り出され、「見
聞き」という単語は除かれることとなる。
以上のように本実施例によれば、同一字種文字列の検索
キーワードに対応して情報が入っているキーワード辞書
と、入力文字列から同一字種文字列の検索キーワードを
取り出す検索キーワード抽出部と、検索キーワード抽出
部で取り出したキーワードを用いてキーワード辞書を検
索するキーワード辞書検索部とを設けることにより、「
平仮名−〉カンノ」の部分を持つような単語を含む文字
列を入力しても、例外辞書を設けることなく、またマツ
チング回数を増やすことなく、希望するキーワードから
の情報を得ることができる。
なお、第1および第2の実施例において、キーワード辞
書2は第2図のように、キーワードと単語情報格納部と
が分離していないものを用いて説明したが、キーワード
辞書2は第3図のようにキーワードと単語情報格納部と
が分離したものでも良い、この場合、キーワードはイン
デクスのような働きをする。
発明の効果 以上のように本発明は、同一字種文字列の検索キーワー
ドに対応して情報が入っているキーワード辞書と、入力
文字列から同一字種文字列の検索キーワードを取り出す
検索キーワード抽出部と、検索キーワード抽出部で取り
出したキーワードを用いてキーワード辞書を検索するキ
ーワード辞書検索部とを設けることにより、「平仮名−
〉カンノ」の部分を持つような単語を含む文字列を入力
しても、例外辞書を設けることなく、またマツチング回
数を増やすことなく、希望するキーワードからの情報を
得ることができる情報抽出装置を提供することができる
【図面の簡単な説明】
第1図は本発明の一実施例における情報抽出装置の構成
図、第2図は第1図のキーワード辞書2のキーワードと
単語情報の格納状態を示した図、第3閏は第2図におけ
るキーワードと単語情報格納部とが分離したものを示し
た図、第4図は入力された文字列から最適な情報を取り
出すまでの過程を示した図、第5図は従来の情報抽出装
置の構成図、第6図は第5図の単語辞書5の内部の一部
を示した図である。 1・・・・・・検索キーワード抽出部、2・・・・・・
キーワード辞書、3・・・・・・キーワード辞書検索部
、4・・・・・・単語抽出部、5・・・・・・単語辞書
、6・・・・・・単語辞書検索部。 代理人の氏名 弁理士 中尾敏男 はか1名第1図 入力大亨判 田27tjl収 第211Xl 第3図 第4図 文字別 惰収

Claims (1)

    【特許請求の範囲】
  1. 同一字種文字列の検索キーワードに対応して情報が入っ
    ているキーワード辞書と、入力文字列から同一字種文字
    列の検索キーワードを取り出す検索キーワード抽出部と
    、前記検索キーワード抽出部で取り出したキーワードを
    用いて前記キーワード辞書を検索するキーワード辞書検
    索部とを備えたことを特徴とする情報抽出装置。
JP61282405A 1986-11-26 1986-11-26 情報抽出装置 Expired - Lifetime JPH0750487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61282405A JPH0750487B2 (ja) 1986-11-26 1986-11-26 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61282405A JPH0750487B2 (ja) 1986-11-26 1986-11-26 情報抽出装置

Publications (2)

Publication Number Publication Date
JPS63133228A true JPS63133228A (ja) 1988-06-06
JPH0750487B2 JPH0750487B2 (ja) 1995-05-31

Family

ID=17651980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61282405A Expired - Lifetime JPH0750487B2 (ja) 1986-11-26 1986-11-26 情報抽出装置

Country Status (1)

Country Link
JP (1) JPH0750487B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027710A (ja) * 2010-07-23 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> ソフトウェア検出方法及び装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027710A (ja) * 2010-07-23 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> ソフトウェア検出方法及び装置及びプログラム

Also Published As

Publication number Publication date
JPH0750487B2 (ja) 1995-05-31

Similar Documents

Publication Publication Date Title
US20100153396A1 (en) Name indexing for name matching systems
JP4502114B2 (ja) データベース検索装置
Attar et al. KEDMA—Linguistic tools for retrieval systems
JPS584424A (ja) 日本語入力装置
JPS63133228A (ja) 情報抽出装置
JPH1011431A (ja) 漢字検索装置および方法
JPS63228326A (ja) キ−ワ−ド自動抽出方式
Moghadam et al. A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
JP4136055B2 (ja) 類似文字列検索システムおよび記録媒体
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP2000311170A (ja) テキスト情報抽出方法
JPS62144269A (ja) 情報検索装置
JPH0950435A (ja) 翻訳装置
JPH01307865A (ja) 文字列検索方式
JPS595335A (ja) 日本語入力装置
JPH10105578A (ja) 点数を利用した類似単語検索方法
JPH03278176A (ja) 日本文固有用語抽出処理装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH04147363A (ja) 日本語入力装置
JPS62287338A (ja) 検索装置
JPH03208162A (ja) 入力装置
JPH04365166A (ja) 文章検査装置
JPS6395572A (ja) 日本語文形態素解析における未知語処理方法
JPH0264859A (ja) 文章処理装置
JPH0567146A (ja) データ編集装置