JPS63208167A - 自然語解析における未登録語の取り扱い方式 - Google Patents

自然語解析における未登録語の取り扱い方式

Info

Publication number
JPS63208167A
JPS63208167A JP62040246A JP4024687A JPS63208167A JP S63208167 A JPS63208167 A JP S63208167A JP 62040246 A JP62040246 A JP 62040246A JP 4024687 A JP4024687 A JP 4024687A JP S63208167 A JPS63208167 A JP S63208167A
Authority
JP
Japan
Prior art keywords
word
unregistered
speech
term dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62040246A
Other languages
English (en)
Inventor
Noriko Otaki
大滝 紀子
Yoshiaki Nagai
義明 永井
Hideki Chigira
千吉良 英毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62040246A priority Critical patent/JPS63208167A/ja
Publication of JPS63208167A publication Critical patent/JPS63208167A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は自然語解析方式に係り、特に未登録語を含む自
然語文を解析し、未登録語の用語辞書登録を行う場合に
好適な、自然語解析における未登録語の取り扱い方式に
関する。
〔従来の技術〕
従来、自然語解析における未登録語の取り扱いについて
は、情報処理学会第30回(昭和60年前期)全国大会
論文誌第1565頁から1566頁において論じられて
いる。
〔発明が解決しようとする問題点〕
上記従来技術は、自然語文解析において未登録語が出現
した場合に、重要でない語や、その場限りの固有名詞で
あっても、すべて、その未登録語が本当はどの品詞であ
るか、どのような意味を持つかを決定するために1前後
の語からの類推や。
対話処理を行うという問題があった。
本発明の目的は、解析時においては、未登録語という品
詞であると考えてそのまま解析を続け、同一の未登録語
が何度も使われた場合には、優先的に用語辞書登録を行
う方式を提供することにある。
〔問題点を解決するための手段〕
上記目的を達成するために、本発明は、自然語の解析時
に未登録語を検出し、未登録語を品詞の一つであるとし
て解析を行い、同一の未登録語の出現回数を計算し、出
現回数の多い未登録語から優先的に用語辞書に登録する
ことに特徴がある。
〔作用〕
本発明では、未イテ録語を検出する機能と、未登録語を
品詞の一つであるとして解析を行う機能と、未登録語の
出現回数を計算する機能と、解析時に未登録語が現われ
た場合、その語は未登録語という品詞であるとして解析
を続けながら、既に現われた未登録語であるか、初めて
現われた未登録語であるかを判断して検出し、出現回数
を数え、解析終了時に、出現回数の多い未登録語から優
先的に用語辞書に登録する機能とを有しているので、未
登録語が現われてもそのまま処理を続行することができ
、重要な未登録語だけをまとめて用語辞1g登t=t=
することができるので、誤動作することがない。
〔実施例〕
以下1本発明の一実施例を第1図〜第3図により説明す
る。
第2図は、本実施例を実現するためのシステム構成であ
る。
第2図において、2−1はディスプレイとキーボードよ
りなるビデオデータターミナル、2−2は計算機処理装
置、2−3は用語辞書データベース、2−4は自然語解
析処理制御部、2−5は自然語入力部、2−6は用語辞
書参照部、2−7は単語分割部、2−8は接続チェック
部、2−9は未登録語検出部、2−10は用語辞書追加
登録部である。
次に、第1図により、本実施例の処理手順を説明する。
第1図は1本実施例の動作の流れを示すフローチャート
である。
まず、ステップ1−1で、自然語入力部2−5により自
然語文を人力する。そして、ステップ1−2で文末にな
るまで、ステップ1−3からステップ1−10の処理を
繰り返す。
文末でないときは、ステップ1−3で、単語分割部2−
7により文頭から一単語を切り出す。そして、ステップ
1−4で用語辞書参照部2−6により、切り出された一
嘔語の用語辞書の参照を行う。
ステップ1−5で用語辞書に存在するかどうかの判定を
行い、存在すればステップ1−9で、接続チェック部2
−8により、品詞の接続チェックを行う。そして、ステ
ップ1−8で一単語分の解析情報を作成する。
ステップ1−5で、用語辞書に存在しないと判定された
場合は、ステップ1−6で、既に現われたことのある未
Qki語か、初めて出現した未登録語かを判定する。
初めて出現した未登録語であれば、ステップ1−7で未
登録語情報を格納した未登録語テーブルを作成する。未
<T、 t9語テーブルのフォーマットは第3図の通り
である。
第3図は、ABCという文字列の未Wf−’8語が、「
〈形容詞)+ABC+<助詞〉」という形で使われた場
合の未登録語テーブルである。第3図において1文字列
は解析において未登録語となった文字列、出現回数はそ
の未登録語が解析中に何度出現したかをカウントしたも
の、前の語との接続情報はどのような品詞の後に出現し
たか、後の語との接続情報はどのような品詞の前に出現
したか、をそれぞれ格納しておく。前の単語の品詞はス
テップ1−8で作成する解析情報から得られるが。
後の用語の品詞は、この時点では分からない。そこで、
ステップ1−8で一単語分の解析情報を作成する時に、
前の語の品詞が未登録語となっていれば、その未登録語
の接続情報に、自分の品詞を付は加えることとする。
既に現われている未登録語であれば、ステップ1−10
で、出現回数を1増やし、未登録語テーブルの接続情報
部分の更新を行う。接続情報の更新方法は、その未登録
語の前後のtli語の品詞を未登録語テーブルの接続情
報部に追加する。ということである。
ステップ1−7.ステップ1−10の処理のあとは、用
語辞書にあった場合と同様に、ステップ1−8で一単語
分の解析情報を作成する。
以上の処理を文末まで行うと、最後に、ステップ1−1
1で、出現した未登録語の一覧を出現頻度順に表示する
。このとき、接続情報から、品詞を類推し、候補として
一緒に表示する。そして、ステップ1−12で、用語l
I;?書に追加登録する!n語とその品詞とを選択し、
必要な情報を追加して。
用語辞書追加登録部2−10で用語辞書に登録する。
品詞の類推は1前後の単語の品詞のパターンにより、そ
れらの品詞と接続可能な品詞の候補を挙げるものとする
また、解析途中で、既に出現した未登録語の部分列にあ
たる未Kltrl=語が現れた場合は、先に作成した未
(28語のテーブルを二つに分け、別々の未登録語とし
てテーブルを作成し直す。この場合。
出現頻度は、前の未登録語の回数を各々が受は継ぎ、接
続情報は、二つに分けた前半の語が前の語との接続情報
を、後半の語が後の語との接続情報を受は継ぐこととす
る。
さらに、接続情報の中では、「未登録語」も品詞名とし
て扱う。つまり、未S!、8語に接続していた未登録語
の接続情報には、「未登録語」が含まれる。このときに
より、接続チェック部2−8により接続チェックにおい
ても、未登録語が表われても、そのまま解析を続けるこ
とができる。
以上のように1本実施例によれば未登録語は未登録語と
いう品詞であるとして解析を進め、最後にまとめて未登
録語の評価・追加登録を行える。
〔発明の効果〕
本発明によれば、自然語解析時に、未イ2録語が現われ
ても、そこで未登録語処理に移って対話処理を行うので
はなく、未登録語は未登録語のままで解析を続けること
により対話処理の手間が省け、解析の効率が向上し、ま
た、解析終了時に、どのような未登録語がどのような頻
度で出現したかを計算し、頻度の高いものから優先的に
用語辞書登録を行えるので、その場かぎりの未登録語や
、特殊な固有名詞などは用語辞書に反映しなくても良く
なり、用語辞書の性能が向上する。
【図面の簡単な説明】
第1図は、本発明の一実施例の動作の流れを示すフロー
チャート、第2図は、本発明の一実施例を実現するため
のシステム構成図、第3図は、本発明に基づく未登録語
テーブルのフォーマットである。 2−1・・・ディスプレイとキーボードよりなるビデオ
データターミナル、2−2・・・計算機処理装置、2−
3・・・用語辞書データベース、2−4・・・自然語解
析処理制御部、2−5;・・自然語入力部、2−6・・
・用語辞書参照部、2−7・・・単語分割部、2−8・
・・接続チェック部、2−9・・・未登録語検出部、2
第  l  国

Claims (1)

    【特許請求の範囲】
  1. 1、自然語入力部と、用語辞書参照部は、単語分割部と
    、品詞接続チェック部とより成る、自然語解析方式にお
    いて、未登録語を検出し、未登録語を品詞の一つである
    として解析を行い、未登録語の出現回数を計算し、未登
    録語が出現した場合にも、すぐに対話で問合せを行うの
    ではなく、未登録語を品詞と考えてそのまま解析を続行
    し、同じ未登録語が複数回使われたものについては、そ
    の出現回数を計算して、使用頻度の高いものから優先的
    に、用語辞書に登録することを特徴とする自然語解析に
    おける未登録語の取り扱い方式。
JP62040246A 1987-02-25 1987-02-25 自然語解析における未登録語の取り扱い方式 Pending JPS63208167A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62040246A JPS63208167A (ja) 1987-02-25 1987-02-25 自然語解析における未登録語の取り扱い方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62040246A JPS63208167A (ja) 1987-02-25 1987-02-25 自然語解析における未登録語の取り扱い方式

Publications (1)

Publication Number Publication Date
JPS63208167A true JPS63208167A (ja) 1988-08-29

Family

ID=12575346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62040246A Pending JPS63208167A (ja) 1987-02-25 1987-02-25 自然語解析における未登録語の取り扱い方式

Country Status (1)

Country Link
JP (1) JPS63208167A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03244076A (ja) * 1990-02-21 1991-10-30 Nec Corp 自然言語解析装置
JP2011123422A (ja) * 2009-12-14 2011-06-23 Asutemu:Kk 手話映像生成装置、手話映像出力装置、手話映像生成方法、及びプログラム
JP2013257719A (ja) * 2012-06-12 2013-12-26 Ricoh Co Ltd 議事録作成支援装置及び議事録作成支援システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03244076A (ja) * 1990-02-21 1991-10-30 Nec Corp 自然言語解析装置
JP2011123422A (ja) * 2009-12-14 2011-06-23 Asutemu:Kk 手話映像生成装置、手話映像出力装置、手話映像生成方法、及びプログラム
JP2013257719A (ja) * 2012-06-12 2013-12-26 Ricoh Co Ltd 議事録作成支援装置及び議事録作成支援システム

Similar Documents

Publication Publication Date Title
Glass et al. A naive salience-based method for speaker identification in fiction books
JPS63208167A (ja) 自然語解析における未登録語の取り扱い方式
JPH0877196A (ja) 文書情報抽出装置
JPH0619968A (ja) 専門用語自動抽出装置
JPH0736686A (ja) 影響検索装置
JPH06223113A (ja) 電子ファイリング装置
JPH08153091A (ja) 文書作成装置及び注釈付加方法
JP3956730B2 (ja) 言語処理装置
JP3288738B2 (ja) 自然言語処理装置及び方法
JPH01205263A (ja) 文書処理装置
JPH03123971A (ja) 索引付け支援装置
JPH04127372A (ja) 辞書検索装置
JP2002342321A (ja) 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体
JP2575125B2 (ja) 言語処理装置
JPS6368972A (ja) 未登録語処理方式
JPH01121928A (ja) 段階的キーワード抽出方式
JPH0695827A (ja) ガイド装置
JP3383538B2 (ja) 形態素解析用平仮名辞書作成装置
JPH02188870A (ja) 文脈処理装置
JPH083795B2 (ja) 質問推定装置
JPH0844589A (ja) テスト項目設計支援システム
JPH01185766A (ja) かな漢字変換装置
JPH04120661A (ja) 文書処理装置における最尤評価法形態素解析法
JPH0432958A (ja) 日本文誤り語検出装置
JPH0340172A (ja) 自然言語解析装置