JPS6274152A - 日本語文章認識方式 - Google Patents

日本語文章認識方式

Info

Publication number
JPS6274152A
JPS6274152A JP60212553A JP21255385A JPS6274152A JP S6274152 A JPS6274152 A JP S6274152A JP 60212553 A JP60212553 A JP 60212553A JP 21255385 A JP21255385 A JP 21255385A JP S6274152 A JPS6274152 A JP S6274152A
Authority
JP
Japan
Prior art keywords
word
character
independent
recognized
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60212553A
Other languages
English (en)
Inventor
Masami Hashimoto
雅美 橋本
Kunio Sakai
坂井 邦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60212553A priority Critical patent/JPS6274152A/ja
Publication of JPS6274152A publication Critical patent/JPS6274152A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、入力文字列の意味する日本語文章を効率良く
認識できるようにした日本語文章認識方式に関する。
〔発明の技術的背景とその問題点〕
近年、印刷、手書き入力された文字列、または音声入力
さた文字列からなる日本語文章を認識し、その日本語文
章の意味する情報を計算機システムに取込む技術の開発
が活発に進められている。
この日本語文章認識技術は、基本的には文章を構成する
文字列と予め用窓された国語辞書とを参照し、文字列を
構成する単語を認識することによって日本語文章を認識
するものである。従って、認識に要する時間は、国語辞
書と文字列との照合時間によって決定される。
ところが、日本語は、その単語の種類の多さもさること
ながら、その変形の多様さや付属語のあいまいさなどか
ら、極めて多くの単語照合を必要とし、しかも、その割
には認識正答率が低いというのが実状であった。
〔発明の目的〕
本発明は、このような問題に基づきなされたもので、そ
の目的とするところは、日本語文章を極めて合理的かつ
迅速に、しかも高い正答率で認識することができる日本
語文章認識方式を提供することを目的とする。
〔発明の概要〕
本発明は、国語辞書を自立語辞書と付属語辞書とに分け
、まず入力文字列と自立語辞書とを照合して自立語を認
識し、次に自立語として検出されなかった文字列を付属
語どみなして付属語辞書と照合し、しかる後、上記検出
された付属語とこれに隣接づ−る自立語との接続可否を
ブIツクする」;うにしたことを特徴としている。
〔発明の効果〕
日本開文章の認識処理を行う場合、伺属浦の部分の認識
にあいまいさが多く、付属語の部分に多くの照合を行な
う必要があったが、本発明によれば、まず自立語を先に
認識することにより、付属語であると予想される文字列
を大幅に絞り込むことができるので、付属語の照合時間
の短縮化を図ることができる。
また、このように付属8Hの両側の自立語を先に固定し
、後で検出された付属語の接続可否を検査(ることによ
って付属ffHfl、識の正答率が高まり、信頼性の高
い認識結果を得ることかできる。
したがって、この発明によれば、合理的、か′)迅速で
、しかも正答率の高い日本語認識を行うことができる。
〔発明の実施例〕 以下、図面を参照しながら本発明の一実施例について説
明する。
第1図は本実施例に係る11本語文章認識装置の要部概
略機、能10ツク図である。
人力文字列としては、例えば丁古さ文字や印刷文字を光
学1段により読取ったも□のヤ)、人力高声を認識処理
して文字]−ドに変換したものなどがあるが、ここでは
特に手害さ文字や印刷文字を入力文字列とした場合の例
を示1.。
文字認識部1は、手内き入力された入力文字列から、入
力文字列を構成する各文字を認識しハ各文字についての
認識文字候補を求めるものである。
この文字認識は、人力文字列を構成寸−る各文字の特徴
情報と、特徴辞書にσ録された標準文字パターンの特徴
情報とを照合し、イの類似度を計算する等し−C行われ
る。
この文字認識部1にて求められた入力文字列の各文字に
対−する認識文字(文字候補)は、句読点が現れるよC
′順次、分節認識部2に転送される。
分節認識部2は、入力された認識文字列を分節単位に区
切り、分節毎にその意味、品詞情報等を付加して出力す
るものであり、この実施例の要旨となる部分である。分
節認識部2に入力された上記認識文字列は、まず、認識
文字バッファ3に格納される。この認識文字バッファ3
は、格納された認識文字列のうら単語類似度計算部4で
指定されるいくつかの文字列を11めにして単語類似度
計算部4に出力する。単語類似度計算部4は、入力文字
列と自立語辞書5あるいは付属語辞書6との照合を行な
い類似度目算を実行する部分である。
自立語辞書5には、1つの単語に対1ノで語幹情報と、
その品詞情報、そして活用のあるものはその語尾情報を
持っている。認識文字列と照合する際には、その語幹情
報との照合が行なわれるが、高い類似度が得られた単語
が用言であった場合には、単語類似度計算部4は、語尾
活用チェック部7との間で語尾のヂ■ツクを行う。また
、単語類似度計算部4は、自立語辞書5に登録された単
語と入力文字列との間で高い類似度が得られなかった場
合に、付NH艮カウンタ8をカラン]・アップさせる機
能をもイイする。この単語類似計紳部4で検出された自
立語は、自立語候補バッファ(B U F a )9に
格納される。
BUFa9に格納された自立語は、もうひとつの自立語
候補バッファ(BIJFb)10に転送される。このB
 tJ F b 10は、BtJFa9に一段階前の時
点で格納されていたnvf胎を格納する。したがって、
両バッファBUFa9.BUFbl○に格納された自立
語候補が、認識文字列において離れた位置に存在してし
ている場合には、両自立詔の間に存在する文字列は付属
語であるとみなすことができる。これら2つのバッファ
BUFa9゜BUFblOに格納された自立語は、接続
可否判定部11に与えられている。接続可否判定部11
は、入力された2つの自立語の間に付属託が検出された
ら、検出された付属語と隣接する自立gとの接続可否ヂ
エツクを行なうとともに、自立8R単独、若しくは自立
語に付属語を付加して分節を構成し図示しない上位情報
処理装置に出力する。
次に、第2図に基づき、上記のように構成された日本語
文章認識装置の制御の流れを説明する。
文字認識1から出力された認識文字列は、句読点が現れ
るまで認識文字バッファ3に読込まれる(21)。単語
類似度計算部4は、認識文字バッファ3に認識文字列が
格納されたら、BUFa9の内容をクリアする(21)
。単語類似度計算部4は、処理の開始位置を定めるポイ
ンタを認識文字列の先頭文字位置に初期設定しく23)
、次に付属語長カウンタ8をクリアする(24)。BU
Fa9の内容がBUFbloに格納される(25)。
単語類似度計算部4は、以上の手順が終了したら認識文
字バッファ3から順次文字を入力し、自立語辞書5との
照合を行う(26)。自立語照合の結果、高い類似度が
得られなかったら(27)、付属語長カウンタ8に1を
加え、ポインタを1文字分ずらしく28)、再び同様な
自立語照合を行う(26)。
自立語が検出された場合において、それが用言であった
場合には(29)、辞書に登録されている語尾情報に対
してその活用して変化し得る文字列と認識文字列との照
合を行う(3o)。検出すべき語尾が得られない場合に
は(31)、付属語長カウンタに1を加え、ポインタを
1文字分移動させ(28)、再び自立語照合を行う(2
6)。
自立語が認識されたら、語尾も含めて認識された自立語
を、BUFa9に格納する(32)。
自立語の候補が見つかったら、付属語長カウンタ8がl
l OI+であるかどうかを確認しく33)、“0″で
ない場合には付属語照合を行う(34)。
ここでは、ポインタで示された位置から付属語長カウン
タ8で示されている文字数分だけ前に遡った位置までの
認識文字列を単語類似度計算部4に読込み、付属語辞書
と照合し、候補がなければ(35)、更に付属語長に1
を加え、ポインタを1文字分すらすく28)。候補があ
る場合には、その付属語と、BUFa9.BUBloに
格納されている自立語との接続チェックを行ない(36
)、接続不可と判定された場合には(37)、異なる意
味の付属語であることが予想されるため、再び付属語辞
書との照合が行われる。
接続可と判断されたときは、ポインタを次の単語の先頭
位置へ移動させ(38)、句読点が現れるまで(39)
同様な処理が行われる。
具体的な実例を示せば以下の如くである。すなわち、第
3図(a)に示すような「この分野では新しい。」なる
認識文字入力に対し、まずポインタがAの位置に設定さ
れるので、゛こ″、“この°゛、゛この分゛、・・・と
順次照合文字数を増やし、それぞれについて自立語辞書
5との照合を行う。最長マツチングが検出されると、そ
れがここでの自立語候補として採用される。この例では
゛この″が最も長い自立語として検出される。これは同
図(b)に示すようにBUFa9に格納されるが、付属
語長カウンタが“0”であるため、ポインタを次の単語
の先頭つまりBの位置に移し、BUFbloにBUFa
9の内容、つまり“この′”を格納する。Bの位置では
゛分野″という自立語を認識し、これがBUFa9に格
納される。ポインタがCの位置に移動すると、゛で″か
ら始まる文字列に自立語が検出されないので、付属語長
カウンタ8の内容は1″に変化する。ポインタがDの位
置に移動すると、“は“から始まる文字列にも自立語が
検出されないので、付属語長カウンタの内容は“2″に
変化する。次に、ポインタが゛E″の位置に移動すると
、新し″なる語幹部を検出し、さらに語尾活用処理で“
い″なる語尾が付加されるので、BUFblOには゛分
野″、BUFa9には新しい″が格納され、さらに付属
語長カウンタ8の内容が2′′であるため、Eの位置か
ら2文字前に遡ったところまでの文字列″゛では゛が読
み出される。そして、゛では”を付属語辞書と照合する
と、接続助詞としての゛では″が検出される。しかし、
接続助詞は名詞の後に続かないため、接続不可と判定さ
れる。そこで、再び付属語照合を行うと、格助詞として
の゛では″が検出され、この場合には接続可能であるた
め、これが認識結果として採用される。
この結果、同図(C)に示すように、「/この/分野で
は/新しい/」と分節単位で区切られた認識結果が出力
される。
以上のように、本実施例によれば、日本語文章を構成す
る入力文字列から、まず自立語を先に認識するようにし
ているので、あいまいさの多い付R詔の照合数を少なく
して、照合時間の短縮化が図れる。
なお、本発明は上述した実施例に限定されるものではな
い。
例えば、自立語辞書は、単語の品詞や傾度等によって更
にいくつかに分けるようにしても良い。
また、ここでは、類似度計算によって申開認識を行うよ
うにしたが、その他の認識法によっても本発明の趣旨が
損われることはない。
また、本発明は、音声入力された入力系統に対しても異
なる辞書を適用プるだけで同様に適用可能である。
【図面の簡単な説明】
第1図は本発明の一実施例に係る日本飴文章ルΣ識装置
の主要部の機能ブロック図、第2図は同装置の制御の流
れを示づ流れ図、第3図は同装置の動作を説明するため
の図である。 1・・・文字認識部、2・・・分節認識部、3・・・認
識文字バッファ、4・・・甲浦類似度H1算部、5・・
・自立語辞書、6・・・付属品辞書、7・・・語尾活用
チェック部、8・・・付属胎長カウンタ、9.10・・
・自ずIKh候補バッファ、11・・・接続町否判定部

Claims (1)

    【特許請求の範囲】
  1. 入力文字列と自立語辞書とを照合して自立語を検出し、
    次に自立語として検出されなかった文字列と付属語辞書
    とを照合して付属語を検出した後、検出された付属語と
    この付属語に隣接する自立語との接続可否を検査するよ
    うにしたことを特徴とする日本語文章認識方式。
JP60212553A 1985-09-27 1985-09-27 日本語文章認識方式 Pending JPS6274152A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60212553A JPS6274152A (ja) 1985-09-27 1985-09-27 日本語文章認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60212553A JPS6274152A (ja) 1985-09-27 1985-09-27 日本語文章認識方式

Publications (1)

Publication Number Publication Date
JPS6274152A true JPS6274152A (ja) 1987-04-04

Family

ID=16624590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60212553A Pending JPS6274152A (ja) 1985-09-27 1985-09-27 日本語文章認識方式

Country Status (1)

Country Link
JP (1) JPS6274152A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6426977A (en) * 1987-07-23 1989-01-30 Fujitsu Ltd Sentence analyzing system
JPS6482099A (en) * 1987-09-25 1989-03-28 Atr Jido Honyaku Denwa Language information recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6426977A (en) * 1987-07-23 1989-01-30 Fujitsu Ltd Sentence analyzing system
JPS6482099A (en) * 1987-09-25 1989-03-28 Atr Jido Honyaku Denwa Language information recognition system
JPH0558554B2 (ja) * 1987-09-25 1993-08-26 Atr Jido Honyaku Denwa

Similar Documents

Publication Publication Date Title
US9905223B2 (en) System and method for using semantic and syntactic graphs for utterance classification
KR101072460B1 (ko) 한국어 형태소 분석 방법
JPS6274152A (ja) 日本語文章認識方式
Tur et al. Semi-supervised learning for spoken language understanding semantic role labeling
JPS5892063A (ja) イデイオム処理方式
JPS60157659A (ja) 日本語解析方式
JPS63118868A (ja) 日本語文章校正装置
JPH0361219B2 (ja)
Dien et al. Btl: a hybrid model for english-vietnamese machine translation
KR20010057781A (ko) 다중어 형태소 분석장치 및 그 방법
JPH05250403A (ja) 日本文単語解析方式
JP2549831B2 (ja) 文字認識装置の入力パターン・文字列登録方法
JPS6073697A (ja) 音韻辞書の作成方法
JPS62285189A (ja) 文字認識後処理方式
JPH0581314A (ja) 係り受け関係判定方式
JPS5866175A (ja) 図形認識装置
JPS61189599A (ja) 記号比較装置
JPS62284480A (ja) 文字認識後処理方式
Hakkani-Tür et al. SEMI-SUPERVISED LEARNING FOR SPOKEN LANGUAGE UNDERSTANDING USING SEMANTIC ROLE LABELING
Biadsy Online Arabic Handwriting Recognition Using Hidden Markov Models
Garrett A finite state network for phonetic text processing
JPH0262660A (ja) 日本語文章処理装置
JPH01255957A (ja) 漢字変換装置
JPS6075892A (ja) 音素セグメンテ−シヨン方法
JPH0715690B2 (ja) 日本文文書解析装置