JPS6274152A

JPS6274152A - 日本語文章認識方式

Info

Publication number: JPS6274152A
Application number: JP60212553A
Authority: JP
Inventors: Masami Hashimoto; 雅美橋本; Kunio Sakai; 坂井　邦夫
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-09-27
Filing date: 1985-09-27
Publication date: 1987-04-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、入力文字列の意味する日本語文章を効率良く
認識できるようにした日本語文章認識方式に関する。

〔発明の技術的背景とその問題点〕

近年、印刷、手書き入力された文字列、または音声入力
さた文字列からなる日本語文章を認識し、その日本語文
章の意味する情報を計算機システムに取込む技術の開発
が活発に進められている。

この日本語文章認識技術は、基本的には文章を構成する
文字列と予め用窓された国語辞書とを参照し、文字列を
構成する単語を認識することによって日本語文章を認識
するものである。従って、認識に要する時間は、国語辞
書と文字列との照合時間によって決定される。

ところが、日本語は、その単語の種類の多さもさること
ながら、その変形の多様さや付属語のあいまいさなどか
ら、極めて多くの単語照合を必要とし、しかも、その割
には認識正答率が低いというのが実状であった。

〔発明の目的〕

本発明は、このような問題に基づきなされたもので、そ
の目的とするところは、日本語文章を極めて合理的かつ
迅速に、しかも高い正答率で認識することができる日本
語文章認識方式を提供することを目的とする。

〔発明の概要〕

本発明は、国語辞書を自立語辞書と付属語辞書とに分け
、まず入力文字列と自立語辞書とを照合して自立語を認
識し、次に自立語として検出されなかった文字列を付属
語どみなして付属語辞書と照合し、しかる後、上記検出
された付属語とこれに隣接づ−る自立語との接続可否を
ブＩツクする」；うにしたことを特徴としている。

〔発明の効果〕

日本開文章の認識処理を行う場合、伺属浦の部分の認識
にあいまいさが多く、付属語の部分に多くの照合を行な
う必要があったが、本発明によれば、まず自立語を先に
認識することにより、付属語であると予想される文字列
を大幅に絞り込むことができるので、付属語の照合時間
の短縮化を図ることができる。

また、このように付属８Ｈの両側の自立語を先に固定し
、後で検出された付属語の接続可否を検査（ることによ
って付属ｆｆＨｆｌ、識の正答率が高まり、信頼性の高
い認識結果を得ることかできる。

したがって、この発明によれば、合理的、か′）迅速で
、しかも正答率の高い日本語認識を行うことができる。

〔発明の実施例〕以下、図面を参照しながら本発明の一実施例について説
明する。

第１図は本実施例に係る１１本語文章認識装置の要部概
略機、能１０ツク図である。

人力文字列としては、例えば丁古さ文字や印刷文字を光
学１段により読取ったも□のヤ）、人力高声を認識処理
して文字］−ドに変換したものなどがあるが、ここでは
特に手害さ文字や印刷文字を入力文字列とした場合の例
を示１．。

文字認識部１は、手内き入力された入力文字列から、入
力文字列を構成する各文字を認識しハ各文字についての
認識文字候補を求めるものである。

この文字認識は、人力文字列を構成寸−る各文字の特徴
情報と、特徴辞書にσ録された標準文字パターンの特徴
情報とを照合し、イの類似度を計算する等し−Ｃ行われ
る。

この文字認識部１にて求められた入力文字列の各文字に
対−する認識文字（文字候補）は、句読点が現れるよＣ
′順次、分節認識部２に転送される。

分節認識部２は、入力された認識文字列を分節単位に区
切り、分節毎にその意味、品詞情報等を付加して出力す
るものであり、この実施例の要旨となる部分である。分
節認識部２に入力された上記認識文字列は、まず、認識
文字バッファ３に格納される。この認識文字バッファ３
は、格納された認識文字列のうら単語類似度計算部４で
指定されるいくつかの文字列を１１めにして単語類似度
計算部４に出力する。単語類似度計算部４は、入力文字
列と自立語辞書５あるいは付属語辞書６との照合を行な
い類似度目算を実行する部分である。

自立語辞書５には、１つの単語に対１ノで語幹情報と、
その品詞情報、そして活用のあるものはその語尾情報を
持っている。認識文字列と照合する際には、その語幹情
報との照合が行なわれるが、高い類似度が得られた単語
が用言であった場合には、単語類似度計算部４は、語尾
活用チェック部７との間で語尾のヂ■ツクを行う。また
、単語類似度計算部４は、自立語辞書５に登録された単
語と入力文字列との間で高い類似度が得られなかった場
合に、付ＮＨ艮カウンタ８をカラン］・アップさせる機
能をもイイする。この単語類似計紳部４で検出された自
立語は、自立語候補バッファ（Ｂ　Ｕ　Ｆ　ａ　）９に
格納される。

ＢＵＦａ９に格納された自立語は、もうひとつの自立語
候補バッファ（ＢＩＪＦｂ）１０に転送される。このＢ
　ｔＪ　Ｆ　ｂ　１０は、ＢｔＪＦａ９に一段階前の時
点で格納されていたｎｖｆ胎を格納する。したがって、
両バッファＢＵＦａ９．ＢＵＦｂｌ○に格納された自立
語候補が、認識文字列において離れた位置に存在してし
ている場合には、両自立詔の間に存在する文字列は付属
語であるとみなすことができる。これら２つのバッファ
ＢＵＦａ９゜ＢＵＦｂｌＯに格納された自立語は、接続
可否判定部１１に与えられている。接続可否判定部１１
は、入力された２つの自立語の間に付属託が検出された
ら、検出された付属語と隣接する自立ｇとの接続可否ヂ
エツクを行なうとともに、自立８Ｒ単独、若しくは自立
語に付属語を付加して分節を構成し図示しない上位情報
処理装置に出力する。

次に、第２図に基づき、上記のように構成された日本語
文章認識装置の制御の流れを説明する。

文字認識１から出力された認識文字列は、句読点が現れ
るまで認識文字バッファ３に読込まれる（２１）。単語
類似度計算部４は、認識文字バッファ３に認識文字列が
格納されたら、ＢＵＦａ９の内容をクリアする（２１）
。単語類似度計算部４は、処理の開始位置を定めるポイ
ンタを認識文字列の先頭文字位置に初期設定しく２３）
、次に付属語長カウンタ８をクリアする（２４）。ＢＵ
Ｆａ９の内容がＢＵＦｂｌｏに格納される（２５）。

単語類似度計算部４は、以上の手順が終了したら認識文
字バッファ３から順次文字を入力し、自立語辞書５との
照合を行う（２６）。自立語照合の結果、高い類似度が
得られなかったら（２７）、付属語長カウンタ８に１を
加え、ポインタを１文字分ずらしく２８）、再び同様な
自立語照合を行う（２６）。

自立語が検出された場合において、それが用言であった
場合には（２９）、辞書に登録されている語尾情報に対
してその活用して変化し得る文字列と認識文字列との照
合を行う（３ｏ）。検出すべき語尾が得られない場合に
は（３１）、付属語長カウンタに１を加え、ポインタを
１文字分移動させ（２８）、再び自立語照合を行う（２
６）。

自立語が認識されたら、語尾も含めて認識された自立語
を、ＢＵＦａ９に格納する（３２）。

自立語の候補が見つかったら、付属語長カウンタ８がｌ
ｌ　ＯＩ＋であるかどうかを確認しく３３）、“０″で
ない場合には付属語照合を行う（３４）。

ここでは、ポインタで示された位置から付属語長カウン
タ８で示されている文字数分だけ前に遡った位置までの
認識文字列を単語類似度計算部４に読込み、付属語辞書
と照合し、候補がなければ（３５）、更に付属語長に１
を加え、ポインタを１文字分すらすく２８）。候補があ
る場合には、その付属語と、ＢＵＦａ９．ＢＵＢｌｏに
格納されている自立語との接続チェックを行ない（３６
）、接続不可と判定された場合には（３７）、異なる意
味の付属語であることが予想されるため、再び付属語辞
書との照合が行われる。

接続可と判断されたときは、ポインタを次の単語の先頭
位置へ移動させ（３８）、句読点が現れるまで（３９）
同様な処理が行われる。

具体的な実例を示せば以下の如くである。すなわち、第
３図（ａ）に示すような「この分野では新しい。」なる
認識文字入力に対し、まずポインタがＡの位置に設定さ
れるので、゛こ″、“この°゛、゛この分゛、・・・と
順次照合文字数を増やし、それぞれについて自立語辞書
５との照合を行う。最長マツチングが検出されると、そ
れがここでの自立語候補として採用される。この例では
゛この″が最も長い自立語として検出される。これは同
図（ｂ）に示すようにＢＵＦａ９に格納されるが、付属
語長カウンタが“０”であるため、ポインタを次の単語
の先頭つまりＢの位置に移し、ＢＵＦｂｌｏにＢＵＦａ
９の内容、つまり“この′”を格納する。Ｂの位置では
゛分野″という自立語を認識し、これがＢＵＦａ９に格
納される。ポインタがＣの位置に移動すると、゛で″か
ら始まる文字列に自立語が検出されないので、付属語長
カウンタ８の内容は１″に変化する。ポインタがＤの位
置に移動すると、“は“から始まる文字列にも自立語が
検出されないので、付属語長カウンタの内容は“２″に
変化する。次に、ポインタが゛Ｅ″の位置に移動すると
、新し″なる語幹部を検出し、さらに語尾活用処理で“
い″なる語尾が付加されるので、ＢＵＦｂｌＯには゛分
野″、ＢＵＦａ９には新しい″が格納され、さらに付属
語長カウンタ８の内容が２′′であるため、Ｅの位置か
ら２文字前に遡ったところまでの文字列″゛では゛が読
み出される。そして、゛では”を付属語辞書と照合する
と、接続助詞としての゛では″が検出される。しかし、
接続助詞は名詞の後に続かないため、接続不可と判定さ
れる。そこで、再び付属語照合を行うと、格助詞として
の゛では″が検出され、この場合には接続可能であるた
め、これが認識結果として採用される。

この結果、同図（Ｃ）に示すように、「／この／分野で
は／新しい／」と分節単位で区切られた認識結果が出力
される。

以上のように、本実施例によれば、日本語文章を構成す
る入力文字列から、まず自立語を先に認識するようにし
ているので、あいまいさの多い付Ｒ詔の照合数を少なく
して、照合時間の短縮化が図れる。

なお、本発明は上述した実施例に限定されるものではな
い。

例えば、自立語辞書は、単語の品詞や傾度等によって更
にいくつかに分けるようにしても良い。

また、ここでは、類似度計算によって申開認識を行うよ
うにしたが、その他の認識法によっても本発明の趣旨が
損われることはない。

また、本発明は、音声入力された入力系統に対しても異
なる辞書を適用プるだけで同様に適用可能である。

【図面の簡単な説明】

第１図は本発明の一実施例に係る日本飴文章ルΣ識装置
の主要部の機能ブロック図、第２図は同装置の制御の流
れを示づ流れ図、第３図は同装置の動作を説明するため
の図である。１・・・文字認識部、２・・・分節認識部、３・・・認
識文字バッファ、４・・・甲浦類似度Ｈ１算部、５・・
・自立語辞書、６・・・付属品辞書、７・・・語尾活用
チェック部、８・・・付属胎長カウンタ、９．１０・・
・自ずＩＫｈ候補バッファ、１１・・・接続町否判定部
。

Claims

【特許請求の範囲】

入力文字列と自立語辞書とを照合して自立語を検出し、
次に自立語として検出されなかった文字列と付属語辞書
とを照合して付属語を検出した後、検出された付属語と
この付属語に隣接する自立語との接続可否を検査するよ
うにしたことを特徴とする日本語文章認識方式。