JPS61272888A

JPS61272888A - 単語認識方式

Info

Publication number: JPS61272888A
Application number: JP60114803A
Authority: JP
Inventors: Masami Hashimoto; 雅美橋本; Yoshiaki Kurosawa; 由明黒沢; Haruo Asada; 麻田　治男
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-05-28
Filing date: 1985-05-28
Publication date: 1986-12-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は入力文字列が構成する単語、または複数の単語
を連結した合成語を簡易に、且つ効果的に認識すること
のできる単ｉ！ｉ認識方式に関する・〔発明の技術的背
景とその問題点〕情報処理技術の発展に伴い、印刷、手書き入力された文
字列、または音声入力された文字列からなる単語を認識
し、その情報を計算機システムに取込むことが行われて
いる。

この単ｉＷ１＊は、基本的には単語を構成する文字列の
各文字の特徴をそれぞれ検出して行われるが、個々の文
字認識結果を組合わせるだけでは、単語として正しい認
識結果が得られないことが多い。

そこで従来では、入力文字列の各文字についてそれぞれ
ｍｌＥした後、その後処理として上記各文字に対する候
補文字の組合せによって示される候補単語と、単語辞書
に予め登録された単語とを、例えば類似度計算する等し
て照合し、その照合結果に従って前記入力文字列を単語
認識するようにしている。

ところが、複数の単語を連結した合成語を示す文字列が
入力された場合、その合成語を正しく認識することがで
きないと云う不具合があった。

例えば「×本大学」なる合成語が単語として辞書登録さ
れ、「熊本大学」なる合成語が単語として辞書登録され
ていない場合に「熊本大学」なる文字列が入力されると
、その４文字中の「本」ｒ大Ｊ　「学Ｊなる３文字につ
いて高い認識結果（類似度）が得られることから、「×
本大学」なる単ｉ１！（合成Ｒ）が上記入力文字列に対
する認識結果として求められる。

このような不具合を解消するべく、認識処理対象とする
種々の合成語の全てをそれぞれ単語として辞書登録して
おくことが考えられる。しかしその為には、単語辞書と
して膨大な容量の記憶装置を必要とする。しかもこのよ
うな単語辞書を用いて単語照合するには、その認識処理
に多大な時間を必要とする等の不具合があった。

〔発明の目的〕本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字列が複数の単語を結合
した合成語であるとき、これを合理的に、且つ効果的に
Ｈ！ｉ！することのできる単語認識方式を提供すること
にある。

（発明の概要〕本発明は、入力文字列の各文字をそれぞれ認識して求め
られた各入力文字に対する候補文字から、上記入力文字
列が構成する単語、または複数の単語を連結した合成語
を認識するに際し、合成語が複数の単語を所定の関係に
従って連結して構成されることに鑑みて、合成語を構成
する単語をその種類に応じて分類した複数の単語辞書を
構成し、これらの各単語が相互に連結して合成語を構成
するときの単語辞書間の接続規則を記述した文法を用い
て入力文字列を単語単位に分割し、これらの各単語単位
毎に上記各単語辞書を選択的に参照して単Ｒ認識し、こ
れらの認識単語を連結して前記入力単語列を認識処理し
てなることを特徴とするものである。

〔発明の効果〕

かくして本発明によれば、入力文字列を、その合成語を
構成する単語単位に分割してそれぞれ単語認識し、それ
らの認識単語を連結して合成語を認識するので、合成語
を構成する単語毎に高い認識結果を得ることができ、そ
の３１１１度の向上を図ることができる。また分割され
た各単語単位の認識処理が、他の単語単位の認識結果に
よって左右されることがないので、従来のように入力文
字列を統一的に認識処理対象とした場合のような不具合
を招来することがない。

しかも単語辞書がその種類別に分類されているので、上
記文法規則に従って入力文字列を合理的に認識処理する
ことができる。また従来のように単語の組合せとして種
々構成される合成語をそれぞれ単語として辞書登録する
必要がないので、同じ単語の重複した辞書登録が不要で
あり、単語辞書の構成の簡略化を図って辞書容量の削減
を図ることができる等の効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明する
。

第１図は実施例方式を適用した単語認識装置の要部概略
構成図である。

文字認識部１は入力文字列を構成する各文字を認ｌＩ処
理し、各文字に対する認識文字候補をそれぞれ求めてい
る。この文字認識は、入力文字列を構成する各文字の特
徴情報と、文字認識辞書に登録された認識対象文字の特
徴情報との類似度を計算する等して行われる。尚、入力
文字列は手書き入力された文字列、印刷文字を読取り入
力した文字列、或いは入力音声をＷｔｉｉｉ処理して文
字コードに変換した文字列等として与えられる。

この文字認識部１にて求められた入力文字列の各文字に
対する文字認識結果（文字候補）は順次重Ｒ認識部２に
転送され、その単語情報バッファ３に蓄えられる。

単語ｉ！識部２は、上記単語情報バッファ３に蓄えられ
た認識文字列を１つの単語を構成する文字列として、或
いは複数の単語の組合せからなる合成語を構成する文字
列として単語単位に切出し、これを単語類似度計算部４
に読出して単語辞書５に予め登録された認識対象単語と
の間の類似度計算を実行している。そして単語辞書５に
登録された単語の中で上記文字列との間で最も類似度の
高い単語を、その単語ｉ！識結果として求めている。

即ち、上記単語情報バッファ３からの文字列の読出し、
および前記単語辞書５からの認識対象単語の読出しは、
コントローラ６によって制御されている。コントローラ
６は、単語情報バッフ？３に格納された文字列の文字数
を検出し、また文法辞書７に格納された文法規則を文法
解析部８にて解析し、この文法解析結果と上記文字数の
情報とに従って上記単語情報バッファ３に格納された入
力文字列を単語候補単位毎に分割している。そして単語
類似度計算部４にて、前記単語辞書５から選択的に読出
した単語と上記分割された各単語候補単位との間の類似
度計算を行わせ、その類似度計算結果を判定している。

この制御によって前記入力文字列に該当する単語が見出
だされた場合、その単語を入力文字列に対する！！識結
果として、また分割された単語候補毎にそれぞれ該当す
る単語が見出だされた場合には、それらの認識単語を結
合した合成語を上記入力文字列に対するｍｌ結果として
求めている。

この単１［識処理について更に詳しく説明すると、単語
辞書５は、合成語を構成する単語をその種類に応じて分
類し、各種別毎に独立して格納した複数の辞書ファイル
として構成される。例えば認識処理対象とする合成語が
学校名である場合、その合成語は一般に地名・名称を示
す単語、専攻科目を示す単語、学校種別を示す単語の組
合せとして構成される。そこでこのような場合には上記
単語辞書５は、例えば第２図に示すように「日本」「東
京」　「横浜」等の地名・名称を表す単語のみを分類し
て格納した辞書ファイル５ａ１「工業」「医科」　「歯
科」　「商業」　「理科」等の専攻科目を示す単語だけ
を分類して格納した辞書ファイル５ｂ１「大学」「高校
」「学院」等の学校の種別を示す単語だけを分類して格
納した辞書ファイル５Ｃとして実現される。

しかして上記学校名を認識対象とする為の文法規則とし
ては、上記各辞書ファイル５ａ、　５ｂ、　５ｃにそれ
ぞれ分類登録された単語を相互に連結して合成語を構成
する為の連結規則が、例えば第２図中に示すように準備
される。第２図中に示す文法規則ｒｓ−＋ＡＣＪは、入力された全体の文字列Ｓが、部分文字列（未知単
語）Ａの後に上記辞書ファイル５Ｃに格納された単語が
連結されて合成語を構成することを意味している。またｒＡ−＋　ａＢＪ　　ｒＢ−＋ｂＢＪは、部分文字列Ａ（Ｂ）が、辞書ファイル５ａ（５ｂ）
に登録された単語の後に部分文字列Ｂが結合されること
を意味し、更にｒＢ−）ｂ　Ｊは、部分文字列Ｂが辞書ファイル５ｂに格納された単語
によって構成されることを意味している。具体的には、
ここでは英記号の大文字によって任意の単語を構成する
文字列を表現し、英記号の小文字によってその該当単語
が登録された辞書ファイルの種別を特定している。従っ
て今、各辞書ファイルｓａ、　ｓｂ、　ｓｃにそれぞれ
登録された単語をり。

ｂ、ｃとした場合、入力文字列Ｓは、５−Ａｃ−ａＢｃ−ａｂＢｃ−ａｂｂｃｏｒ（纏ａｂｃ
）として構成されることが文法規則として与えられること
になる。

しかして第２図に示すように、「東京医科歯科大学ｊな
る８文字からなる入力文字列が前記文字！！！ｆｉ１部
１を介して与えられると、コントローラ６は先ずその入
力文字列（８文字）を１つの単語として認識処理する。

この単ｉｌ！識処理は、入力文字列の字数に該当する単
語を単語辞書中から検索し、その辞書登録された単語と
入力文字列との類似度を計算し、その類似度が所定の閾
値を越える単語を入力文字列に対する認識結果として抽
出することによって行われる。この場合、単語辞書５に
は８文字からなる単語が登録されていないことから、そ
のｇ！！識処理が失敗に終わる。

この認識処理の失敗を受けて前記コントローラ６は、該
入力文字列が複数の単語を連結した合成語であると判定
して前記文法辞書７を照合する。

この結果、先ず入力文字列全体に対する文法「Ｓ−＋Ａ
Ｏ」を得、入力文字列Ｓの末尾の文字（文字列）が単語
として辞書ファイル５Ｃに格納されていることを知る。

この文法解析結果に従って単語辞書バッファ３に格納さ
れた文字列からその最後の１文字を切出し、辞書ファイ
ル５Ｃに格納された単語との照合を行う。この照合に失
敗したときには、その切出し文字数の文字（文字列）に
該当する単語が存在しないと判定され、その切出し文字
数が１文字増される。そして今度は入力文字列の末尾２
文字について同様に単語照合が行われる。このような単
語照合が、十分精度の高い認識結果が得られるまで上記
切出し文字数を１文字づつ増やしながら繰返し行われる
。この例では、末尾２文字の切出しによって「大学」な
る単語との間で精度の高い認識処理結果が得られ、第１
段階としての単語照合処理が終了する。この結果、入力
文字列Ｓは、ｒ＊＊＊＊＊＊＊＊＊＊大学成語であることが認識される。但し、＊は認識処
理前の未知なる文字（文字候補）を示している。

しかる後、残された文字列Ａに対する単語照合処理が行
われる。この場合には、前記文法規則７から、文字列Ａ
に関する文法ｒＡ−＋ａＢＪが求められ、文字列Ａが先
頭文字（文字列）が辞書ファイル５ａに格納された単語
によって構成されることが解析される。この場合にも、
その先頭１文字について辞書ファイル５ａとの照合が行
われ、更に先！！１２文字について辞書ファイル５ａと
の照合が行ねれる。この結果、この例では先頭２文字に
ついて「東京」なる単語認識結果が得られ、前記入力文
字列が「東京＊＊＊＊大学」なる合成語を構成することが判定される。その後、残さ
れた文字列Ｂに対して、その文法［Ｂ→ｂＢＪ　　　　
　”「８→ｂ」が解析され、同様な認識処理が行われる
。

この場合には、残された中央４文字の先頭文字（文字列
）に該当する単語が辞書ファイル５ｂに格納されている
ことが指示され、「医科」なる単語が認識される。この
結果、入力文字列は「東京医科＊＊大学」であることが認識される。そして残された２文字が再び
文字列Ｂとして辞書ファイル５ｂと照合され、「歯科」
なる単語が認識される。

この結果、前記入力文字列は「東京医科歯科大学」として単ｉ！！ｌ！ｌ！ＩＩＩされ、これらの各単語Ｗ
１識結果を連結した合成語としてＷＸ識されることにな
る。

尚、「東京工業大学」なる入力に対しては、ｒｓ−”Ａ
ＣＪ　　・・・（＊＊＊＊大学）ｒＡ４　ａＢＪ　　・
・・（東京＊＊大学）ｒＢ４ｂ　Ｊ　　　・・・（東京
工業大学）なる処理の流れによってその入力文字列が単
語単位で認識される。また「東京大学」なる入力文字列
に対してはｒＡ−＋ａ　Ｊなる文法規則を用い、［Ｓ→
Ａｃ　Ｊ　　・・・（＊＊大学）「Ａ−＋ａ」　　・・
・（東京大学）としてその入力文字列が認識されることになる・第３図
はこのような単語認識結果の制御の流れを示す図である
。

即ちコントローラ６では、先ず前記辞書５，７から辞書
登録された単語と文法規則とを読込む（ステップａ）。

そして単語認識処理すべき入力文字列が存在するとき（
ステップｂ）、単語情報バッファ３に格納された文字列
データを読込み（ステップＣ）、また前記辞書７から読
込んだ文法規則を解析する（ステップｄ）。

その後、前記文法規則に従ってその入力文字列を構成す
る単語の他の部分文字列との結合形式を判定しくステッ
プｅ、ｆ、ｇ、ｈ）、その結合形式に応じて重器辞書と
の照合を行う。この結合形式の￥！１定は、与えられた
文字列に対する文法解析結果に対して該文字列が ■　単語部分と、これに続く未解析の文字列部分とから
なるか（ステップｅ） ■　未解析の文字列部分と、これに続く単語部分とから
なるか（ステップｆ） ■　その全てが未解析の文字列部分からなるが（ステッ
プＱ） ■　切出された単語部分だけからなるか（ステップｈ）を判定して行われる。

しかして与えられた文字列に対する文法規則がｒＡ４Ｂ
Ｊで示されるように単語部分を特定していない場合には
くステップＱ）、その文字列に対する文法解析が再び行
われる（ステップ１）。この処理にてその文字列に対す
る文法規則が単語と部分文字列との組合せ（Ａ−＋ａＢ
）であるか、或いは部分文字列と単語との組合せ（Ａ−
＋Ｂａ）であるか、更にはその全てが単語を構成する（
Ａ−＋ａ　）かが解析される。

このような解析結果に従って前述した文字列に対する文
法解析結果の判定が再び行われる。

そしてその文字列が単語部分と文字列部分との組合せと
して示される場合（ステップｅ）、或いは文字列部分と
単語部分との組合せとして示される場合（ステップｆ）
には、その文字列の単語部分についてその指定されたフ
ァイル名の単語辞書を用いて単語照合する（ステップｊ
）。この単語照合によって上記単語部分に対する候補単
語を求め、入力文字列の他の部分について既に求められ
ている候補単語が存在する場合には、これに結合する（
ステップにン。その後、その残された文字列部分に対し
て前述したステップｉにより、再度文法規則の解析を行
う。

このようにして入力文字列（残された文字列）の文法解
析と、その単語部分に対する候補単語の検出を繰返す。

そしてその文字列に対する文法規則が、その文字列全体
で１つの単語を構成することを示す場合には、その部分
文字列に対して指定されたファイル名の単語辞書から順
次単語を続出　　−して上記部分文字列との照合を行う
　（ステップａ）。そしてその候補単語を、既に他の文
字列部分について求められた候補単語がある場合には、
これに結合する（ステップｍ）。このようにして求めた
単語、または複数の単語を結合した合成語を出力して（
ステップｎ）、その入力文字列に対する処理を終了する
。

このような認識処理の制御アルゴリズムに従って前述し
たような入力文字列に対する単語認識処理が行われるこ
とになる。

以上説明したように本方式によれば、合成語を構成する
入力文字列を単語単位に分割して認識処理し、その単語
認識結果を連結して合成語をｇ識するので、従来のよう
に種々の合成語をそれぞれ単語として辞書登録しなくて
も、合成語を構成する単語間の連結規則（文法）に従っ
て合理的に認識することができる。また合成語を構成す
る単語がその種類毎に分類されて辞書登録されているの
で、効率の良い単語照合が可能であり、その認識精度の
向上を図ることができる。しかも、合成語を構成する単
語単位に分割された各文字列の認識処理が他の文字列に
よる悪影響を受けることがないので、入力文字列の全体
に対する総合的に認識精度の向上を因ることが可能とな
る。

更には単語の重複登録が不要となるので、認識辞−の構
成の簡略化を図ることが可能となり・合理的で効率の良
い認識処理が可能となる等の実用上多大なる効果が奏せ
られる。

尚、本発明は上述した実施例に限定されるものではない
。例えば辞書ファイルの分類数は幾つでも良い。また文
法規則も上述した例に限定されるものではない。また合
成語を否定するような文法規則を導入することも可能で
ある。またここでは類似度計算によって単１！！！！ｌ
ｉしたが、その他の単１！ｉｌ！’！識法を導入するこ
とも勿論可能である。また入力文字列は音声入力された
ものであっても良く、要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができる。

【図面の簡単な説明】

第１図は本発明の一実施例方式を適用した単語！！識装
置の要部概略構成図、第２図は実施例方式の処理概念を
示す図、第３図は実施例における単１！、！識処理の制
御例を示す図である。１・・・文字認識部、２・・・単Ｒ認識部、３・・・単
語情報バッファ、４・・・単語類似度計算部、５・・・
単語辞書、６０１．コントローラ、７・・・文法辞書、
８・・・１文法解析部。出願人代理人　弁理士　鈴江武彦第２図

Claims

【特許請求の範囲】

（１）入力文字列の各文字をそれぞれ認識して求められ
た各入力文字に対する候補文字から、上記入力文字列が
構成する単語、または複数の単語を連結した合成語を認
識するに際し、単語の種類に応じて分類された複数の単
語辞書間の接続構成規則を示す文法に従って上記単語辞
書を選択的に参照して前記入力単語列を認識処理してな
ることを特徴とする単語認識方式。
（２）複数の単語辞書は、合成語を構成する単語をその
種類に応じて分類したファイルからなり、文法はこれら
のファイル内の単語が連結して合成語を構成するときの
接続規則を記述したものである特許請求の範囲第１項記
載の単語認識方式。