JPS61198385A

JPS61198385A - 文字認識方式

Info

Publication number: JPS61198385A
Application number: JP60038309A
Authority: JP
Inventors: Hirohisa Goto; 後藤　裕久; Koichi Higuchi; 浩一樋口; Yoshiyuki Yamashita; 山下　義征
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1985-02-27
Filing date: 1985-02-27
Publication date: 1986-09-02
Also published as: JPH0580711B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、文字認識方式に関する。

（従来の技術）文字認識、特に漢字認識においては、認識対象に字形の
酷似した類似文字が多く含まれている。

たとえば「大」、「犬」、「太」のように点の有無や、
位置の異なる文字、「未」、「末」や「人」、「入」の
ように文字線の長さが異なる文字などである。ところで
、手書文字では筆者の違いによる局所的な文字線の位置
移動や傾き、また、印刷文字では活字の傾き等により、
入力文字の字形が変形すると、抽出される特徴が不安定
となり、その認識が難しくなるが、前記類似文字間では
その影響が顕著でありわずかな変形でも誤認識する。

前記問題点を解決する方法として、連続した入力文字を
単語として扱い、各入力文字の候補文字名から得られる
文字名列があらかじめ用意した単語辞書に存在するか調
べることにより、誤認識を防止する方法が考案されてい
る（例えば、昭和５７年度電子通信学会全国大会、Ｐ５
−３２Ｅｌ　、１３４１、「手書漢字認識における単語
情報の利用」）。

例えば、住所を認識対象とする認識装置において、第２
図（ａ）に示すように手書文字「東」。

「京」、「都」が入力され、それぞれの文字の第１位候
補が「束」、「京」、「都」であった場合について説明
する。あらかじめ、第２図（ｂ）に示すように住所単語
が格納された単語辞書を用意しておき、入力文字に対し
て得られた候補文字名を組合せた文字列「東京都」、「
東京群」、「東京部」、「東京都」などが前記単語辞書
内に存在するか検索する。この場合、存在する文字列は
「東京都」だけであり、第２図（Ｃ）に示すように認識
結果「東京都」が得られる。このように、入力文字の第
１位候補は「束」、「京」、「都」であり、第１文字目
が誤認識しているが、単語辞書を利用することにより正
しい認識結果が得られる。

（発明が解決しようとする問題点）しかしながら、上記従来の方式にあっては、互いに異な
る文字が類似文字である複数の単語（類似単語と呼ぶ）
が存在する場合、先に述べたように類似文字間では僅か
な変形でも誤認識が起こるため単語として扱う場合でも
類似した単語に誤認識するという問題があった。その対
策として文字単位の認識辞書文字マスクを多数用意しな
ければならず、辞書が増大し、ひいては、処理速度も低
下するという問題点があった。

本発明は、以上述べた類似単語間の誤認識という問題点
と、認識・辞書文字マスクの増大および処理速度の低下
という問題点を除去し、認識精度が良く処理速度の速い
優れた文字認識方式を提供することを目的とする。

（問題点を解決するための手段）本発明は、文字図形パターンの特定方向のストロークを
あらわすサブパターンにおける任意の分割単位領域の黒
ビット数を、文字線幅とストローク方向に対応した文字
枠の大きさとで正規化して得られる量を特徴要素として
、ストローク方向の異なる複数の各サブパターン毎に且
つ文字枠内を分割することによって得られる前記各分割
単位領域毎に当該文字図形パターンから前記特徴要素を
抽出してサブパターン特徴マトリクスを作成し、標準文
字マスクが当該サブパターン特徴マトリクスと同形式で
記述されているマトリクス辞書を参照して当該文字図形
パターンの認識を行う文字認識方式を対象とする。

本発明によれば、この文字認識方式において。

以下に述べる第１ないし第３の識別工程が設けられる。

第１の識別工程は、前記文字図形パターンのサブパター
ン特徴マトリクスと前記標準文字マスクとの照合を行な
い、両者の距離の小さなものから標準文字マスクの文字
名を所定個取出し、これを文字図形パターンの候補文字
名グループとして保存する。

第２の識別工程は、連続する文字図形パターンにそれぞ
れ対応する候補文字名グループから１文字ずつ取出して
組合せた文字数に個の文字名列が予め用意した単語辞書
内に存在するかどうかを調べ、存在していれば前記文字
名列を候補単語名として出力する。

第３の識別工程は、前記候補単語名がＮ０個（Ｎｏは２
以上の整数）ある場合にＮ、個の前記候補単語名から２
＠取出し、この２個の候補単語名を比較しｉ文字目（ｌ
≦ｉ≦Ｋ、ｉは整数）の文字名が異なるとき、それぞれ
のｉ文字目の文字名のマトリクス辞書の各要素の差の絶
対値を要素とする差分辞書マトリクスを作成し、該差分
辞書マトリクスでサブパターン特徴マトリクスと前記ｉ
文字目の文字名の標準文字マスクとの距離に重み付けを
行ない、その重み付距離の小さい方の文字名を含む候補
単語名に対して所定の得点を与え、Ｋ文字目まで比較が
終った後の得点の和が大きい方の候補単語名に対して改
めて所定の得点を与えることを、Ｎｏ個の候補単語名か
ら２個取出して得られる全ての組合せに対して行ない、
最も得点の高い候補単語名を識別結果として出力する。

（作　用）第１の識別工程は入力された文字図形パターンに対し、
複数の候補文字を提供する作用を呈する。第２の識別工
程はこれらの候補文字の組合せの文字名列のうち、所定
の単語に該当するもののみを候補単語名として選択する
作用を呈する。

第３の識別工程は候補単語名が所定数Ｎｏ個ある場合、
これらのうち最も適切なものを１つ決定する作用を呈す
る。この場合、差分辞書マトリクスはサブパターン特徴
マトリクスと標準文字マスクとの距離を重み付けする作
用をもつ、すなわち、両者の差違部分を強調する作用を
もつ、従って、認識精度を向上させ、処理速度を速くす
ることができる。

（実施例）以下、本発明を実施例に基づき図面を参照して詳細に説
明する。

まず、文字図形パターン（以下、入カバターンとする）
と各サブパターンの例を第３図に示す。

同図（ａ）は入カバターン、（ｂ）は垂直サブパターン
（Ｖ　Ｓ　Ｐ）　、　（Ｃ）は水平サブパターン（Ｈ３
Ｐ）、（ｄ）は右斜めサブパターン（Ｈ５Ｐ）、（ｅ）
は左斜めサブパターン（ＬＳＰ）である。

Ｓ１図は１本発明の一実施例を示すブロック図である。

同図において、文字の光信号は、光信号人力１より光電
変換部２において２値の量子化されたディジタル電気信
号に変換され、パターンレジスタ３に格納される。それ
と同時に線幅計算部４において入カバターンの線幅（Ｗ
）が計算される。サブパターン抽出部５はパターンレジ
スタ３について垂直スキャンを全面に行なって黒点（文
字線部を黒点とする）の連続の長さと線幅計算部４にお
いて計算された線幅との関係より垂直サブパターン（Ｖ
ＳＰ）を抽出し垂直サブパターンレジスタに格納する。

同様に水平スキャンにより水平サブパターン（Ｈ３Ｐ）
を、右斜め４５°スキヤンにより右斜めサブパターン（
Ｈ３Ｐ）を左斜め４５°スキヤンにより左斜めサブパタ
ーン（ＬＳｒ）、を抽出し、各サブパターンレジスタに
格納する。

文字枠検出部６はパターンレジスタ３内の入カバターン
に外接する方形枠を検出し、その結果を文字枠分割決定
部７へ送る。この方形枠を文字枠と呼ぶ。

文字枠分割決定部７は文字枠検出部６で検出された文字
枠内をＭＸＮ個の領域（Ｍ、Ｎは整数、本実施例ではＭ
＝Ｎ＝５）に分割するためのＸ軸。

Ｙ軸上の分割座標を決定する。ここでＸ軸、Ｙ軸はそれ
ぞれ水平方向及び垂直方向の座標軸を示す。

特徴マトリクス抽出部８は文字枠分割決定部により決定
された分割点座標をうけてｖｓｐ。

Ｈ５Ｐ、ＲＳＰ、ＬＳＰの各サブパターンレジスタ上の
文字枠内領域をＭＸＮ個の部分領域に分割し、各領域内
の特徴量を計算して、ＭＸＮＸ４次元の特徴マトリクス
を抽出する。以下、特徴量の計算方法を説明する。

まず、それぞれのサブパターンについて各部分領域内の
黒点数Ｂｉｊを計数し、線幅計算部４で計算した線幅Ｗ
を用いて式（１）により文字線長をあらわす特徴量を計
算し、ＭＸＮ次元のマトリクスをそれぞれのサブパター
ンごとに作成する。

さらに■ＳＰ特徴マトリクスは文字枠のＹ軸方向の長さ
ΔＹで、Ｈ３Ｐ特徴マトリクスは文字枠のＸ軸方向の長
さΔＸで、Ｈ３Ｐ及びＬＳＰ特徴マトリクスは（ΔＸ＋
ΔＹ）／２でそれぞれ正規化を行ない最終的にＭＸＮＸ
４次元の特徴マトリクスを作成する。

マトリクス識別部９は、特徴マトリクス抽出部８で抽出
した特徴マトリクス（Ｆｍ）とあらかじめマトリクス辞
書１０に用意されている辞書マトリクス（Ｆ　ｄ）との
間に式（２）で定義される距Ｍ　（Ｄ）を適用し、Ｄの
値が小さなものから順に対応する辞書マトリクスの文字
名をＮ＾個取出す−９このＮ＾個の文字名を入力文字の
候補文字名グループと呼び、候補文字名バッファ１１に
出力する（本実施例ではＮ＾＝１０）。

Ｄ＝　　ｌ　（Ｆｍ＆　−Ｆｄ＋　）　２−・（２）こ
こで、Ｆｍ　、　Ｆ　ｄ４は特徴マトリクス及び辞書マ
トリクスの各要素を表わしｌ≦に≦（ＭＸＮＸ４）であ
る。

候補文字名バッファ１１は前記マトリクス識別部９から
出力された候補文字名グループを貯えていく。また、候
補文字名として空白を得た場合は、貯えている候補文字
名グループを後処理部１２へ出力し、バッファ内を初期
化する。すなわち、本実施例では空白を区切りとして単
語の取出しを行なう（以下、これら候補文字名グループ
に対応する入力文字の集合を入力単語と呼ぶ）。但し、
貯えている候補文字名グループがあらかじめ規定した数
値Ｎ、、（Ｎ、：単語最大文字数と空白以外の文字の最
大連続数、本実施例では１０）に達した場合にも、貯え
でいる候補文字名グループを出力し、バッファ内をクリ
アする。

特徴マトリクスバッファ１２は、特徴ブトリクス抽出部
８ｐ抽出した特徴マトリクスを貯える。そして、貯えた
特徴マトリクスを差分識別部１Ｂの要求により、出力し
、出力した後はバッファ内をクリアする。

後処理部１３はまず、前記候補文字名バッファ１１から
出力された候補文字名グループ（入力文字数に文字、各
文字について候補文字名ＮＡ個）より入力文字１文字に
ついて１個の候補文字名を取り出し、長さＫの文字名列
を作る１次に、後処理部１３はこの文字名列と同一の単
語が単語辞書１４内に存在するか検索し、存在する場合
は当該単語を候補単語として差分識別部１Ｂ及び差分辞
書作成部１５に出力する。この処理を候補文字名グルー
プ内の全ての候補文字名を組合せた文字名列について行
なって得られた候補単語を全て出力する０以上の処理に
ついて、第４図を例に説明する。同図（ａ）は入力文字
ｒ大」、「田」、「市」とそれぞれの入力文字に対する
候補文字名である。この例では説明を簡単にするためＮ
＾＝３．に＝３とする。

入力文字「太」に対しては候補文字名グループ（大、大
、犬）が得られており、同様に入力文字「田」に対して
は（田、由１国）、入力文字［市Ｊにしては（市、布、
中）が候補文字名グループとして得られている。次に、
前記３つの候補文字名グループからそれぞれ１個づつの
候補文字名を取出す。例えば「大田布」という文字名列
を取出して、この文字名列と同一の単語が単語辞書１４
内に存在するか検索する。この例の場合は住所を認識対
象としているので、単語辞書１４にはあらかじめ住所単
語を格納しておく、前記の文字名列「大田布」は住所単
語として存在するので、後処理部１３は文字名列「大田
布」を候補単語として差分識別部１６及び差分辞書作成
部】５に出力する。

さらに、前記３つの候補文字名グループからそれぞれ１
個づつ候補文字名を取出して作ることのできる全ての文
字名列について、前記の単語辞書との照合を行う。この
例では「大田布」の他に「太１１市」、「大田布」、「
大田布」など２７個（＝Ｎ＾×に個）の文字名列につい
て、単語辞書１４との照合を行うにれらの文字名列のう
ち「大田布」及び「太田市」が単語辞書１４内叫存在す
るので、この２単語名を候補単語名として出力する（第
４図（ｂ））。第５図は前記文字名列と単語辞書との照
合の方法を図示したものであり、候補文字名を組み合わ
せて作られる文字名列から取り出した「太田市」と単語
辞書１４内の単語「太田市」が一致して候補単語名とし
て出力される。

単語辞書１４には、認識対象とする単語名が格納されて
いる。本実施例では住所を認識対象としているので、単
語辞書１４には都道府県名、市町村名などをあらかじめ
格納しておく。

差分辞書作成部１５は後処理部１３から出力されたＮＩ
）個の候補単語名を受けて、Ｎ、≧２の場合に限りこれ
らの候補単語名の中から２個づつの組合せを作り、全て
の２個の候補単語名（文字数に個）について以下の処理
を行なう。

まず、２個の候補単語名を比較し、ｉ文字目（ｌ≦ｉ≦
Ｋ）の文字名が異なるとき、それぞれの文字名に対応す
る辞書マトリクス（Ｆｄ＾及びＦｄ、）をマトリクス辞
書１０から取出す、さらに、（３）式により辞書マトリ
クス１ｏの各要素の差の絶対値を要素とする差分辞書マ
トリクス（ＷＡβ）を作成する。

Ｗ非ＩＦｄ硫−Ｆ　４／Ｊ・・・・・・・・・（３）但
し、ＷＡ鵠＋　Ｆ　ｄＡ屹、Ｆｄｅ＆はマトリクスＷＡ
、　。

Ｆｄ＾、ＦｄｌＩの要素を表わす。また、ｋ＝１゜２、
・・・、ＭＸＮＸ４である。差分辞書マトリクスは２個
の候補文字名を比較したとき、同じ文字位置で文字名が
異なるものがあれば全てについて作成される。

差分辞書作成部１５は、以上のように作成した差分辞書
マトリクスを差分識別部１Ｇへ出力する。以下、第６図
を用いて差分辞書マトリクスの例を説明する。まず、後
処理部１３から「太田市」、「太田市」の２個の候補単
語名が得られたとする。この２個の単語名を比較すると
「大」と「太」が異なるので、この２つの文字名に対応
する辞書マトリクスを取出し、差分辞書マトリクスを作
成する。第６図（ａ）及び（Ｃ）はそれぞれ「大」及び
「太」の文字パターン例、同図（ｂ）、（ｄ）はそれぞ
れ「大」及び「太」に対応する辞書マトリクス例であり
、同図（ｅ）は差分辞書マトリクスの例である。また１
図中のＨ，Ｖ、Ｌ、ＲはそれぞれＨＳＰ特徴マトリクス
、ＶＳＰ特徴マトリクス。

ＬＳＰ特徴マトリクス、Ｒ３Ｐ特徴マトリクスであるこ
とを示している。第６図から、差分マトリクスのＲ５Ｐ
特徴マトリクスをみると、「大」とｒ太」の相異部分「
、」に大きな要素値が現れていることがわかる。

差分識別部１６は、後処理部１３から出力された候補単
語名（単語数２８０個）と羨分辞書作成部１５で作成し
た差分辞書マトリクスをうけて前記候補単語名の順序付
を行ない、最も上位の候補単語名を出力する。以下、順
序付の方法を説明する。後処理部】３４から得たＮ、個
の候補単語名について２個づつの組合せを作り、それら
全ての組合せについて次の処理を行う。２個の候補単語
名（Ｃ＾。

Ｃ，とする文字数に個）を比較し、ｉ文字目（ｌ≦ｉ≦
Ｋ）の文字名が異なるとき、それぞれの文字名（文字名
をＡ、Ｂとする）に対応する辞書マトリクス（Ｆｄ＾及
びＦｄ、）をマトリクス辞書１０から取出し、差分辞書
作成部１５から文字名Ａ。

Ｂに対応する差分辞書マトリクスＷＡうを取出す。

さらに、認識しようとしている入力文字パターンの特徴
マトリクスをＦｍとしたとき、式（４）、（５）を適用
して文字名Ａ及びＢに対する重み打圧＃Ａ＾、Ｄ、を計
算する。

Ｄ＠＝　　ＩＷｓＢｔ（Ｆｔａｋ−Ｆ４を戸−（５）さ
らにＤ＾、Ｄ、を比較し式（６）を適用して、２個の単
語名Ｃ＾、Ｃ，に対する得点、ＰＡε、Ｐれを与える。

また、ｉ文字目以外にも異なる文字名があれば同様に重
み打圧離を計算し、得点を求める。さらに得点を累積し
て、累積得点Ｐ＾、Ｐ、を求める。Ｐ＾、Ｐ８を式（７
）に示す。

ＦＡ＝迄　１＾コ・１・＝六、Ｐ−コ°゛°（υ但し、
ｊ文字目の文字名が２個の単語名について同一であればＰＡ３＝　０　、　Ｐ　、Ｊ＝　０とする。

ざらにＰ＾、Ｐ、を比較し、改めて候補単語名Ｃ＾、Ｃ
，に対する得点Ｑ　ＡＢ　−Ｑ　ＢＡを式（８）により
与える。

以上のように２個の候補単語名Ｃ＾、Ｃ１ｌの得点Ｑ　
Ａ８＋　Ｑ　ＢＡを求める。この処理を８０個の候補単
語名から取出して作ることのできる全ての２個の組合せ
について行ない、単語名ごとに得点を累積して最も高得
点の単語名の文字名列を文字名山力１７に出力する０式
（３）に、単語名Ｃｋの累積得点Ｒｋの計算式を示す、
但し、Ｑｋｊは単語名ＣｋのＣｊに対する得点である。

Ｒｋ　＝、Σ　Ｑｋｊ　　・・・・・・・・・・・・・
・・・・・・・・　（９）（但しＱｋｋ＝０とする）この累積得点Ｒｋの最も大きい単語名の文字名列を、最
終的な認識結果として文字名出力１７に出力する。また
、後処理部１２から出力された候補単語名が１個（すな
わちＮｏ＝１）の場合は、差分識別は行なわずに候補単
語名の文字名列を文字名出力１７に出力する。候補単語
名が０個の場合は、読取不能コードを出力する。

以上説明した差分識別部１Ｂの動作をフローチャートで
示せば、第７図（ａ）及び（ｂ）のとおりである。第７
図（ａ）において、後処理部１３で得られた候補単語名
（文字数Ｋ）の測置を８０個とする。

差分識別部１Ｂのフローは５７０１で始まり、処理は５
７０２へ移る。もし候補単語名が０個の場合（８口くｌ
の場合）は、５７０２から５７０３へ処理が移り、識別
不能を表わすコードを出力して５７１０へ移り終了する
。また、候補単語名が１（ｉｌの場合（Ｎ、＝１の場合
）は、５７０２から５７０４−５処理が移り、後処理部
から出力された候補単語名を結果として出力して５７１
０へ移り終了する。

候補単語名が複数個の場合（Ｎｏ＞１の場合）は。

５７０２からＳ　７０５へ処理が移り、３７０５では、
５７０７で候補単語名に与えられる得点Ｒの初期値を全
てＯにする。

そして、５７０６ではＮ、個の候補単語名から２個の候
補単語名Ａ、Ｂを取り出す、その取り出された候補単語
名Ａ、Ｂに対し５７０７でそれぞれ得点Ｑ　ＡＢ　、Ｑ
　ＢＡを計算する。得点の計算は後述する。８７０８で
は、Ｎｌ）個の候補単語名から２個の候補単語名を取り
出す組合せが全て行なわれたかどうかを判断し、全て行
なわれた場合には、Ｓ　７０９へ処理が移り、そうでな
い場合には、再び、５７０６と５７０７の処理を行なう
。５７０８では、５７０７で計算された得点Ｑの合計を
求め得点Ｒとし、最も得点Ｈの高い候補単語名を識別結
果として出力し５７１０へ移りフローが終了する。

ここで、５７０７の２個の候補単語名に得点Ｑを与える
処理について、第７図（ｂ）を用いて詳細に説明する。

第７図（ａ）の３７０８で２個の候補単語名が得られ、
処理が８７０７に移った時第７図（ｂ）の３７１１から
フローが開始する。　５７１２の工は候補単語名の何文
字目かを示す変数で、２個の候補単語名の文字名の一致
のチェックを１文字目から行なうように工に１を代入す
る。第７図（ｂ）のフローでは、得点はＰとＱの２種類
を使う、得点Ｐは２個の候補単語名間で互いに異なる文
字名がある時に候補単語名に与えられる得点で、得点Ｑ
は２個の候補単語名の文字名の比較を全ての文字名に対
して行なった後に得点Ｐを比較して得点Ｐの大きな候補
単語名の方に改めて与える得点である。５７１３では候
補単語名Ａの得点Ｐ＾と候補単語名Ｂの得点Ｐ、に初期
値としてＯを与える。

候補単語名Ａ、Ｂの文字数をＴｅとし、候補単語名Ａの
各文字名をＴＡ　（Ｉ）、（Ｉ＝ｌ　、Ｔｅ）表わし、
同様に候補単語名Ｂの各文字名をＴ（Ｉ）（Ｉ＝１．、
Ｔｅ）と表わす、　５７１４−ｃは、候補単語名Ａと候
補単語名Ｂの工文字目の文字名が一致しているかどうか
調べる。つまりＴＡ　（ｒ）とＴｌ１（Ｉ）が一致して
いるかどうかを調べ、ＴＡ　（Ｉ）とＴｌ１（Ｉ）が一
致していれば、５７２１に処理が移る。また、ＴＡ（Ｉ
）とＴｌｌ　（Ｄが一致していなければ、５７１５に処
理が移り、予めＴ＾　（Ｉ）と”ｒｌｌ（Ｉ）の差分辞
書マトリクスを差分辞書作成部１５で作成し、入カバタ
ーンのサブパターン特徴マトリクスと文字名Ｔ＾　（Ｉ
）の標準文字マスクの辞書との前記差分辞書マトリクス
で重み付けされた距離Ｄ＾を５７１５で、入カバターン
のサブパターン特徴マトリクスと文字名Ｔｌ１（Ｉ）の
標準文字マスクの辞書との前記差分辞書マトリクスで重
み付けされた距離り、をＳ　７１Ｂで計算する。５７１
７では、前記のＤ＾とり、の大小比較を行ない、Ｄ＾が
り、よりも大きい時は、５７２０で候補文字名Ｂの得点
Ｐ、に２点を加え、Ｄ＾がり、よりも小さい時は、５７
１８で候補文字名Ａの得点Ｐ＾に２点加え、Ｄ＾とＤｌ
が等しい時には５７１８でＰ＾とＰ、に共に１点を加え
る。得点Ｐに点数を与えた後、５７２１へ処理が移る。

５７２１では、候補単語名の次の文字名の比較を行なう
ため、■を１増し５７２２に処理が移る。５７２２では
、■の値が候補単語名の文字数Ｋを超えた場合は、５７
２３へ移り、超えない場合は５７１４の処理を行なう。

５７２３では、候補単語名Ａ、Ｂの１文字目の文字名か
らに文字目の文字名までの比較が終了した後の得点Ｐ＾
と得点Ｐ、の比較を行なう。Ｐ＾がＰｆＩより大きい場
合は、８７２６で候補単語名Ａの得点ＱＡ８に２点を与
え、Ｐ＾がＰ、より小さい場合は、５７２５で候補単語
名Ｂの得点Ｑ、に２点を与え、Ｐ＾とＰ８が等しい場合
は５７２４でＱＡｌｌとＱ　１１４に共に１点を与え、
５７２７に処理が移り終了する。

（発明の効果）以上詳細に説明したように、本発明によれば、Ｎ＾個の
候補文字名から２個取り出し、各文字名の標準文字マト
リクスの各要素の差の絶対値を要素とする差分辞書マト
リクスを入力文字特徴マトリクスと標準文字マトリクス
との距離の重み付けとして距離の小さい候補文字名に得
点を与えることを、全ての組合せに対して行ない順序付
を行なうこととしたため、特徴マトリクス識別の識別結
果で字形の酷似した類似文字が候補として選択された場
合でも差分識別は字形の相異部分に着目して相異部分に
対応するマトリクス要素値を強調した識別を行なってい
るので、正確な文字認識を行なうことができる。また、
辞書マトリクスから計算した差分マトリクスを重みマス
クとしているので、予め字形の酷似した類似文字ごとに
対応した重みマスクを用意する必要がなくなり、辞書を
増大させることなく文字認識装置に利用した場合に、装
置の構造が簡単になるという効果がある。

また、本発明は単語辞書による後処理を行なった後に得
られる候補単語名に入力文字の類似文字が含まれている
場合、もともと類似文字間では誤認識する確率が高いた
めに、誤まった候補単語名が１位の候補として出力され
る可能性があるが、本発明によれば、単語辞書を用いた
後処理で得られた候補単語名について差分識別を行なう
ことで、類似文字に誤認識することを防げ、認識精度の
向上がはかれる。さらに、差分識別を行なう候補数がＮ
個であるとすると、差分識別をする際にＮ０２回のマツ
チングが行なわれる。しかし、単語辞書による後処理を
行なった後に、差分識別を行なう場合は差分識別を行な
う候補単語名の装置が少なくなるので、マツチングの回
数は大幅に少なくなる。このため差分識別の高速化がは
かれる０以上より、処理速度および認識精度が大幅に向
上する。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
従来の単語辞書を用いた後処理の例を示すブロック図、
第３図はサブパターンの抽出例を示す図、第４図及び第
５図は第１図に示す後処理部１３の動作を説明するため
の図、第６図（ａ）及び（Ｃ）は文字パターン例を示す
図、第６図（ｂ）及び（ｄ）は辞書マトリクス例を示す
図、第６図（ｅ）は差分辞書マトリクス例を示す図、第
７図は第１図に示す差分識別部１６の動作フローチャー
トである。１−ｍ−光信号入力、２−ｍ−光電変換部、３−ｍ−パターンレジスタ、４−一一線幅計算部、５−ｍ−サブパターン抽出部、６−−−文字枠検出部、７−−−文字枠分割決定部、８−−一特徴マトリクス抽出部、９−一一マトリクス識別部、ｌＯ−ｍ−マトリクス辞書、１１−ｍ−候補文字名バッファ、１２−−−　特徴マトリクスバッファ、１３−ｍ−後処
理部、１４−ｍ−単語辞書、１５−一一差分辞書作成部、１６一−−差分識別部、１７−−−文字名出力。特　　許　　出　　願　　人沖電気工業株式会社特許出願代理人

Claims

【特許請求の範囲】

文字図形パターンの特定方向のストロークをあらわすサ
ブパターンにおける任意の分割単位領域の黒ビット数を
文字線幅とストローク方向に対応した文字枠の大きさと
で正規化して得られる量を特徴要素として、ストローク
方向の異なる複数の各サブパターン毎に且つ文字枠内を
分割することによって得られる前記各分割単位領域毎に
当該文字図形パターンから前記特徴要素を抽出してサブ
パターン特徴マトリクスを作成し、標準文字マスクが当
該サブパターン特徴マトリクスと同形式で記述されてい
るマトリクス辞書を参照して当該文字図形パターンの認
識を行う文字認識方式において、前記文字図形パターン
のサブパターン特徴マトリクスと前記標準文字マスクと
の照合を行ない、両者の距離の小さなものから標準文字
マスクの文字名を所定個取出し、これを文字図形パター
ンの候補文字名グループとして保存する第１の識別工程
と、連続する文字図形パターンにそれぞれ対応する候補
文字名グループから１文字ずつ取出して組合せた文字数
Ｋ個の文字名列が予め用意した単語辞書内に存在するか
どうかを調べ、存在していれば前記文字名列を候補単語
名として出力する第２の識別工程と、前記候補単語名が
Ｎ＿０個（Ｎ＿０は２以上の整数）ある場合にＮ＿０個
の前記候補単語名から２個取出し、この２個の候補単語
名を比較しｉ文字目（１≦ｉ≦Ｋ、ｉは整数）の文字名
が異なるとき、それぞれのｉ文字目の文字名のマトリク
ス辞書の各要素の差の絶対値を要素とする差分辞書マト
リクスを作成し、該差分辞書マトリクスでサブパターン
特徴マトリクスと前記ｉ文字目の文字名の標準文字マス
クとの距離に重み付けを行ない、その重み付距離の小さ
い方の文字名を含む候補単語名に対して所定の得点を与
え、Ｋ文字目まで比較が終った後の得点の和が大きい方
の候補単語名に対して改めて所定の得点を与えることを
、Ｎ＿０個の候補単語名から２個取出して得られる全て
の組合せに対して行ない、最も得点の高い候補単語名を
識別結果として出力する第３の識別工程とを有すること
を特徴とする文字認識方式。