JPS61267882A

JPS61267882A - 文字認識装置

Info

Publication number: JPS61267882A
Application number: JP60110840A
Authority: JP
Inventors: Minoru Nagao; 永尾　実
Original assignee: Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1985-05-22
Filing date: 1985-05-22
Publication date: 1986-11-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈発明の技術分野〉この発明は、未知の文字や数字・記号等（この明細書で
は、これらを一括して「文字」と呼ぶ。）のパターンを
読み取り、このパターンを白黒２（ｅ化して入力画像を
求めた後、特徴抽出部によってその幾何学的特徴を抽出
し、その抽出結果と標準パターンとを照合することによ
って、その未知文字を認識する文字認識装置に関する。

〈発明の概要〉この発明は、入力画像の黒地と白地との境界を追跡して
ストロークを抽出する場合において、重複してストロー
ク抽出される黒地部につき、これを黒地塊として変換抽
出し、文字パターンの特徴の一つとして与えるようにし
たものであり、これにより、誤った文字認識が行われる
のを防止している。

〈発明の背景〉従来の文字認識装置は、第９図に示すように、未知文字
１を光学的に読み取って画像化する読取部２と、この読
取部２からの入力画像に対して平滑化等の前処理を施こ
す前処理部３と、前処理された画像の幾何学的特徴を抽
出する特徴抽出部４と、抽出された特徴をあらかじめ辞
書５に格納されている標準パターンと照合して未知文字
を認識する辞書照合部６とから構成されている。

一般に、前記特徴抽出部４では、入力画像の黒画素に着
目し、第１０図に示すように、入力画像Ｇを細線化して
細線パターンｇを求め、この細線パターンｇから未知文
字の特徴を抽出する方式がとられている。

ところがこの方式においては、画像の細線化処理を必要
とし、処理時間が長くなるため、近年、入力画像から直
接未知文字の特徴を抽出する方式が提案されている。こ
の方式では、たとえば第１１図に示す文字パターンの特
徴を抽出する際において、入力画像Ｇにおける黒画像と
白画像との境界（図中、太線で示す）に着目し、この境
界を、第１２図に示すＡ−Ｄの４つの方向で追跡するこ
とによって、対をなすサブストローク　（Ａ１．ＡＺ　
）、ＣＢ＋、Ｂｔ　）、（Ｃ＋、Ｃｚ　）を抽出する。

この境界の追跡は、第１３図に示ように、入力画像Ｇを
所定の方向（図中、矢印で示す）に走査してゆき、この
走査過程において、あらかじめ設定しである上記Ａ−Ｄ
のいずれかの方向に伸びるパターンと遭遇したときには
、その方向への境界の追跡を開始し、その方向へのパタ
ーンが消失するまでその追跡を継続することによって行
われる。このようにして、対をなすサブストロークが得
られると、それらに基づいて第１４図に示すようなスト
ロークの集合としての近似パターンｆを求めるのである
。

ところが、この方式によれば、「つ」、「ツ」、「シ」
、「ソ」、「ン」等の極短かつ幅広のストロークが発生
し易い文字の場合には、応々にして特徴抽出の誤りが生
じる。

第１５図は、片仮名文字「つ」の文字パターンを例示し
ており、この文字パターンでは、図中Ｈで示す部分が穢
短かつ幅広のストロークとなっている。このストローク
では、サブストロークＡ、とサブストロークＡ２との一
対性が成立し、且つサブストロークＢ、とサブストロー
クＢ２との一対性が成立している。したがってＨで示す
黒地部分は、ＡストロークとＢストロークが重複して抽
出され、第１６図に示すような誤った近似パターンｆ′
となる。

このように従来の文字認識装置では、殊に極短かつ幅広
のストロークが発生し易い文字については、必ずしも正
確な文字認識を行うことができないという欠点があった
。

〈発明の目的〉この発明は、上述した欠点の克服を意図しており、正確
な文字認識を行うことのできる文字認識装置を提供する
ことを目的とする。

〈発明の構成および効果〉上記目的を達成するため、この発明においては、ストロ
ーク抽出手段の他に、このストローク抽出手段によって
重複して抽出されたストロークを含む黒地を黒地塊とし
て変換抽出する黒地塊抽出手段を設けることにした。

この発明によれば、文字パターン「つ」、「ツ」、「シ
」、「ソ」、「ン」等で黒地塊が発生した場合であって
も、ストロークの代替情報とした場合であっても、スト
ロークの代替情報として黒地塊を表す情報が文字特徴と
して抽出されることになり、これを利用して正確な文字
認識を行うことが可能である等、発明目的を達成した顕
著な効果を奏する。

〈実施例の説明〉第１図は、この発明の一実施例である文字認識装置のブ
ロック図を示す。

第１図において、画像メモリ７は、未知文字の幾何学的
パターンを読み取って白黒２値化した入力画像を記憶す
るためのメモリである。境界ラベリング回路８は、画像
メモリ７に記憶された画像のうち、白地と黒地との境界
部に位置する黒画素に、後述するラベル化を行うための
ものである。サブストローク抽出回路９は、ラベル化が
行われた後の文字パターンのデータからサブストローク
を抽出する回路である。ストローク抽出回路１０は、こ
のサブストロークについてのデータから、対となすサブ
ストロークを抽出してストロークデータを与える回路で
ある。文字特徴点抽出回路ＩＩは、ストロークデータに
基づきストローク相互の位置関係を調べて、文字の基本
的な特徴である交点、分岐点などの幾何学的な特徴を抽
出する回路である。黒地塊抽出回路１２は、ストローク
が重複して抽出された黒地部を黒地塊として抽出する回
路である。

またＲＡＭ１３は、ストローク抽出後のデータからスト
ロークが重複して抽出された黒地部を黒地塊として抽出
する処理を行うためのプログラムや、上記境界ラベリン
グ回路８、サブストローク抽出回路９、ストローク抽出
回路１０、文字特徴点抽出回路１１および黒地塊抽出回
路１２をＣＰＵＩ　４によって制御するためのプログラ
ム、それに前記境界ラベリング回路８によって得られる
ラベル化情報、サブストローク抽出回路９とストローク
抽出回路１０とによって得られるサブストロークデータ
やストロ−、クデータおよび本発明の目的である黒地塊
データなどを格納するメモリである。

ここでまず、境界ラベリング回路８によるラベル化処理
の方法について、第２図を参照して説明する。

第２図は、第１５図の文字パターンのうち、部分Ｈに対
応する箇所を拡大して示しており、この部分Ｈにおいて
は、前記のとおりサブストロークＡ、とＡ２との間の一
対性並びにサブストロークＢ、とＢ２との間の一対性が
成立している。従ってこの部分Ｈからは、ストロークが
重複して抽出され、前記黒地塊抽出回路１２によって、
部分Ｈは黒地塊として抽出される。なお第２図および第
１５図において、Ｘとｙとは、各画素を特定するための
画素番号（座標）である。また、文字パターンに対応す
る画素は黒地であり、他の部分は白地となっていると考
える。

まず境界ラベリング回路８は、各画素について、（ｏｌ
、　（ｒ）、　（ｇ、　（ｕ、　　（１）・・・等で示
したラベル化を行うが、これらの記号の意味を第３図に
示す。例えば記号（ｕｌは、第３図（ア）に示すように
、その画素の上側に隣接する画素が白地（ｗ）となって
おり、右側、左側および下側に隣接する画素は黒地（ｂ
）となっているような画素を示すラベルである。実際の
ラベル化は、上下左右のそれぞれに関する計４ビットを
“１”、“０”の２進値によって表現する。同図（イ）
の例では、上側と左側にそれぞれ隣接する画素が白地（
ロ））になっている画素のラベルである。第２図は、こ
のように、Ｕ＝上側（ｕｐ）、ｄ＝　　下側（ｄｏｗｎ
）　。

！＝左側（ｌｅｆｔ）およびｒ＝右側（ｒｉｇｈｔ）に
よって、それぞれの画素に隣接する画素のうち白地のも
のがいずれに存在するかを示しており、記号（０１は、
隣接する画素中に、白地のものがないことを意味してい
る。このようにして第１５図の画素にラベル化を行い、
その結果であるラベルを各画素の（ｘ、　　ｙ）座標と
ともに、ＲＡＭ１３内のＮＣ０Ｔと呼ぶ領域に第４図に
示すように格納しておく。

この格納に際しては、まず第１５図の未知パターンに対
して、第１３図中に矢印で示した方向へと走査を行い、
最初に到達した（ｕ、ｒ）ラベルの画素から、文字パタ
ーンを左まわりに追跡する。ここで、左まわりの追跡と
は、第５図に示すように、その時点における追跡点が位
置する画素のラベルの４ビツトのうちの“１”を示すピ
ッｌ−Ａ、−Ｄ、に着目し、“１”を示すビットの位置
がＡ１の場合には、そのラベルまたはそのラベルに隣接
するラベル中のＡ２〜Ａ、の位置に“１”を示すビット
が存在するか否かを、このＡ２−Ａ４の順序に従って検
出し、存在する場合には、検出されたビット“１”を含
むラベルの座標位置へと追跡点を移すとともに、そのビ
ット“１”に新たに着目して次の追跡を行うことをいう
。

例えば、第２図のラベル（ｄ、Ｎ）で示される画素３１
に追跡点がある場合、このラベル（ｄ、　　β）中の位
置Ａ、のビット（ラベルにｄを含んでいるのでビット“
１”である）に着目すれば、Ａ２の位置にはビット“１
”が存在せず、Ａ、の位置にビット“１”が存在してい
るので、このビット“１”を含むラベルにより表される
隣接の画素３２に追跡点を移すのである。

第５図（Ｂ）〜（Ｄ）も同様であって、Ｂｔ”’Ｂａ。

Ｃｔ　”’Ｃａ　、Ｄｚ〜Ｄ４のそれぞれの順序で、ラ
ベルのビット“１”の検出と追跡とを行う。

この追跡によって、文字パターンの外周境界に位置する
画素が順次検出されると、その順序に従って、位置座標
とラベルの種類とが、第４図に示すメモリ領域ＮＣ０Ｔ
上に格納されることになる。一方、追跡点は、文字パタ
ーンのひとつの連結部分のまわりをまわると、元の追跡
出発点へと戻って閉ループを形成するもので、この追跡
点が追跡出発点へ戻った場合には、第４図中に「ストッ
パ」と表示された指標を与えておく。その後、次の連結
部分についての追跡を行い、同様の処理を繰返す。した
がって、第４図中の「ストッパ」の数は、その文字パタ
ーンの連結数と一致し、ひとつのストッパと他のストッ
パとの間に格納されたデータは、同一の連結部分に関す
るデータを意味することになる。

そして、この一連結のデータの各々を識別するために、
各一連結データの前には連結番号Ｃ０Ｔｌ、Ｃ０Ｔ２．
・・・・・・を付加してお（。

第６図は、ＲＡＭ１３内の記憶領域のうち、各ストロー
クの端点を形成する画素のデータを記憶するためのＳ　
Ａ　Ｍ　ｉｆＮ域の一部を示す。例えばＡＳＴＭは、Ａ
方向のストロークについての端点情報を格納する領域を
意味し、Ａ方向のストロークたとえばストロークＳＡＩ
の４つの端点に相当する画素のデータが、サブストロー
ク単位のバンクとして格納されている。Ｂ方向のストロ
ークの端点情報およびＣストロークの端点情報を格納す
る領域ＢＳＴＭやＣ３ＴＭも同様の態様でデータが格納
されている。

第８図は、ＲＡＭ１３内に設けられたＮＢＬＡＣＫ領域
およびＳ　Ａ　Ｖ　Ｅ　８３域を示し、これら領域には
後述する如く、黒地部抽出処理に関連するデータがセッ
トされる。

次Ｃ４この実施例における処理を順次説明する。

まず、第９図の読取部２によって、未知文字の幾何学的
パターンが読取られる。このパターンは、画像メモリ７
　（第１図）中に格納され、境界ラベリング回路８によ
って、上述したラベル化が行われて、一連結データが第
４図に示した態様でＲＡＭ１２中のＮ　ＣＯＴ　ｅＩ域
に格納される。その後、サブストローク抽出回路９はラ
ベル化された黒地の画素の、４方向における連続性を追
跡して、サブストロークデータを求め、つづいて、スト
ローク抽出回路１０は、このサブストロークデータを参
照して、サブストローク相互間の一対性を判定し、サブ
ストロークデータを各方向のストロークごとに分類する
。次に、このストローク抽出回路１０は、抽出済みのス
トロークデータから、各ストロークのストローク端点を
決定し、端点情報を第６図に示した態様でＲＡＭ１３中
のＳＴＭ領域に格納する。

次に黒地部抽出回路１２は、前記ＮＣ０Ｔ領域およびＳ
　Ｔ　Ｍ　ＳＪＩ域に格納された一連結データおよびス
トローク端点データを用いて、重複抽出されたストロー
クを含む黒地部を、黒地部として抽出する処理を実行す
る。この黒地部抽出処理の処理手順を、第７図のフロー
チャートにより以下に説明する。

まずステップ４１では、第６図に示すＳＴＭ領域領域大
トローク端点データを全てチェックしたか否かを判定す
る。最初、その判定は“Ｎｏ”であるので、ステップ４
２へ進み、ストローク端点データをロードする。第６図
の例では、Ａ３７Ｍ領域の（９，１）ｕのデータが最初
にロードされる。次にステップ４３では、ＮＣ０Ｔｔｌ
域が走査され、前記（９，１）ｕのデータと一致する座
標データが探索され、しかる後火のステップ４４で、そ
の座標データの次に位置する座標データ（この例では、
（９，１）ｆ）がロードされる。

なお前記ステップ４２におけるデータのロードに際して
は、そのストローク端点データが属するストローク番号
およびサブストローク番号（この例では、ストローク番
号がＳＡＩ、サブストローク番号がＡ１である）を、第
８図に示す５ＡＶＥ領域に格納しておくものとする。

次にステップ４５では、Ｓ　Ｔ　Ｍ　領域が走査され、
ロード済の前記座標データ（９，１）１と一致するスト
ローク端点データが探索される。

この実施例の場合、ＢＳＴＭＳｉ域に（９，１）ｌのデ
ータが存在しており、次のステップ４６において、その
データが属するストローク番号（この場合、ＳＢ　１）
が前記５ＡｖＥ６１域に格納される。

次のステップ４７では、前記のデータ（９，１）ｉが属
するサブストロークＢ１と対となす相手サブストローク
Ｂ２のストローク端点データ（１１，１）ｒがロードさ
れる。そしてさらにステップ４８で、ＮＣｏＴ％ｊ［域
が走査され、前記のデータ（１１，１）ｒと一致する座
標データが探索され、しかる後続くステップ４９で、そ
の座標データの次の座標データ（この例では、（１１，
１）ｕ）がロードされる。さらに次のステップ５０では
、３７Ｍ領域が走査され、ロード済の前記座標データ（
１１，１）ｕと一致するストローク端点データが探索さ
れる。この場合ＡＳ”ｒＭＴｉｌ域に（１１，１）ｕの
データが存在しており、次にステップ５１に、おいて、
そのデータが属するストローク番号およびサブストロー
ク番号（この場合、ＳＡＩとＡｌ）が、前記ステップ４
２でＳ　Ａ　Ｖ　Ｅ　９１域に格納されたストローク番
号およびサブストローク番号と一致するか否かを判定す
る。その結果、両者が一致するとき、ストロークが重複
して抽出されたものと判断し、次のステップ５２におい
て、前記Ｓ　Ａ　Ｖ　Ｅ　？ＩＩ域に格納されたストロ
ーク番号に対応する３７Ｍ領域のストローク番号（この
場合、５ＡＩ）を例えば“０”等のラベルで抹消する。

そして次にステップ５３で、ＲＡＭ１３中のＮ　Ｂ　Ｌ
　Ａ　ＣＫ　ＴｉＵ域に設けられた黒地塊カウンタ１５
を１加算すると共に、５ＡＶＥ領域中のストローク番号
をこのＮＢＬＡＣＫ領域に格納する。

つぎにステップ４１に戻って、第６図のストローク端点
データを全てチェックしたか否かを判定する。この場合
、その判定は“ＮＯ”であるから、次のステップ４２で
、ＳＴＭ領域中の次のストローク端点データ（３，１０
）ｕがロードされると共に、そのデータが属するストロ
ーク番号ＳＡ２が５ＡＶＥ領域に格納される。なおこの
場合、ストローク番号が抹消されているストローク端点
データについては、そのデータはロードされず、次のス
トローク端点データがロードされることになる。

かくしてステップ４３でＮ　ＣＯＴ　領域が走査され、
前記（３，１０）ｕのデータと一致するデータが探索さ
れ、次のステップ４４でそのデータの次の座標データ（
この場合、（３，１０）　ｊ２　）がロードされる。次
にステップ４５で、３７Ｍ領域が走査され、（３，１０
）ｌのデータと一致するストローク端点データが探索さ
れる。この場合、Ｂ　Ｓ　Ｔ　Ｍ　ＳＩ域に該当データ
が存在しており、次のステップ４６でそのデータが属す
るストローク番号ＳＢ２が５ＡＶＥ領域に格納される。

次のステップ４７では、（３，１０）ｊｌ！のデータが
属するサブストロークと対をなす相手サブストロークの
ストローク端点データ（この場合、（５，１１）ｒがロ
ードされる。さらに次のステップ４８で、ＮＣ０Ｔ領域
が走査され、（５，１１）ｒのデータと一敗するデータ
が探索され、続くステップ４９でそのデータの次の座標
データ（この場合、（６，１０）ｄ）がロードされる。

さらにステップ５０で３７Ｍ領域が走査され、（６，１
０）ｄのデータと一致するストローク端点データが探し
出される。

この場合、Ａ　Ｓ　Ｔ　Ｍ　ＷＪ域に同じデータが存在
しており、次にステップ５１において、そのデータが属
するストローク番号およびサブストローり番号（この場
合、ＳＡ２とＡ４）が、前記Ｓ　Ａ　Ｖ　Ｅ　６１域に
格納法のストローク番号およびサブストローク番号（こ
の場合、ＳＡ２とＡ３）と一致するか否かを判定する。

この場合、両者は不一致であるから、ステップ５１の判
定は“ＮＯ”となって、ステップ４１へ戻り、このステ
ップ４１が“ＹＥＳ”となるまで、上記の手順を繰り返
すことになる。

以上の処理を実行することにより、重複されて抽出され
たストロークが抹消されると共に、それが黒地塊として
抽出されるものである。

この抽出された黒地塊情報は、上述したようにＲＡＭ１
３のＮＢＬＡＣＫ領域に格納され、後の辞書照合処理に
おいてこれを参照すれば、確実な文字認識を行うことが
可能となる。この場合、辞書内の標準パターン中には、
上記黒地塊情報を予め格納しておくことになるが、特に
“つ”ツ”シ”ソ″“ン”等の黒地塊が発生し易いパタ
ーンの辞書についてはその必要性が高いといえる。

【図面の簡単な説明】

第１図はこの発明の一実施例である文字認識装置のブロ
ック図、第２図は入力文字パターンの一部を示す図、第
３図はラベル化を説明するための図、第４図はＮＣ０Ｔ
領域のデータ内容を示す図、第５図は文字パターンの左
まわりの追跡を説明するための図、第６図ＳＴＭ領域の
データ内容を示す図、第７図は黒地塊抽出処理の手順を
示すフローチャート、第８図はＮＢＬＡ（Ｊ領域および
Ｓ　Ａ　Ｖ　Ｅ　ＴＪ域のデータ内容を示す図、第９図
は従来の文字認識装置の全体構成を示すブロック図、第
１０図は入力画像の細線化処理を示す図、第１１図は入
力画像のサブストロークを示す図、第１２図は追跡方向
を説明するための図、第１３図は入力画像の走査を説明
するための図、第１４図は近似パターンを示す図、第１
５図は文字パターンを示す図、第１６図は第１５図に示
す文字パターンの近似パターンを示す図である。６・・・・・・辞書照合部　　７・・・・・・画像メモ
リ８・・・・・・境界ラベリング回路９・・・・・・サブストローク抽出回路１０・・・・・
・ストローク抽出回路１２・・・・・・黒地塊抽出手段　　１３・旧・・ＲＡ
Ｍ１４・・・・・・ＣＰＵ特　許　出　願　人　　　立方電機　株式会社代理人　
弁理士　　鈴　木　山　充９１７図３ｃ了を乏懺」走置。フロック図＋２’ＥＢ　
　　入力文字／Ｖ汐−ノリー拵βＥ示ず図体３図ラヘ“ルイとめ言えＩＩＩＨ図分、−図　　　　　　　　　　　　→・七こ＋光冷曵シ
へ、、ｉｔ　ａ月Ｌｚ ”Ａ−６図　　ム４ゎす＝−」ｊヰ１訣ζ月図づ　Ｔコ
］　　　）こ／）ｉ’ｚ慣をへのｉえ明面 −７＋７３図入力１イｈ走査め　　　　　→７２図ｉｔ　ａ／ｑ　　ｆｆｉ　　　　　　　　　　　　　　
　　　　　　　　　　　Ｊｊ　、ｉｉ【７’５　ｔ’ｑ
　　−８１８月ｓ分Ｚｌｔ図之イ１スへリーン石　示イ江乙　　　　　　　　　　　
　”ｙ＋　７ｂ−Ｂｉ似ノＶターンを示すａミ＋　／ｌ　　丁亭ツゴ　　　　　−１ｌ−字ノＶ、タ
ーンと　４−？ｒ図一−Ｘ

Claims

【特許請求の範囲】

（１）未知文字の文字パターンを読み取り、前記パター
ンを白黒２値化して入力画像を求め、特徴抽出部によっ
て前記入力画像の幾何学的特徴を抽出した後、前記特徴
抽出部の出力を辞書部に格納された標準パターンと照合
して前記未知文字を認識する文字認識装置であって、前記特徴抽出部は、前記入力画像の黒地と白地との境界を追跡して方向性を有するストロークを抽
出するストローク抽出手段と、前記入力画像中の一連結
の黒地部分のうち前記ストローク抽出手段によって重複
して抽出されたストロークを含む黒地を黒地塊として抽
出する黒地塊抽出手段とを具備して成る文字認識装置。
（２）前記標準パターンは、前記黒地塊に関する情報を
含み、前記標準パターンとの照合時に黒地塊情報を用い
て未知文字の認識をする特許請求の範囲第１項記載の文
字認識装置。