JPS61267882A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS61267882A
JPS61267882A JP60110840A JP11084085A JPS61267882A JP S61267882 A JPS61267882 A JP S61267882A JP 60110840 A JP60110840 A JP 60110840A JP 11084085 A JP11084085 A JP 11084085A JP S61267882 A JPS61267882 A JP S61267882A
Authority
JP
Japan
Prior art keywords
stroke
black
data
black background
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60110840A
Other languages
English (en)
Inventor
Minoru Nagao
永尾 実
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Tateisi Electronics Co filed Critical Omron Tateisi Electronics Co
Priority to JP60110840A priority Critical patent/JPS61267882A/ja
Publication of JPS61267882A publication Critical patent/JPS61267882A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈発明の技術分野〉 この発明は、未知の文字や数字・記号等(この明細書で
は、これらを一括して「文字」と呼ぶ。)のパターンを
読み取り、このパターンを白黒2(e化して入力画像を
求めた後、特徴抽出部によってその幾何学的特徴を抽出
し、その抽出結果と標準パターンとを照合することによ
って、その未知文字を認識する文字認識装置に関する。
〈発明の概要〉 この発明は、入力画像の黒地と白地との境界を追跡して
ストロークを抽出する場合において、重複してストロー
ク抽出される黒地部につき、これを黒地塊として変換抽
出し、文字パターンの特徴の一つとして与えるようにし
たものであり、これにより、誤った文字認識が行われる
のを防止している。
〈発明の背景〉 従来の文字認識装置は、第9図に示すように、未知文字
1を光学的に読み取って画像化する読取部2と、この読
取部2からの入力画像に対して平滑化等の前処理を施こ
す前処理部3と、前処理された画像の幾何学的特徴を抽
出する特徴抽出部4と、抽出された特徴をあらかじめ辞
書5に格納されている標準パターンと照合して未知文字
を認識する辞書照合部6とから構成されている。
一般に、前記特徴抽出部4では、入力画像の黒画素に着
目し、第10図に示すように、入力画像Gを細線化して
細線パターンgを求め、この細線パターンgから未知文
字の特徴を抽出する方式がとられている。
ところがこの方式においては、画像の細線化処理を必要
とし、処理時間が長くなるため、近年、入力画像から直
接未知文字の特徴を抽出する方式が提案されている。こ
の方式では、たとえば第11図に示す文字パターンの特
徴を抽出する際において、入力画像Gにおける黒画像と
白画像との境界(図中、太線で示す)に着目し、この境
界を、第12図に示すA−Dの4つの方向で追跡するこ
とによって、対をなすサブストローク (A1.AZ 
)、CB+、Bt )、(C+、Cz )を抽出する。
この境界の追跡は、第13図に示ように、入力画像Gを
所定の方向(図中、矢印で示す)に走査してゆき、この
走査過程において、あらかじめ設定しである上記A−D
のいずれかの方向に伸びるパターンと遭遇したときには
、その方向への境界の追跡を開始し、その方向へのパタ
ーンが消失するまでその追跡を継続することによって行
われる。このようにして、対をなすサブストロークが得
られると、それらに基づいて第14図に示すようなスト
ロークの集合としての近似パターンfを求めるのである
ところが、この方式によれば、「つ」、「ツ」、「シ」
、「ソ」、「ン」等の極短かつ幅広のストロークが発生
し易い文字の場合には、応々にして特徴抽出の誤りが生
じる。
第15図は、片仮名文字「つ」の文字パターンを例示し
ており、この文字パターンでは、図中Hで示す部分が穢
短かつ幅広のストロークとなっている。このストローク
では、サブストロークA、とサブストロークA2との一
対性が成立し、且つサブストロークB、とサブストロー
クB2との一対性が成立している。したがってHで示す
黒地部分は、AストロークとBストロークが重複して抽
出され、第16図に示すような誤った近似パターンf′
となる。
このように従来の文字認識装置では、殊に極短かつ幅広
のストロークが発生し易い文字については、必ずしも正
確な文字認識を行うことができないという欠点があった
〈発明の目的〉 この発明は、上述した欠点の克服を意図しており、正確
な文字認識を行うことのできる文字認識装置を提供する
ことを目的とする。
〈発明の構成および効果〉 上記目的を達成するため、この発明においては、ストロ
ーク抽出手段の他に、このストローク抽出手段によって
重複して抽出されたストロークを含む黒地を黒地塊とし
て変換抽出する黒地塊抽出手段を設けることにした。
この発明によれば、文字パターン「つ」、「ツ」、「シ
」、「ソ」、「ン」等で黒地塊が発生した場合であって
も、ストロークの代替情報とした場合であっても、スト
ロークの代替情報として黒地塊を表す情報が文字特徴と
して抽出されることになり、これを利用して正確な文字
認識を行うことが可能である等、発明目的を達成した顕
著な効果を奏する。
〈実施例の説明〉 第1図は、この発明の一実施例である文字認識装置のブ
ロック図を示す。
第1図において、画像メモリ7は、未知文字の幾何学的
パターンを読み取って白黒2値化した入力画像を記憶す
るためのメモリである。境界ラベリング回路8は、画像
メモリ7に記憶された画像のうち、白地と黒地との境界
部に位置する黒画素に、後述するラベル化を行うための
ものである。サブストローク抽出回路9は、ラベル化が
行われた後の文字パターンのデータからサブストローク
を抽出する回路である。ストローク抽出回路10は、こ
のサブストロークについてのデータから、対となすサブ
ストロークを抽出してストロークデータを与える回路で
ある。文字特徴点抽出回路IIは、ストロークデータに
基づきストローク相互の位置関係を調べて、文字の基本
的な特徴である交点、分岐点などの幾何学的な特徴を抽
出する回路である。黒地塊抽出回路12は、ストローク
が重複して抽出された黒地部を黒地塊として抽出する回
路である。
またRAM13は、ストローク抽出後のデータからスト
ロークが重複して抽出された黒地部を黒地塊として抽出
する処理を行うためのプログラムや、上記境界ラベリン
グ回路8、サブストローク抽出回路9、ストローク抽出
回路10、文字特徴点抽出回路11および黒地塊抽出回
路12をCPUI 4によって制御するためのプログラ
ム、それに前記境界ラベリング回路8によって得られる
ラベル化情報、サブストローク抽出回路9とストローク
抽出回路10とによって得られるサブストロークデータ
やストロ−、クデータおよび本発明の目的である黒地塊
データなどを格納するメモリである。
ここでまず、境界ラベリング回路8によるラベル化処理
の方法について、第2図を参照して説明する。
第2図は、第15図の文字パターンのうち、部分Hに対
応する箇所を拡大して示しており、この部分Hにおいて
は、前記のとおりサブストロークA、とA2との間の一
対性並びにサブストロークB、とB2との間の一対性が
成立している。従ってこの部分Hからは、ストロークが
重複して抽出され、前記黒地塊抽出回路12によって、
部分Hは黒地塊として抽出される。なお第2図および第
15図において、Xとyとは、各画素を特定するための
画素番号(座標)である。また、文字パターンに対応す
る画素は黒地であり、他の部分は白地となっていると考
える。
まず境界ラベリング回路8は、各画素について、(ol
、 (r)、 (g、 (u、  (1)・・・等で示
したラベル化を行うが、これらの記号の意味を第3図に
示す。例えば記号(ulは、第3図(ア)に示すように
、その画素の上側に隣接する画素が白地(w)となって
おり、右側、左側および下側に隣接する画素は黒地(b
)となっているような画素を示すラベルである。実際の
ラベル化は、上下左右のそれぞれに関する計4ビットを
“1”、“0”の2進値によって表現する。同図(イ)
の例では、上側と左側にそれぞれ隣接する画素が白地(
ロ))になっている画素のラベルである。第2図は、こ
のように、U=上側(up)、d=  下側(down
) 。
!=左側(left)およびr=右側(right)に
よって、それぞれの画素に隣接する画素のうち白地のも
のがいずれに存在するかを示しており、記号(01は、
隣接する画素中に、白地のものがないことを意味してい
る。このようにして第15図の画素にラベル化を行い、
その結果であるラベルを各画素の(x、  y)座標と
ともに、RAM13内のNC0Tと呼ぶ領域に第4図に
示すように格納しておく。
この格納に際しては、まず第15図の未知パターンに対
して、第13図中に矢印で示した方向へと走査を行い、
最初に到達した(u、r)ラベルの画素から、文字パタ
ーンを左まわりに追跡する。ここで、左まわりの追跡と
は、第5図に示すように、その時点における追跡点が位
置する画素のラベルの4ビツトのうちの“1”を示すピ
ッl−A、−D、に着目し、“1”を示すビットの位置
がA1の場合には、そのラベルまたはそのラベルに隣接
するラベル中のA2〜A、の位置に“1”を示すビット
が存在するか否かを、このA2−A4の順序に従って検
出し、存在する場合には、検出されたビット“1”を含
むラベルの座標位置へと追跡点を移すとともに、そのビ
ット“1”に新たに着目して次の追跡を行うことをいう
例えば、第2図のラベル(d、N)で示される画素31
に追跡点がある場合、このラベル(d、  β)中の位
置A、のビット(ラベルにdを含んでいるのでビット“
1”である)に着目すれば、A2の位置にはビット“1
”が存在せず、A、の位置にビット“1”が存在してい
るので、このビット“1”を含むラベルにより表される
隣接の画素32に追跡点を移すのである。
第5図(B)〜(D)も同様であって、Bt”’Ba。
Ct ”’Ca 、Dz〜D4のそれぞれの順序で、ラ
ベルのビット“1”の検出と追跡とを行う。
この追跡によって、文字パターンの外周境界に位置する
画素が順次検出されると、その順序に従って、位置座標
とラベルの種類とが、第4図に示すメモリ領域NC0T
上に格納されることになる。一方、追跡点は、文字パタ
ーンのひとつの連結部分のまわりをまわると、元の追跡
出発点へと戻って閉ループを形成するもので、この追跡
点が追跡出発点へ戻った場合には、第4図中に「ストッ
パ」と表示された指標を与えておく。その後、次の連結
部分についての追跡を行い、同様の処理を繰返す。した
がって、第4図中の「ストッパ」の数は、その文字パタ
ーンの連結数と一致し、ひとつのストッパと他のストッ
パとの間に格納されたデータは、同一の連結部分に関す
るデータを意味することになる。
そして、この一連結のデータの各々を識別するために、
各一連結データの前には連結番号C0Tl、C0T2.
・・・・・・を付加してお(。
第6図は、RAM13内の記憶領域のうち、各ストロー
クの端点を形成する画素のデータを記憶するためのS 
A M ifN域の一部を示す。例えばASTMは、A
方向のストロークについての端点情報を格納する領域を
意味し、A方向のストロークたとえばストロークSAI
の4つの端点に相当する画素のデータが、サブストロー
ク単位のバンクとして格納されている。B方向のストロ
ークの端点情報およびCストロークの端点情報を格納す
る領域BSTMやC3TMも同様の態様でデータが格納
されている。
第8図は、RAM13内に設けられたNBLACK領域
およびS A V E 83域を示し、これら領域には
後述する如く、黒地部抽出処理に関連するデータがセッ
トされる。
次C4この実施例における処理を順次説明する。
まず、第9図の読取部2によって、未知文字の幾何学的
パターンが読取られる。このパターンは、画像メモリ7
 (第1図)中に格納され、境界ラベリング回路8によ
って、上述したラベル化が行われて、一連結データが第
4図に示した態様でRAM12中のN COT eI域
に格納される。その後、サブストローク抽出回路9はラ
ベル化された黒地の画素の、4方向における連続性を追
跡して、サブストロークデータを求め、つづいて、スト
ローク抽出回路10は、このサブストロークデータを参
照して、サブストローク相互間の一対性を判定し、サブ
ストロークデータを各方向のストロークごとに分類する
。次に、このストローク抽出回路10は、抽出済みのス
トロークデータから、各ストロークのストローク端点を
決定し、端点情報を第6図に示した態様でRAM13中
のSTM領域に格納する。
次に黒地部抽出回路12は、前記NC0T領域およびS
 T M SJI域に格納された一連結データおよびス
トローク端点データを用いて、重複抽出されたストロー
クを含む黒地部を、黒地部として抽出する処理を実行す
る。この黒地部抽出処理の処理手順を、第7図のフロー
チャートにより以下に説明する。
まずステップ41では、第6図に示すSTM領域領域大
トローク端点データを全てチェックしたか否かを判定す
る。最初、その判定は“No”であるので、ステップ4
2へ進み、ストローク端点データをロードする。第6図
の例では、A37M領域の(9,1)uのデータが最初
にロードされる。次にステップ43では、NC0Ttl
域が走査され、前記(9,1)uのデータと一致する座
標データが探索され、しかる後火のステップ44で、そ
の座標データの次に位置する座標データ(この例では、
(9,1)f)がロードされる。
なお前記ステップ42におけるデータのロードに際して
は、そのストローク端点データが属するストローク番号
およびサブストローク番号(この例では、ストローク番
号がSAI、サブストローク番号がA1である)を、第
8図に示す5AVE領域に格納しておくものとする。
次にステップ45では、S T M 領域が走査され、
ロード済の前記座標データ(9,1)1と一致するスト
ローク端点データが探索される。
この実施例の場合、BSTMSi域に(9,1)lのデ
ータが存在しており、次のステップ46において、その
データが属するストローク番号(この場合、SB 1)
が前記5AvE61域に格納される。
次のステップ47では、前記のデータ(9,1)iが属
するサブストロークB1と対となす相手サブストローク
B2のストローク端点データ(11,1)rがロードさ
れる。そしてさらにステップ48で、NCoT%j[域
が走査され、前記のデータ(11,1)rと一致する座
標データが探索され、しかる後続くステップ49で、そ
の座標データの次の座標データ(この例では、(11,
1)u)がロードされる。さらに次のステップ50では
、37M領域が走査され、ロード済の前記座標データ(
11,1)uと一致するストローク端点データが探索さ
れる。この場合AS”rMTil域に(11,1)uの
データが存在しており、次にステップ51に、おいて、
そのデータが属するストローク番号およびサブストロー
ク番号(この場合、SAIとAl)が、前記ステップ4
2でS A V E 91域に格納されたストローク番
号およびサブストローク番号と一致するか否かを判定す
る。その結果、両者が一致するとき、ストロークが重複
して抽出されたものと判断し、次のステップ52におい
て、前記S A V E ?II域に格納されたストロ
ーク番号に対応する37M領域のストローク番号(この
場合、5AI)を例えば“0”等のラベルで抹消する。
そして次にステップ53で、RAM13中のN B L
 A CK TiU域に設けられた黒地塊カウンタ15
を1加算すると共に、5AVE領域中のストローク番号
をこのNBLACK領域に格納する。
つぎにステップ41に戻って、第6図のストローク端点
データを全てチェックしたか否かを判定する。この場合
、その判定は“NO”であるから、次のステップ42で
、STM領域中の次のストローク端点データ(3,10
)uがロードされると共に、そのデータが属するストロ
ーク番号SA2が5AVE領域に格納される。なおこの
場合、ストローク番号が抹消されているストローク端点
データについては、そのデータはロードされず、次のス
トローク端点データがロードされることになる。
かくしてステップ43でN COT 領域が走査され、
前記(3,10)uのデータと一致するデータが探索さ
れ、次のステップ44でそのデータの次の座標データ(
この場合、(3,10) j2 )がロードされる。次
にステップ45で、37M領域が走査され、(3,10
)lのデータと一致するストローク端点データが探索さ
れる。この場合、B S T M SI域に該当データ
が存在しており、次のステップ46でそのデータが属す
るストローク番号SB2が5AVE領域に格納される。
次のステップ47では、(3,10)jl!のデータが
属するサブストロークと対をなす相手サブストロークの
ストローク端点データ(この場合、(5,11)rがロ
ードされる。さらに次のステップ48で、NC0T領域
が走査され、(5,11)rのデータと一敗するデータ
が探索され、続くステップ49でそのデータの次の座標
データ(この場合、(6,10)d)がロードされる。
さらにステップ50で37M領域が走査され、(6,1
0)dのデータと一致するストローク端点データが探し
出される。
この場合、A S T M WJ域に同じデータが存在
しており、次にステップ51において、そのデータが属
するストローク番号およびサブストローり番号(この場
合、SA2とA4)が、前記S A V E 61域に
格納法のストローク番号およびサブストローク番号(こ
の場合、SA2とA3)と一致するか否かを判定する。
この場合、両者は不一致であるから、ステップ51の判
定は“NO”となって、ステップ41へ戻り、このステ
ップ41が“YES”となるまで、上記の手順を繰り返
すことになる。
以上の処理を実行することにより、重複されて抽出され
たストロークが抹消されると共に、それが黒地塊として
抽出されるものである。
この抽出された黒地塊情報は、上述したようにRAM1
3のNBLACK領域に格納され、後の辞書照合処理に
おいてこれを参照すれば、確実な文字認識を行うことが
可能となる。この場合、辞書内の標準パターン中には、
上記黒地塊情報を予め格納しておくことになるが、特に
“つ”ツ”シ”ソ″“ン”等の黒地塊が発生し易いパタ
ーンの辞書についてはその必要性が高いといえる。
【図面の簡単な説明】
第1図はこの発明の一実施例である文字認識装置のブロ
ック図、第2図は入力文字パターンの一部を示す図、第
3図はラベル化を説明するための図、第4図はNC0T
領域のデータ内容を示す図、第5図は文字パターンの左
まわりの追跡を説明するための図、第6図STM領域の
データ内容を示す図、第7図は黒地塊抽出処理の手順を
示すフローチャート、第8図はNBLA(J領域および
S A V E TJ域のデータ内容を示す図、第9図
は従来の文字認識装置の全体構成を示すブロック図、第
10図は入力画像の細線化処理を示す図、第11図は入
力画像のサブストロークを示す図、第12図は追跡方向
を説明するための図、第13図は入力画像の走査を説明
するための図、第14図は近似パターンを示す図、第1
5図は文字パターンを示す図、第16図は第15図に示
す文字パターンの近似パターンを示す図である。 6・・・・・・辞書照合部  7・・・・・・画像メモ
リ8・・・・・・境界ラベリング回路 9・・・・・・サブストローク抽出回路10・・・・・
・ストローク抽出回路 12・・・・・・黒地塊抽出手段  13・旧・・RA
M14・・・・・・CPU 特 許 出 願 人   立方電機 株式会社代理人 
弁理士  鈴 木 山 充 917図3c了を乏懺」走置。フロック図+2’EB 
  入力文字/V汐−ノリー拵βE示ず図体3図 ラヘ“ルイとめ言えIIIH図 分、−図            →・七こ+光冷曵シ
へ、、it a月Lz ”A−6図  ム4ゎす=−」jヰ1訣ζ月図づ Tコ
]   )こ/)i’z慣をへのiえ明面 −7+73図 入力1イh走査め     →72図 it a/q  ffi              
           Jj 、ii【7’5 t’q
  −818月s分Zlt図 之イ1スへリーン石 示イ江乙           
 ”y+ 7b−Bi似ノVターンを示すa ミ+ /l  丁亭ツゴ     −1l−字ノV、タ
ーンと 4−?r図一−X

Claims (2)

    【特許請求の範囲】
  1. (1)未知文字の文字パターンを読み取り、前記パター
    ンを白黒2値化して入力画像を求め、特徴抽出部によっ
    て前記入力画像の幾何学的特徴を抽出した後、前記特徴
    抽出部の出力を辞書部に格納された標準パターンと照合
    して前記未知文字を認識する文字認識装置であって、 前記特徴抽出部は、前記入力画像の黒地と 白地との境界を追跡して方向性を有するストロークを抽
    出するストローク抽出手段と、前記入力画像中の一連結
    の黒地部分のうち前記ストローク抽出手段によって重複
    して抽出されたストロークを含む黒地を黒地塊として抽
    出する黒地塊抽出手段とを具備して成る文字認識装置。
  2. (2)前記標準パターンは、前記黒地塊に関する情報を
    含み、前記標準パターンとの照合時に黒地塊情報を用い
    て未知文字の認識をする特許請求の範囲第1項記載の文
    字認識装置。
JP60110840A 1985-05-22 1985-05-22 文字認識装置 Pending JPS61267882A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60110840A JPS61267882A (ja) 1985-05-22 1985-05-22 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60110840A JPS61267882A (ja) 1985-05-22 1985-05-22 文字認識装置

Publications (1)

Publication Number Publication Date
JPS61267882A true JPS61267882A (ja) 1986-11-27

Family

ID=14545995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60110840A Pending JPS61267882A (ja) 1985-05-22 1985-05-22 文字認識装置

Country Status (1)

Country Link
JP (1) JPS61267882A (ja)

Similar Documents

Publication Publication Date Title
US5515455A (en) System for recognizing handwritten words of cursive script
US5410611A (en) Method for identifying word bounding boxes in text
Brown et al. Handprinted symbol recognition system
EP0534446A2 (en) System with approximation means for recognizing graphical elements in a drawing
JPS6140684A (ja) 輪郭追跡装置
US6947596B2 (en) Character recognition method, program and recording medium
US6810147B2 (en) Document image processing apparatus for processing line portions manually input to document image, method therefor, and computer readable recording medium recorded with document image processing program therefor
JPH02263277A (ja) 線画像ベクトル化方法
JPH0981740A (ja) 線図形入力装置
JPS61267882A (ja) 文字認識装置
JP3586949B2 (ja) 帳票認識装置
JP2727755B2 (ja) 文字列認識方法及びその装置
JPS61182182A (ja) 文字認識装置
JP3329528B2 (ja) ドキュメント読取り装置
JPH0578067B2 (ja)
CN113902704A (zh) 一种基于八邻域方向编码的汉字骨架拐点检测方法及系统
JPS60168283A (ja) 文字認識装置
JP2006107290A (ja) 画像処理装置およびその方法
JPS589471B2 (ja) リンカクツイセキマエシヨリホウシキ
JPH067394B2 (ja) パターン認識装置
JPH0434653A (ja) 図面処理装置
JPH04216171A (ja) 輪郭ベクトルの抽出方法
JPS61121184A (ja) 文字認識装置
JPH04236678A (ja) 領域整形方法
Schettini RECOGNIZING GRAPHIC SYMBOLS IN LINE-DRAWING IMAGES