JPS6132187A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPS6132187A
JPS6132187A JP14872584A JP14872584A JPS6132187A JP S6132187 A JPS6132187 A JP S6132187A JP 14872584 A JP14872584 A JP 14872584A JP 14872584 A JP14872584 A JP 14872584A JP S6132187 A JPS6132187 A JP S6132187A
Authority
JP
Japan
Prior art keywords
character
size
normalization
normalized
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP14872584A
Other languages
English (en)
Other versions
JPH0516632B2 (ja
Inventor
真 加藤
広尚 曽根
高橋 弘晏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP14872584A priority Critical patent/JPS6132187A/ja
Publication of JPS6132187A publication Critical patent/JPS6132187A/ja
Publication of JPH0516632B2 publication Critical patent/JPH0516632B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は文字認識方式に関し、更に詳細にいえば、促音
、拗音を含む手書き文字を複数のタイプに類別して正規
化するようにした文字認識方式に関する。
[従来技術] 最近は、OA化の波の中で、日本語情報処理システムが
種々開発さ九ているが、日本語情報処理システムで大き
なネックになっているのはデータ入力の部分である。こ
れまで、日本語入力方式として、タブレット方式、キー
タッチ方式、キーボードを用いた仮名−漢字変換方式な
どが提案され、ある程度成功をおさめているが、一般に
入力速度の点で問題があり、例えば統計調査などの大量
データの入力には不向きである。従って、OCRによる
文字認識、特に手書き文字認識は日本語データ入力方式
の一翼を担うものとして大いに期待されている。
特に今後は、OCR装置をOA機器と組合わせ、手書き
文字をOCRで読取って表示し編集し処理しプリントす
るアプリケーションが盛んになると考えられるが、この
ようなアプリケーションでは大文字と促拗音とを明確に
区別し認識処理できる機能を持つことが不可欠であると
考えられる。
しかしながら従来の英数字・仮名用のOCRでは、通常
、仮名の大文字と小文字(促拗音)の区別が食く、同じ
字形の大文字と小文字とを同一の文字として処理してい
る。また、これまでの手書き漢字OCRは住所、氏名な
どを読取るアプリケーションが主体であったため、促拗
音の認識についてはあまり考慮されていなかった。
大文字と小文字を区別するための1つの方法としては、
入力文字パターンの大きさ、位置を判定し、この情報を
1つの特徴データとして利用して分類識別を行なう方法
が考えられるが、この方法は文字の大きさ及び位置を付
加的な特徴データとして用いなければならないため、認
識処理が複雑になり、ハードウェア化しにくく、また認
識時間も長くなりやすいという問題がある。
また一般に、OCRによる手書き文字の認識は、文字読
取り、前処理、特徴抽出、分類識別という手順で行なわ
れ、前処理では入力文字パターンの大きさの正規化を行
なうが、大文字、小文字を意識しない従来のOCRでは
すべての入力文字パターンを画一的に正規化するのが普
通である。画一的正規化を用いた場合は、もともと小さ
な寸法を有する小文字あるいはピリオド、コンマなどの
記号を不必要に拡大するため、無駄な処理を含むだけで
なく、線の微小な凹凸など無用な特性を拡大し、また認
識対象としての文字パターンのデータ量を不必要に増や
すことになるため、特徴抽出、分類識別でのデータ処理
量が増えるという問題がある。
特開昭55−10624号公報は大文字英字、数字、特
殊記号の識別を行なう文字識別処理方法を示している。
この処理方法では、先ず第1ステツプでピリオド、コン
マなどの背丈の低い特殊記号を分離してそのまま識別を
行ない、残ったものについて高さの正規化を行なって、
大分類、識別を行ない、次に、更に残ったものについて
幅の正規化を行なって更に大分類、識別を行なうように
している。この特開昭は文字の高さと幅の正規化を区別
して用いているが、これは前の識別結果に基いて段階的
に一定の大きさに正規化するものであって、本発明のよ
うに入力文字パターンの大きさ1位置に基づいて異なる
大きさ、位置に正規化することは示しておらず、また大
文字、促拗音の識別についても示していない。
[発明が解決しようとする問題点] したがって本発明の目的は、認識処理を複雑にすること
なく、簡単に且つ高速に、大文字と小文字(特に促拗音
)を区別して認識できるようにすることである6 [問題点を解決するための手段] 本発明は、前処理の正規化の段階で、入力文字の大きさ
及び位置の要素に基いて入力文字を複数のタイプに類別
し正規化するものである。即ち、読取った2値化入力文
字パターンの大きさと位置に基いて入力文字を通常文字
、促拗音などの複数のタイプに類別し、各タイプ毎に、
大きさ及び位置の少なくとも一方を異ならせて正規化イ
メージ領域に正規化し、そしてこの正規化イメージ領域
全体を対象として特徴抽出するようにしたものである。
したがって本発明によれば、入力文字パターンの大きさ
と位置のパラメータは正規化された文字パターンそのも
のの中に内在することになるため、以後の特徴抽出、分
類 識別の処理では、入力文字の大きさ、位置のパラメ
ータを考慮する必要がなくなる。したがってすべての文
字カテゴリーに対して統一的認識アルゴリズムを使用で
き、特徴抽出1分類識別処理が簡単になり、認識速度を
高めることができる。また、すべての文字カテゴリーに
対して同一の認識処理の使用が可能となるため、文字認
識システムのハードウェア化が容易であり、一層認識速
度を高めることが可能となる。
[実施例コ 次に図面を参照して本発明の良好な実施例について説明
する。
第1図は本発明による文字認識方式の機能的ブロック図
である。先ず、文字読取り部では、帳票に手書きされた
文字がOCRスキャナによって読取られる。この例では
;帳票は10mmX 10mmの文字枠のものが用いら
れた。読取られた2値化文字パターンデータは一部メモ
リにドツト・パターンとして入れられ、文字切出し部で
文字枠部分が切出される。OCRスキャナの解像度を8
ドツト/ll1mとすると、切出された文字枠の大きさ
は80×80ドツトとなる。外周検出部では、第2図に
示すように、切出した入力文字パターンに外接する長方
形のx、y座標の最小値と最大値(Xmin、Xmax
、 Ymin、 Ymax)が検出される。切出した文
字枠の左上の角の座標が(0,O)にされている。上記
の文字読取り、文字切出し、外周検出は周知の一般的処
理であるから、これらについての詳しい説明は省略する
ことにする。
第1図の正規化分類部及び正規化部が本発明によって改
良された部分である。
正規化分類部は外周検出部によって得られた外接長方形
のX max、 X min、 Y max、 Y w
inに基づいて以下の如<x、Y方向の幅及びX、Y方
向の重心を求める。
X方向幅ΔX=Xm a x−Xm i n + IY
方向幅ΔY = Y m a x −Y m i n 
+ 1X方向重心Gx= −(Xmax+Xm1n)Y
方向重心Gy=−(Ymax+Ymin)そして正規化
分類部は、求められた入力文字パターンの大きさ及び位
置に基づいて入力文字を複数のタイプに類別する。下表
1は、読取りスキャナの解像度を8ドツト/ m m、
文字枠を80×80ドツトとしたときの分類の一例を示
している。
退−一1 表1において、重心Gxの欄の「左部」は文字枠をX方
向に3等分したときの左部を表わし、重心Gyの欄の「
上部」、「中部」、「下部」は文字枠をY方向に3等分
したときの、上部、中部、下部を表わす。また、空白の
欄は“don’ t care”である。ΔX、ΔY、
Gx、Gyの4つの条件(空白の欄は除く)が満たされ
た場合、それに対応するタイプ番号が選択される。
ここで、上記10個のタイプの意味について説明する。
この例では、JIS  C6235日本語入力用文字盤
配列に含まれる漢字、仮名、促拗音、英字大文字(小文
字除く)、数字、及び特殊文字の一部を基本の認識対象
としているが、任意の選択した文字あるいは記号の組合
わせを使用しその位置、大きさに基いて種々タイプ分け
できることは理解されよう。タイプ1は文字枠の上部に
小さく書かれる単一引用符rJ、r″」などの特殊文字
用、タイプ2は枠の中央部に小さく書かれる中点「・」
などの特殊文字用、タイプ3は枠の下部に小さく書かれ
るピリオド「、」などの特殊文字用である。タイプ4は
枠の上部にやや大きく書かれる2重引用符「′」、r′
″jなどの特殊文字用、タイプ5は枠の中央部に書かれ
る漢字の繰り返し記号「〃」用、タイプ6は促拗音9句
読点などのためのものである。タイプ7は英字の「■」
、感嘆符「!」、コロン「:」、数字の「1」など縦長
の文字のためのものであり、タイプ8は漢字のイチ「−
」、負符号「−」などのためのものであり、タイプ9は
アンダライン「−」用である。
タイプ10はその他の漢字、英字大文字、仮名大文字、
数字、及び「%」、[¥」なとの大きめの特殊文字用で
ある。タイプ5はタイプ4.6よりも小さな寸法にされ
ているが、これは5文字枠の中央部に記入した文字は多
少小さめでも通常文字である可能性が高く、これらの通
常文字がタイプ5の繰り返し記号「〃」として分類され
るのを防止するためである。
例えば数字rlJのようにタイプ7及びタイプ10の両
方に該当する場合が生じうるが、この場合はプライオリ
ティ・エンコーダによってタイプ番号の若い方を優先さ
せる。
また、特殊文字及び促拗音では、大きさと文字枠内の位
置が重要な要素となる。したがって、帳票記入に当って
は、記入者に対し記入要領のガイドを与えておくのが望
ましいが、このタイプ分けの場合は、「促拗音1句読点
は文字枠の左下隅に1/4程度の大きさで記す」及び「
特殊文字はその種類に応じて文字枠内の上部、中部、下
部に区別して記す」程度のガイドを与えれば十分である
6第1図の正規化部は、正規化分類部において判定され
た入力文字のタイプに応じて入力文字を、タイプ毎に大
きさ及び位置の少なくとも一方を異ならせて所定の正規
化イメージ領域に正規化する。
この例では、切出された80X80ビツトの文字枠内の
2値化文字パターンを64X64ビツトの正規化イメー
ジ領域に正規化するものとしている。
第3図は、各タイプの文字が64X64ビツトの正規化
イメージ領域にどのように正規化されるかを例示してい
る。斜線の部分は正規化されたイメージが書込まれる領
域を示し、その回りの白地の部分は白イメージ領域を示
している。タイプ1〜6は小文字サイズの文字を対象と
しており、タイプ1〜6では正規化サイズ30が用いら
れ、タイプ7〜10では正規化サイズ60が用いられる
但し、細長い文字パターンのタイプ1.2.3.7.8
.9では、これらの文字パターンを30×30または6
0X60に正規化すると、細長いという形状上の特性が
失われ、特に正規化機細線化する場合は、長さ方向の線
繊の微小凹凸が拡大によって強調され、本来の特徴を歪
めることになるので、タイプ1.2.3.7ではΔXの
値をそのまま用い、タイプ8.9ではΔYの値をそのま
ま用いて正規化している。
上記のように正規化した後、正規化された文字パターン
は、特徴抽出部において、まわりの白地を含めた64X
64ビツトの正規化イメージ領域全体を対象として特徴
抽出される。次に、分類識別部において、抽出された特
徴と、同様に正規化された標準文字パターンについての
予じめ用意した特徴とのパターン・マツチングが行なわ
れ、入力文字パターンの識別が行なわれる。特徴抽出の
手法としては、一定の正規化イメージ領域の中に正規化
した文字パターンの大きさ、位置の差が、この正規化イ
メージ領域全体を対象として特徴抽出したときに特徴の
差として反映するものであれば、即ち、特徴が大きさ及
び位置に依存するものであれば、任意のものを使用でき
る。従来公知のものとしては、X方向、Y方向または糾
め方向から見たときの位置別あるいは区画別の黒ドツト
の数または分布状態を求める方法、細線化した文字パ・
ターンの方向別、区画別の水平、垂直、斜め方向の黒ド
ツト連結数を求める方法、上下左右の各または一定の深
さまでの白ドツトの総数(面積)を求める方法などが知
られているが、−例としては方向別、区画別の黒ドツト
連結数及び各辺に沿った白領域の面積を求める特開昭5
8−201184公報がある。これらの特徴抽出、分類
識別の処理自体はパターン・マツチング的な認識手法に
おいて一般的なものであるので、詳しい説明は省略する
。必要があれば、上記特開昭を参照されたし111 次に、第4図を参照して本発明による良好な正規化機構
について説明する。タイプ・セレクタ10は第1図の正
規化分類部に対応し、その他の部分は第1図の正規化部
に対応する。タイプ・セレクタ10は10mm’X10
mrn’(80X80ドツト)の文字枠内の入力文字パ
ターン外接長方形の座標値、Ymin+Ymax、 X
m1n、 Xmaxに基づいて、入力文字のタイプ(表
1のタイプ1〜タイプ10)を判別し、各タイプに応じ
て正規化に必要な制御信号を発生する。これらの制御信
号は以後明らかとなろう。
正規化機構は正規化ROM18,28,128×128
ビツトのイメージ・バッファ22、及び正規化イメージ
領域となる64X64ビツトの正規化イメージ・バッフ
ァ52を有する。イメージ・バッファ22は切出された
文字枠の入力文字パターンを含む。入力文字パターンは
、イメージ・バッファ22の左上の角の座標を(0,0
)とじたとき1文字枠の左上の角を座標(0,0)に合
わせて記憶されている。アドレッシングを容易にするた
めイメージ・バッファ22は128X128ビツトにさ
れているが、文字枠を含む大きさであれば任意の大きさ
でよい。
この正規化機構の目的は、入力文字の判別されたタイプ
に応じて入力文字パターンを第3図に示す所定の大きさ
及び位置に正規化して正規化イメージ・バッファ52に
記憶することである。正規化ROM18.28はそれぞ
れ2つの正規化用マトリクスA、Bを有し、マトリクス
Aは正規化サイズ30用、マトリクスBは正規化サイズ
60用である。マトリクスA、Bは判別されたタイプに
応じてタイプ・セレクタ10によって選択される。
正規化ROM18.28の働きは、イメージ・バッファ
22の文字パターンを縮小/拡大により正規化サイズ3
0または60に正規化してバッファ52に記憶する場合
、文字パターンの大きさに応じて、文字パターンのどの
ドツトを正規化バッファ52に書込むかを指示するアド
レスを発生することである。縮小の場合は間引いて読取
られ、拡大の場合は選択された同じドツトが反復して読
取られ、あるいは場合によっては拡大/縮小なしにその
ままイメージ・バッファ22から出力される。
そのために、Y minとYmax(それぞれ7ビツト
)は減算器12に与えられ、その出力(ΔY−1)はマ
ルチプレクサMPX14の六入力を介して、ROM18
の行位置(Y位置)を選択する上位アドレス(H)に与
えられる。ROM18の列位置(X位置)を選択する下
位アドレス(L)はアドレス・カウンタ30の上位ビッ
ト2G〜211から与えられる。MPX14のB入力“
59”は正規化サイズ60の場合にタイプ・セレクタに
よって選択され、これはイメージ・バッファ22の文字
パターンをY方向拡大比率=1でそのまま出力する場合
に用いられる。正規化ROM18の出力は文字パターン
外接長方形におけるYアドレスを示すため、ROM18
の出力は加算器20でY minと加算され、イメージ
・バッファ22を実際にアドレスするためのYアドレス
に変換される。
同様に、Xm1nとXmax (それぞれ7ビツト)は
減算器24に与えられ、その出力(ΔX−1)はマルチ
プレクサMPX26の六入力を介して、ROM28の行
位置(Y位置)を選択する上位アドレス(H)に与えら
れる。ROM28の列位置(X位置)を選択する下位ア
ドレス(L)はアドレス・カウンタ30の下位ビット2
°〜25から与えられる。MPX26のB入力KL 5
9 I+は正規化サイズ60の場合にイメージ・バッフ
ァ22の文字パターンをX方向拡大比率=1でそのまま
出力するときタイプ・セレクタ10によって選択される
。MPX26のC入力1129”は正規化サイズ30の
場合にイメージ・バッファ22の文字パターンをX方向
拡大比率=1で出力するときタイプ・セレクタ10によ
って選択される。ROM28の出力も外接長方形におけ
るXアドレスを示すため、加算器32でXm1nと加算
され、イメージ・バッファ22を実際にアドレスするた
めのXアドレスに変換される。
ここで、第5図を参照して正規化ROMマトリクスの構
成について説明する。この例では、説明を簡単にするた
め、文字枠の寸法を10x10ビツト(第5図A)、正
規化サイズを4X4ビツト(第5図B)としたときの正
規化ROMマトリクス18または28(第5図C)の構
成を示している。
正規化マトリクスの第に行、第Ω列の要素EkQの値は で求められるものである。ここで、Lはアドレス・イン
デックスのとりうる最大値(第5図Cでは3)、INT
 (x)はXの整数部分である。行位置のO〜9はΔX
−1またはΔY−1に対応するサイズ・インデックスで
あり、正規化マトリクスのYアドレス(上位アドレス)
に相当する。列位置のO〜3は正規化マトリクスのXア
ドレス(下位アドレス)に相当する。
一般に、X方向に正規化するためのマトリクスの行数は
文字枠のX方向のビット数(第5図の場合は10)、列
数は正規化サイズのX方向のビット数(第5図の場合は
4)に等しく、Y方向に正規化するためのマトリクスの
行数は文字枠のY方向のビット数(第5図の場合は10
)、列数は正規化サイズのY方向のビット数(第5図の
場合は4)に等しい、従って、第4図の実際例では正規
化マトリクス18A、28Aの行数は80、列数は30
にされ、正規化マトリクス18B、28Bの行数は80
1列数は60にされる。
第5図の場合、文字枠及び正規化サイズのX、Y方向の
ビット数は等しいから、第5図Cの正規化マトリクスは
X、Y方向で共用できる。動作において、例えば、入力
文字パターンのX方向の寸法X max −X min
 =ΔX−1(サイズ・インデックス)が2の場合は、
X正規化マトリクスの値O11,1,2が読取られ、し
たがってXアドレス信号が2回発生されて拡大される。
サイズ・インデックス=3では外接長方形のX方向の寸
法=X方向の正規化サイズであり、拡大比率1に相当す
る。
サイズ・インデックス=9の場合はXアドレス信号、3
.6.9が発生され、間引き読取りが行なわれる。Y方
向正規化マトリクスも同様に動作する。
しかし正規化マトリクスは外接長方形の左上の角のアド
レスを(0,0)として文字パターンを正規化サイズに
変換するアドレスを発生するので、イメージ・バッファ
22をアクセスするための実際のX、Yアドレス信号、
Ayは次式によって与えられる。
A x = X m i n+マトリクス(ΔX−1,
1x)A y = Y m i n+マトリクス(ΔY
−1.iy)ここで、マトリクス(ΔX−1.ix)、
マトリクス(ΔY−1.iy)はそれぞれΔX−1.Δ
Y−1をサイズ・インデックス、ix、iyをアドレス
・インデックスとして得られるマトリクス値である。第
4図の加算器20.32はこの加算を行なう。
したがって、64X64ビツトの正規化バッファ52を
用いる第4図の場合正規化ROM18.28は4096
回(=64X64)アドレス信号を発生してイメージ・
バッファ22を読取る。しかし、第3図のように正規化
して正規化バッファ52に書込むためには一工夫が必要
である。比較器CMP42.44及び加算器46.48
はそのためのものである。
先ず、第6図を参照して原理を説明する。正規化バッフ
ァ52のx、yアドレス信号x、Anyを次式によって
与えるものとする。
A n x = i xΦax A n y = i y■αy ここで、■は2進数(第6図では2ビツト、第4図では
6ビツト)の加算で、オーバフローを無視したものを示
す。したがって、例えばαX=O1αy==Qで第6図
(A)のように書込まれるデ−夕は、αx=1、αy=
2とした場合は第6図(B)のように(1,2)を始点
としてラップアラウンドして書込むことができ、また1
x)1゜iy>1で書込みデータをマスクすれば第6図
Cのように書込まれることになる。即ち、αX。
αyで正規化バッファ52の書込み始点を指定し、i 
x >limx 、 i y )limyで書込みデー
タをマスクすればイメージ・バッファ22の読取り出力
を正規化バッファ52の任意の位置に、任意の大きさで
マスクして書込むことができる。このときの限界値1i
mx ) limyをリミット・カウント値とする。
加算器46.48及び比較器42.44は上記の原理で
正規化バッファ52への書込みを制御するものである。
加算器46.48は一方の入力として上記のly+IX
に相当するアドレスをアドレス・カウンタ30から受取
り、他方の入力としてαy、αXに相当するアドレスを
マルチプレクサMPX38.40から受取る。タイプ・
セレクタ10はMPX38.40を制御し、判別された
タイプに応じて、対応する始点アドレスαx(2,17
,23または27)、αy (2,17,25,32ま
たは47)を加算器48.46ヘゲートする。加算器4
6は正規化バッファ52のYアドレスを選択する上位ア
ドレス(H)を与え、加算器48はXアドレスを選択す
る下位アドレス(L)を与える。したがってイメージ・
バッファ22から読取られたドツト・データは始点(α
X、αy)から書込まれる。
比較器42.44は一方の入力としてl ’/ pix
に対応するアドレスをアドレス・カウンタ30から受取
り、他方の入力としてリミット・カウント値をマルチプ
レクサMPX34.36から受取る。タイプ・セレクタ
10は判別されたタイプに応じてリミット・カウント値
をMPX34.36ヘゲートする。比較器CMP42,
44はl ’/ 。
ixがリミット・カウント値以下のときANDゲート5
0を付勢し、リミット・カウント値を超えたときAND
ゲート50を禁止する。なお、タイプ・セレクタ10の
出力“2″、“17”、23”、”25”、”27” 
 LL 29 II 、  tr 32 II。
47”、 ′59”、′ΔX−1”、“ΔY−1”。
はタイプ判別に応じてこれらの出力が発生されたとき、
MPX14,26,34,36,38.40を制御して
対応番号の入力を選択するものである。
下表2は各タイプ1〜10の正規化で用いられるROM
マトリクス(正規化サイズ30用・・・A、正規化サイ
ズ60用・・・・B)−サイズ・インデックス(x、y
)、リミット・カウント値(X、Y)、始点(X、Y)
を示している。
表−ス 第3図に示したように、タイプ1.2.3.7ではイメ
ージ・バッファ22の文字パターンのX方向の拡大比率
を1にしてそのまま出力し、タイプ8.9ではY方向の
拡大比率を1にしてそのまま出力する。したがって、タ
イプ1.2.3.7のXリミット・カウント値はΔX−
1、タイプ8.9のリミット・カウント値は八Y−1に
されている。また、拡大比率1はサイズ・インデックス
が正規化マトリクスのアドレス・インデックスの最大値
(正規化サイズ30では29、正規化サイズ60では5
9)に等しい場合に得られるから、正規化サイズ30を
用いるタイプ1.2.3のXサイズ・インデックスは2
9、正規化サイズ60のタイプ7のXサイズ・インデッ
クスは59、正規化サイズ60のタイプ8.9のYサイ
ズ・インデックスは59にされている。そのため、タイ
プ・セレクタ10はタイプ1.2.3のときはマルチプ
レクサ26においてサイズ・インデックス29を選択し
X方向拡大比率1として正規化マトリクス28Aをアク
セスし、タイプ7のときはマルチプレクサ26において
サイズ・インデックス59を選択しX方向拡大比率1と
して正規化マトリクス28Bをアクセスし、またタイプ
8,9のときはマルチプレクサ14においてサイズ・イ
ンデックス59を選択し、Y方向拡大比率1として正規
化マトリクス18Bをアクセスする。
以上の正規化機構によれば、アドレス・カウンタが40
96 (=2”)カウントする間に、イメージ・バッフ
ァ22の1つの入力文字パターンがそのタイプに応じた
大きさ及び位置をもって正規化バッファ52に正規化し
て記憶されることになる。
また80X80ビツトの文字枠の場合正規化ROM18
.28の各x、yアドレスは7ビツト・バイトで十分で
あるが、1ビツトを付加して8ビツト・バイトとし、こ
の1ビツトを出力ANDゲート50の制御に使用すると
、不用意な拡大を防止することができる。即ち、例えば
ΔX=26゜ΔY=5、Gy重心=中部というような小
さく横に細長い文字パターンが入力された場合、この文
字パターンは表1に従いタイプ・セレクタ10において
タイプ5と判定される。従ってこの文字パターンは30
X30ビツトに正規化され、その結果細長いパターンが
正方形に変形され、元の細長いパターンの形状上の特徴
が失われることになる。
このときのY方向の拡大率は6 (=3015)である
が、正規化マトリクスの作成時に、正規化マトリクスの
同じ行に同じアドレスが所定数以上並ばないようにし、
残りの位置のアドレスには上記の付加1ビツトによって
出力ANDゲートの禁止を指定しておけば、不用意な拡
大を防止できる。
第7図は拡大率を最大2に抑えた正規化マトリクスの簡
単な例を示している。第7図の(A)は拡大率を抑えな
い場合であり、1ビツト幅の線(サイズ・インデックス
=0)の場合は6倍に拡大され、2ビツト幅の線(サイ
ズ・インデックス=1)の場合は3倍に拡大される。第
7図の(B)は拡大率を最大2に抑えた場合であり、出
力ANDゲート禁止ビットUをセットしたアドレスを両
端に配置し、このアドレスが正規化マトリクスから読取
られたとき出力ANDゲートを禁止するものである。し
たがって、サイズ・インデックス二〇、1においても2
倍の拡大に抑えられる。第4図において、出力ANDゲ
ート50への線18H128Hはこの出力ゲート禁止ビ
ットである。出力ゲート禁止ビットを有するアドレスを
正規化マトリクスの両端に配置すれば、文字パターンを
第3図の正規化領域(斜線部分)の中心部に位置合わせ
して正規化できる。
なお、正規化段階で文字のタイプを特定する本発明によ
れば、タイプ分エラーによる誤認識が1つの問題となる
が、予じめ記入者に大体の記入ガイドを与えておき、普
通の注意力で記入してもらった実験結果によれば、十分
実用しうろことがわかった。更に認識率を高める場合は
、例えばOCR帳票読取り用フォーマット・プログラム
においてフィールド毎の文字種を規定し、小文字を許さ
ないフィールドではタイプ1〜6の選択を禁止し、文字
枠に小さめに書かれた大文字が小文字サイズに正規化さ
れて誤認識されるのを防止したり、あるいは、タイプ分
はエラーの生じやすい文字パターンに対しては、類別さ
れる可能性のあるタイプでそれぞれ正規化したときの特
徴を含むテンプレートを複数個用意しておくこともでき
よう。
正規化後、正規化バッファ52の文字パターンは読出さ
れて特徴抽出され、分類識別処理される。
[発明の効果コ 本発明は入力文字パターンの大きさ、位置に基いて文字
パターンを複数のタイプに分け、入力文字パターンをタ
イプ毎に異なる大きさ及び位置をもって正規化イメージ
領域に正規化するから、正規化イメージ領域内の文字パ
ターンそのものが大きさ、位置の情報を包含することに
なり、したがって以後の特徴抽出、分類識別の段階では
入力文字パターンの大きさ、位置を一切考慮する必要が
ないから、認識処理が簡単且つ高速になり、しかも大文
字と促拗音、小文字とを明確に区別できる。
【図面の簡単な説明】
第1図は本発明による正規化技術を用いた文字認識方式
の機能的ブロック図、第2図は文字枠における文字パタ
ーンの外接長方形を示す図、第3図は、種々の正規化タ
イプを示す図、第4図は本発明による正規化装置を示す
図、第5図はイメージ・バッファ、正規化イメージ・バ
ッファ、及び正規化ROMマトリクスを示す図、第6図
は正規化イメージ・バッファの記憶パターンを示す図、
第7図は正規化ROMマトリクスの記憶パターンを示す
図である。 出願人  インターナショナル・ビジネス・マシーンズ
・コーポレーション 代理人  弁理士  岡  1) 次  生(外1名) 第1図 筑3図 第2図 X ×(アドレス・インデツクス) X(アドレス・インデ゛ツシ入) 第7図

Claims (1)

    【特許請求の範囲】
  1. 切出された2値化文字パターンの正規化、正規化された
    文字パターンについての特徴抽出、及び抽出された特徴
    に基づく分類識別によつて文字を認識する文字認識方式
    において、上記2値化文字パターンを大きさと文字枠内
    の位置に基いてタイプ分けする手段と、上記2値化文字
    パターンを、タイプ毎に大きさ及び位置の少なくとも一
    方を異ならせて所定の正規化イメージ領域に正規化する
    手段とを備え、上記正規化イメージ領域全体を対象とし
    て特徴抽出するようにしたことを特徴とする文字認識方
    式。
JP14872584A 1984-07-19 1984-07-19 文字認識方式 Granted JPS6132187A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14872584A JPS6132187A (ja) 1984-07-19 1984-07-19 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14872584A JPS6132187A (ja) 1984-07-19 1984-07-19 文字認識方式

Publications (2)

Publication Number Publication Date
JPS6132187A true JPS6132187A (ja) 1986-02-14
JPH0516632B2 JPH0516632B2 (ja) 1993-03-04

Family

ID=15459211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14872584A Granted JPS6132187A (ja) 1984-07-19 1984-07-19 文字認識方式

Country Status (1)

Country Link
JP (1) JPS6132187A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208183A (ja) * 1987-02-25 1988-08-29 Oki Electric Ind Co Ltd 文字認識方式
JPS63233488A (ja) * 1987-03-20 1988-09-29 Fujitsu Ltd 文字認識処理装置
JPS6485776A (en) * 1987-09-28 1989-03-30 Hitachi Ltd Document generator
JPH01154296A (ja) * 1987-12-10 1989-06-16 Fujitsu Ltd 文字切出方法
JPH01171080A (ja) * 1987-12-25 1989-07-06 Matsushita Electric Ind Co Ltd 誤り自動訂正文字認識装置
JPH01320171A (ja) * 1988-05-30 1989-12-26 Ind Technol Res Inst 枠字処理方法
JPH07152864A (ja) * 1991-08-07 1995-06-16 Hokkaido Prefecture 手書き英数字認識のための図形作成方式
WO2019049187A1 (ja) * 2017-09-05 2019-03-14 富士通株式会社 プログラム、情報処理装置、及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5843071A (ja) * 1981-09-08 1983-03-12 Toshiba Corp 文字認識方式
JPS58214973A (ja) * 1982-06-09 1983-12-14 Hitachi Ltd 類似文字識別方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5843071A (ja) * 1981-09-08 1983-03-12 Toshiba Corp 文字認識方式
JPS58214973A (ja) * 1982-06-09 1983-12-14 Hitachi Ltd 類似文字識別方式

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208183A (ja) * 1987-02-25 1988-08-29 Oki Electric Ind Co Ltd 文字認識方式
JPS63233488A (ja) * 1987-03-20 1988-09-29 Fujitsu Ltd 文字認識処理装置
JPS6485776A (en) * 1987-09-28 1989-03-30 Hitachi Ltd Document generator
JPH01154296A (ja) * 1987-12-10 1989-06-16 Fujitsu Ltd 文字切出方法
JPH01171080A (ja) * 1987-12-25 1989-07-06 Matsushita Electric Ind Co Ltd 誤り自動訂正文字認識装置
JPH01320171A (ja) * 1988-05-30 1989-12-26 Ind Technol Res Inst 枠字処理方法
JPH07152864A (ja) * 1991-08-07 1995-06-16 Hokkaido Prefecture 手書き英数字認識のための図形作成方式
WO2019049187A1 (ja) * 2017-09-05 2019-03-14 富士通株式会社 プログラム、情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
JPH0516632B2 (ja) 1993-03-04

Similar Documents

Publication Publication Date Title
CA1160347A (en) Method for recognizing a machine encoded character
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US7437001B2 (en) Method and device for recognition of a handwritten pattern
JP3302147B2 (ja) 文書画像処理方法
US5129012A (en) Detecting line segments and predetermined patterns in an optically scanned document
JPH0727543B2 (ja) 文字認識装置
US4776024A (en) System for segmenting character components
JPS6132187A (ja) 文字認識方式
US5526440A (en) Hand-written character recognition apparatus
JP2000090194A (ja) 画像処理方法および画像処理装置
US5307424A (en) Character recognition system
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP2788506B2 (ja) 文字認識装置
JP2957729B2 (ja) 行方向判定装置
JP3406942B2 (ja) 画像処理装置及び方法
JP2938276B2 (ja) 文字認識装置
JP2582611B2 (ja) マルチフオント辞書の作成法
JP2708604B2 (ja) 文字認識方法
JP2962525B2 (ja) テキストブロック認識方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH08123904A (ja) 書体種類処理装置
JP2972443B2 (ja) 文字認識装置
JP2957774B2 (ja) 行方向判定装置
JP2616995B2 (ja) 文字認識装置