JPS6274181A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS6274181A
JPS6274181A JP60213755A JP21375585A JPS6274181A JP S6274181 A JPS6274181 A JP S6274181A JP 60213755 A JP60213755 A JP 60213755A JP 21375585 A JP21375585 A JP 21375585A JP S6274181 A JPS6274181 A JP S6274181A
Authority
JP
Japan
Prior art keywords
character
signal
data
characters
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60213755A
Other languages
English (en)
Inventor
Keiko Abe
阿部 惠子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60213755A priority Critical patent/JPS6274181A/ja
Priority to US06/910,890 priority patent/US4850025A/en
Priority to CA000519051A priority patent/CA1273110A/en
Priority to GB8623049A priority patent/GB2182796B/en
Priority to DE19863632832 priority patent/DE3632832A1/de
Priority to CN86107537A priority patent/CN1008022B/zh
Priority to KR1019860008111A priority patent/KR870003439A/ko
Priority to NL8602456A priority patent/NL8602456A/nl
Priority to FR868613524A priority patent/FR2588104B1/fr
Publication of JPS6274181A publication Critical patent/JPS6274181A/ja
Priority to GB8824148A priority patent/GB2208735B/en
Priority to GB8824149A priority patent/GB2208736B/en
Priority to CA000615578A priority patent/CA1291573C/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
以下の順序で本発明を説明する。 A産業上の利用分野 B発明の概要 C従来の技術 り発明が解決しようとする問題点 E問題点を解決するための手段(第1図及び第12図) F作用(第1図及び第121閾) G実施例 (G1)文字認識装置1の全体構成(第2図、第3図、
第4図) (G2)原矩形切出し手段12 (第1図、第5図)(
G3)細切出し手段14(第1図、第6図、第7図) (G4)基本矩形切出し手段16(第1図、第8図)(
G5)統合部18(第1図、第9図、第10図、第11
図) (G6)切出しデータメモリ25 (第1図、第8図、
第12図、第13図、第14図) (G7)履歴符号化手段(第1図、第15図、第16図
) (G8)識別部23(第1図、第17図)(G9)実施
例の動作 (GIO)実施例の効果 (Gll)他の実施例 H発明の効果 A産業上の利用分野 本発明は文字認識装置に関し、例えば和文文字及び英文
文字のように異種の文字が混在してなる印刷文書の文字
を認識する場合に適用して好適なものである。 B発明の概要 本発明は、原稿読取部から得られるイメージ読取データ
の各文字を認識する文字認識装置において、文字列信号
から文字を切出し処理する際に得られる切出しデータを
切出しデータメモリに格納し、当該格納データを参照し
2て文字識別処理を実行し得るようにすることにより、
複数種類の文字が混在する文字列についての認識率を向
上さゼることができる。 C従来の技術 例えば横書の和文文字(漢字、かな文字などをいう)を
含んでなる印刷文ψ;の文字列から各文字を認識する場
合、和文文字特有の問題として、分離文字を正確に認識
する必要がある。 すなわち従来横書文字列の各文字を認識するには、先ず
本文文字列から各文字を1文字ずつ切り出す処理をした
後、各文字の特徴を基準文字の特徴と比較して認識する
手法が用いられるが、和文文字は、1文字の構成部分が
幅方向又は、高さ方向に連続している文字ばかりではな
く、1文字の構成部分が不連続に分離しているいわゆる
分離文字(例えば、「川」、「い」など)があるため、
この分離文字を正確に切り出すことが困難であった。 D発明が解決しようとする問題点 すなわち和文文字については、幅方向に見て連続する図
形部分(すなわち文字部分)を単位にして文字信号を切
り出したとき、切り出された各信号部分を全て1文字で
あると認識することはできず、例えば漢字文字「川」は
、3つの文字構成部分に切り出され、またひらがな文字
「い」は2つの文字構成部分に切り出される。 これに対してアルファベット文字、ギリシャ文字、数字
文字などでなる文字(これを英文文字と呼ぶ)は、実用
ト、1図形1文字を前提条件として文字信号を切り出す
ことができる。しかし、英交叉字列の場合は、各語間以
外は文字間隔が比較的狭いために、原稿読取部から出力
されるイメージ読取データに基づいて和文文字と同様の
手法で読み取ることができるとは限らず、例えば、隣合
う2つの文字が互いに接触しているように読み取る(こ
れを接触文字と呼ぶ)おそれがあり、これを正確に分離
して切り出すことができるようにする必要がある。 このような問題点があるため、従来は、字体に不揃いが
ない印刷文書であっても、和文文字及び英文文字が混在
している場合には、各文字を正しく切り出すことは困難
であった。 これに加えて従来の文字認識方法においては、「文字の
切出し」ステップと、1文字の認識1ステツプとはそれ
ぞれ独立した処理ステップであると考えられており、文
字切出し部において一旦文字の切出しをした後、文字認
識部にデータが引き渡された後は、たとえ分離文字の切
出しが誤ったために文字認識部において正しい文字の認
識ができなかった場合にも、文字認識部において当該文
字について認識不能であるとして処理する手法が採用さ
れており、このことが文字認識部の認識率の低下の原因
の1つになっていた。 本発明は以北の点を考慮してなされたもので、文字の切
出しステップにおける文字の切出しを、できるだけ小さ
い文字構成部分を単位にしてなし得るようにした場合に
、切り出された文字信号についての統合、識別、再切出
しなどの文字認識処理を、切出し処理時のデータに基づ
いて合理的、かつ正確に行い得るようにすることにより
、文字の認識率を高めることができるようにした文字認
識装置を提案しようとするものである。 E問題点を解決するための手段 かかる問題点を解決するため本発明においては、文字列
信号S4を1文字又は1文字の構成部分に外接する矩形
領域で切り出して切出し文字信号S7を送出する文字切
出し部11と、この文字切出し部11における複数の切
出し処理ステップSTF、P1〜5TEP4の処理結果
を表す切出しデー夕を格納する切出しデータメモリ25
とを具え、文字切出し部11の後段に設けられた文字識
別処理部(統合部18、識別部23、再切出し部40な
ど)において、切出しデータメモリ25の切出しデータ
を用いて文字認識処理するようにする。 F作用 和文文字のように、イメージ読取データs1において、
1文字を構成する文字構成部分が、分離文字として読み
取られて来るようなおそれがある文字列の場合には、最
も小さい文字構成部分に外接する矩形領域で文字列信号
を切り出すために、各文字の種類に適合する複数の切出
し処理ステップ5TEPI 〜5TEP4を文字切出し
部11において実行する。 、j7)?lの切出し処理ステップ5TEPI〜ST 
E P 4の処理結果は、切出しデータメモリ25に格
納され、文字切出し部11の後段に設けられた文字識別
処理部において切出し文字信号s7の文字認識処理を実
行する際に参照される。 かくして文字認識処理の際に、切出し処理された履歴を
表す切出しデータを参照することができることにより、
文字の構成部分についての矩形領域を統合、識別、再切
出し等の処理を、合理的かつ効率良く行うことができる
。 G実施例 以下図面について、本発明の一実施例を詳述する。 (G1)文字認識装置の全体構成 第2図におい−ζ、1は全体として文字認識装置を示し
、原稿読取部2において得られたイメージ読取データS
1を、文字列切出し部3に供給する。 文字列切出し部3は、1ペ一ジ分のイメージ続出データ
S1を第1段前処理部4に受け、雑音を除去すると共に
文書の回転補正をした後、イメージデータS2として第
2段前処理部5に供給する。 第2段前処理部5は、文書のうち、文字領域を、その他
の領域(写真、図面等の領域)から区分けして、文字領
域に含まれるイメージデータだけを抽出する。そして第
2段前処理部5ば、当該抽出された文字領域に含まれる
文字列が横書であることを検出した後、文字列の抽出を
する。 この文字列の抽出は、第3Mに示すように、文字領域A
Rの各ドツトの位置を、列方向(水平方向)にとったX
軸と、行方向(垂直方向)にとったy軸とでなるxy座
標で表ずようにし、文字領域ARを構成する文字列AP
I、A R2・・・・・・に含まれる論理]−1Jレベ
ルのドツト(黒いドツトを表す)の和の値をy軸上に投
影して(y投影と呼ぶ)、第4図(A)に示すようなy
投影信号3yを得る。ここでy投影信号syの信号レベ
ルは、文字列相互間の位置では黒いドツトの1・−タル
情報がないことから[−0ルベルにあるのに刑して、文
字列ARI、AR2・・・・・・に対応するy軸重の位
置では、黒いドツトの数に対応する信号レベルになる。 従ってy投影信号syを所定のスレシボールドレベルと
JtMし、当8亥スレシホーJし]゛レベル以−トの区
間の間論理[−1」レベルに立ち十がる文字列切出しデ
ータCL(第4図(B))を得る。 かくして文字列切出しデータCLの論理「1」レベルの
区間によって、文字領域ARのうちの文字列ARI、A
R2・・・・・・の領域を表すことができ、第2段前処
理部5は、この文字列切出しデータCLを用いてイメー
ジデータS2のうち、文字列切出しデータCLが論理「
1」レベルにある垂直走査区間に相当するイメージデー
タでなる文字列抽出信号S3を第3段前処理部6に送出
する。 第3段前処理部6は、文字列抽出信号S3について回転
があれば、これを微調整して文字列信号S4として文字
切出し識別部7に送出する。 か(して文字列切出し部3は、原稿読取部2から供給さ
れたイメージ読取データS1のうち、各文字列を構成す
るデータ部分だけを文字列信号S4として文字切出し識
別部7に送出する。 文字切出し識別部7は、各文字列を構成する文字を1文
字ずつ切り出してその特徴を認識するもので、第1図の
構成のものを適用し得る。 (G2)原矩形切出し手段12 すなわち文字列信号84は、文字切出し部11の原矩形
切出し手段12に供給される。原矩形切出し手段12は
、文字列信号S4のうち、各文字列領域ARI、AR2
・・・・・・に相当するデータ部分について、黒いlツ
トが存在する水平方向の領域をX軸上に投影して黒いド
ツトの]・−タル数に信号レベルの文字信号を得ること
により、各文字又は文字の構成部分の幅に外接する高さ
方向くy軸方向)の線によって囲まれるj14形領域(
これを原矩形領域と呼ふ)を切り出すことにより、1文
字又は1文字の構成部分が存在する水平力向の区間を判
定して、対応する文字4g号部分を切り出゛4゜例えば
第5図(A)6;r示ずように、第n列目の文字列領域
A RNについて、文字列、ずなわち・・・・・・[−
適−1−f’L、J −rて」−「い」−「る」・・・
・・・を内容とする文字列信号S4が到来したとき、原
矩形切出し手段12は、文字列信号S4をh−いに値を
異にする複数例えば2つのスレシホー月利・レベルTH
O(第5図(R1)) 、′r■(l  (第5図(C
I))と順次比較して、それぞれ各文字又は文字の構成
部分に外接する文字矩形領域を順次形成し、各文字矩形
領域の文字信号を順次切り出す。 ここで、スレシホールドレベルTHO及びTHlの数及
び信号レベルは、異種の文字が混在している印刷文書に
おいて用いられている多様な文字パターンを各文字パタ
ーンの特徴を失わないように切り出して矩形領域を得る
ことができるような値に予め選定される。 この実施例の場合、和文文字及び英文文字が混在する印
刷文書を認識するため、原矩形切出し手段12は、第1
のスレシホールドレベルとしてTHO(−〇)に設定さ
れ、かつ第2のスレシホールドレベルとしてTHI  
(=1)に設定される。 スレシホールドレベル0及び1は、24X24ドツトの
基準枠内において、高さ方向のトータルドツト数が0個
及び1個であるときの信号レベルを表す。 ところで、文字列信号の文字信号部分を低いスレシホー
ルドレベルTHOで切り出せば、このことは粗い尺度で
文字矩形領域を切り出す結果を得ることができることに
なる(これを粗い切出しと呼ぶ)。またスレシホールド
レベル1で切り出せば、このことは細かい尺度で文字矩
形領域を切り出す結果を得ることができることになる(
これを細かい切出しと呼ぶ)。 このような結果になるのは次の理由による。投影法によ
って得た文字列信号に含まれる文字信号部分の信号レベ
ルは一般に、文字又は文字構成部分の中央部から外方に
行くに従ってOレベルに低下して行くような信号波形(
いわゆる裾をひくような波形)をもっている。従って高
いスレシホールドレベルTHI(=1)で切り出し7た
矩形領域の文字幅は、低いスレシホールドレベル1”1
(O(−〇)で切り出した矩形領域の文字幅より狭くな
る。そこで高いスレシホールドレベルを用いた細かい切
出し処理によって切り出された文字信号部分は、低いス
レシホールドレベルを用いた粗い切出し処理によって切
り出された文字信号部分に対して、その内部のパターン
の特徴(すなわち黒いドツトの分布)を表していること
になる。 このように、細かい切出し処理によって切り出された第
1の文字信号は、相い切出し処理によって切り出された
第2の文字信号の内部に含まれている特徴を顕在化する
ように表している。従って切出し粗さが細かい第2の文
字信号に基づいて文字の認識ができなかったとき、切出
し粗さが粗い第1の文字信号に戻って文字認識処理をす
ることによって文字の認識ができる可能性があり、かく
して多様な文字の認識をする場合、異なる信号レベルを
もつスレシボールドレベルTHO及びTHlによって順
次切出し処理をしたとき、矩形領域が順次分離して行く
履歴(これを切出し履歴と呼ぶ)は、文字を正確に認識
するための有効な手段となる。 例えば、和文文字列は1字ずつかなり広い間隔で配列さ
れていると共に、1文字の中に文字構成部分が分離して
いるようなものもある特徴をもつ。 従って実用上、和文文字は、スレシホールドレベルTH
O(=O)で文字信号を切り出せば、1文字又は1文字
の文字部分に外接する第1の矩形領域を切り出すことが
できることになる。そしζ続いてスレシホールドレベル
TH1(= 1) テ文字信号を切り出せば、1文字又
は1文字の文字構成部分の内部の黒いドラj・の分イj
o)特徴を表す第2の矩形領域を切り出すことができる
ことになる。 従って和文文字の場合、2−っのスレシボ−月N−”レ
ベルで切り出されて来る矩形領域及びその履歴は、文字
の黒いドツトの分布の特徴を失っていないので、第1又
は第2の矩形領域によって切り出した文字信号によって
文字認識ができることになる。 また、英文文字列は、各語間の間隔はがなり広いが、各
語内の文字は間隔が狭く詰るように配列されζいる。従
って実用−ヒ、英文文字は、スレシホールドレベル’]
”lo(=0)で文字13号を切り出すと、1文字を切
り出すことができる場合と、隣り合う文字間隔が狭いた
めに切り出し得ない場合が生じ得る。そこで続いてスレ
シホールドレベルTHI  (=1)で文字信号を切り
出すと、第1段目の処理では1文字として切り出し、得
ながった文字が、第2段目の処理で切り出すことができ
る場合が生じる。この場合、すでに第1段目の処理で切
り出すことができた文字の内部の特徴は、第2段目に切
り出された文字信号においても失われることはないので
、当該第2段目の文字信号によって文字を認識すること
ができると言い得る。 かくして文字列信号s4の信号レベルがスレシホールド
レベルTHI  (=1)を越えたとき、第5図(C2
)に示すように論理「1」レベルとなる第2の原矩形切
出しデータDT2を発生し、この第2の原矩形切出しデ
ータDT2を用いて、その信号レベルがrlJの区間に
相当する文字列信号S4を、原矩形文字信号s5として
送出する。 その結果和文文字の切出しと、英文文字の切出しとを、
それぞれ最適な条件の下で切り出すことができる。 このようにして原矩形切出し手段12は、分離文字では
ない和文文字について1文字ごとにそのX方向の各文字
領域に対応する文字列信号s4を切り出すことができ、
これに対して分離文字の場合は、各文字構成部分ごとに
そのX方向の文字領域を単位として文字列信号s4を切
り出すことができる。これに加えて英文文字の場合、原
矩形切出し手段12は、各文字が接触していなければ、
各文字のX方向の文字領域を単位としζ、文字列信号S
4を切り出すことができる。 (G3)細切出し手段14 原矩形文字信号s5は、細切出しJ″段14に(Jt給
される。この細切出し手段14は、特に英文文字につい
て、接触文字が含まれζいる場合に、これらの接触文字
を、正しく2つの文字に分離し°C切り出すことができ
るようにし2ようとするものである。 すなわち英文文字は、隣合う文字が接近しているために
、第6図(A)に示すように、2つの文字例えば[fl
及びl’ o Jが原稿読取部2によ−って読み取られ
てイメージ読取データs1として送出されたとき、各文
字を表ず黒いドラ1−が同し・X座標位置で重なり合う
場合が生じ得る。この場合X投影して得られる原矩形文
字信号S5には、文字rfJ及び「0」間におい”ζ信
号レベルが0になる区間がなく、これを分離しなければ
、2つの文字rfJ及び「0」が連続した1つの文字と
して切り出されてしまう結果になる。 かかる問題を解決するため、細切出し手段14は、原矩
形文字信号S5(第6図(B))のうち、原矩形切出し
手段12において一応1つの文字であるとして切り出さ
れて来た原矩形文字信号S5について、これが極小値と
なる点及びその周辺の点(これを極小部と呼ぶ)のX軸
方向の座標x0を求め、続いて第7図に示すように当該
極小点の座標の両隣りの座標、すなわちX(−11及び
X (+11における縦方向(すなわちy方向)につい
ての黒いドツトの連続性を調べる。 すなわち第7図(A)に示すように、縦方向に黒いドツ
トが連続していれば、1つの矩形領域であると判定し、
これに対して第7図(B)に示すように、縦方向に黒い
ドツトが不連続であれば、2つの矩形領域に分離すべき
であると判定する。 先ず第6図(A)において原矩形文字信号S5の信号レ
ベルが極小点にあるX座標は、x−x。 でその信号レベルは55−4である。これに対して両隣
りのX座標X = X f−N及びX −X (+I+
の信号レベルば55−5及びS5・−8である。従って
この2・つの文字は、第5図(C1)及び(C2)につ
いて−■−述した原矩形切出し手段12における判断に
おいては、それぞれスレシホールドレベルTHO及びT
HIより高い信号レベルにあるので、1つの文字として
切り出されている。 ところで、第6図(A)において、原矩形文字信号S5
の信号レベルが極小点になるX座標の位置x−xo及び
その両隣の位3 X = X +−+i及びX−X +
、11について、黒いドツトの縦方向における連続性を
調べると、原矩形文字信号S5の極小信号レベルは、文
字「f−1の右端部について生じており、X−X。及び
X=XT−11の位置についての黒いドツトの連続性は
、文字rfJを構成する部分についてだけ縦方向に連続
的であり、文字[0」についての黒いドツトは存在しな
い。lトだX−X(。1.の位置については、左側の文
字rfJのドラI−が連続していると共に、下方に離れ
た位置に右側の文字roJを構成する黒いドツトがあり
、両者の間は不連続的である。そこでX−X 6−、 
X−X(−1いx−x(+I、の座標について、縦方向
の連続性を総合的に判断すれば、左側の文字「f」と、
右側の文字roJとの間には、x=x(。、)の位置で
不連続の部分があると判断することができる。 従って細切出し手段14は、原矩形文字信号S5を、x
=x(。I、の位置で2つの文字rfj及び「0」に分
離して細切出し文字信号S6として基本矩形切出し手段
16に送出する。 かくして細切出し手段14によれば、文字列信号S4を
所定のスレシホールドレベルTHO,TH1によって切
り出して送出されて来た文字信号S5の中に、接触文字
が含まれていた場合には、これを適切に2つの文字に分
離するように切り出すことができる。 因に、原稿読取部2 (第1図)において用いられるイ
メージリーダは、一般に変調伝送関数(ne。 dulation transfer functio
n>の影響により、文字の輪郭がぼけるおそれがあり、
かかるぼけが発生した場合には、英文の場合のように文
字間隔が狭い文字列においては、隣合う文字が互いに接
触しているように読み取られ、かくして接触文字が文字
列に混入するおそれがある。このような場合、接触文字
の接触部分は、原矩形切出し1段12においてX投影処
理をして得られる原矩形文字信号S5の信号レベルが、
極小値を存することになる。 かくして細切出し手段14によってこれらの接触文字を
2つの文字に分離するように切り出すことができる。 ところがこのようにすると、和文文字の場合、分離文字
でないものまでが細切出し手段14によって分離されて
しまうおそれがある。漢字の中には、文字部分相互間の
関係が接触文字に類似するようなものがあるからである
。この問題に対して第1図の実施例の場合は、和文文字
が分離された場合には、後段の識別部によって文字の認
識をずる前に、統合手段によって所定の条件の下に統合
するようになされている。 この実施例の場合、原矩形文字信号S5の極小点の座標
を判断するために、所定のスレシボールドレベルが設定
され、当該スレシホールドレベル以下の信号レベルをも
つX座標の位置を極小部であると判断するようになされ
ている。 このようにして細切出し手段14において得られた文字
信号は、細切出し文字信号S6として基本矩形切出し手
段16に与えられる。 (G4)基本矩形切出し手段16 基本矩形切出し手段16は、細切出し文字信号S6によ
って表された各文字又は文字構成部分について、垂直方
向に雑音が混入しているときこれを除去して当該文字又
は文字構成部分の上下端に外接するX方向の線によって
文字高さについての切出し処理をするもので、細切出し
文字信号S6の各文字又は文字構成部分について、第8
図(A)に示すように、y投影処理を実行する。その結
果得られるy投影信号1)Ryは、垂直方向の各位置(
すなわちy軸方向の各座標位置)における水平方向の走
査線上にある!・−タルドツト数に相当する信号レベル
をもつことになる。 ここで基本矩形切出し手段16は、y投影信号PR,に
対するスレシボールドレベルを、文字幅WXに対して所
定の比率の13号
【・・ヘル(例えば文字幅WXに相当
する信号レベルに対して、1/2の信号レベル)に設定
し、当該スレシボールドレ・\ル以下のy投影信号の部
分を雑音であると判定して除去する。 この結果基本矩形切出し手段16は、第8図(B)に示
すように、雑音と判定した白いドツト領域及び黒いドツ
ト領域を除去することにより、y軸方向の幅すなわち文
字高さをW□(第81’J(A))からWy2(第8図
(B))に修正する。かくして、基本矩形切出し手段1
6は文字幅W8及び文字高さWy2でなる矩形文字領域
を基本矩形領域として含んでなる基本矩形切出し文字信
号S7を送出する。 このようにして文字切出し部11は、文字列信号S4に
含まれている各文字又は文字構成部分に外接する基本矩
形領域によって切り出された文字信号を順次配列してな
る基本矩形切出し文字信号S7を得ることができ、これ
を後段に設けられた文字認識処理部(統合部18、識別
部23、再切出し部40でなる)の統合部18に供給す
る。 (G5)統合部18 統合部18は、和英判定手段20において、現在識別さ
れている文字が和文文字であるとき、スイッチ回路21
を和文文字側接点SWI側に切換え制御し、これにより
基本矩形切出し文字信号S7を接点SW1を通じて統合
手段22に供給し、その統合出力を統合部18の出力S
8として識別部23に供給するようになされている。 これに対して和英判定手段20が現在識別している文字
が英文文字であると判断したとき、スイッチ回路21を
英文文字側接点SW2に切換え制御することによって、
基本矩形切出し文字信号57を接点SW2を通じて直接
続合部18の出力S8として識別部23に送出する。 和英判定手段20は、識別部23から現在識別されてい
る文字が和文文字であるか、英文文字であるかを表示す
る和英識別信号DTEを受けて、現在識別されている文
字の種別に対応する切換制御信号をスイッチ回路21に
供給する。 統合手段22ば、一般に和文文字の場合、垂直方向の文
字高さに対する水平方向の文字幅の比率(これを縦横比
と呼ぶ)はほぼ1に近似できるという事実に基づいて、
基本矩形切出し文字信号S7の各矩形文字信号について
分離文字であるか否かの判断をして第9図に示す処理手
順に従って和文文字の統合処理を実行する。 すなわち統合手段22は、スイッチ回路21を通じて、
和文文字列でなる基本矩形切出し文字信号S7の各矩形
文字信号が到来したとき、第9図のステップSPIにお
いて文字統合ブIコグラムをスタートし、次のステップ
S I) 2において当該文字の文字高さく=h)と、
文字幅(=W)との比l h/w tがほぼ1であるか
否かの判断をする。 このステップSP2において肯定結果が得られれば、こ
のことは到来した矩形文字信号が和文1文字分の文字信
号であることを意味しており、従って統合手段22は、
ステップSP3に移って当該統合処理プログラムを終了
して入力された文字信号を識別部23に送出する。かく
して文字信号として1文字分の和文文字を表す文字信号
が到来したとき、統合手段22は統合処理を廿ずに、直
接識別部23に送出する。 これに対してステップSP2において否定結果が得られ
ると、このことは文字矩形領域の縦横比l h/w l
が和文文字の比率をもっていないこと(従って分離文字
であること)を判定し得たことを意味する。このとき統
合手段22は、ステップSP4に移って次に到来する文
字信号との統合処理を実行する。 ここで統合手段22は、ステップSP4において統合し
て得られた統合文字信号についての文字高さく=h。)
及び文字幅(−W、)を求め、次のステップSP5に移
ってその比率111o / w 。 1がほぼ1に等しいか否かの判断をする。この判断は、
ステップSP4において次の文字と統合した結果、和文
文字の縦横比にな−ったか青かの判断をするもので、1
一定結果が得られたとき統合手段22は上述のステップ
SP:lこ移って当該統合プロゲラj・を終了する。 これに対してステップSP5に才几\て否定結果が得ら
れたとき統合手段22ば、次のステップSP 6に移っ
て縦横比1bo/WOIが1より格段的に小さいか否か
の判断をする。 ここで肯定結果が得られると1.このことは、上述のス
テップSP4において2つの文字部分を統合し7たにも
かかわらず、その統合文字信号が未だ和文文字の文字幅
よりは格段的に小さく、さらに他の文字部分と統合しな
ければ、和文文字の文字幅にはならないことを意味して
おり、従って統合手段22A:i上述のステップSP4
に戻って、さらに次の文字と統合ずろような処理を実行
する。 その結果ステップSP5?こおいて統合文字信号につい
ての縦横比が、はぼ1になったか否かの判断をし、肯定
結果が得られれば、上述のステップSP3に移って当該
プログラムを終了する。 これに対してステップSP5において再度否定結果が得
られたとき統合手段22は再度ステップSP6に移って
統合後の文字信号の文字幅が和文文字の文字幅より格段
的に小さいか否かの判断をする。 このようなステップ5P4−3P5−3P6〜SP4の
ループは、ステップSP6において否定結果が得られる
まで続けられ、かくして統合手段22は、統合後の文字
信号の文字幅が、1文字分の幅に近似した値になるまで
続けられる。 やがてステップSP6において否定結果が得られると、
統合手段22は次のステップSP7に移って、1つ前の
統合処理によって得られた文字信号の文字矩形領域の大
きさで文字信号の切出しを実行した後、ステップSP3
に移って当該統合処理プログラムを終了する。 その結果統合手段22は、第10図に示すように、和文
文字列]−な評判の・・・・・・M産化できJに肘応す
る基本++i形切出し文字信号S7について、各文字に
ついて切り出された第0番目〜第22番目の基本矩形領
域について、分離文字でなる和文文字「判」、「い」、
[は−1、[−が1、[−化]以外の文字信Bについて
は、第9図のステップSP2において肯定結果が得られ
るごとにより、直ちに当該文字信号を識別部23に送出
するの乙こ対して、分離文字については、ステップS 
P 4−5 P 5−3P6−3P4のループを経て、
統合部・の文字の縦横比がほぼ1に近くなるまで統合処
理を実行する。 これに対して英文文字列の場合には、第11図に示すよ
うに、和文文字における分離文字に相当するような縦横
比をもつものが多いが、実用上英文文字には分離文字が
ないと丸えて良いので統合部18において、統合処理を
−lずに、スイッチ回路21から直接識別部23に文字
信号を送出する。 (G6)切出しデータメモリ25 統合手段22における第9図の統合処理は、切出しデー
タメモリ25に格納されている基本矩形領域の長さデー
タD工、切出し履歴データDhs、縦横比データDvい
切出し位置データD□、大きさデータDszを含んでな
り、例えば第12図に示すようなフォーマットによって
、1文字について3ワードのデータで構成されている。 第12図のデータフォーマットにおいて、8ビツトの第
1のデータ列DATAIは、基本矩形切出し手段16に
おいて切り出された基本矩形領域の文字幅Wの値を表す
データD8でなり、また8ビツトの第2のデータ列DA
TA2は基本矩形切出し手段16によって切り出された
基本矩形領域の高さhの値を表すデータDhでなる。 また8ビツトの第3のデータ列DATA3は、文字切出
し部11の原矩形切出し手段12、細切出し手段14、
基本矩形切出し手段16における切出し経過を3ビツト
のフラグF L G 1〜F I−G3と、1ビツトの
フラグFLG4とで表すデータでなる。 さらに8ビットの第4のデータ列1) A TA 4ば
、2ピツ1〜の切出し位置データD p +iと、2ビ
ットの縦横比データDいと、2ビツトの縦相対比データ
D szv及び2ピッ1−の横相対比データI35、と
でなる大きさデータI:l、で構成されている。 切出しデータメモリ250文字幅データI)いは、細切
出し手段14においζ、接触文字についての分離をした
後の基本矩形領域の文字幅を表すデータをパラメータエ
ンコーダ部30のイ従横It/大きさ検出手段3]IZ
よって検出して得られ、これが第1のデータ列1) A
 TA 1として切出しデータメ七り25に格納される
。また基本矩形領域の高さデータI〕1.は、基本矩形
切出し、十u+6においてy方向の長さを再切出しされ
た後(第8図)、その文字高さデータWy2が縦横比、
/大きさ検出1段3[によ−って検出みれて得られ、こ
れが切出しデータメモリ25の第2のデータ列r)AT
A2に格納される。 縦横比/大きさ険出■一段311J:、これらの基本矩
形長さデータI)8及びI)hに基づいて、縦横比デー
タDvhを演算により求めて切出しデータメモリ25の
データ列DATA4に格納する。 これに加えて縦横比/大きさ検出手段31は、第13図
に示すように、検出された基本矩形長さW及びhを表す
データD9及びDhに基づいて、これを基準枠の縦及び
横寸法Wl及び)lR(それぞれ24ドツトでなる)と
比較し、その相対的比率を表す縦相対比データD、、v
 (=h/ha)及び横相対比データD□h (−w/
w、>を算出して切出しデータメモリ25の第4のデー
タ列メモリエリアDATA4に格納する。 ここで縦相対比データD□9及び横相対比データD s
zhを切出しデータメモリ25に格納するのは、次の理
由による。 すなわち和文文字の場合、縦横比が同一であるが、矩形
領域の文字高さ及び文字幅の異なる文字がある。例えば
「っ」及び1つ」、「あ」及び「あ」、「よ」及び「よ
」は、それぞれ縦横比は同一であるが、字の大きさが異
なる文字であり、これらは互いに異なる文字として切り
出す必要かある。そのため統合手段22は、小さい文字
を表す文字信号が到来したとき、これを1文字と判断す
る必要があり、このように統合手段22を制御するデー
タとして切出しデータメモリ25は縦相対比データD 
s Z V及び横相対比データD l1ckを格納する
。 また切出し位置データD psは、基本矩形切出し手段
16が基本矩形領域を切り出した結果、第14図に示す
ように、文字の位置が文字幅WR及び文字高さり、lを
有する基準枠■)Rに対して上半分の範囲P□に存在し
ているか、又は下半分の範囲PIIDに存在しているか
をパラメータエンコーダ部30の位置決定手段32によ
って検出し7、当該位置データDp、、を切出しデータ
メモリ25の第4のデータ列メモリエリアD A TA
4に格納する。 このような切出し位置データI)psを切出しデータメ
モリ25に格納するのは、基準枠1)7の−1−半分の
範囲P、llIに存在する文字として、[−゛ 1、「
0」、f’−4などがあり、これに対し7て下)1′分
の範囲PRDに存在する文字とし−(、[−1−1、[
。−)、「、」などがあるから、これらの文字を他の文
字とは区別して分類し得る。そこでこの分類に従って識
別部23において専用の認識アルゴリズムを用いて各文
字の識別をなし得るように、これらのデータを用いる。 (G7)履歴符号化手段35 以上の構成に加えて、切出しデータメモリ25の切出し
履歴データDh’sが、履歴符号化手段35において原
矩形切出し手段12、細切出し手段14、基本矩形切出
し手段16において文字信号が順次処理されて行くに従
って得られるデータに基づいて形成される。 履歴符号化手段35は、文字切出し部11が順次切出し
処理を実行して行く複数の処理ステップにおける処理結
果を、基本矩形切出し手段16から出力される基本矩形
切出し文字信号S7において切り出された各矩形領域に
ついて、それぞれ論理ルベル「1」又は「0」で表され
るフラグF LGl、FLG2、FLG3、FLG4で
なる履歴符号を、各処理ステップに対応させてコード化
する。 履歴符号化手段35における符号化は第15図に示す手
順で実行される。すなわち履歴符号化手段35は、原矩
形切出し手段12がスレシホールドレベルTHO(=O
)を用いて文字列信号S4を切り出したとき、時間の経
過に従一つで順次切り出されて行く原矩形SQI、SC
2、SC3、SC2・・・・・・に対して、第1段処理
ステップ5TEP1として、順次交互に異なる論理ルベ
ルf’OJ、1−14、「0」、「1」・・・・・・を
第1のフラグT? IGlとして割り当てる。 続いて履歴符号化手段35は、原矩形切出し手段12が
、スレシホールドレベルTHI(−1)を用いて文字列
信号S4を切り出したとき、その切出結果について順次
交互に異なる論理レベルをもつフラグF L G 2を
割り当てる。この実施例の場合、原矩形切出し手段12
は、第2段処理ステップ5TEP2において、原矩形S
QIから2つの原矩形SQI l及び5Q12を切り出
し、」:た原矩形SQ4から2つの原矩形SQ41及び
5Q42を切り出す。かくして時間の経過に従って順次
得られた全ての原矩形SQI 1、SQI 2.5Q2
1、SC31、SC21、SC22・・・・・・に対し
て論理レベル「0」、「1」、「0」、「1」、「0」
、「I」・・・・・・が割り当てられる。この割当て動
作の後、履歴符号化手段35は第2段処理ステップを終
了する。 続いて履歴符号化手段35は、細切出し手段14が接触
文字について切出し処理を実行した結果切り出された矩
形領域について、順次交互に異なる論理レベルのフラグ
FLG3を割り当てる。この実施例の場合、第3段処理
ステップ5TEP3においては、矩形領域SQ21が2
つの矩形領域SQ211及びSC212に切り出され、
また矩形領域SQ41が2つの矩形領域SQ411及び
SC212に切り出され、これら新たに切り出された矩
形領域を含んで順次続く矩形領域5QI11、SQI 
21、SC211、SC212,5Q311、SC21
1、SQ4]、2、SC221・・・・・・に対して、
論理レベル「0−4、「1−1、l−01、「I」、「
0」、「1」、「0−1、「1」・・・・・・が順次交
互にフラグFLG3として割り当てられる。 履歴符号化手段35は、これに加えて、基本矩形切出し
手段16が、基本矩形領域を切り出したか否かを表すフ
ラグFLG4を割り当てる。この実施例の場合、基本矩
形切出し手段16の切出し動作によって第8図(A)に
ついて上述したような除去領域がある場合、論理r i
 J L、ベルが割り当てられ、これに対して除去領域
がない場合、論理[0−ルベルが割り当てられる。 かくして基本矩形切出し手段16の出力端に得られる基
本矩形切出し文字信号S7の順次続く基本矩形領域につ
いて、文字切出し部11において第1〜第4段処理ステ
ップ5TEPI〜S T E I)4において順次切出
し処理されて行く間の履歴がフラグFLGI、FLG2
、P L、 G 3、F T−04によって表され、こ
れが切出しデータメモリ25の第3のデータ列メモリエ
リアr)A、TA3に各矩形領域ごとに楕納されること
になる。 特に第1段〜第3段処理ステップ5TEPI〜S T 
E P 3については、最終的に得られた矩形領域SQ
1]、]、SQI 21.、SO211・・・・・・が
、それ以前の処理ステップにおいて得られた矩形領域S
Q1]、、5Q12、SO21・・・・・・及びSQL
、SO2、SO2・・・・・・のどの矩形領域から切り
出されて来たものであるかをフラグF L G 3、F
 T、 G2、F L G 1を順次見直して行くこと
により確認することができる。 すなわち第16図に示すように、矩形領域5Q111、
SQI 21、SO211・・・・・・の切出し履歴を
、順次フラグFLG3、FLG2、FLGIの順序でそ
の論理レベルを確認して行くとき、互いに隣り合う矩形
領域の論理レベルが一致するものに到達できれば、当該
隣り合う矩形領域は、その一致した処理ステップでは共
通の矩形領域にあったものであることが分かる。 例えば矩形領域SQL 11及びSQI 21について
フラグFLG3、Fl、G2、F L G 1を順次見
較べて行けば、フラグF L G lにおいて共に論理
「0」になっている。従ってこのこと4J、矩形領域S
QL 11及びSQL 21が第1段処理ステップ5T
EPIにおいて同一の矩形領域に含まれていたものが第
2段処理ステップ5TEP2において2つに切り出され
たものであることが分かる。 そしてその後第2段及び第3段処理ステップ5TEP2
及び5TEP3のフラグF L G 2及びF LG3
が変化していないことから、矩形1iJf域5Q111
及びSQL 21は第3段処理ステップS T EP3
においては分離処理されていないことが分かる。 同様にして順次続く他の矩形領域についてフラグの変化
をみれば、矩形領域SQ21 +及びS Q212は、
第2段処理ステップのフラグFl、G2において共通の
論理レベルをもっているので、第3段処理ステップ5T
EP3において2つに切り出されたものであることが分
かる。 また矩形領域SQ311は、隣り合う矩形領域SQ21
2及びSO211のいずれに対しても論理レベルが共通
になるフラグをもっていない。そこでこの矩形領域SQ
311は、第1段〜第3段処理ステップの全部の処理ス
テップについて、切出し処理がなされなかったことが分
かる。 また矩形領域SQ4]、1及びSO212は、フラグF
LG2において共通の論理レベルをもっており、さらに
これに加えてフラグFLGIにおいてさらに矩形領域S
Q421とも共通の論理レベルをもっている。このこと
から、矩形領域5Q411及びSO212は、第3段処
理ステップ5TEP3において2つに切り出されたもの
であることが分かり、かつ切り出された元の矩形領域は
、第2段処理ステップ5TEP2において、矩形領域S
Q421と共に同一の矩形領域SQ4から切り出された
ものであることが分かる。 さらに第4段処理ステップの処理結果を表すフラグF 
L G 4と合わせ考えると、第3のデータ列メモリエ
リアDATA3に格納されている切出し履歴データDh
Sは、文字切出し部11において切出し処理されて得ら
れた基本矩形切出し文字信号S7に基づいて、後段の処
理装置において統合、識別、再切出しなどの処理をする
際に、最終的に切り出された矩形領域が元々どの矩形領
域に含まれていたものであるかを知ることができること
により、この切出し履歴データを参照して統合、識別、
再切出しの処理をすれば、これらの処理を合理的かつ効
率良く実行し得る。 すなわち統合手段22においては、第9図について上述
したように、各矩形領域について縦横比データDVhを
用いて統合後の矩形領域の縦横比がほぼlになるような
文字の統合処理を実行する。 (G8)識別部23 また識別部23は、第17図の処理手順に従って、順次
統合部18から送出されて来る矩形領域について、文字
を識別して行く。 識別部23は、切出しデータメモリ25に順次切り出さ
れて来る矩形領域についてのパラメータを表すデータが
格納されているので、これらのデータを用いて、できる
だけ効率良く文字の識別をなし得るように識別処理を実
行する。すなわら識割部23は、ステップ5PIIにお
いて統合部18からのデータを入力し、次のステップ5
P12において位置による文字の分類が可能であるか否
かの判断をする。このステップ5P12における判断は
、切出しデータメモリ25の切出し位置データD ps
を用いて実行される。その結果入力された文字が、基準
枠PI  (第14図)の」二半分の範囲P□又は下半
分の範囲PMDに入るものである場合には、識別部23
は肯定結果を得てステップ5P13に移る。 このステップ5P13は、上半分の範囲に存在する文字
「′」、「″」、「−」、「0」などと、下半分の範囲
に存在する文字「。」、「、1、「、」、「っ」などと
を第1特徴文字として、上半分又は下半分の領域にある
文字の認識を実行するための専用の認識アルゴリズムを
実行する。 識別部23は、続くステップ5P14において第1の特
徴文字の認識ができたか否かの判断をし、肯定結果が得
られたとき、ステップ5P15に移って当該認識結果を
表ず認識出力SIOを送出する。 かくしてステップ5P12において位置による分類が可
能であるとの判定結果が得られたときには、識別部23
に入力された矩形領域の文字信号が第1特徴文字である
ことを識別できているこ吉から、ステップ5P13にお
LJる認識アルゴリズムは、当該第1特徴文字の認識4
.m最適の処理手順によって処理することができるよう
に選定して良いことになり、かくしてステップ5P13
における認識アルゴリズムとしては、簡易なものを適用
し得る。 これに対してステップ5P12において否定結果が得ら
れたとき、及びステップ5P14において否定結果が得
られたとき、識別部23はステップ5P16に移る。か
かる判定結果が得られるのは、統合部18から出力され
た文字信号が、基準枠PR(第14図)の上半分の範囲
r’1l11及び下半分の範囲PRDの両方に跨ってい
ることを意味し、このとき識別部23は、ステップSP
]3における専用の認識アルゴリズムを利用できないと
判断して次の認識ステップS P 1.6に移る。 このステップ5P16は、切出しデータメモリ25に格
納されている縦横比データD□、縦相対比データD !
 +1 V及び横相対比データD s z hを用いて
、統合部18から供給される文字データが、特定の大き
さの文字を表しているか否かを判定し、肯定結果が得ら
れたときステップ5P17に移る。 ここで縦横比h / wについての分類は、第1に、縦
横比h / wが O< −□ < 0.5        ・・・・・・
(1)のように、0〜0.5の範囲に入るか否か、また
第2に 1.5<□         ・・・・・・(2)のよ
うに、1.5より大きい範囲に入るか否かによって文字
を分類する。 (1)式によって分類される文字としては、例えば「−
」、「−−1、「−」、「(−」、「〜」、「−」など
がある。また(2)式によって分類される文字としては
、「:」、「;」、「0−1〜「9」、 「う」、 「
<」、 [ぐ]、 r I j、 [ト]、「ミ」、「
β」、「δ」、rfJ、「i」などがある。 また縦相対比h/h、lによる分類は、縦相対比h/h
、が、 Q <−一−< 0.5       ・・・・・・(
3)h。 の範囲に入るか否かによって分類される。この範囲に入
る文字としては、rmJ、rcIll−1、「。」、「
っ」、「ソ」、「ハ」、「へ」、raj、「e」、rc
j、rTJなどがある。 さらに横相対比w / wえの分類は、横相対比W/W
つが Q < −−−−< 0.5       ・・・・・
・(4)R に入る文字であるか否かによって分類される。この分類
に入る文字としては、「゛」、「”」、「。」、「:」
、「:」、「0」〜「9」、「う」、「<」、「イ」、
「a」、rcJ、reJなどがある。 かくして識別部23は、ステップ5P17において第2
特徴文字の認識をした後、続くステップ5P1Bにおい
て第2特徴文字を認識することかできたか否かの判断を
し、肯定結果が得られたとき、ステップS P 1.5
に移って当該識別結果を表す認識出力SIOを送出する
。 かくしてステップ5P16において、文字の大きさによ
る分類が可能であるとの判定結果が得られたときには、
識別部23に入力された文字信号を、第2特徴文字を簡
易に認識し得る専用の認識アルゴリズムを用いることが
できることにより、迅速かつ簡易な文字認識をなし得る
。 これに対してステップ5P16において否定結果が得ら
れたとき、及びステップS I) 18において否定結
果が得られたとき、識別部23はステラブ5P19に移
って標準アルゴリズムによる認識処理を実行する。この
認識処理は、統合部18から到来した文字信号が、認識
可能な全ての文字についてどの文字であるかを標準デー
タと比較することによって特定する処理を実行するもの
で、認識処理ステップは比較的膨大なものになる。 識別部23は、続くステップ5P20において、標準ア
ルゴリズムで文字認識ができたか否かの判断をし、肯定
結果が得られたとき上述のステップ5P15に移って当
該認識結果を表す認識出力S10を送出する。これに対
して否定結果が得られたときにはステップ5P21に移
る。 このステップ5P21は、識別部23が再切出し部40
(第1図)を用いζ、文字信号の統合、又は分離をやり
直すステップで、この統合、又は分離は、切出しデータ
メモリ25の第3のデータ列メモリエリアDATA3に
格納されている切出し履歴データDhSを用いて実行さ
れる。 かくして識別部23は、ステップSP21において再切
出し部40によ°つて再切出し動作が終rしたとき、上
述のステップ5P19に移って再度標準アルゴリズムに
よって文字認識処理を実行する。 ここでステップ5P21における再切出し処理は、文字
切出し部11において切出し処理されたときの切出し履
歴を参照して処理されることにより、再切出し処理を合
理的に実行することができ、かくして文字認識装置全体
としての認識率を高めることができることになる。 (G9)実施例の動作 第1図及び第2図の文字認識装置において、原稿読取部
2のイメージ読取データS1は、文字列切出し部3にお
いて、原稿の各行に含まれる文字について、y投影手法
を用いて各文字列の高さに外接する文字列データS4に
変換され、この文字列データS4が文字切出し識別部7
に送出される。 文字切出し識別部7は、原矩形切出し手段12によって
、各文字列について、X投影処理をして得られる文字列
信号を、第1のスレシホールドレベルTHOと比較した
後、第2のスレシホールドレベルTHIにおいて比較し
、その比較データDTl及びDT2によって文字列信号
を切り出す。 この実施例の場合スレシホールドレベル1” I Oは
、例えば分離文字と判断され易い和文文字について、1
文字及び1文字の構成部分を切り出すのに最適なように
、十分に低い値(THO=0)に選定されているのに対
して、第2のスレシホールドレベルTHIは、分離文字
を含まない英文文字を切り出すのに最適な値(スレシホ
ールドレー\ルTHOより大きい稙)に選定され°Cい
る。 このように原矩形切出しJ一段12によ゛つて複数段階
例えば2段階の切出し処理をすることにより、和文文字
及び英文文字を、各切出し処理ステップにおいて、文字
の特徴を失わないように、文字の内部の特徴を顕在化す
るような小さい華位で切り出すことができることになり
、統合部18における統合処理などの後段の認識処理を
高い精度で実行し得る。 文字切出し部11は、細切出し手段14において、原矩
形切出し手段12から送出された原矩形文字信号S5に
含まれる各矩形領域について、その信号レベルが所定レ
ベル以下のX座標位置の近傍において、分離処理を実行
する。かくして文字間隔が狭い英文文字において、例え
ば文字輪郭のぼけの影響によって、2つの文字が接触し
ているかのようなイメージ読取データS1が得られた場
合に、これを確実に分離することができる。 これに続いて文字切出し部11ば、基本矩形切出し手段
16において、細切出し手段14から1文字又は文字部
分ごとに切り出されて得られる細切出し文字信号S6に
ついてy軸投影を行うことによって、各文字の文字幅W
及び文字高さhに外接する基本矩形領域を切り出す。こ
れにより文字列を切り出した際に混入された雑音を各文
字ごとに有効に除去し得る。 このようにして原稿読取部2において和文文字及び英文
文字が混在する原稿を読み取ったとき、文字切出し部1
1は、和文文字及び英文文字それぞれがもっている固有
の特徴を失わせないように、できるだけ小さい文字部分
を単位として、1つの文字の幅及び高さ、又は1つの文
字の部分の幅及び高さに外接する矩形領域を基本矩形領
域として切り出すことができ、その結束前られる2人本
矩形切出し文字信号S7が統合部110こ供給される。 一方文字切出し部11において順次実行される処理ステ
ップにおける処理結果は履歴符号化手段35と、パラメ
ータエンコーダ部30を構成する縦横比/大きさ検出手
段31、位置決定1段32に与えられ、それぞれ切出し
履歴又14パラメータを表す切出しデータに変換されて
切出しデータメモリ25に送出され、かくして切出しデ
ータメモリ25に基本矩形切出し文字信号S7の各文字
に対応する長さデータDh、、切出し履歴データI)い
、縦横比データDv6、切出し位置データI)p、、大
きさデータI)s、が格納され、これが統合部】8にお
ける統合処理、識別部23におLJる識別処理、再切出
し部40における統合、又は分離処理におけるパラメー
タデータとして利用される。 統合部I8は文字切出し部11から順次送出さく52) れる基本矩形切出し文字信号S7の各矩形領域について
、和文文字が到来したとき、統合手段22において、必
要に応して矩形領域の統合処理をした後、文字信号S8
を識別部23に送出する。これに対して英文文字が到来
したときには、スイッチ回路21によって統合手段22
を側路して基本矩形切出し文字信号S8を識別部23に
送出する。 かくして文字切出し部11においてできるだけ細部につ
いて切り出された文字信号が、和文文字としてt?i!
識するのに必要な文字幅を有する文字に統合されて識別
部23に送出され、その結果文字認識装置全体としての
認識率を一段と向上させることができる。 識別部23は、切出しデータメモリ25に格納されてい
る切出し処理時のデータを用いて、識別処理を実行する
。その際に、切出しデータメモリ25から得られるデー
タによって、到来した文字がもっている特徴に応じて、
到来する文字信号を分類して、各文字信号の特徴に基づ
いて分類された文字を認識するための専用の認識アルゴ
リズムを用いて認識処理を実行する。かくして識別部2
3における認識効率及び認識率を一段と向上させること
ができる。 このような処理を実行しても、識別ができなかった場合
は、切出しデータメモリ25のデータを用いて再切出し
部40において統合部1日から送出される文字信号を再
度統合、又は分離処理をすることによって各文字の再切
出しを実行し、当該再切出し後の文字信号によって識別
部23において再度識別動作を実行させる。 ここで再切出し部40の動作は、切出しデータメモリ2
5の出力データ(従って文字切出し部11において実行
された切出し処理の内容)を参照しながら、再切出し処
理を実行するようにしたことにより、合理的、かつ認識
率の高い文字認識を識別部23において行うことができ
る。 (GIO)実施例の効果 上述の実施例のように構成ずれは、第1に、文字切出し
部11において、切出t7処理された文字信号の切出し
履歴データを、切出しデータメモリ25に格納しておく
ようにしたことにより、和文モードで文字の認識をする
場合に、統合部18における統合処理を過去の処理経過
に基づいて合理的に実行し得る。かくして認識部23に
おける文字の認識効率及び認識率を一段と向」ニさせる
ことができる。 かくするにつき、文字切出し部11の切出し履歴を表す
データとして、履歴符号化手段35において、各切出し
処理ステップにおいて、切出された矩形領域の内、順次
隣り合う矩形領域に対して論理レベル「0」及び「1」
を順次交互に割り当てて行くようにするだけの比較的簡
易な手法によって、切出し履歴を確実に把握し得るよう
な履歴符号化を容易に実現し得る。 また上述の実施例のように、文字切出し部11の原矩形
切出し手段12によって、文字列信号S4に対するスレ
ーシホールドレベルとして複数の信号レベルを設定する
ことにより、粗さの異なる複数の切出し処理を実行し得
る。従って和文文字及び英文文字が混在しているような
多様な文字列に対応する文字列信号S4が到来した場合
に、当該多様性に対応し7て多様な切出し粗さで文字の
切出しをし得、かくして各文字の認識率を格段的に向ト
させることができる。 さらに上述の実施例によれは、文字切出し部11の細切
出し手段14において、文字信号の極小値の位置を検出
すると共に、当該極小値位置を近傍において、黒いドツ
トの関係を調べることによって、細切出しを実行するよ
うにしたことにより、接触文字を確実に切出すことがで
き、かくして文字の認識効率及び認識率を格段的に高め
ることができる。 (Gll)他の実施例 なお上述Gこおいては、原措読取部2において、和文文
字及び英文文字が混在した横書の印刷文字を認識する場
合に適用した実施例とL2て述べたか、縦書文字を認識
する場合にも同様にして本発明を適用し得る。 また上述においては、本発明を切出しデータメモリ25
のデータを用いて、文字切出し部11の出力端に得られ
る基本矩形切出し文字信号s7を統合、識別、再切出し
する場合に適用した場合について述べたが、その他の処
理が必要な場合には、その必要に応じて切出しデータメ
モリ25に格納されている切出しデータを利用するよう
にしても良い。 また上述の実施例の場合は、原矩形切出し手段12にお
いて異なる複数のスレシホールドレベルで文字列信号S
4を切り出す際に、切出し粗さが粗い矩形領域から細か
い矩形fil域への順番で順次文字信号の切出しをする
ようにしたが、これに代え、文字列信号S4を繰返し切
り出すようにしても同様の効果を得ることができる。 H発明の効果 切出しデータメモリ25に関連して上述したように、本
発明によれば、文字列信号から各文字に対応する文字信
号を切り出すにつき、文字切出しく57) 部における切出し処理の履歴を表す切出し履歴データを
切出しデータメモリに格納しておき、この切出しデータ
メモリに格納された切出しデータを用いて後段の文字識
別処理部における統合処理、文字認識処理、再切出し処
理などの文字認識処理を実行できるようにしたことによ
り、当該後段の文字認識処理を合理的かつ効率良く実行
し得、かくして高い認識率で文字の認識をなし得る文字
認識装置を容易に得ることができる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の要部を構成する文
字切出し識別部の詳細構成を示ずブ1コック図、第2図
は本発明による文字認識装置の−・実施例を示すブロッ
ク図、第3図及び第4図は、イメージ読取データから文
字列を切り出す際の処理及び信号を示ず路線図及び信号
波形図、第5図は原矩形切出し手段12における切出L
7動作の説明に供する信月波形図、第6図及び第7図は
細切出し手段14における接触文字の分離処理の説明に
供する路線図、第8図は基本矩形切出し手段16の切出
し処理の説明に供する路線図、第9図は統合手段22に
おける和文文字の統合処理手順を示すフローチャート、
第10図及び第11図は和文文字及び英文文字について
切り出された文字矩形領域の配列を示す路線図、第12
図は切出しデータメモリ25の格納データを示す路線図
、第13図は縦相対比データ及び横相対比データの説明
に供する路線図、第14図は切出し位置データの説明に
供する路線図、第15図及び第16図は切出し履歴デー
タの説明に供する路線図及び図表、第17図は識別部2
3の識別処理手順を示すフローチャートである。 1・・・・・・文字認識装置、2・・・・・・原稿読取
部、3・・・・・・文字列切出し部、7・・・・・・文
字切出し識別部、11・・・・・・文字切出し部、12
・・・・・・原矩形切出し手段、14・・・・・・細切
出し手段、16・・・・・・基本矩形切出し手段、I8
・・・・・・統合部、23・・・・・・識別部、25・
・・・・・切出しデータメモリ、30・・・・・・パラ
メータエンコーダ部、35・・・・・・履歴符号化手段
、40・・・・・・再切出し部。

Claims (3)

    【特許請求の範囲】
  1. (1)文字列信号を1文字又は1文字の構成部分に外接
    する矩形領域で切り出して切出し文字信号を送出する文
    字切出し部と、 上記文字切出し部における複数の切出し処理ステップの
    処理結果を表す切出しデータを格納する切出しデータメ
    モリと を具え、上記文字切出し部の後段に設けられた文字認識
    処理部において、上記切出しデータメモリの上記切出し
    データを用いて、上記文字切出し部から送出される切出
    し文字信号を、文字認識処理することを特徴とする文字
    認識装置。
  2. (2)上記文字認識処理部は統合手段を有し、上記統合
    手段は上記切出しデータに含まれている切出し履歴デー
    タを用いて上記切出し文字信号に混在している和文文字
    についての文字信号を統合処理するようにしてなる文字
    認識装置。
  3. (3)上記文字認識処理部は識別手段を有し、上記識別
    手段は上記切出しデータを用いて上記切出し文字信号が
    表す文字が属する文字群を分類し、当該分類後の文字信
    号を専用の認識アルゴリズムを用いて認識処理するよう
    にしてなる文字認識装置。
JP60213755A 1985-09-27 1985-09-27 文字認識装置 Pending JPS6274181A (ja)

Priority Applications (12)

Application Number Priority Date Filing Date Title
JP60213755A JPS6274181A (ja) 1985-09-27 1985-09-27 文字認識装置
US06/910,890 US4850025A (en) 1985-09-27 1986-09-23 Character recognition system
CA000519051A CA1273110A (en) 1985-09-27 1986-09-25 Character recognition system
GB8623049A GB2182796B (en) 1985-09-27 1986-09-25 Character recognition system
DE19863632832 DE3632832A1 (de) 1985-09-27 1986-09-26 Zeichenerkennungssystem
CN86107537A CN1008022B (zh) 1985-09-27 1986-09-27 字符识别系统
KR1019860008111A KR870003439A (ko) 1985-09-27 1986-09-27 문자 인식장치
NL8602456A NL8602456A (nl) 1985-09-27 1986-09-29 Stelsel voor karakterherkenning.
FR868613524A FR2588104B1 (fr) 1985-09-27 1986-09-29 Dispositif et procede de reconnaissance de caracteres contenant des caracteres alphabetiques et des caracteres de type chinois
GB8824148A GB2208735B (en) 1985-09-27 1988-10-14 Character recognition system
GB8824149A GB2208736B (en) 1985-09-27 1988-10-14 Character recognition system
CA000615578A CA1291573C (en) 1985-09-27 1989-12-19 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60213755A JPS6274181A (ja) 1985-09-27 1985-09-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPS6274181A true JPS6274181A (ja) 1987-04-04

Family

ID=16644487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60213755A Pending JPS6274181A (ja) 1985-09-27 1985-09-27 文字認識装置

Country Status (8)

Country Link
US (1) US4850025A (ja)
JP (1) JPS6274181A (ja)
KR (1) KR870003439A (ja)
CN (1) CN1008022B (ja)
CA (1) CA1273110A (ja)
DE (1) DE3632832A1 (ja)
FR (1) FR2588104B1 (ja)
GB (3) GB2182796B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02219190A (ja) * 1989-02-21 1990-08-31 Fuji Electric Co Ltd 文字認識方法
CN102081736A (zh) * 2009-11-27 2011-06-01 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2212636A (en) * 1987-11-17 1989-07-26 Amoco Corp Identifying data format
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JP3017740B2 (ja) * 1988-08-23 2000-03-13 ソニー株式会社 オンライン文字認識装置およびオンライン文字認識方法
JP2847715B2 (ja) * 1988-08-30 1999-01-20 ソニー株式会社 文字認識装置及び文字認識方法
US5295198A (en) * 1988-10-14 1994-03-15 Harris Corporation Pattern identification by analysis of digital words
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
US5361309A (en) * 1989-09-07 1994-11-01 Canon Kabushiki Kaisha Character recognition apparatus and method with low-resolution storage for character extraction
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
US5119433A (en) * 1990-03-12 1992-06-02 International Business Machines Corporation Method and system for locating the amount field on a document
CA2037173C (en) * 1990-03-30 1996-01-09 Hirofumi Kameyama Character recognizing system
US5101439A (en) * 1990-08-31 1992-03-31 At&T Bell Laboratories Segmentation process for machine reading of handwritten information
JP2821285B2 (ja) * 1991-07-23 1998-11-05 キヤノン株式会社 画像処理方法及び装置
DE69232493T2 (de) * 1991-10-21 2003-01-09 Canon Kk Verfahren und Gerät zur Zeichenerkennung
US5305396A (en) * 1992-04-17 1994-04-19 International Business Machines Corporation Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
US6212299B1 (en) * 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
US6651221B1 (en) * 1993-05-20 2003-11-18 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JPH07288722A (ja) * 1994-04-15 1995-10-31 Canon Inc 撮像装置
US5600735A (en) * 1994-05-10 1997-02-04 Motorola, Inc. Method of recognizing handwritten input
GB2289969A (en) * 1994-05-24 1995-12-06 Ibm Character segmentation
US5675665A (en) * 1994-09-30 1997-10-07 Apple Computer, Inc. System and method for word recognition using size and placement models
US5737443A (en) * 1994-11-14 1998-04-07 Motorola, Inc. Method of joining handwritten input
CN1102275C (zh) * 1994-11-14 2003-02-26 摩托罗拉公司 分解手写体输入的装置和方法
JPH08235310A (ja) * 1995-02-24 1996-09-13 Nec Corp 接触文字切り出し装置
DE19508135C2 (de) * 1995-03-08 1996-12-19 Licentia Gmbh Verfahren zur Verbesserung der Erkennung von Maschinenschriften mit fester Schriftteilung
DE19522394C2 (de) * 1995-06-23 1997-04-17 Licentia Gmbh Verfahren und Vorrichtung zur Bestimmung der Teilung bei Schriften mit fester Teilung
JP3606500B2 (ja) * 1997-01-31 2005-01-05 株式会社リコー 矩形分類方法
SG71018A1 (en) * 1997-03-01 2000-03-21 Inst Of Systems Science Nat Un Robust identification code recognition system
GB9808712D0 (en) 1997-11-05 1998-06-24 British Aerospace Automatic target recognition apparatus and process
US6445834B1 (en) 1998-10-19 2002-09-03 Sony Corporation Modular image query system
US6256409B1 (en) 1998-10-19 2001-07-03 Sony Corporation Method for determining a correlation between images using multi-element image descriptors
JP2000163044A (ja) * 1998-11-30 2000-06-16 Sharp Corp 画像表示装置
US6473517B1 (en) * 1999-09-15 2002-10-29 Siemens Corporate Research, Inc. Character segmentation method for vehicle license plate recognition
US6674915B1 (en) 1999-10-07 2004-01-06 Sony Corporation Descriptors adjustment when using steerable pyramid to extract features for content based search
US7305617B2 (en) * 2000-02-12 2007-12-04 Adobe Systems Incorporated Method for aligning text to baseline grids and to CJK character grids
US6725218B1 (en) 2000-04-28 2004-04-20 Cisco Technology, Inc. Computerized database system and method
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
WO2002010884A2 (en) * 2000-07-28 2002-02-07 Raf Technology, Inc. Orthogonal technology for multi-line character recognition
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US8144988B2 (en) * 2007-09-06 2012-03-27 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8194982B2 (en) * 2007-09-18 2012-06-05 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
KR101035744B1 (ko) * 2008-12-08 2011-05-20 삼성전자주식회사 카메라를 이용한 문자 인식 장치 및 방법
JP5508953B2 (ja) * 2010-06-28 2014-06-04 株式会社日立ソリューションズ 文書処理装置及びプログラム
TWI478074B (zh) * 2010-12-01 2015-03-21 Inst Information Industry 文字辨識方法、裝置以及儲存其之電腦可讀取紀錄媒體
US9082339B2 (en) * 2011-11-04 2015-07-14 Facebook, Inc. Rendering texts on electronic devices
US8818030B2 (en) * 2011-12-13 2014-08-26 Xerox Corporation Post-processing a multi-spectral image for enhanced object identification
JP6078953B2 (ja) * 2012-02-17 2017-02-15 オムロン株式会社 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法
US11417124B2 (en) 2018-02-26 2022-08-16 Videonetics Technology Private Limited System for real-time automated segmentation and recognition of vehicle's license plates characters from vehicle's image and a method thereof
CN112307820B (zh) * 2019-07-29 2022-03-22 北京易真学思教育科技有限公司 文本识别方法、装置、设备和计算机可读介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3517387A (en) * 1965-10-24 1970-06-23 Ibm Character isolation apparatus
US3526876A (en) * 1965-10-24 1970-09-01 Ibm Character separation apparatus for character recognition machines
US3662341A (en) * 1970-09-25 1972-05-09 Ibm Video-derived segmentation-gating apparatus for optical character recognition
US3846752A (en) * 1972-10-02 1974-11-05 Hitachi Ltd Character recognition apparatus
NL160408C (nl) * 1973-02-21 1979-10-15 Nederlanden Staat Inrichting voor het lezen van tekens, bij voorkeur van cijfers.
FR2267590B1 (ja) * 1974-04-10 1977-05-20 Ibm
JPS5156139A (en) * 1974-11-13 1976-05-17 Hitachi Ltd Mojomitorisochi niokeru kiridashihoshiki
US4087790A (en) * 1977-08-22 1978-05-02 Recognition Equipment Incorporated Character presence processor
US4379282A (en) * 1979-06-01 1983-04-05 Dest Corporation Apparatus and method for separation of optical character recognition data
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
JPS5998283A (ja) * 1982-11-27 1984-06-06 Hitachi Ltd パターン切出しおよび認識方法、ならびにそのシステム
EP0120334B1 (en) * 1983-03-01 1989-12-06 Nec Corporation Letter pitch detection system
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPH0610829B2 (ja) * 1984-06-29 1994-02-09 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 手書き文字認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02219190A (ja) * 1989-02-21 1990-08-31 Fuji Electric Co Ltd 文字認識方法
CN102081736A (zh) * 2009-11-27 2011-06-01 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法

Also Published As

Publication number Publication date
FR2588104B1 (fr) 1992-09-04
GB2182796B (en) 1990-04-18
US4850025A (en) 1989-07-18
CA1273110A (en) 1990-08-21
KR870003439A (ko) 1987-04-17
GB2208736B (en) 1990-04-18
GB8824148D0 (en) 1988-11-23
CN1008022B (zh) 1990-05-16
CN86107537A (zh) 1987-04-22
DE3632832A1 (de) 1987-05-07
GB2182796A (en) 1987-05-20
GB2208735A (en) 1989-04-12
GB8623049D0 (en) 1986-10-29
GB2208736A (en) 1989-04-12
GB8824149D0 (en) 1988-11-23
FR2588104A1 (fr) 1987-04-03
GB2208735B (en) 1990-04-18

Similar Documents

Publication Publication Date Title
JPS6274181A (ja) 文字認識装置
JP2822189B2 (ja) 文字認識装置及び方法
EP3401842B1 (en) Text image processing method and apparatus
JP2940936B2 (ja) 表領域識別方法
EP0381773B1 (en) Character recognition apparatus
JPH11120293A (ja) 文字認識/修正方式
RU2309456C2 (ru) Способ распознавания текстовой информации из векторно-растрового изображения
JPH1196301A (ja) 文字認識装置
Amin et al. Recognition of printed Arabic text using neural networks
JPS6274184A (ja) 文字認識装置
JPS6274183A (ja) 文字認識装置
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JPH02116987A (ja) 文字認識装置
KR100518744B1 (ko) 비수직 분할선을 가지는 붙은 필기체 숫자열의 분할방법
JPS6274182A (ja) 文字認識装置
JPH09134404A (ja) 棒グラフ認識装置
KR930012141B1 (ko) 온라인 필기체 문자인식방법
JPS61190679A (ja) 文字デ−タ処理装置
JPS63269267A (ja) 文字認識方法
KR950011065B1 (ko) 문자 인식방법
JPH05108882A (ja) 文字認識装置
JP4322999B2 (ja) 連結領域抽出装置及び記録媒体
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JPH02230484A (ja) 文字認識装置
JPH03269689A (ja) 文書読み取り装置