JPS6274184A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS6274184A
JPS6274184A JP60213758A JP21375885A JPS6274184A JP S6274184 A JPS6274184 A JP S6274184A JP 60213758 A JP60213758 A JP 60213758A JP 21375885 A JP21375885 A JP 21375885A JP S6274184 A JPS6274184 A JP S6274184A
Authority
JP
Japan
Prior art keywords
character
characters
signal
data
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60213758A
Other languages
English (en)
Inventor
Keiko Abe
阿部 惠子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60213758A priority Critical patent/JPS6274184A/ja
Priority to NL8602456A priority patent/NL8602456A/nl
Publication of JPS6274184A publication Critical patent/JPS6274184A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A産業上の利用分野 B発明の概要 C従来の技術 り発明が解決しようとする問題点 E問題点を解決するための手段(第1図及び第12図) F作用(第1図及び第12図) G実施例 (G1)文字認識袋W1の全体構成(第2図、第3図、
第4図) (G2)原矩形切出し手段12(第1図、第5図)(G
3)細切出し手段14(第1図、第6図、第7図) (G4)基本矩形切出し手段16(第1図、第8図)(
G5)統合部18(第1図、第9図、第10図、第11
図) (G6)切出しデータメモリ25(第1図、第8図、第
12図、第13図、第14図) (G7)履歴符号化手段(第1図、第15図、第16図
) (G8)識別部23(第1図、第17図)(G9)実施
例の動作 (GIO)実施例の効果 (Gll)他の実施例 H発明の効果 A産業上の利用分野 本発明は文字認識装置に関し、例えば和文文字及び英文
文字のように異種の文字が混在してなる印刷文書の文字
を認識する場合に適用して好適なものである。
B発明の概要 本発明は、原稿読取部から得られたイメージ読取データ
から文字列信号を切り出し、この文字列信号から各文字
に対応する矩形領域を切り出した後、各矩形領域につい
て文字の認識処理を実行するようにした文字認識装置に
おいて、文字列信号から接触文字が切り出されたとき、
これを分離することにより、文字認識装置の認識率を高
めることができる。
C従来の技術 例えば横書の和文文字(ン莫字、かな文字などをいう)
を含んでなる印刷文書の文字列から名文字を認識する場
合、和文文字特有の問題として、分離文字を正確に認識
する必要がある。
ずなわぢ従東横古文字列の各文字を認識するには、先ず
本文文字列から各文字を1文字ずつ切り出す処理をした
後、各文字の特徴を基準文字の特徴と比較して認識する
手法が用いられるが、和文文字は、1文字の構成部分が
幅方向又(よ、高さ方向に連続し2ている文字ばかりで
はなく、1文字の構成部分が不連続に分離しているいわ
ゆる分離文字(例えば、「川」、「−い」など)がある
ため、この分離文字を正モ′在に切り出すことが困難で
あった。
D発明が解決しようとする問題点 すなわち和文文字に゛ついては、41r、f方向に見て
連続する図形部分くすなわち文字部分)を準位にして文
字信号を切り出したとき、切り出された各4r’5号部
分を全て1文字であると認識することはできず、例えば
漢字文字「川」は、3つの文字構成部分に切り出され、
またひらがな文字「い」は2つの文字構成部分に切り出
される。
これに対してアルファベット文字、ギリシャ文字、数字
文字などでなる文字(これを英文文字と呼ぶ)は、実用
上、1図形1文字を前提条件として文字信号を切り出す
ことができる。しかし、英文文字列の場合は、各語間以
外は文字間隔が比較的狭いために、原稿読取部から出力
されるイメージ読取データに基づいて和文文字と同様の
手法で読み取ることができるとは限らず、例えば、隣合
う2つの文字が互いに接触しているように読み取る(こ
れを接触文字と呼ぶ)おそれがあり、これを正確に分離
して切り出すことができるようにする必要がある。
このような問題点があるため、従来は、字体に不揃いが
ない印刷文書であっても、和文文字及び英文文字が混在
している場合には、各文字を正しく切り出すことは困難
であった。
これに加えて従来の文字認識方法においては、「文字の
切出し」ステップと、1文字の認識」ステップとはそれ
ぞれ独立した処理ステップであると考えられており、文
字切出し部において−L1文字の切出しをした後、文字
認識部にデータが引き渡された後は、たとえ分離文字の
切出しが誤ったために文字認識部において正しい文字の
認識ができなかった場合にも、文字認識部において当該
文字について認識不能であるとして処理する手法が採用
されており、このことが文字認識部の認識率の低下の原
因の1つになっていた。
本発明は以」−の点を考慮してなされたもので、文字列
に隣り合う2つの文字が互いに接触している接触文字が
ある場合に、これを確実に2つの文字として切り出すこ
とができるよJ〕にした文字認識装置を提案しようとす
るものである。
E問題点を解決するだめの手段 かかる問題点を解決するため本発明においCは2、文字
列信号S4の信号レベルを1文字又は1文字の構成部分
に外接する幅及び高さで表される第1の矩形領域で切り
出し、この第1の矩形領域によって切り出された文字信
号の信号レベルが所定の基準レベル以下になった幅方向
のドツト位置X。
について高さ方向に連続するが否かを判定し、不連続で
あることが判定された幅方向のドツト位置X(。、)に
おいて第1の矩形領域を2つの第2の矩形領域に分離し
て切出し文字信号s6を送出する文字切出し部11を設
ける。
F作用 文字列信号S4から第1の矩形領域で切り出した文字信
号の信号レベルが、極小部に入ったX方向のドツト位置
の近傍は、2つの文字が接触しているために黒いドツト
が少ない状態になっている可能性が大きい。
この点に着目して本発明は、当該極小部にあるX方向の
ドツト位WXn及びその近傍について、高さ方向に黒い
ドツトが連続しているが否かを判定する。その結果不連
続であれば、このことは2つの文字が接触している状態
にあることを判定し得たことを意味する。
かくして接触文字を正確に2つの文字に分離することが
できる。
G実施例 以下図面について、本発明の一実施例を詳述する。
(G1)文字認識装置の全体構成 第2図において、■は全体として文字認識装置を示し、
原稿読取部2において得られたイメージ読取データS1
を、文字列切出し部3に供給する。
文字列切出し部3は、1ペ一ジ分のイメージ続出データ
S1を第1段前処理部4に受け、雑音を除去すると共に
文書の回転補正をした後、イメージデータS2として第
2段前処理部5に供給する。
第2段前処理部5は、文書のうち、文字領域を、その他
の領域(写真、図面等の領域)から区3) 13して、
文字領域に含まれるイメージデータだけを抽出する。そ
して第2段前処理部5ば、当該抽出された文字領域に含
まれる文字列が横書であることを検出した後、文字列の
抽出をする。
この文字列の抽出は、第3図に示すように、文字領域A
Rの各ドツトの位置を、列方向(水平方向)にとったX
軸と、行方向(垂直方向)にとったy軸とでなるxy座
標で表すようにし、文字領域ARを構成する文字列AR
I、AR2・・・・・・に含まれる論理「1」レベルの
ドツト(黒いドツトを表す)の和の値をy軸上に投影し
て(y投影と呼ぶ)、第4図(A)に示すようなy投影
信号syを得る。ここでy投影信号Syの信号レベルは
、文字列相互間の位置では黒いドツトのトータル情報が
ないことから「0」レベルにあるのに対して、文字列A
RC1AR2・・・・・・に対応するy軸上の位置では
、黒いドツトの数に対応する信号レベルになる。従って
y投影信号S、を所定のスレシホールトレベルと比較し
、当該スレシホールドレベル以上の区間の間論理「1」
レベルに立ち上がる文字列切出データCL(第4図(B
))を得る。
かくして文字列切出しデータCLの論理IJレベルの区
間によって、文字領域A Rのうちの文字列ARI、A
R2・・・・・・の領域を表すことができ、第2段前処
理部5は、この文字列切出しデータCLを用いてイメー
ジデータS2のうち、文字列切出しデータCLが論理「
1」レベルにある垂直走査区間に相当するイメージデー
タでなる文字列抽出信号S3を第3段前処理部6に送出
する。
第3段前処理部6は、文字列抽出信号S3について回転
があれば、これを微調整して文字列信号S4として文字
切出し識別部7に送出する。
かくして文字列切出し部3番よ、原稿読取部2から供給
されたイメージ読取データS1のうち、各文字列を構成
するデータ部分だけを文字列信−qS4として文字切出
し識別部7に送出する。
文字切出し識別部7は、各文字列を構成する文字を1文
字ずつ切り出してその特徴を認識するもので、第1図の
構成のものを適用し7得る。
(G2)原矩形切出し手段12 すなわち文字列信号S4は、文字切出し部11の原矩形
切出し手段12に供給される。原矩形切出し手段12は
、文字列信号S4のうち、各文字列領域ARI、A R
2・・・・・・に相当するデータ部分について、黒いド
ツトが存在する水平方向の領域をX軸上に投影して黒い
ドツトのトータル数に信号レベルの文字信号を得ること
により、各文字又は文字の構成部分の幅に外接する高さ
方向(y軸方向)の線によって囲まれる矩形領域(これ
を原矩形領域と呼ぶ)を切り出すことにより、1文字又
は1文字の構成部分が存在する水平方向の区間を判定し
て、対応する文字信号部分を切り出す。
例えば第5図(A)に示すように、第n列目の文字列領
域ARNについて、文字列、すなわち・・・・・・「通
J −rLJ −rて」−「い」−[−る1・・・・・
・を内容とする文字列信号S4が到来したとき、原矩形
切出し手段12は、文字列信号S4を互いに値を異にす
る複数例えば2つのスレシホールドレベルTHO(第5
図(Bl)) 、THI  (第5図(C1))と順次
比較して、それぞれ各文字又は文字の構成部分に外接す
る文字+:Fj形領域全領域形成し2、各文字矩形領域
の文字信号を順次切り出す。
ここで、スレシポール1−゛L・ヘルTHO及びT H
lの数及び信号Lノベルは、異種の文字が混在している
印刷文書において用いられている多様な文字パターンを
各文字パターンの特徴を失わないように切り出して矩形
領域を得ることができるような値に予め選定される。
この実施例の場合、和文文字及び英文文字が混在する印
刷文書を認識するため、原矩形切出し1段12は、第1
のスレシホールドレ・\ルとしてTHO(=O)に設定
され、かつ第2のスレシホールドレベルとしてTHI(
=1)に設定される。
スレシホールドレベルO及び1は、24 X 24ドツ
トの基準枠内心こおいて、高さ方向の1−一タルドット
数が0個及び1個であるときの信号レベルを表す。
ところで、文字列信号の文字信号部分を低いスレシホー
ルドL/ベルTHOで切り出ゼば、このことは粗い尺度
で文字矩形領域を切り出す結県を得ることができること
になる(これを11い切出しと呼ぶ)。またスレシボー
ルドレベル1で切り出せば、このことは細かい尺度で文
字矩形領域を切り出す結果を得ることができることにな
る(これを細かい切出しと呼ぶ)。
このような結果になるのは次の理由による。投影法によ
って得た文字列信号に含まれる文字信号部分の信号レベ
ルは一般に、文字又は文字構成部分の中央部から外方に
行くに従ってOレベルに低下して行くような信号波形(
いわゆる裾をひくような波形)をもっている。従って高
いスレシホールドレベルTHI(=1)で切り出した矩
形領域の文字幅は、低いスレシホールドレベルTHO(
−〇)で切り出した矩形領域の文字幅より狭くなる。そ
こで高いスレシホールドレベルを用いた細かい切出し処
理によって切り出された文字信号部分は、低いスレシホ
ールドレベルを用いた相い切出し処理によって切り出さ
れた文字信号部分に対して、その内部のパターンの特f
!![(すなわち黒いドツトの分布)を表していること
になる。
このように、細かい切出し処理によって切り出された第
1の文字信号は、粗い切出し処理によって切り出された
第2の文字信号の内部に含才れている特徴を顕在化する
ように表している。従って切出し粗さが細かい第2の文
字信号に基づいて文字の認識ができなかったとき、切出
し粗さが粗い第1の文字信号に戻って文字認識処理をす
ることによって文字の認識ができる可能性があり、かく
して多様な文字の認識をする場合、異なる信号レベルを
もつスレシホールドレベル1” I O及ヒT■]1に
よって順次切出し2処理をUまたとき、矩形領域が順次
分離して行く履歴(これを切出し履歴と呼ぶ)は、文字
を正確に認識するための有効な手段となる。
例えば、和文文字列は1字ずつかなり広い間隔で配列さ
れていると共に、1文字の中に文字構成部分が分離して
いるようなものもある特徴をもつ。
従って実用上、和文文字は、スレシホールドレベルTH
O(=0)で文字信号を切り出せば、1文字又は1文字
の文字部分に外接する第1の矩形領域を切り出すことが
できることになる。そして続いてスレシホールドレベル
THI(’=1)で文字信号を切り出せば、1文字又は
1文字の文字構成部分の内部の黒いドツトの分布の特徴
を表す第2の矩形領域を切り出すことができることにな
る。
従って和文文字の場合、2つのスレシホールドレベルで
切り出されて来る矩形領域及びその履歴は、文字の黒い
ドツトの分布の特徴を失っていないので、第1又は第2
の矩形領域によって切り出した文字信号によって文字認
識ができることになる。
また、英文文字列は、各語間の間隔はかなり広いが、各
語内の文字は間隔が狭く詰るように配列されている。従
って実用上、英文文字は、スレシホールドレベルTHO
(=O)で文字信号を切り出すと、1文字を切り出すこ
とができる場合と、隣り合う文字間隔が狭いために切り
出し得ない場合が生じ得る。そこで続いてスレシホール
ドレベルTHI(=1)で文字信号を切り出すと、第1
段目の処理では1文字として切り出し得なかった文字が
、第2段目の処理で切り出すことができる場合が生じる
。この場合、すでに第1段目の処理で切り出すことがで
きた文字の内部の特徴は、第2段目に切り出された文字
信号においても失われることはないので、当該第2段目
の文字信号によって文字を認識することができると言い
得る。
かくして文字列信号S4の信号レベルがスレシホールド
レベルTHI(=1)を越えたとき、第5図(C2)に
示すように論理rlJレベルとなる第2の原矩形切出し
データDT2を発生し、この第2の原矩形切出しデータ
DT2を用いて、その信号レベルが[−11の区間に相
当する文字列信号S4を、原矩形文字信号S5として送
出する。
その結果和文文字の切出しと、英文文字の切出しとを、
それぞれ最適な条件の下で切り出すことができる。
このようにして原矩形切出し手段12は、分離文字では
ない和文文字について1文字ごとにそのX方向の各文字
領域に対応する文字列信号s4を切り出すことができ、
これに対し°ζ分^1f文字の場合は、各文字構成部分
ごとにそのX方向の文字領(I6) 域を単位として文字列信号s4を切り出すことができる
。これに加えて英文文字の場合、原矩形切出し手段12
は、各文字が接触していなければ、各文字のX方向の文
字領域を単位として、文字列信号S4を切り出すことが
できる。
(G3)細切出し手段14 原矩形文字信号S5は、細切出し手段14に供給される
。この細切出し手段14は、特に英文文字について、接
触文字が含まれている場合に、これらの接触文字を、正
しく2つの文字に分離して切り出すことができるように
しようとするものである。
すなわち英文文字は、隣合う文字が接近しているために
、第6図(A)に示すように、2つの文字例えばrfJ
及びroJが原稿読取部2によって読み取られてイメー
ジ読取データs1として送出されたとき、各文字を表す
黒いドツトが同じX座標位置で重なり合う場合が生じ得
る。この場合X投影して得られる原矩形文字信号S5に
は、文字rfJ及びroJ間において信号レベルが0に
なる区間がなく、これを分離しなければ、2つの文字r
fJ及びroJが連続した1つの文字として切り出され
てしまう結果になる。
かかる問題を解決するため、細切出し手段14は、原矩
形文字信号35(第6図(B))のうち、原矩形切出し
手段12において−・応1つの文字であるとして切り出
されて来た原矩形文字信号s5について、これが極小値
となる点及びその周辺の点(これを極小部と呼ぶ)のX
軸方向の座標X。
を求め、続いて第7図に示すように当該極小点の座標の
両隣りの座標、ずなわちX、−0及びxl、。
における縦方向(すなわちX方向)についての黒いドツ
トの連続性を調べる。
すなわち第7図(A)に示すように、縦方向に黒いドツ
トが連続していれば、1つの矩形領域であると判定し、
これに対して第7図(B)に示すように、縦方向に黒い
ドツトが不連続であれば、2つの矩形領域に分離すべき
であると判定する。
先ず第6図(A)において原矩形文字信号s5の信号レ
ベルが極小点にあるX座標は、x=x。
でその信号レベルは55−4である。これに対して両隣
りのX座標X−X (−11及びX = X (+l)
の信号レベルは55−5及び55−8である。従ってこ
の2つの文字は、第5図(C1)及び(C2)について
上述した原矩形切出し手段12における判断においては
、それぞれスレシホールドレベルTHO及びTHIより
高い信号レベルにあるので、1つの文字として切り出さ
れている。
ところで、第6図(A>において、原矩形文字信号S5
の信号レベルが極小点になるX座標の位置x=x、及び
その両隣の位W x = x t−+i及びX=)(、
l)について、黒いドツトの縦方向における連続性を調
べると、原矩形文字信号S5の極小信号レベルは、文字
「f」の右端部について生じており、X=Xo及びX=
Xf−11の位置についての黒いドツトの連続性は、文
字rfJを構成する部分についてだけ縦方向に連続的で
あり、文字「0」についての黒いドツトは存在しない。
またx=X tellの位置については、左側の文字r
fJのドツトが連続し、でいると共C乙、■・方C,:
離れた装置に右側の文字「0」を構成する黒いレントが
あり、両者の間は不連続的である。そごでX−xo、X
−X (−11、x−x(。l)の座標乙こりいて、縦
方向の連続性を総合的に判断ずれば、左側の文字1’f
lと、右側の文字[01との間には、x”x(−11の
位置で不連続の部分があると判断することができる。
従って細切出し手段14ば、原矩形文字信号S5を、x
” X (Illの位置で2つの文字1f−1及び「0
」に分離して細切出し文字信号S6として基本矩形切出
し手段1Gに送出する。
かくし2で細切出し手段14によれば、文字列信号S4
を所定のス1./シホールドレベルT HO1′I゛H
1によって切り出して送出されて来た文字信号S5の中
に、接触文字が含まれていた場合には、これを適切に2
つの文字に分離するように切り出すことができる。
因に、原稿読取部2(第1図)において用いられるイメ
ージリーダは、一般に変調伝送関数(m。
dulation transfer functio
n)の影響により、文字の輪郭がぼけるおそれがあり、
かかるぼけが発生した場合には、英文の場合のように文
字間隔が狭い文字列においては、隣合う文字が互いに接
触しているように読み取られ、かくして接触文字が文字
列に混入するおそれがある。このような場合、接触文字
の接触部分は、原矩形切出し手段12においてX投影処
理をして得られる原矩形文字信号S5の信号レベルが、
極小値を有することになる。
かくして細切出し手段14によってこれらの接触文字を
2つの文字に分離するように切り出すことができる。
ところがこのようにすると、和文文字の場合、分離文字
でないものまでが細切出し手段14によって分離されて
しまうおそれがある。漢字の中には、文字部分相互間の
関係が接触文字に類似するようなものがあるからである
。この問題に対して第1図の実施例の場合は、和文文字
が分離された場合には、後段の識別部によって文字の認
識をする前に、統合手段によって所定の条件の下に統合
するようになされている。
この実施例の場合、原矩形文字信号S5の極小点の座標
を判断するために、所定のスレシホールドレベルが設定
され、当該スレシホールドレベル以下の信号レベルをも
つX座標の位置を極小部であると判断するようになされ
ている。
このようにして細切出し手段14において得られた文字
信号は、細切出し文字信号S6として基本矩形切出し手
段16に与えられる。
(G4)基本矩形切出し手段16 基本矩形切出し手段16は、細切出し文字信号S6によ
って表された各文字又は文字構成部分について、垂直方
向に雑音が混入しているときこれを除去して当該文字又
は文字構成部分の−[−下端に外接するX方向の線によ
って文字高さについての切出し処理をするもので、細切
出し2文字信号S6の各文字又は文字構成部分について
、第8図(A)に示すように、y投影処理を実行する。
その結果得られるy投影信号PRyは、垂直方向の各位
置(すなわちy軸方向の各座標位置)における水平方向
の走査線」−にあるトータルド′ント数に相当する信号
レベルをもつことになる。
ここで基本矩形切出し手段16は、y投影信号PRyに
対するスレシホールドレベルを、文字幅WXに対して所
定の比率の信号レベル(例えば文字幅WXに相当する信
号レベルに対して、1/2の信号レベル)に設定し、当
該スレシホールドレベル以Fのy投影信号の部分を雑音
であると判定して除去する。
この結果基本矩形切出し手段16は、第8図(B)に示
すように、雑音と判定した白いドツト領域及び黒いドツ
ト領域を除去することにより、y軸方向の幅すなわち文
字高さをwy+(第8図(A))からWy2(第8図(
B))に修正する。かくして、基本矩形切出し手段]6
は文字幅WX及び文字高さWy2でなる矩形文字領域を
基本矩形領域として含んでなる基本矩形切出し文字信号
S7を送出する。
このようにして文字切出し部11ば、文字列信号S4に
含まれている各文字又は文字構成部分に外接する基本矩
形切出乙こよつC切り出された文字信号を順次配列して
なる基本矩形切出し文字信号S7を得ることができ、こ
れを後段に設けられた文字認識処理部(統合部18、識
別部23、再切出し部40でなる)の統合部18に供給
する。
(G5)統合部18 統合部18は、和英判定手段20において、現在識別さ
れている文字が和文文字であるとき、ス・イツチ回路2
1を和文文字側接点SWI側に切換え制御し、これによ
り基本矩形切出し文字信JF3S7を接点SWIを通じ
て統合手段22に供給し、その統合出力を統合部18の
出力S8として識別部23に供給するよ・)になされて
いる。
これに対して和英判定手段20が現在識別している文字
が英文文字であると判断したとき、ス・イツチ回路21
を英文文字側接点SW2に切換え制御することtによっ
て、基本矩形切出し文字信号S7を接点SW2を通じて
直接続合部1Bの出力58として識別部23に送出する
和英判定手段20は、識別部23から現在識別されてい
る文字が和文文字であるか、英文文字であるかを表示す
る和英識別信号D TBを受けて、現在識別されている
文字の種別に対応する切換制御信号をスイッチ回路21
に供給する。
統合手段22ば、−iに和文文字の場合、垂直方向の文
字高さに対する水平方向の文字幅の比率(これを縦横比
と呼ぶ)はほぼIに返信できるという事実に基づいて、
基本矩形切出し文字信号S7の各矩形文字信号について
分離文字であるか否かの判断をして第9図に示す処理手
順に従って和文文字の統合処理を実行する。
すなわち統合手段22は、スイッチ回路21を通じて、
和文文字列でなる基本矩形切出し文字信号S7の各矩形
文字信号が到来したとき、第9図のステップSPIにお
いて文字統合プログラムをスタートし、次のステップS
 I) 2において当該文字の文字高さく=h)と、文
字幅(−W)との比lh/wlがほぼ1であるか否かの
判断をする。
このステップSP2において肯定結果が得られれば、こ
のことは到来した矩形文字信号が和文1文字分の文字信
号であることを意味しており、従って統合手段22は、
ステップS P 3に移って当該統合処理プログラムを
終了して入力された文字信号を識別部23に送出する。
かくして文字信号として1文字分の和文文字を表す文字
信号が到来したとき、統合手段22は統合処理をせずに
、直接識別部23に送出する。
これに対してステップS1〕2において否定結果が得ら
れると、このことは文字矩形領域の縦横比l h/w 
lが和文文字の比率をもっていないこと(従って分離文
字であること)を判定し得たことを意味する。このとき
統合手段22は、ステップSP4に移って次に到来する
文字信号との統合処理を実行する。
ここで統合手段22ば、ステップ5P41こおいて統合
して得られた統合文字信号についての文字高さく=ho
)及び文字幅(・−wo)を求め、次のステップSP5
に移ってその比率1110/W。
1がほぼ1に等しいか否かの判断をする。この判断は、
ステップSP4において次の文字と統合した結果、和文
文字の縦横比になったか否かの判断をするもので、肯定
結果が得られたとき統合手段22は上述のステップSP
3に移って当該統合プログラムを終了する。
これに対してステップSP5において否定結果が得られ
たとき統合手段22は、次のステップSP6に移って縦
横比1ho/WOIが1より格段的に小さいか否かの判
断をする。
ここで肯定結果が得られると、このことは、上述のステ
ップSP4において2つの文字部分を統合したにもかか
わらず、その統合文字信号が未だ和文文字の文字幅より
は格段的に小さく、さらに他の文字部分と統合しなけれ
ば、和文文字の文字幅にはならないことを意味しており
、従って統合手段22は上述のステップSP4に戻って
、さらに次の文字と統合するような処理を実行する。
その結果ステップSP5において統合文字信号について
の縦横比が、はぼ1になったか否かの判断をし、肯定結
果が得られれば、上述のステップSP3に移って当該プ
ログラムを終了する。
これに対してステ゛ンプSP5において再度否定結果が
得られたとき統合手段22は再度ステップSP6に移っ
て統合後の文字信号の文字幅が和文文字の文字幅より格
段的に小さいか否かの判断をする。
このようなステップS P 4− S P 5− S 
P 6−3P4のループは、ステップSP6において否
定結果が得られるまで続けられ、かくして統合手段22
は、統合後の文字信号の文字幅が、1文字分の幅に返信
した値になるまで続けられる。
やがてステップSP6において否定結果が得られると、
統合手段22は次のステップSP7に移って、1つ前の
統合処理によって得られた文字信号の文字矩形領域の大
きさで文字信号の切出しを実行した後、ステップSP3
に移って当該統合処理プログラムを終了する。
その結果統合手段22は、第10図に示すように、和文
文字列[な評判の・・・・・・量産化でき」に対応する
基本矩形切出し文字信号S7について、各文字について
切り出された第0番目〜第22番目の基本矩形g域につ
いて、分離文字でなる和文文字「判」、「い」、「は」
、「が」、「化」以外の文字信号については、第9図の
ステップSP2において肯定結果が得られることにより
、直ちに当該文字信号を識別部23に送出するのに対し
て、分離文字については、ステップ5P4−3P5−3
P6−3P4のループを経て、統合後の文字の縦横比が
ほぼ1に近くなるまで統合処理を実行する。
これに対して英文文字列の場合には、第11図に示すよ
うに、和文文字における分離文字に相当するような縦横
比をもつものが多いが、実用上英文文字には分離文字が
ないと考えて良いので統合部18において、統合処理を
せずに、スイッチ回路21から直接識別部23に文字信
号を送出する。
(G6)切出しデータメモリ25 統合手段22における第9図の統合処理は、切出しデー
タメモリ25に格納されている基本矩形領域の長さデー
タDhい切出し履歴データD5.、縦横比データD□、
切出し位置データD I)S ’、大きさデータ012
を含んでなり、例えば第12図に示すようなフォーマッ
トによって、1文字について3ワードのデータで構成さ
れている。
第12図のデータフォーマットにおいて、8ビツトの第
1のデータ列DATA1は、基本矩形切出し手段16に
おいて切り出された基本矩形領域の文字幅Wの値を表す
データD8でなり、また8ビツトの第2のデータ列DA
TA2は基本矩形切出し手段16によって切り出された
基本矩形領域の高さhの値を表すデータDhでなる。
また8ビツトの第3のデータ列I) A T A 3は
、文字切出し部11の原矩形切出し手段12、細切出し
手段14、基本矩形切出し手段16におけろ切出し経過
を3ピッl−のフラグFLGI〜F L G3と、1ビ
ットのフラグF L G 4とで表ずデータでなる。
さらに8ビツトの第4のデータ列DATA4は、2ビツ
トの切出し位置データD□と、2ビツトの縦横比データ
Dいと、2ビツトの縦相対比データD szv及び2ビ
ツトの横相対比データD1.とでなる大きさデータDs
、で構成されている。
切出しデータメモリ25の文字幅データDうは、細切出
し手段14において、接触文字についての分離をした後
の基本矩形領域の文字幅を表すデータをパラメータエン
コーダ部30の縦横比/大きさ検出手段31によって検
出して得られ、これが第1のデータ列DATA Iとし
て切出しデータメモリ25に格納される。また基本矩形
領域の高さデータDおば、基本矩形切出し手段16にお
いてy方向の長さを再切出しされた後(第8図)、その
文字高さデータW□が縦横比/大きさ検出手段31によ
って検出されて得られ、これが切出しデータメモリ25
の第2のデータ列DATA2に格納される。
縦横比/大きさ検出手段31は、これらの基本矩形長さ
データD。及びDhに基づいて、縦横比データDvhを
演算により求めて切出しデータメモ1J25のデータ列
DATA4に格納する。
これに加えて縦横比/大きさ検出手段31は、第13図
に示すように、検出された基本矩形長さW及びhを表す
データD8及びD6に基づいて、これを基準枠の縦及び
横寸法WR及びhR(それぞれ24ドツトでなる)と比
較し、その相対的比率を表す縦相対比データD、、v 
(=h/hR)及び横相対比データI)szh  (−
W/WR>を算出して切出しデータメモリ25の第4の
データ列メモリエリアDATA4に格納する。
ここで縦相対比データD s2v及び横相対比データD
 s z hを切出しデータメモリ25に格納するのは
、次の理由による。
すなわち和文文字の場合、縦横比が同一であるが、矩形
領域の文字高さ及び文字幅の異なる文字がある。例えば
「つ」及び1っ1、「あ」及び「あ」、「よ」及び「よ
」は、それぞれ縦横比は同一であるが、字の大きさが異
なる文字であり、これらは互いに異なる文字として切り
出す必要がある。そのため統合手段22ば、小さい文字
を表す文字信号が到来したとき、これを1文字と判断す
る必要があり、このように統合手段22を制御するデー
タとして切出しデータメモリ25は縦相対比データDs
□9及び横相対比データD、、□を格納する。
また切出し位置データD□は、基本矩形切出し手段16
が基本矩形領域を切り出した結果、第14図に示すよう
に、文字の位置が文字幅wR及び文字高さhRを有する
基準枠p、に対して上半分の範囲PRIIに存在してい
るか、又は下半分の範囲PIIDに存在しているかをパ
ラメータエンコーダ部30の位置決定手段32によって
検出し、当該位置データD□を切出しデータメモリ25
の第4のデータ列メモリエリアDATA4に格納する。
このような切出し位置データD□を切出しデータメモリ
25に格納するのは、基準枠pHの上半分の範囲PIU
に存在する文字として、「゛」、「0」、「−」などが
あり、これに対して下半分の範囲PRDに存在する文字
として、「、」、「。」、「、jなどがあるから、これ
らの文字を他の文字とは区別して分類し得る。そこでこ
の分類に従って識別部23において専用の認識アルゴリ
ズムを用いて各文字の識別をなし得るように、これらの
データを用いる。
(G7)履歴符号化手段35 以上の構成に加えて、切出しデータメモリ25の切出し
履歴データD、5が、履歴符号化手段35において原矩
形切出し手段12、細切出し手段14、基本矩形切出し
手段16において文字信号が順次処理されて行くに従っ
て得られるデータに基づいて形成される。
履歴符号化手段35は、文字切出し部11が順次切出し
処理を実行して行く複数の処理ステップにおける処理結
果を、基本矩形切出し手段16から出力される基本矩形
切出し文字信号S7において切り出された各矩形領域に
ついて、それぞれ論理レベルrlJ又は「0」で表され
るフラグFl、G1、FLG2、FLG3、F L G
 4でなる履歴符号を、各処理ステップに対応さセてコ
ード化する。
履歴符号化手段35における符号化は第15図に示す手
順で実行される。すなわち履歴符号化手段35は、原矩
形切出し手段12がスレシホールドレベルTHO(=0
)を用いて文字列信号S4を切り出したとき、時間の経
過に従って順次切り出されて行く原矩形SQL、SC2
、SC2、SC2・・・・・・に対して、第1段処理ス
テップS TE Plとして、順次交互に異なる論理レ
ベル「0」、「1」、「0」、[−1]・・・・・・を
第1のフラグFLG1として割り当てる。
続いて履歴符号化手段35ば、原矩形切出し手段12が
、スレシホールドレベルTHI(=1)を用いて文字列
信号S4を切り出したとき、その切出結果について順次
交互に異なる論理レベルをもつフラグFLG2を割り当
てる。この実施例の場合、原矩形切出し手段12は、第
2段処理ステップ5TEP2において、原矩形SQLか
ら2つの原矩形SQI 1及び5QL2を切り出し、ま
た原矩形SQ4から2つの原矩形SQ41及び5Q42
を切り出す。かくして時間の経過に従って11@次得ら
れた全ての原矩形5011.5Q12.5Q21、SC
21、SC21SC22・・・・・・に対して論理レベ
ル「0」、「1−1、「O」、[14、「0−1.1−
11・・・・・・が割り当てられる。この割当て動作の
後、履歴符号化手段35は第2段処理ステップを終了す
る。
続いて履歴符号化手段35は、細切出し手段14が接触
文字について切出し処理を実行した結果切り出された矩
形領域について、順次交互に異なる論理レベルのフラグ
T? L G 3を割り当てろ。この実施例の場合、第
3段処理ステップS T E P 3においては、矩形
領域SQ21が2つの矩形領域SQ211及びSC21
2に切り出され、また矩形領域SQ41が2つの矩形領
域SQ411及びSC212に切り出され、これら新た
に切り出された矩形領域を含んで順次続く矩形領域5Q
ii1、.5Q121、SC211,、SC212,5
Q311、SC211、SC2,12、S Q 421
・・・・・・に対して1.論理り、ベル[0−1、[l
−1、「0−1、「1」、「0」、「1」、「0」、「
1」・・・・・・が順次交互にフラグFLG3として割
り当てられる。
履歴符号化手段35は、これに加えて、基本矩形切出し
手段16が、基本矩形領域を切り出したか否かを表すフ
ラグFLG4を割り当てる。この実施例の場合、基本矩
形切出し手段16の切出し動作によって第8図(A)に
ついて上述したような除去領域がある場合、論理「1」
レベルが割り当てられ、これに対して除去領域がない場
合、論理「0」レベルが割り当てられる。
かくして基本矩形切出し手段16の出力端に得られる基
本矩形切出し文字信号S7の順次続く基本矩形領域につ
いて、文字切出し部11において第1〜第4段処理ステ
ップ5TEP 1−3TEP4において順次切出し処理
されて行く間の履歴がフラグFLGI、F L G 2
、FLG3、FLG4によって表され、これが切出しデ
ータメモリ25の第3のデータ列メモリエリアDATA
3に各矩形領域ごとに格納されることになる。
特に第1段〜第3段処理ステップ5TEPI〜STEP
3については、最終的に得られた矩形領域SQI 11
、SQl、21、SC211・・・・・・が、それ以前
の処理ステップにおいて得られた矩形領域5QII、5
Q12、SC21・・・・・・及びSQL、SC2、S
C2・・・・・・のどの矩形領域から切り出されて来た
ものであるかをフラグF L G 3、FLG2、FL
GIを順次見回して行くことにより確認することができ
る。
すなわち第16図に示すように、矩形領域5Q111、
SQI 21 SC211・・・・・・の切出し履歴を
、順次フラグF L G 3、FLG2、F 1.G 
1の順序でその論理レベルを確認して行くとき、互いに
隣り合う矩形領域の論理レベルが一致するものに到達で
きれば、当該隣り合う矩形領域は、その一致した処理ス
テップでは共通の矩形領域Vこあったものであることが
分かる。
例えば矩形領域SQI 1 を及びSQI 21につい
てフラグFLG3、FLG2、F L G 1を順次見
較べて行げば、フラグF1.G1において共に論理[0
1になっている。従ってどのことは、)[i形領域SQ
I 11及びSQL 21が第1段処理ステップ5TE
PIにおいて同一の矩形領域に含まれていたものが第2
段処理ステップ5TEP2において2つに切り出された
ものであることが分かる。
そしてその後第2段及び第3段処理ステップ5TEP2
及び5TEP3のフラグFLG2及びFLG3が変化し
ていないことから、矩形領域5Q111及びSQI 2
1は第3段処理ステップ5TEP3においては分離処理
されていないことが分かる。
同様にして順次続く他の矩形領域についてフラグの変化
をみれば、矩形領域SQ21 ]及び5Q212は、第
2段処理ステップのフラグF L G 2において共通
の論理レベルをもっているので、第3段処理ステップ5
TEP2において2つに切り出されたものであることが
分かる。
また矩形領域SQ311は、隣り合う矩形領域SQ21
2及びSQ411のいずれに対しても論理レベルが共i
1mになるフラグをもっていない。そこでこの矩形領域
SQ311は、第1段〜第3段処理ステップの全部の処
理ステップについて、切出し処理がなされなかったこと
が分かる。
また矩形領域S(:1411及びSQ412ば、フラグ
F L G 2において共通の論理[/ベルをもってお
り、さらにこれに加えてフラグFLGIにおいてさらに
矩形領域SQ421とも共通の論理L/ベベルもってい
る。このことから、矩形領域5Q411及びSQ、41
2は、第3段処理ステップ5TEP3において2つに切
り出されたものであることが分かり、かつ切り出された
元の矩形領域は、第2段処理ステップS T F、 P
 2において、矩形領域SQ421と共に同一の矩形領
域SQ4から切り出されたものであることが分かる。
さらに第4段処理ステップの処理結果を表すフラグFL
G4と合わゼ考えると、第3のデータ列メモリエリアD
ATA3に格納されζいる切出し履歴データI)いは、
文字切出し部11において切出し処理されて得られた基
本矩形切出し文字信号S7に基づいて、後段の処理装置
において統合、識別、再切出しなどの処理をする際に、
最終的に切り出された矩形領域が元々どの矩形領域に含
まれていたものであるかを知ることができることにより
、この切出し履歴データを参照して統合、識別、再切出
しの処理をすれば、これらの処理を合理的かつ効率良(
実行し得る。
すなわち統合手段22においては、第9図について上述
したように、各矩形領域について縦横比データDvhを
用いて統合後の矩形領域の縦横比がほぼ1になるような
文字の統合処理を実行する。
(G8)識別部23 また識別部23は、第17図の処理手順に従って、順次
統合部18から送出されて来る矩形領域について、文字
を識別して行く。
識別部23は、切出しデータメモリ25に順次切り出さ
れて来る矩形領域についてのパラメータを表すデータが
格納されているので、これらのデータを用いて、できる
だけ効率良く文字の識別をなし得るように識別処理を実
行する。すなわち識別部23は、ステップ5PIIにお
いて統合部18からのデータを入力し、次のステップ5
P12において位置による文字の分類が可能であるか否
かの判断をする。このステップ5P12における判断は
、切出しデータメモリ25の切出し位置データD□を用
いて実行される。その結果入力された文字が、基準枠1
)、(第14図)の上半分の範囲PRU又は下半分の範
囲PRDに入るものである場合には、識別部23は肯定
結果を得てステップ5P13に移る。
このステップ5P13は、十半分の範囲に存在する文字
「゛」、r’、、1.r−j、1−01などと、下半分
の範囲に存在する文字「。」、「、J、「、」、1つ」
などとを第1特徴文字とし2て、十半分又は下半分の領
域にある文字の認識を実行するための専用の認識アルゴ
リズJ、を実行する。
識別部23は、続くステップ5P14において第1の特
徴文字の認識ができたか否かの判断をし7、肯定結果が
得られたとき、ステップ5PI5に移って当該認識結果
を表す認識出力SIOを送出する。
かくしてステップ5P12において位置による分類が可
能であるとの判定結果が得られたときには、識別部23
に入力された矩形領域の文字信号が第1特徴文字である
ことを識別できていることから、ステップ5P13にお
ける認識アルゴリズムは、当該第1特徴文字の認識に最
適の処理手順によって処理することができるように選定
して良いことになり、かくしてステップ5P13におけ
る認識アルゴリズムとしては、簡易なものを適用し得る
これに対してステップ5P12において否定結果が得ら
れたとき、及びステップ5P14において否定結果が得
られたとき、識別部23はステップ5P16に移る。か
かる判定結果が得られるのは、統合部18から出力され
た文字信号が、基準枠PR(第14図)の上半分の範囲
P0及び下半分の範囲PRDの両方に跨っていることを
意味し、このとき識別部23は、ステップ5P13にお
ける専用の認識アルゴリズムを利用できないと判断して
次の認識ステップ5P16に移る。
このステップ5P16は、切出しデータメモリ25に格
納されている縦横比データDv6、縦相対比データD 
ssv及び横相対比データD szhを用いて、統合部
1日から供給される文字データが、特定の大きさの文字
を表しているか否かを判定し、肯定結果が得られたとき
ステップ5P17に移る。
ここで縦横比h/wについての分類は、第1に、縦横比
h / wが O< −< 0.5        ・・・・・・(1
)のように、0〜0.5の範囲に入るか否か、また第2
に 1.5< −−・・・・・・(2) のように、1.5より大きい範囲に入るか否かによって
文字を分類する。
(1)式によって分類される文字としては、例えば「−
」、「−」、「=」、「・−」、1〜−1、「−」など
がある。また(2)式によって分類される文字としては
、「:」、「;」、「0」〜「9」、「う」、「−<」
、「ぐ」、rlJ、「ト」、「ミ]、「β」、「δ」、
rfJ、riJなどがある。
また縦相対比h/hRによる分類は、縦相対比h/h、
が、 Q < □  < Q、5       ・・・・・・
(3)R の範囲に入るか否かによって分類される。この範囲に入
る文字としては、「鶴」、「Cl11」、「。」、「っ
」、「ソ」、「ハ」、「へ」、raJ、「e」、「C」
、ITJなどがある。
さらに横相対比W/WRの分類は、検相対比W/Wアが 0 < −□  < 0.5       ・・・・・
・(4)R に入る文字であるか否かによって分類される。この分類
に入る文字としては、「” 」、「”」、「。」、「:
」、「;」、rOJ〜「9」、「う」、「<」、「イ」
、raJ、[C−1、r e 、Jなどがある。
かくして識別部23は、ステップ5P17において第2
特徴文字の認識をした後、続くステップ5P18におい
て第2特徴文字を認識することができたか否かの判断を
し、9定結果が得られたとき、ステップ5P15に移っ
て当該識別結果を表す認識出力S10を送出する。
かくしてステップ5P16において、文字の大きさによ
る分類が可能であるとの判定結果が得られたときには、
識別部23に入力された文字信号を、第2特徴文字を簡
易に認識し得る専用の認識アルゴリズムを用いることが
できることにより、迅速かつ簡易な文字認識をなし得る
これに対してステップ5P16において否定結果が得ら
れたとき、及びステップS Pl 8において否定結果
が得られたとき、識別部23はステップ5P19に移っ
て標準アルゴリズムによる認識処理を実行する。この認
識処理は、統合部18から到来した文字信号が、認識可
能な全ての文字についてどの文字であるかを標準データ
と比較することによって特定する処理を実行するもので
、認識処理ステップは比較的膨大なものになる。
識別部23は、続くステップ5P20において、標準ア
ルゴリズムで文字認識ができたか否かの判断をし、肯定
結果が得られたとき上述のステップ5P15に移って当
該認識結果を表す認識出力S10を送出する。これに対
して否定結果が得られたときにはステップ5P21に移
る。
このステップSP21は、識別部23が再切出し部40
(第1図)を用いて、文字信号の統合、又は分離をやり
直すステップで、この統合、又は分離は、切出しデータ
メモリ25の第3のデータ列メモリエリアDATA3に
格納されている切出し履歴データDh++を用いて実行
される。
かくして識別部23は、ステップSP21において再切
出し部40によって再切出し動作が終了したとき、上述
のステップ5P19に移って再度標準アルゴリズムによ
って文字認識処理を実行する。
ここでステップS I) 21における再切出し処理は
、文字切出し部11において切出し処理されたときの切
出し履歴を参照して処理されることにより、再切出し処
理を合理的に実行することができ、かくして文字認識装
置全体としての認識率を高めることができることになる
(G9)実施例の動作 第1図及び第2図の文字認識装置におい゛ζ−5原稿読
取部2のイメージ読取データS1は、文字列切出し部3
において、原稿の各行に含まれる文字について、y投影
手法を用いて各文字列の高さに外接する文字列データS
4に変換され、この文字列データS4が文字切出し識別
部7に送出される。
文字切出し識別部7は、原矩形切出し1段12によって
、各文字列について、X投影処理をして得られる文字列
信号を、第1のスレシボール1゛レベル”T’ HOと
比較した後、第2のスレシポール1−レベルTHIにお
いて比較し、その比較データDT1及びDT2によって
文字列信号を切り出す。
この実施例の場合スレシホールドレベルTHOは、例え
ば分離文字と判断され易い和文文字について、1文字及
び1文字の構成部分を切り出すのに最適なように、十分
に低い値(THO=0)に選定されているのに対して、
第2のスレシホールドレベルT)(1は、分離文字を含
まない英文文字を切り出すのに最適な値(スレシホール
ドレベルTHOより大きい値)に選定されている。
このように原矩形切出し手段12によって複数段階例え
ば2段階の切出し処理をすることにより、和文文字及び
英文文字を、各切出し処理ステップにおいて、文字の特
徴を失わないように、文字の内部の特徴を顕在化するよ
うな小さい単位で切り出すことができることになり、統
合部18における統合処理などの後段の認識処理を高い
精度で実行し得る。
文字切出し部11は、細切出し手段14において、原矩
形切出し手段12から送出された原矩形文字信号S5に
含まれる各矩形領域について、その信号レベルが所定レ
ベル以下のX座標位置の近傍において、分離処理を実行
する。かくして文字間隔が狭い英文文字において、例え
ば文字輪郭のぼけの影響によって、2つの文字が接触し
ているかのようなイメージ読取データS1が得られた場
合に、これを確実に分離することができる。
これに続いて文字切出し部11は、基本矩形切出し手段
16において、細切出し手段14から1文字又は文字部
分ごとに切り出されて得られる細切出し文字信号S6に
ついてy軸投影を行うことによって、各文字の文字幅W
及び文字高さhに外接する基本矩形領域を切り出す。こ
れにより文字列を切り出した際に混入された雑音を各文
字ごとに有効に除去し得る。
このようにして原稿読取部2において和文文字及び英文
文字が混在する原稿を読み取ったとき、文字切出し部1
1は、和文文字及び英文文字それぞれがもっている固有
の特徴を失わせないように、できるだけ小さい文字部分
を単位として、1つの文字の幅及び高さ、又は1つの文
字の部分の幅及び高さに外接する矩形領域を基本矩形領
域として切り出すことができ、その結果得られる基本矩
形切出し文字信号S7が統合部18に供給される。
一方文字切出し部11において順次実行される処理ステ
ップにおける処理結果は履歴符号化手段35と、パラメ
ータエンコーダ部30を構成する縦横比/大きさ検出手
段31、位置決定手段32に与えられ、それぞれ切出し
履歴又はパラメータを表す切出しデータに変換されて切
出しデータメモリ25に送出され、かくして切出しデー
タメモIJ25に基本矩形切出し文字信号S7の各文字
に対応する長さデータD、、W、切出し履歴データD、
S、縦横比データDvい切出し位置データD ps、大
きさデータD szが格納され、これが統合部18にお
ける統合処理、識別部23における識別処理、再切出し
部40における統合、又は分離処理におけるパラメータ
データとして利用される。
統合部18は文字切出し部11から順次送出される基本
矩形切出し文字信号S7の各矩形領域についで、和文文
字が到来したとき、統合手段22において、必要tこ応
じて矩形領域の統合処理をした後、文字信号S8を識別
部23に送出する。これに対して英文文字が到来したと
きに+1、スイッチ回路21によって統合1段22を側
路し2て基本矩形切出し文字信号S8を識別部23に送
出する。
かくして文字切出し部】lζこおいてできるだけ細部に
ついて切り出された文字信号が、和文文字とし2て認識
するのに必要な文字幅を有する文字に統合されて識別部
23に送出され、その結果丈字認識装;η全体としての
認識率を一段と向−1−させることができる。
識別部23は、切出しデータメモリ25に格納されてい
る切出し処理時のデータを用いて、識別処理を実行する
。その際に、切出しデータメモり25から得られるデー
タによって、到来した文字がもっている特徴に応じて、
到来する文字(3月を分類して、各文字信号の特徴に基
づいて分類された文字を認識するための専用の認識アル
ゴリズJ、を用いて認識処理を実行する。かくして識別
部23における認識効率及び認識率を一段と向上させる
ことができる。
このような処理を実行しても、識別ができなかった場合
は、切出しデータメモリ25のデータを用いて再切出し
部40において統合部18から送出される文字信号を再
度統合、又は分離処理をすることによって各文字の再切
出しを実行し、当該再切出し後の文字信号によって識別
部23において再度識別動作を実行させる。
ここで再切出し部40の動作は、切出しデータメモリ2
5の出力データ(従って文字切出し部11において実行
された切出し処理の内容)を参照しながら、再切出し処
理を実行するようにしたことにより、合理的、かつ認識
率の高い文字認識を識別部23において行うことができ
る。
(GIO)実施例の効果 上述の実施例のように構成すれば、第1に、文字切出し
部11において、切出し処理された文字信号の切出し履
歴データを、切出しデータメモリ25に格納しておくよ
うにしたことにより、和文モードで文字の認識をする場
合に、統合部18における統合処理を過去の処理経過に
基づいて合理的に実行し得る。かくして認識部23にお
ける文字の認識効率及び認識率を一段と向上させること
ができる。
かくするにつき、文字切出し部11の切出し履歴を表す
データとしζ、履歴符号化手段35において、各切出し
処理ステップにおいて、切出された矩形領域の内、順次
隣り合う矩形領域に対し7て論理レベル[0−1及び「
1−1を順次交互に割り当てて行くようにするだけの比
較的簡易な手法によって、切出し履歴を確実に把握し得
るような履歴符号化を容易に実現し得る。
また上述の実施例のように、文字切出し部11の原矩形
切出し手段12によって、文字列信号S4に対するスレ
ーシホールドレベルとして複数の信号レベルを設定する
ことにより、粗さの異なる複数の切出し処理を実行し得
る。従って和文文字及び英文文字が混在しているような
多様な文字列に対応する文字列信号S4が到来した場合
に、当該多様性に対応して多様な切出し粗さで文字の切
出しをし得、かくして各文字の認識率を格段的に向上さ
せることができる。
さらに−上述の実施例によれば、文字切出し部11の細
切出し手段14において、文字信号の極小値の位置を検
出すると共に、当該極小値位置を近傍において、黒いド
ツトの関係を調べることによって、細切出しを実行する
ようにしたことにより、接触文字を確実に切出すことが
でき、かくして文字の認識効率及び認識率を格段的に高
めることができる。
(Gll)他の実施例 なお上述においては、原稿読取部2において、和文文字
及び英文文字が混在した横書の印刷文字を認識する場合
に適用した実施例として述べたが、縦書文字を認識する
場合にも同様にして本発明を適用し得る。
また上述においては、本発明を切出しデータメモリ25
のデータを用いて、文字切出し部11の出力端に得られ
る基本矩形切出し2文字信Q37を統合、識別、再切出
しする場合に適用した場合について述べたが、その他の
処理が必要な場合には、その必要に応じて切出しデータ
メモリ25に格納されている切出しデータを利用するよ
うにしても良い。
また上述の実施例の場合は、加重形切出し手段12にお
いて異なる複数のスレシホールドレベルで文字列信号S
4を切り出す際に、切出しInさが粗い矩形領域から細
かい矩形領域−の順番で順次文字信号の切出しをするよ
うにしたが、これに代え、文字列信号S4を繰返し切り
出すようにと2でも同様の効果を得ることができる。
■]発明の効果 以−にのように本発明によれば、文字列信号から連続し
た1つの文字として切り出された矩形領域についてこれ
が接触文字である場合には、文字信号に最小値区間が生
ずることに着目して、当該量小値区間の近傍について、
高さ方向に黒いドツトが連続するか否かを判定し、不連
続であるとき当該不連続のドツト位置において2つの矩
形領域に分離して切り出すようにしたことにより、接触
文字を有効に2つの文字として切り離すように切り出す
ことができ、かくして認識効率及び認識率を一段と高め
得る。
【図面の簡単な説明】
第1問は本発明による文字認識装置の要部を構成する文
字切出し識別部の詳細構成を示すブロック図、第2図は
本発明による文字認識装置の一実施例を示すブロック図
、第3図及び第4図は、イメージ読取データから文字列
を切り出す際の処理及び信号を示ず路線図及び信号波形
図、第5図は加重形切出し手段12における切出し動作
の説明に供する信号波形図、第6図及び第7図は細切出
し手段14における接触文字の分離処理の説明に供する
路線図、第8図は基本矩形切出し手段16の切出し処理
の説明に供する路線図、第9図は統合手段22における
和文文字の統合処理手順を示すフローチャート、第10
図及び第11図は和文文字及び英文文字について切り出
された文字矩形領域の配列を示す路線図、第12図は切
出しデータメモリ25の格納データを示ず路線図、第1
3図は縦相対比データ及び横相対比データの説明に供す
る路線図、第14図は切出し位置データの説明に供する
路線図、第15図及び第16図は切出し履歴データの説
明に供する路線図及び図表、第17図は識別部23の識
別処理手順を示すフし1−チャートである。 1・・・・・・文字認識装置、2・・・・・・原稿読取
部、3・・・・・・文字列切出し部、7・・・・・・文
字切出し識別部、11・・・・・・文字切出し部、12
・・・・・・加重形切出し手段、14・・・・・・細切
出し手段、1G・・・・・・基本矩形切出し手段、18
・・・・・・統合部、23・・・・・・識別部、25・
・・・・・切出しデータメモリ、30・・・・・・パラ
メータエンコーダ部、35・・・・・・履歴符号化手段
、40・・・・・・ilT切出し部。 〜      墳 辺  λ  よ  宕  よ 1ゝ く) \  く −aζq− 土刀出しAJし灯号イ巳 躬15薗 前 識 メエ理乎用頁 蔓17日

Claims (1)

    【特許請求の範囲】
  1. 文字列信号の信号レベルを1文字又は1文字の構成部分
    に外接する幅及び高さで表される第1の矩形領域で切り
    出し、上記第1の矩形領域によつて切り出された文字信
    号の信号レベルが所定の基準レベル以下になつた幅方向
    のドット位置について高さ方向に連続するか否かを判定
    し、不連続であることが判定された幅方向のドット位置
    において上記第1の矩形領域を2つの第2の矩形領域に
    分離して切出し文字信号を送出する文字切出し部を具え
    ることを特徴とする文字認識装置。
JP60213758A 1985-09-27 1985-09-27 文字認識装置 Pending JPS6274184A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60213758A JPS6274184A (ja) 1985-09-27 1985-09-27 文字認識装置
NL8602456A NL8602456A (nl) 1985-09-27 1986-09-29 Stelsel voor karakterherkenning.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60213758A JPS6274184A (ja) 1985-09-27 1985-09-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPS6274184A true JPS6274184A (ja) 1987-04-04

Family

ID=16644541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60213758A Pending JPS6274184A (ja) 1985-09-27 1985-09-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPS6274184A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4922356A (en) * 1986-01-29 1990-05-01 Hitachi, Ltd. Transducer supporting apparatus and disk storage unit
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法
JPH07319998A (ja) * 1988-04-28 1995-12-08 Seiko Epson Corp 文字切り出し方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4922356A (en) * 1986-01-29 1990-05-01 Hitachi, Ltd. Transducer supporting apparatus and disk storage unit
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法
JPH07319998A (ja) * 1988-04-28 1995-12-08 Seiko Epson Corp 文字切り出し方法
JP2570415B2 (ja) * 1988-04-28 1997-01-08 セイコーエプソン株式会社 文字切り出し方法

Similar Documents

Publication Publication Date Title
JPS6274181A (ja) 文字認識装置
CN106940799B (zh) 文本图像处理方法和装置
JP2822189B2 (ja) 文字認識装置及び方法
JP2940936B2 (ja) 表領域識別方法
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
CN112686265B (zh) 一种基于层级轮廓提取的象形文字分割方法
JP2006338578A (ja) 文字認識装置
JPS6274184A (ja) 文字認識装置
JPH05334490A (ja) 表認識装置
JPH0410087A (ja) 基本ライン抽出方法
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
JPH02116987A (ja) 文字認識装置
JPS6274182A (ja) 文字認識装置
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JPS6274183A (ja) 文字認識装置
JP3457094B2 (ja) 文字認識装置及び文字認識方法
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JPH0713994A (ja) 文字認識装置
JPH0652358A (ja) 文字認識方法
Tursun et al. A Joint Approach of Harris Corners Detection and Baseline Searching for Localization of Uyghur Text Lines in Image Sequences.
JP3190794B2 (ja) 文字切り出し装置
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JPH0713996A (ja) 文字認識装置
JP2000339408A (ja) 文字切り出し装置
JPH04260980A (ja) 図形認識装置