JPS6274183A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS6274183A
JPS6274183A JP60213757A JP21375785A JPS6274183A JP S6274183 A JPS6274183 A JP S6274183A JP 60213757 A JP60213757 A JP 60213757A JP 21375785 A JP21375785 A JP 21375785A JP S6274183 A JPS6274183 A JP S6274183A
Authority
JP
Japan
Prior art keywords
character
signal
characters
data
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60213757A
Other languages
English (en)
Inventor
Keiko Abe
阿部 惠子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60213757A priority Critical patent/JPS6274183A/ja
Priority to NL8602456A priority patent/NL8602456A/nl
Publication of JPS6274183A publication Critical patent/JPS6274183A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A産業上の利用分野 B発明の概要 C従来の技術 り発明が解決しよ・うとする問題点 E問題点を解決するだめの手段(第1図及び第12図) F作用(第1図及び第12図) G実施例 (G1)文字認識装置1の全体構成(第2図、第3図、
第4図) (G2)原矩形切出し手段12(第1図、第5図)(G
3)細切出し手段14 (第1図、第6図、第7図) (G4)基本矩形切出し手段16(第1図、第8図)(
G5)統合部18(第1図、第9図、第10図、第11
図) (G6)切出しデータメモリ25(第1図、第8図、第
12図、第13図、第14図) (G7)履歴符号化手段(第1図、第15図、第16図
) (G8)識別部23(第1図、第17図)(G9)実施
例の動作 (GIO)実施例の効果 (Gll)他の実施例 H発明の効果 A産業上の利用分野 本発明は文字認識装置に関し、例えば和文文字及び英文
文字のように異種の文字が混在してなる印刷文書の文字
を認識する場合に適用して好適なものである。
B発明の概要 本発明は、原稿読取部から得られたイメージ読取データ
から文字列信号を切り出し、この文字列信号から各文字
に対応する矩形領域を切り出した後、各矩形領域につい
て文字の認識処理を実行するようにした文字認識装置に
おいて、文字列信号の信号レベルを、信号レベルの値が
互いに異なる複数のスレシホールドレベルによって切り
出すことにより、切出し粗さが異なる切出し文字信号を
得るようにすることにより、異なる種類の文字が混在し
ている多柱な文字列につい゛このJ、こ識効率及び認識
率を高めることができる。
C従来の技術 例えば横書の和文文字(漢字、かな文字などをいう)を
含んでなる印刷文書の文字列から各文字を認識する場合
、和文文字特有の問題として、分離文字を正確に認識す
る必要がある。
すなわち従来横書文字列の各文字を認識するには、先ず
本文文字列から各文字を1文字ずつ切り出す処理をした
後、各文字の特徴を基準文字の特徴と比較して認識する
手法が用いられるが、和夕文字は、1文字の構成部分が
幅方向又は、高さ方向に連続している文字ばかりではな
く、1文字の構成部分が不連続に分離しているいわゆる
分離文字(例えば、]−川」、[い−1など)があるた
め、この分離文字を正確に切り出すことが困腑であった
D発明が解決し2ようとする問題点 すなわち和文文字については、幅方向に見て連続する図
形部分(すなわち文字部分)を単位にして文字信号を切
り出したとき、切り出された各信号部分を全て1文字で
あると認識することはできず、例えば漢字文字「川」は
、3つの文字構成部分に切り出され、またひらがな文字
「い」は2つの文字構成部分に切り出される。
これに対してアルファベット文字、ギリシャ文字、数字
文字などでなる文字(これを英文文字と呼ぶ)は、実用
上、1図形1文字を前提条件として文字信号を切り出す
ことができる。しかし、英文文字列の場合は、各語間以
外は文字間隔が比較的狭いために、原稿読取部から出力
されるイメージ読取データに基づいて和文文字と同様の
手法で読み取ることができるとは限らず、例えば、隣合
う2つの文字が互いに接触しているように読み取る(こ
れを接触文字と呼ぶ)おそれがあり、これを正確に分離
して切り出すことができるようにする必要がある。
このような問題点があるため、従来は、字体に不揃いが
ない印刷文書であっても、和文文字及び英文文字が混在
している場合には、各文字を止しく切り出すことは困難
であった。
これに加えて従来の文字認識方法においては、「文字の
切出し」ステップと、「文字の認識1ステツプとはそれ
ぞれ独立した処理ステップであると考えられており、文
字切出し部において一旦文字の切出しをした後、文字認
識部にデータが引き渡された後は、たとえ分離文字の切
出しが誤ったために文字認識部において正しい文字の認
識ができなかった場合にも、文字認識部において当該文
字について認識不能であるとして処理する手法が採用さ
れており、このことが文字認識部の認識率の低下の原因
の1つになっていた。
本発明は以上の点を考慮してなされたもので、文字列信
号を粗さが異なる複数の切d目、処理ステップによって
処理することにより、異なる種類の印刷文字が混在する
文字列を高い認識率で認識できるようにした文字認識装
置を提案しようとするものである。
E問題点を解決するための手段 かかる問題点を解決するため本発明においては、文字列
信−号S4の信号レベルを、順次信号レベルが異なる複
数のスレシホールドレベルTHO1TH1とそれぞれ比
較することにより、切出し粗さが異なる矩形領域を切り
出す文字切出し部11と、複数のスレシホールドレベル
によって切り出された矩形領域について切出し履歴を表
す切出し履歴データDh、を形成記憶する手段35.2
5とを具え、上記切出し履歴データDhsを用いて文字
認識を行うようにする。
F作用 文字切出し部11は、信号レベルが異なる複数のスレシ
ホールドレベルTHO1THIを用いて1文字又は1文
字の構成部分に外接する矩形領域を形成して当該矩形領
域の文字信号を切り出す。
ところで原稿読取部2から送出される文字列信号S4は
、投影処理によって得ることにより、一般に文字の端の
部分に相当する信号部分は、いわゆる裾を引くように徐
々に変化するような値をもつ。従ってこの文字列信号S
4を異なる信号レベルヲモつ複数のスレシホールドレベ
ルTHO,,TH1で切り出すと、それぞれ切り出され
た矩形領域の文字幅Wは、信号レベルが高いスレシホー
ルドレベルTHIで切り出されたほうが低い信号レベル
のスレシホールドレベルTHOで切り出されたものより
細かい文字部分を切り出す結果になる。
かくして粗い切出しと、細かい切出しとを組み合わせる
ことにより、多様な特徴を有する多種類の文字について
、これに適用し得るような文字認識を実現し得る。
なお−上述の実施例においては、英文文字及び和文文字
が混在している文字列を認識する場合に本発明を適用し
たが、文字の種類はこれに限らず種々変更し得、種類の
数も2種類に限らず、3種類板−トであってもよい。
また上述においζは、スレシホールドレー・ルとして、
互いに信号レベルが異なる2種類のスし・シホールドレ
ベルを用いて文字信号の切り出しをずるようにした場合
について述べたが、これに限らず3種類以上の信号レベ
ルを有するスレシホールドレベルを用いるようにしても
上述の場合と同様の効果を得ることができる。
このようにした場合、信号レベルが低いスレシホールド
レベルから高いスレシホールドレベルまで、切出し粗さ
が粗い切出しから順次細かい切出しまで変化するので、
各段階に対応して文字の内部の特徴に応じた文字の切出
しをなし得る。かくして多様な文字の分類を確実になし
得る。
またこのようにした場合、切出し粗さが細かい切出し処
理をした際に、全ての文字について文字構成部分に対応
する文字信号が切り出され、当該切り出された文字信号
の特徴によって文字が分類される。そのため、識別部2
3には、かかる認識処理ステップが認識処理手順(第1
7図)に設けられる。
G実施例 以下図面について、本発明の一実施例を詳述する。
(G1)文字認識装置の全体構成 第2図において、1は全体として文字認識装置を示し、
原稿読取部2において得られたイメージ読取データS1
を、文字列切出し部3に供給する。
文字列切出し部3ば、1ペ一ジ分のイメージ続出データ
S1を第1段前処理部4に受Gノ、雑音を除去すると共
に文書の回転補正をした後、イメージデータS2として
第2段前処理部5に供給する。
第2段前処理部5は、文書のうり、文字領域を、その他
の領域(写真、図面等の領域)から区分けして、文字領
域に含まれるイメージデータだkJを抽出する。そして
第2段前処理部5は、当該抽出された文字領域に含まれ
る文字列が横書であることを検出した後、文字列の抽出
をする。
この文字列の抽出は、第3図に示すように、文字領域A
Rの各ドツトの位置を、列方向(水平方向)にとったX
軸と、行方向(垂直方向)にとったy軸とでなるxy座
標で表1よ・)にし、文字領域ARを構成する文字列A
R1、AR2・・・・・・に含まれる論理「1」レベル
のドツト(黒いドツトを表す)の和の値をy軸上に投影
して(y投影と呼ぶ)、第4図(A)に示すようなy投
影信号S。
を得る。ここでy投影信号Syの信号レベルは、文字列
相互間の位置では黒いドツトのトータル情報がないこと
がら「0」レベルにあるのに対して、文字列ARI、A
R2・・・・・・に対応するy軸上の位置では、黒いド
ツトの数に対応する信号レベルになる。従ってy投影信
号Syを所定のスレシホールF tzヘルド比Hシ、当
該スレシホールドレベル以上の区間の間論理「1」レベ
ルに立ち上がる文字列切出データCL(第4図(B))
を得る。
かくして文字列切出しデータCLの論理「1」レベルの
区間によって、文字領域ARのうちの文字列ARIAR
2・・・・・・の領域を表すことができ、第2段前処理
部5は、この文字列切出しデータCLを用いてイメージ
データS2のうち、文字列切出しデータCLが論理「1
」レベルにある垂直走査区間に相当するイメージデータ
でなる文字列抽出信号S3を第3段前処理部6に送出す
る。
第3段前処理部6は、文字列抽出信号S3について回転
があれば、これをHJ整し°ζ文字列信号S4として文
字切出し識別部7に送出する。
かくして文字列切出し部3は、原稿読取部2から供給さ
れたイメージ読取データS1のうち、各文字列を構成す
るデータ部分だけを文字列信号S4として文字切出し識
別部7に送出する。
文字切出し識別部7は、各文字列を構成する文字を1文
字ずつ切り出してその特徴を認識するもので、第1図の
構成のものを適用し得る。
(G2)原矩形切出し手段12 すなわち文字列信号S4は、文字切出し部11の原矩形
切出し手段12に供給される。原矩形切出し手段12は
、文字列信号S4のうち、各文字列領域ARI、AR2
・・・・・・に相当するデータ部分について、黒いドツ
トが存在する水平方向の領域をX軸上に投影して黒いド
ツトのトータル数に信号レベルの文字信号を得ることに
より、各文字文(I2) は文字の構成部分の幅に外接する高さ方向くy軸方向)
の線によって囲まれる矩形領域(これを原矩形領域と呼
ぶ)を切り出すことにより、1文字又は1文字の構成部
分が存在する水平方向の区間を判定して、対応する文字
信号部分を切り出す。
例えば第5図(A)に示すように、第n列目の文字列領
域ARNについて、文字列、すなわち・・・・・・「適
J−rLJ −rて」−「い」−「る」・・・・・・を
内容とする文字列信号S4が到来したとき、原矩形切出
し手段12は、文字列信号S4を互いに値を異にする複
数例えば2つのスレシホールドレベルTHO(第5図(
Bl))、THI (第5図(C1))と順次比較して
、それぞれ各文字又は文字の構成部分に外接する文字矩
形領域を順次形成し、各文字矩形領域の文字信号を順次
切り出す。
ここで、スレシホールドレベルTHO及びTHlの数及
び信号レベルは、異種の文字が混在している印刷文書に
おいて用いられている多様な文字パターンを各文字パタ
ーンの特徴を失わないように切り出して矩形領域を得る
ことができるような値に予め選定される。
この実施例の場合、和文文字及び英文文字が混在する印
刷文書を認識するため、原矩形切出し手段12は、第1
のスレシホールドレベルとしてTHO(=O)に設定さ
れ、かつ第2のスレシホールドレベルとしてTHI  
(=1)に設定される。
スレシホールドレベル0及び1は、24 X 24ドツ
トの基準枠内において、高さ方向のトータルドツト数が
0個及び1個であるときの信号レベルを表す。
ところで、文字列信号の文字信号部分を低いスレシホー
ルドレベル’I” HOで切り出せば、このことは相い
尺度で文字矩形領域を切り出す結果を得ることができる
ことになる(これを粗い切出しと呼ぶ)、またスレシホ
ールドレベル1で切り出せば、このことは細かい尺度で
文字矩形領域を切り出す結果を得ることができることに
なる(これを細かい切出しと呼ぶ)。
このような結果になるのは次の理由による。投影法によ
って得た文字列信号に含まれる文字信号部分の信号レベ
ルは一般に、文字又は文字構成部分の中央部から外方に
行くに従って0レベルに低下して行くような信号波形(
いわゆる裾をひくような波形)をもっている。従って高
いスレシホールドレベルTHI(=1)で切り出した矩
形領域の文字幅は、低いスレシホールドレベルTHO(
−〇)で切り出した矩形領域の文字幅より狭くなる。そ
こで高いスレシホールドレベルを用いた細かい切出し処
理によって切り出された文字信号部分は、低いスレシホ
ールドレベルを用いた粗い切出し処理によって切り出さ
れた文字信号部分に対して、その内部のパターンの特徴
(すなわち黒いドツトの分布)を表していることになる
このように、細かい切出し処理によって切り出された第
1の文字信号は、粗い切出し処理によって切り出された
第2の文字信号の内部に含まれている特徴を顕在化する
ように表している。従って切出し粗さが細かい第2の文
字信号に基づいて文字の認識ができなかったとき、切出
し粗さが粗い第1の文字信号に戻って文字認識処理をす
ることによって文字の認識ができる可能性があり、かく
して多様な文字の認識をする場合、異なる信号レベルを
もつスレシホールドレベルT HO及ヒTH1によって
順次切出し処理をしたとき、矩形領域が順次分離して行
く履歴(これを切出し履歴と呼ぶ)は、文字を正確に認
識するための有効な手段となる。
例えば、和文文字列は1字ずつかなり広い間隔で配列さ
れていると共に、1文字の中に文字構成部分が分離して
いるようなものもある特徴をもつ。
従って実用上、和文文字は、スレシホールドレベルTH
O(=0)で文字信号を切り出せば、1文字又は1文字
の文字部分に外接する第1の矩形領域を切り出すことが
できることになる。そして続いてスレシボールドレベル
THI(−1)で文字信号を切り出せば、1文字又は1
文字の文字構成部分の内部の黒いドツトの分布の特徴を
表す第2の矩形領域を切り出すことができることになる
従って和文文字の場合、2つのスレシホールドレベルで
切り出されて来る矩形領域及びその履歴は、文字の黒い
ドツトの分布の特徴を失っていないので、第1又は第2
の矩形領域によって切り出した文字信号によって文字認
識ができることになる。
また、英文文字列は、各語間の間隔はかなり広いが、各
語内の文字は間隔が狭く詰るように配列されている。従
って実用上、英文文字は、スレシホールドレベルTHO
(=0)で文字信号を切り出すと、1文字を切り出すこ
とができる場合と、隣り合う文字間隔が狭いために切り
出し得ない場合が生じ得る。そこで続いてスレシホール
ドレベルTHI  (=1)で文字信号を切り出すと、
第1段目の処理では1文字として切り出し得なかった文
字が、第2段目の処理で切り出すことができる場合が生
じる。この場合、すでに第1段目の処理で切り出すこと
ができた文字の内部の特徴は、第2段目に切り出された
文字信号においても失われることはないので、当該第2
段目の文字信号によって文字を認識することができると
言い得る。
かくして文字列信号S4の信号レベルがスレシホールド
レベルTHI  (=1)を越えたとき、第5図(C2
)に示すように論理「1」レベルとなる第2の原矩形切
出しデータDT2を発生し、この第2の原矩形切出しデ
ータDT2を用いて、その信号レベルが「1」の区間に
相当する文字列信号S4を、原矩形文字信号S5として
送出する。
その結果和文文字の切出しと、英文文字の切出しとを、
それぞれ最適な条件の下で切り出すことができる。
このようにして原矩形切出し手段12は、分離文字では
ない和文文字について1文字ごとにそのX方向の各文字
領域に対応する文字列信号S4を切り出すことができ、
これに対して分離文字の場合は、各文字構成部分ごとに
そのX方向の文字領域を単位として文字列信号S4を切
り出すことができる。これに加えて英文文字の場合、原
矩形切出し手段12は、各文字が接触していなければ、
各文字のX方向の文字領域を単位として、文字列信号S
4を切り出すことができる。
(G3)細切出し手段14 原矩形文字信号S5は、細切出し手段14に供給される
。この細切出し手段14は、特に英文文字について、接
触文字が含まれている場合に、これらの接触文字を、正
しく2つの文字に分離して切り出すことができるように
しようとするものである。
すなわち英文文字は、隣合う文字が接近しているために
、第6図(A)に示すように、2つの文字例えばrfJ
及びroJが原稿読取部2によって読み取られてイメー
ジ読取データS1として送出されたとき、各文字を表す
黒いドツトが同じX座標位置で重なり合う場合が生じ得
る。この場合X投影して得られる原矩形文字信号S5に
は、文字rfJ及び「0」間において信号レベルが0に
なる区間がなく、これを分離と7なげれば、2つの文字
rfJ及び「0」が連続した1つの文字として切り出さ
れてしまう結果になる。
かかる問題を解決するため、細切出し手段14は、原矩
形文字信号S5(第6図(B))のうち、原矩形切出し
手段12において一応1つの文字であるとして切り出さ
れて来た原th形文字信号S5について、これが極小値
となる点技びその周辺の点(これを極小部と呼ぶ)のx
 1ll−ji向の座lit x。
を求め、綺、いて第7図に示すように当該極小点の座標
の両隣りの座標、ずなわらXf−11及びX、。。
における縦方向(すなわちy方向)についての黒いドツ
トの連続性を調べる。
すなわち第7図(A>に示すように、縦方向ζこ黒いド
ラlが連綺、シていれば、]つの矩矩形域であると判定
し1、これに対して第7図(13)に示すように、縦方
向乙に黒いドツトが不連続であれば、2つの矩形領域に
分離すべきであると判定する。
先ず第6図(A)において原矩形文字信号S5の信号レ
ベルが極小点にあるX座標は、x=x。
でその信号レベルは55−4である。これに対し7て両
隣りのX座標x=x(−11及びx=x(。。の信号レ
ベルは55−5及び55−8である。従つ°ζこの2つ
の文字は、第5しI(CI)及び(C2)について上述
した原矩形切出(,7f段12における判断においては
、くれぞれスレシホールドレベルTHO及びTHIより
高い信号レベルにあるので、1つの文字として切り出さ
れている。
ところで、第6図(A>において、原矩形文字信号S5
の信号レベルが極小点になるX座標の位1Ix=XQ及
びその両隣の位W X = X t−n及びX=Xt+
+1について、黒いドツトの縦方向における連続性を調
べると、原矩形文字信号S5の極小信号レベルは、文字
「f」の右端部について生じており、X=X、及びX 
” X f−11の位置についての黒いドツトの連続性
は、文字rfJを構成する部分についてだけ縦方向に連
続的であり、文字「O」についての黒いドツトは存在し
ない。またX−X、。。の位置については、左側の文字
「f」のドツトが連続していると共に、下方に離れた位
置に右側の文字roJを構成する黒いドツトがあり、両
者の間は不連続的である。そこでX=X、o、X−x、
−Il、X = X +++1の座標について、縦方向
の連続性を総合的に判断すれば、左側の文字rfJと、
右側の文字[Ojとの間には、x−x (、。の位置で
不連続の部分があると判断することができ従って細切出
し手段14ば、原矩形文字信号S5を、X ”” X 
t+ +1の位置で2つの文字r f−、I及び「0−
1に分離して細切出し文字信号S6として基本矩形切出
し手段16に送出する。
かくして細切出し手段14によれば、文字列信号S4を
所定のスレシホールドL・ヘルTHO11゛H1によっ
て切り出して送出されて来た文字信号S5の中に、接触
文字が含まれていた場合には、これを適切に2つの文字
に分離するように切り出すことができる。
因に、原稿読取部2(第1し1)において用いられるイ
メージリーグは、一般に変調伝送関数(m。
dulation transfer funetio
n)の影響により、文字の輪郭がぼけるおそれがあり、
かかるぼけが発生した場合には、英文の場合のように文
字間隔が狭い文字列においては、隣合う文字が互いに接
触しているように読み取られ、か< L、て接触文字が
文字列に混入するおそれがある。このような場合、接触
文字の接触部分は、原ylj形切出し手段12において
X投影処理をして得られる原矩形文字信号S5の信号レ
ー、ルが、極小値を有することになる。
かくして細切出し手段14によってこれらの接触文字を
2つの文字に分離するように切り出すことができる。
ところがこのようにすると、和文文字の場合、分離文字
でないものまでが細切出し手段14によって分離されて
しまうおそれがある。漢字の中には、文字部分相互間の
関係が接触文字に類似するようなものがあるからである
。この問題に対して第1図の実施例の場合は、和文文字
が分離された場合には、後段の識別部によって文字の認
識をする前に、統合手段によって所定の条件の下に統合
するようになされている。
この実施例の場合、原矩形文字信号S5の極小点の座標
を判断するために、所定のスレシボールドレベルが設定
され、当該スレシホールドレベル以下の信号レベルをも
つX座標の位置を極小部であると判断するようになされ
ている。
このようにして細切出し手段14においζ得られた文字
信号は、細切出し文字信号S6とし5て43本矩形切出
し1段16に与えられる。
(G4)基本矩形切出し2手段16 基本矩形切出し手段16は、細切出し7文字信号S6に
よって表された各文字又は文字構成部分について、垂直
方向に雑音が混入しているときこれを除去して当該文字
又は文字構成部分の上下端に外接するX方向の線によっ
て文字高さについての切出し処理をするもので、細切出
し7文字信号S6の各文字又は文字構成部分について、
第8図(A)に示すように、X投影処理を実行する。そ
の結果間られるy投影信−号I)Ryは、垂直方向の各
位置(すなわちy軸方向の各座標位置)における水平方
向の走査線上にある1−一タルドツト数に相当する信号
レベルをもつことになる。
ここで基本矩形切出し手段16は、y投影信号PR,に
対するスレシホールドレベルを、文字幅WXに対して所
定の比率の信号レベル(例えば文字幅Wヶに相当する信
号I/・\ルに対1−7゛ζ、1/2の信号レベル)に
設定し、当該スレシホールドレベル以下のy投影信号の
部分を雑音であると判定して除去する。
この結果基本矩形切出し手段16は、第8図(B)に示
すように、雑音と判定した白いドツト領域及び黒いドツ
ト領域を除去することにより、y軸方向の幅すなわち文
字高さをW、、(第8図(A))からWy2(第8図(
B))に修正する。かくして、基本矩形切出し手段16
は文字幅WX及び文字高さWy2でなる矩形文字頭載を
基本矩形領域として含んでなる基本矩形切出し文字信号
S7を送出する。
このようにして文字切出し部11は、文字列信号S4に
含まれている各文字又は文字構成部分に外接する基本矩
形領域によって切り出された文字信号を順次配列してな
る基本矩形切出し文字信号S7を得ることができ、これ
を後段に設けられた文字認識処理部(統合部18、識別
部23、再切出し部40でなる)の統合部18にイハ給
する。
(G5)統合部18 統合部18は、和英判定手段20において、現在識別さ
れている文字が和文文字であるとき、スイッチ回路21
を和文文字側接点SWI側に切換え制御し、これにより
基本矩形切出し文字信号S7を接点SWIを通じて統合
手段22に供給し、その統合出力を統合部18の出力S
8とし、て識別部23に供給するようになされている。
これに対して和英判定手段20が現在識別している文字
が英文文字であると判断したとき、スイッチ回路21を
英文文字側接点SW2に切換え制御することによって、
基本矩形切出し文字信号S7を接点SW2を通じて直接
続合部18の出力S8として識別部23に送出する。
和英判定手段20は、識別部23から現在識別されてい
る文字が和文文字であるか、英文文字であるかを表示す
る和英識別信号D’lRを受けて、現在識別されている
文字の種別に対応する切換制御信号をスイッチ回路21
に供給する。
統合手段22は、一般に和文文字の場合、垂直方向の文
字高さに対する水平方向の文字幅の比率(これを縦横比
と呼ぶ)はほぼ1に近似できるという事実に基づいて、
基本矩形切出し文字信号S7の各矩形文字信号について
分離文字であるか否かの判断をして第9図に示す処理手
順に従って和文文字の統合処理を実行する。
ずなわち統合手段22は、スイッチ回路21を通じて、
和文文字列でなる基本矩形切出し文字信号S7の各矩形
文字信号が到来したとき、第9図のステップSPIにお
いて文字統合プログラムをスタートし、次のステップ5
))2において当該文字の文字高さく−h)と、文字幅
(=W)との比l h/w lがほぼ1であるか否かの
判断をする。
このステップSP2におい”C肯定結果が得られれば、
このことは到来した矩形文字信号が和文1文字分の文字
信号であることを意味しており、従って統合手段22は
、ステップSP3に移って当該統合処理プログラムを終
了して入力された文字信号を識別部23に送出する。か
くして文字信号として1文字分の和文文字を表す文字信
号が到来したとき、統合手段22は統合処理をせずに、
直接識別部23に送出する。
これに対してステップSP2において否定結果が得られ
ると、このことは文字矩形領域の縦横比l h/w l
が和文文字の比率をもっていないこと(従って分離文字
であること)を判定し得たことを意味する。このとき統
合手段22は、ステップSP4に移って次Gこ到来する
文字信号との統合処理を実行する。
ここで統合手段22は、ステップSP4において統合し
て得られた統合文字信号についての文字高さく=h。)
及び文字幅(=w。)を求め、次のステップ51)5に
移ってその比率lho/WQ1がほぼ1に等しいか否か
の判断をする。この判断は、ステップSP4において次
の文字と統合した結果、和文文字の縦横比になったか否
かの判断をするもので、肯定結果が得られたとき統合手
段22は−1−述のステップS P3に移って当該統合
プログラムを終了する。
これに対してステップSP5において否定結果が得られ
たとき統合手段22は、次のステップSP6に移って縦
横比1h o / We  lが1より格段的に小さい
か否かの判断をする。
ここで肯定結果が得られると、このことば、上述のステ
ップSP4において2つの文字部分を統合したにもかか
わらず、その統合文字信号が未だ和文文字の文字幅より
は格段的に小さく、さらに他の文字部分と統合しなけれ
ば、和文文字の文字幅にはならないことを意味しており
、従って統合手段22は上述のステップSP4に戻って
、さらに次の文字と統合するような処理を実行する。
その結果ステップSP5において統合文字信号について
の縦横比が、はぼ1になったか否かの判断をし、肯定結
果が得られれば、上述のステップSP3に移って当該プ
ログラムを終了する。
これに対してステップSP5において再度否定結果が得
られたとき統合手段22は再度ステップSP6に移って
統合後の文字信号の文字幅が和文文字の文字幅より格段
的に小さいか否かの判断をする。
このようなステップS P 4.− S P 5−3 
P 6−3P4のループは、ステップSP6において否
定結果が得られるまで続けられ、かくして統合手段22
は、統合後の文字信号の文字幅が、1文字分の幅に近似
した値になるまで続けられる。
やがてステップSP6において否定結犀が得られると、
統合手段22は次のステップSP7に移って、1つ前の
統合処理によって得られた文字信号の文字矩形領域の大
きさで文字信号の切E141〜を実行した後、ステップ
SP3に移って当該統合処理プログラムを終了する。
その結果統合手段22は、第10図ムこ示ずように、和
文文字列[な評判の・・・・・・量産化でき1に対応す
る基本矩形切出し文字信号S7について、各文字につい
て切り出された第O番目〜第22番目の基本矩形切出に
ついて、分離文字でなる和文文字「判]、「い−1、「
は」、「が−1、「化」以外の文字信号については、第
9図のステップSP2において肯定結果が得られる、−
とにより、直ちに当該文字信号を識別部23に送出する
のに対して、分離文字については、ステップ5PI−3
P5−3P6−3P4のループを経て、統合後の文字の
縦横比がほぼ1に近くなるまで統合処理を実行する。
これに対して英文文字列の場合には、第11図に示すよ
うに、和文文字における分離文字に相当するような縦横
比をもつものが多いが、実用上英文文字には分離文字が
ないと考えて良いので統合部18において、統合処理を
せずに、スイッチ回路21から直接識別部23に文字信
号を送出する。
(G6)切出しデータメモリ25 統合手段22における第9図の統合処理は、切出しデー
タメモリ25に格納されている基本矩形領域の長さデー
タDhW、切出し履歴データDhs、縦横比データDv
い切出し位置データD2s、大きさデータD!、を含ん
でなり、例えば第12図に示すようなフォーマットによ
って、1文字について3ワードのデータで構成されてい
る。
第12図のデータフォーマットにおいて、8ビットの第
1のデータ列DATAIは、基本矩形切出し手段16に
おいて切り出された基本矩形領域の文字幅Wの値を表す
データDうでなり、また8ビツトの第2のデータ列D 
A TA 2は基本矩形切出し手段16によって切り出
された基本矩形領域の高さhの値を表すデータD6でな
る。
また8ビツトの第3のデータ列り八1゛A3は、文字切
出し部11の原矩形切出し手段12、細切出し手段14
、基本矩形切出し手段16における切出し経過を3ビツ
トのフラグF L G l〜F L G3と、1ビツト
のフラグF L G 4とで表すデータでなる。
さらに8ビツトの第4のデータ列DATA4は、2ビツ
トの切出し位置データDpsと、2ビツトの縦横比デー
タDvl、と、2ビツトの縦相対比データD i Z 
V及び2ピツ1〜の横相対比データI)Szhとでなる
大きさデータD。で構成されている。
切出しデータメモリ25の文字幅データr)い&J、細
切出し手段14において、接触文字についての分離をし
た後の基本矩形領域の文字幅を表すデー夕をパラメータ
エンコーダ部30の縦横比/大きさ検出手段31によっ
て検出して得られ、これが第1のデータ列DATA1と
して切出しデータメモリ25に格納される。また基本矩
形領域の高さデータD、は、基本矩形切出し手段16に
おいてy方向の長さを再切出しされた後(第8図)、そ
の文字高さデータWy2が縦横比/大きさ検出手段31
によって検出されて得られ、これが切出しデータメモリ
25の第2のデータ列DATA2に格納される。
縦横比/大きさ検出手段31ば、これらの基本矩形長さ
データD8及びり、に基づいて、縦横比データDvhを
演算により求めて切出しデータメモリ25のデータ列D
ATA4に格納する。
これに加えて縦横比/大きさ検出手段31は、第13図
に示すように、検出された基本矩形長さW及びhを表ず
データD2及びDゎに基づいて、これを基準枠の縦及び
横寸法wR及びhア (それぞれ24ドツトでなる)と
比較し、その相対的比率を表す縦相対比データo、、v
 (=h/hl)及び横相対比データD、□ (=w/
wR)を算出して切出しデータメモリ25の第4のデー
タ列メモリエリアDATA4に格納する。
ここで縦相対比データI)、、v及び横相対比データD
 sxbを切出しデータメモリ25に格納するのは、次
の理由による。
すなわち和文文字の場合、縦横比が同一であるが、矩形
領域の文字高さ及び文字幅の異なる文字がある。例えば
「つ」及び「っ」、[あ]及び「あ」、「よ」及び「よ
」は、それぞれ縦横比は同一であるが、字の大きさが異
なる文字であり、これらは互いに異なる文字として切り
出す必要がある。そのため統合手段22は、小さい文字
を表す文字信号が到来したとき、これを1文字と判断す
る必要があり、このように統合手段22を制御するデー
タとして切出しデータメ干り25ば縦相対比データ■)
s□、及び横相対比データI)s□1を格納する。
また切出し7位置データD osは、基本矩形切出し手
段16が基本矩形領域を切り出した結果、第14図に示
すように、文字の位置が文字幅wR及び文字高さhRを
有する基準枠PRに対して上半分の範囲P□に存在して
いるか、又は下半分の範囲PIIDに存在しているかを
パラメータユンコーダ部30の位置決定手段32によっ
て検出し、当該位置データD□を切出しデータメモリ2
5の第4のデータ列メモリエリアDATA4に格納する
このような切出し位置データDpSを切出しデータメモ
リ25に格納するのは、基準枠P、lの一ト半分の範囲
PRI+に存在する文字として、「゛ 1、「0J、「
−」などがあり、これに対して下半分の範囲PIIDに
存在する文字として、「、]、「。」、「、」などがあ
るから、これらの文字を他の文字とは区別して分類し得
る。そこでこの分類に従って識別部23において専用の
認識アルゴリズムを用いて各文字の識別をなし得るよう
に、これらのデータを用いる。
(G7)履歴符号化手段35 以上の構成に加えて、切出しデータメモリ25の切出し
履歴データDいが、履歴符号化手段35において原矩形
切出し手段12、細切出1〜手段14、基本矩形切出し
手段16において文字信号が順次処理されて行くムこ従
ってj;tられるデー々に基づいて形成される。
履歴符号化手段35は、文字切出し部11が順次切出し
処理を実行して行く複数の処理ステップにおける処理結
果を、基本矩形切出し手段16から出力される基本矩形
切出し文字信号S7において切り出された各矩形領域番
こついて、イれぞれ論理レベル[11又は[0−1で表
されるフラグFLG1、FLG2、F L G 3、F
 L G 4でなる履歴符号を、各処理ステップに対応
さ」村ζ:I−F化する。
履歴符号化手段35における符号化は第15図に示す手
順で実行される。すなわち履歴符号化1段35は、原矩
形切出し手段12がス1/シボールドレベルTHO(=
0)を用いて文字列it 9 S 4を切り出したとき
、時間の経過に従つ゛ζ順次切り出されて行く原矩形S
QI、SQ2、SQ3.5Q4・・・・・・に対して、
第1段処理ステップS ”FE Plとして、順次交互
に異なる論理レベル「0」、「1」、「0」、「1」・
・・・・・を第1のフラグFLG1として割り当てる。
続いて履歴符号化手段35は、原沖形切出し手段12が
、スレシホールドレベルTHI  (=1)を用いて文
字列信号S4を切り出したとき、その切出結果について
順次交互に異なる論理レベルをもつフラグF L G 
2を割り当てる。この実施例の場合、原矩形切出し手段
12は、第2段処理ステップSTF、P2において、原
矩形SQIから2つの原矩形SQI I及びSQI 2
を切り出し、また原矩形SQ4から2つの原矩形SQ4
1及び5Q42を切り出ず。かくして時間の経過に従っ
て順次得られた全ての原矩形SQI I、5Q12.5
Q21、SQ31、SQ41、SQ42・・・・・・に
対して論理レベル「0」、「1」、rOJ、「1」、「
0」、「1」・・・・・・が割り当てられる。この割当
て動作の後、履歴符号化手段35は第2段処理ステップ
を終了する。
続いて履歴符号化手段35は、細切出し手段14が接触
文字について切出し処理を実行した結果切り出された矩
形領域について、順次交互に責なる論理レベルのフラグ
F L、 G 3を割り当てる。この実施例の場合、第
3段処理ステップ5TEP3においては、矩形領域SQ
21が2つの矩形領域SQ211及びSQ212に切り
出され、また矩形領域SQ41が2つの矩形領域5Q4
1]及びSQ412に切り出され、これら新たに切り出
された矩形領域を含んで順次続く矩形領域SQI 11
、SQI 21、SQ211、SQ、212.5Q31
1.5Q41.I、SQ412、SQ421・・・・・
・に対して、論理レベルFor、「1−1、「0」、「
1」、「0」、「1」、「0」、「−1」・・・・・・
が順次交互にフラグF L G 3として割り当てられ
る。
履歴符号化手段35は、これに加えて、基本矩形切出し
手段16が、基本矩形領域を切り出したか否かを表すフ
ラグF L C4を割り当てる。この実施例の場合、基
本矩形切出し手段16の切出し動作によって第8図(A
)について上述したような除去領域がある場合、論理「
1−ルベルが割り当てられ、これに対して除去領域がな
い場合、論理「0」レベルが割り当てられる。
かくして基本矩形切出し手段16の出力端に得られる基
本矩形切出し文字信号S7の順次続く基本矩形右頁域に
ついて、文字切出し2部11において第1〜第4段処理
ステップ5TEP 1〜5TEP4において順次切出し
処理されて行く間の履歴がフラグF I−G I、T?
 I−G 2、F L G 3、F I−G 4によっ
て表され、これが切出しデータメモリ25の第3のデー
タ列メモリエリアDATA3に各矩形領域ごとに格納さ
れることになる。
特に第1段〜第3段処理ステップ5TEPI〜5TEP
3については、最終的に得られた矩形領域SQL 11
、SQI 21.5Q211・・・・・・が、それ以前
の処理ステップにおいて得られた矩形領域SQL 1.
5Q12、SC21・・・・・・及びSQI、5IQ2
、SC2・・・・・・のどの矩形領域から切り出されて
来たものであるかをフラグFLG3、F L G2、F
 L G 1を順次見回して行くことにより確認するこ
とができる。
ずなわら第16図に示すように、矩形領域5Q111、
SQI 21.SC211・・・・・・の切出し履歴を
、順次フラグFLG3、F L G 2、l(” L 
c 1の順序でその論理レベルを確認して行くとき、互
いに隣り合う矩形領域の論理レベルが一致するものに到
達できれば、当該隣り合う矩形領域は、その一致した処
理スう−ツノ°では共通の矩形領域にあったものである
ことが分かる。
例えば矩形領域5Q111及びS Q、 121につい
てフラグFLG3、F I、G2、FL G 1を順次
見較べて行けば、フラグFL G 1において共に論理
[−〇」になっている。従ってこのことは、M?形領域
SQI l 1及びSQI 21が第1段処理ステップ
5TEP lにおいて同一・の矩形領域に含まれていた
ものが第2段処理ステツー)’ S T E P 2に
おいて2つに切り出されたものであることか分かる。
そしてその後第2段及び第2段処理ステップSTE l
) 2及びS i’ I?、P 3 (7)−7ラクド
I−G 2及びFL5G3が変化し7−こいないことか
ら、矩形領域5QI11及びSQI 21は第3段処理
ステップ5TEP3においては分離処理されていないこ
とが分かる。
同様にして順次続く他の矩形領域についてフラグの変化
をみれば、矩形領域SQ211及び5Q212は、第2
段処理ステップのフラグFLG2において共通の論理レ
ベルをもっているので、第3段処理ステップ5TEP3
において2つに切り出されたものであることが分かる。
また矩形領域SQ311は、隣り合う矩形領域SQ2]
、2及びSC211のいずれに対しても論理レベルが共
通になるフラグをもっていない。そこでこの矩形領域S
Q311は、第1段〜第3段処理ステップの全部の処理
ステップについて、切出し処理がなされなかったことが
分かる。
また矩形領域SQ4.11及びSC212は、フラグF
 L G 2において共通の論理レベルをもっており、
さらにこれに加えてフラグFLGIにおいてさらに矩形
領域5Q421とも共通の論理レベルをもっている。こ
のことから、矩形領域5Q411及びSC212は、第
3段処理ステップ5TEP3において2つに切り出され
たものであることが分かり、かつ切り出された元の矩形
領域は、第2段処理区う−ツブ5TEP2におい゛C3
矩形領域SQ421と共に同一のケli形領域SQ4か
ら切り出されたものであることが分かる。
さらに第4段処理ステップの処理結果を表ずフラグFL
G4と合わせ考えると、第3のデータ列メモリエリアL
) A TA 3に格納されている切出し履歴データI
)。は、文字切出し部11において切出し処理されて得
られた基本矩形切出し7文字信号S7に基づいて、後段
の処理装置において統合、識別、再切出しなどの処理を
する際に、最終的に切り出された矩形領域が元々どのH
j形領領域含まれていたものであるかを知ることができ
るごとにより、この切出し履歴データを参照して統合、
識別、再切出しの処理をすれば、これらの処理を合理的
かつ効率良く実行し得る。
すなわち統合手段22においCは、第9図にりいてL述
したように、各矩形Gn域について縦横比データD□を
用いて統合後の矩形領域の縦横比がほぼ1になるような
文字の統合処理を実行する。
(G8)識別部23 また識別部23は、第17図の処理手順に従って、順次
統合部18から送出されて来る矩形領域について、文字
を識別して行く。
識別部23は、切出しデータメモリ25に順次切り出さ
れて来る矩形領域についてのパラメータを表すデータが
格納されているので、これらのデータを用いて、できる
だけ効率良く文字の識別をなし得るように識別処理を実
行する。すなわち識別部23は、ステップ5P11にお
いて統合部18からのデータを入力し、次のステップ5
P12において位置による文字の分類が可能であるか否
かの判断をする。このステップ5P12における判断は
、切出しデータメモリ25の切出し位置データD□を用
いて実行される。その結果入力された文字が、基準枠p
H(第14図)の上半分の範囲P□又は下半分の範囲P
IInに入るものである場合には、識別部23は肯定結
果を得てステップ5P13に移る。
このステップ5P13は、上半分の範囲に存在する文字
「゛」、「”」、「−」、r” jなどと、下半分の範
囲に存在する文字[。−1、「、−1、「、」、「っ」
などとを第1特徴文字として、ト半分又は下半分の領域
にある文字の認識を実行するための専用の認識アルゴリ
ズムを実行する。
識別部23は、続くステップ5P14において第1の特
徴文字の認識ができたか否かの判断をし、肯定結果が得
られたとき、ステップ5P15に移って当該認識結果を
表す認識出力SIOを送出する。
かくしてステップ5P12において位Wcこよる分類が
可能であるとの判定結果が得られたときには、識別部2
3に入力された矩形領域の文字信号が第1特徴文字であ
ることを識別できていることから、ステップ5P13に
おける認識アルゴリズムは、当該第1特徴文字の認識に
最適の処理手順によって処理することができるように選
定して良いことになり、かくしてステップ5P13にお
ける認識アルゴリズムとしては、簡易なものを適用し得
る。
これに対してステップ5P12において否定結果が得ら
れたとき、及びステップ5P14において否定結果が得
られたとき、識別部23はステップ5P16に移る。か
かる判定結果が得られるのは、統合部18から出力され
た文字信号が、基準枠PR(第14図)の上半分の範囲
P、及び下半分の範囲PIIDの両方に跨っていること
を意味し、このとき識別部23は、ステップ5P13に
おける専用の認識アルゴリズムを利用できないと判断し
て次の認識ステップ5P16に移る。
このステップ5P16は、切出しデータメモリ25に格
納されている縦横比データDvh、縦相対比データD 
SZV及び横相対比データD−1を用いて、統合部18
から供給される文字データが、特定の大きさの文字を表
しているか否かを判定し、肯定結果が得られたときステ
ップ5P17に移る。
ここで縦横比h/wについての分類は、第1に、縦横比
h / wが O< −< 0.5        ・・・・・・(1
)のように、0〜0.5の範囲に入るか否か、また第2
に 1.5〈□        ・・・・・・(2)のよう
に、1.5より大きい範囲に入るか否かによって文字を
分類する。
(1)式によって分類される文字としては、例えば「−
」、「−」、「→」、[−−1、「〜−1、「−」など
がある。また(2)式によ−って分類される文字として
は、「:」、「;−1、「0−1〜「9」、「う」、「
<」、「ぐ−1、「■」、「ト−1、「ミ」、「β」、
「δ」、「f」、riJなどがある。
また縦相対比h/hllによる分類は、縦相対比h/h
、lが、 0<−−<0.5          ・・・・・・ 
(3)hえ の範囲に入るか否かによって分類される。この範囲に入
る文字としては、「鰭」、lc+++J、「。」、「っ
」、「ン」、「ハ」、「へ」、raJ、「e」、「C」
、rTJなどがある。
さらに横相対比W / W 、lの分類は、横相対比W
/Wいが Q < −< 0.5       ・・・・・・(4
)l に入る文字であるか否かによって分類される。この分類
に入る文字としては、「°」、1″」、「。」、「:」
、「;」、「0」〜r9j、rう」、「<」、「イ」、
raJ、rcJ、reJなどがある。
かくして識別部23は、ステップ5P17において第2
特徴文字の認識をした後、続くステップ5P18におい
て第2特徴文字を認識することができたか否かの判断を
し、肯定結果が得られたとき、ステップ5P15に移っ
て当該識別結果を表す認識出力SIOを送出する。
かくしてステップ5PI6において、文字の大きさによ
る分類が可能であるとの判定結果が得られたときには、
識別部23に入力された文字信号を、第2特徴文字を簡
易Gご認識し得る専用の認識アルゴリズムを用いること
ができることにより、迅速かつ簡易な文字認識をなし得
る。
これに対してステップ5PI6において否定結果が得ら
れたとき、及びステップ5P18において否定結果が得
られたとき、識別部23はステップ5P19に移って標
準アルゴリズムによる認識処理を実行する。この認識処
理は、統合部18から到来した文字信号が、認識可能な
全ての文字についてどの文字であるかを標準データと比
較することによって特定する処理を実行するもので、認
識処理ステップは比較的膨大なものになる。
識別部23は、続くステップ5P20において、標準ア
ルゴリズムで文字認識ができたか否かの判断をし、肯定
結果が得られたとき上述のステップSP15に移って当
該認識結果を表す認識出力S10を送出する。これに対
して否定結果が得られたときにはステップ5P21に移
る。
このステップ5P21は、識別部23が再切出し部40
(第1図)を用いて、文字信号の統合、又は分離をやり
直すステップで、この統合、又は分離は、切出しデータ
メモリ25の第3のデータ列メモリエリアDATA 3
に格納されている切出し履歴データD。を用いて実行さ
れる。
かくして識別部23は、ステップ5P21において再切
出し部40によって再切出し動作が終了したとき、上述
のステップ5P19に移って再度標準アルゴリズムによ
って文字認識処理を実行する。
ここでステップSP21における再切出し処理は、文字
切出し部11において切出し処理されたときの切出し履
歴を参照して処理されることにより、再切出し処理を合
理的に実行することができ、かくして文字認識装置全体
としての認識率を高めることができることになる。
(G9)実施例の動作 第1図及び第2図の文字認識装置において、原稿読取部
2のイメージ読取データS1は、文字列切出し部3にお
いて、原稿の各行に含まれる文字について、y投影手法
を用いて各文字列の高さに外接する文字列データS4に
変換され、この文字列データS4が文字切出し識別部7
に送出される。
文字切出し識別部7は、原矩形切出し手段12によって
、各文字列について、X投影処理をして得られる文字列
信号を、第1のスレシホールドレベルTHOと比較した
後、第2のスレシホールドレベルTHIにおいて比較し
、その比較データDT1及びDT2によって文字列信号
を切り出す。
この実施例の場合スレシホールドレベルTHOは、例え
ば分離文字と判断され易い和文文字について、1文字及
び1文字の構成部分を切り出すのに最適なように、十分
に低い値(THO−0)に選定されているのに対して、
第2のスレシホールドレベルT Hlは、分離文字を含
まない英文文字を切り出すのに最適な値(スレシボール
ドレベルTHOより大きい値)に選定されている。
このように原矩形切出し手段12によって複数段階例え
ば2段階の切出し処理をすることにより、和文文字及び
英文文字を、各切出し処理ステップにおいて、文字の特
徴を失わないように、文字の内部の特徴を顕在化するよ
うな小さい単位で切り出すことができることになり、統
合部18における統合処理などの後段の認識処理を高い
精度で実行し得る。
文字切出し部11は、細切出し手段14において、原卸
形切出し手段12から送出された原矩形文字信号S5に
含まれる各矩形領域について、その信号レベルが所定レ
ベル以下のX座標位置の近傍においζ、分離処理を実行
する。かくして文字間隔が狭い英文文字において、例え
ば文字輪郭のぼけの影響によって、2つの文字が接触し
ているかのようなイメージ読取データS1が得られた場
合に、これを確実に分離することができる。
これに続いて文字切出し部11は、基本矩形切出し手段
16において、細切出し手段14から1文字又は文字部
分ごとに切り出されて得られろtl[1切出し文字信号
S6についてy軸投影を行う、二とによって、各文字の
文字幅W及び文字高さhに夕(接する基本矩形領域を切
り出す。ごれC,二より文字列を切り出した際に混入さ
れた雑音を各文字ごとに有効に除去し得る。
このようにして原稿読取部2において和文文字及び英文
文字が混在する原稿を読み取ったとき、文字切出し部1
1は、和文文字及び英文文字それぞれがもっている固有
の特徴を失わlJないよ・)Qご、できるだけ小さい文
字部分を単位として、1つの文字の幅及び高さ、又は1
つの文字の部分の幅及び高さに外接する矩形領域を基本
矩形領域とし2で切り出すことができ、その結星得られ
る基本矩形切出し文字信号S7が統合部18に供給され
る。
−・方文字切出し部11においてl+[次実行される処
理ステップにおLJる処理結果は履歴符号化−1段35
と、パラメータエンコーダ部30を構成する縦横比/大
きさ検出手段31、位置決定1段32に与えられ、それ
ぞれ切出し順歴又はパラメータを表す切出しデータに変
換されて切出しデータメモリ25に送出され、かくして
切出しデータメモリ25に基本矩形切出し文字信号S7
の各文字に対応する長さデータDhW、切出し履歴デー
タDhi、縦横比データD□、切出し位置データDps
、大きさデータDsffiが格納され、これが統合部1
8における統合処理、識別部23における識別処理、再
切出し部40における統合、又は分離処理におけるパラ
メータデータとして利用される。
統合部18は文字切出し部11から順次送出される基本
矩形切出し文字信号S7の各矩形領域について、和文文
字が到来したとき、統合手段22において、必要に応じ
て矩形w4域の統合処理をした後、文字信号S8を識別
部23に送出する。これに対して英文文字が到来したと
きには、スイッチ回路21によって統合手段22を側路
して基本矩形切出し文字信号S8を識別部23に送出す
る。
かくして文字切出し部11においてできるだけ細部につ
いて切り出された文字信号が、和文文字として認識する
のに必要な文字幅を有する文字に統合されて識別部23
に送出され、その結果文字認識装置全体としての認識率
を一段と向上させることができる。
識別部23は、切出しデータメモリ25に格納されてい
る切出し処理時のデータを用いて、識別処理を実行する
。その際に、切出しデータメモリ25から得られるデー
タによって、到来し7た文字がもっている特徴に応じて
、到来する文字45号を分類して、各文字信号の特徴に
基づいて分類された文字を認識するための専用の認識ア
ルゴリズムを用いて認識処理を実行する。かくし2て識
別部23における認識効率及び認識率を−・段と同士さ
せることができる。
このよらな処理を実行しても、識別がζきなかった場合
は、切出しデータメモリ25のデータを用いて再切出し
2部40において統合部18から送出される文字信号を
再度統合、又は分離処理をすることによって各文字の再
切出し、を実行し、当該再切出し後の文字信号によ・つ
て識別部234こおいて再度識別動イ1を実行さ(!イ
′、。
ここで再切出し部40の動作は、切出しデータメモリ2
5の出力データ(従って文字切出し部11において実行
された切出し処理の内容)を参照しながら、再切出し処
理を実行するようにしたことにより、合理的、かつ認識
率の高い文字認識を識別部23において行うことができ
る。
(GIO)実施例の効果 上述の実施例のように構成すれば、第1に、文字切出し
部11において、切出し処理された文字信号の切出し履
歴データを、切出しデータメモリ25に格納しておくよ
うにしたことにより、和文モードで文字の認識をする場
合に、統合部18における統合処理を過去の処理経過に
基づいて合理的に実行し得る。かくして認識部23にお
りる文字の認識効率及び認識率を=一段と向」二させる
ことができる。
かくするにつき、文字切出し部11の切出し履歴を表す
データとして、履歴符号化手段35において、各切出し
処理ステップにおいて、切出されたyrj形領域の内、
順次隣り合う矩形領域ζこ対し2て論理レベル「0−1
及び「1」を順次交互に割り当てて行くようにするだけ
の比較的簡易な手法によ−って、切出し覇歴を確実に把
握し得るような履歴符号化を容易に実現し得る。
また上述の実施例のように、文字切出し部11の原矩形
切出し手段12によって、文字列信号S4に対するスレ
ーシホールドレベルと1,2て複数の信号レベルを設定
すること乙こより、粗さの異なる複数の切出し処理を実
行し7得る。従って和文文字及び英文文字が混在してい
るような多様な文字列に対応する文字列信号S4が到来
した場合に、当該多様性に対応して多様な切出し粗さで
文字の切出しをし得、かくして各文字の認識率を格段的
すこ向上さセることができる。
さらに−上述の実施例によれば、文字切出し部11の細
切出し手段14において、文字信号の極小値の位置を検
出すると共に、当該極小値位置を近傍において、黒いド
ツトの関係を調べることによって、細切出しを実行する
よう乙こU7たことにより、接触文字を確実に切出すこ
とができ、かくして文字の認識効率及び認識率を格段的
に高めることができる。
(Gll)他の実施例 なお上述においては、原稿読取部2において、和文文字
及び英文文字が混在した横書の印刷文字を認識する場合
に適用した実施例として述べたが、縦書文字を認識する
場合にも同様にして本発明を適用し得る。
また上述においては、本発明を切出しデータメモリ25
のデータを用いて、文字切出し部11の出力端に得られ
る基本矩形切出し文字信号S7を統合、識別、再切出し
する場合に適用した場合について述べたが、その他の処
理が必要な場合には、その必要に応じて切出しデータメ
モリ25に格納されている切出しデータを利用するよう
にしても良い。
また上述の実施例の場合は、原矩形切出し手段12にお
いて異なる複数のスレシホールドレベルで文字列信号S
4を切り出す際に、切出しIIIさが粗い矩形領域から
細かい矩形領域への順番で順次文字信号の切出しをする
ようにしたが、これに代え、文字列信号S4を繰返し切
り出すようにしても同様の効果を得ることができる。
■発明の効果 矩形切出し手段12に関連して」−述したように本発明
によれば、文字列信号から1文字又は1文字の構成部分
に外接する矩形領域を切り出す際に、異なるレベルの複
数のスレシホールドレベルを設定し、当該複数のスレシ
ホールドレベルで文字15号を切り出すようにしたこと
により、1つの文字に対して粗い切出し方による切出し
文字信■と、細かい切出し方による切出し文字信号とを
形成することができることにより、文字認識処理時に、
統合、分離処理する前に、文字内部の特徴に基づく分類
データを得ることができる。
従って異なる種類の文字が混在している多様な文字列の
認識効率及び認識率を、従来の場合と比較して格段的に
高めることができる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の要部を構成する文
字切出し識別部の詳細構成を示すブロック図、第2図は
本発明による文字認識装置の一実施例を示すブロック図
、第3図及び第4図は、イメージ読取データから文字列
を切り出す際の処理及び信号を示す路線図及び信号波形
図、第5図は原矩形切出し手段12における切出し動作
の説明に供する信号波形図、第6図及び第7図は細切出
し手段14における接触文字の分離処理の説明に供する
路線図、第8図は基本矩形切出し手段16の切出し処理
の説明に供する路線図、第9図は統合手段22における
和文文字の統合処理手順を示すフローチャート、第10
図及び第11図は和文文字及び英文文字について切り出
された文字矩形領域の配列を示す路線図、第12図は切
出しデータメモリ25の格納データを示す路線図、第1
3図は縦相対比データ及び横相対比データの説明に供す
る路線図、第14図は切出し位置データの説明に供する
路線図、第15図及び第16図は切出し履歴データの説
明に供する路線図及び図表、第17図は識別部23の識
別処理手順を示すフローチャートである。 1・・・・・・文字認識装置、2・・・・・・原稿読取
部、3・・・・・・文字列切出し部、7・・・・・・文
字切出し識別部、11・・・・・・文字切出し部、12
・・・・・・原矩形切出し手段、14・・・・・・細切
出し手段、16・・・・・・基本矩形切出し手段、18
・・・・・・統合部、23・・・・・・識別部、25・
・・・・・切出しデータメモリ、30・・・・・・パラ
メータエンコーダ部、35・・・・・・履歴符号化手段
、40・・・・・・再切出し部。

Claims (1)

  1. 【特許請求の範囲】 文字列信号の信号レベルを、順次信号レベルが異なる複
    数のスレシホールドレベルとそれぞれ比較することによ
    り、切出し粗さが異なる矩形領域を切り出す文字切出し
    部と、 上記複数のスレシホールドレベルによつて切り出された
    矩形領域について切出し履歴を表す切出し履歴データを
    形成する手段と、 を具え、上記切出し履歴データを用いて文字認識をする
    ことを特徴とする文字認識装置。
JP60213757A 1985-09-27 1985-09-27 文字認識装置 Pending JPS6274183A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60213757A JPS6274183A (ja) 1985-09-27 1985-09-27 文字認識装置
NL8602456A NL8602456A (nl) 1985-09-27 1986-09-29 Stelsel voor karakterherkenning.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60213757A JPS6274183A (ja) 1985-09-27 1985-09-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPS6274183A true JPS6274183A (ja) 1987-04-04

Family

ID=16644522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60213757A Pending JPS6274183A (ja) 1985-09-27 1985-09-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPS6274183A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146608A (ja) * 2006-12-13 2008-06-26 Canon Inc 画像処理装置及びその方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146608A (ja) * 2006-12-13 2008-06-26 Canon Inc 画像処理装置及びその方法

Similar Documents

Publication Publication Date Title
JPS6274181A (ja) 文字認識装置
JPH01292486A (ja) 文字認識装置及び方法
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
JP4049560B2 (ja) 網点除去方法及びシステム
JPS6274183A (ja) 文字認識装置
JPS6274184A (ja) 文字認識装置
JPH0410087A (ja) 基本ライン抽出方法
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
JPS6274182A (ja) 文字認識装置
JP3854434B2 (ja) 図形表示装置及び方法、並びに図形表示プログラムを格納した記憶媒体
JP2565150B2 (ja) 文字切り出し方法
JP2968284B2 (ja) 文字認識装置およびその文字領域分離方法
JPH0713996A (ja) 文字認識装置
JPS61190679A (ja) 文字デ−タ処理装置
JP2570415B2 (ja) 文字切り出し方法
CA1280513C (en) Character recognition system
JPH10162104A (ja) 文字認識装置
JPH05282493A (ja) 英文字認識装置
JPH0713994A (ja) 文字認識装置
JP2003256769A (ja) 数式認識装置および数式認識方法
JP2890507B2 (ja) 文字領域と図形領域の分離装置
JP2000339408A (ja) 文字切り出し装置
JPH08123902A (ja) 文字切り出し装置
JPH09297817A (ja) 文字切り出し方法
JPH05108882A (ja) 文字認識装置