JPS6274181A

JPS6274181A - 文字認識装置

Info

Publication number: JPS6274181A
Application number: JP60213755A
Authority: JP
Inventors: Keiko Abe; 阿部　惠子
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1985-09-27
Filing date: 1985-09-27
Publication date: 1987-04-04
Also published as: FR2588104B1; GB2182796B; US4850025A; CA1273110A; KR870003439A; GB2208736B; GB8824148D0; CN1008022B; CN86107537A; DE3632832A1; GB2182796A; GB2208735A; GB8623049D0; GB2208736A; GB8824149D0; FR2588104A1; GB2208735B

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

以下の順序で本発明を説明する。Ａ産業上の利用分野Ｂ発明の概要Ｃ従来の技術り発明が解決しようとする問題点Ｅ問題点を解決するための手段（第１図及び第１２図）Ｆ作用（第１図及び第１２１閾）Ｇ実施例（Ｇ１）文字認識装置１の全体構成（第２図、第３図、
第４図）（Ｇ２）原矩形切出し手段１２　（第１図、第５図）（
Ｇ３）細切出し手段１４（第１図、第６図、第７図）（Ｇ４）基本矩形切出し手段１６（第１図、第８図）（
Ｇ５）統合部１８（第１図、第９図、第１０図、第１１
図）（Ｇ６）切出しデータメモリ２５　（第１図、第８図、
第１２図、第１３図、第１４図）（Ｇ７）履歴符号化手段（第１図、第１５図、第１６図
）（Ｇ８）識別部２３（第１図、第１７図）（Ｇ９）実施
例の動作（ＧＩＯ）実施例の効果（Ｇｌｌ）他の実施例Ｈ発明の効果Ａ産業上の利用分野本発明は文字認識装置に関し、例えば和文文字及び英文
文字のように異種の文字が混在してなる印刷文書の文字
を認識する場合に適用して好適なものである。Ｂ発明の概要本発明は、原稿読取部から得られるイメージ読取データ
の各文字を認識する文字認識装置において、文字列信号
から文字を切出し処理する際に得られる切出しデータを
切出しデータメモリに格納し、当該格納データを参照し
２て文字識別処理を実行し得るようにすることにより、
複数種類の文字が混在する文字列についての認識率を向
上さゼることができる。Ｃ従来の技術例えば横書の和文文字（漢字、かな文字などをいう）を
含んでなる印刷文ψ；の文字列から各文字を認識する場
合、和文文字特有の問題として、分離文字を正確に認識
する必要がある。すなわち従来横書文字列の各文字を認識するには、先ず
本文文字列から各文字を１文字ずつ切り出す処理をした
後、各文字の特徴を基準文字の特徴と比較して認識する
手法が用いられるが、和文文字は、１文字の構成部分が
幅方向又は、高さ方向に連続している文字ばかりではな
く、１文字の構成部分が不連続に分離しているいわゆる
分離文字（例えば、「川」、「い」など）があるため、
この分離文字を正確に切り出すことが困難であった。Ｄ発明が解決しようとする問題点すなわち和文文字については、幅方向に見て連続する図
形部分（すなわち文字部分）を単位にして文字信号を切
り出したとき、切り出された各信号部分を全て１文字で
あると認識することはできず、例えば漢字文字「川」は
、３つの文字構成部分に切り出され、またひらがな文字
「い」は２つの文字構成部分に切り出される。これに対してアルファベット文字、ギリシャ文字、数字
文字などでなる文字（これを英文文字と呼ぶ）は、実用
ト、１図形１文字を前提条件として文字信号を切り出す
ことができる。しかし、英交叉字列の場合は、各語間以
外は文字間隔が比較的狭いために、原稿読取部から出力
されるイメージ読取データに基づいて和文文字と同様の
手法で読み取ることができるとは限らず、例えば、隣合
う２つの文字が互いに接触しているように読み取る（こ
れを接触文字と呼ぶ）おそれがあり、これを正確に分離
して切り出すことができるようにする必要がある。このような問題点があるため、従来は、字体に不揃いが
ない印刷文書であっても、和文文字及び英文文字が混在
している場合には、各文字を正しく切り出すことは困難
であった。これに加えて従来の文字認識方法においては、「文字の
切出し」ステップと、１文字の認識１ステツプとはそれ
ぞれ独立した処理ステップであると考えられており、文
字切出し部において一旦文字の切出しをした後、文字認
識部にデータが引き渡された後は、たとえ分離文字の切
出しが誤ったために文字認識部において正しい文字の認
識ができなかった場合にも、文字認識部において当該文
字について認識不能であるとして処理する手法が採用さ
れており、このことが文字認識部の認識率の低下の原因
の１つになっていた。本発明は以北の点を考慮してなされたもので、文字の切
出しステップにおける文字の切出しを、できるだけ小さ
い文字構成部分を単位にしてなし得るようにした場合に
、切り出された文字信号についての統合、識別、再切出
しなどの文字認識処理を、切出し処理時のデータに基づ
いて合理的、かつ正確に行い得るようにすることにより
、文字の認識率を高めることができるようにした文字認
識装置を提案しようとするものである。Ｅ問題点を解決するための手段かかる問題点を解決するため本発明においては、文字列
信号Ｓ４を１文字又は１文字の構成部分に外接する矩形
領域で切り出して切出し文字信号Ｓ７を送出する文字切
出し部１１と、この文字切出し部１１における複数の切
出し処理ステップＳＴＦ、Ｐ１〜５ＴＥＰ４の処理結果
を表す切出しデー夕を格納する切出しデータメモリ２５
とを具え、文字切出し部１１の後段に設けられた文字識
別処理部（統合部１８、識別部２３、再切出し部４０な
ど）において、切出しデータメモリ２５の切出しデータ
を用いて文字認識処理するようにする。Ｆ作用和文文字のように、イメージ読取データｓ１において、
１文字を構成する文字構成部分が、分離文字として読み
取られて来るようなおそれがある文字列の場合には、最
も小さい文字構成部分に外接する矩形領域で文字列信号
を切り出すために、各文字の種類に適合する複数の切出
し処理ステップ５ＴＥＰＩ　〜５ＴＥＰ４を文字切出し
部１１において実行する。、ｊ７）？ｌの切出し処理ステップ５ＴＥＰＩ〜ＳＴ　
Ｅ　Ｐ　４の処理結果は、切出しデータメモリ２５に格
納され、文字切出し部１１の後段に設けられた文字識別
処理部において切出し文字信号ｓ７の文字認識処理を実
行する際に参照される。かくして文字認識処理の際に、切出し処理された履歴を
表す切出しデータを参照することができることにより、
文字の構成部分についての矩形領域を統合、識別、再切
出し等の処理を、合理的かつ効率良く行うことができる
。Ｇ実施例以下図面について、本発明の一実施例を詳述する。（Ｇ１）文字認識装置の全体構成第２図におい−ζ、１は全体として文字認識装置を示し
、原稿読取部２において得られたイメージ読取データＳ
１を、文字列切出し部３に供給する。文字列切出し部３は、１ペ一ジ分のイメージ続出データ
Ｓ１を第１段前処理部４に受け、雑音を除去すると共に
文書の回転補正をした後、イメージデータＳ２として第
２段前処理部５に供給する。第２段前処理部５は、文書のうち、文字領域を、その他
の領域（写真、図面等の領域）から区分けして、文字領
域に含まれるイメージデータだけを抽出する。そして第
２段前処理部５ば、当該抽出された文字領域に含まれる
文字列が横書であることを検出した後、文字列の抽出を
する。この文字列の抽出は、第３Ｍに示すように、文字領域Ａ
Ｒの各ドツトの位置を、列方向（水平方向）にとったＸ
軸と、行方向（垂直方向）にとったｙ軸とでなるｘｙ座
標で表ずようにし、文字領域ＡＲを構成する文字列ＡＰ
Ｉ、Ａ　Ｒ２・・・・・・に含まれる論理］−１Ｊレベ
ルのドツト（黒いドツトを表す）の和の値をｙ軸上に投
影して（ｙ投影と呼ぶ）、第４図（Ａ）に示すようなｙ
投影信号３ｙを得る。ここでｙ投影信号ｓｙの信号レベ
ルは、文字列相互間の位置では黒いドツトの１・−タル
情報がないことから［−０ルベルにあるのに刑して、文
字列ＡＲＩ、ＡＲ２・・・・・・に対応するｙ軸重の位
置では、黒いドツトの数に対応する信号レベルになる。従ってｙ投影信号ｓｙを所定のスレシボールドレベルと
ＪｔＭし、当８亥スレシホーＪし］゛レベル以−トの区
間の間論理［−１」レベルに立ち十がる文字列切出しデ
ータＣＬ（第４図（Ｂ））を得る。かくして文字列切出しデータＣＬの論理「１」レベルの
区間によって、文字領域ＡＲのうちの文字列ＡＲＩ、Ａ
Ｒ２・・・・・・の領域を表すことができ、第２段前処
理部５は、この文字列切出しデータＣＬを用いてイメー
ジデータＳ２のうち、文字列切出しデータＣＬが論理「
１」レベルにある垂直走査区間に相当するイメージデー
タでなる文字列抽出信号Ｓ３を第３段前処理部６に送出
する。第３段前処理部６は、文字列抽出信号Ｓ３について回転
があれば、これを微調整して文字列信号Ｓ４として文字
切出し識別部７に送出する。か（して文字列切出し部３は、原稿読取部２から供給さ
れたイメージ読取データＳ１のうち、各文字列を構成す
るデータ部分だけを文字列信号Ｓ４として文字切出し識
別部７に送出する。文字切出し識別部７は、各文字列を構成する文字を１文
字ずつ切り出してその特徴を認識するもので、第１図の
構成のものを適用し得る。（Ｇ２）原矩形切出し手段１２すなわち文字列信号８４は、文字切出し部１１の原矩形
切出し手段１２に供給される。原矩形切出し手段１２は
、文字列信号Ｓ４のうち、各文字列領域ＡＲＩ、ＡＲ２
・・・・・・に相当するデータ部分について、黒いｌツ
トが存在する水平方向の領域をＸ軸上に投影して黒いド
ツトの］・−タル数に信号レベルの文字信号を得ること
により、各文字又は文字の構成部分の幅に外接する高さ
方向くｙ軸方向）の線によって囲まれるｊ１４形領域（
これを原矩形領域と呼ふ）を切り出すことにより、１文
字又は１文字の構成部分が存在する水平力向の区間を判
定して、対応する文字４ｇ号部分を切り出゛４゜例えば
第５図（Ａ）６；ｒ示ずように、第ｎ列目の文字列領域
Ａ　ＲＮについて、文字列、ずなわち・・・・・・［−
適−１−ｆ’Ｌ、Ｊ　−ｒて」−「い」−「る」・・・
・・・を内容とする文字列信号Ｓ４が到来したとき、原
矩形切出し手段１２は、文字列信号Ｓ４をｈ−いに値を
異にする複数例えば２つのスレシホー月利・レベルＴＨ
Ｏ（第５図（Ｒ１））　、′ｒ■（ｌ　　（第５図（Ｃ
Ｉ））と順次比較して、それぞれ各文字又は文字の構成
部分に外接する文字矩形領域を順次形成し、各文字矩形
領域の文字信号を順次切り出す。ここで、スレシホールドレベルＴＨＯ及びＴＨｌの数及
び信号レベルは、異種の文字が混在している印刷文書に
おいて用いられている多様な文字パターンを各文字パタ
ーンの特徴を失わないように切り出して矩形領域を得る
ことができるような値に予め選定される。この実施例の場合、和文文字及び英文文字が混在する印
刷文書を認識するため、原矩形切出し手段１２は、第１
のスレシホールドレベルとしてＴＨＯ（−〇）に設定さ
れ、かつ第２のスレシホールドレベルとしてＴＨＩ　　
（＝１）に設定される。スレシホールドレベル０及び１は、２４Ｘ２４ドツトの
基準枠内において、高さ方向のトータルドツト数が０個
及び１個であるときの信号レベルを表す。ところで、文字列信号の文字信号部分を低いスレシホー
ルドレベルＴＨＯで切り出せば、このことは粗い尺度で
文字矩形領域を切り出す結果を得ることができることに
なる（これを粗い切出しと呼ぶ）。またスレシホールド
レベル１で切り出せば、このことは細かい尺度で文字矩
形領域を切り出す結果を得ることができることになる（
これを細かい切出しと呼ぶ）。このような結果になるのは次の理由による。投影法によ
って得た文字列信号に含まれる文字信号部分の信号レベ
ルは一般に、文字又は文字構成部分の中央部から外方に
行くに従ってＯレベルに低下して行くような信号波形（
いわゆる裾をひくような波形）をもっている。従って高
いスレシホールドレベルＴＨＩ（＝１）で切り出し７た
矩形領域の文字幅は、低いスレシホールドレベル１”１
（Ｏ（−〇）で切り出した矩形領域の文字幅より狭くな
る。そこで高いスレシホールドレベルを用いた細かい切
出し処理によって切り出された文字信号部分は、低いス
レシホールドレベルを用いた粗い切出し処理によって切
り出された文字信号部分に対して、その内部のパターン
の特徴（すなわち黒いドツトの分布）を表していること
になる。このように、細かい切出し処理によって切り出された第
１の文字信号は、相い切出し処理によって切り出された
第２の文字信号の内部に含まれている特徴を顕在化する
ように表している。従って切出し粗さが細かい第２の文
字信号に基づいて文字の認識ができなかったとき、切出
し粗さが粗い第１の文字信号に戻って文字認識処理をす
ることによって文字の認識ができる可能性があり、かく
して多様な文字の認識をする場合、異なる信号レベルを
もつスレシボールドレベルＴＨＯ及びＴＨｌによって順
次切出し処理をしたとき、矩形領域が順次分離して行く
履歴（これを切出し履歴と呼ぶ）は、文字を正確に認識
するための有効な手段となる。例えば、和文文字列は１字ずつかなり広い間隔で配列さ
れていると共に、１文字の中に文字構成部分が分離して
いるようなものもある特徴をもつ。従って実用上、和文文字は、スレシホールドレベルＴＨ
Ｏ（＝Ｏ）で文字信号を切り出せば、１文字又は１文字
の文字部分に外接する第１の矩形領域を切り出すことが
できることになる。そしζ続いてスレシホールドレベル
ＴＨ１（＝　１）　テ文字信号を切り出せば、１文字又
は１文字の文字構成部分の内部の黒いドラｊ・の分イｊ
ｏ）特徴を表す第２の矩形領域を切り出すことができる
ことになる。従って和文文字の場合、２−っのスレシボ−月Ｎ−”レ
ベルで切り出されて来る矩形領域及びその履歴は、文字
の黒いドツトの分布の特徴を失っていないので、第１又
は第２の矩形領域によって切り出した文字信号によって
文字認識ができることになる。また、英文文字列は、各語間の間隔はがなり広いが、各
語内の文字は間隔が狭く詰るように配列されζいる。従
って実用−ヒ、英文文字は、スレシホールドレベル’］
”ｌｏ（＝０）で文字１３号を切り出すと、１文字を切
り出すことができる場合と、隣り合う文字間隔が狭いた
めに切り出し得ない場合が生じ得る。そこで続いてスレ
シホールドレベルＴＨＩ　　（＝１）で文字信号を切り
出すと、第１段目の処理では１文字として切り出し、得
ながった文字が、第２段目の処理で切り出すことができ
る場合が生じる。この場合、すでに第１段目の処理で切
り出すことができた文字の内部の特徴は、第２段目に切
り出された文字信号においても失われることはないので
、当該第２段目の文字信号によって文字を認識すること
ができると言い得る。かくして文字列信号ｓ４の信号レベルがスレシホールド
レベルＴＨＩ　　（＝１）を越えたとき、第５図（Ｃ２
）に示すように論理「１」レベルとなる第２の原矩形切
出しデータＤＴ２を発生し、この第２の原矩形切出しデ
ータＤＴ２を用いて、その信号レベルがｒｌＪの区間に
相当する文字列信号Ｓ４を、原矩形文字信号ｓ５として
送出する。その結果和文文字の切出しと、英文文字の切出しとを、
それぞれ最適な条件の下で切り出すことができる。このようにして原矩形切出し手段１２は、分離文字では
ない和文文字について１文字ごとにそのＸ方向の各文字
領域に対応する文字列信号ｓ４を切り出すことができ、
これに対して分離文字の場合は、各文字構成部分ごとに
そのＸ方向の文字領域を単位として文字列信号ｓ４を切
り出すことができる。これに加えて英文文字の場合、原
矩形切出し手段１２は、各文字が接触していなければ、
各文字のＸ方向の文字領域を単位としζ、文字列信号Ｓ
４を切り出すことができる。（Ｇ３）細切出し手段１４原矩形文字信号ｓ５は、細切出しＪ″段１４に（Ｊｔ給
される。この細切出し手段１４は、特に英文文字につい
て、接触文字が含まれζいる場合に、これらの接触文字
を、正しく２つの文字に分離し°Ｃ切り出すことができ
るようにし２ようとするものである。すなわち英文文字は、隣合う文字が接近しているために
、第６図（Ａ）に示すように、２つの文字例えば［ｆｌ
及びｌ’　ｏ　Ｊが原稿読取部２によ−って読み取られ
てイメージ読取データｓ１として送出されたとき、各文
字を表ず黒いドラ１−が同し・Ｘ座標位置で重なり合う
場合が生じ得る。この場合Ｘ投影して得られる原矩形文
字信号Ｓ５には、文字ｒｆＪ及び「０」間におい”ζ信
号レベルが０になる区間がなく、これを分離しなければ
、２つの文字ｒｆＪ及び「０」が連続した１つの文字と
して切り出されてしまう結果になる。かかる問題を解決するため、細切出し手段１４は、原矩
形文字信号Ｓ５（第６図（Ｂ））のうち、原矩形切出し
手段１２において一応１つの文字であるとして切り出さ
れて来た原矩形文字信号Ｓ５について、これが極小値と
なる点及びその周辺の点（これを極小部と呼ぶ）のＸ軸
方向の座標ｘ０を求め、続いて第７図に示すように当該
極小点の座標の両隣りの座標、すなわちＸ（−１１及び
Ｘ　（＋１１における縦方向（すなわちｙ方向）につい
ての黒いドツトの連続性を調べる。すなわち第７図（Ａ）に示すように、縦方向に黒いドツ
トが連続していれば、１つの矩形領域であると判定し、
これに対して第７図（Ｂ）に示すように、縦方向に黒い
ドツトが不連続であれば、２つの矩形領域に分離すべき
であると判定する。先ず第６図（Ａ）において原矩形文字信号Ｓ５の信号レ
ベルが極小点にあるＸ座標は、ｘ−ｘ。でその信号レベルは５５−４である。これに対して両隣
りのＸ座標Ｘ　＝　Ｘ　ｆ−Ｎ及びＸ　−Ｘ　（＋Ｉ＋
の信号レベルば５５−５及びＳ５・−８である。従って
この２・つの文字は、第５図（Ｃ１）及び（Ｃ２）につ
いて−■−述した原矩形切出し手段１２における判断に
おいては、それぞれスレシホールドレベルＴＨＯ及びＴ
ＨＩより高い信号レベルにあるので、１つの文字として
切り出されている。ところで、第６図（Ａ）において、原矩形文字信号Ｓ５
の信号レベルが極小点になるＸ座標の位置ｘ−ｘｏ及び
その両隣の位３　Ｘ　＝　Ｘ　＋−＋ｉ及びＸ−Ｘ　＋
、１１について、黒いドツトの縦方向における連続性を
調べると、原矩形文字信号Ｓ５の極小信号レベルは、文
字「ｆ−１の右端部について生じており、Ｘ−Ｘ。及び
Ｘ＝ＸＴ−１１の位置についての黒いドツトの連続性は
、文字ｒｆＪを構成する部分についてだけ縦方向に連続
的であり、文字［０」についての黒いドツトは存在しな
い。ｌトだＸ−Ｘ（。１．の位置については、左側の文
字ｒｆＪのドラＩ−が連続していると共に、下方に離れ
た位置に右側の文字ｒｏＪを構成する黒いドツトがあり
、両者の間は不連続的である。そこでＸ−Ｘ　６−、　
Ｘ−Ｘ（−１いｘ−ｘ（＋Ｉ、の座標について、縦方向
の連続性を総合的に判断すれば、左側の文字「ｆ」と、
右側の文字ｒｏＪとの間には、ｘ＝ｘ（。、）の位置で
不連続の部分があると判断することができる。従って細切出し手段１４は、原矩形文字信号Ｓ５を、ｘ
＝ｘ（。Ｉ、の位置で２つの文字ｒｆｊ及び「０」に分
離して細切出し文字信号Ｓ６として基本矩形切出し手段
１６に送出する。かくして細切出し手段１４によれば、文字列信号Ｓ４を
所定のスレシホールドレベルＴＨＯ，ＴＨ１によって切
り出して送出されて来た文字信号Ｓ５の中に、接触文字
が含まれていた場合には、これを適切に２つの文字に分
離するように切り出すことができる。因に、原稿読取部２　（第１図）において用いられるイ
メージリーダは、一般に変調伝送関数（ｎｅ。ｄｕｌａｔｉｏｎ　ｔｒａｎｓｆｅｒ　ｆｕｎｃｔｉｏ
ｎ＞の影響により、文字の輪郭がぼけるおそれがあり、
かかるぼけが発生した場合には、英文の場合のように文
字間隔が狭い文字列においては、隣合う文字が互いに接
触しているように読み取られ、かくして接触文字が文字
列に混入するおそれがある。このような場合、接触文字
の接触部分は、原矩形切出し１段１２においてＸ投影処
理をして得られる原矩形文字信号Ｓ５の信号レベルが、
極小値を存することになる。かくして細切出し手段１４によってこれらの接触文字を
２つの文字に分離するように切り出すことができる。ところがこのようにすると、和文文字の場合、分離文字
でないものまでが細切出し手段１４によって分離されて
しまうおそれがある。漢字の中には、文字部分相互間の
関係が接触文字に類似するようなものがあるからである
。この問題に対して第１図の実施例の場合は、和文文字
が分離された場合には、後段の識別部によって文字の認
識をずる前に、統合手段によって所定の条件の下に統合
するようになされている。この実施例の場合、原矩形文字信号Ｓ５の極小点の座標
を判断するために、所定のスレシボールドレベルが設定
され、当該スレシホールドレベル以下の信号レベルをも
つＸ座標の位置を極小部であると判断するようになされ
ている。このようにして細切出し手段１４において得られた文字
信号は、細切出し文字信号Ｓ６として基本矩形切出し手
段１６に与えられる。（Ｇ４）基本矩形切出し手段１６基本矩形切出し手段１６は、細切出し文字信号Ｓ６によ
って表された各文字又は文字構成部分について、垂直方
向に雑音が混入しているときこれを除去して当該文字又
は文字構成部分の上下端に外接するＸ方向の線によって
文字高さについての切出し処理をするもので、細切出し
文字信号Ｓ６の各文字又は文字構成部分について、第８
図（Ａ）に示すように、ｙ投影処理を実行する。その結
果得られるｙ投影信号１）Ｒｙは、垂直方向の各位置（
すなわちｙ軸方向の各座標位置）における水平方向の走
査線上にある！・−タルドツト数に相当する信号レベル
をもつことになる。ここで基本矩形切出し手段１６は、ｙ投影信号ＰＲ，に
対するスレシボールドレベルを、文字幅ＷＸに対して所
定の比率の１３号

【・・ヘル（例えば文字幅ＷＸに相当
する信号レベルに対して、１／２の信号レベル）に設定
し、当該スレシボールドレ・＼ル以下のｙ投影信号の部
分を雑音であると判定して除去する。この結果基本矩形切出し手段１６は、第８図（Ｂ）に示
すように、雑音と判定した白いドツト領域及び黒いドツ
ト領域を除去することにより、ｙ軸方向の幅すなわち文
字高さをＷ□（第８１’Ｊ（Ａ））からＷｙ２（第８図
（Ｂ））に修正する。かくして、基本矩形切出し手段１
６は文字幅Ｗ８及び文字高さＷｙ２でなる矩形文字領域
を基本矩形領域として含んでなる基本矩形切出し文字信
号Ｓ７を送出する。このようにして文字切出し部１１は、文字列信号Ｓ４に
含まれている各文字又は文字構成部分に外接する基本矩
形領域によって切り出された文字信号を順次配列してな
る基本矩形切出し文字信号Ｓ７を得ることができ、これ
を後段に設けられた文字認識処理部（統合部１８、識別
部２３、再切出し部４０でなる）の統合部１８に供給す
る。（Ｇ５）統合部１８統合部１８は、和英判定手段２０において、現在識別さ
れている文字が和文文字であるとき、スイッチ回路２１
を和文文字側接点ＳＷＩ側に切換え制御し、これにより
基本矩形切出し文字信号Ｓ７を接点ＳＷ１を通じて統合
手段２２に供給し、その統合出力を統合部１８の出力Ｓ
８として識別部２３に供給するようになされている。これに対して和英判定手段２０が現在識別している文字
が英文文字であると判断したとき、スイッチ回路２１を
英文文字側接点ＳＷ２に切換え制御することによって、
基本矩形切出し文字信号５７を接点ＳＷ２を通じて直接
続合部１８の出力Ｓ８として識別部２３に送出する。和英判定手段２０は、識別部２３から現在識別されてい
る文字が和文文字であるか、英文文字であるかを表示す
る和英識別信号ＤＴＥを受けて、現在識別されている文
字の種別に対応する切換制御信号をスイッチ回路２１に
供給する。統合手段２２ば、一般に和文文字の場合、垂直方向の文
字高さに対する水平方向の文字幅の比率（これを縦横比
と呼ぶ）はほぼ１に近似できるという事実に基づいて、
基本矩形切出し文字信号Ｓ７の各矩形文字信号について
分離文字であるか否かの判断をして第９図に示す処理手
順に従って和文文字の統合処理を実行する。すなわち統合手段２２は、スイッチ回路２１を通じて、
和文文字列でなる基本矩形切出し文字信号Ｓ７の各矩形
文字信号が到来したとき、第９図のステップＳＰＩにお
いて文字統合ブＩコグラムをスタートし、次のステップ
Ｓ　Ｉ）　２において当該文字の文字高さく＝ｈ）と、
文字幅（＝Ｗ）との比ｌ　ｈ／ｗ　ｔがほぼ１であるか
否かの判断をする。このステップＳＰ２において肯定結果が得られれば、こ
のことは到来した矩形文字信号が和文１文字分の文字信
号であることを意味しており、従って統合手段２２は、
ステップＳＰ３に移って当該統合処理プログラムを終了
して入力された文字信号を識別部２３に送出する。かく
して文字信号として１文字分の和文文字を表す文字信号
が到来したとき、統合手段２２は統合処理を廿ずに、直
接識別部２３に送出する。これに対してステップＳＰ２において否定結果が得られ
ると、このことは文字矩形領域の縦横比ｌ　ｈ／ｗ　ｌ
が和文文字の比率をもっていないこと（従って分離文字
であること）を判定し得たことを意味する。このとき統
合手段２２は、ステップＳＰ４に移って次に到来する文
字信号との統合処理を実行する。ここで統合手段２２は、ステップＳＰ４において統合し
て得られた統合文字信号についての文字高さく＝ｈ。）
及び文字幅（−Ｗ、）を求め、次のステップＳＰ５に移
ってその比率１１１ｏ　／　ｗ　。１がほぼ１に等しいか否かの判断をする。この判断は、
ステップＳＰ４において次の文字と統合した結果、和文
文字の縦横比にな−ったか青かの判断をするもので、１
一定結果が得られたとき統合手段２２は上述のステップ
ＳＰ：ｌこ移って当該統合プロゲラｊ・を終了する。これに対してステップＳＰ５に才几＼て否定結果が得ら
れたとき統合手段２２ば、次のステップＳＰ　６に移っ
て縦横比１ｂｏ／ＷＯＩが１より格段的に小さいか否か
の判断をする。ここで肯定結果が得られると１．このことは、上述のス
テップＳＰ４において２つの文字部分を統合し７たにも
かかわらず、その統合文字信号が未だ和文文字の文字幅
よりは格段的に小さく、さらに他の文字部分と統合しな
ければ、和文文字の文字幅にはならないことを意味して
おり、従って統合手段２２Ａ：ｉ上述のステップＳＰ４
に戻って、さらに次の文字と統合ずろような処理を実行
する。その結果ステップＳＰ５？こおいて統合文字信号につい
ての縦横比が、はぼ１になったか否かの判断をし、肯定
結果が得られれば、上述のステップＳＰ３に移って当該
プログラムを終了する。これに対してステップＳＰ５において再度否定結果が得
られたとき統合手段２２は再度ステップＳＰ６に移って
統合後の文字信号の文字幅が和文文字の文字幅より格段
的に小さいか否かの判断をする。このようなステップ５Ｐ４−３Ｐ５−３Ｐ６〜ＳＰ４の
ループは、ステップＳＰ６において否定結果が得られる
まで続けられ、かくして統合手段２２は、統合後の文字
信号の文字幅が、１文字分の幅に近似した値になるまで
続けられる。やがてステップＳＰ６において否定結果が得られると、
統合手段２２は次のステップＳＰ７に移って、１つ前の
統合処理によって得られた文字信号の文字矩形領域の大
きさで文字信号の切出しを実行した後、ステップＳＰ３
に移って当該統合処理プログラムを終了する。その結果統合手段２２は、第１０図に示すように、和文
文字列］−な評判の・・・・・・Ｍ産化できＪに肘応す
る基本＋＋ｉ形切出し文字信号Ｓ７について、各文字に
ついて切り出された第０番目〜第２２番目の基本矩形領
域について、分離文字でなる和文文字「判」、「い」、
［は−１、［−が１、［−化］以外の文字信Ｂについて
は、第９図のステップＳＰ２において肯定結果が得られ
るごとにより、直ちに当該文字信号を識別部２３に送出
するの乙こ対して、分離文字については、ステップＳ　
Ｐ　４−５　Ｐ　５−３Ｐ６−３Ｐ４のループを経て、
統合部・の文字の縦横比がほぼ１に近くなるまで統合処
理を実行する。これに対して英文文字列の場合には、第１１図に示すよ
うに、和文文字における分離文字に相当するような縦横
比をもつものが多いが、実用上英文文字には分離文字が
ないと丸えて良いので統合部１８において、統合処理を
−ｌずに、スイッチ回路２１から直接識別部２３に文字
信号を送出する。（Ｇ６）切出しデータメモリ２５統合手段２２における第９図の統合処理は、切出しデー
タメモリ２５に格納されている基本矩形領域の長さデー
タＤ工、切出し履歴データＤｈｓ、縦横比データＤｖい
切出し位置データＤ□、大きさデータＤｓｚを含んでな
り、例えば第１２図に示すようなフォーマットによって
、１文字について３ワードのデータで構成されている。第１２図のデータフォーマットにおいて、８ビツトの第
１のデータ列ＤＡＴＡＩは、基本矩形切出し手段１６に
おいて切り出された基本矩形領域の文字幅Ｗの値を表す
データＤ８でなり、また８ビツトの第２のデータ列ＤＡ
ＴＡ２は基本矩形切出し手段１６によって切り出された
基本矩形領域の高さｈの値を表すデータＤｈでなる。また８ビツトの第３のデータ列ＤＡＴＡ３は、文字切出
し部１１の原矩形切出し手段１２、細切出し手段１４、
基本矩形切出し手段１６における切出し経過を３ビツト
のフラグＦ　Ｌ　Ｇ　１〜Ｆ　Ｉ−Ｇ３と、１ビツトの
フラグＦＬＧ４とで表すデータでなる。さらに８ビットの第４のデータ列１）　Ａ　ＴＡ　４ば
、２ピツ１〜の切出し位置データＤ　ｐ　＋ｉと、２ビ
ットの縦横比データＤいと、２ビツトの縦相対比データ
Ｄ　ｓｚｖ及び２ピッ１−の横相対比データＩ３５、と
でなる大きさデータＩ：ｌ、で構成されている。切出しデータメモリ２５０文字幅データＩ）いは、細切
出し手段１４においζ、接触文字についての分離をした
後の基本矩形領域の文字幅を表すデータをパラメータエ
ンコーダ部３０のイ従横Ｉｔ／大きさ検出手段３］ＩＺ
よって検出して得られ、これが第１のデータ列１）　Ａ
　ＴＡ　１として切出しデータメ七り２５に格納される
。また基本矩形領域の高さデータＩ〕１．は、基本矩形
切出し、十ｕ＋６においてｙ方向の長さを再切出しされ
た後（第８図）、その文字高さデータＷｙ２が縦横比、
／大きさ検出１段３［によ−って検出みれて得られ、こ
れが切出しデータメモリ２５の第２のデータ列ｒ）ＡＴ
Ａ２に格納される。縦横比／大きさ険出■一段３１１Ｊ：、これらの基本矩
形長さデータＩ）８及びＩ）ｈに基づいて、縦横比デー
タＤｖｈを演算により求めて切出しデータメモリ２５の
データ列ＤＡＴＡ４に格納する。これに加えて縦横比／大きさ検出手段３１は、第１３図
に示すように、検出された基本矩形長さＷ及びｈを表す
データＤ９及びＤｈに基づいて、これを基準枠の縦及び
横寸法Ｗｌ及び）ｌＲ（それぞれ２４ドツトでなる）と
比較し、その相対的比率を表す縦相対比データＤ、、ｖ
　（＝ｈ／ｈａ）及び横相対比データＤ□ｈ　（−ｗ／
ｗ、＞を算出して切出しデータメモリ２５の第４のデー
タ列メモリエリアＤＡＴＡ４に格納する。ここで縦相対比データＤ□９及び横相対比データＤ　ｓ
ｚｈを切出しデータメモリ２５に格納するのは、次の理
由による。すなわち和文文字の場合、縦横比が同一であるが、矩形
領域の文字高さ及び文字幅の異なる文字がある。例えば
「っ」及び１つ」、「あ」及び「あ」、「よ」及び「よ
」は、それぞれ縦横比は同一であるが、字の大きさが異
なる文字であり、これらは互いに異なる文字として切り
出す必要かある。そのため統合手段２２は、小さい文字
を表す文字信号が到来したとき、これを１文字と判断す
る必要があり、このように統合手段２２を制御するデー
タとして切出しデータメモリ２５は縦相対比データＤ　
ｓ　Ｚ　Ｖ及び横相対比データＤ　ｌ１ｃｋを格納する
。また切出し位置データＤ　ｐｓは、基本矩形切出し手段
１６が基本矩形領域を切り出した結果、第１４図に示す
ように、文字の位置が文字幅ＷＲ及び文字高さり、ｌを
有する基準枠■）Ｒに対して上半分の範囲Ｐ□に存在し
ているか、又は下半分の範囲ＰＩＩＤに存在しているか
をパラメータエンコーダ部３０の位置決定手段３２によ
って検出し７、当該位置データＤｐ、、を切出しデータ
メモリ２５の第４のデータ列メモリエリアＤ　Ａ　ＴＡ
４に格納する。このような切出し位置データＩ）ｐｓを切出しデータメ
モリ２５に格納するのは、基準枠１）７の−１−半分の
範囲Ｐ、ｌｌＩに存在する文字として、［−゛　１、「
０」、ｆ’−４などがあり、これに対し７て下）１′分
の範囲ＰＲＤに存在する文字とし−（、［−１−１、［
。−）、「、」などがあるから、これらの文字を他の文
字とは区別して分類し得る。そこでこの分類に従って識
別部２３において専用の認識アルゴリズムを用いて各文
字の識別をなし得るように、これらのデータを用いる。（Ｇ７）履歴符号化手段３５以上の構成に加えて、切出しデータメモリ２５の切出し
履歴データＤｈ’ｓが、履歴符号化手段３５において原
矩形切出し手段１２、細切出し手段１４、基本矩形切出
し手段１６において文字信号が順次処理されて行くに従
って得られるデータに基づいて形成される。履歴符号化手段３５は、文字切出し部１１が順次切出し
処理を実行して行く複数の処理ステップにおける処理結
果を、基本矩形切出し手段１６から出力される基本矩形
切出し文字信号Ｓ７において切り出された各矩形領域に
ついて、それぞれ論理ルベル「１」又は「０」で表され
るフラグＦ　ＬＧｌ、ＦＬＧ２、ＦＬＧ３、ＦＬＧ４で
なる履歴符号を、各処理ステップに対応させてコード化
する。履歴符号化手段３５における符号化は第１５図に示す手
順で実行される。すなわち履歴符号化手段３５は、原矩
形切出し手段１２がスレシホールドレベルＴＨＯ（＝Ｏ
）を用いて文字列信号Ｓ４を切り出したとき、時間の経
過に従一つで順次切り出されて行く原矩形ＳＱＩ、ＳＣ
２、ＳＣ３、ＳＣ２・・・・・・に対して、第１段処理
ステップ５ＴＥＰ１として、順次交互に異なる論理ルベ
ルｆ’ＯＪ、１−１４、「０」、「１」・・・・・・を
第１のフラグＴ？　ＩＧｌとして割り当てる。続いて履歴符号化手段３５は、原矩形切出し手段１２が
、スレシホールドレベルＴＨＩ（−１）を用いて文字列
信号Ｓ４を切り出したとき、その切出結果について順次
交互に異なる論理レベルをもつフラグＦ　Ｌ　Ｇ　２を
割り当てる。この実施例の場合、原矩形切出し手段１２
は、第２段処理ステップ５ＴＥＰ２において、原矩形Ｓ
ＱＩから２つの原矩形ＳＱＩ　ｌ及び５Ｑ１２を切り出
し、」：た原矩形ＳＱ４から２つの原矩形ＳＱ４１及び
５Ｑ４２を切り出す。かくして時間の経過に従って順次
得られた全ての原矩形ＳＱＩ　１、ＳＱＩ　２．５Ｑ２
１、ＳＣ３１、ＳＣ２１、ＳＣ２２・・・・・・に対し
て論理レベル「０」、「１」、「０」、「１」、「０」
、「Ｉ」・・・・・・が割り当てられる。この割当て動
作の後、履歴符号化手段３５は第２段処理ステップを終
了する。続いて履歴符号化手段３５は、細切出し手段１４が接触
文字について切出し処理を実行した結果切り出された矩
形領域について、順次交互に異なる論理レベルのフラグ
ＦＬＧ３を割り当てる。この実施例の場合、第３段処理
ステップ５ＴＥＰ３においては、矩形領域ＳＱ２１が２
つの矩形領域ＳＱ２１１及びＳＣ２１２に切り出され、
また矩形領域ＳＱ４１が２つの矩形領域ＳＱ４１１及び
ＳＣ２１２に切り出され、これら新たに切り出された矩
形領域を含んで順次続く矩形領域５ＱＩ１１、ＳＱＩ　
２１、ＳＣ２１１、ＳＣ２１２，５Ｑ３１１、ＳＣ２１
１、ＳＱ４］、２、ＳＣ２２１・・・・・・に対して、
論理レベル「０−４、「１−１、ｌ−０１、「Ｉ」、「
０」、「１」、「０−１、「１」・・・・・・が順次交
互にフラグＦＬＧ３として割り当てられる。履歴符号化手段３５は、これに加えて、基本矩形切出し
手段１６が、基本矩形領域を切り出したか否かを表すフ
ラグＦＬＧ４を割り当てる。この実施例の場合、基本矩
形切出し手段１６の切出し動作によって第８図（Ａ）に
ついて上述したような除去領域がある場合、論理ｒ　ｉ
　Ｊ　Ｌ、ベルが割り当てられ、これに対して除去領域
がない場合、論理［０−ルベルが割り当てられる。かくして基本矩形切出し手段１６の出力端に得られる基
本矩形切出し文字信号Ｓ７の順次続く基本矩形領域につ
いて、文字切出し部１１において第１〜第４段処理ステ
ップ５ＴＥＰＩ〜Ｓ　Ｔ　Ｅ　Ｉ）４において順次切出
し処理されて行く間の履歴がフラグＦＬＧＩ、ＦＬＧ２
、Ｐ　Ｌ、　Ｇ　３、Ｆ　Ｔ−０４によって表され、こ
れが切出しデータメモリ２５の第３のデータ列メモリエ
リアｒ）Ａ、ＴＡ３に各矩形領域ごとに楕納されること
になる。特に第１段〜第３段処理ステップ５ＴＥＰＩ〜Ｓ　Ｔ　
Ｅ　Ｐ　３については、最終的に得られた矩形領域ＳＱ
１］、］、ＳＱＩ　２１．、ＳＯ２１１・・・・・・が
、それ以前の処理ステップにおいて得られた矩形領域Ｓ
Ｑ１］、、５Ｑ１２、ＳＯ２１・・・・・・及びＳＱＬ
、ＳＯ２、ＳＯ２・・・・・・のどの矩形領域から切り
出されて来たものであるかをフラグＦ　Ｌ　Ｇ　３、Ｆ
　Ｔ、　Ｇ２、Ｆ　Ｌ　Ｇ　１を順次見直して行くこと
により確認することができる。すなわち第１６図に示すように、矩形領域５Ｑ１１１、
ＳＱＩ　２１、ＳＯ２１１・・・・・・の切出し履歴を
、順次フラグＦＬＧ３、ＦＬＧ２、ＦＬＧＩの順序でそ
の論理レベルを確認して行くとき、互いに隣り合う矩形
領域の論理レベルが一致するものに到達できれば、当該
隣り合う矩形領域は、その一致した処理ステップでは共
通の矩形領域にあったものであることが分かる。例えば矩形領域ＳＱＬ　１１及びＳＱＩ　２１について
フラグＦＬＧ３、Ｆｌ、Ｇ２、Ｆ　Ｌ　Ｇ　１を順次見
較べて行けば、フラグＦ　Ｌ　Ｇ　ｌにおいて共に論理
「０」になっている。従ってこのこと４Ｊ、矩形領域Ｓ
ＱＬ　１１及びＳＱＬ　２１が第１段処理ステップ５Ｔ
ＥＰＩにおいて同一の矩形領域に含まれていたものが第
２段処理ステップ５ＴＥＰ２において２つに切り出され
たものであることが分かる。そしてその後第２段及び第３段処理ステップ５ＴＥＰ２
及び５ＴＥＰ３のフラグＦ　Ｌ　Ｇ　２及びＦ　ＬＧ３
が変化していないことから、矩形１ｉＪｆ域５Ｑ１１１
及びＳＱＬ　２１は第３段処理ステップＳ　Ｔ　ＥＰ３
においては分離処理されていないことが分かる。同様にして順次続く他の矩形領域についてフラグの変化
をみれば、矩形領域ＳＱ２１　＋及びＳ　Ｑ２１２は、
第２段処理ステップのフラグＦｌ、Ｇ２において共通の
論理レベルをもっているので、第３段処理ステップ５Ｔ
ＥＰ３において２つに切り出されたものであることが分
かる。また矩形領域ＳＱ３１１は、隣り合う矩形領域ＳＱ２１
２及びＳＯ２１１のいずれに対しても論理レベルが共通
になるフラグをもっていない。そこでこの矩形領域ＳＱ
３１１は、第１段〜第３段処理ステップの全部の処理ス
テップについて、切出し処理がなされなかったことが分
かる。また矩形領域ＳＱ４］、１及びＳＯ２１２は、フラグＦ
ＬＧ２において共通の論理レベルをもっており、さらに
これに加えてフラグＦＬＧＩにおいてさらに矩形領域Ｓ
Ｑ４２１とも共通の論理レベルをもっている。このこと
から、矩形領域５Ｑ４１１及びＳＯ２１２は、第３段処
理ステップ５ＴＥＰ３において２つに切り出されたもの
であることが分かり、かつ切り出された元の矩形領域は
、第２段処理ステップ５ＴＥＰ２において、矩形領域Ｓ
Ｑ４２１と共に同一の矩形領域ＳＱ４から切り出された
ものであることが分かる。さらに第４段処理ステップの処理結果を表すフラグＦ　
Ｌ　Ｇ　４と合わせ考えると、第３のデータ列メモリエ
リアＤＡＴＡ３に格納されている切出し履歴データＤｈ
Ｓは、文字切出し部１１において切出し処理されて得ら
れた基本矩形切出し文字信号Ｓ７に基づいて、後段の処
理装置において統合、識別、再切出しなどの処理をする
際に、最終的に切り出された矩形領域が元々どの矩形領
域に含まれていたものであるかを知ることができること
により、この切出し履歴データを参照して統合、識別、
再切出しの処理をすれば、これらの処理を合理的かつ効
率良く実行し得る。すなわち統合手段２２においては、第９図について上述
したように、各矩形領域について縦横比データＤＶｈを
用いて統合後の矩形領域の縦横比がほぼｌになるような
文字の統合処理を実行する。（Ｇ８）識別部２３また識別部２３は、第１７図の処理手順に従って、順次
統合部１８から送出されて来る矩形領域について、文字
を識別して行く。識別部２３は、切出しデータメモリ２５に順次切り出さ
れて来る矩形領域についてのパラメータを表すデータが
格納されているので、これらのデータを用いて、できる
だけ効率良く文字の識別をなし得るように識別処理を実
行する。すなわら識割部２３は、ステップ５ＰＩＩにお
いて統合部１８からのデータを入力し、次のステップ５
Ｐ１２において位置による文字の分類が可能であるか否
かの判断をする。このステップ５Ｐ１２における判断は
、切出しデータメモリ２５の切出し位置データＤ　ｐｓ
を用いて実行される。その結果入力された文字が、基準
枠ＰＩ　　（第１４図）の」二半分の範囲Ｐ□又は下半
分の範囲ＰＭＤに入るものである場合には、識別部２３
は肯定結果を得てステップ５Ｐ１３に移る。このステップ５Ｐ１３は、上半分の範囲に存在する文字
「′」、「″」、「−」、「０」などと、下半分の範囲
に存在する文字「。」、「、１、「、」、「っ」などと
を第１特徴文字として、上半分又は下半分の領域にある
文字の認識を実行するための専用の認識アルゴリズムを
実行する。識別部２３は、続くステップ５Ｐ１４において第１の特
徴文字の認識ができたか否かの判断をし、肯定結果が得
られたとき、ステップ５Ｐ１５に移って当該認識結果を
表ず認識出力ＳＩＯを送出する。かくしてステップ５Ｐ１２において位置による分類が可
能であるとの判定結果が得られたときには、識別部２３
に入力された矩形領域の文字信号が第１特徴文字である
ことを識別できているこ吉から、ステップ５Ｐ１３にお
ＬＪる認識アルゴリズムは、当該第１特徴文字の認識４
．ｍ最適の処理手順によって処理することができるよう
に選定して良いことになり、かくしてステップ５Ｐ１３
における認識アルゴリズムとしては、簡易なものを適用
し得る。これに対してステップ５Ｐ１２において否定結果が得ら
れたとき、及びステップ５Ｐ１４において否定結果が得
られたとき、識別部２３はステップ５Ｐ１６に移る。か
かる判定結果が得られるのは、統合部１８から出力され
た文字信号が、基準枠ＰＲ（第１４図）の上半分の範囲
ｒ’１ｌ１１及び下半分の範囲ＰＲＤの両方に跨ってい
ることを意味し、このとき識別部２３は、ステップＳＰ
］３における専用の認識アルゴリズムを利用できないと
判断して次の認識ステップＳ　Ｐ　１．６に移る。このステップ５Ｐ１６は、切出しデータメモリ２５に格
納されている縦横比データＤ□、縦相対比データＤ　！
　＋１　Ｖ及び横相対比データＤ　ｓ　ｚ　ｈを用いて
、統合部１８から供給される文字データが、特定の大き
さの文字を表しているか否かを判定し、肯定結果が得ら
れたときステップ５Ｐ１７に移る。ここで縦横比ｈ　／　ｗについての分類は、第１に、縦
横比ｈ　／　ｗがＯ＜　−□　＜　０．５　　　　　　　　・・・・・・
（１）のように、０〜０．５の範囲に入るか否か、また
第２に１．５＜□　　　　　　　　　・・・・・・（２）のよ
うに、１．５より大きい範囲に入るか否かによって文字
を分類する。（１）式によって分類される文字としては、例えば「−
」、「−−１、「−」、「（−」、「〜」、「−」など
がある。また（２）式によって分類される文字としては
、「：」、「；」、「０−１〜「９」、　「う」、　「
＜」、　［ぐ］、　ｒ　Ｉ　ｊ、　［ト］、「ミ」、「
β」、「δ」、ｒｆＪ、「ｉ」などがある。また縦相対比ｈ／ｈ、ｌによる分類は、縦相対比ｈ／ｈ
、が、Ｑ　＜−一−＜　０．５　　　　　　　・・・・・・（
３）ｈ。の範囲に入るか否かによって分類される。この範囲に入
る文字としては、ｒｍＪ、ｒｃＩｌｌ−１、「。」、「
っ」、「ソ」、「ハ」、「へ」、ｒａｊ、「ｅ」、ｒｃ
ｊ、ｒＴＪなどがある。さらに横相対比ｗ　／　ｗえの分類は、横相対比Ｗ／Ｗ
つがＱ　＜　−−−−＜　０．５　　　　　　　・・・・・
・（４）Ｒに入る文字であるか否かによって分類される。この分類
に入る文字としては、「゛」、「”」、「。」、「：」
、「：」、「０」〜「９」、「う」、「＜」、「イ」、
「ａ」、ｒｃＪ、ｒｅＪなどがある。かくして識別部２３は、ステップ５Ｐ１７において第２
特徴文字の認識をした後、続くステップ５Ｐ１Ｂにおい
て第２特徴文字を認識することかできたか否かの判断を
し、肯定結果が得られたとき、ステップＳ　Ｐ　１．５
に移って当該識別結果を表す認識出力ＳＩＯを送出する
。かくしてステップ５Ｐ１６において、文字の大きさによ
る分類が可能であるとの判定結果が得られたときには、
識別部２３に入力された文字信号を、第２特徴文字を簡
易に認識し得る専用の認識アルゴリズムを用いることが
できることにより、迅速かつ簡易な文字認識をなし得る
。これに対してステップ５Ｐ１６において否定結果が得ら
れたとき、及びステップＳ　Ｉ）　１８において否定結
果が得られたとき、識別部２３はステラブ５Ｐ１９に移
って標準アルゴリズムによる認識処理を実行する。この
認識処理は、統合部１８から到来した文字信号が、認識
可能な全ての文字についてどの文字であるかを標準デー
タと比較することによって特定する処理を実行するもの
で、認識処理ステップは比較的膨大なものになる。識別部２３は、続くステップ５Ｐ２０において、標準ア
ルゴリズムで文字認識ができたか否かの判断をし、肯定
結果が得られたとき上述のステップ５Ｐ１５に移って当
該認識結果を表す認識出力Ｓ１０を送出する。これに対
して否定結果が得られたときにはステップ５Ｐ２１に移
る。このステップ５Ｐ２１は、識別部２３が再切出し部４０
（第１図）を用いζ、文字信号の統合、又は分離をやり
直すステップで、この統合、又は分離は、切出しデータ
メモリ２５の第３のデータ列メモリエリアＤＡＴＡ３に
格納されている切出し履歴データＤｈＳを用いて実行さ
れる。かくして識別部２３は、ステップＳＰ２１において再切
出し部４０によ°つて再切出し動作が終ｒしたとき、上
述のステップ５Ｐ１９に移って再度標準アルゴリズムに
よって文字認識処理を実行する。ここでステップ５Ｐ２１における再切出し処理は、文字
切出し部１１において切出し処理されたときの切出し履
歴を参照して処理されることにより、再切出し処理を合
理的に実行することができ、かくして文字認識装置全体
としての認識率を高めることができることになる。（Ｇ９）実施例の動作第１図及び第２図の文字認識装置において、原稿読取部
２のイメージ読取データＳ１は、文字列切出し部３にお
いて、原稿の各行に含まれる文字について、ｙ投影手法
を用いて各文字列の高さに外接する文字列データＳ４に
変換され、この文字列データＳ４が文字切出し識別部７
に送出される。文字切出し識別部７は、原矩形切出し手段１２によって
、各文字列について、Ｘ投影処理をして得られる文字列
信号を、第１のスレシホールドレベルＴＨＯと比較した
後、第２のスレシホールドレベルＴＨＩにおいて比較し
、その比較データＤＴｌ及びＤＴ２によって文字列信号
を切り出す。この実施例の場合スレシホールドレベル１”　Ｉ　Ｏは
、例えば分離文字と判断され易い和文文字について、１
文字及び１文字の構成部分を切り出すのに最適なように
、十分に低い値（ＴＨＯ＝０）に選定されているのに対
して、第２のスレシホールドレベルＴＨＩは、分離文字
を含まない英文文字を切り出すのに最適な値（スレシホ
ールドレー＼ルＴＨＯより大きい稙）に選定され°Ｃい
る。このように原矩形切出しＪ一段１２によ゛つて複数段階
例えば２段階の切出し処理をすることにより、和文文字
及び英文文字を、各切出し処理ステップにおいて、文字
の特徴を失わないように、文字の内部の特徴を顕在化す
るような小さい華位で切り出すことができることになり
、統合部１８における統合処理などの後段の認識処理を
高い精度で実行し得る。文字切出し部１１は、細切出し手段１４において、原矩
形切出し手段１２から送出された原矩形文字信号Ｓ５に
含まれる各矩形領域について、その信号レベルが所定レ
ベル以下のＸ座標位置の近傍において、分離処理を実行
する。かくして文字間隔が狭い英文文字において、例え
ば文字輪郭のぼけの影響によって、２つの文字が接触し
ているかのようなイメージ読取データＳ１が得られた場
合に、これを確実に分離することができる。これに続いて文字切出し部１１ば、基本矩形切出し手段
１６において、細切出し手段１４から１文字又は文字部
分ごとに切り出されて得られる細切出し文字信号Ｓ６に
ついてｙ軸投影を行うことによって、各文字の文字幅Ｗ
及び文字高さｈに外接する基本矩形領域を切り出す。こ
れにより文字列を切り出した際に混入された雑音を各文
字ごとに有効に除去し得る。このようにして原稿読取部２において和文文字及び英文
文字が混在する原稿を読み取ったとき、文字切出し部１
１は、和文文字及び英文文字それぞれがもっている固有
の特徴を失わせないように、できるだけ小さい文字部分
を単位として、１つの文字の幅及び高さ、又は１つの文
字の部分の幅及び高さに外接する矩形領域を基本矩形領
域として切り出すことができ、その結束前られる２人本
矩形切出し文字信号Ｓ７が統合部１１０こ供給される。一方文字切出し部１１において順次実行される処理ステ
ップにおける処理結果は履歴符号化手段３５と、パラメ
ータエンコーダ部３０を構成する縦横比／大きさ検出手
段３１、位置決定１段３２に与えられ、それぞれ切出し
履歴又１４パラメータを表す切出しデータに変換されて
切出しデータメモリ２５に送出され、かくして切出しデ
ータメモリ２５に基本矩形切出し文字信号Ｓ７の各文字
に対応する長さデータＤｈ、、切出し履歴データＩ）い
、縦横比データＤｖ６、切出し位置データＩ）ｐ、、大
きさデータＩ）ｓ、が格納され、これが統合部】８にお
ける統合処理、識別部２３におＬＪる識別処理、再切出
し部４０における統合、又は分離処理におけるパラメー
タデータとして利用される。統合部Ｉ８は文字切出し部１１から順次送出さく５２）れる基本矩形切出し文字信号Ｓ７の各矩形領域について
、和文文字が到来したとき、統合手段２２において、必
要に応して矩形領域の統合処理をした後、文字信号Ｓ８
を識別部２３に送出する。これに対して英文文字が到来
したときには、スイッチ回路２１によって統合手段２２
を側路して基本矩形切出し文字信号Ｓ８を識別部２３に
送出する。かくして文字切出し部１１においてできるだけ細部につ
いて切り出された文字信号が、和文文字としてｔ？ｉ！
識するのに必要な文字幅を有する文字に統合されて識別
部２３に送出され、その結果文字認識装置全体としての
認識率を一段と向上させることができる。識別部２３は、切出しデータメモリ２５に格納されてい
る切出し処理時のデータを用いて、識別処理を実行する
。その際に、切出しデータメモリ２５から得られるデー
タによって、到来した文字がもっている特徴に応じて、
到来する文字信号を分類して、各文字信号の特徴に基づ
いて分類された文字を認識するための専用の認識アルゴ
リズムを用いて認識処理を実行する。かくして識別部２
３における認識効率及び認識率を一段と向上させること
ができる。このような処理を実行しても、識別ができなかった場合
は、切出しデータメモリ２５のデータを用いて再切出し
部４０において統合部１日から送出される文字信号を再
度統合、又は分離処理をすることによって各文字の再切
出しを実行し、当該再切出し後の文字信号によって識別
部２３において再度識別動作を実行させる。ここで再切出し部４０の動作は、切出しデータメモリ２
５の出力データ（従って文字切出し部１１において実行
された切出し処理の内容）を参照しながら、再切出し処
理を実行するようにしたことにより、合理的、かつ認識
率の高い文字認識を識別部２３において行うことができ
る。（ＧＩＯ）実施例の効果上述の実施例のように構成ずれは、第１に、文字切出し
部１１において、切出ｔ７処理された文字信号の切出し
履歴データを、切出しデータメモリ２５に格納しておく
ようにしたことにより、和文モードで文字の認識をする
場合に、統合部１８における統合処理を過去の処理経過
に基づいて合理的に実行し得る。かくして認識部２３に
おける文字の認識効率及び認識率を一段と向」ニさせる
ことができる。かくするにつき、文字切出し部１１の切出し履歴を表す
データとして、履歴符号化手段３５において、各切出し
処理ステップにおいて、切出された矩形領域の内、順次
隣り合う矩形領域に対して論理レベル「０」及び「１」
を順次交互に割り当てて行くようにするだけの比較的簡
易な手法によって、切出し履歴を確実に把握し得るよう
な履歴符号化を容易に実現し得る。また上述の実施例のように、文字切出し部１１の原矩形
切出し手段１２によって、文字列信号Ｓ４に対するスレ
ーシホールドレベルとして複数の信号レベルを設定する
ことにより、粗さの異なる複数の切出し処理を実行し得
る。従って和文文字及び英文文字が混在しているような
多様な文字列に対応する文字列信号Ｓ４が到来した場合
に、当該多様性に対応し７て多様な切出し粗さで文字の
切出しをし得、かくして各文字の認識率を格段的に向ト
させることができる。さらに上述の実施例によれは、文字切出し部１１の細切
出し手段１４において、文字信号の極小値の位置を検出
すると共に、当該極小値位置を近傍において、黒いドツ
トの関係を調べることによって、細切出しを実行するよ
うにしたことにより、接触文字を確実に切出すことがで
き、かくして文字の認識効率及び認識率を格段的に高め
ることができる。（Ｇｌｌ）他の実施例なお上述Ｇこおいては、原措読取部２において、和文文
字及び英文文字が混在した横書の印刷文字を認識する場
合に適用した実施例とＬ２て述べたか、縦書文字を認識
する場合にも同様にして本発明を適用し得る。また上述においては、本発明を切出しデータメモリ２５
のデータを用いて、文字切出し部１１の出力端に得られ
る基本矩形切出し文字信号ｓ７を統合、識別、再切出し
する場合に適用した場合について述べたが、その他の処
理が必要な場合には、その必要に応じて切出しデータメ
モリ２５に格納されている切出しデータを利用するよう
にしても良い。また上述の実施例の場合は、原矩形切出し手段１２にお
いて異なる複数のスレシホールドレベルで文字列信号Ｓ
４を切り出す際に、切出し粗さが粗い矩形領域から細か
い矩形ｆｉｌ域への順番で順次文字信号の切出しをする
ようにしたが、これに代え、文字列信号Ｓ４を繰返し切
り出すようにしても同様の効果を得ることができる。Ｈ発明の効果切出しデータメモリ２５に関連して上述したように、本
発明によれば、文字列信号から各文字に対応する文字信
号を切り出すにつき、文字切出しく５７）部における切出し処理の履歴を表す切出し履歴データを
切出しデータメモリに格納しておき、この切出しデータ
メモリに格納された切出しデータを用いて後段の文字識
別処理部における統合処理、文字認識処理、再切出し処
理などの文字認識処理を実行できるようにしたことによ
り、当該後段の文字認識処理を合理的かつ効率良く実行
し得、かくして高い認識率で文字の認識をなし得る文字
認識装置を容易に得ることができる。

【図面の簡単な説明】

第１図は本発明による文字認識装置の要部を構成する文
字切出し識別部の詳細構成を示ずブ１コック図、第２図
は本発明による文字認識装置の−・実施例を示すブロッ
ク図、第３図及び第４図は、イメージ読取データから文
字列を切り出す際の処理及び信号を示ず路線図及び信号
波形図、第５図は原矩形切出し手段１２における切出Ｌ
７動作の説明に供する信月波形図、第６図及び第７図は
細切出し手段１４における接触文字の分離処理の説明に
供する路線図、第８図は基本矩形切出し手段１６の切出
し処理の説明に供する路線図、第９図は統合手段２２に
おける和文文字の統合処理手順を示すフローチャート、
第１０図及び第１１図は和文文字及び英文文字について
切り出された文字矩形領域の配列を示す路線図、第１２
図は切出しデータメモリ２５の格納データを示す路線図
、第１３図は縦相対比データ及び横相対比データの説明
に供する路線図、第１４図は切出し位置データの説明に
供する路線図、第１５図及び第１６図は切出し履歴デー
タの説明に供する路線図及び図表、第１７図は識別部２
３の識別処理手順を示すフローチャートである。１・・・・・・文字認識装置、２・・・・・・原稿読取
部、３・・・・・・文字列切出し部、７・・・・・・文
字切出し識別部、１１・・・・・・文字切出し部、１２
・・・・・・原矩形切出し手段、１４・・・・・・細切
出し手段、１６・・・・・・基本矩形切出し手段、Ｉ８
・・・・・・統合部、２３・・・・・・識別部、２５・
・・・・・切出しデータメモリ、３０・・・・・・パラ
メータエンコーダ部、３５・・・・・・履歴符号化手段
、４０・・・・・・再切出し部。

Claims

【特許請求の範囲】

（１）文字列信号を１文字又は１文字の構成部分に外接
する矩形領域で切り出して切出し文字信号を送出する文
字切出し部と、上記文字切出し部における複数の切出し処理ステップの
処理結果を表す切出しデータを格納する切出しデータメ
モリとを具え、上記文字切出し部の後段に設けられた文字認識
処理部において、上記切出しデータメモリの上記切出し
データを用いて、上記文字切出し部から送出される切出
し文字信号を、文字認識処理することを特徴とする文字
認識装置。
（２）上記文字認識処理部は統合手段を有し、上記統合
手段は上記切出しデータに含まれている切出し履歴デー
タを用いて上記切出し文字信号に混在している和文文字
についての文字信号を統合処理するようにしてなる文字
認識装置。
（３）上記文字認識処理部は識別手段を有し、上記識別
手段は上記切出しデータを用いて上記切出し文字信号が
表す文字が属する文字群を分類し、当該分類後の文字信
号を専用の認識アルゴリズムを用いて認識処理するよう
にしてなる文字認識装置。