JPS62187988A - 光学的文字認識方式において使用する処理手段 - Google Patents

光学的文字認識方式において使用する処理手段

Info

Publication number
JPS62187988A
JPS62187988A JP61231347A JP23134786A JPS62187988A JP S62187988 A JPS62187988 A JP S62187988A JP 61231347 A JP61231347 A JP 61231347A JP 23134786 A JP23134786 A JP 23134786A JP S62187988 A JPS62187988 A JP S62187988A
Authority
JP
Japan
Prior art keywords
subline
character
information
characters
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61231347A
Other languages
English (en)
Other versions
JP2697790B2 (ja
Inventor
デイビット ジャスチン ロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Caere Corp
Original Assignee
Palantir Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palantir Corp filed Critical Palantir Corp
Publication of JPS62187988A publication Critical patent/JPS62187988A/ja
Application granted granted Critical
Publication of JP2697790B2 publication Critical patent/JP2697790B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文字認識技術に関するものである。
多種のパターン認識方式が従来公知である。この様な各
方式は、認識されるべきパターンを描写するデータを光
学的に受は取り、且つその入カバターンを「認識」する
為にそれを既知のパターンと比較する為にこのパターン
に関して成る操作を行う、パターン認識方式を示した基
本的なフローチャートを第1図に示しである。入カバタ
ーンは認識されることを所望するパターンである。デジ
タイザ12は、入カバターン11をシステムメモリ13
内に格納する為の一連のバイトに変換する。
入カバターン11が基本的に黒白の図である場合。
これらのバイトは典型的に二進的な性質である。
デジタイザは公知であり、典型的に、ファクシミリ装置
、il子的複写装置(光学的複写装置に対して)及び従
来技術の光学的文字認識装置において使用されている。
メモリ13は、任意の適宜のメモリ装置を有することが
可能であり、公知の構成のランダムアクセスメモリを包
含する。セグメンテーション14は、メモリ13内に格
納された画像データを個々の文字に分割すべく機能する
。この様なセグメンテーション即ち文字切り出しは従来
公知であり、例えば、Azriel Rosenfel
d及びAvinash C,にak共著の「デジタル画
像処理(Digital Picture Proce
ssing)J、第2版、第2巻、アカデミツクプレス
出版、1982年、特に「セグメンテーション」と題し
た第10章に記載されている。
特徴抽出手段15は、セグメンテーション手段14から
受けとられたデータ(即ち、各文字)の各一部を変換す
べく機能し、そのデータを識別手段16によって使用す
る標準の予め定めた形態へ変換し、該識別手段は各文字
を既知の文字の組の1つとして識別する。出力手段17
は、外部回路(不図示)へデータ出力(典型的には、 
ASCII等)を供給すべく機能する。
識別手段16は、パターン認識方式において典型的に使
用されている。更に詳細には、光学的文字認識方式を包
含する多数の従来の識別手段の何れか1つとすることが
可能である。本発明に基づいて使用するのに適したその
様な識別手段の1つは、Toddに対して1981年3
月31日に発行された米国特許第4,259,661号
「パターンを認識する装置及び方法(Apparatu
s and Methodfor Recognizi
ng a Pattern)Jに記載されている。
識別手段16は又、に、 S、 Fu著の[統語法的パ
ターン認識及び適用(Syntactic Patte
rn Recognition and Applic
ations)J、プレンティスホールインコーホレイ
テッド、1982年、の特にセクシコン1.6.アペン
デイクスA及び已に記載されている。
本発明は以上の点に鑑みなされたものであって、上述し
た如き従来技術の欠点を解消した新規な文字認識方法を
提供することを目的とする。本発明に拠れば、光学的文
字認識方式は、2つの側部品を、即ち文字選択及び分解
を持った識別手段を有している。文字選択は、未知の入
力文字を1つ又はそれ以上の潜在的な文字として識別し
且つ該潜在的な文字を包含する「可能性の組」を提供す
る。
分解は、主にサブライン(subline)情報に基づ
いて、与えられた未知入力文字と関連する可能な文字を
を更に絞り込む機能をする0本発明の1実施例において
は、該分解手段も、該可能性の組に付加的な文字を付加
する0本発明の別の実施例においては1分解手段は又各
文字に対してのポイント寸法を決定すべく機能する0分
解手段が、与えられたサブライン情報が誤っている場合
には、分解手段がこのサブライン情報を補正して、その
補正したサブライン情報を1例えば、大文字rS」と小
文字rgJとの間を分解するのに使用することを可能と
し、文字のポイント寸法を確立する。
以下、添付の図面を参考に、本発明の具体的実施の態様
に付いて詳細に説明する。
第2図は1本発明の1実施例を示したフローチャート図
である。第1ステツプはデータを採取することである。
前述した如く、このデータは文字選択手段から得られる
。本発明の1実施例においては、幾何学的形状及び可能
性の組として、40個の文字が入力バッファ(不図示)
内にロードされる。この明細書において使用される如く
、幾何学的形状は、読み取られる未知の文字に関する情
報、例えば真上のX及びY位置、文字の幅、文字の高さ
、文字の頂部から4つのサブライン(例えば、第4図に
示した如くアセンダー、小文字、ベース、ディセンダー
サブライン)への距離、読み取られた文字が1っのピー
ス即ち部分を越えた数のピースを有しているかどうかを
示すフラッグ、サブラインの各々がこの文字に対して決
定されたか否かを画定するフラッグ、及び読み取られて
いる頁のどの文脈領域がこの文字を有しているかを画定
する情報等の情報のことを意味している。可能性の組は
、文字選択手段によって与えられ且つ、それに対する確
信値と共に、多分読み取られている未知の文字であるか
も知れない文字を有しており、且つ、付加的に、可能性
の組の要素の数を表す番号を有している。
データのブロックが入力バッファに得られると、そのデ
ータは読取中の真上の文脈領域によって格納される。入
力バッファ内に収納されたデータが文脈領域によって化
膿された後に、最低番号領域が作業バッファへ転送され
る。作業バッファ内のデータは、次いで、X位置によっ
てソート即ち類分けされ、文字は可及的に読み取られた
真上の元の順番に近くに並べられる。このことは、デー
タ採取中に得られるデータ列における文字は、文字選択
ステップにおいて、又は本発明方法の前に行われるその
他の処理ステップにおいて順番が狂ってしまっている場
合があるので、必要である。この様に1本発明方法は、
単一の文脈領域内に包含される文字に関して、且つ単一
文脈領域内において、左から右へ、実施される。
チェックサブライン 次に、作業バッファ内のデータのサブラインが文字毎に
解析されて、各文字に関連するサブラインが正確である
か否かを決定する6重要なことであるが、成る文字のみ
を使用して、それらのサブライン情報が正確であるか否
か、以下の如く、決定することが可能である。
紅 又主久エズ  文−一主     サブライン「AJ 
    A、B、D、E、F、G、)l、に、   ア
センダーサL、N、R,T、b、d、f、h、   ブ
ライン及びに、2,3,4,5,6,7,8   ベー
スサブライン 「a」     a、a、n、r       小文字
サブライン及びペー スサブライン 「9」9          小文字及びディセンダー
サ ブライン これらの文字は明確(大文字は小文字と極めて異なって
見える)であり且つ事実上京に同一の2つのサブライン
間に延在する。それらの行動は十分に規則的であり、不
明確(「C」と「C」)又は不規則(rt」)であるか
の何れかの文字に対してのサブラインを設定する為に使
用されることを保証する。
本発明の1実施例においては、それらの可能性の組にお
いて単一の要素を持った未知の文字のみを使用して、サ
ブライン情報をチェックしく且つ後述する如く、ヒスト
グラムを支持し)、別の実施例においては、この様な単
一の文字は、特定した確信度を持った未知の文字である
と考えられる場合にのみ使用され、更に別の実施例にお
いては。
単一の文字のタイプの文字のみを有する可能性の組を持
った未知の文字をこの目的の為に使用する。
第3図はこのサブラインをチェック即ち検査する操作を
示している。 rTha KINGSJという分節が読
み取られると仮定し、ここで、「にINGSJの単語は
rTheJよりも小さなポイント寸法であるとする。
第3図に示した如く、サブライン情報(アセンダーサブ
ライン、小文字サブライン、ベースサブライン、ディセ
ンダーサブライン)の精度が各文字に対して順次チェッ
クされる。第3図において、チェックマークは、サブラ
イン情報が正確であることを示しており、「X」は、サ
ブライン情報が不正確であることを示しており、且つ疑
問符は。
その文字に対してサブライン情報が正確が不正確かを決
定することが出来ないことを示している。
第3図に示した如く、大文字「T」及び小文字rhJは
、それらの頂部及び底部が、夫々、アセンダーサブライ
ン及びベースサブラインに十分に近接(1実施例におい
ては、±2ピクセル即ち画素)しているので、正確なサ
ブライン情報を持っているものと決定される。小文字「
e」は、その頂部が小文字サブラインに十分に近く、且
つその底部がベースラインに十分に近いので、正確なサ
ブライン情報を持っているものと決定される。小さなポ
イント寸法のrKJ、rNl、rc3」は、それらの頂
部はアセンダーサブラインに十分に近く無いので、不正
確なサブライン情報を持っているものと決定される。小
さなタイプ寸法におけるrIJ及び「SJは不明確な文
字であって、サブライン情報を設定することが不可能で
ある。何故ならば、例えば、大文字[S」及び小文字r
sJは、異なったポイント寸法である場合には、同一で
あることがあるからである。同様に、大文字「工」は異
なったポイント寸法のドツトの無い小文字「i」又はそ
れに類似した文字と同一であることがある1重要なこと
であるが、文字は高々2つのサブラインに対するサブラ
イン情報を検証することあ可能であるが、与えられた文
字に対しての2つのサブラインの検証と共に、数学的演
算を実行して残存するサブラインが公差以内であるか否
かを決定する。そうであると、全て4つのサブラインが
その文字に対して検証される0本発明の1実施例におい
ては、サブラインを検証する為に使用される数学的関係
は、小文字サブラインとベースサブラインとの間の距離
はアセンダーサブラインとベースサブラインとの間の距
離の50乃至85%の範囲内でなければならないという
ものである。同様に、アセンダーサブラインがらベース
サブラインへの距離は、小文字サブラインとディセンダ
ーサブラインとの間の距離、典型的には数個の画素内、
と略等しいものでなければならない。
サブライン ′文′のサブライン 次のステップは、誤っていると分がっているサブライン
設定用文字のサブラインを固定することである。第3図
に示した例においては、誤っていると知られているサブ
ラインは、に、N、Gに関連したサブラインである。従
って、2つの新しいサプライを1表1に示したこれらの
文字に対して確立する、即ちこれらのに、N、Gの文字
の各々に対するアセンダーサブラインはその文字の頂部
に対応し、且つこれらの文字の各々に対するベースサブ
ラインはその文字の底部に対応する。各々の文字に対す
る2つの残りのサブラインは以下の如くにして数学的に
確立される。
1頁のデータの読取中にヒストグラムが維持される。こ
れらは、「a」タイプ文字のヒストグラム及び「AJ文
字のヒス1〜グラムである、「a」タイプ文字ヒストグ
ラムはが維持されて、小文字サブライン及びそのサブラ
イン情報が確認されているか又は補正されている「a」
タイプ文字に対するベースサブラインの間の各距離「d
」 (第4図)の発生数を示している。
同様に、「AJタイプ文字ヒストグラムが維持され、ア
センダー及びベースサブライン対(「A」タイプ文字に
対して)又は小文字及びディセンダーサブライン対(「
q」タイプ文字に対して)の何れかの間の各距離「h」
 (第4図)の発生数を示している。「A」タイプヒス
トグラム及び「a」タイプヒストグラムは多数のピーク
を持つことが可能であり1例えば、各ピークは読み取ら
れた真上の異なったポイント寸法を表している。これら
のピークにおいて表されるサブライン間隔は。
「AJ及び「a」タイプ文字における欠落するサブライ
ン間隔を設定するのに使用される。
文字が、既知の小文字サブライン及びベースサブライン
を持った「a」タイプ文字である場合。
アセンダーサプラン及びディセンダーサブラインは、以
下の如く態様によって、「AJタイプヒストグラムにお
ける適宜のピークを選択することによって計算される。
適切なピークを選択する為に、「AJタイプヒストグラ
ムをh最小がらh最大の範囲に渡って検査し、尚り最小
はdlo、70に等しく且つ)1最大はdlo、6に等
しく、又dは解析中の未知のra」タイプ文字に対して
のベースサブラインと小文字サブラインとの間の距離に
等しい、この範囲内のヒストグラムピークの位置は、ア
センダーサブラインーベースサブライン距離及び小文字
サブラインーアセンダーサブライン距離を確立する値r
hJとして選択される。この範囲内にヒストグラムピー
クが無い場合、h最小はdlo、85に設定され且つh
最大はdlo、5に設定され。
1つ「A」タイプヒストグラムは再度検査される。
この第2走査においてピークが発見されなかった場合、
hはdlo、67と等しく設定される。
サブラインが設定される文字が「AJタイプ文字である
場合、アセンダーサブライン及びベースサブラインが既
知であると、その小文字サブライン及びディセンダーサ
ブラインは、「a」タイプ文字ヒストグラムを使用して
計算される。このことは、ここで使用される比はヒスト
グラムの最初の走査に対してはd最小=0.6hで、d
最大=0.7hであって、第2走査(最初の走査の間に
ピークが発見されなかった場合に使用される)に対して
はd最小=0.5hでありd最大=0.85hであり、
且つデフォルト(第1又は第2のパスの間にピークが発
見されなかった場合に使用される)に対してはd=0.
67hである。その様に選択されたdの値は、小文字サ
ブラインーベースサブライン距離を設定する。小文字サ
ブラインーディセンダーサブライン距離はhに等しく設
定される。
既知の小文字サブライン及びディセンダーサブラインを
持っている「q」タイプ文字は、それらのアセンダーサ
ブライン及びベースサブラインを、「AJタイプ文字に
対して使用されたヒストグラム及び走査限界を使用して
、同様に決定される。
これらの比0.7,0.6,0.85,0.5.0.6
7が選択されている。何故ならば、これらは小文字「a
」と大文字「AJの高さの間の市販されているタイプフ
ォントの比における典型的な範囲だからである。当然、
所望により、その他の値を使用することも可能である。
これらの比によって計算される高さは最も近い画素数の
整数に丸められる。
その也の文8のサブラインの 次いで、不定のサブライン(第3図のrIJ及びrSJ
のサブライン)を表2に示した如くに補正する。
i この文脈領域内  この文脈領域内 において、問題  において、問題 の文字の左側に  の文字の右側に  決定明確なサプ
ライ  明確なサブライ ンを持った文字  ンを持った文字 があるか?    があるか? 肯定       否定    最も近い文字から明確 なサプライ ンを持った 左側へサブ ラインを伝 播 否定       ′l?定    最も近い文字から
明確 なサプライ ンを持った 右側へサブ ラインを伝 播 否定       否定    サブライン肯定   
    肯定    明確なサブライン情報 を持った2 つの文字の 間に存在す る最大間隙 (2つの隣接 する文字) にブレーク を設定し。
未知の文字 としてブレ ークの同一 側にある明 確なサプラ インを持っ た最も近い 文字からの サブライン 情報を伝播 表2において使用した如く、「間隙」は2つの隣接する
文字間の空間を形成する画素数に等しいか、又は隣接す
る文字の間で測定されるその他の任意の距離(例えば、
これに限定するわけではないが、中心間距離)に等しい
0本発明の1実施例においては、サブラインが既知の有
効なサブラインを持った隣接の文字から伝播される態様
は、新しいベースサブラインを、古いベースサブライン
+頁のスキューに基づく調節と等しく、且つベースサブ
ラインと残りのサブラインとの間の距離を古い文字と新
しい文字の両方に対して等しく設定する0表2に示され
る如く、サブラインが設定される文字を包含している文
脈領域内に既知の有効なサブラインを持った文字が1つ
以上存在する場合、有効なサブラインを持った2つの文
字の間の最大の間隙の同一の側止で、既知の有効なサブ
ラインを持った最も近い文字と関連したサブラインを使
用して、処理中の文字に対してサブラインを設定する。
この様に、処理中の文字のポイント寸法に類似したポイ
ント寸法をもつ蓋然性の最も高い文字を使用してサブラ
インを確立する。
代豊匁Il サブライン情報はこれで可及的に正確に与えられたので
、作業バッファ内に格納されている幾つかの文字に対し
て可能性の組内に代替を配置させる0寸法及び配置の他
に、他の文字と同一が又は略同−に見える多数の文字が
存在する。これらを表3に示しである。
1、        I及びI C j          J m          M 0        0及びO p          p s          S u          U V                  VW    
             WX          
        Xy               
   yz                 Z退A
− 可能性の組       」 /       イタリックの1 イタリックのエ イタリックのI I         1. l、 1 エ        ドツト無し1 「代替配置」操作の間、可能性の組が検査され、且つ表
3中のこれらの文字の1つが可能性の層内に包含されて
いると、その1つ又はそれ以上の代替が、可能性の層内
の元の文字に割り当てられた確信度の値と共に、可能性
の組に付加される。このことは、可能性の組の中に既に
存在するかもしれない文字を二重とすることの無い様に
注意してなされる。
表3に示した文字に加えて、表4は、全く同一であるこ
とはまれであるけれども、光学的文字認識プロセスの間
のテキスト入力の光学的読取の間に屡々混乱を起すこと
のある幾つかの文字を示している。サブライン情報は表
4における文字対のどの文字が実際に適切であるかの付
加的な提供するので、可能性の層内の文字が代替列にお
ける文字に適したサブラインを持っている場合1代替は
可能性の組に付加される。重要なことであるが、第1図
の文字選択手段の1形態において、表3における文字は
それらの代替に対して同一でなくとも非常に類似して見
えるので、文字選択手段は表3の左側の列内に包含され
る文字を提供するのみである。然し乍ら、文字選択手段
は、それらが類似している為に、それらは誤りである場
合があり1つを別のものと混乱する場合もあるが、表4
内に包含されの文字の何れかを可能性の組へ与えること
が可能である0例えば、可能性の組が「1」を有してい
る場合1表3内に示されている代替(「I」及び「1」
)が可能性の組に付加される。
然し乍ら、サブライン情報も解析されて1表4内に包含
される文字が可能性の組に付加されるべきであるか否か
を決定する。与えられた例において。
可能性の組が「1」を包含する場合1文字の底部がベー
スラインの上又は近傍に位置しており、且つ文字の頂部
が小文字サブラインの上又は近傍にいちしてると、「i
」が可能性の組に付加され、解析中の未知の文字はrド
ツトの無いi」であると仮定する。同様に、可能性の組
がr9Jを包含しており且つ文字の底部がディセンダー
サブライン上又は近傍に位置しており、且つ文字の頂部
が小文字サブライン上又は近傍に位置している場合には
、rgJが可能性の組に付加される。この様に1表4中
の文字は、それらが解析中の未知の文字である蓋然性が
ある場合にのみ可能性の組に付加される。表3中の文字
は、後の分解(resoluti。
n)の為に可能性の組に常に付加される。
作業バッファ内の各文字に対して、補正した現在のサブ
ラインデータに整合しないことを画定することが可能で
あり且つ従って読取中の未知の文字である蓋然性のない
文字を可能性の組から出来れば除去する為に、その可能
性の組を分解させる。
然し乍ら、この分解ステップの間に、可能性の層内に元
もと包含されていた全ての文字候補が除去されると、こ
の分解ステップは読み取られた未知の文字を識別を援助
することにはならず、従って可能性の組の全ての要素は
、所望により、その他の装置(不図示)によって後の解
析の為に可能性の層内に残存する。
表呈 許可上部サブライン  許可下部サブライン基準文字 
AS  LS  BS  O3AS  LS  BS 
 DSAX                    
   Xa          X         
           XCx           
        xc         X     
            XIX          
          Xi     XX      
           XLX           
         X’      xx      
         xX  x           
   x xP    x             
      xp      x          
      x尚、 ASニアセンダーサブライン LS:小文字サブライン BS二ベースサブライン DS:ディセンダサブライン 可能性の組における各文字に対して、テーブルルックア
ップ即ち表参照が行われて(表5に示した如く)、その
文字が有効な蓋然性である場合、文字の頂部及び底部に
おいて又は近傍において夫々存在せねばならない許可さ
れた上部サブライン及び許可された下部サブラインを決
定する0例えば、可能性の組が「A」を包含しており、
且つ読み取った未知の文字に対応するデータが、その文
字の頂部はアセンダーサブライン又はその近傍にはなく
又はその文字の底部はベースサブライン又はその近傍に
ないことを表すものではない場合、未知の文字は「AJ
であるはずがない。同様に、未知の文字の処理のこの段
階において屡々見受けられることであるが、可能性の組
が「C」とrcJの両方を包含していることがある。こ
れらの両方の文字のテーブルルックアップを行うことに
よって、サブライン情報に基づいて、これらの文字の少
なくとも1つは不可能であることが決定され。
且つこの様な文字は、従って、可能性の組から除去され
る(全ての視覚を喪失した文字が除去された後に少なく
とも1個の文字が可能性の組に残ることが条件である)
。この様に、サブライン情報に基づいて、可能性の組が
最大限減少されたことになる。
本発明の1実施例において、文字が構成されているピー
ス即ち部分の数は何れかの前の処理ステップで決定され
ている。この情報も、屡々サブライン情報と共に使用さ
れて、可能性の組から文字を排除する6例えば、文字が
riJ又はrlJの何れかであると考えられ且つ2つピ
ース(部分)から構成されていることが分かっていると
、rlJが除外され「i」が保持される0文字の頂部が
アセンダーサブラインに最も近く、且つ文字の底部がベ
ースラインに最も近く、且つ文字が1つのピース即ち部
分を持つものであると、「i」を除外し且つrlJを保
持する。一方1文字の頂部が小文字サブラインに最も近
いと、文字は1つの部分からなる「ドツト無し」iであ
ると仮定され、rlJを除外しriJを保持する。
水圧ン上丈仄双定 本発明の1実施例において、処理中の各文字を識別する
データへその文字のポイント寸法の表示を付与するプロ
セスが実行される。多くの場合に、確認されたアセンダ
ーサブライン及び確認されたベースサブラインが文脈領
域内に位置されている。
これはケース■と呼ぶ、そうでない場合には、文脈領域
中に位置されているものは確認された小文字サブライン
とディセンダーサブラインである蓋然性がる(ケースI
I) 、ケースIもケースIIも存在しない場合には、
確認された小文字サブラインとベースサブラインとが存
在する可能性がある(ケースIII) 、残りのケース
(ケースIV)は1文脈領域中に、何れのタイプの確認
されたサブラインが存在しない場合である。ケース■乃
至IVを表6に示しである。
エ     アセンダー及びベース II      小文字及びディセンダーIII   
  小文字及びベース IV      なし ポイント寸法に関する限り、ケース■及びケースIIは
同一である。何故ならば、市販のタイプフォントにおい
ては、アセンダーサブラインとベースサブラインとの間
の距離h(第4図)は、小文字サブラインとディセンダ
ーサブラインとの間の距離に実質的に等しいからである
にの場合、この距離りを使用し、前述した如くに準備さ
れている「AJ文字文字タイ在高ストグラムを使用して
テーブルルックアップを打ち、このルックアップは、サ
ブライン間隔の成る所定の変化内のヒストグラムピーク
を見つけ出す為に行われる。換言すると、処理中の未知
の文字がアセンダーサブラインとベースサブラインとの
間に29画素のサブライン間隔りを持っていると、テー
ブルルックアップは1例えば、27−31画素の範囲に
渡って行われ、且つこの領域内に位置されているヒスト
グラムピークは、ポイント寸法の計算に関する限り。
この処理中の文字に対してのサブライン間隔として使用
される。
ケースIIIにおいて、「A」文字タイプ高さヒストグ
ラムは、小文字−ベースサブライン間隔であるdlo、
6乃至dlo、7の範囲に渡って最小にアクセスされ、
且つ、次いで、ピークが発見されると、「A」文字タイ
プ高さヒストグラムは、ポイント寸法を決定する目的の
為に、dlo、5乃至dlo、85の範囲に渡ってアク
セスされ、発見されたヒストグラムピークは処理中のこ
の文字に対してのサブライン間隔として使用される。
何等ピークが発見されない場合、dlo、67に最も近
い整数が処理中の文字に対してのサブライン間隔として
使用される。
ケースI+/において、サブライン情報は確認されてい
ないが、サブライン情報は処理中の各文字に対して存在
する。全ての文字はそれと、アセンダーアブラインとベ
ースサブライン、又は小文字サブラインとディセンダー
サブライン情報、又は両方と関連していたので、この情
報は、ケースI及びIIにおける如く、「A4A4文字
タイ在高ストグラムをアクセスする為に使用される。未
知の文字が、小文字及びディセンダーサブライン情報の
みならず、アセンダー及びベースサブライン情報を包含
していると、「AJ文字文字タイ在高ストグラムにアク
セスする為に7センダー及びベースサブライン情報を使
用することが望ましい。何故ならば、一般的に、小文字
及びディセンダサブラインを確立する為に使用される文
字の数と比較して、かなり多数の文字を使用してアセン
ダー及びベースサブラインを確立しており、その際にそ
れらの精度を向上させている。
ケースI乃至IVのどれが発生するかに拘らず、「AJ
文字文字タイ在高ストグラムを使用してテーブルルック
アップを一度行うと、その結果得られるサブライン間隔
は定数によって割られて、ポイント寸法を決定する0本
発明の1実施例においては、この定数は2.9に等しく
、それはポイント寸法が歴史的に表現されてきた独得の
態様に対応している。昔の場合には、ポイント寸法は、
rTJの頂部肩部(鉛のブロックの端部)の頂部とrp
Jの底部肩部の底部との間の距離として定義されており
、0.996インチの72分の1で測定しており、0.
996は低温と高温鉛の尺度の比を表す定数である。従
って、定数2.9は。
1画素が1/300インチに等しい場合にサブライン間
隔を画素数からポイント寸法へ最も正確に変換する。尚
、1インチは2.54cmである。
本発明の1実施例においては、処理時間を節約する為に
、サブライン間隔からポイント寸法への変換は、浮動小
数点割り算操作ではなくテーブルルックアップによって
行われる。
本発明の1実施例においては、ポイント寸法における変
動を滑らかにし、未知の文字の読取中のノイズの影響を
最小とする為に、ヒステリシスが使用される。即ち、ポ
イント寸法において変化を発生させる前に、逐次の文字
間のポイント寸法における許容可能な変化は所定数より
も大きくなければならない0本発明の1実施例において
、上述したケースI及びケースIIにおいて、それらの
サブライン情報は比較的正確であるから、上述した如く
決定されたポイント寸法は、ポイント寸法における変化
が有効であると考えられる為には、逐次の文字の間で1
つのポイント寸法を越えて変化せねばならない。ケース
III及びIvにおいて、サブライン情報はケース■及
びIIにおける程正確ではないので、前のポイント寸法
の値の1/4に等しいポイント寸法変化が、新しいポイ
ント寸法が有効であると考えられる前に発生せねばなら
ない。
その他のポイント寸法平滑化基準を使用可能であること
は勿論である。
f二久匪左 第2図に示した最終ステップとして、新たに計算された
サブラインとポイント寸法と変更された可能性の組と共
に、作業バッファ内に包含されるデータは、必要に応じ
、その後に処理の為に付加的な回路(不図示)へ出力さ
れる6次いで、第2図に示した如く、処理の為に更にデ
ータが与えられると、それは入力バッファ内にロードさ
れる。
入力バッファ内のデータは領域によって格納され且つ前
述した如く処理される。採取すべきデータが無い場合に
は、入力バッファ内のデータが前述した如く領域毎に処
理される。
以上5本発明の具体的実施の態様に付いて詳細に説明し
たが1本発明はこれら具体例にのみ限定されるべきもの
では無く、本発明の技術的範囲を逸脱すること無しに種
々の変形が可能であることは勿論である。
【図面の簡単な説明】
第1図は従来の光学的文字認識方式のブロック線図、第
2図は本発明の1実施例の動作を示したフローチャート
図、第3図は本発明に基づく光学的文字認識方式によっ
て読み取られたテキストのサンプルを示した説明図、第
4図は本発明に基づいて使用されるアセンダーサブライ
ン、小文字サブライン、ベースサブライン、ディセンダ
ーサブラインとの間の関係を示した説明図、である。 (符号の説明) 11:入カバターン 12:デジタイザ 13ニジステムメモリ 14:セグメンテーション 16:識別手段 17:出力手段 手続補正書(斌) 昭和62年3月4日 特許庁長官  黒 1)明 雄 殿 1、事件の表示   昭和61年 特 許 願 第23
1347号2、発明の名称   光学的文字認識方式に
おいて使用する処理手段3、補正をする者 事件との関係   特許出願人 名称    ザ パランチール コーポレーション4、
代理人  。

Claims (1)

  1. 【特許請求の範囲】 1、画素データとサブライン情報とからなる文字情報を
    解析する方法において、複数個の文字情報セグメントを
    フェッチし、前記各文字情報セグメントに対して前記サ
    ブライン情報が正確であるか否かを決定し、不正確な場
    合に前記サブライン情報をリセットする、上記各ステッ
    プを有することを特徴とする方法。 2、特許請求の範囲第1項において、前記サブライン情
    報が不正確化どうかを決定するステップは、前記文字情
    報の最上部及び最下部の画素を前記サブライン情報と比
    較することによって行われることを特徴とする方法。 3、特許請求の範囲第2項において、前記最上部及び最
    下部の画素は、そのサブライン情報が正確であると考え
    られる為には、該サブライン情報の2つの画素以内でな
    ければならないことを特徴とする方法。 4、特許請求の範囲第1項において、前記サブライン情
    報をリセットするステップは、文字の高さ及び文字のタ
    イプに関する情報を使用することによって行われること
    を特徴とする方法。 5、特許請求の範囲第4項において、該文字のタイプは
    、 「A」タイプ文字、即ち文字の最上部画素はアセンダー
    サブラインに対応し且つ文字の最下部の画素はベースラ
    インに対応している文字のグループ、 「a」タイプ文字、即ち文字の最上部画素は小文字のサ
    ブラインに対応し且つ文字の最下部画素はベースサブラ
    インに対応している文字のグループ、 「q」タイプ文字、即ち文字の最上部画素は小文字のサ
    ブラインに対応し且つ文字の最下部画素はディセンダー
    サブラインに対応している文字のグループ、 の中から選択されるものであることを特徴とする方法。 6、特許請求の範囲第4項において、文字のサブライン
    間隔は、サブライン情報をリセットするのに使用する為
    の相対的最大値を位置させる為にサブライン間隔のヒス
    トグラムをアクセスする為に使用されることを特徴とす
    る方法。 7、特許請求の範囲第6項において、前記ヒストグラム
    は各「a」タイプ文字に対してベースラインと小文字サ
    ブラインの間の距離の値の発生に対して維持された「a
    」文字タイプヒストグラムであることを特徴とする方法
    。 8、特許請求の範囲第7項において、「a」文字タイプ
    ヒストグラムは、hを「A」タイプ文字の高さとして、
    約0.6h乃至0.7hの範囲に渡って走査されて、「
    A」タイプ文字に関する小文字サブライン及びベースサ
    ブライン間の距離として使用する為の相対的な最大値を
    見つけ出すことを特徴とする方法。 9、特許請求の範囲第8項において、相対的な最大値が
    発見されない場合、「a」タイプ高さヒストグラムは約
    0.5h乃至0.85hの範囲に渡って走査されて相対
    的な最大値を見つけ出すことを特徴とする方法。 10、特許請求の範囲第9項において、相対的な最大値
    が見つけ出されなかった場合に、0.67hを最大値と
    して使用することを特徴とする方法。 11、特許請求の範囲第6項において、前記ヒストグラ
    ムは、各「A」タイプ文字に対してアセンダーサブライ
    ンとベースサブラインとの間の距離の値の発生に対して
    維持された「A」文字タイプヒストグラムであることを
    特徴とする方法。 12、特許請求の範囲第11項において、「A」文字タ
    イプ高さヒストグラムは、dを「a」タイプ文字の高さ
    として、約d/0.6乃至d/0.7の範囲上を走査さ
    せて、「a」タイプ文字に関してアセンダーサブライン
    とベースサブラインとの間の距離として使用する為の相
    対的最大値を見つけ出すことを特徴とする方法。 13、特許請求の範囲第12項において、相対的最大値
    が見つけだされなかった場合に、「A」文字タイプの高
    さヒストグラムを約d/0.5乃至d/0.85の範囲
    に渡って走査して相対的な最大値を見つけ出すことを特
    徴とする方法。 14、特許請求の範囲第13項において、相対的な最大
    値が発見されなかった場合に、d/0.67を最大値と
    して使用することを特徴とする方法。 15、特許請求の範囲第1項において、前記サブライン
    情報をリセットするステップは、前記複数個の文字情報
    セグメントの選択したその他の文字のサブライン情報を
    使用することによって行われることを特徴とする方法。 16、特許請求の範囲第15項において、前記選択した
    その他の文字は既知の正確なサブライン情報を持ってい
    ることを特徴とする方法。 17、特許請求の範囲第15項において、前記選択した
    文字及び該リセットされる文字情報セグメントは、正確
    なサブライン情報を持った2つの文字の間に位置されて
    いる2つの隣接する文字の間に位置されている最大の間
    隙の同じ側上の前記複数個の文字セグメント内に位置さ
    れていることを特徴とする方法。 18、パターン情報を解析する方法において、前記パタ
    ーン情報に対応する可能性のある1つ又はそれ以上のパ
    ターンを包含する可能性の組を形成し、前記可能性の組
    に前記可能性の組に包含されている要素に類似する代替
    要素を付加する、上記ステップを有することを特徴とす
    る方法。 19、特許請求の範囲第18項において、前記パターン
    は文字であることを特徴とする方法。 20、文字情報を解析する方法において、前記文字情報
    に対応する可能性のある1つ又はそれ以上の文字を包含
    する可能性の組を形成し、前記可能性の組内に包含され
    ている要素を関連するサブライン情報と比較し、前記可
    能性の組からサブライン情報に合致しない文字を除去す
    る、上記各ステップを有することを特徴とする方法。 21、文字のポイント寸法を決定する方法のいて、文字
    のサブライン情報を決定し、該サブライン情報を使用し
    て文字高さヒストグラムにおいて相対的な最大値を見つ
    け出し、前記相対的な最大値を使用してポイント寸法を
    画定する、上記各ステップを有することを特徴とする方
    法。 22、特許請求の範囲第21項において、前記相対的な
    最大値は定数で割ってポイント寸法を画定することを特
    徴とする方法。 23、特許請求の範囲第22項において、前記定数は、
    1つの画素が1/300インチと等しい場合に、2.9
    であることを特徴とする方法。 24、特許請求の範囲第22項において、前記相対的な
    最大値を使用してテーブルルックアップ操作を実施しポ
    イント寸法を画定することを特徴とする方法。 25、特許請求の範囲第21項において、ポイント寸法
    において有効な変化と考えられる為には、隣接する文字
    間のポイント寸法変化が選択した量よりも大きくなけれ
    ばならないことを特徴とする方法。 26、特許請求の範囲第25項において、前記選択した
    量は1ポイント寸法であることを特徴とする方法。 27、特許請求の範囲第25項において、前記選択した
    量は前の文字に対して計算されたポイント寸法の選択し
    た一部であることを特徴とする方法。 28、特許請求の範囲第27項において、前記選択した
    一部は1/4であることを特徴とする方法。
JP61231347A 1985-10-01 1986-10-01 文字タイプ決定方法 Expired - Fee Related JP2697790B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78274285A 1985-10-01 1985-10-01
US782742 2007-07-25

Publications (2)

Publication Number Publication Date
JPS62187988A true JPS62187988A (ja) 1987-08-17
JP2697790B2 JP2697790B2 (ja) 1998-01-14

Family

ID=25127033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61231347A Expired - Fee Related JP2697790B2 (ja) 1985-10-01 1986-10-01 文字タイプ決定方法

Country Status (1)

Country Link
JP (1) JP2697790B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置
JPH0573723A (ja) * 1991-09-17 1993-03-26 Oki Electric Ind Co Ltd 文字分類方法及び文字認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JPS59109979A (ja) * 1982-12-15 1984-06-25 Ricoh Co Ltd 文字分類処理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JPS59109979A (ja) * 1982-12-15 1984-06-25 Ricoh Co Ltd 文字分類処理方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置
JPH0573723A (ja) * 1991-09-17 1993-03-26 Oki Electric Ind Co Ltd 文字分類方法及び文字認識装置

Also Published As

Publication number Publication date
JP2697790B2 (ja) 1998-01-14

Similar Documents

Publication Publication Date Title
JP3576570B2 (ja) 比較方法
US5410611A (en) Method for identifying word bounding boxes in text
US6038342A (en) Optical character recognition method and apparatus
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US4918740A (en) Processing means for use in an optical character recognition system
JPH0772905B2 (ja) 記号列の認識方法
JP3452774B2 (ja) 文字認識方法
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
US5046114A (en) Method and structure for separating joined patterns for use in pattern and character recognition system
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JPH05242292A (ja) 分離方法
JPH0660169A (ja) パターン認識と妥当性検査の方法及び装置
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
WO2022148396A1 (zh) 芯片采集方法和芯片定位方法
US6968501B2 (en) Document format identification apparatus and method
US5119441A (en) Optical character recognition apparatus and method using masks operation
JPS62187988A (ja) 光学的文字認識方式において使用する処理手段
JP4228592B2 (ja) 文字認識装置
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
Peng et al. Document image matching based on component blocks
JP2576080B2 (ja) 文字切出し方法
JP3193472B2 (ja) 複合的な情報の構築方式
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPS6394386A (ja) 印字文字ピツチ検出装置
JP2683116B2 (ja) 罫線の除去方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees