JPS63216189A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPS63216189A
JPS63216189A JP62049172A JP4917287A JPS63216189A JP S63216189 A JPS63216189 A JP S63216189A JP 62049172 A JP62049172 A JP 62049172A JP 4917287 A JP4917287 A JP 4917287A JP S63216189 A JPS63216189 A JP S63216189A
Authority
JP
Japan
Prior art keywords
character
label
recognition
symbols
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62049172A
Other languages
English (en)
Other versions
JPH07104909B2 (ja
Inventor
Hideaki Tanaka
秀明 田中
Morihiro Katsurada
守啓 桂田
Minehiro Konya
峰弘 紺矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP62049172A priority Critical patent/JPH07104909B2/ja
Priority to US07/164,347 priority patent/US4860376A/en
Publication of JPS63216189A publication Critical patent/JPS63216189A/ja
Publication of JPH07104909B2 publication Critical patent/JPH07104909B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、英数字用の光学的文字読取装置(以下OCR
と略する)の文字認識における相似形・同形の大小文字
や記号の判定方式に関する。
(従来の技術及び発明が解決しようとする問題点)英文
中には、相似形の大小文字(Cとc、 SとS等)や、
同形の記号(、,・)、または切れが発生し2つに誤認
識されるもの(”=、°)などが存在する。
英数字用OCRにおいて、このような文字・記号の認識
は、辞書パターンとのマツチングだけでの判別は困ガ■
である。
従来は、第12図のように、抽出した行の水平方向のヒ
ストグラムから、検出ラインを求める方法や、行幅から
しきい値を求める方法などが行われている。しかし、第
13図のように、行の水平方向ヒストグラムに明確な谷
が現れない場合や、第14図(a) 、 (b) 、 
(c)のように、行幅から最適なしきい値を設定できな
い場合が発生するので、実際には上記文字・記号の判別
は困難な問題である。
本発明の目的は、英数字用OCRの文字認識において、
相似形・同形の大小文字や記号などを判定する方法を提
供することである。
(問題点を解決するための手段) 本発明に係る文字認識方式は、画像イメージを読み取り
、行イメージを抽出し、行イメージより個別文字のイメ
ージを抽出し、辞書パターンとのマツチングをとること
により文字を認識する英数字用光学的文字認識装置にお
いて、 抽出した個別文字の上端位置と下端位置の文字列におけ
ろ相対的な位置を判別し、それぞれ、上部ラベル・下部
ラベルとし、上部・下部ラベルと各英数字・記号との対
応が予め定められていて、上記の文字列において文字認
識手段による最初の文字認識結果か上部・下部ラベルと
矛盾する場合は、その各文字に対応して各ラベルを修正
し、記憶手段に記憶するラベル設定手段と、 相似形・同形の所定の文字・記号に関して、ラベル設定
手段により設定された上部・下部ラベルと文字認識手段
による最初の認識結果とが矛盾する場合は、上部ラベル
・下部ラベルに対応してその文字・記号の認識結果を修
正する判定手段を有することを特徴とする。
(作 用) 文字の認識において、マツチングにより判別の困難な相
似形・同形の文字・記号に対して、各文字の相対的な位
置関係や大きさと認識結果を用いて、認識結果を修正す
る。
(実施例) 以下、添付の図面を参照して本発明の詳細な説明する。
第1図に、文字認識のフローを示す。
第2図に、本実施例に係るOCRのブロック図を示す。
スキャナlは、原稿ガラス上の原稿をラインセンサで読
み取り、A/D変換を行い、次に、Haデータに変換す
る。ラインセンサを副走査方向に駆動して全原稿を読み
とる(ステップ91)。
スキャナlて読み取られた画像の2値データは、イメー
ジバッファに一旦格納される。認識制御部(マイクロプ
ロセッサを含む)3は、イメージバッファ2に格納され
た2値パターンからラインを抽出し、ラインバッファ4
に格納する(ステップS2)。次に、認識制御部3は、
ラインバッファ4に格納された2値パターンから個別文
字を切り出し、1文字バッファ5に格納する。さらに、
その文字の位置と大きさを検出する(ステップS3)。
認識制御部3はその文字の特徴を抽出し、1文字特徴バ
ッファ6に格納する。認識部7は、その特徴と辞書メモ
リ8の辞書パターンとマツチングを行い、文字を認識す
る(ステップS4)。認識制御部3は、この文字認識に
おいて、後で説明するように、相似形・同形の大小文字
や記号を判定するため、切り出された各文字の相対的な
位置関係、大きさ、さらに認識結果も用いて、各文字に
対し切り出し位置ラベルを設定し、それにより上記の文
字・記号の判定を行う。
次に、判定の手法の手順を説明する。
a)認識制御部3は、切り出してきた単語について、切
り出された6文字の相対的な位置関係や犬きさ、さらに
認識結果も用いて、認識制御部3の」二部ラベルバッフ
ァと下部ラベルバッファにおいて、各文字に対し上部と
下部の切り出し位置ラベルを設定する(ステップ511
)。
■ 切り出してきた単語(第3図)で、各文字の垂直方
向の上部切り出し位置列U==(u、、u、、・・・、
un)から最小値(min)を、下部切り出し位置列D
−(d、。
d3.・・・、dn)から最大値(max)を求める。
■ しきい値T −(max−min)/ 7とし、次
の条件l ui −minl <T l cl −max l < T    (i= 1 
、2 、・、n)を満たす文字(i番目)の上部・下部
ラベルバッファに2を設定する(第4図)。
■ ■によってラベルを設定出来なかった残りの上部・
下部切り出し位置列から、それぞれ上部・下部平均(h
、 、hd)を求め、■と同じしきい値Tを用い、次の
条件を満たす文字(i番目)の上部・l Ui −h、
 l <T ]d−−h  l<’r    (i=I、2.−、n
)u 下部ラベルバッファに1を設定する(第5図)。
■ 上部・下部ラベルのテーブルと認識部7の第−位認
識結果より、■から■まてで設定されたラベルに矛盾が
生じた場合、第−位認識結果に対応してラベルを設定し
直す(第6図、ステップ513)。
b)以上でラベルの設定が終了し、次から認識結果の判
定・修正に入る。
1)大小文字の修正 誤認識しやすい相似形の大小文字(例えば、0と0、■
とVなと)には常に次の関係がある。
小文字のラベル  (1,1) 大文字のラベル  (2,1) ただし、(上部切り出しラベル、下部切り出しラベル) この関係を用いてラベルの組に対応して認識結果の修正
を行う(第7図、ステップ514)。
11)、と、の判定 ラベルが(0,1)または(0,2)の文字のうち」二
部切り出し位置がラベル(1,1)の文字(e、a  
、等)の中心線に対して第8図(a)、(t+)のよう
に下にある場合、その文字を、または、であると判定す
る(ステップS’15)。
1ii)’  と”と、の判定 ラベルが(2,0)の文字で下部切り出し位置がラベル
(1,1)の文字の中心線に対して第9図(a) 、 
(b)のように上にある場合、その文字を゛ とみなし
、2個連続する場合 ”に修正する。また、認識結果が
、でもラベルが(2,0)の文字(第1O図(a))と
、認識結果か°でもラベルが(0,2)の文字(第1O
図(b))は、それぞれ、゛ と、に認識結果を修正す
る(ステップS I 6)。
1ν)−と・の判定 ラベルが(0,0)の文字で上部・下部切り出し位置が
第11図の場合でかつ縦横比が1;3以上の場合、−と
判定し、1:3以下の場合、・と判定する(ステップ5
17)。
以上の判定の後、文字認識結果を、J I Sコードに
変換する(ステップ518) (発明の効果) 英数字OCRにおいて、相似形・同形の大小文字・記号
の識字率が向上する。
【図面の簡単な説明】
第1図は、文字判定のフローチャートである。 第2図は、OCRのブロック図である。 第3図は、単語の一例の2値イメージの図である。 第4図と第5図は、それぞれ、第3図の2値イメージの
各文字に対する上部ラベルと下部ラベルの初期値と設定
値を示す図である。 第6図は、第1位認識結果に対応してラベルを設定し直
す例を示す図である。 第7図は、大小文字の修正を示す図である。 第8図(a) 、 (b)は、それぞれ、ピリオドの判
定を示す図である。 第9図(a) 、 (b)は、それぞれ、°の判定を示
す図である。 第10 (a)、(b)図は、それぞれ1.の判定を示
す図である。 第11図は、−の判定を示す図である。 第12図は、行の水平方向のヒストグラムから検出ライ
ンを求める方法を示す図である。 第13図は、行の水平方向のヒストグラムに明確な谷か
現われない例を示す図である。 第14図(a) 、 (b) 、 (c)は、それぞれ
、行幅から最適なしきい値が設定できる例を示す図であ
る。 3・・・認識制御部、   7 認識部。 特許出願人     シャープ株式会社代  理  人
 弁理士 前出 葆ほか2名笛 1 ズ 藁21 第3図 *41’に 000002 000  上部ラベルバッファcomp
uter。 000200000   下部ラベルバヅ7ア筑57 +   1   +   1  12110   上部
ラベ1ジノでソファcomputer。 1  1  1  21  1117    下部ラベ
ルバッファ第67 2M22         2122 tauA =>  taf2A t7図 COmm u n LCOt LOn  認識結果1 
 +  11111111111    下部ラベルバ
ッファco mmu  n  jcatjo n冥87 (b)    1  0 市9間 官10つ (a) 舅11コ end。

Claims (1)

    【特許請求の範囲】
  1. (1)画像イメージを読み取り、行イメージを抽出し、
    行イメージより個別文字のイメージを抽出し、辞書パタ
    ーンとのマッチングをとることにより文字を認識する英
    数字用光学的文字認識装置において、 抽出した個別文字の上端位置と下端位置の文字列におけ
    る相対的な位置を判別し、それぞれ、上部ラベル・下部
    ラベルとし、上部・下部ラベルと各英数字・記号との対
    応が予め定められていて、上記の文字列において文字認
    識手段による最初の文字認識結果が上部・下部ラベルと
    矛盾する場合は、その各文字に対応して各ラベルを修正
    し、記憶手段に記憶するラベル設定手段と、 相似形・同形の所定の文字・記号に関して、ラベル設定
    手段により設定された上部・下部ラベルと文字認識手段
    による最初の認識結果とが矛盾する場合は、上部ラベル
    ・下部ラベルに対応してその文字・記号の認識結果を修
    正する判定手段を有することを特徴とする文字認識方式
JP62049172A 1987-03-04 1987-03-04 文字認識方法 Expired - Lifetime JPH07104909B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62049172A JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法
US07/164,347 US4860376A (en) 1987-03-04 1988-03-04 Character recognition system for optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62049172A JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法

Publications (2)

Publication Number Publication Date
JPS63216189A true JPS63216189A (ja) 1988-09-08
JPH07104909B2 JPH07104909B2 (ja) 1995-11-13

Family

ID=12823648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62049172A Expired - Lifetime JPH07104909B2 (ja) 1987-03-04 1987-03-04 文字認識方法

Country Status (2)

Country Link
US (1) US4860376A (ja)
JP (1) JPH07104909B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163681A (ja) * 1989-11-21 1991-07-15 Hitachi Ltd 文字認識装置
JPH0684016A (ja) * 1992-04-07 1994-03-25 Internatl Business Mach Corp <Ibm> 手書き文字の認識システムにおけるケースの混同の解決方法
US5369715A (en) * 1990-04-27 1994-11-29 Sharp Kabushiki Kaisha Optical character recognition system

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5048113A (en) * 1989-02-23 1991-09-10 Ricoh Company, Ltd. Character recognition post-processing method
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
DE69132789T2 (de) * 1990-05-14 2002-05-23 Canon Kk Verfahren und Gerät zur Bildverarbeitung
US5212739A (en) * 1990-10-17 1993-05-18 Hewlett-Packard Company Noise tolerant optical character recognition system
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
JP3516269B2 (ja) * 1991-11-19 2004-04-05 ゼロックス コーポレイション 文書イメージの処理装置
US5657403A (en) * 1992-06-01 1997-08-12 Cognex Corporation Vision coprocessing
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
US6256408B1 (en) 1994-04-28 2001-07-03 International Business Machines Corporation Speed and recognition enhancement for OCR using normalized height/width position
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
US5940583A (en) * 1994-11-15 1999-08-17 Canon Kabushiki Kaisha Image forming apparatus
US20170004410A1 (en) * 2015-07-03 2017-01-05 Christopher William Paran Standardized process to quantify the value of research manuscripts

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
US3295105A (en) * 1964-08-27 1966-12-27 Sylvania Electric Prod Scan control and normalization for a character recognition system
US3651459A (en) * 1970-05-15 1972-03-21 Philco Ford Corp Character distance coding
US4075605A (en) * 1974-09-13 1978-02-21 Recognition Equipment Incorporated Character recognition unit
US4024500A (en) * 1975-12-31 1977-05-17 International Business Machines Corporation Segmentation mechanism for cursive script character recognition systems
JPS58103075A (ja) * 1981-12-16 1983-06-18 Toshiba Corp 文字読取装置
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
JPS6180478A (ja) * 1984-09-27 1986-04-24 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション デ−タ入力・表示システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163681A (ja) * 1989-11-21 1991-07-15 Hitachi Ltd 文字認識装置
US5369715A (en) * 1990-04-27 1994-11-29 Sharp Kabushiki Kaisha Optical character recognition system
JPH0684016A (ja) * 1992-04-07 1994-03-25 Internatl Business Mach Corp <Ibm> 手書き文字の認識システムにおけるケースの混同の解決方法

Also Published As

Publication number Publication date
JPH07104909B2 (ja) 1995-11-13
US4860376A (en) 1989-08-22

Similar Documents

Publication Publication Date Title
JPS63216189A (ja) 文字認識方法
US5212739A (en) Noise tolerant optical character recognition system
JP4553241B2 (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPH1139428A (ja) 文書映像の方向修正方法
JPS63182793A (ja) 文字切り出し方式
JPS63146187A (ja) 文字認識装置
JPS59158482A (ja) 文字認識装置
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JPH06348911A (ja) 英文字認識装置
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JP2002157552A (ja) 光学式文字読取装置
JPH0119193B2 (ja)
JPH01265378A (ja) 欧文文字認識方式
JPH01277989A (ja) 文字列パターン読み取り装置
JPH02230484A (ja) 文字認識装置
JPH0749924A (ja) 手書き文字認識装置
JPS6160184A (ja) 光学的文字読取装置
JP2578767B2 (ja) 画像処理方法
JPH0816720A (ja) 文字認識装置
JPH0576674B2 (ja)
JPH02132577A (ja) 文字認識結果の修正方法
JPH02245887A (ja) 文字認識装置
JPH0484380A (ja) 文字認識装置
JPH08339424A (ja) 画像処理装置及び方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term