JPS63269267A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPS63269267A
JPS63269267A JP62103008A JP10300887A JPS63269267A JP S63269267 A JPS63269267 A JP S63269267A JP 62103008 A JP62103008 A JP 62103008A JP 10300887 A JP10300887 A JP 10300887A JP S63269267 A JPS63269267 A JP S63269267A
Authority
JP
Japan
Prior art keywords
density
character
data
dictionary
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62103008A
Other languages
English (en)
Other versions
JP2675303B2 (ja
Inventor
Toshiaki Yagasaki
矢ケ崎 敏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP62103008A priority Critical patent/JP2675303B2/ja
Publication of JPS63269267A publication Critical patent/JPS63269267A/ja
Application granted granted Critical
Publication of JP2675303B2 publication Critical patent/JP2675303B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、文字認識装置、特に配列された文字を認識す
る文字認識装置に関するものである。
[従来の技術] 従来、この種の装置は、文章の中から1文字ずつの文字
に切り出し、切り出された文字に対して大きさ・位置を
補正する前処理が実行される。更に、前処理により正規
化された文字は、情報収縮の形で特徴ベクトル空間が作
られる。このベクトル空間と予め作られている辞書デー
タとのマツチング処理が実行され、認識結果を出力する
このように、構成されている文字認識装置においては、
前処理の正規化の段階で小文字、大文字、特殊文字もす
べて同じ大きさになってしまうため、 (1) 特殊文字(ex 、。)はアルファベットの“
0”と間違えやすい。
(2)入力文字データと辞書に対して全てアクセスする
ため時間がかかる。
(3)対象する辞書データが多いことで、誤認識も増え
る傾向にある。
[発明が解決しようとする問題点] 本発明は、上記の欠点を除去し、アクセスする辞書デー
タを少なくし、更に文字データに応じて特徴抽出を変え
て、認識率の向上と高速化を図った文字認識装置を提供
する。
[問題点を解決するための手段] この問題点を解決するための一手段として、本発明の文
字認識装置は、配列された文字を認識する文字認識装置
であって、所定方向に配列されたパターンを分離する分
離手段と、該分離手段により分離された前記パターンの
濃度を検出する濃度検出手段と、該濃度検出手段が検出
した濃度に対応した辞書に基づいて、前記パターンを認
識する認識手段とを備える。
[作用] かかる構成において、分離手段により配列されたパター
ンから分離されたパターンの濃度を濃度検出手段で検出
し、認識手段は濃度に対応した辞書に基づいて、前記パ
ターンを認識する。
[実施例] 第2図(a)は従来の文字認識装置の構成を示すブロッ
ク図、第2図(b)は従来の文字認識装置の処理フロー
チャートである。
従来の文字認識装置は、人力部21とCPU22とRO
M23とRAM24と認識辞書25と出力部26とを備
え、入力部21より文書をイメージデータで人力すると
、CPU22によりROM23に格納された処理プログ
ラムに従って、RAM24をイメージデータの記憶及び
補助記憶として使いながら、文字の切り出し、正規化、
認識を行い、表示装置や記憶装置等の出力部26より出
力する。
その動作を第2図(b)のフローチャートに従って説明
する。ステップ5200で人力部21から入力文書デー
タが入力される。ここではスキャナで入力する。このス
キャナは入力文章をイメージデータに変換するが、一般
的にCCD等のセンサを使うと、イメージデータはアナ
ログ値を示す、該アナログ値を2値化(0,1のパター
ン)するのが、ステップ5201である。2値化された
イメージデータはイメージメモリのRAM24に格納さ
れ、ステップ5202で文字の切り出しが行われる。
文字の切り出しを第3図の入力文書例に従って説明する
。イメージデータをX方向にスキャンして、Y方向ヒス
トグラムを求める。これがHYIIであり、ライン毎に
発生するパルス波形毎に文字列の判別を行う。第3図で
は■〜■が文字列とみなされるやさらに文字列毎に分離
して、それぞれに対してX方向ヒストグラムをとる。
第3図では0列に関して示してあり、これが“HX”で
ある。これにより、1文字車位に文字が切り出される。
■〜のがその結果である。
該結果を文字毎に表わしたのが第4図に示される。第4
図に示されるようにI(Y %つまりY方向の幅はすべ
て同一の間隔であることがわかる。
一方、HXに関しては文字の幅の大きさで変化する。つ
まり、402,403はほぼ文字外形によって切り出さ
れ、402はHYの中心に位置し、外形としては401
とほぼ同じになる。一方、404〜407に関し〔細長
のデータが作られる。
ステップ5203では切り出された第4図のようなデー
タに関して平滑化処理がなされる。特にここでは孤立画
像の除去(ノイズ除去)が中心である。ステップ520
4では短形図形の抽出が行われ、第5図に示されるよう
にする。ここでは、これをf(i)とする。ステップ5
205ではステップ5204で抽出された短形図形に関
して、大きさの正規化をするための変倍率gがF ’/
f(i)により計算される。ただし、F′は特徴抽出さ
れる画像パターンの大きさである。つまり、第5図で求
められた図形が32X32の画素からなっていて、特徴
抽出されるべき画像パターンが64X64のときは、変
倍率gとして2が得られる。このgから、F(1)(正
規化される最終の画像パターン)がg*f (i)によ
りステップ5206で作り出される。
ステップ5207ではこのパターンの特徴抽出が実行さ
れ、ステップ3208で認識辞書25に基づいて識別処
理がなされ、ステップ5209で認識結果が出力部26
に出力される。この場合、候補文字という形で複数個出
力することが多い。
第1図(a)は本発明の一実施例の文字認識装置のブロ
ック図であり、第1図(b)は処理フローチャートであ
る。本実施例の文字認識装置は、入力部11と、CPU
12、ROM13、RAM14、辞書15a、辞書15
bと出力部16とを備えている。よって、入力部11よ
り文書イメージデータを入力すると、CPU12により
ROM13に格納された処理プログラムに従って、RA
M14にロードされたイメージデータより文字の切り出
し等の処理が実行される。該切り出された文字は、その
黒画素の量によって文字の特徴ベクトル空間の作成手順
を制御し、該手順に応じた辞書をアクセスして識別を行
い、結果を出力部16に・ディスプレイする。
それらの動作を第1図(b)の処理フローチャートに従
って説明する。ステップ5lot〜5104は、前述の
ステップ5200〜3203と同一の処理を行う。ステ
ップ5107では、切り出し文字データの文字を形成す
る黒画素データをカウントする。つまり、上記データの
アドレスf (x、y)をすべてアクセスし、f (x
、y)=1のとき、和:sumをカウントアツプしてい
く。
このように計算されたsunは、ステップ5108aで
所定量n、と比較する。つまり、Sumの値は、切り出
された文字の複雑さに応じて変化する。つまり、特殊文
字“。”、“、”、:′″、“、″などは、sumの値
が小さくなる。この特徴を利用することで、特殊文字で
あると判断できる。n、に対応して、辞書15bには特
殊文字のデータ及び簡単な文字のデータを格納しておく
。一方、辞書15aには文字データと、濃度に応じてn
lの上下に変化しそうな特殊文字とを格納して、誤認識
の軽減を図る。ここでは図示されていないが、ステップ
5108aのn、値を複数設けることで、特殊文字、非
漢字(一部の漢字)、漢字データ等と分けることも可能
となる。つまり、黒画素データによる大分類を実行する
次にステップ5109.ステップ5113ではそれぞれ
の文字の大きさ9位置合わせなどの正規化を行い、ステ
ップ5110では該文字の64次元の特徴ベクトル空間
を求める。つまり、ステップ5110へ行く文字につい
ては、より詳細なベクトル空間を算出する。
一方、ステップ5114では、文字の単純性からベクト
ル空間を16次元として処理の高速性を得る。そして、
これらの結果よりステップ5112,116で、それぞ
れの辞書15a。
15bをアクセスして識別処理を実行後、ステップ51
17で結果を出力部16に出力する。
第2の実施例として、黒画素の密度により辞書15a、
15bを分けた例を説明する。第1図(C)は第2の実
施例の処理フローチャートであり、第1図(b)と同じ
部分は除いである。
ステップ5103の文字の切り出しステップ5104の
平滑化の後は、ステップ5105で上記切り出された文
字、つまり第5図で求められた文字エリアを算出し、こ
のデータによりステップ5106でx、yの平均値の算
出が行われ、x×3/X16(16本/ m mのとき
)の結果を矩形領域の平均値AV、に代入する。ステッ
プ5107では、第5図で求められたデータより黒画素
データが求められる。その結果をSun (J)(j=
1、・・・k:には文字の個数)とする。
ステップ5108b”t’5un(j)をAV、で割り
、黒画素データの密度が算出される。そして、所定値n
2と大小比較することで、ステップ5113に進むかス
テップ5109に進むかが決定される。つまり、ここで
文字形成画素データの少ない文字“。“、“、”、“;
“、“、”などは、ステップ5113に進むことになる
。以下は、辞書15a、15bの内容が変るだけで、第
1図(b)と同様に、ステップSl 11.ステップ5
115では、それぞれの辞書15a。
15bをアクセスして識別処理がなされ、ステップSt
tフで出力されることになる。
尚、特徴抽出のステップ3114.3110を処理フロ
ーチャートに従って変えることで、処理スピードの改善
が更に図れる。これは、ステップ5109に進む処理は
、密度が高いということで文字の複雑性が推定できるの
で、次元数を増やすことが必要であり、ステップ511
3側は次元数の低減を図る。
ここで、本発明で用いたベクトル空間について説明する
。第6図(a)が16次元であり、第6図(b)は64
次元でもとめる方法である。
第6図(a)は、″。”に関する特徴抽出であり、上記
フローチャートではステップ5114で特徴抽出を行う
。この特徴抽出では、正規死後図示されるように4等分
に分けられる。それぞれの領域で→成分、/成分、i成
分、\成分により、データの輪郭線を追跡してベクトル
空間を求める。よって、ベクトル空間は、A領域では(
al t a’2 +  3 + 84 )% B領域
では(b+ 、b2+  b3.b4)、c、Dも同様
に4次元空間として求まり、トータルでは16次元とな
る。第6図(b)では、4X4X4で64次元となる。
尚、第1図(b)、(c)のステップ 5108a、bの判別を多段階設けることで、文字の複
雑性による大分類を達成することが容易となる。このと
き多数の辞書で辞書データを1つしかもっていないと、
データの濃度などで誤った辞書をアクセスする可能性が
あるので、データは複数の辞書にわたって格納する必要
がある。
本実施例では黒画素数を見たが、白画素によっても実現
できる。
[発明の効果コ 本発明により、アクセスする辞書データを少なくし、更
に文字データに応じて特徴抽出を変えて、認識率の向上
と高速化を図った文字認識装置を提供できる。
【図面の簡単な説明】
第1図(a)は本実施例の文字認識装置のブロック図、 第1図(b)、(c)は本実施例の文字認識装置の処理
フローチャート、 第2図(a)は従来の文字認識装置のブロック図、 第2図(b)は従来の文字認識装置の処理フローチャー
ト、 第3図は入力文書例を示す図、 第4図は文字の切り出しを示す図、 第5図は第4図の文字に対応する矩形図形を示す図、 第6図(a)、(b)はベクトル空間を説明する図であ
る。 図中、11・・・人力部、12・・・cpu、t3・・
・ROM、14−RAM、15a、15b−辞書、16
・・・出力部である。 第1図(a) 第1図(C) 第2図(0) 第6図(G) 第6図(b)

Claims (4)

    【特許請求の範囲】
  1. (1)配列された文字を認識する文字認識装置において
    、 所定方向に配列されたパターンを分離する分離手段と、 該分離手段により分離された前記パターンの濃度を検出
    する濃度検出手段と、 該濃度検出手段が検出した濃度に対応した辞書に基づい
    て、前記パターンを認識する認識手段とを備えることを
    特徴とする文字認識装置。
  2. (2)濃度検出手段は、分離された矩形領域内のパター
    ンを形成する画素数を数えることを特徴とする特許請求
    の範囲第1項記載の文字認識装置。
  3. (3)濃度検出手段は、分離された矩形領域内のパター
    ンを形成する画素数を検出し、該画素数を前記矩形領域
    の平均の大きさで割算したものを濃度とすることを特徴
    とする特許請求の範囲第1項記載の文字認識装置。
  4. (4)認識手段は、パターンの特徴を抽出する抽出手段
    を備え、該抽出手段は濃度検出手段が検出した濃度に対
    応して、特徴抽出を異ならしめることを特徴とする特許
    請求の範囲第1項記載の文字認識装置。
JP62103008A 1987-04-28 1987-04-28 文字認識方法 Expired - Fee Related JP2675303B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62103008A JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62103008A JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Publications (2)

Publication Number Publication Date
JPS63269267A true JPS63269267A (ja) 1988-11-07
JP2675303B2 JP2675303B2 (ja) 1997-11-12

Family

ID=14342626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62103008A Expired - Fee Related JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Country Status (1)

Country Link
JP (1) JP2675303B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0535992A2 (en) * 1991-10-04 1993-04-07 Canon Kabushiki Kaisha Method and apparatus for image enhancement
US7397952B2 (en) 2002-04-25 2008-07-08 Microsoft Corporation “Don't care” pixel interpolation
US7764834B2 (en) 2002-04-25 2010-07-27 Microsoft Corporation System and method facilitating document image compression utilizing a mask

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0535992A2 (en) * 1991-10-04 1993-04-07 Canon Kabushiki Kaisha Method and apparatus for image enhancement
US5351314A (en) * 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
US7397952B2 (en) 2002-04-25 2008-07-08 Microsoft Corporation “Don't care” pixel interpolation
US7764834B2 (en) 2002-04-25 2010-07-27 Microsoft Corporation System and method facilitating document image compression utilizing a mask

Also Published As

Publication number Publication date
JP2675303B2 (ja) 1997-11-12

Similar Documents

Publication Publication Date Title
JPH11120293A (ja) 文字認識/修正方式
Ali et al. An efficient character segmentation algorithm for recognition of Arabic handwritten script
JPS63269267A (ja) 文字認識方法
Jameel et al. A REVIEW ON RECOGNITION OF HANDWRITTEN URDU CHARACTERS USING NEURAL NETWORKS.
US11270146B2 (en) Text location method and apparatus
JP2640472B2 (ja) 文字認識方法
Premaratne et al. Recognition of printed sinhala characters using linear symmetry
KR950011065B1 (ko) 문자 인식방법
Soua et al. Efficient multiscale and multifont optical character recognition system based on robust feature description
KR100480024B1 (ko) 획의두께정보를이용한모음인식방법
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH0562021A (ja) 標準フオント及び利用者指定カスタムフオントを認識するための光学式文字認識(ocr)システム
KR100248384B1 (ko) 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템
JP3151866B2 (ja) 英文字認識方法
Kim et al. Segmentation of touching characters in printed Korean/English document recognition
JPS6089290A (ja) パタ−ン認識方法
JPS63150783A (ja) 文字認識装置
JP3277977B2 (ja) 文字認識方法
JPS63150785A (ja) 文字認識装置
JP2851865B2 (ja) 文字認識装置
JPS63150786A (ja) 文字認識装置
JPH03126188A (ja) 文字認識装置
JPS63126082A (ja) 文字認識方式
JPS63150784A (ja) 文字認識装置
JP2972443B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees