JPS63131287A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPS63131287A
JPS63131287A JP61277106A JP27710686A JPS63131287A JP S63131287 A JPS63131287 A JP S63131287A JP 61277106 A JP61277106 A JP 61277106A JP 27710686 A JP27710686 A JP 27710686A JP S63131287 A JPS63131287 A JP S63131287A
Authority
JP
Japan
Prior art keywords
character
feature
dictionary
pattern
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61277106A
Other languages
English (en)
Inventor
Michiyoshi Tachikawa
道義 立川
Masayuki Ishigami
正之 石上
Hiromi Ishizaki
寛美 石崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61277106A priority Critical patent/JPS63131287A/ja
Publication of JPS63131287A publication Critical patent/JPS63131287A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は1文字認識力式に関し、特に文字認識方式にお
ける文字の大分類に関連した改良に関する。
〔従来技術〕
未知文字と辞書との詳細マツチングの前に、未知文字の
大分類を行い、未知文字の候補になり得る文字種を絞り
込み、絞り込んだ文字種についてだけ未知文字と辞書と
の詳細マツチングを行うようにすると、文字L&識処理
の効率化に効果がある。
従来、このような文字大分類のための特徴量としては、
例えば文字パターンの射影データが用いられている。し
かし、候補文字種の絞り込みが不十分になったり、十分
に絞り込もうとした場合に必要な文字種が絞り込み文字
種から漏れやすい等の問題があった。
〔目 的〕
本発明は、そのような問題点を解消でき、かつ。
抽出処理が簡便な新しい文字大分類用の特徴量を導入し
た文字認識方式を折供することを目的とする。
〔構 成〕
本発明の文字認識方式においては、未知文字のパターン
を第1の方向(例えば水平方向)およびそれと直交する
第2の方向(例えば垂直方向)に走査した場合に、白か
ら黒へ変化する境界部の画素、黒から白へ変化する境界
部の画素、または。
その両方の境界部の画素の総数またはそれと比例関係の
値を文字大分類用特徴量として用いる。
しかし、未知文字のパターンを実際に第1の方向および
第2の方向にそれぞれ走査して、そのような境界部画素
を検出して大分類用特徴量を抽出するのでは処理の効率
が悪い。
そこで1本発明においては、第1および第2の方向に関
する境界部画素の値を画素パターンに対応して登録した
テーブルを用意しておき、未知文字のパターンを第1の
方向に走査して黒画素を検出する度に、その黒画素の周
辺画素パターンによって前記テーブルの値を読み出し、
その値を累積加算することによって文字大分類用特徴量
を求めるようにし、大分類用特徴量の抽出処理効率の向
上を図る。
そして、本発明の文字認識方式にあっては、そのように
して抽出した大分類用特徴量と文字種別に用意された同
様の特徴量と比較して未知文字の大分類を行い、両方の
特徴量の差が判定閾値以下になった文字種を候補になり
得る文字種として絞り込み、その文字種に関してだけ未
知文字と辞書との詳細マツチングを行う。
前記のような大分類用特徴量は、文字パターンの複雑度
を的確に表すので、正確かつ十分な文字種の絞り込みが
可能である。しかも、その抽出も簡便である。したがっ
て、認識率を低下させることなく認識処理の効率を大幅
に改善できる。
〔実施例〕
以下、本発明の実施例について図面を用い詳細に説明す
る。
第1図は2本発明の一実施例および後述の各実施例に係
る機能的構成を示す機能ブロック図である。
図において、1は原稿から文字のパターンを読み取るス
キャナであり、2はスキャナ1から入力される画像デー
タから文字行を切り出す行切出し部である。3は行切り
出し部2により切り出された文字行データを一時的に記
憶する行バツフアメモリである。
4は行バツフアメモリ3に記憶されている文字行データ
から個々の文字のパターンを切り出す文字切出し部であ
る。5はその文字パターンを一時的に記憶する文字イメ
ージメモリである。
6は前処理部であり、これは文字イメージメモリ5上で
文字パターンの正規化、ノイズ除去などの処理を施す。
7は大分類特徴/詳細特徴抽出部であり1例えば一般的
なマイクロプロセッサを用いてプログラムによって特徴
抽出処理を行うものである。ニーでは、文字イメージメ
モリ5上の前処理後の文字パターンから、大分類用特徴
量と詳細特徴量が抽出される。
大分類用特徴量の抽出処理の概略フローチャートは第2
図に示されているが、この処理内容については後述する
この大分類特徴/詳細特徴抽出部7に関連して、特徴量
メモリ8およびテーブルメモリ13が設けられている。
テーブルメモリ13は、大分類用特徴量の抽出のために
参照されるテーブルを格納するためのメモリであり、こ
の実施例の場合は第3図に示すようなテーブルが格納さ
れる。
特徴量メモリ8は、入力文字パターンから抽出された大
分類用特徴量および詳細特徴量がそれぞれ一時的に記憶
するためのものである。
こ\で、詳細特徴量は入力文字と辞書との詳細マツチン
グに利用するための特徴量である。この実施例では、本
出願人が提案済みの多層方向ヒストグラム法により詳細
精微量として抽出される。
この詳細精微量の抽出は次のようにして行われる。まず
、文字イメージメモリ5に記憶されている文字パターン
が走査され、文字線輪郭画素に方向コードが付けられる
。この処理と同時に、またはその後に1文字パターンの
各辺からその対向辺に向かって文字パターンが走査され
、白画素の次に現れる方向コードを検出し、その方向コ
ードが各走査線上で何番目に検出されたかによって複数
の層に層別する。そして、文字パターンの枠内のメツシ
ュ領域毎に、ある層迄の層別に各方向コードのヒストグ
ラムを求める。このヒストグラムが詳細精微量である。
この詳細精微量は、それを成分とした多次元の特徴ベク
トルの形で特徴量メモリ8の領域8aに一時的に記憶さ
れる。
なお、大分類特徴量は、特徴量メモリ8の領域8bに一
時的に記憶される。
9は辞書である。この辞書9には、各文字種別に、標準
文字パターンの同様の多層方向ヒストグラム法による特
徴ベクトル、および大分類特徴/詳細特徴抽出部7によ
り抽出される大分類特徴量と同様の大分類特徴量(IC
OMPd)が格納されている。
10はマツチング部である。このマツチング部10は、
入力文字パターンから抽出された大分類特徴M (IC
OMP)を用いた入力文字の大分類と、この大分類によ
り絞り込まれた文字種に関して、詳細精微量を用いた入
力文字と辞書との詳細マツチングとを行う部分であり、
その処理の概略フローチャートを第4図に示す6 12はマツチング部10により最終的に選ばれた候補文
字のコードを認識結果データとして出力する結果出力部
である。
次に第2図および第3図を参照して、この実施例におけ
る大分類特徴/詳細特徴抽出部7による大分類時ttH
tの抽出処理について説明する。
なお、以下の説明におけるカウンタ、レジスタなどは大
分類特徴/詳細特徴抽出部7のマイクロプロセッサの内
部レジスタまたはメモリ上の特定領域であるが、図には
示されていない。
まず、大分類特徴量のカウンタICOMP、および文字
パターンの垂直方向の座標を指定するためのカウンタJ
がそれぞれクリアされる(ステップ20)。
以下、入力文字パターンが水平方向を主走査方向として
ラスタースキャンされながら、大分類特徴量が抽出され
る。
カウンタJがインクリメントされ(ステップ2])、そ
の値と文字パターンの垂直サイズJSIZEとの比較判
定が行われる(ステップ22)。
J≦JSIZEならば、文字パターンの水平座標を指定
するためのカウンタエがリセットされる(ステップ23
)。
カウンタ1がインクリメントされ(ステップ24)、そ
の値と文字パターンの水平サイズl5IZEとの比較判
定が行われる(ステップ25)。
I>I S I ZEの場合、現在の水平座標について
は走査は終わりであるから、ステップ21に戻り、走査
座標が副走査方向へ進められる。
I≦l5IZEの場合、現在の垂直座標についての走査
の途中であるので、文字パターンのカウンタI、Jで指
定される座標の画素のデータIMAGE (I、J)が
参照され、0” (白)であるか調べられる(ステップ
26)。
“0”であれば、現在の画素は白画素であるから、ステ
ップ24に戻る。
IMAGE (I、J)が“′O”でなければ、つまり
(till(黒)の場合、ステップ27において、この
黒画素(I、J)の左の画素(I−1,J)および上の
画素(I、J−1)のパターンを用いてテーブル(13
)が参照される。具体的には、IV=IMAGE (I
−1,J)+2XIMAGE (I、J−1)をアドレ
ス情報としてテーブルが参照され、対応するテーブル値
ITBL (IV)が読み出される)、。
第3図において、パターンの黒丸は黒画素を意味し、白
丸は白画素を意味している。この図から明らかなように
、IV=Oならば、現在の走査点の黒画素は、左から右
へ走査した場合にも、上から下へ走査した場合にも、白
から黒へ変化する境界部の画素であるから、テーブル値
ITBL (Iv)=2である。
IV=1ならば、現在の走査点の黒画素は、上から下へ
走査した場合に白から黒へ変化する境界部の画素である
から、テーブルITBL (IC)=1である。
IV=2ならば、現在の走査点の黒画素は、左から右へ
走査した場合に白から黒に変化する境界部の画素である
から、テーブル値ITBL (IV)=1である。
IV=3ならば、走査点画素は、左から右へ走査した場
合にも、上から下へ走査した場合にも、白から黒へ変化
する境界部の画素ではないので、テーブル値ITBL 
(IV)=Oである。
さて、ステップ28において、ステップ27で求められ
たテーブル値ITBL (IV)がカウンタICOMP
に加算され、ステップ24に戻る。
文字パターンの最下部まで水平方向のラスタースキャン
が終わると、ステップ22の判定条件が成立し、処理を
終了する。
このようにして、文字パターンを水平方向にラスタース
キャンすることにより、水平方向に走査した場合の白か
ら黒へ変化する境界部の画素と、文字パターンを垂直方
向にラスタースキャンした場合の白から黒へ変化する境
界部の画素との総数がカウンタICOMPに得られる。
この方つンタ値は、入力文字パターンの大分類精微量(
ICOMP)として特徴量メモリ8の領域8bに書き込
まれる。
次に、第4図を参照して、本実施例におけるマツチング
部10の処理を説明する。
大分類特徴/詳細特徴抽出部7の特徴抽出処理が完了す
ると、マツチング部10の処理が始まる。
辞書9に格納されている一つの文字種の大分類精微量I
C0MPdが読み出される(ステップ51)。その大分
類特徴MICOMPdと、入力文字パターンから抽出さ
れた大分類精微量ICOMPとの差が絶対値と所定の判
定閾値THとの比較判定が行われる(ステップ52)、
つまり大分類が行われる。
その差の絶対値が判定閾値TH以下であれば、現在の文
字種は入力文字の候補になり得るから、当該文字種に関
して、辞書9に登録されている特徴ベクトルと、入力文
字から抽出された特徴ベクトルとを用いた詳細マツチン
グが行われる(ステップ53)。この詳細マツチングに
より求められた特徴ベクトルの距離と、これまでの候補
文字の距離とが比較され、距離の小さいほうの候補文字
が残される。
大分類精微量の差の絶対値が判定閾値THより大きい場
合、当該文字種は入力文字の候補となり得ないから、詳
細マツチング処理が行われず、次の文字種の大分類が行
われる。
最後の文字種に関する処理が完了すると1判定ステップ
50の条件が成立するので、処理が完了し、最終的に得
られた候補文字のコードが結果出力部12により出力さ
れる。
次に1本発明の第2の実施例について説明する。
この実施例と前記第1の実施例とは、大分類精微量が一
部異なるだけであり、その他は同様である。すなわち、
前記第1実施例においては、水平走査および垂直走査の
場合に白から黒に変化する境界部の画素の総数を大分類
精微量としたが、この実施例においては、白から黒に変
化する境界部の画素と、黒から白へ変化する境界部の画
素の両方の個数を大分類精微量として抽出する。
第5図は、その大分類精微量の抽出処理の概略フローチ
ャートである。また、第6図はテーブルメモリ13に格
納されるテーブルの内容を示している。
第5図および第6図を参照して、大分類精微量の抽出処
理について説明する6 ステップ60からステップ66、およびステップ68は
第1図のステップ20からステップ26、およびステッ
プ28と同様の処理ステップである。
水平走査によって黒画素が検出されると、ステップ67
において、その黒画素の上下左右の4個の周辺画素のパ
ターンによってテーブル(13)が参照される。
具体的には、IV=IMAGE (I−J、J)+2X
IMAGE (I、J−1)+4XIMAGE (I+
1.J)+8XIMAGE (I+1.J+1)の値を
アドレス情報としてテーブルの値ITBL (IV)が
読み出される。
さて、前記各実施例において、大分類により詳細マツチ
ングを行うか否かの判定のための閾値THは、文字種に
関係なく固定してもよいが、文字種毎に用意し辞書に登
録しておいてもよい。
そのような判定閾値の決定方法の一例を次に説明する。
辞書作成に際しては、各文字種kに関してM個の文字パ
ターンから特徴ベクトルを抽出し、その平均ベクトルを
標準文字パターンの特徴ベクトルとして辞書に登録する
。こ−で述べる判定閾値決定方法では、文字種別に、辞
書作成用のM個の文字パターンのそれぞれから前述のよ
うな大分類精微量を抽出し、それと、その平均(辞書の
標演文字パターンの大分類精微量に対応)との差の偏差
(または分散)が判定閾値として決定される。
このような判定閾値の決定処理のフローチャートを第7
図に示す。この図において、には文字種、mは各文字種
の辞書作成用パターンの番号(カウンタ)、Fkmは文
字種にのm番目の文字パターンから抽出された大分類精
微量、Fkは文字種にの大分類用特徴量の平均、THk
はレジスタであり、ステップ98でレジスタT Hkの
値が文字値にの判定閾値として辞書に登録される。
同様に、辞書作成用文字パターンのそれぞれの大分類精
微量とその平均(辞書の′##準文字パターンの大分類
精微量に対応)との差の絶対値の中央値(メディアン)
を、文字種別の判定閾値として決定することもできる。
第8図は、そのような判定閾値を決定する処理のフロー
チャートであり、各符号は第7図と同様である。
さて、手書き文字の認識の場合、利用者(筆記者)によ
って認識率に差がでる。また、同じ利用者でも、辞書の
癖に慣れるに従い認識率が向上する。
したがって1文字種別に複数レベルの判定閾値を用意し
ておき、利用者やその熟練度に応じて、大分類の判定閾
値として用いるレベルを指定し、そのレベルの判定閾値
をマツチング部10で選択的に使用させるようにすれば
、辞書との詳細マツチングをさらに減らし、認識時間を
一層短縮できる可能性がある。
第9図は、そのような文字種別に複数レベルの判定閾値
を決定するための処理のフローチャートである。この図
において、Lはレベルであり、THkは第7図のフロー
チャートによって決定された文字種にの判定閾値である
。THk (L)はレベルLの判定閾値であり、MAX
はレベル数である。
この場合、文字種kに対してMAX個の判定閾値THk
 (1)、THk (2)、THk (3)。
・・・、THk (MAX)が決定される。
第10図は、文字種別に複数レベルの判定閾値を決定す
る他の方法を示すフローチャートである。
この場合は、辞書作成用の各文字パターンから抽出した
大分類精微量と辞書の平均パターンとの差の絶対値T 
(m)が小さい順(または大きい順)にソートされる(
ステップ120)。そして、M/MAX番目ごとの差の
絶対値がレベルLの判定閾値として決定され、登録され
る(ステップ122からステップ126)。
なお、最高レベル(L=MAX)の判定閾値はT(M−
c)の値が選ばれる(ステップ125)。
こ−でCは定数(1または2)である。このようにする
のは、辞書作成文字パターンの変形の大きな異常パター
ンが含まれた場合に、その影響を排除するためである。
〔効 果〕
以上の説明から明らかなように、本発明の文字認識方式
においては、文字パターンの複雑度を的確に表す特徴域
を用いて入力文字の大分類を行い、候補となり得る文字
種を正確かつ十分に絞り込むことができ、また、その特
徴域の抽出も効率的に行うことができるので、認識率を
低下させることなく文字認識処理の効率を大幅に改善で
きる。
【図面の簡単な説明】
第1図は本発明の各実施例に係る機能的構成を示す概略
ブロック図、第2図は本発明の第1の実施例における大
分類特徴量の抽出処理の概略フローチャート、第3図は
その抽出処理のためのテーブルの説明図、第4図は本発
明の第1の実施例におけるマツチング処理の概略フロー
チャート、第5図は本発明の第2の実施例における大分
類特徴量の抽出処理の概略フローチャート、第6図はそ
の抽出処理のためのテーブルの説明図、第7図は文字種
別の判定閾値を決定する処理の一例を示す概略フローチ
ャート、第8図は文字種別の判定閾値を決定する処理の
他の例を示す概略フローチャート、第9図は文字種毎に
複数レベルの判定閾値を決定する処理の一例を示す概略
フローチャート。 第10図は文字種毎に複数レベルの判定閾値を決定する
処理の他の例を示す概略フローチャートである。 5・・・文字イメージメモリ、 7・・・大分類特徴/詳細特徴抽出部、8・・・特徴量
メモリ、 9・・・辞書、10・・・マツチング部、 
 13・・・テーブルメモリ。 第  2  図 第  6  図 第  9  図

Claims (3)

    【特許請求の範囲】
  1. (1)未知文字のパターンを第1の方向に走査して黒画
    素を検出する度に、その黒画素の周辺画素パターンによ
    って、予め用意されたテーブルの値を読み出し、その値
    を累積加算することによって、前記第1の方向およびそ
    れと直交する第2の方向に前記未知文字のパターンを走
    査した場合に、白から黒へ変化する境界部の画素、黒か
    ら白へ変化する境界部の画素、または、その両方の境界
    部の画素の総数またはそれと比例関係の値を求め、この
    値を文字大分類用特徴量として文字種別に用意された同
    様の特徴量と比較し、両方の特徴量の差が判定閾値以下
    になった文字種に関してだけ前記未知文字と辞書との詳
    細マッチングを行うことを特徴とする文字認識方式。
  2. (2)判定閾値は文字種別に用意されることを特徴とす
    る特許請求の範囲第1項に記載の文字認識方式。
  3. (3)文字種別の判定閾値は複数個用意され、その中の
    一つが選択的に用いられることを特徴とする特許請求の
    範囲第2項に記載の文字認識方式。
JP61277106A 1986-11-20 1986-11-20 文字認識方式 Pending JPS63131287A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61277106A JPS63131287A (ja) 1986-11-20 1986-11-20 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61277106A JPS63131287A (ja) 1986-11-20 1986-11-20 文字認識方式

Publications (1)

Publication Number Publication Date
JPS63131287A true JPS63131287A (ja) 1988-06-03

Family

ID=17578862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61277106A Pending JPS63131287A (ja) 1986-11-20 1986-11-20 文字認識方式

Country Status (1)

Country Link
JP (1) JPS63131287A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02125390A (ja) * 1988-08-20 1990-05-14 Fujitsu Ltd パターン認識方式
JPH02257381A (ja) * 1988-12-20 1990-10-18 American Teleph & Telegr Co <Att> 画像分類方法、画像内文字の分類方法並びに識別装置、及び画像細線化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02125390A (ja) * 1988-08-20 1990-05-14 Fujitsu Ltd パターン認識方式
JPH02257381A (ja) * 1988-12-20 1990-10-18 American Teleph & Telegr Co <Att> 画像分類方法、画像内文字の分類方法並びに識別装置、及び画像細線化方法

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5335290A (en) Segmentation of text, picture and lines of a document image
US5452374A (en) Skew detection and correction of a document image representation
US7519226B2 (en) Form search apparatus and method
JPH05242292A (ja) 分離方法
US5841905A (en) Business form image identification using projected profiles of graphical lines and text string lines
JPH05233873A (ja) 領域分割方法
CN111160292A (zh) 人眼检测方法
JPS63131287A (ja) 文字認識方式
JP4228592B2 (ja) 文字認識装置
JP3172498B2 (ja) イメージ認識用特徴値抽出方法、およびその装置、イメージ解析プログラムを格納する記憶媒体
JP2832928B2 (ja) 文字認識方法
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
JPH07182459A (ja) 表構造抽出装置
JPH03219384A (ja) 文字認識装置
JPH0573718A (ja) 領域属性識別方式
JPH03126188A (ja) 文字認識装置
JP3277977B2 (ja) 文字認識方法
JP2954218B2 (ja) 画像処理方法及び装置
JP3009237B2 (ja) 特徴抽出方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH0795336B2 (ja) 文字認識方式
JPH05135204A (ja) 文字認識装置
JPS62217387A (ja) パタ−ン識別装置