JPS63142487A - 特定文字列高速抽出方法 - Google Patents
特定文字列高速抽出方法Info
- Publication number
- JPS63142487A JPS63142487A JP61288799A JP28879986A JPS63142487A JP S63142487 A JPS63142487 A JP S63142487A JP 61288799 A JP61288799 A JP 61288799A JP 28879986 A JP28879986 A JP 28879986A JP S63142487 A JPS63142487 A JP S63142487A
- Authority
- JP
- Japan
- Prior art keywords
- character
- string
- character string
- feature
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims description 7
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 abstract description 4
- 238000009826 distribution Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は文書画像の文字列抽出方式に係り、特にシステ
ムにあらかじめ?@された特定文字列のみを1文書画像
中から効率良く抽出するのに好適な特定文字列高速抽出
方式に関する。
ムにあらかじめ?@された特定文字列のみを1文書画像
中から効率良く抽出するのに好適な特定文字列高速抽出
方式に関する。
従来、入力文字列の言語情報を利用して読み取り精度を
向上させる文字認識処理方式については、杉材:候補文
字補完と形態素解析による漢字認識の誤まり訂正処理法
、信学会情シ全国大会(1985)の1−307頁から
1−308頁において論ぜられている。そこでの文字認
識システムは、単語辞書を持ち、全文を文字認識し、従
来の1文字ごとの認識結果である候補文字の並びを形態
素解析し、2位以下に正解文字がある場合の誤り訂正を
行う。
向上させる文字認識処理方式については、杉材:候補文
字補完と形態素解析による漢字認識の誤まり訂正処理法
、信学会情シ全国大会(1985)の1−307頁から
1−308頁において論ぜられている。そこでの文字認
識システムは、単語辞書を持ち、全文を文字認識し、従
来の1文字ごとの認識結果である候補文字の並びを形態
素解析し、2位以下に正解文字がある場合の誤り訂正を
行う。
このような方式によれば、1文字1文字を嘔独に文字認
識する場合に比べ、認識精度を向上させることができる
。
識する場合に比べ、認識精度を向上させることができる
。
上記従来技術は、単語辞書による先験的文字列情報を文
字認識に用いるものであるが、全文を文字認識するため
、特定の文字列だけを効率良く抽出しようとする点につ
いては配慮されておらず、処理時間がかかるという問題
があった。
字認識に用いるものであるが、全文を文字認識するため
、特定の文字列だけを効率良く抽出しようとする点につ
いては配慮されておらず、処理時間がかかるという問題
があった。
本発明の目的は、システムにあらかじめ登録された特定
文字列のみを、文書画像中から効率良く抽出するに好適
な特定文字列高速抽出方式を提供することにある。
文字列のみを、文書画像中から効率良く抽出するに好適
な特定文字列高速抽出方式を提供することにある。
上記目的は、文書上の文字画像(以下1文書画像という
)から文字を切り出し、切り出した文字の特徴量を算出
し、算出された特徴量とあらかじめ9.録しである文字
特徴量とを照合する際、算出特徴量を量子化し1文書画
像上で抽出すべき特定の文字列が景子化文字特徴量列に
どのように対応するかをあらかじめ求めテーブル化して
おき、このテーブルを参照して入力文字画像の量子化文
字特徴量列から候補となる特定文字列を求め、この特定
文字列を対象に文字バタンの一致不一致の認識処理を行
うことにより、達成される。
)から文字を切り出し、切り出した文字の特徴量を算出
し、算出された特徴量とあらかじめ9.録しである文字
特徴量とを照合する際、算出特徴量を量子化し1文書画
像上で抽出すべき特定の文字列が景子化文字特徴量列に
どのように対応するかをあらかじめ求めテーブル化して
おき、このテーブルを参照して入力文字画像の量子化文
字特徴量列から候補となる特定文字列を求め、この特定
文字列を対象に文字バタンの一致不一致の認識処理を行
うことにより、達成される。
一般に、バタン分類においては分類光のクラス数が多い
場合、所属クラスの完全な識別より、いくつかの特定ク
ラスだけへの所属の有無の判別の方が格段に少ない演算
で実現できる。この傾向は。
場合、所属クラスの完全な識別より、いくつかの特定ク
ラスだけへの所属の有無の判別の方が格段に少ない演算
で実現できる。この傾向は。
バタンの並びの中から、特定のバタンの並びを判別する
場合には、さらに顕著になる0通常、並びには規則性が
あるためである1文書画像からの特定文字列の抽出は、
まさにこの場合にあたる。
場合には、さらに顕著になる0通常、並びには規則性が
あるためである1文書画像からの特定文字列の抽出は、
まさにこの場合にあたる。
第2図で、上記事実を説明する1文字パタンの特徴パラ
メータをXと表わし、各文字iの特徴空間での確率分布
を、P I(x) ; i = 1 、・・・1文字種
数、と表わすと、確率分布P + (x )は図に示す
ように重なりを持って分布する。通常の印刷文字認識で
は1入力バタンXに対し各確率分布P t (x )の
最大値を与える文字を認識結果とする。ただし実際の演
算では、各文字の平均バタンxt との距離d(ite
x)の最も小さい文字を選ぶことが多い。従って、1文
字の認識には文字種類数回だけの距離計算を必要とする
。一方、入力バタンXが、特定Xである可能性の有無の
判定には1回あるいは少ない個数の特定文字数回の距離
計算ですむ、また、文字の組合わせである文字列は、全
くランダムな組合せが許されるわけではないため、1文
字に関する確率分布が重なりを持つ場合でも、文字特徴
空間の積空間での文字列の確率分布の重なりは少なくな
る。従って、確率分布の重なりが大きい、粗い特徴量を
用いても、文字列の認識では比鮫的高い精度となる。
メータをXと表わし、各文字iの特徴空間での確率分布
を、P I(x) ; i = 1 、・・・1文字種
数、と表わすと、確率分布P + (x )は図に示す
ように重なりを持って分布する。通常の印刷文字認識で
は1入力バタンXに対し各確率分布P t (x )の
最大値を与える文字を認識結果とする。ただし実際の演
算では、各文字の平均バタンxt との距離d(ite
x)の最も小さい文字を選ぶことが多い。従って、1文
字の認識には文字種類数回だけの距離計算を必要とする
。一方、入力バタンXが、特定Xである可能性の有無の
判定には1回あるいは少ない個数の特定文字数回の距離
計算ですむ、また、文字の組合わせである文字列は、全
くランダムな組合せが許されるわけではないため、1文
字に関する確率分布が重なりを持つ場合でも、文字特徴
空間の積空間での文字列の確率分布の重なりは少なくな
る。従って、確率分布の重なりが大きい、粗い特徴量を
用いても、文字列の認識では比鮫的高い精度となる。
以下1本発明の一実施例を第1図により説明する。光デ
ィスクなどに収められている文書画像データは、光ディ
スク装[1から読み出され、1ラインずつ文字枠切り出
し装[2に入力され、各文字の最小外接矩形情報すなわ
ち、左上右下頂点の座標が出力され、文字情報テーブル
3の外接矩形情報部4に格納される3文字枠切り出し装
置としては、ここでは、特願昭60−184242号「
文書文字切り出し画像処理方式」に詳述されている装置
を用いるものとする0文書画像全体について文字外接矩
形情報が抽出されると、外接矩形情報は文字情報テーブ
ル3から読み出され、相持微量算出装置5において、各
文字ごとに粗い特rIi駄が算出される。粗い特rR量
としては、文献:文字認識概論(1982)のP78〜
79で詳しい説明のある複雑度指数をmいる。複雑度指
数は、文字バタンの軸郭線の垂直および水平方向成分の
総長である。
ィスクなどに収められている文書画像データは、光ディ
スク装[1から読み出され、1ラインずつ文字枠切り出
し装[2に入力され、各文字の最小外接矩形情報すなわ
ち、左上右下頂点の座標が出力され、文字情報テーブル
3の外接矩形情報部4に格納される3文字枠切り出し装
置としては、ここでは、特願昭60−184242号「
文書文字切り出し画像処理方式」に詳述されている装置
を用いるものとする0文書画像全体について文字外接矩
形情報が抽出されると、外接矩形情報は文字情報テーブ
ル3から読み出され、相持微量算出装置5において、各
文字ごとに粗い特rIi駄が算出される。粗い特rR量
としては、文献:文字認識概論(1982)のP78〜
79で詳しい説明のある複雑度指数をmいる。複雑度指
数は、文字バタンの軸郭線の垂直および水平方向成分の
総長である。
第3図に輪郭線の総長を求めるための2×2メツシユ要
素パタンを示す、要素バタンは、垂直パタンV(同図(
a))、水平バタンH(同図(b))、斜め片側バタン
L(同図(c))、斜め両側パタンT(同図(d))の
4種類に分けられる。図中の太線は文字バタンの輪郭線
を折れ線近似したものである。それぞれの要素パタンの
文字全体における総数n(V)、n(H)、n(L)そ
してn(T)から1輪郭線の垂直および水平方向成分を
求める。
素パタンを示す、要素バタンは、垂直パタンV(同図(
a))、水平バタンH(同図(b))、斜め片側バタン
L(同図(c))、斜め両側パタンT(同図(d))の
4種類に分けられる。図中の太線は文字バタンの輪郭線
を折れ線近似したものである。それぞれの要素パタンの
文字全体における総数n(V)、n(H)、n(L)そ
してn(T)から1輪郭線の垂直および水平方向成分を
求める。
したがって、水平、垂直方向複雑度指数Ωx、(lyは
、それぞれ下式で求まる。
、それぞれ下式で求まる。
m、= −(n (V) +n (L)/2+n
(T))相持微量算出装置!!5で求めた各文字に
関する水平、垂直方向複雑度指数は、文字情報テーブル
3の相持徴景部6に、外接矩形情報部4の文字枠情報と
対応して格納される。
(T))相持微量算出装置!!5で求めた各文字に
関する水平、垂直方向複雑度指数は、文字情報テーブル
3の相持徴景部6に、外接矩形情報部4の文字枠情報と
対応して格納される。
つぎに、文字情報テーブル3から文字列の順に文字相持
微量が読み出され、量子化器7によりOか615のコー
ドm (4bit )にコード化され、シフトレジスタ
8に格納される。量子化器7では。
微量が読み出され、量子化器7によりOか615のコー
ドm (4bit )にコード化され、シフトレジスタ
8に格納される。量子化器7では。
2方向の複雑度指数をそれぞれ3つの閾値で4区間に分
割し定義した16の区間のいずれに入るかを判別する。
割し定義した16の区間のいずれに入るかを判別する。
シフトレジスタ8には、連続3文字分の相持微量量子化
コードが格納されており、アドレス演算器9は、3文字
分のコードを12bitデータと考え、約4kwのテー
ブルを参照することにより1文字列テーブル10上の対
応アドレスを求める。抽出すべき特定文字列は、あらか
じめ約4にの分割区間(16の分割区間の3乗積区間)
のいずれに入るかを相持微量により判別され、分割区間
ごとにコード列として集められ1文字列テーブル1oに
格納されている。ただし、本判別のための分割区間は互
いにオーバーラツプさせ1つの文字列が複数の区間に対
応することも許す6アドレス演算器9の出力アドレスは
、分割区間に関するコード列データの先頭アドレスであ
る。ただし、先頭アドレス自身には分割区間中のコード
列の個数が格納されている。シフトレジスタ8上の相持
微量量子化コードに対応する3文字に対し。
コードが格納されており、アドレス演算器9は、3文字
分のコードを12bitデータと考え、約4kwのテー
ブルを参照することにより1文字列テーブル10上の対
応アドレスを求める。抽出すべき特定文字列は、あらか
じめ約4にの分割区間(16の分割区間の3乗積区間)
のいずれに入るかを相持微量により判別され、分割区間
ごとにコード列として集められ1文字列テーブル1oに
格納されている。ただし、本判別のための分割区間は互
いにオーバーラツプさせ1つの文字列が複数の区間に対
応することも許す6アドレス演算器9の出力アドレスは
、分割区間に関するコード列データの先頭アドレスであ
る。ただし、先頭アドレス自身には分割区間中のコード
列の個数が格納されている。シフトレジスタ8上の相持
微量量子化コードに対応する3文字に対し。
アドレス演算器9の出力アドレスで参照される文字列テ
ーブル10の内容は、候補となる特定文字列の数を示す
、特定文字列数が0の場合には、判定器[111により
候補となる特定文字列はないと判定され、文字情報テー
ブル3から次の文字相持微量が読み出され同様にして文
字列テーブル10の参照が行われる。
ーブル10の内容は、候補となる特定文字列の数を示す
、特定文字列数が0の場合には、判定器[111により
候補となる特定文字列はないと判定され、文字情報テー
ブル3から次の文字相持微量が読み出され同様にして文
字列テーブル10の参照が行われる。
文字列テーブル10の参照結果が0でない場合には、候
補となる文字列の文字コード列が次々と文字列テーブル
10から読み出され、文字精特微量テーブル12により
、文字コードに対応する文字バタンの精特微量に変換さ
れる。文字バタンの精特微量としては、文字バタンK
(xt y)自身を用いる。ここで、Xp’jは各々水
平と垂直方向の位置座標で。
補となる文字列の文字コード列が次々と文字列テーブル
10から読み出され、文字精特微量テーブル12により
、文字コードに対応する文字バタンの精特微量に変換さ
れる。文字バタンの精特微量としては、文字バタンK
(xt y)自身を用いる。ここで、Xp’jは各々水
平と垂直方向の位置座標で。
である、精特徴量列レジスタ13には、候補文字列の精
特微量(Ks(x+ y)P Kx(xp y)+にδ
(x、y))が格納される。添字iはi番目の候補であ
ることを示す。一方、判定装置11は、候補文字列数が
Oでない場合には、精特徴量算出装R14に起動をかけ
、シフトレジスタ8中の文字列に関する精特微量を算出
する。すなわち、光デイスク装置1より該当文字バタン
を切り出し。
特微量(Ks(x+ y)P Kx(xp y)+にδ
(x、y))が格納される。添字iはi番目の候補であ
ることを示す。一方、判定装置11は、候補文字列数が
Oでない場合には、精特徴量算出装R14に起動をかけ
、シフトレジスタ8中の文字列に関する精特微量を算出
する。すなわち、光デイスク装置1より該当文字バタン
を切り出し。
被判定精特徴量列レジスタ15に格納する0両レジスタ
13.15の精特徴量列は、距離計算装置16により下
式で距離すなわち相違度が求められ、閾値判定器17で
相違度の判定が行われる。相違度が閾値θを越える場合
には、入力文書画像中の被判定文字列は、候補文字列で
はあり得ないと考え、候補文字列中で相違度が閾値0を
越えないものを選び、相違度と共に文字コード列を出力
する。
13.15の精特徴量列は、距離計算装置16により下
式で距離すなわち相違度が求められ、閾値判定器17で
相違度の判定が行われる。相違度が閾値θを越える場合
には、入力文書画像中の被判定文字列は、候補文字列で
はあり得ないと考え、候補文字列中で相違度が閾値0を
越えないものを選び、相違度と共に文字コード列を出力
する。
相違度が閾値θを越えない候補文字列が複数ある場合に
は、最小の相違度を与える文字コード列あるいは、すべ
ての文字コード列を順位付けして出力する。もし、候補
文字列の相違度がすべて閾値θを越える場合には、被判
定文字列は抽出すべき特定文字列のいずれでもないとし
1文字情報テーブル3に起動がかかり1次の文字相持微
量が読み出され、1文字シフトした3文字の文字列上で
上記判定処理が行われる。
は、最小の相違度を与える文字コード列あるいは、すべ
ての文字コード列を順位付けして出力する。もし、候補
文字列の相違度がすべて閾値θを越える場合には、被判
定文字列は抽出すべき特定文字列のいずれでもないとし
1文字情報テーブル3に起動がかかり1次の文字相持微
量が読み出され、1文字シフトした3文字の文字列上で
上記判定処理が行われる。
以上述べた実施例では、文字バタンの相持微量として、
複雑度指数を用いたが、周辺分布、縮少したパタンその
ものなど、別の相持微量を用いることも可能である。
複雑度指数を用いたが、周辺分布、縮少したパタンその
ものなど、別の相持微量を用いることも可能である。
本発明によれば、文書画像上で抽出すべき特定の文字列
をあらかじめ粗い文字特徴量の頓びに基づいて分類して
おくため、入力文書画像文字列から、演算量の少ない粗
い特徴量を用いて、候補となるUS特定文字列をしぼり
込め、その結果特定文字列の抽出を高速におこなえるた
め、システムに登録された特定文字列のみを1文書画像
中から効率良く抽出できる効果がある。
をあらかじめ粗い文字特徴量の頓びに基づいて分類して
おくため、入力文書画像文字列から、演算量の少ない粗
い特徴量を用いて、候補となるUS特定文字列をしぼり
込め、その結果特定文字列の抽出を高速におこなえるた
め、システムに登録された特定文字列のみを1文書画像
中から効率良く抽出できる効果がある。
第1I54は本発明の一実施例の全体システム構成図、
第2図は文字パタンの特徴空間での確率分布の説明図、
第3図は文字バタンの相持微量として用いた複雑度指数
計算のための要素パタンの一例を示す図である。
。
第2図は文字パタンの特徴空間での確率分布の説明図、
第3図は文字バタンの相持微量として用いた複雑度指数
計算のための要素パタンの一例を示す図である。
。
Claims (1)
- 【特許請求の範囲】 1、文字画像を入力する入力手段と、入力された文字画
像より文字を切り出す画像処理手段と、切り出された文
字の特徴量を算出する算出手段と、算出された特徴量と
参照文字の特徴量とを照合する照合手段より成る文書画
像処理装置において、あらかじめ用意した特定の文字列
に関する特徴量の列と上記入力文字画像から切り出され
た入力文字列に関して算出された特徴量の列とを文字位
置をずらしつつ照合し文字列を構成する全ての文字の照
合結果が所定の閾値以上である照合位置と文字列とを出
力することを特徴とする特定文字列高速抽出方式。 2、上記照合手段による照合処理は、抽出したい特定の
文字列であり得ない入力画像中の文字列を粗い特徴量で
照合して除去する処理と、粗い特徴量では照合不成功と
はならなかつた入力画像中の文字列のみに対し精細な特
徴量で照合を行う処理とからなることを特徴とする第1
項の特定文字列高速抽出方式。 3、上記入力文字列の粗い特徴量を量子化して量子化文
字特徴量列を求め、文量画像上で抽出すべき特定の文字
列が上記量子化文字特徴量列にどのように対応するかを
あらかじめ求めテーブル化しておき、上記量子化文字特
徴量列から該テーブルを参照し候補となる特定文字列を
求め、該特定文字列を対象に文字パタンの一致不一致の
照合を精細な特徴量で行うことを特徴とする第1項の特
定文字列高速抽出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61288799A JPH0812683B2 (ja) | 1986-12-05 | 1986-12-05 | 特定文字列高速抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61288799A JPH0812683B2 (ja) | 1986-12-05 | 1986-12-05 | 特定文字列高速抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63142487A true JPS63142487A (ja) | 1988-06-14 |
JPH0812683B2 JPH0812683B2 (ja) | 1996-02-07 |
Family
ID=17734879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61288799A Expired - Lifetime JPH0812683B2 (ja) | 1986-12-05 | 1986-12-05 | 特定文字列高速抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0812683B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013125281A (ja) * | 2011-12-13 | 2013-06-24 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
US8854164B2 (en) | 2006-11-27 | 2014-10-07 | Robert Bosch Gmbh | Pressure-regulating valve |
-
1986
- 1986-12-05 JP JP61288799A patent/JPH0812683B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8854164B2 (en) | 2006-11-27 | 2014-10-07 | Robert Bosch Gmbh | Pressure-regulating valve |
JP2013125281A (ja) * | 2011-12-13 | 2013-06-24 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
CN103198318A (zh) * | 2011-12-13 | 2013-07-10 | 富士施乐株式会社 | 图像处理装置以及图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH0812683B2 (ja) | 1996-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0439743B1 (en) | Constraint driven on-line recognition of handwritten characters and symbols | |
EP0325233B1 (en) | Character string recognition system | |
US5774588A (en) | Method and system for comparing strings with entries of a lexicon | |
US4408342A (en) | Method for recognizing a machine encoded character | |
EP0564827B1 (en) | A post-processing error correction scheme using a dictionary for on-line handwriting recognition | |
US20050074169A1 (en) | Holistic-analytical recognition of handwritten text | |
JPH0664631B2 (ja) | 文字認識装置 | |
US9047655B2 (en) | Computer vision-based methods for enhanced JBIG2 and generic bitonal compression | |
JPS62221088A (ja) | 光学式文字読取装置 | |
Miller | On-line recognition of hand-generated symbols | |
JPS63142487A (ja) | 特定文字列高速抽出方法 | |
Lakshmi et al. | A multi-font OCR system for printed Telugu text | |
RU2707320C1 (ru) | Способ распознавания символа на банкноте и сопроцессор для вычислительной системы устройства для обработки банкнот | |
GB2306739A (en) | Computerized correction of numeric data | |
JP3157530B2 (ja) | 文字切り出し方法 | |
JP3128357B2 (ja) | 文字認識処理装置 | |
KR960001102B1 (ko) | 수서인식 시스템에서의 케이스 혼동을 해결하는 방법 | |
JPH10198761A (ja) | 文字認識方法および文字認識装置 | |
JP2529421B2 (ja) | 文字認識装置 | |
JP2930996B2 (ja) | 画像認識方法および画像認識装置 | |
JPH08315074A (ja) | 文字認識装置 | |
CN115204151A (zh) | 中文文本纠错方法、系统及可读存储介质 | |
JPS63118993A (ja) | 文字認識方法 | |
JPH10162103A (ja) | 文字認識装置 | |
JP3481850B2 (ja) | 文字認識装置 |