JPS63142487A - 特定文字列高速抽出方法 - Google Patents

特定文字列高速抽出方法

Info

Publication number
JPS63142487A
JPS63142487A JP61288799A JP28879986A JPS63142487A JP S63142487 A JPS63142487 A JP S63142487A JP 61288799 A JP61288799 A JP 61288799A JP 28879986 A JP28879986 A JP 28879986A JP S63142487 A JPS63142487 A JP S63142487A
Authority
JP
Japan
Prior art keywords
character
string
character string
feature
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61288799A
Other languages
English (en)
Other versions
JPH0812683B2 (ja
Inventor
Koichi Honma
弘一 本間
Fuminobu Furumura
文伸 古村
Fumio Wakamori
和歌森 文男
Akira Kagami
晃 加賀美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61288799A priority Critical patent/JPH0812683B2/ja
Publication of JPS63142487A publication Critical patent/JPS63142487A/ja
Publication of JPH0812683B2 publication Critical patent/JPH0812683B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書画像の文字列抽出方式に係り、特にシステ
ムにあらかじめ?@された特定文字列のみを1文書画像
中から効率良く抽出するのに好適な特定文字列高速抽出
方式に関する。
〔従来の技術〕
従来、入力文字列の言語情報を利用して読み取り精度を
向上させる文字認識処理方式については、杉材:候補文
字補完と形態素解析による漢字認識の誤まり訂正処理法
、信学会情シ全国大会(1985)の1−307頁から
1−308頁において論ぜられている。そこでの文字認
識システムは、単語辞書を持ち、全文を文字認識し、従
来の1文字ごとの認識結果である候補文字の並びを形態
素解析し、2位以下に正解文字がある場合の誤り訂正を
行う。
このような方式によれば、1文字1文字を嘔独に文字認
識する場合に比べ、認識精度を向上させることができる
〔発明が解決しようとする問題点〕
上記従来技術は、単語辞書による先験的文字列情報を文
字認識に用いるものであるが、全文を文字認識するため
、特定の文字列だけを効率良く抽出しようとする点につ
いては配慮されておらず、処理時間がかかるという問題
があった。
本発明の目的は、システムにあらかじめ登録された特定
文字列のみを、文書画像中から効率良く抽出するに好適
な特定文字列高速抽出方式を提供することにある。
〔問題点を解決するための手段〕
上記目的は、文書上の文字画像(以下1文書画像という
)から文字を切り出し、切り出した文字の特徴量を算出
し、算出された特徴量とあらかじめ9.録しである文字
特徴量とを照合する際、算出特徴量を量子化し1文書画
像上で抽出すべき特定の文字列が景子化文字特徴量列に
どのように対応するかをあらかじめ求めテーブル化して
おき、このテーブルを参照して入力文字画像の量子化文
字特徴量列から候補となる特定文字列を求め、この特定
文字列を対象に文字バタンの一致不一致の認識処理を行
うことにより、達成される。
〔作用〕
一般に、バタン分類においては分類光のクラス数が多い
場合、所属クラスの完全な識別より、いくつかの特定ク
ラスだけへの所属の有無の判別の方が格段に少ない演算
で実現できる。この傾向は。
バタンの並びの中から、特定のバタンの並びを判別する
場合には、さらに顕著になる0通常、並びには規則性が
あるためである1文書画像からの特定文字列の抽出は、
まさにこの場合にあたる。
第2図で、上記事実を説明する1文字パタンの特徴パラ
メータをXと表わし、各文字iの特徴空間での確率分布
を、P I(x) ; i = 1 、・・・1文字種
数、と表わすと、確率分布P + (x )は図に示す
ように重なりを持って分布する。通常の印刷文字認識で
は1入力バタンXに対し各確率分布P t (x )の
最大値を与える文字を認識結果とする。ただし実際の演
算では、各文字の平均バタンxt との距離d(ite
x)の最も小さい文字を選ぶことが多い。従って、1文
字の認識には文字種類数回だけの距離計算を必要とする
。一方、入力バタンXが、特定Xである可能性の有無の
判定には1回あるいは少ない個数の特定文字数回の距離
計算ですむ、また、文字の組合わせである文字列は、全
くランダムな組合せが許されるわけではないため、1文
字に関する確率分布が重なりを持つ場合でも、文字特徴
空間の積空間での文字列の確率分布の重なりは少なくな
る。従って、確率分布の重なりが大きい、粗い特徴量を
用いても、文字列の認識では比鮫的高い精度となる。
〔実施例〕
以下1本発明の一実施例を第1図により説明する。光デ
ィスクなどに収められている文書画像データは、光ディ
スク装[1から読み出され、1ラインずつ文字枠切り出
し装[2に入力され、各文字の最小外接矩形情報すなわ
ち、左上右下頂点の座標が出力され、文字情報テーブル
3の外接矩形情報部4に格納される3文字枠切り出し装
置としては、ここでは、特願昭60−184242号「
文書文字切り出し画像処理方式」に詳述されている装置
を用いるものとする0文書画像全体について文字外接矩
形情報が抽出されると、外接矩形情報は文字情報テーブ
ル3から読み出され、相持微量算出装置5において、各
文字ごとに粗い特rIi駄が算出される。粗い特rR量
としては、文献:文字認識概論(1982)のP78〜
79で詳しい説明のある複雑度指数をmいる。複雑度指
数は、文字バタンの軸郭線の垂直および水平方向成分の
総長である。
第3図に輪郭線の総長を求めるための2×2メツシユ要
素パタンを示す、要素バタンは、垂直パタンV(同図(
a))、水平バタンH(同図(b))、斜め片側バタン
L(同図(c))、斜め両側パタンT(同図(d))の
4種類に分けられる。図中の太線は文字バタンの輪郭線
を折れ線近似したものである。それぞれの要素パタンの
文字全体における総数n(V)、n(H)、n(L)そ
してn(T)から1輪郭線の垂直および水平方向成分を
求める。
したがって、水平、垂直方向複雑度指数Ωx、(lyは
、それぞれ下式で求まる。
m、= −(n  (V)  +n  (L)/2+n
  (T))相持微量算出装置!!5で求めた各文字に
関する水平、垂直方向複雑度指数は、文字情報テーブル
3の相持徴景部6に、外接矩形情報部4の文字枠情報と
対応して格納される。
つぎに、文字情報テーブル3から文字列の順に文字相持
微量が読み出され、量子化器7によりOか615のコー
ドm (4bit )にコード化され、シフトレジスタ
8に格納される。量子化器7では。
2方向の複雑度指数をそれぞれ3つの閾値で4区間に分
割し定義した16の区間のいずれに入るかを判別する。
シフトレジスタ8には、連続3文字分の相持微量量子化
コードが格納されており、アドレス演算器9は、3文字
分のコードを12bitデータと考え、約4kwのテー
ブルを参照することにより1文字列テーブル10上の対
応アドレスを求める。抽出すべき特定文字列は、あらか
じめ約4にの分割区間(16の分割区間の3乗積区間)
のいずれに入るかを相持微量により判別され、分割区間
ごとにコード列として集められ1文字列テーブル1oに
格納されている。ただし、本判別のための分割区間は互
いにオーバーラツプさせ1つの文字列が複数の区間に対
応することも許す6アドレス演算器9の出力アドレスは
、分割区間に関するコード列データの先頭アドレスであ
る。ただし、先頭アドレス自身には分割区間中のコード
列の個数が格納されている。シフトレジスタ8上の相持
微量量子化コードに対応する3文字に対し。
アドレス演算器9の出力アドレスで参照される文字列テ
ーブル10の内容は、候補となる特定文字列の数を示す
、特定文字列数が0の場合には、判定器[111により
候補となる特定文字列はないと判定され、文字情報テー
ブル3から次の文字相持微量が読み出され同様にして文
字列テーブル10の参照が行われる。
文字列テーブル10の参照結果が0でない場合には、候
補となる文字列の文字コード列が次々と文字列テーブル
10から読み出され、文字精特微量テーブル12により
、文字コードに対応する文字バタンの精特微量に変換さ
れる。文字バタンの精特微量としては、文字バタンK 
(xt y)自身を用いる。ここで、Xp’jは各々水
平と垂直方向の位置座標で。
である、精特徴量列レジスタ13には、候補文字列の精
特微量(Ks(x+ y)P Kx(xp y)+にδ
(x、y))が格納される。添字iはi番目の候補であ
ることを示す。一方、判定装置11は、候補文字列数が
Oでない場合には、精特徴量算出装R14に起動をかけ
、シフトレジスタ8中の文字列に関する精特微量を算出
する。すなわち、光デイスク装置1より該当文字バタン
を切り出し。
被判定精特徴量列レジスタ15に格納する0両レジスタ
13.15の精特徴量列は、距離計算装置16により下
式で距離すなわち相違度が求められ、閾値判定器17で
相違度の判定が行われる。相違度が閾値θを越える場合
には、入力文書画像中の被判定文字列は、候補文字列で
はあり得ないと考え、候補文字列中で相違度が閾値0を
越えないものを選び、相違度と共に文字コード列を出力
する。
相違度が閾値θを越えない候補文字列が複数ある場合に
は、最小の相違度を与える文字コード列あるいは、すべ
ての文字コード列を順位付けして出力する。もし、候補
文字列の相違度がすべて閾値θを越える場合には、被判
定文字列は抽出すべき特定文字列のいずれでもないとし
1文字情報テーブル3に起動がかかり1次の文字相持微
量が読み出され、1文字シフトした3文字の文字列上で
上記判定処理が行われる。
以上述べた実施例では、文字バタンの相持微量として、
複雑度指数を用いたが、周辺分布、縮少したパタンその
ものなど、別の相持微量を用いることも可能である。
〔発明の効果〕
本発明によれば、文書画像上で抽出すべき特定の文字列
をあらかじめ粗い文字特徴量の頓びに基づいて分類して
おくため、入力文書画像文字列から、演算量の少ない粗
い特徴量を用いて、候補となるUS特定文字列をしぼり
込め、その結果特定文字列の抽出を高速におこなえるた
め、システムに登録された特定文字列のみを1文書画像
中から効率良く抽出できる効果がある。
【図面の簡単な説明】
第1I54は本発明の一実施例の全体システム構成図、
第2図は文字パタンの特徴空間での確率分布の説明図、
第3図は文字バタンの相持微量として用いた複雑度指数
計算のための要素パタンの一例を示す図である。   
             。

Claims (1)

  1. 【特許請求の範囲】 1、文字画像を入力する入力手段と、入力された文字画
    像より文字を切り出す画像処理手段と、切り出された文
    字の特徴量を算出する算出手段と、算出された特徴量と
    参照文字の特徴量とを照合する照合手段より成る文書画
    像処理装置において、あらかじめ用意した特定の文字列
    に関する特徴量の列と上記入力文字画像から切り出され
    た入力文字列に関して算出された特徴量の列とを文字位
    置をずらしつつ照合し文字列を構成する全ての文字の照
    合結果が所定の閾値以上である照合位置と文字列とを出
    力することを特徴とする特定文字列高速抽出方式。 2、上記照合手段による照合処理は、抽出したい特定の
    文字列であり得ない入力画像中の文字列を粗い特徴量で
    照合して除去する処理と、粗い特徴量では照合不成功と
    はならなかつた入力画像中の文字列のみに対し精細な特
    徴量で照合を行う処理とからなることを特徴とする第1
    項の特定文字列高速抽出方式。 3、上記入力文字列の粗い特徴量を量子化して量子化文
    字特徴量列を求め、文量画像上で抽出すべき特定の文字
    列が上記量子化文字特徴量列にどのように対応するかを
    あらかじめ求めテーブル化しておき、上記量子化文字特
    徴量列から該テーブルを参照し候補となる特定文字列を
    求め、該特定文字列を対象に文字パタンの一致不一致の
    照合を精細な特徴量で行うことを特徴とする第1項の特
    定文字列高速抽出方式。
JP61288799A 1986-12-05 1986-12-05 特定文字列高速抽出方法 Expired - Lifetime JPH0812683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61288799A JPH0812683B2 (ja) 1986-12-05 1986-12-05 特定文字列高速抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61288799A JPH0812683B2 (ja) 1986-12-05 1986-12-05 特定文字列高速抽出方法

Publications (2)

Publication Number Publication Date
JPS63142487A true JPS63142487A (ja) 1988-06-14
JPH0812683B2 JPH0812683B2 (ja) 1996-02-07

Family

ID=17734879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61288799A Expired - Lifetime JPH0812683B2 (ja) 1986-12-05 1986-12-05 特定文字列高速抽出方法

Country Status (1)

Country Link
JP (1) JPH0812683B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US8854164B2 (en) 2006-11-27 2014-10-07 Robert Bosch Gmbh Pressure-regulating valve

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8854164B2 (en) 2006-11-27 2014-10-07 Robert Bosch Gmbh Pressure-regulating valve
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN103198318A (zh) * 2011-12-13 2013-07-10 富士施乐株式会社 图像处理装置以及图像处理方法

Also Published As

Publication number Publication date
JPH0812683B2 (ja) 1996-02-07

Similar Documents

Publication Publication Date Title
EP0439743B1 (en) Constraint driven on-line recognition of handwritten characters and symbols
EP0325233B1 (en) Character string recognition system
US5774588A (en) Method and system for comparing strings with entries of a lexicon
US4408342A (en) Method for recognizing a machine encoded character
EP0564827B1 (en) A post-processing error correction scheme using a dictionary for on-line handwriting recognition
US20050074169A1 (en) Holistic-analytical recognition of handwritten text
JPH0664631B2 (ja) 文字認識装置
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
JPS62221088A (ja) 光学式文字読取装置
Miller On-line recognition of hand-generated symbols
JPS63142487A (ja) 特定文字列高速抽出方法
Lakshmi et al. A multi-font OCR system for printed Telugu text
RU2707320C1 (ru) Способ распознавания символа на банкноте и сопроцессор для вычислительной системы устройства для обработки банкнот
GB2306739A (en) Computerized correction of numeric data
JP3157530B2 (ja) 文字切り出し方法
JP3128357B2 (ja) 文字認識処理装置
KR960001102B1 (ko) 수서인식 시스템에서의 케이스 혼동을 해결하는 방법
JPH10198761A (ja) 文字認識方法および文字認識装置
JP2529421B2 (ja) 文字認識装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JPH08315074A (ja) 文字認識装置
CN115204151A (zh) 中文文本纠错方法、系统及可读存储介质
JPS63118993A (ja) 文字認識方法
JPH10162103A (ja) 文字認識装置
JP3481850B2 (ja) 文字認識装置