JPS63142487A

JPS63142487A - 特定文字列高速抽出方法

Info

Publication number: JPS63142487A
Application number: JP61288799A
Authority: JP
Inventors: Koichi Honma; 弘一本間; Fuminobu Furumura; 文伸古村; Fumio Wakamori; 和歌森　文男; Akira Kagami; 晃加賀美
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-12-05
Filing date: 1986-12-05
Publication date: 1988-06-14
Anticipated expiration: 2011-02-07
Also published as: JPH0812683B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は文書画像の文字列抽出方式に係り、特にシステ
ムにあらかじめ？＠された特定文字列のみを１文書画像
中から効率良く抽出するのに好適な特定文字列高速抽出
方式に関する。

〔従来の技術〕

従来、入力文字列の言語情報を利用して読み取り精度を
向上させる文字認識処理方式については、杉材：候補文
字補完と形態素解析による漢字認識の誤まり訂正処理法
、信学会情シ全国大会（１９８５）の１−３０７頁から
１−３０８頁において論ぜられている。そこでの文字認
識システムは、単語辞書を持ち、全文を文字認識し、従
来の１文字ごとの認識結果である候補文字の並びを形態
素解析し、２位以下に正解文字がある場合の誤り訂正を
行う。

このような方式によれば、１文字１文字を嘔独に文字認
識する場合に比べ、認識精度を向上させることができる
。

〔発明が解決しようとする問題点〕

上記従来技術は、単語辞書による先験的文字列情報を文
字認識に用いるものであるが、全文を文字認識するため
、特定の文字列だけを効率良く抽出しようとする点につ
いては配慮されておらず、処理時間がかかるという問題
があった。

本発明の目的は、システムにあらかじめ登録された特定
文字列のみを、文書画像中から効率良く抽出するに好適
な特定文字列高速抽出方式を提供することにある。

〔問題点を解決するための手段〕

上記目的は、文書上の文字画像（以下１文書画像という
）から文字を切り出し、切り出した文字の特徴量を算出
し、算出された特徴量とあらかじめ９．録しである文字
特徴量とを照合する際、算出特徴量を量子化し１文書画
像上で抽出すべき特定の文字列が景子化文字特徴量列に
どのように対応するかをあらかじめ求めテーブル化して
おき、このテーブルを参照して入力文字画像の量子化文
字特徴量列から候補となる特定文字列を求め、この特定
文字列を対象に文字バタンの一致不一致の認識処理を行
うことにより、達成される。

〔作用〕

一般に、バタン分類においては分類光のクラス数が多い
場合、所属クラスの完全な識別より、いくつかの特定ク
ラスだけへの所属の有無の判別の方が格段に少ない演算
で実現できる。この傾向は。

バタンの並びの中から、特定のバタンの並びを判別する
場合には、さらに顕著になる０通常、並びには規則性が
あるためである１文書画像からの特定文字列の抽出は、
まさにこの場合にあたる。

第２図で、上記事実を説明する１文字パタンの特徴パラ
メータをＸと表わし、各文字ｉの特徴空間での確率分布
を、Ｐ　Ｉ（ｘ）　；　ｉ　＝　１　、・・・１文字種
数、と表わすと、確率分布Ｐ　＋　（ｘ　）は図に示す
ように重なりを持って分布する。通常の印刷文字認識で
は１入力バタンＸに対し各確率分布Ｐ　ｔ　（ｘ　）の
最大値を与える文字を認識結果とする。ただし実際の演
算では、各文字の平均バタンｘｔ　との距離ｄ（ｉｔｅ
ｘ）の最も小さい文字を選ぶことが多い。従って、１文
字の認識には文字種類数回だけの距離計算を必要とする
。一方、入力バタンＸが、特定Ｘである可能性の有無の
判定には１回あるいは少ない個数の特定文字数回の距離
計算ですむ、また、文字の組合わせである文字列は、全
くランダムな組合せが許されるわけではないため、１文
字に関する確率分布が重なりを持つ場合でも、文字特徴
空間の積空間での文字列の確率分布の重なりは少なくな
る。従って、確率分布の重なりが大きい、粗い特徴量を
用いても、文字列の認識では比鮫的高い精度となる。

〔実施例〕

以下１本発明の一実施例を第１図により説明する。光デ
ィスクなどに収められている文書画像データは、光ディ
スク装［１から読み出され、１ラインずつ文字枠切り出
し装［２に入力され、各文字の最小外接矩形情報すなわ
ち、左上右下頂点の座標が出力され、文字情報テーブル
３の外接矩形情報部４に格納される３文字枠切り出し装
置としては、ここでは、特願昭６０−１８４２４２号「
文書文字切り出し画像処理方式」に詳述されている装置
を用いるものとする０文書画像全体について文字外接矩
形情報が抽出されると、外接矩形情報は文字情報テーブ
ル３から読み出され、相持微量算出装置５において、各
文字ごとに粗い特ｒＩｉ駄が算出される。粗い特ｒＲ量
としては、文献：文字認識概論（１９８２）のＰ７８〜
７９で詳しい説明のある複雑度指数をｍいる。複雑度指
数は、文字バタンの軸郭線の垂直および水平方向成分の
総長である。

第３図に輪郭線の総長を求めるための２×２メツシユ要
素パタンを示す、要素バタンは、垂直パタンＶ（同図（
ａ））、水平バタンＨ（同図（ｂ））、斜め片側バタン
Ｌ（同図（ｃ））、斜め両側パタンＴ（同図（ｄ））の
４種類に分けられる。図中の太線は文字バタンの輪郭線
を折れ線近似したものである。それぞれの要素パタンの
文字全体における総数ｎ（Ｖ）、ｎ（Ｈ）、ｎ（Ｌ）そ
してｎ（Ｔ）から１輪郭線の垂直および水平方向成分を
求める。

したがって、水平、垂直方向複雑度指数Ωｘ、（ｌｙは
、それぞれ下式で求まる。

ｍ、＝　−（ｎ　　（Ｖ）　　＋ｎ　　（Ｌ）／２＋ｎ
　　（Ｔ））相持微量算出装置！！５で求めた各文字に
関する水平、垂直方向複雑度指数は、文字情報テーブル
３の相持徴景部６に、外接矩形情報部４の文字枠情報と
対応して格納される。

つぎに、文字情報テーブル３から文字列の順に文字相持
微量が読み出され、量子化器７によりＯか６１５のコー
ドｍ　（４ｂｉｔ　）にコード化され、シフトレジスタ
８に格納される。量子化器７では。

２方向の複雑度指数をそれぞれ３つの閾値で４区間に分
割し定義した１６の区間のいずれに入るかを判別する。

シフトレジスタ８には、連続３文字分の相持微量量子化
コードが格納されており、アドレス演算器９は、３文字
分のコードを１２ｂｉｔデータと考え、約４ｋｗのテー
ブルを参照することにより１文字列テーブル１０上の対
応アドレスを求める。抽出すべき特定文字列は、あらか
じめ約４にの分割区間（１６の分割区間の３乗積区間）
のいずれに入るかを相持微量により判別され、分割区間
ごとにコード列として集められ１文字列テーブル１ｏに
格納されている。ただし、本判別のための分割区間は互
いにオーバーラツプさせ１つの文字列が複数の区間に対
応することも許す６アドレス演算器９の出力アドレスは
、分割区間に関するコード列データの先頭アドレスであ
る。ただし、先頭アドレス自身には分割区間中のコード
列の個数が格納されている。シフトレジスタ８上の相持
微量量子化コードに対応する３文字に対し。

アドレス演算器９の出力アドレスで参照される文字列テ
ーブル１０の内容は、候補となる特定文字列の数を示す
、特定文字列数が０の場合には、判定器［１１１により
候補となる特定文字列はないと判定され、文字情報テー
ブル３から次の文字相持微量が読み出され同様にして文
字列テーブル１０の参照が行われる。

文字列テーブル１０の参照結果が０でない場合には、候
補となる文字列の文字コード列が次々と文字列テーブル
１０から読み出され、文字精特微量テーブル１２により
、文字コードに対応する文字バタンの精特微量に変換さ
れる。文字バタンの精特微量としては、文字バタンＫ　
（ｘｔ　ｙ）自身を用いる。ここで、Ｘｐ’ｊは各々水
平と垂直方向の位置座標で。

である、精特徴量列レジスタ１３には、候補文字列の精
特微量（Ｋｓ（ｘ＋　ｙ）Ｐ　Ｋｘ（ｘｐ　ｙ）＋にδ
（ｘ、ｙ））が格納される。添字ｉはｉ番目の候補であ
ることを示す。一方、判定装置１１は、候補文字列数が
Ｏでない場合には、精特徴量算出装Ｒ１４に起動をかけ
、シフトレジスタ８中の文字列に関する精特微量を算出
する。すなわち、光デイスク装置１より該当文字バタン
を切り出し。

被判定精特徴量列レジスタ１５に格納する０両レジスタ
１３．１５の精特徴量列は、距離計算装置１６により下
式で距離すなわち相違度が求められ、閾値判定器１７で
相違度の判定が行われる。相違度が閾値θを越える場合
には、入力文書画像中の被判定文字列は、候補文字列で
はあり得ないと考え、候補文字列中で相違度が閾値０を
越えないものを選び、相違度と共に文字コード列を出力
する。

相違度が閾値θを越えない候補文字列が複数ある場合に
は、最小の相違度を与える文字コード列あるいは、すべ
ての文字コード列を順位付けして出力する。もし、候補
文字列の相違度がすべて閾値θを越える場合には、被判
定文字列は抽出すべき特定文字列のいずれでもないとし
１文字情報テーブル３に起動がかかり１次の文字相持微
量が読み出され、１文字シフトした３文字の文字列上で
上記判定処理が行われる。

以上述べた実施例では、文字バタンの相持微量として、
複雑度指数を用いたが、周辺分布、縮少したパタンその
ものなど、別の相持微量を用いることも可能である。

〔発明の効果〕

本発明によれば、文書画像上で抽出すべき特定の文字列
をあらかじめ粗い文字特徴量の頓びに基づいて分類して
おくため、入力文書画像文字列から、演算量の少ない粗
い特徴量を用いて、候補となるＵＳ特定文字列をしぼり
込め、その結果特定文字列の抽出を高速におこなえるた
め、システムに登録された特定文字列のみを１文書画像
中から効率良く抽出できる効果がある。

【図面の簡単な説明】

第１Ｉ５４は本発明の一実施例の全体システム構成図、
第２図は文字パタンの特徴空間での確率分布の説明図、
第３図は文字バタンの相持微量として用いた複雑度指数
計算のための要素パタンの一例を示す図である。　　　
　　　　　　　　　　　　　。

Claims

【特許請求の範囲】１、文字画像を入力する入力手段と、入力された文字画
像より文字を切り出す画像処理手段と、切り出された文
字の特徴量を算出する算出手段と、算出された特徴量と
参照文字の特徴量とを照合する照合手段より成る文書画
像処理装置において、あらかじめ用意した特定の文字列
に関する特徴量の列と上記入力文字画像から切り出され
た入力文字列に関して算出された特徴量の列とを文字位
置をずらしつつ照合し文字列を構成する全ての文字の照
合結果が所定の閾値以上である照合位置と文字列とを出
力することを特徴とする特定文字列高速抽出方式。２、上記照合手段による照合処理は、抽出したい特定の
文字列であり得ない入力画像中の文字列を粗い特徴量で
照合して除去する処理と、粗い特徴量では照合不成功と
はならなかつた入力画像中の文字列のみに対し精細な特
徴量で照合を行う処理とからなることを特徴とする第１
項の特定文字列高速抽出方式。３、上記入力文字列の粗い特徴量を量子化して量子化文
字特徴量列を求め、文量画像上で抽出すべき特定の文字
列が上記量子化文字特徴量列にどのように対応するかを
あらかじめ求めテーブル化しておき、上記量子化文字特
徴量列から該テーブルを参照し候補となる特定文字列を
求め、該特定文字列を対象に文字パタンの一致不一致の
照合を精細な特徴量で行うことを特徴とする第１項の特
定文字列高速抽出方式。