JPS63157291A - 定型文書の文字認識方法 - Google Patents

定型文書の文字認識方法

Info

Publication number
JPS63157291A
JPS63157291A JP61305930A JP30593086A JPS63157291A JP S63157291 A JPS63157291 A JP S63157291A JP 61305930 A JP61305930 A JP 61305930A JP 30593086 A JP30593086 A JP 30593086A JP S63157291 A JPS63157291 A JP S63157291A
Authority
JP
Japan
Prior art keywords
dictionary
font
document
stored
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61305930A
Other languages
English (en)
Inventor
Keiji Kojima
啓嗣 小島
Hajime Sato
元 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61305930A priority Critical patent/JPS63157291A/ja
Publication of JPS63157291A publication Critical patent/JPS63157291A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は文字認識方法に係り、特に複数種の文字フォン
トを認識対象として定型文書の文字認識処理を行う際の
辞書切換え方法に関する。
〔従来技術〕
従来、光学的文字認識装置などにおいて、複数のフォン
トが存在する定型文書を扱う場合は、利用者がフォント
別の領域や辞書の指定を行うか、そのフォーマットを作
成しなければならなかった。
このため、領域や辞書指定もしくはフォーマット作成と
いった操作が必要となり、利用者に余分な負担がかNる
という問題があった。
〔目 的〕
本発明の目的は、文字認識装置で複数のフォントが存在
する定型文書を扱う場合、フォント別の領域や辞書の指
定を自動的に行い、それに基いて2枚目以降の辞書の切
り換えを行うことにより、利用者の負担軽減及び認識処
理の高速化を図ることにある。
〔構 成〕
本発明は、認識すべき文書のライン数に対応するバッフ
ァを用意し、定型文書の1枚目の文字認識の際、各ライ
ンで使用されたフォントに対応する番号を、辞書を選択
しながら該ラインに対応するバッファに格納し、2枚目
からは前回バッファに格納した各ラインの情報を用いて
辞書を切り換える。
また1本発明は、認識すべき文書のフォント別領域座標
と選択されたフォントに対応する番号を格納するバッフ
ァを用意し、定型文書の1枚目の文字認識の際、各領域
で使用されたフォントに対応する番号と領域座標値を、
辞書を選択しながらバッファに格納し、2枚目からは前
回バッファに格納した各領域の情報を用いて辞書を切り
換える。
以下5本発明の一実施例について図面を用いて説明する
第1図は本発明の一実施例のハードウェア構成図を示す
。スキャナ11は原稿上の文字を光学的に読み取り、黒
画素は1、白画素はOの2値パターンデータに変換する
。前処理部12は、ノイズの除去等を行い、各文字パタ
ーンを抽出する。特徴抽出部13は、入力文字パターン
の特徴パラメータを抽出し、特徴メモリ14に格納する
と共に制御部15に与える。特徴抽出には、種々の方法
が提案されているが、例えば入力文字パターンの輪郭部
に方向コードをつけて、該文字パターンを複数のブロッ
クに分割し、各ブロック毎に方向コード別のヒストグラ
ムをとり、このヒストグラムを特徴パラメータとするの
も一つの方法である。
この場合、例えば分割するブロックの数が16ブロツク
で、方向コードが8方向とすると、特徴パラメータは1
6X8=128次元で表わされる。
制御部15は各部を制御して認識処理を実行し候補文字
を決定するものである。距離演算部16は制御部15の
制御下で、入力文字の特徴パラメータと各フォントの辞
書20−1〜20−4のデータとの距離を演算する。カ
ウンタ17は、各ライン毎に求まった候補の距離に対応
する重みをカウントアツプするのに用いられる。バッフ
ァ18は、1枚目の文書の認識処理の際、各ラインで使
用された辞書のフォント番号、あるいは各領域で使用さ
れた辞書のフォント番号及び領域の座標値を格納するの
に用いられる。認識結果メモリ19は、制御部15によ
る認識結果を格納するのに用いられる。
辞書20−1〜2o−4は各々フォント1〜4に対応し
ている。以下に説明する本発明の各実施例では、各フォ
ントの辞書は20−1→20−2→20−2→20−4
の順に検索されるとするが。
20−1の次にはグループ辞書に切り換えるようにして
もよい。
ヌ」1」L 第2図に実施例1の処理フローを示す。まず、入力文字
の特徴パラメータのN次元中のn次元(n < N )
について、フォント1の辞書20−1との距離演算を行
い(ステップ101)、求まった第1候補の距離に対応
して、重みWをカウンタ17でカウントアツプする(ス
テップ102)。
第6図に距離Xと重みWの関係の一例を示す6次に残り
の(N −n )次元における距離演算を行い、結果を
メモリ19に格納する(ステップ103)。
この一連の処理を1ライン分の文字についておこない、
1ラインの終了時(ステップ104)、カウンタ17の
カウント値と所定の閾値TH(1ラインの文字数の対す
る割合を示す値)を比較する(ステップ105)。そし
て、もしカウント値がTHを越える場合は、カウント値
と認識結果をメモリ19に格納し、次のフォント2の辞
書2〇−2に切り換え(ステップ106)、再び特徴メ
モリ14に格納されている入力文字の特徴パラメータを
用いて距離演算を行う。カウント値がTHを越えない場
合は、1ライン分の結果をメモリ19から引き出して出
力し、フォント1の辞IF2〇−1を選択する。この時
、バッファ18の対応するラインに、選択した辞書のフ
ォントに対応する番号を格納する(ステップ107)。
なお、ステップ101〜106の処理を繰り返し、もし
2辞$20−1〜20−4についてカウント値がTHを
越える場合には、認識結果メモリ19に格納されている
カウント値の中の最小カウント値を持つ結果を引き出し
て出力し、それに対応するフォントの辞書を選択するが
、この場合も、バッファ18の対応するラインに、選択
した辞書のフォントに対応する番号を格納するようにす
る。
以上の処理を文書の各ラインについて繰り返すことによ
り、バッファ18には、第3図に示すように、各ライン
で使用されたフォントに対応する番号が格納される。第
3図において、斜線部は認識される文書の文字領域を示
す、制御部15では2枚目以降の定型文書について、こ
のバッファ18に格納された各ラインの情報を用い、例
えばライン1からライン4はフォント1、ライン5から
ライン6はフォント3、ライン7からライン13はフォ
ント4というように辞書を切り換える。
実施例2 第4図に実施例2の処理フローを示す、第4図において
、ステップ201〜206の処理は第2図のステップ1
01〜106の処理と同様である。
カウンタ17のカウント値が所定の閾値THを越えない
と判定された場合、1ライン分の結果をメモリ19から
引き出して出力し、そのフォントの辞書を選択する。こ
の時、当該ラインの文字領域におけるX座標の最小/最
大値Xs、xL、Y座標の最小/最大値Yl+YLを求
める(ステップ207)0次に、前のラインで選択され
た辞書のフォントと同じか否かチェックしくステップ2
08)、同じでない場合は、求めたxs、 Xt= Y
s−Ytと選択された辞書のフォント番号をバッファ1
8に新規に格納する(ステップ211)、前のラインの
フォントと四じ場合は、すでにバッファに格納されてい
るX S’ * X L’ l Y S’ t Y L
’ に対して。
Xs’ <Xs* XL’ >At、YL’ >YLの
いずれかの条件を満足するか否かチェックしくステップ
209)、満足しない場合には上記と同様にステップ2
11の処理を行い、満足する場合には、X5=Xs’ 
、X5=Xs’ −Yt=Yt’ (7)処理を行った
後(ステップ210)、ステップ211を実行する。
以上の処理を文書の全ラインについて繰り返すことによ
り、バッファ18には、第5図に示すように1文書中の
フォント別領域毎に、各領域で使 1用されたフォント
に対応する番号と当該領域の座標値が格納される。第5
図において、斜線部は文書の文字領域、「×」印は座標
点を示す、制御部15では、2枚目以降の定型文書につ
いて、このバッファ18に格納された各領域の情報を用
い。
例えば(X、Y)= (1,O)と(X、Y)=(9,
4)で囲まれる領域はフォント1に、(X。
Y)= (1,4)と(x、y)= (9,6)で囲ま
れる領域はフォント3、(X、Y)= (1,6)と(
X、Y)= (9,13)で囲まれる領域はフォント4
というように、辞書を切り換える。
〔効 果〕
以上の説明から明らかなように、本発明によれば、?[
数のフォントが存在する定型文書の認識処理において、
利用者に余分な負担をかけずにフォントの書式を作成す
ることができ、しかも該作成した書式に、もとづいて2
枚目以降の認識処理に用いる辞書を切り換えることによ
り、認識処理の高速化が達成できる。
【図面の簡単な説明】
第1図は本発明の一実施例のハードウェア構成を示す図
、第2図は本発明の第1の実施例の処理フローを示す図
、第3図は第1の実施例のバッファ情報の具体例を示す
図、第4図は本発明の第2の実施例の処理フローを示す
図、第5図は本発明の第2の実施例のバッファ情報の具
体例を示す図、第6図は本発明の各実施例で用いる距離
と重みの関係の一例を示す図である。 11・・・スキャナ、  12・・・前処理部、13・
・・特徴抽出部、  14・・・特徴メモリ、15・・
・制御部、  16・・・距離演算部、17・・・カウ
ンタ、  18・・・バッファ、19・・・認識結果メ
モリ、 20−1〜20−4・・・辞書。 第1図 第2図 第3図 第5図

Claims (2)

    【特許請求の範囲】
  1. (1)複数種の文字フォントを認識対象として定型文書
    の文字認識処理を行う際、1枚目の文書の各ラインで使
    用されたフォントに対応する番号を、辞書を選択すると
    きに保持しておき、2枚目以降の文書からは前記保持し
    ておいた各ラインの情報を用いて辞書を切り換えること
    を特徴とする定型文書の文字認識方法。
  2. (2)複数種の文字フォントを認識対象として定型文書
    の文字認識処理を行う際、1枚目の文書の任意領域で使
    用されたフォントに対応する番号を、辞書を選択すると
    きに当該領域の座標値と共に保持しておき、2枚目以降
    の文書からは前記保持しておいた各領域の情報を用いて
    辞書を切り換えることを特徴とする定型文書の文字認識
    方法。
JP61305930A 1986-12-20 1986-12-20 定型文書の文字認識方法 Pending JPS63157291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61305930A JPS63157291A (ja) 1986-12-20 1986-12-20 定型文書の文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61305930A JPS63157291A (ja) 1986-12-20 1986-12-20 定型文書の文字認識方法

Publications (1)

Publication Number Publication Date
JPS63157291A true JPS63157291A (ja) 1988-06-30

Family

ID=17951008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61305930A Pending JPS63157291A (ja) 1986-12-20 1986-12-20 定型文書の文字認識方法

Country Status (1)

Country Link
JP (1) JPS63157291A (ja)

Similar Documents

Publication Publication Date Title
JPH10162150A (ja) ページ解析システム
JPH1020995A (ja) 手書き文字認識装置及び方法
EP0432937B1 (en) Hand-written character recognition apparatus
EP0471472B1 (en) Image processing method and apparatus therefor
JPS63157291A (ja) 定型文書の文字認識方法
JP2788506B2 (ja) 文字認識装置
JPS62192886A (ja) 文字認識装置における特徴量生成方法
JP2851865B2 (ja) 文字認識装置
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPS6089290A (ja) パタ−ン認識方法
JP2578415B2 (ja) 文字認識方法
JP2755738B2 (ja) 文字認識装置
JPS6327991A (ja) 入力情報認識装置用ヒストグラム作成方法
JPH05174150A (ja) 円グラフ認識装置
JPH0436885A (ja) 光学式文字読取装置
JPH01125683A (ja) 文字認識装置
JPS63269267A (ja) 文字認識方法
JPH0795336B2 (ja) 文字認識方式
JP2972443B2 (ja) 文字認識装置
JP3267038B2 (ja) 文字認識装置
JP2740506B2 (ja) 画像認識方法
JPH0264781A (ja) 表領域抽出方式
JPH02231691A (ja) 文字認識装置
JPS60110089A (ja) 文字認識装置
JPS6059487A (ja) 手書文字認識装置