JPS61272887A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPS61272887A
JPS61272887A JP60114805A JP11480585A JPS61272887A JP S61272887 A JPS61272887 A JP S61272887A JP 60114805 A JP60114805 A JP 60114805A JP 11480585 A JP11480585 A JP 11480585A JP S61272887 A JPS61272887 A JP S61272887A
Authority
JP
Japan
Prior art keywords
character
subset
dictionary
major classification
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60114805A
Other languages
English (en)
Inventor
Kunio Sakai
坂井 邦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60114805A priority Critical patent/JPS61272887A/ja
Publication of JPS61272887A publication Critical patent/JPS61272887A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の技術分野) 本発明は手書き漢字を含む多数の文字を高速に、且つ効
率良く読取り入力することのできる文字認識方式に関す
る。
〔発明の技術的背景とその問題点〕
情報入力の重要な技術の1つである文字認識は、基本的
には入力文字パターンを、認識辞書に登録された認識対
象文字の標準パターンと照合し、その類似度を判定する
等して行われる。ところが漢字は、英数字や記号に比較
して■文字の種類が多く、■形状が複雑であり、また■
類似した文字が多い等の特質を持つ。そこで従来の文字
認識装置では、例えばその認識処理を多段階に分けて■
 大分類辞書を用いて入力文字パターンをその特徴に従
って大分類識別してl!!!!識対象とする文字候補を
求め、 ■ !15!識辞書に登録された上記文字候補の標準パ
ターンと上記入力文字パターンとの類似度を計算して該
入力文字パターンを個別認識し、■ その後処理として
上記個別g*された文字を単語や連接等の知識を利用し
て修正するようにしている。
ところで、例えば帳票に記載される文字は、その記載項
目(フィールド)毎にその文字種の範囲が予め定まって
いる場合がある。そこで前記認識辞書を用いた個別認識
処理を、その限られた文字種の範囲内でだけ行い、認識
処理の高速化と認識率の向上を図ることが試みられてい
る。
このような文字種範囲の限定による個別認識はサブセッ
ト処理と称される。このサブセット処理を行うべく、従
来では前記帳票の各フィールドに対応して予めわかプて
いる文字種範囲毎にその認識対象文字の標準パターンを
重複を許してサブセット分類して認識辞書を構成してい
る。つまり認識辞書をサブセット毎に分類して構成して
いる。
そして文字パターンの入力に阻隔して与えられるフィー
ルド情報等に従って上記サブセット分類した認識辞書だ
けを選択しくサブセット指定)、この認識辞書を用いて
上述した個別i!!識を行っている。
ところが漢字を含む認識対象文字は膨大な数であり、そ
れらの認識対象文字は多種多様なサブセットの組を形成
する。しかも各認識対象文字の標準パターンは、複数の
サブセットにそれぞれ重複して登録されることが多い。
これ故、辞書メモリとしては膨大な記憶容量が必要とな
る。
また前記大分類識別結果とし求められた文字候補の中に
、指定されたサブセットの文字範囲以外のものが含まれ
ていた場合には、その文字を除外して個別認識処理を行
う必要がある。この為、サブセット処理の制御が繁雑化
する等の不具合があった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、手書き漢字を含む多数の文字を
効率良く、高速に!?!識することのできる文字Nil
方式を提供することにある。
〔発明の概要〕
本発明は、大分類辞1を用いて入力文字パターンの特徴
に応じた文字候補を求め、認識辞書に登録された上記文
字候補の標準パターンと前記入力文字パターンとを照合
して該入力文字パターンを文字認識するに際し、 上記大分類辞書に登録する認識対象文字の特徴情報を文
字種の範囲に応じたサブセット毎に分類し、このサブセ
ット分類された大分類辞書を選択的に用いて前記入力文
字パターンの大分類識別をサブセット単位で行うように
したものである。
即ち、大分類辞書に登録する複数の認識対象文字の特徴
情報を、例えば文字種の範囲に応じたサブセット毎にま
とめで分類登録してその登録先頭アドレスによりサブセ
ット管理し、或いは上記認識対象文字の特徴情報毎にそ
の認識対象文字が属するサブセットを示すフラグを付加
して登録して該フラグの指定によりサブセット管理する
よう・にし、 このようにサブセット分類した大分類辞書を、例えば入
力文字パターンに阻隔するフォーマット情報に従ってサ
ブセット指定して該当サブセットの大分類辞書のみを用
いて前記入力文字パターンの大分類識別処理をサブセッ
ト単位で行うようにしたものである。
〔発明の効果〕
かくして本発明によれば、大分類辞書を用いて入力文字
パターンを大分類識別して文字候補を求めるに際して、
サブセット分類された大分類辞書のみを選択的に用いて
サブセット分類された文字候補を求めるので、 文字候補の大分類選択処理と、サブセット指定の処理を
一括して高速に行うことができ、且つ認識辞書を用いた
個別文字認識処理に供する文字候補自体を所定のサブセ
ット範囲内の認識対象文字に絞ることができる。従って
個別認識処理の簡易化を図り、入力文字パターンを効率
良く、しかも高速に文字認識することが可能となる。
また認識辞書をサブセット分類しておく必要がないので
、該認識辞書の構成の簡略化を図ることができ、その必
要辞書容量の低減を図ることができる。更にはサブセッ
トの変更に対しても、大分類辞書の組替えだけで容易に
対処することができるので、多数の認識対象文字に対す
る柔軟性が非常に高い等の実用上多大なる効果が奏せら
れる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例方式を適用した文字認識装置の要部概略
構成図である。
文字認識に供せられる文字パターンは、例えば光電変換
されて帳票から読取られ、量子化器1および前処理・検
切部2を介して入力される。走査制御部12、量子化器
1および前処理検切部2は、従来め一般的なOCRと同
様に、入力文字パターンを2値量子化した後、これを正
規化し、1文字車位に切出す等の所定の処理を行うもの
である。
しかして特徴抽出部3は、前記入力文字パターンを大分
類識別してその文字候補を求めるべく、入力文字パター
ンの特徴値を抽出している。この大分類識別の為の特徴
値は、例えば特開昭59−22177号公報等に開示さ
れるように、入力文字パターンの外接枠内の上下左右の
各部分領域における入力文字パターンの局部的複雑さ、
前景部重心位置、背景部の輪郭線長等として求められる
照合演算部4は、上記の如く求められた入力文字パター
ンの特徴値と、大分類辞I5に予め登録された認識対象
文字の標準的特徴値との差をそれぞれ計算し、その差の
値を該入力文字パターンの各認識対象文字に対するペナ
ルティとして求めている。この照合演算部4にて計算さ
れた各認識対象文字に対するペナルティの値が比較器6
にて所定の閾値とそれぞれ比較され、該閾値以下のペナ
ルティ値を得た認識対象文字が前記入力文字パターンに
対する認識文字候補として抽出される。そしてこの文字
候補の情報は候補文字バッファ7に格納され、入力文字
パターンのil1文字候補リストが作成される。
個別認識部8は、候補文字バッフ77に格納された文字
候補のリストに従って該当文字の標準文字パターンを認
識辞I9から順に読出し、例えば複合類似度計算等によ
って前記入力文字パターンとの類似度を計算している。
この類似度計算結果を判定して前記入力文字パターンが
文字g!識される。この文字認識は、例えば類似度値が
所定の閾値以上であり、且つ最も高い類似度値を得た標
準パターンの認識対象文字を前記入力文字パターンに対
する認識結果とする等して行われる。
ところで前記大分類辞I5は次のようにして構成されて
いる。
大分類辞書5に登録される各認識対象文字の特徴値は、
予め認識対象文字の全てに対する多数のサンプル・パタ
ーンから各認識対象文字の特徴値をそれぞれ検出し、こ
れらの各特徴値の分析結果に従って各認識対象文字毎に
その特徴値の、例えば平均、分散を計算する等して求め
られる。このようにして計算された各認識対象文字の標
準的な特徴値が各認識対象文字に対応して大分類辞書5
に登録される。
ここで本方式が特徴とするところは、大分類識別用の各
Wt識対象文字の標準的な特徴値を大分類辞I5に登録
するに際して、上記各認識対象文字の特徴値を入力文字
種範囲(サブセット)毎に分類し、サブセット単位で選
択的に読出すことができるようにした点にある。
例゛えば第2図に示すように各認識対象文字の標準的特
徴値を各サブセット単位にまとめて順に配列し、その最
後にサブセットの区切りを示すエンドフラグEOFを付
して辞書メモリに順に格納して大分類辞書5が構成され
る。そして各サブセットの辞書メモリにおける格納先頭
アドレスを制御部11に与えて、各サブセットの管理情
報とする。
具体的には、例えば第1のサブセットS1に分類された
認識対象文字がnfil存在する場合、これらの各認識
対象文字の標準的特徴値が辞書メモリの記憶アドレス(
1)から(n、)に順に格納され、記憶アドレス(n+
1)に該サブセットS1の終了を示すエンドフラグEO
Fが格納される。そして第2のサブセットS2に分類さ
れたm個の認識対象文字の標準的特徴値は、上記辞書メ
モリの記憶アドレス(n+2)から(n++a+4)に
屋って順に格納され、そのサブセット$2の終了を示す
エンドフラグEOFが、該辞書メモリの記憶アドレス(
n+1+2)に格納される。
このようにして各サブセットに分類されたに個の認識対
象文字の各標準的特徴値は、辞書メモリの記憶アドレス
(×)から(X+k)に屋って順に格納され、その次の
、記憶アドレス(x十に+1)にエンドフラグEOFを
格納して各サブセット毎にそれぞれまとめられている。
そしてその格納先頭アドレス(X)にて個々のサブセッ
トが管理されている。
尚、上述したサブセット分類において、成る認識対象文
字が複数のサブセットにそれぞれ属する場合には、これ
らの各サブセットに1ってその認識対象文字の標準的特
徴値が重複して分類登録される。
第1図において制御部11は、上述した如くサブセット
分類された大分類辞書5に対してサブセット指定し、サ
ブセット分類された認識対象文字の標準的特徴値を選択
的に読出すものである。
即ち、制御部11は前記入力文字パターンが与えられた
とき、その入力文字パターンが記載された帳票に阻隔し
て予め入力されているフォーマット情報等から該入力文
字パターンが属するサブセット(文字種範囲)を、その
帳票走査の進行過程において逐一識別している。そして
この識別結果に従って前記制御部11から該当サブセッ
トの標準的特徴値が格納された前記辞書メモリ上の記憶
先頭アドレス情報を求め、該辞書メモリを上記格納先頭
アドレスから順にアクセスして各アドレスにそれぞれ格
納された標準的特徴値を前記照合演算部4に読出してい
る。この辞書メモリの走査による上記標準的特徴値の読
出しは、前記各サブセットの最終アドレスに格納された
エンドフラグEOFが読出されるまで繰返し行われる。
このような大分類辞書5のサブセット単位での選択的な
走査による標準的特徴値の読出しによって、前記照合演
算部4と比較器6は前記入力文字パターンに対する認識
文字候補を、そのサブセットに属する認識対象文字の中
から選択的に求めることになる。この結果、大分類識別
して候補文字バッフ77に文字候補リストとして求めら
れる認識文字候補は、同時にサブセット分類されたもの
となる。
また大分類辞書5をサブセット単位で選択的に走査する
だけで良いので、大分類辞書5の走査所要時間の短縮化
を図り、大分類処理を短時間に効率良く行うことが可能
となる。しかも、サブセット指定された認識対象文字種
範囲内でのみ大分類識別処理を行うので、その大分類識
別精度の向上を図り、精度の高い小数の文字候補のみを
効果的に求めることが可能となる。
従って個別認識部8では、上記大分類識別処理において
入力文字パターンの大分類識別による文字候補の選択と
、サブセット分類処理とによる文字候補の絞り込みとが
一括して行われるので、限られた小数の文字候補につい
てのみ複合類似度法等による個別文字I!処理を行えば
良い。これ故、その認識処理が大幅に簡略化される。
また文字候補に対するサブセット処理が大分類識別処理
にて一括して行われるので、個別認識処理段階でサブセ
ット選択処理を行う必要がなくなる。これ故、認識辞書
9の必要辞書容量を少なく抑え、その構成の簡略化を図
ることができる。
即ち、認識辞書9に登録される各認識対象文字の標準パ
ターンの情報量は、前述した大分類識別用の各標準的特
徴値に比較して格段に多い。このようなIll対象文字
の各標準パターンを従来のようにその重複を許してサブ
セット分類して認識辞I9を構成する場合には、極めて
膨大な辞書容量を必要とする。しかもそのサブセットの
分類に変更が生じた場合には、認識辞I9の修正が非常
に大変である。
この点、大分類辞I5をサブセット分類した本方式によ
れば、認識対象文字の各標準的特徴値をその重複を許し
てサブセット分類したとしても、各標準的特徴値の情報
量自体が少ない為、大分類辞書5に要求される辞書容量
はさほど大きくない。
しかも各標準的特徴値のアドレス管理が容易なので、サ
ブセット分類の変更に伴う大分類辞書5の内容変更も容
易である。従って総合的には辞書全体の構成の簡略化を
図り、効率の良い文字i!2!It処理を行うことが可
能となる。
ところで前記大分類辞書5を第3図に示すように構成す
ることもできる。
即ち、認識対象文字の各標準的特徴値を辞書メモリに順
に格納するに際し、上記各標準的特徴値にその!i!l
!X対象文字が属するサブセットを識別する為のフラグ
バイトFをそれぞれ付加して大分類辞書5を構成する。
このフラグバイトFの付加は、各認識対象文字種が占有
するメモリ領域の一部を利用して行われ、その認識対象
文字の標準的特徴値の読出し時に上記フラグバイトFの
情報が同時に読出されるようにする。
このフラグバイトFの情報によって、そのフラグバイト
が付された認識対象文字が属するサブセットが分類識別
される。例えばフラグバイトFの情報f1によって、そ
の認識対象文字がサブセットS1に分類されていること
が示される。換言すれば、サブセットS1に分類された
認識対象文字の各標準的特徴値には、それぞれ情報f1
なるフラグバイトFが付加されて大分類辞書5に登録さ
れている。尚、複数のサブセットにそれぞれ分類される
i!謙対象文字の標準的特徴値には、複数のフラグ情報
からなるフラグバイトFが付加される。
このような構成の大分類辞■5に対して前記制御部11
は該大分類辞書5を順に走査し、例えば各フラグバイト
Fの情報から指定されたサブセットに属するものだけを
検出判定している。そしてそのフラグバイトFが付加さ
れた標準的特徴値のみを選択的に読出し、これを前記照
合演算部4に与えている。この結果、照合演算部4は、
前述した実施例と同様にサブセット指定された文字種の
標準的特徴値との間で入力文字パターンを大分類識別す
ることになる。
尚、フラグバイトFの情報に拘らず大分類辞書5から読
出された認識対象文字の標準的特徴値を用いた大分類識
別処理を実行し、そのペナルティ値が所定の閾m以下の
場合にのみ、上記フラグバイトFの情報を参照して、そ
の認識対象文字を認識候補文字とするか否かを判定すよ
うにしても良い。
このようにして大分類辞書5を構成した場合、大分類処
理においては該大分類辞書5の全体に屋る走査が必要と
なるが、第2図に示したような特殊な辞書配列とした大
分類辞書を構成する必要がないので、その構成の簡略化
を図り、大分類辞書5の辞書メモリ容量の節約を図り得
る。また前記フラグバイトFの情報の書替えだけによっ
てサブセット分類の変更を簡易に行うことができる。こ
れ故、文字認識処理に対する柔軟性を飛躍的に向上させ
ることができる等の効果が奏せられる。
以上説明したように本方式によれば、入力文字パターン
の大分類識別処理の過程でそのサブセット指定を行い、
サブセット分類処理を大分類識別による文字候補の選択
処理時に一括して行うので、その認識文字候補を効果的
に厳選することができる。
その上で文字候補に対する個別認識処理を行うので、個
別認識処理の大幅な簡略化を図り、全体的には効率よく
高速に文字認識することが可能となる。
尚、本発明は上述した実施例に限定されるものではない
。ここでは、OCRによる文字認識を例に説明したが、
その技術思想を音声認識の場合にも同様に適用すること
ができる。即ち、音声認識において入力音声情報の時系
列から音韻情報を抽出する際、母音による大分類識別等
に適用可能である。また大分*i別のアルゴリズム等を
種々変形することも可能である。
また実施例では大分類処理と個別認識処理とを別々の辞
書を用いて行ったが、この処理を統一的に行うようにし
ても良い。具体的には、大分類辞書と個別認識辞書とを
その文字種毎に対応付けて記憶し、その辞書の大分類辞
書カテゴリについて大分類識別を行う。そしてこの大分
類識別で求められた候補については、即時個別認識処理
を行い、候補外となったものについては個別認識を行う
ことなく、次のカテゴリに対する大分類識別を行うよう
にする。
このようにすれば、辞書メモリの1回の全面走査によっ
て大分類処理と個別認識処理を行うことが可能となり、
また前述した候補文字バッファ1が不要となる等の効果
が奏せられる。尚、この場合には、大分類辞書の構成と
しては前記第3図に示すような構成とし、各カテゴリ毎
に大分類辞書情報をその前半領域に、また個別fi!識
辞書をその後半領域に格納するようにしておけば良い。
その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
【図面の簡単な説明】
図は本発明の一実施例方式を説明する為のもので、第1
図は一実施例方式を適用した文字i!!It装置の要部
概略構成図、第2図および第3図はそれぞれ大分類辞書
の構成例を示す図である。 3・・・特徴抽出部、4・・・照合演算部、5・・・大
分類辞書、6・・・比較器、1・・・文字候補バッファ
、8・・・個別認識部、9・・・認識辞書、11・・・
ill m部、12・・・走査制御部。

Claims (3)

    【特許請求の範囲】
  1. (1)大分類辞書を用いて入力文字パターンをその特徴
    に従って大分類識別して認識対象とする文字候補を求め
    、認識辞書に登録された上記文字候補の標準パターンと
    前記入力文字パターンとを照合して該入力文字パターン
    を文字認識するに際し、上記大分類辞書を文字種に応じ
    てサブセット分類しておき、該大分類辞書をサブセット
    単位で選択的に用いて前記入力文字パターンを大分類識
    別してなることを特徴とするとする文字認識方式。
  2. (2)大分類辞書は各サブセット毎にまとめて辞書メモ
    リに登録され、その登録先頭アドレスによりサブセット
    管理されるものである特許請求の範囲第1項記載の文字
    認識方式。
  3. (3)大分類辞書はその辞書情報に分類されたサブセッ
    トを示すフラグを付加して辞書メモリに登録され、該フ
    ラグの指定によりサブセット管理されるものである特許
    請求の範囲第1項記載の文字認識方式。
JP60114805A 1985-05-28 1985-05-28 文字認識方式 Pending JPS61272887A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60114805A JPS61272887A (ja) 1985-05-28 1985-05-28 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60114805A JPS61272887A (ja) 1985-05-28 1985-05-28 文字認識方式

Publications (1)

Publication Number Publication Date
JPS61272887A true JPS61272887A (ja) 1986-12-03

Family

ID=14647129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60114805A Pending JPS61272887A (ja) 1985-05-28 1985-05-28 文字認識方式

Country Status (1)

Country Link
JP (1) JPS61272887A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63126082A (ja) * 1986-11-14 1988-05-30 Ricoh Co Ltd 文字認識方式
JPH02110795A (ja) * 1988-10-20 1990-04-23 Fujitsu Ltd パターン同定処理方式
CN103714332A (zh) * 2012-10-01 2014-04-09 富士施乐株式会社 字符识别设备和字符识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS556642A (en) * 1978-06-29 1980-01-18 Fujitsu Ltd Character recognition unit
JPS5672782A (en) * 1979-11-16 1981-06-17 Toshiba Corp Character read system
JPS58123182A (ja) * 1982-01-18 1983-07-22 Oki Electric Ind Co Ltd 文字認識方式
JPS6089291A (ja) * 1983-10-19 1985-05-20 Sharp Corp 文字認識方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS556642A (en) * 1978-06-29 1980-01-18 Fujitsu Ltd Character recognition unit
JPS5672782A (en) * 1979-11-16 1981-06-17 Toshiba Corp Character read system
JPS58123182A (ja) * 1982-01-18 1983-07-22 Oki Electric Ind Co Ltd 文字認識方式
JPS6089291A (ja) * 1983-10-19 1985-05-20 Sharp Corp 文字認識方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63126082A (ja) * 1986-11-14 1988-05-30 Ricoh Co Ltd 文字認識方式
JPH02110795A (ja) * 1988-10-20 1990-04-23 Fujitsu Ltd パターン同定処理方式
CN103714332A (zh) * 2012-10-01 2014-04-09 富士施乐株式会社 字符识别设备和字符识别方法
JP2014071813A (ja) * 2012-10-01 2014-04-21 Fuji Xerox Co Ltd 文字認識装置及びプログラム

Similar Documents

Publication Publication Date Title
US4989258A (en) Character recognition apparatus
KR100249055B1 (ko) 문자인식장치및방법
US5287275A (en) Image recognition apparatus and method for recognizing a pattern within an image
JPS60142793A (ja) 文字認識方法
Riba et al. Handwritten word spotting by inexact matching of grapheme graphs
US5335289A (en) Recognition of characters in cursive script
JPH11120293A (ja) 文字認識/修正方式
US5621818A (en) Document recognition apparatus
JPS61272887A (ja) 文字認識方式
JPH0638276B2 (ja) パターン識別装置
Tou et al. Automatic recognition of handwritten characters via feature extraction and multi-level decision
Khayyat et al. Verification of hierarchical classifier results for handwritten Arabic word spotting
JP2002183667A (ja) 文字認識装置及び記録媒体
Fermanian et al. Deep recognition-based character segmentation in handwritten syriac manuscripts
KR100473660B1 (ko) 단어인식방법
Benafia et al. Proposition of a graphic model with features for handwritten character recognition
JPH0766423B2 (ja) 文字認識装置
JPH0254386A (ja) 光学的文字読取装置の文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JPH11134439A (ja) 単語認識方法
Bhaskar et al. Design and description of feature extraction algorithm for old english font
Trenkle et al. Disambiguation and spelling correction for a neural network based character recognition system
JPH07271920A (ja) 文字認識装置
JPH0535919A (ja) 文字識別装置