JPS6111886A - 文字認識方式 - Google Patents
文字認識方式Info
- Publication number
- JPS6111886A JPS6111886A JP59132028A JP13202884A JPS6111886A JP S6111886 A JPS6111886 A JP S6111886A JP 59132028 A JP59132028 A JP 59132028A JP 13202884 A JP13202884 A JP 13202884A JP S6111886 A JPS6111886 A JP S6111886A
- Authority
- JP
- Japan
- Prior art keywords
- character
- pattern
- characters
- determining
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
この発明は、帳票上に記録された文字間隔が不明な文字
列の文字パターンを切り出して認識する文字m1i11
11方式に関するものである。
列の文字パターンを切り出して認識する文字m1i11
11方式に関するものである。
従来のこの種の文字認識方式は、文字の黒画素の位置情
報を用いて文字の高さと幅を決め、文字パターンを切り
出して認識するように構成されてい軸ので、例えば「門
」などのように左右に分離した文字(以丁「分離文字」
という)が2個の部分パターンから成る1文字であるに
もかかわらず、誤ってコ文字として切り出されて認識結
果が認識不能文字となるといった欠点があった。
報を用いて文字の高さと幅を決め、文字パターンを切り
出して認識するように構成されてい軸ので、例えば「門
」などのように左右に分離した文字(以丁「分離文字」
という)が2個の部分パターンから成る1文字であるに
もかかわらず、誤ってコ文字として切り出されて認識結
果が認識不能文字となるといった欠点があった。
また、この種の他の文字認識方式としては、認識結果を
フィードバックして文字パターンを切り出す装置例があ
る。この文字認識装置では、r−J。
フィードバックして文字パターンを切り出す装置例があ
る。この文字認識装置では、r−J。
「ワ」などの分離文字の、右側の部分パターン(例えば
「ハ」の右側の部分パターンは「■)用の辞書が文字パ
ターン用辞書の他に用意されており、記入性の右から順
次、文字の黒画素の位置情報を用いて文字パターンを切
り出して認識を行い、認識結果が部分パターン、である
場合には、その左側の文字パターンを含めて1個の文字
パターンと見なして再度認識するように構成されていた
。
「ハ」の右側の部分パターンは「■)用の辞書が文字パ
ターン用辞書の他に用意されており、記入性の右から順
次、文字の黒画素の位置情報を用いて文字パターンを切
り出して認識を行い、認識結果が部分パターン、である
場合には、その左側の文字パターンを含めて1個の文字
パターンと見なして再度認識するように構成されていた
。
この従来の文字認識方式を漢字の認識に適用した場合、
分離文字の数が非常に多いため、辞書の量が大幅に増加
し、それに伴って処理時間も大幅に増加するといった欠
点があった。
分離文字の数が非常に多いため、辞書の量が大幅に増加
し、それに伴って処理時間も大幅に増加するといった欠
点があった。
この発明は上記のような従来技術における欠点を除去す
るためになされたもので、辞書の容量が小さく、かつ分
離文字を正しく認識できる新規な文字認識方式を提供す
ることを目的とする。
るためになされたもので、辞書の容量が小さく、かつ分
離文字を正しく認識できる新規な文字認識方式を提供す
ることを目的とする。
この目的を達成するためにこの発明で採用された技術的
手段は、帳票上に記録された文字列を光学的に走査し、
これによって得られる1行分の文字列パターンを記憶す
る工程と、この文字列ノくターンの黒画素の位置情報を
求め、この位置情報により上記文字列パターンから文字
パターンを切り出す工程と、この切り出した文字パター
ンを文字認識辞書を使用して文字名を決定する工程と、
この決定された文字名を評価し文字パターンを再度切り
出すか否かを決定する工程と、を備え、上記文字名決定
工程における出力において認識不能文字が二個連続して
出現した場合、上記再切り出し決定工程においてこれを
検知し、この−個の文字パターンを1個の文字とみなし
た場合の文字幅が再切り出しの条件を満たせば、上記二
個の連続する文字パターンをt個の文字パターンと見な
し、上記文字名決定工程で再び認識せしめ文字名を決定
することを特徴とする構成である。
手段は、帳票上に記録された文字列を光学的に走査し、
これによって得られる1行分の文字列パターンを記憶す
る工程と、この文字列ノくターンの黒画素の位置情報を
求め、この位置情報により上記文字列パターンから文字
パターンを切り出す工程と、この切り出した文字パター
ンを文字認識辞書を使用して文字名を決定する工程と、
この決定された文字名を評価し文字パターンを再度切り
出すか否かを決定する工程と、を備え、上記文字名決定
工程における出力において認識不能文字が二個連続して
出現した場合、上記再切り出し決定工程においてこれを
検知し、この−個の文字パターンを1個の文字とみなし
た場合の文字幅が再切り出しの条件を満たせば、上記二
個の連続する文字パターンをt個の文字パターンと見な
し、上記文字名決定工程で再び認識せしめ文字名を決定
することを特徴とする構成である。
以下、この発明の好ましい実施例を図について説明する
。
。
第1図は、この発明の一実施例である文字認識方式を説
明するだめのブロック図である。第1図中、lは帳票上
に記録された文字パターンを読み取り、記憶するパター
ン観測記憶工程、コはパターン観測記憶工程lで記憶し
た文字ノくターンのヒストグラムを作成するヒストグラ
ム作成工程、3は上記ヒストグラム作成工程コで作成し
たヒストグラムの連続性を調べて/文字分の文字Iくタ
ーンを切り出す文字パターン切り出し工程、qは切り出
された文字パターンを認識して文字名を決定する文字決
定工程、Sは文字の認識辞書を記憶した認識滝書記憶装
置、6は再切り出し決定工程である。尚、第1図中の矢
印はデータと制御情報の流れを示す。
明するだめのブロック図である。第1図中、lは帳票上
に記録された文字パターンを読み取り、記憶するパター
ン観測記憶工程、コはパターン観測記憶工程lで記憶し
た文字ノくターンのヒストグラムを作成するヒストグラ
ム作成工程、3は上記ヒストグラム作成工程コで作成し
たヒストグラムの連続性を調べて/文字分の文字Iくタ
ーンを切り出す文字パターン切り出し工程、qは切り出
された文字パターンを認識して文字名を決定する文字決
定工程、Sは文字の認識辞書を記憶した認識滝書記憶装
置、6は再切り出し決定工程である。尚、第1図中の矢
印はデータと制御情報の流れを示す。
第2図は、第1図の文字認識方式の各内部構成要素にお
ける処理過程を示す図である。第1図中、7は上記パタ
ーン観測記憶工程lで記憶された文字列のパターン、ざ
は上記ヒストグラム作成工程コで文字列のパターンのヒ
ストグラムを作成し、これを所定の閾値を用いてa値化
した文字射影図、9.10.//は文字射影図の連続性
を用いて上記文字パターン切り出し工程3において切り
出した文字パターン、/2./3./41はそれぞれ上
記文字パターン9,10.//に対する上記文字決定工
程ダでの認識結果である。このうち13及び/lIの「
?」記号は認識不能であったことを示す。15は再切り
出し後の文字パターン、16は上記文字パターン/3を
上記文字決定工程ダで認識した結果決定された文字であ
る。
ける処理過程を示す図である。第1図中、7は上記パタ
ーン観測記憶工程lで記憶された文字列のパターン、ざ
は上記ヒストグラム作成工程コで文字列のパターンのヒ
ストグラムを作成し、これを所定の閾値を用いてa値化
した文字射影図、9.10.//は文字射影図の連続性
を用いて上記文字パターン切り出し工程3において切り
出した文字パターン、/2./3./41はそれぞれ上
記文字パターン9,10.//に対する上記文字決定工
程ダでの認識結果である。このうち13及び/lIの「
?」記号は認識不能であったことを示す。15は再切り
出し後の文字パターン、16は上記文字パターン/3を
上記文字決定工程ダで認識した結果決定された文字であ
る。
次に、上記第1図と第2図を用いてこの発明の一実施例
である文字認識方式について説明する。
である文字認識方式について説明する。
帳票上に記入された連続するt性分の文字の列をパター
ン観測記憶工程lにより光学的に走査して光電変換し、
得られた電気信号から文字列に対応する文字列パターン
7を生成して該装置内に記憶する。ヒストグラム作成工
程コにおいては、パターン観測記憶工程lに記憶されて
いる文字ノくターン情報を受取り文字列と直交する方向
に黒画素数を計数することにより文字列ノくターン7の
ヒストグラムを作成する。次に所定の閾値を用いてこの
ヒストグラムをコ値化して文字射影、図tを作成する。
ン観測記憶工程lにより光学的に走査して光電変換し、
得られた電気信号から文字列に対応する文字列パターン
7を生成して該装置内に記憶する。ヒストグラム作成工
程コにおいては、パターン観測記憶工程lに記憶されて
いる文字ノくターン情報を受取り文字列と直交する方向
に黒画素数を計数することにより文字列ノくターン7の
ヒストグラムを作成する。次に所定の閾値を用いてこの
ヒストグラムをコ値化して文字射影、図tを作成する。
文字パターン切り出し工程3においては、文字射影図8
の連続する部分の幅を文字幅と見なし、文字列パターン
クから1文字づつ文字を切り出し、文字パターン9,1
0.//とその存在位置を求める。
の連続する部分の幅を文字幅と見なし、文字列パターン
クから1文字づつ文字を切り出し、文字パターン9,1
0.//とその存在位置を求める。
次に、この文字パターン’t、to、tiと、認識辞書
記憶装置5の中の文字認識辞書との対応をとり文字法、
定工程亭で文字名を決定するが、文字パターン10と/
/は7個の分離文字が誤って二個の文字パターンとして
切り出されたものであり、認識辞書記憶装置5の中K、
これらの文字パターンに対応する認識辞書は存在しない
。このため、文字決定工程グでは、文字パターン9に対
しては正しく「入J/2と認識するが、文字パターンl
O及び//に対しては共に認識不能記号13及びl/I
の「?」を出力することになる。
記憶装置5の中の文字認識辞書との対応をとり文字法、
定工程亭で文字名を決定するが、文字パターン10と/
/は7個の分離文字が誤って二個の文字パターンとして
切り出されたものであり、認識辞書記憶装置5の中K、
これらの文字パターンに対応する認識辞書は存在しない
。このため、文字決定工程グでは、文字パターン9に対
しては正しく「入J/2と認識するが、文字パターンl
O及び//に対しては共に認識不能記号13及びl/I
の「?」を出力することになる。
そこで、再切り出し決定工程6では文字決定工程グで得
られた認識結果を調べ、認識不能が二個連続する場合に
は、文字パターンの切り吊し誤りの可能性があると見な
して以下の処理を行う。
られた認識結果を調べ、認識不能が二個連続する場合に
は、文字パターンの切り吊し誤りの可能性があると見な
して以下の処理を行う。
即ち、文字決定工程りで認識不能と決定された連続する
二個の文字パターンを1個の文字と見なして、その文字
幅を上記二個の文字の存在位置から計算し、得られた文
字幅が、所定の閾値以下の場合、上記文字パターン切り
出し工程3に再切り出しを指示する。
二個の文字パターンを1個の文字と見なして、その文字
幅を上記二個の文字の存在位置から計算し、得られた文
字幅が、所定の閾値以下の場合、上記文字パターン切り
出し工程3に再切り出しを指示する。
この結果、文字パターン切り出し工程3では、上記二個
の文字の存在位置より、この二個の文字を1文字として
切り出すべき位置を計算し、この計算値より、上記文字
列パターン7から文字パターンt5を切り出す。
の文字の存在位置より、この二個の文字を1文字として
切り出すべき位置を計算し、この計算値より、上記文字
列パターン7から文字パターンt5を切り出す。
以上のようにして正しく切り出された文字パターン/j
を上記文字決定工程ダで認識することKより、正しい認
識績・呆16を得ることができる。
を上記文字決定工程ダで認識することKより、正しい認
識績・呆16を得ることができる。
なお、以上の実施例では初回の文字パターンの切り出し
のための文字列パターンの黒画素の位置情報の算出を、
文字射影図の連続性を用いる方法で行ったが、この発明
はこれに限らず、文字パターンの黒画素の位置情報を用
いた、周知の文字パターン切り出し方式を用いても良く
、上記実施例と同様の効果がある。
のための文字列パターンの黒画素の位置情報の算出を、
文字射影図の連続性を用いる方法で行ったが、この発明
はこれに限らず、文字パターンの黒画素の位置情報を用
いた、周知の文字パターン切り出し方式を用いても良く
、上記実施例と同様の効果がある。
以上のように、この発明によれば、分離文字を誤まって
二文字として切り出した場合には、それらの認識結果が
二個の゛連続した認識不能文字になりやすい特性を利用
し、これを検出することによりこのλ文字を1文字とみ
なして再度認識を行うため、認識辞書を増加させる必要
がなく、文字パターンの切り出し誤りを自動的に検出し
、かつ修正が可能となる文字認識方式を安価に実現でき
る効果がある。
二文字として切り出した場合には、それらの認識結果が
二個の゛連続した認識不能文字になりやすい特性を利用
し、これを検出することによりこのλ文字を1文字とみ
なして再度認識を行うため、認識辞書を増加させる必要
がなく、文字パターンの切り出し誤りを自動的に検出し
、かつ修正が可能となる文字認識方式を安価に実現でき
る効果がある。
第1図はこの発明の一実施例である文字認識方式の構成
要素を示すブロック図、第2図は第1図の文字認識方式
の各構成要素における処理過程を示す説明図である。 l・・パターン観測記憶工程、コ・・ヒストグラム作成
工程、3・・文字パターン切り出し工程、ダ・・文字決
定工程、り・・認識辞書記憶装置、6・・再切り出し決
定工程。 幣1図 革2図 .16 」 手続補正書(自発) 昭和 年 月 日 60.3.19
要素を示すブロック図、第2図は第1図の文字認識方式
の各構成要素における処理過程を示す説明図である。 l・・パターン観測記憶工程、コ・・ヒストグラム作成
工程、3・・文字パターン切り出し工程、ダ・・文字決
定工程、り・・認識辞書記憶装置、6・・再切り出し決
定工程。 幣1図 革2図 .16 」 手続補正書(自発) 昭和 年 月 日 60.3.19
Claims (1)
- 【特許請求の範囲】 帳票上に記録された文字列を光学的に走査し、これによ
つて得られる1行分の文字列パターンを記憶する工程と
、この文字列パターンの黒画素の位置情報を求め、この
位置情報により上記文字列パターンから文字パターンを
切り出す工程と、この切り出した文字パターンを文字認
識辞書を使用して文字名を決定する工程と、この決定さ
れた文字名を評価し文字パターンを再度切り出すか否か
を決定する工程と、を備え、上記文字名決定工程におい
て認識不能文字が2個連続し て出現した場合、上記再切り出し決定工程においてこれ
を検知し、この2個の文字パターンを1個の文字とみな
した場合の文字幅が再切り出しの条件を満たせば、上記
2個の連続する文字パターンを1個の文字のパターンと
見なし、上記文字名決定工程で再び認識せしめ文字名を
決定することを特徴とする文字認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59132028A JPS6111886A (ja) | 1984-06-28 | 1984-06-28 | 文字認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59132028A JPS6111886A (ja) | 1984-06-28 | 1984-06-28 | 文字認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6111886A true JPS6111886A (ja) | 1986-01-20 |
Family
ID=15071807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59132028A Pending JPS6111886A (ja) | 1984-06-28 | 1984-06-28 | 文字認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6111886A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63239569A (ja) * | 1987-03-27 | 1988-10-05 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPS63271588A (ja) * | 1987-04-28 | 1988-11-09 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08185481A (ja) * | 1994-12-28 | 1996-07-16 | Nec Corp | 文字認識装置 |
-
1984
- 1984-06-28 JP JP59132028A patent/JPS6111886A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63239569A (ja) * | 1987-03-27 | 1988-10-05 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPS63271588A (ja) * | 1987-04-28 | 1988-11-09 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08185481A (ja) * | 1994-12-28 | 1996-07-16 | Nec Corp | 文字認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5410611A (en) | Method for identifying word bounding boxes in text | |
JPS6077279A (ja) | 文字イメ−ジ切出し方法 | |
JPH0789363B2 (ja) | 文字認識装置 | |
JP2898562B2 (ja) | ナンバープレート決定方法 | |
JPS6111886A (ja) | 文字認識方式 | |
JP2998054B2 (ja) | 文字認識方法及び文字認識装置 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JPS567180A (en) | Character recognizing method for optical character reader | |
JP3074691B2 (ja) | 文字認識装置 | |
JP2902097B2 (ja) | 情報処理装置及び文字認識装置 | |
Lam et al. | A knowledge-based boundary convergence algorithm for line detection | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 | |
JP2746345B2 (ja) | 文字認識の後処理方法 | |
JPH0353392A (ja) | 文字認識装置 | |
JPS60138689A (ja) | 文字認識方法 | |
JP3100786B2 (ja) | 文字認識後処理方式 | |
JP2982075B2 (ja) | 文字切出し方法 | |
JPH0272497A (ja) | 光学的文字読取装置 | |
JP3419418B2 (ja) | 文字読取方法および装置 | |
JP2727755B2 (ja) | 文字列認識方法及びその装置 | |
JPS6139171A (ja) | 文字認識方式 | |
JPH05233877A (ja) | 単語読み取り方法 | |
JPS59128682A (ja) | 文字読取り装置 | |
JPH0576674B2 (ja) | ||
JPH03225576A (ja) | 単語切り出し装置 |