JPS63263588A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPS63263588A
JPS63263588A JP62097934A JP9793487A JPS63263588A JP S63263588 A JPS63263588 A JP S63263588A JP 62097934 A JP62097934 A JP 62097934A JP 9793487 A JP9793487 A JP 9793487A JP S63263588 A JPS63263588 A JP S63263588A
Authority
JP
Japan
Prior art keywords
recognition
character
similarity
characters
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62097934A
Other languages
English (en)
Inventor
Naoki Ogawa
直樹 小川
Keiji Kobayashi
啓二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP62097934A priority Critical patent/JPS63263588A/ja
Publication of JPS63263588A publication Critical patent/JPS63263588A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明はコンピュータへの文字入力の省力化などのた
め、用紙などに記録された文字を光学的に読み取り、認
識して文字コードを出力する文字読取装置に関するもの
である。
〔従来の技術〕
日本語情報処理技術が高度化するにつれ、種々の印刷物
・帳票などの電子ファイル化、データベースの作成など
を効率よく行うための文字読取装置の実用化が期待され
ている。印刷漢字認識に対するこれまでの技術では、2
000字種程度の単一字体印刷漢字に対しては、現在は
ぼ実用化の域に達しつつある。しかしながら我々が日常
において手にする印刷物は、明朝体・ゴシック体などの
異なった書体と、同じ書体の中にも線の太さや細部の形
状が異なった多くの字体とが存在している。
従って、自由なデータ入力を実現するためには、印刷物
の書体・字体の区別をすることなく認識可能な技術が不
可欠である。
第4図はこのような技術を実現した従来の文字読取装置
の構成を示すブロック図である、図において、1は文字
が記録された用紙、2はこの用紙1上を光学的に走査し
光電変換して2値パターン情報を得るイメージスキャナ
などの走査手段、3はこの走査手段2により得られた2
値パターン情報を記憶する画像メモリなどの2値パター
ン記憶手段、4はこの記憶手段3に記憶された2値パタ
ーン情報の中から個々の文字パターンを切り出す文字切
り出し手段である。5は文字切り出し手段4により切り
出された文字パターンの特徴量と認識辞書6内の基準パ
ターンの特徴量との整合をとり類似する文体に対応する
文字コードを認識結果として出力する認識手段である。
認識辞書6内には規格化された標準的な基準パターンの
特徴量が□      その文字コードとともに格納さ
れている。なお、上記文字切り出し手段4と認識手段5
とはマイクロプロセッサなどにより実現されるものであ
る。
次に、動作について説明する。まず、走査手段2で用紙
1上の文字を光学的に走査し光電変換して2値レベルに
量子化する。量子化された文字パターンは2値パターン
記憶手段3に記憶される。
文字切り出し手段4では、2値パターン記憶手段3に記
憶された2値パターン情報から1文字づつ文字パターン
を切り出す0次に認識手段5は、文字切り出し手段4で
切り出された文字パターンから特徴量を複数種類抽出し
、これらの抽出特徴量と認識辞書6に記憶されている基
準パターンの特@量との整合をそれぞれ行い類似度を計
算した後、すべての特徴による類似度を加算して合計の
類似度を求め、合計の類似度が最大の基準パターンに対
応する文字コードを認識結果として出力する。
第5図は、第2図(A)の第1行目の文字の2値パター
ン13を認識させたときのこの従来の装置による効果を
示したもので、第5図の33は従来の装置よる認識結果
「唄」、「我」、「狙」。
「尊」を示し、34は認識手段5により算出された類似
度を合計した結果がr152J、r153J。
r152J、r155Jであることを示す。
〔発明が解決しようとする問題点〕
従来の文字読取装置は以上のように構成されているので
、例えば手書き文字や印刷文字など字体の異なる文字を
認識する場合でも、文字切り出し手段からの文字パター
ンの全ての特徴量と、認識辞書に記憶されている基準パ
ターンの特徴量との整合がそれぞれ行われ、従って、読
み取り処理に時間が多くかかり、しかも予め複数個設け
た特徴の中に特定の字体に対して有効でない特徴があっ
たとき、この有効でない特徴を除いた特徴で認識する場
合に比べて読み取り精度が低下するという問題点があっ
た。
この発明は上記のような問題点を解消するためになされ
たもので、種々の字体を高速かつ高精度で読み取ること
ができる文字読取装置を提供することを目的とする。
〔問題点を解決するための手段〕
この発明に係る文字読取装置は、文字が記録された媒体
(用紙1)上を光学的に走査し光電変換して得られた2
値パターン情報を記憶する2値パターン記憶手段3と、
この2値パターン記憶手段3に記憶された2値パターン
情報の中から個々の文字パターンを切り出す文字切り出
し手段4と、読み取り対象とする文字について字体の特
徴の種類ごとに設けた基準パターンを格納した複数の認
識辞書9,10と、上記文字切り出し手段4で切り出さ
れた文字パターンを用いて文字を特徴とする特徴量を抽
出しその特徴量と上記複数の認識辞書9,10に格納さ
れた基準パターンの特徴量との整合をとり文字の類似性
を表す類似度を算出しその類似度に対応する文字コード
を認識結果として得る複数の認識手段7.8と、上記複
数の認識手段7,8により算出された各類似度を集計し
類似度の総和が最大となり認識に有効となる認識手段を
上記複数の認識手段7.8から選択しその選択された認
識手段による認識結果を最終的な文字コードとして出力
させる選択手段11とを備えたものである。
〔作用〕
媒体(用紙1)の内容は光学的に走査され、2値レベル
に量子化され、2値パターン情報として2値パターン記
憶手段3に与えられ記憶される。
文字切り出し手段4は、上記記憶された2値パターン情
報から個々の文字パターンを切り出す。次に、選択手段
11は認識手段7を選択し、この認識手段7は上記切り
出された文字パターンと認識辞書9の基準パターンとを
整合して類似度を算出しその類似度に対応する文字コー
ドを得る。次に、選択手段11は認識手段8を選択し、
この認識手段8は上記文字パターンと認識辞書10の基
準パターンとを整合して類似度を算出しその類似度に対
応する文字コードを得る。そめ後、選択手段11は上記
類似度の総和が最大となる認識手段7又は認識手段8を
選択し、その選択された認識手段の文字コードを出力さ
せる。
〔発明の実施例〕
(以下、この発明の一実施例を図面に基づいて説明する
。第1図はこの実施例の文字読取装置の構成を示すブロ
ック図である。第1図において、第4図に示す構成要素
に対応するものには同一の参照符を付し、その説明を省
略する。第1図において、7.8はそれぞれ別々の特徴
を用いて文字パターンを認識する第1.第2認識手段で
ある。第1認識手段7は、手書き文字のように変形の多
い字体の認識に有効とされている方式、例えば入力文字
パターンを細線化し線構造を抽出しそれを字体の特徴と
して用い類似度を算出する構造解析方式を用いたもので
ある。第2認識手段8は、印刷漢字などのようにつぶれ
や欠けの生じ易い字体の認識に有効とされている方式、
例えば入力文字パターンと基準パターンとをメツシュ単
位で重ね、重なり具合を基に類似度を算出するパターン
マツチング方式を用いたものである。9.10は第1゜
第2認識手段7.8で用いる基準パターンの特徴量を別
々に格納した第1.第2認識辞書である。
すなわち、第1.第2認識辞書は読み取り対象とする文
字について字体の特徴の種類ごとに設けた基準パターン
の特徴量をそれぞれ格納したものである。選択手段11
は、第1.第2認識手段7.8により算出された各類似
度を集計し、類似度の総和が最大となり認識に有効とな
る認識手段を上記第1.第2認識手段7.8から選択し
、その選択された認識手段による認識結果を最終的な文
字コードとして認識結果格納手段12から出力させるも
のである。すなわち、選択手段11は、文字切り出し手
段4から与えられた文字パターンに対して第1.第2認
識手段7.8の内から1つの認識手段を順次選択し、認
識手段7,8ごとに出力される認識結果をそれぞれ別々
に用紙1に書かれた文字の一行分だけ認識結果格納手段
12に格納するとともに、−行分だけ認識結果が得られ
た時点で類似度を認識手段7.8ごとに集計し、類似度
の総和が最大となる認識手段による認識結果を最終的な
読取結果として認識結果格納手段12から出力させる。
なお、上記選択手段11は文字切り出し手段4や認識手
段7.8とともにマイクロプロセッサなどにより実現さ
れ、認識結果格納手段12はマイクロプロセッサの主記
憶装置などにより実現される。
第2図(A)、(B)は2値パターン記憶手段3に格納
されている一枚の用紙全体に対応する2値パターンの一
例を示す図である。第2図(A)に示す文字の2値パタ
ーン13は、2値化される以前の文字がワードプロセッ
サなどで用いられているドツトインパクトプリンタで印
字されたため字体の線が太く、また、つぶれ、欠けが住
じていることを示している。第2図(B)に示す文字の
2値パターン14は、2値化される以前の手書き文字を
示している。
第3図は、第2図(A)の第1行目の文字の2値パター
ン13(すなわち文字「唯」、「我」「独」、「尊」の
2値パターン13a 〜13d)を第1認識手段7及び
第2認識手段8を用いて認識したときの認識結果を示す
。第3図(A)は第1認識手段7による認識結果を示し
、第3図(A)の15は文字「唯」の第1位から第3位
までの認識結果「唄」、「暗」、「唯J  (15a〜
15c)を示し、16はこれらの認識結果における類似
度がr68J、 r64J、 r62J (16a−1
6C)であることを示し、以下同様に17.19゜21
は文字「我」、「独」 「尊」の認識結果を示し、18
,20.22はこれらの認識結果における類似度を示し
、23はこのときの1行内の第1位の認識結果の類似度
の合計がr275Jであることを示す。
第3図(B)は第2認識手段8による認識結果を示し、
第3図(B)の24. 26. 28. 30は文字「
唯」、「我」、「独」、「尊」の認識結果を示し、25
.27,29.31はこれらの認識結果における1m度
を示し、32はこのときの1行内の第1位の認識結果の
類似度の合計がr344Jであることを示す。なお、類
似度は〇から100までの値をとり、各特徴間で同じ尺
度となるように正規化されている。
以下第2図(A)、(B)、第3図(A)。
′      (B)及び第5図を用いて、第1図に示
す実施例の動作について説明する。なお、ここではドツ
トインパクトプリンタで印字された文字を読み取る場合
を例にとり説明する。
用紙lの内容は走査手段2において光学的に走査され、
2値レベルに量子化される。用紙1枚分の2値パターン
は2値パターン記憶手段3に格納される。このとき用紙
1枚分の24flパターンを第2図(A)に示す。すな
わち、ドツトインパクトプリンタで印字されていたため
に、線が全体的に太くまたつぶれや欠けが生じている。
次に、文字切り出し手段4では、前記2値パターン記憶
手段3に記憶された2値パターン13から第1行目の文
字パターン13aを切り出す。次に、選択手段11は第
1認識手段7を選択し、第1認識手段7では、前記文字
切り出し手段4で切り出された文字パターン13aの特
徴間と第1認識辞書9の基準パターンの特ff1lとを
整合して認識し、認識結果「唄J15a、r暗J15b
、r唯」15cを認識結果格納手段12に格納する。次
に選択手段11により選択された第2認識手段8は、第
2認識辞書10の基準パターンの特徴間と文字パターン
13aの特徴間とを整合して認識し、認識結果「唯J2
4a、r唄J24b、r呼」24cを認識結果格納手段
12に格納する。
第4の文字パターン13aと同様に、第2.第3、第4
の文字パターン13b、13c、13dも文字切り出し
手段4で切り出されたのち、第1゜第2認識手段7,8
を用いて認識され、認識結果17a〜17c、19a〜
19c、21a〜21c、  26 a 〜26 c、
  28 a〜28 c、  30 a〜30cが認識
結果格納手段12に格納される。第1行目の全文字の認
識が終了すると、選択手段11により前記認識結果格納
手段12に格納されている第1認識手段7による1行分
の認識結果中の第1位認識結果[唄我犯専J  (15
a、17a。
19a、21a)、第2認識手段8による1行分の認識
結果中の第1位認識結果「唯我独尊」(24a、26a
、28a、30a)における類似度の合計r273J2
3.r344J32が計数される。本実施例の場合、入
力された文字がドツトインパクトで印字された文字だっ
たため、構造解析方式を用いている第1認識手段7によ
る認識結果(15a 、17 a +  19 a 、
21 a)では「唯」、「独」、「尊」を「唄J15a
、r犯」19a、r専」21aに誤読しており、おのお
のの認識結果における類似度もr68J16a。
r67J 18a、r69J 20a、r71J 22
aと小さく、このため合計の類似度23もr275Jと
小さい。これに対してパターンマツチング方式を用いて
いる第2認識手段8による認識結果(24a、  26
 a、  28 a、  30 a)はすべて正解で、
おのおのの認識結果におけるM似度もr84J 25a
、 r86J 27a、 r88J29a、r86J3
1aと大きく、合計の類似度32も第1認識手段7によ
る合計に比べr344Jと大きい。
選択手段11は、1行分の認識結果における合計の類似
度23.32のうち、最大のM位度の得られる第2認識
手段8による認識結果「唯我独尊」(24a、  26
 a、  28 a、  30 a)を第1行目に対す
る最終的な認識結果として認識結果格納手段12から出
力する。第2行目以降に対しても第1行目と同様の処理
で最終的な認識結果が決定される。従って、認識結果格
納手段12からは最終的な認識結果としての文字コード
が出力される。
なお、本実施例では、1行単位で認識結果を決定してい
るが、これは、一般に1行内の文字が異なった字体であ
る場合が少ないためである。また認識手段を2種類とし
ていたが、使用する特徴方墳やし認識手段を3種類以上
とし、そのうちの何種類かの認識手段による結果を総合
して、最終的な認識結果を決定してもよい。
また、本実施例では、第2行目以降の文字パターンを認
識する場合も第1行目と同様にすべての認識手段を用い
て認識していたが、予め一枚の用紙上の文字が同じ字体
であることが分かっている場合は、第1行目だけすべて
の認識手段を用いて認識し、第2行目以降は自動的に第
1行目で決定された認識手段のみを用いて認識するよう
にすれば、入カバターンと基準パターンの整合の回数が
減り読取速度を上げることができる。また、予め読取対
象の字体が分かっている場合は、選択手段11により事
前に認識手段と認識辞書を選択することができるため、
認識結果格納手段12が不要となる。
〔発明の効果〕
以上のように本発明によれば、文字の2値パターン情報
を記憶する2値パターン記憶手段と、その2値パターン
情報から文字パターンを切り出す文字切り出し手段と、
基準パターンを格納した複数の認識辞書と、上記文字パ
ターンと上記基準パターンとの整合を取り類似度を算出
しその類似度に対応する文字コードを認識結果として得
る複数の認識手段と、上記類似度の総和が最大となる認
識手段を選択しその選択された認識手段による認識結果
を最終的な文字コードとして出力させる選択手段とを備
えて構成したので、入力文字の字体に応じて最適の認識
手段のみを選択して文字を認識することができ、従って
、多種の字体を高速かつ高精度で認識し読み取ることが
可能となる効果が得られる。
【図面の簡単な説明】
第1図はこの発明の一実施例に係る文字読取装置の構成
を示すブロック図、第2図(A)、  (B)はこの実
施例における2値パターン記憶手段に記憶される2値パ
ターンの一例を示す図、第3図(A)、  (B)はこ
の実施例における各認識手段を用いて第2図(A)に示
″′i″1行目の文字パターンを認識した結果を示す図
、第4図は従来の文字読取装置の構成を示すブロック図
、第5図は従来の文字読取装置を用いて第2図(A)に
示す1行目の文字パターンを認識した結果を示す図であ
る。 l・・・用紙(媒体)、3・・・2値パターン記憶手段
、4・・・文字切り出し手段、7,8・・・第1.第2
認識手段、9,10・・・第1゜第2認識辞書、11・
・・選択手段。 代理人  大  岩  増  !11(ほか2名)第2 (A) 同 手続補正書(自り

Claims (1)

    【特許請求の範囲】
  1. 文字が記録された媒体上を光学的に走査し光電変換して
    得られた2値パターン情報を記憶する2値パターン記憶
    手段と、この2値パターン記憶手段に記憶された2値パ
    ターン情報の中から個々の文字パターンを切り出す文字
    切り出し手段と、読み取り対象とする文字について字体
    の特徴の種類ごとに設けた基準パターンを格納した複数
    の認識辞書と、上記文字切り出し手段で切り出された文
    字パターンを用いて文字を特徴づける特徴量を抽出しそ
    の特徴量と上記複数の認識辞書に格納された基準パター
    ンの特徴量との整合をとり文字の類似性を表す類似度を
    算出しその類似度に対応する文字コードを認識結果とし
    て得る複数の認識手段と、上記複数の認識手段により算
    出された各類似度を集計し類似度の総和が最大となり認
    識に有効となる認識手段を上記複数の認識手段から選択
    しその選択された認識手段による認識結果を最終的な文
    字コードとして出力させる選択手段とを備えたことを特
    徴とする文字読取装置。
JP62097934A 1987-04-21 1987-04-21 文字読取装置 Pending JPS63263588A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62097934A JPS63263588A (ja) 1987-04-21 1987-04-21 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62097934A JPS63263588A (ja) 1987-04-21 1987-04-21 文字読取装置

Publications (1)

Publication Number Publication Date
JPS63263588A true JPS63263588A (ja) 1988-10-31

Family

ID=14205501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62097934A Pending JPS63263588A (ja) 1987-04-21 1987-04-21 文字読取装置

Country Status (1)

Country Link
JP (1) JPS63263588A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0737034A (ja) * 1993-07-15 1995-02-07 Nec Corp 光学式文字読み取り装置
US6125208A (en) * 1994-03-10 2000-09-26 International Business Machines Corp. Writing recognition unit
JP2018513495A (ja) * 2015-04-20 2018-05-24 スリーエム イノベイティブ プロパティズ カンパニー デュアル埋め込み型光学文字認識(ocr)エンジン

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0737034A (ja) * 1993-07-15 1995-02-07 Nec Corp 光学式文字読み取り装置
US6125208A (en) * 1994-03-10 2000-09-26 International Business Machines Corp. Writing recognition unit
JP2018513495A (ja) * 2015-04-20 2018-05-24 スリーエム イノベイティブ プロパティズ カンパニー デュアル埋め込み型光学文字認識(ocr)エンジン

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
JPH07107694B2 (ja) 文書処理装置
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JP2005043990A (ja) 文書処理装置および文書処理方法
JPS62221088A (ja) 光学式文字読取装置
JPS63263588A (ja) 文字読取装置
DE19708280C2 (de) Lesevorrichtung für vollständige Anschriften
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
Ting et al. A syntactic business form classifier
JPS5922179A (ja) 文字認識方法
He et al. Evaluation of a user-assisted archive construction system for online natural history archives
JP2582611B2 (ja) マルチフオント辞書の作成法
JPS6336389A (ja) 文字読取装置
Hogervorst et al. Handwritten character recognition using neural networks
JP2746345B2 (ja) 文字認識の後処理方法
JP2972443B2 (ja) 文字認識装置
JP2544589B2 (ja) 文書処理方法及び装置
JP2784004B2 (ja) 文字認識装置
Ito Automatic input of flow chart in document image
JPS6095689A (ja) 光学的文字読取装置
JPH0514952B2 (ja)
JP2749425B2 (ja) 記事抽出方式
JPH05282484A (ja) 光学的文字読取り装置
JPS6182275A (ja) 自動翻訳装置