JPS636687A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS636687A
JPS636687A JP61149751A JP14975186A JPS636687A JP S636687 A JPS636687 A JP S636687A JP 61149751 A JP61149751 A JP 61149751A JP 14975186 A JP14975186 A JP 14975186A JP S636687 A JPS636687 A JP S636687A
Authority
JP
Japan
Prior art keywords
character
characters
recognition
type
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61149751A
Other languages
English (en)
Inventor
Yumie Gou
郷 由美恵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP61149751A priority Critical patent/JPS636687A/ja
Publication of JPS636687A publication Critical patent/JPS636687A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置、特に読み取った文字パターンと
予め記憶された文字パターンとを比較して文字を認識す
る文字認識装置に関するものである。
[従来の技術] 近年、漢字を含む日本語を処理できる、従来と比べて格
段に認識精度の良い光学式文字認識装置が開発されてい
る。これらの装置を見ると漢字の認識精度が比較的良好
なのに対し、平仮名の認識精度が悪く、本格的実用化の
妨げの原因となっている。−方、文字認識の精度を高め
るため単語辞書を用意し、類似した複数の候補文字の中
から辞書に適合した文字を正解として出力する方法があ
る。この方法は、漢字の熟語等の特定には有効であるが
、平仮名の認識にはさほど効果はなく、また辞書にない
単語が入力されると誤解釈する。このため、精度を向上
させるには、著しい数の単語辞書を用意しなければなら
ないという問題を持っている。
[発明が解決しようとする問題点コ 本発明は、上述従来の欠点を除去し、まず認識する文字
の字種を概略的に決め、さらに字種毎の特徴を生かして
、前後の文字の文法的、語粟的妥当性を検証することに
より、文字認識の精度を向上させた文字認識装置を提供
する。
[問題点を解決するための手段] この問題点を解決するための一手段として、本発明の文
字認識装置は、文字の分布により字種を判別する字種判
別手段と、該字種判別手段の判別結果から判明する文字
列における字種の前後関係に基づいて、文字を認識する
文字認識手段とを備える。
[作用] かかる構成において、まず字種判別手段により認識する
文字の字種を概略的に決め、文字認識手段は、それぞれ
の字種について予め記憶された文字パターンとの比較を
行い、さらに字種毎の特徴を生かして、前後の文字の文
法的1語粟的妥当性を検証することにより、文字の認識
を行う。
[実施例] 第1図は、本実施例の文字認識装置の外観図である。図
中、1は原稿を置き光学的に文字の読み取りを行うスキ
ャナ、2は文字の認識結果を表示して画面上で修正ある
いは編集を行うデイスプレィ、3はデイスプレィ操作を
指示するキーボード、4は認識結果あるいは修正編集済
の文書を印字するプリンタである。
第2図は、本実施例の文字認識装置のブロック図である
。スキャナ1.デイスプレィ2.キーボード3.プリン
タ4はそれぞれインターフェースを介してデータバス8
に接続されている。
CPU5はMC68000等のマイクロプロセッサ、R
OM6は文字認識プログラム、文字パターンデータ、処
理プログラム等を収めた読み出し専用メモリ、RAM7
は認識結果等を一時的に°保存する随時書き込み/読出
しメモリである。
第3図に、本実施例の文字認識装置の処理手順のフロー
チャートを示す。ステップS31でスキャナから原稿を
読み取り、ステップS32で文字認識処理を行い、その
結果がステップ533aでデイスプレィ2上に表示され
る。同時に選択すれば、ステップ533bで同じフォー
マットでプリンタ4より出力される。操作者は、デイス
プレィ2の表示もしくはプリンタ4から出力されたハー
ドコピーを参照して認識結果の確認を行う。確認過程で
誤認識文字を抽出し、ステップS34でデイスプレィ2
上でそれらの文字の修正を行う。必要ならば、ステップ
533a−34、又はステップ533b−34を繰返し
、ステップ535a。
35bで最終的にプリンタ4への印字を行うか、あるい
はステップ535cで認識されたデータを基に次の処理
を行う。
第4図は、本実施例の文字認識装置における文字認識お
よび被疑文字表示@埋のフローチャートを示したもので
ある。ステップS41でスキャナ1から読み取られた文
字の2値データは、前処理(文字切り出し、ノイズ除去
、細線化、ベクトル化等)を経て、文字特徴(文字領域
における密度1曲線比、ベクトル方向1局所的特徴等)
に従って、分類・量子化される。ステップS42で、こ
のデータとその内蔵されている各文字の標準パターンの
特徴データとの照合を行い、ステップ343で類似度の
高いものから順に候補を抽出する。
最も類似度の高い文字のコードをCH(1)その類似度
をA(1)に代入し、以下、類似度の高い順にCH(2
)、CH(3)、・・−CH(I)、A (2)、 A
 (3)、−・・A(1)と代入する。本例では、■=
10の場合を説明する。
次に、ステップS44で、第一候補が正当であるか否か
を推定するため相関演算を行い、ステップS45でデイ
スプレィ2に表示する。
以下に本実施例の文字認識方法について説明する。ある
−種類の標準的な活字もしくはドツト文字について、光
学的に読み取りを行い、白黒の2値化をして、−定の一
文字領域あたりの黒色部分の面積を密度として一文字ず
つ測定すると、概して漢字よりも平仮名1ル仮名の方が
密度が低い。
ある活字(あるいはフォント)について文字密度(もし
くは−尾領域内の黒値の絶対量)の分布を示したのが第
5図である。これより、このフォントでは平仮名1ル仮
名は密度がa%からb%の間に分布し、b%より大きい
ものは漢字であると仮定することができる。この分°布
を利用するため、文章を光学的に読み取った際に、−文
字ごとに領域中の白に対する黒値の絶対量を測定する。
ここで、平仮名9汁仮名の下限密度をa%、上限密度を
b%として、密度がa%からb%の範囲にある文字をか
平仮名1斥仮名候補として抽出する。
次に、この中から平仮名候補を抽出する。片仮名に比べ
た平板名の特徴としては、密度がやや高い(b’%以上
)。円状“σ”を含め、曲線要素が多いという点があげ
られる。そこで、文字をなす線分について方向ベクトル
を求め、−文字あたりの直線に対する曲線の比及び曲線
の複雑度を算出する。その−方法として、第6図に示し
たように、文字をなす線分上に点をサンプリングし、線
分上の隣接する点間の方向ベクトルを調べる。垂直成分
及び水平成分から成る線分を除くその他の線分について
、連続するベクトル間の方向のずれを求め、−これを加
算して直線的に連続するベクトルとの比を求める。これ
を以後曲線度と呼ぶ。
基本的なフォントについてこの曲線度の分布をとると、
第7図の様なグラフが得られる。曲線度と密度との相関
より、第7図に示された領域Aに分布するものは平板名
、領域Bに分布するものは片仮名と仮定される。文字の
読取りを行った結果、密度がb%以下の文字のうち、A
領域部ち曲線度がC以上のものは、まず平板名とみなす
。また、B領域のみ即ち曲線度C以下の文字は片仮名と
みなす。実際には、A、B領域には漢字も含まれており
、またA領域に片仮名、B領域に平板名が存在しつるが
、この段階では問題としない。
以上、概略的に字種分類を行い、次にそれぞれの字種に
ついて、文字の判定を行う。判定の対象とする候補文字
は、同一字種の他に上記分類で用いた領域中に分布しつ
る地学種文字も含む。また、判定に際しては、上記で用
いた密度、曲線度も利用する。この様にして、読み取っ
た各文字について、比較結果の認識候補文字(文字コー
ド)とその字種情報(例えば、平板名・・・01、片仮
名・・・02、漢字・・・03等)を出力する。認識候
補文字が複数ある場合は、各々について情報を出力する
次に、判定された認識候補文字について、字種情報を利
用しながら、前後の文字列との関係を見て、比較結果の
検証を行う。検証を行う前後の文字列は以下の様に定め
る。最初の比較結果によって得られた文字列について字
種の変わり目に着目し、グループの先頭または字種の変
わり目から、次の字種の変わり目までの同一字種から成
る文字列を、1−3T I RNGとする。1つの5T
RINGとそれに続<5TRINGの字種の組み合わせ
に応じて、処理の選択を行う。この方法を図示したのが
第8図である。
グループを字種によって区分し、平板名、片仮名、漢字
から成る5TRINGにそれぞれ01゜02.03の番
号をふる。このフラッグを、以下STRで示す。5TR
=03、即ち漢字から成る5TRINGについては、用
意された漢字単語、熟語辞書を用いて、文字列を有意単
位に分割する(第8図の(D、@、@)。分割方法が2
通り以上ある場合は、基本的に一番長い有意単位を持つ
分割方法を選択し、その他は次候補として保持する。ま
た、5TR=01.即ち平板名から成る5TRINGに
ついても分割を行う。この際、辞書情報として、自立語
以外の文法的情報(助詞、助動詞、活用語尾など)や接
続規則を利用し、活用語については、5TRING中の
接続関係より活用形まで解析する(第8図の0.0.■
)。活用形や文法単位が2通り以上の解釈可能性がある
場合は、やはり最も長い分割単位を持つ分割法を第1候
補とし、その他を次候補として保持する。片仮名から成
る5TRING (STR=02)については、辞書照
合は行うが一致する辞書がなければ比較結果の第1位の
認識候補文字を優先する(第8図の■=@、Q))。
続いて、連続する5TRING間の接続関係を調べる。
第8図中、■はグループ先頭の5TRINGで始点を表
す。
グループ先頭5TRINGが漢字でこれに続くSTRI
 NGが平板名の場合は、平板名5TRINGの先頭の
分割単位が自立型か否かと、活用型か否かとを調べ、非
自立活用型の場合は、先行する漢字5TRINGの最終
端の有意分割単位に注目し、用意された当該分割単位の
接続情報より5TRING間の接続の適合性を照合する
。接続が適切でない場合は、それぞれについて順次次候
補の照合を行う(第8図の■)。
グループ先頭5TRINGが漢字で続< 5TRING
が片仮名の場合は、接続照合は行わない(第8図の■)
片仮名5TRINGに漢字5TRING場合も、照合は
行わない(第8図の■)。
平板名5TRINGに漢字5TRINGが続く場合は、
先行する平板名5TRINGの最終端の分割単位に注目
し、これが活用語もしくはその語尾であるときは、接続
の漢字5TRINGが体言に相当するか用言に相当する
か調べ、その結果に応じて照合を行う(第8図の■)。
漢字STRINGが体言か用言かの決定は、さらに接続
する5TRINGが活用語か否かに依存する(第8図の
■)。これだけで決められない場合は、接続照合は行わ
ず比較結果の第1位の認識候補文字を優先する。
平板名5TRINGに片仮名5TRINGが続く場合も
同様に、平板名5TRINGの最終端の分割単位の活用
形(活用型の場合)と、続く片仮名5TRINGの体言
/用言属性との照合を行う(第8図の■)。
片仮名5TRINGに平板名5TRINGが続く場合は
、後続の平板名5TRINGの先頭分割単位がす変動間
活用形、または形容動詞活用語尾の要素でありうるなら
ば、先行の片仮名5TRINGが辞書に存在することを
条件に、その接続情報を基に照合を行う(第8図の■)
。それ以外は比較結果の第1位の認識候補文字を優先す
る。
第8図には、グループの先頭5TRINGから順に後続
5TRINGを検証する方法を示したが、逆方向即ち読
点ないし句点を始点として文の終わりから5TRING
を追うことも同様の方法ででき、処理していく方向は限
定しない。
いずれの場合においても、第一候補による平板名5TR
INGの解析及び5TRING間接続の解析が成功しな
い場合、即ち分割単位が辞書に適合しないあるいは接続
規則に反する場合は、次以下候補を含めて適合する分割
単位を検索する。繰り下げられたの認識候補文字の字種
が第一候補文字と異なるときは、字種5TRINGがず
れるため、改めて5TRING解析を行う。具体的には
、変化した認識候補文字の字種が、その文字の直前の5
TRINGの字種と同じ場合は、その直前の5TRIN
Gの先頭に戻って、字種変化文字を含めた同一字種文字
列を1−5TRINGとして解析を行う。変化した認識
候補文字の字fffiが直前の5TRINGと異なる場
合は、その字種変化した文字を5TRINGの先頭とし
て、以下の同一字種文字列を1−5TRINGとして解
析を行う。
ところで文字認識の対象とする文書中で、片仮名文字が
単独で1文字出現することはまれであり、また片仮名5
TRINGにはさまれて平仮名文字が単独で出現するこ
とも、助詞や活用語尾などが限定された語を除いてまれ
である。そこで、これらの文字の次候補以下に、第1位
の認識候補文字とパターン類似度が大きく変わらない範
囲内で前後の文字列と同じ字種の文字が存在すれば、そ
の文字を選択する。第1位の認識候補文字以下の認識候
補文字については、1文字につき10位程度までメモリ
に保持してデイスプレィ上で参照できる。同時に、それ
ぞれの文字についての標準パターンに対する類似度も保
持し、類似度と辞書項目及び文法適合性の相関より文字
判定を行う。
例えば、辞書に一致する漢字文字列が第1位の認識候補
文字ではなく、第2位以下に存在する場合、読み取った
文字バタンとこの認識候補文字の類似度との比を算出し
、いずれも−定値以下の場合は、この認識候補文字が正
当である確率は低いとみなし、第−位の認識候補文字を
出力する。
尚、文法解析のために必要な情報、例えば漢字熟語及び
片仮名、平仮名単語については、品詞。
接続しつる活用語(す変化動詞、形容動詞など)、漢字
−字については、接続しうる送り仮名及び活用変化形等
を、予め辞書に登録しておく。
また、異字種ながら字形が同一、もしくは類似している
文字、例えば、へ(平板名)とへ(片仮名)、力(片仮
名)と力(漢字)等については、字種番号の低いものを
優先して(例、へ−平板名、カー片仮名)、文字列の適
合性を検証し、適切でない場合は、異字梯形を次の候補
として引き続き処理を行う。
次に、第4図のステップS44に示した候補文字が正当
であるか否か推定する相関演算の一方法について第9図
を用いて説明する。
まず、ステップS90でI=1として第1位の認識候補
文字を設定し、比較結果を有効とする類似度の限界値r
と、類似度がこれよりも大きければ認識結果として出力
するのに十分と考えられる値θと、−定値Pとを設定す
る。ステップS91で類似度A(1)とrの値を比較し
、類似度A(1)がr以下であれば、ステップ5100
からステップ5101に行って、認識不能とし文字は出
力せずにリジェクトマーク(例えば■印)を出力する。
類似度A(1)がrよりも大きければ、次のステップS
92に進む。ステップS92で類似度A(1)とθを比
較する。次に、大小それぞれの結果について、更にステ
ップS93とステップS94で類似度A(1)と類似度
A(2)の比を調べ、 A(1)≧θ且つA (2)/A (1)≦Pならば、
CH(1)が正当である確率が高いものとして、ステッ
プS95でCH(1)と共にFlag=oを出力する。
A(1)<θ且つA (2)/A (1) >Pならば
、CH(1)が正当である確率が高くないものとして、
ステップS97でCH(1)と共にF1ag=2を出力
する。
A(1)≧θ且つA (2)/A (1)>P、あるい
はA(1)<θ且つA (2)/A (1)≦Pの場合
は、2位以下の候補が正答である等の可能性があるとし
てF 1’ a g = 1を出力する。
尚、本例では、FlagをO〜2の3つにしたため、前
記のような分岐としたが、Flagを0〜3の4つにし
て、各条件に別のFlagを振り分けてもよい。又、さ
らに多くの条件を基に細かい判別をすると、正答の確率
がより高くなる。
更に、内蔵辞書による単語照合や、接続・活用などの文
法的妥当性検証等、前後の文字列を参照して認識結果を
検証する方法を採用した場合、処理の結果、第1位の認
識候補文字と第2位以下の認識候補文字が入れ替わるこ
とがある。この場合は、第9図のステップ398で■を
順にインクリメントし、A(I)とr及びθ値、またA
(I+1)/A(I)とP値を比較して、同様に結果を
Flag番号で出力する。又、ステップS99で認識候
補文字の終了と判断したか(本例では10番目まで)、
又はステップ5100でA(I)≦rで、かつ!≠1の
場合には相関(′A算のステップS44を終了する。
r、θ、pの値をさらに細かく段階化することによりF
lagを多値出力し、これと文字列参照結果の妥当性と
の相関により文字判定を行い、正当の確率を推定するこ
ともできる。例えば、検証する文字を含むある漢字ある
いは片仮名の文字列が文書に存在しなくても、その文字
における類似度A(I)がθよりも十分大きく、またA
(1+1)/A(I)の値がpよりも十分小さければ、
この文字を正当とみなして出力する。
r、θ、pは標準的な原稿の認識結果に基づいて予め一
定値に設定するが、例えば、認識結果として出力された
文字別に与えられたFlag番号(第9図のステップS
95〜97のFlag=O〜2)のそれぞれの比を一定
にすることにより、原稿に応じて、自動的にr、θ、p
値を変化させることができる。また、原稿の印字状態、
活字種類、処理時間等の条件に従って、利用者がキーボ
ードまたはスキャナ上の操作面よりr。
θ、p値を設定することもできる。(但し、0くrくθ
、0くP≦1) この様に認識処理を行った結果、それぞれの文字につい
て、第1位の認識候補文字と判定された文字のコード番
号と、Flag番号(リジェクトならばリジェクトコー
ド)、及び第2位から第1位(本例ではn=10)まで
の認識候補文字のコード番号がRAM7の一時内部記憶
部に出力される。
処理プログラムは、RAM7の一時内部記憶部より第1
位の認識候補文字列の各コードを受は取り、文字に変換
して出力形式に従ってデイスプレィ2に表示する。同時
に、各文字のFlagを参照し、Flag番号に従って
表示する文字の色や字体を変えたり、識別マーク(MI
Uかけ、アンダーライン等)を施したりする。−例とし
て、Flag=Qの場合は黒、F1ag=1の場合は青
F1ag=2の場合は赤色を各文字のカラーとして指定
することにより、認識された文字が正しい確率が一番低
い文字グループは赤1次に低いグループの文字は青、そ
れ以外の文字は黒で表示される。こうすることにより、
まず赤く表示された文字、次に青色文字に注意して確認
作業を行えばよく、誤認識を発見しやすい。また、必ず
しも3通りに区別することはなく、例えばF1ag=1
を赤又は黒に設定することにより、被疑文字の表示が一
色に統一される。全文字中の被疑文字比は、前述の通り
、θ、pの値を変えることにより調整できる。
本装置は、デイスプレィ2上に認識結果を表示しながら
、その結果をデイスプレィ2上と同形式で、且つ判定さ
れた文字が正しい確率に従った識別マークを付けて、ハ
ードコピー上に印字する機能を持つ。プリンタ4には、
印字の高速性(1分間で8枚以上)、印字品質の高さの
点で電子写真式のレーザプリンタを用いる。このプリン
タ4は、本文字認識装置をワードプロセッサとして用い
た場合には、作成済文書を印字するプリンタと兼用する
ことができる。認識結果のデータは、RAMT内の一時
内部記憶部にストアされたデイスプレィ表示と同一のも
のを使う。Flag番号に応じた識別マークの選択は、
プリンタ4の機能及び利用者の便宜に依存する。例とし
て、赤黒の2色印字によって区別する場合と、黒一色で
印字し、マークによって2通りの区別を行う場合につい
て説明をする。
第10図(a)、(b)に、このプリンタの内部構造を
示す、第10図(a)は、2色のトナー容器を内蔵し、
2色(例えば赤と黒)の印字が可能なレーザープリンタ
、第10図(b)は単色印字用のレーザプリンタである
。図中、11はカセット給紙部、12は手差し給紙部、
13は分列・搬送部、14は定着・排紙部、15は感光
ドラム、16は単色用トナーケース(黒など)、17は
カラートナーケース(赤などの)である。
このプリンタは、コントロール部にMC68000をC
PUとして内蔵しており、これがデータの受信、文字パ
ターンの生成、印刷、紙送りなどを制御する。ホストコ
ンピュータからの指示により、ページフォーマット、文
字1行ピッチ、印字の制御ができ、さらに−文字毎に、
アンダーライン、アミ掛け、白黒反転等の文字属性指定
が行える。
第11図に、このプリンタで用いられるアミ掛け、白黒
反転のための文字属性指定命令コードを示す。例として
「プリンタ制御」という文字列の認識結果を印字する場
合、プリンタに送られるデータフォーマットを第12図
に示す。各文字についてコードナンバーとともに、U識
結果に確からしさを示すFlag番号がプリンタ9に渡
される。
各文字のFlag番号に従って、赤黒2色で印字する場
合の処理の流れを第13図(a)に示す。まず、ステッ
プ5131でトナーカラーを初期化しく黒、J=O)、
カウンタ■1=0とする。ステップ5132で一文字分
のデータをRAM7より受は取り、ステップ5133で
各文字のフラグを調べる。ここではF l ag=o、
あるいはF1ag=1の場合は、ステップ5135でそ
のままコードを出力し、この場合は、ステップ5134
でコード番号をスペースに該当するもの(例3902)
に入れ替えてステップ5135で出力する。ステップ5
136でカウンタ11を1つカウントアツプして、順に
1文字ずつデータを受は取り、ステップ5137で1ペ
一ジ分の処理が終了した時点でコードをフォントに変換
し、ステップ5138で黒色で印字を行う。印字用紙は
、第6図(a)の感光ドラム15で黒色トナーを転写し
た後、分離・搬送部13を経て、−度定着部14で定着
を行い、下部搬送部13aを経て再び給紙部に戻る。
次に、ステップ5139でトナーカラーが赤色に切り換
えられ(J=1)、1.=Oとする。ステップ5140
で再びRAM7より同一の文字データを一文字分ずつ受
は取る。今度は、F l ag=2の場合は、ステップ
5143で、そのままコード番号を出力し、F1ag=
O又はF1ag=1の場合はステップ5142でコード
をスペースに入れ替えてステップ5143で出力する。
ステップ5144でカウンタ■工を+1して、順に一文
字ずつデータを受は取り、ステップ5145で1ペ一ジ
分終了すると、ステップ3146でコードをフォントに
変換し、赤色で印字を行う。赤字トナーを転写された舐
は、搬送部13を経て、定着器14を通り廃紙され、認
識精度確率に応じて赤黒2色に刷り分けられた認識結果
が出力される。
次に単色印字で認識精度確率に応じて識別を行う場合の
処理の流れを第15図に示す。ステップ5151で初期
化(I2=O)の後、ステップ5152でRAM7より
一文字分ずつデータが読み込まれ、ステップ5153で
各文字のFlagを調べる。F1ag=Oの場合は、ス
テップ5154でフードのみを出力し、マーク処理は行
わない。F1ag=1の場合は、ステップ5155でコ
ードを出力するとともにMARKi処理を行う。F1a
g=2の場合は、ステップ5156でコードを出力する
とともにM A RK 2処理を行う。ここでマーク処
理とは、第11図の文字属性指定命令に従って、文字単
位に修飾制御を行うことを指す。MARKI処理でアミ
掛け、MARK2処理で白黒反転を行う場合、文字コー
ドの前後にMARKI処理ではアミ掛は開始命令(CI
S5m)、アミ掛は終了命令(SC125m)を出力し
、MARK2処理は白黒反転開始命令(CSI7m)、
白黒反転終了命令(C3I27m)を出力する。マーク
処理なしの場合は、文字属性命令は出力しない。ステッ
プ5157でカウンタI2を+1して、ステップ515
8で1ペ一ジ分の終了を判断し、文字データの受取りが
終了すると、ステップ5159ではフォントに変換され
、マーク処理がある場合は、アミ掛け、または白黒反転
を施して、紙に転写・印字される。
この結果、文字の認識精度の確率に応じて白黒反転、ア
ミ掛け、無印の3通りの識別を施した出力がハードコピ
ーの形で得られる。文字出力例を第14図に示す。左か
ら4番目と6番目がFlag=2の文字、2番目がF1
ag=1の文字、その他がFlag−0の文字である。
認識結果の修正作業は、直接デイスプレィ2に表示され
た認識結果を見ながら、または、プリンタ4より出力さ
れたハードコピー上の認識結果を参照したのち、デイス
プレィ2上で対話式に、もしくは原稿上の文字を修正し
て再入力することによって行われる。原稿の水平方向の
文字数(縦書きならば縦方向)が−定数以内ならば、デ
イスプレィ2上の文字の配置は原稿と同一であり、プリ
ンタ4から出力されたハードコピー上にも同一のフォー
マットで印字が行われる。従って、認識結果のハードコ
ピーと原稿とを比べながら、誤認識文字を用意に発見す
ることができる。
修正作業が終了した後、認識結果として得られた文字の
コードデータを利用してアプリケーションに応じた処理
が行われる。
本実施例の文字認識装置を、ホストコンピュータへのデ
ータ入力装置として用いる場合は、第3図のステップ5
35cのように、修正終了後命令によりFlagを除く
コードデータから成るデータファイルが形成され、ホス
トに渡される。
ワードプロセッサとして用いる場合は、ステップ535
bのように、終了・印刷コマンドを送ることにより、マ
ーク処理がクリアされ、識別マークが除かれた状態のハ
ードコピーを得ることができる。また、ステップ535
aのように、デイスプレィ2上で識別マークをクリアし
、削除、挿入。
組み替え等の編集を行った後、ハードコピーを出力する
こともできる。
尚、平板名、片仮名、漢字以外の文字種についても同じ
方法で対応可能である。
又、あらかじめ特徴データを登録しておけば、たいがい
の活字、及びドツト文字を認識することができる。また
、−文字の領域を(サイズとピッチより)切り出す処理
を付加すれば、文字の太きさは制限されない。
以上説明したように、まず、平仮名文字の特徴から平板
名を判別し、次に片仮名を判別することにより、字種に
応じて精度の高い認識ができ、平板名の誤認識も向上す
る。
また、字種毎の性質に応じて異なる文字列照合を行うた
め、処理の高速化、単語辞書1文法ルールの簡略化が図
れる。
漢字の場合は、専門用語、固有名詞、複合語の処理、片
仮名では、専門語、固有名詞を含む新語、異形(ヂーゼ
ルとディーゼルなど)への対応等が単語辞書作りの障害
となっているが、本発明では字種列により独立した処理
をとっており、辞書と文法処理によって認識精度を高め
ると同時に、辞書にない単語・熟語についても、比較的
正確に認識をすることが可能である。
[発明の効果] 本発明により1、まず認識する文字の字種を概略的に決
め、さらに字種毎の特徴を生かして、前後の文字の文法
的、語粱的妥当性を検証することにより、文字認識の精
度を向上させた文字認識装置を提供できる。
【図面の簡単な説明】
第1図は本実施例の文字認識装置の外観図、第2図は本
実施例の文字認識装置のブロック図、 第3図は本実施例の文字認識装置の処理手順フローチャ
ート、 第4図は本実施例の文字認識装置の文字認識及び被疑文
字表示処理のフローチャート、第5図は文字密度の分布
図、 第6図は曲線度の算出説明図、 第7図は文字密度と曲線度の分布図、 第8図は字種の前後関係による処理の説明図、第9図は
相関演算のフローチャート、 第10図(a)、(b)はプリンタの内部構造図、 第11図はプリンタの文字属性指定命令コード側口、 第12図はプリンタに送られるデータフォーマット図、 第13図は赤黒2色刷りの印字処理フローチャート、 第14図は1色刷りの印字例図、 第15図は1色刷りの印字処理フローチャートである。 図中、1・・・スキャナ、2・・・デイスプレィ、3・
・・キーボード、4・・・プリンタ、5・・・CPU、
6・・・ROM、7・・・RAM、8・・・データバス
である。 特許出願人   キャノン株式会社 ・−デ〜   1 代理人 弁理士    犬 塚 康 徳・、I ・、〜
″う 第 1 図 第2r!X 第4図  17.’!!1 第5171 第6図 χ瓜(灼 第7F[ 第8図 +30 第10図 (0) 第10図(b) 第11図 第12図

Claims (1)

    【特許請求の範囲】
  1. (1)読み取つた文字パターンと予め記憶された文字パ
    ターンとを比較して、文字を認識する文字認識装置にお
    いて、文字の分布により字種を判別する字種判別手段と
    、該字種判別手段の判別結果から判明する文字列におけ
    る字種の前後関係に基づいて、文字を認識する文字認識
    手段とを備えることを特徴とする文字認識装置。
JP61149751A 1986-06-27 1986-06-27 文字認識装置 Pending JPS636687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61149751A JPS636687A (ja) 1986-06-27 1986-06-27 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61149751A JPS636687A (ja) 1986-06-27 1986-06-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPS636687A true JPS636687A (ja) 1988-01-12

Family

ID=15481956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61149751A Pending JPS636687A (ja) 1986-06-27 1986-06-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPS636687A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205288A (ja) * 1988-02-10 1989-08-17 Oki Electric Ind Co Ltd 文字認識後処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5638685A (en) * 1979-09-05 1981-04-13 Mitsubishi Electric Corp Character recognizing system
JPS5682982A (en) * 1979-12-12 1981-07-07 Toshiba Corp Character recognizing method
JPS58214973A (ja) * 1982-06-09 1983-12-14 Hitachi Ltd 類似文字識別方式
JPS59121479A (ja) * 1982-12-27 1984-07-13 Casio Comput Co Ltd 文字認識装置
JPS60116078A (ja) * 1983-11-28 1985-06-22 Toshiba Corp 文字認識装置
JPS60189582A (ja) * 1984-03-09 1985-09-27 Fujitsu Ltd 文字認識後処理方式
JPS6120180A (ja) * 1984-07-06 1986-01-28 Nec Corp 光学的文字認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5638685A (en) * 1979-09-05 1981-04-13 Mitsubishi Electric Corp Character recognizing system
JPS5682982A (en) * 1979-12-12 1981-07-07 Toshiba Corp Character recognizing method
JPS58214973A (ja) * 1982-06-09 1983-12-14 Hitachi Ltd 類似文字識別方式
JPS59121479A (ja) * 1982-12-27 1984-07-13 Casio Comput Co Ltd 文字認識装置
JPS60116078A (ja) * 1983-11-28 1985-06-22 Toshiba Corp 文字認識装置
JPS60189582A (ja) * 1984-03-09 1985-09-27 Fujitsu Ltd 文字認識後処理方式
JPS6120180A (ja) * 1984-07-06 1986-01-28 Nec Corp 光学的文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205288A (ja) * 1988-02-10 1989-08-17 Oki Electric Ind Co Ltd 文字認識後処理方法

Similar Documents

Publication Publication Date Title
JP3183577B2 (ja) 画像内容を復号することなく文書画像中の意味的に重要な画像を選択するための方法
Chaudhuri et al. A complete printed Bangla OCR system
US4611346A (en) Method and apparatus for character recognition accommodating diacritical marks
EP0844583A2 (en) Method and apparatus for character recognition
US20040006467A1 (en) Method of automatic language identification for multi-lingual text recognition
US7162086B2 (en) Character recognition apparatus and method
US7099507B2 (en) Method and system for extracting title from document image
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
JPH0682403B2 (ja) 光学式文字読取装置
JPS636687A (ja) 文字認識装置
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache
JPS636686A (ja) 文字認識装置
JP3727422B2 (ja) 文字認識装置及びその方法
JPH10177623A (ja) 文書認識装置および言語処理装置
JPH0991371A (ja) 文字表示装置
JPH028348B2 (ja)
JP2906758B2 (ja) 文字読取装置
JPH07271921A (ja) 文字認識装置および文字認識方法
JP2851102B2 (ja) 文字切出し方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
Hochberg et al. Page segmentation using script identification vectors: A first look
JPS63150788A (ja) 文字認識装置
JPH02292691A (ja) 文字認識装置
JPH08297720A (ja) 一般文書読み取り装置