JPS6275785A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS6275785A
JPS6275785A JP60215555A JP21555585A JPS6275785A JP S6275785 A JPS6275785 A JP S6275785A JP 60215555 A JP60215555 A JP 60215555A JP 21555585 A JP21555585 A JP 21555585A JP S6275785 A JPS6275785 A JP S6275785A
Authority
JP
Japan
Prior art keywords
word
character
candidate
input
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60215555A
Other languages
English (en)
Inventor
Yoshikatsu Nakamura
中村 好勝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60215555A priority Critical patent/JPS6275785A/ja
Publication of JPS6275785A publication Critical patent/JPS6275785A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は、漢字を始めとする多数の文字を効率良く認
識出来るようにした文字認識装置に関する。
〔発明の技術的背景とその問題点〕
従来より、帳票上に記載された手書き文字の計II機入
力手段として、文字読取装置は我国に於て広範に用いら
れ、現在では数千字種に及ぶ手書き漢字についても読取
対象となっている。
しかし手書き漢字は、手書き英数字やカタカナ文字など
と比較して、字種が多いうえ字形が複雑で、しかも筆跡
も多様であることから、認識装置の複雑化、高価格化は
免れ得ない。例えば、公知の複合類似法による漢字認識
においては、英数字辞書に比較して3倍以上の次元数、
からなる辞痛が必要であり、字種も英数字の40種に対
し少なくとも2000字種の標準パターンを必要とする
したがって、英数字の読取と同様な個別識別をそのまま
採用するとすれば、英数字に比べて3×50倍もの処理
時間を費やすことになる。
そこで、この処理時間の短縮化を目的として、例えば特
願昭57−130605号に示される大分類技術として
の概略特徴照合技術が提案されている。この方式によれ
ば、概略特徴照合によって個別識別における照合文字数
を1/20〜1/30に低減させることができる。これ
によって、漢字認識処理時間は実用的な範囲に入ること
になった。
しかしながら、このように個別識別の対象を絞り込んだ
としても個別識別回路の複雑さは英数字の認識と同様の
並列処理を必要とし、個別識別性能を実用上障りのない
程度に得ようとすれば、その辞書設計に英数字を認識対
象とする未知データ入力に比較し、極めて大量のデータ
が必要となる。
また、この辞書はサブセット単位に同時に設計する必要
があり、追加、変更などを困難にする。つまり、これら
の事は手書き漢字の簡易な入力装置としては、価格的に
も、処理速度の上でも、さらには多様な小規模システム
へのニーズにも十分満足できるものではなかった。
〔発明の目的〕
この発明はこのような問題に基づきなされたもので、読
取フィールド単位、単語単位での認識入力性能を高める
と同時に、より簡易な構成、価格低減を実現することの
できる文字認識装置を提供することを目的とする。
〔発明の概要〕
この発明は、入力文字列を構成する各入力文字を文字単
位で個別識別するのではなく、各入力文字の概略特徴照
合によって各入力文字についての候補文字を求め、これ
ら各候補文字を入力文字に対応させてつなぎ合わせて得
られる単語と予め用意された単語辞書とを照合し、その
照合結果から入力文字列を単語単位で識別するようにし
たことを特徴としている。
更に具体的に述べれば、例えば、照合結果として唯一の
単語候補が得られたときはその単語候補を認識結果とし
て出力し、また複数の単語候補が得られたときは、それ
らの単語候補のうちから、最も入力文字列に近いと思わ
れる単語候補を認識結果として出力するようにしている
〔発明の効果〕
本発明によれば、概略特徴照合によって得られた文字候
補を組合わせ、単語単位での照合を行うようにしている
ので、個々の入力文字を個別識別する必要がなくなる。
このため、個別認識回路が不用となるか、あるいは極め
て簡略化され、辞書+、計工数ならびに認識処理時間を
大幅に短縮することができる。
このような認識処理時間の大幅な短縮化によって、単位
時間における帳票処理能力が向上するので、同一帳票処
理能力であれば装置価格の低減が期待できる。
また、単語単位で巨視的な照合を行っているので、単語
中の一部文字に誤り入力があっても、また省略文字や行
、草懲文字が入力されても、認識正答率を高められると
いう利点も有する。
この他、本発明によれば単語単位での入力イメージ表示
出力と同時に単語候補を同一表示面上に出力でき、従来
装置における文字単位での個別認識リジェクト修正の如
く、複数文字の修正入力を必要としない。したがって修
正入力時における誤修正が極めて少なくなり、修正に要
する時間も短縮できる。
このように本発明は、低価格で、高速にクリンデータの
生成を可能とするものである。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例について説明す
る。
この実施例は、手書き漢字によって帳票上に記入された
住所のうち都道府県名の認識を行う例である。
この装置の機能を大別すると、第1図に示すように、入
力文字列から文字毎の照合(この場合には概略特徴照合
)を行う概略特徴照合部1と、この概略特徴照合部1で
得られた候補文字を組合わせ単語単位での照合を行う単
語照合部2とに分けることができる。
第2図は、本実施例の更に詳細な機能ブロック図である
すなわち、文字認識装置11の全体の機能を制m+する
認識制御部12は、帳票搬送部13へ搬送信号を出力し
、光電変換器14で手書き文字を読取り、2値化回路1
5で2値化された画像データを画像メモリ16に記憶蓄
積する。読取フィールドの全領域が画像メモリ16に入
力されたら、予め知られている帳票仕様情報に基づいて
画像メモリ16を走査して画像データを読出し、文字検
出切出し部17にその画像データを出力する。文字検出
切出し部17は、例えば第3図に示す「東京都」なる入
力文字列を構成する各入力文字「東」、「京」、「都」
の上下左右の外接枠を検出し、この外接枠で囲まれた矩
形領域Sを求める。この矩  ′影領域Sが求まったら
、文字検出切出し部17は、矩形領tR8内を縦方向お
よび横方向に走査し、画像データを順次概略特徴照合部
18に出力する。
概略特徴照合部18では、縦走査によって第4図に示す
矩形領域Sの上半分の領Ruと下半分のi’1iiil
!dの各概略特徴を求め、横走査によって左半分の領域
1と右半分の領域rの各概略特徴を求める。概略特徴を
求める手法は例えば特願昭57−130605@を始め
として種々提案されているが、ここでは概略特徴の要素
として、第5図に示すような平均線分@し、面積比P、
平均凹凸1cを例として掲げた。これらは相互に独立し
たものであることは知られている。これらの各特徴要素
は上)ホした4つの領Ju、d、l、rについてそれぞ
れ抽出される。従って、1つの入力文字から得られる入
力特徴データF(i)は、 F (i ) = (Lu、Ld、L!、−、C1,C
r )なる12種類の要素で表わされることになる。こ
れら要素Lu、Ld、Ll、・・・をここでは局部特徴
と呼び、それぞれの局部特徴が4ビツト(16段階)で
表わされるものとする。
概略特徴照合部18は、得られた入力特徴データF(i
)を入力特徴バッファ19に出力するとともに、入力特
徴データF〈1)を予め用意された標準文字パターンの
特徴辞書20と照合する。
入力特徴データをF(i)、[準特徴データをF (n
)とすれば、そのカテゴリ(n)毎の照合結果DFは次
式によって求められる。
F (i ) −(Lu、Ld、Ll、−、CI、Cr
 )F (n ) = (Lun、  Ldn、−、C
ln、  Crn)DF (n> −1Lu −Lun
l + l ld −1dnl+−+ I Cr −C
rnl このようにして求められたカテゴリ(n)毎の照合結果
DF (n)は予め設定されたしきい値Th1と比較さ
れる。そして、DF(n)<Th1と判定されたときの
み、そのカテゴリの文字コードが候補バッファ21に蓄
えられる。
特徴辞書20は汎用的に設計されたものであり、また入
力特徴データF(i)と参照すべき特徴λ F (n)に辞書の格納類に意味をもっていない。
したがって照合結果として出される候補バック?21の
格納順序には、認識上の情報はない。
単位文字行の全ての入力文字について概略特徴照合が終
了し、各文字桁毎の候補文字コードが候補バッファ21
に格納されると、次に単語照合が行われる。
すなわち、認識制御部12は帳票搬送信号や上位データ
処理装置22との間でデータの授受を行っているので、
予め入力文字列に関わる単3n情報(例えば都道府県名
、市町村名など)のサブセットが知らされている。した
がって、認識制御部12はIi語辞言23に格納されて
いる種々の単語情報からこの場合に抽出すべき都道府県
名情報を選択し、単語照合部24に出力する。
単み自照合部24の詳細は第6図に示される。
すなわち、まず認識制御部12は帳票上の読取単語情報
ならびに文字検出切出し部17で計数された文字数を受
け、単1N!23の参照すべき領域を決定し、その領域
を指定する為の先頭アドレスをカウンター31にロード
する。また認識制御部12は、単語照合制御部32の内
部レジスタに入力文字数、文字桁毎の候補文字数をロー
ドする。
これらの各ゐ1llilデータに基づいて単語照合制御
部32は動作をする。
単xi iW書23には、単語単位に纏まって各単語を
構成する文字コードが順番に格納されている。
照合を行う単語の先頭アドレスはレジスタ33にロード
される。単語辞書23から先ず1桁目の文字コードが読
出されると、この文字コードは、一致判定回路34の一
方に入力される。この一致判定回路34の他方の入力に
は、候補バッファ21に蓄えられた1桁目の候補文字が
順次読み出される。文字コードの一致を検出したら、そ
の結果が単語照合制御部32にステータスとして与えら
れる。これによって単語照合制御部32は、カウンタ3
1をカウントアツプさせ、2桁目の文字コードを読出す
。そして、同様の操作で一致検出が行われる。もし、全
ての桁について一致を検出したら、レジスタ33にロー
ドされたその単語の先頭アドレスが認識制御部12に出
力される。もしいずれかの桁について不一致が検出され
たら、単語辞書23の次の単語が読み出され、レジスタ
33の内容は更新される。このような操作を単語辞書の
参照すべき領域に格納された全ての単語について行う。
単語辞書のそれぞれのサブセットの最後のワードには特
有のコード(例えば全て“0″)が格納されている。終
了チェック部35は、文字コードの読出し毎にこの最終
コードの判定を行ない、最終コードを検出したら単語照
合制御部32にそれを知らせるステータスを出力する。
単語照合制御部32はこのステータスの検知によって単
語照合動作を終了する。
この動作の過程においてレジスタ33から認識制御部1
2に出力された単語先頭アドレスが唯一である場合は、
その単語辞書23の先頭アドレスで検索される単語デー
タが認識結果として採用される。一方、単i1照合によ
って複数の単語候補が検知された場合は、以下の動作に
よって1つの単語候補が選択される。
このようなケースは、例えば第3図に示す「東京都」な
る文字を入力した場合において、得られた各文字桁の候
補文字が第7図に示すようなものである場合に生ずる。
このような例では、3つの桁の組合わせによって、第8
図に示すように「京都府」と「東京都」の2つの単語候
補が得られるからである。
そこで、この場合には、各単語候補の各標準文字の特徴
データと入力特徴バッファ19に記憶しである入力文字
列の入力特徴データとを局部特徴照合部25に与え、こ
こで局部的特徴差を利用した単語対の正当性を評価する
ようにしている。
正当性の評価は、例えば次のようにして行われる。2つ
の単語候補の異なる文字対の各桁のベアについて特徴辞
書20を読出し、12種の局部特徴のそれぞれについて
その差分を検出する。この例では、東と京、京と都、都
と府の各桁のベアについて特徴コードの差分を求める。
例えば2桁目のベアである゛京″と゛都″について着目
すると、これらの特徴データは第9図(a)に示される
各局部特徴の差が、あらかじめ設定されたしきい値Th
2−5よりも大きな局部特徴の部分を1゛′。
小さな局部特徴の部分を“°O′′として、特徴差テ−
プルdef’を求めると、同図(b)に示すように、局
部特徴Lu、Pu、Cuの部分のみが゛1″の12bi
tのデータが得られる。
このような特徴差テーブルdefを2つの単語候補の各
桁について求めたら、次に各単語候補と入力文字列の各
桁の特徴データを比較する。この比較は、上記特徴差テ
ーブルdefのうちの“1″の部分の局部特徴の差の絶
対値を全ての桁、全ての文字について加算した値(差分
データ)の大きさを所定のしきい値Th3と比較するこ
とによって行う。例えば、第9図に示す「京」と「都」
の候補文字に対し、入力特徴データF(i>が同図(C
)に示すデータであるとすれば、この文字に関しての差
分データは、「京」については“5”、r都」について
は13°°となる。この−字をとってみても、「京」を
認識結果として採用することが好ましいことが分る。こ
のようにして各単語候補について得られる差分データの
うちの最小値のみが上記しきい値Th3よりも小さい場
合には、その差分データが最小となる単語候補を1!!
識結果とじて出力する。もし、2つ以上の差分データが
しきい値Th3を下回った場合にはリジェクトとし、し
きい値Th3を下回った2つ以上の単語候補を出力する
第1o図は、このような局部特徴照合部27を実現する
ための回路構成である。
レジスタ41.42は、比較する単語候補対における同
一桁の文字候補の特徴データを記憶するもので、12種
の局部特徴データがリング状にシフトするよう構成され
ている。各特徴データは、特徴辞書20からデータ転送
されてくる。
マルチプレクサ43.44は、レジスタ41゜42から
の出力と、入力特徴バッファ19からの特徴データのう
ちの一方を選択して減算器45に出力する。最初は特徴
差テーブルdefを生成するため、レジスタ41.42
からの出力が選択される。減算器45は例えばROMに
よって構成されており、入力データの差分絶対値を出力
する。得られた差分絶対値は、比較器46の1つの入力
に与えられている。比較器46の他方の入力は、認識制
(社)部12からレジスタ47にロードされたしきい値
データTh2が与えられている。比較器46は、減算器
45の出力がしきい値Th2を越えた場合には1”、そ
うでない場合は0″を出力する。この出力は、12ビツ
トのシフトレジスタで構成されたレジスタ48にシフト
インされる。したがって、このレジスタ48に、前述し
た特徴差テーブルdefが格納される。
この特徴差テーブルdefは、減算器45のイネーブル
端子に与えられている。したがって、マルチプレクサ4
3.44が入力特徴データとレジスタ41.42の一方
の出力とを選択した場合には、減算器45は、レジスタ
48からの特徴差テーブルが“1′の場合にのみ局部特
徴差を出力する。
この値は加算器49の一方の入力に与えられている。加
算器49の他方の入力は、レジスタ50の出力が与えら
れている。そして、加算器49の出力は、上記レジスタ
50人力されている。したがって、レジスタ50には、
単8B候補毎の差分データが累積側篩されていく。そし
て、得られた差分データは、認識制御部12に出力され
る。
かくして、この差分データの比較によって単語認識結果
を得ることができる。
なお、本発明は上述した実施例に限定されるものではな
い。
例えば上述した実施例では、単語識別を行うのに、各単
語候補の全ての文字の特徴差を調べたが、2つの単語候
補のうち、最も特徴データの異なる文字桁の文字のみに
ついて入力文字と候補文字との比較を行ない、その比較
結果から単語識別を行うようにしても良い。これによっ
て更に識別時間の短縮化を図ることができる。
また、特徴データが最も異なる文字桁のみについて入力
文字の個別識別を行うようにしても、従来のように全て
の文字について個別識別を行う場合に比べて、識別文字
数が大幅に限定されるので、認識時間の短縮化は大いに
期待できる。
また、上記実施例では、概略特徴の抽出、照合にあたっ
て参照すべき特徴辞書については、特に分類することを
述べなかったが、読取フィールドが判明していることで
、その単38群が判っているので、特徴辞書をあらかじ
め選択して、特徴照合に供する文字を限定したり、また
特徴候補が得られた模にざらに選択することで単語照合
に係わる処理時間を更に短縮することも可能である。
なお、単語候補が更に複数得られたときは、例えばトー
ナメント方式によって照合する単語数を絞り込むように
すれば、比較的速やかな認識が可能である。
この他、本発明は、概略特徴抽出の手法、局部特徴の種
類などによって限定されるものではなく、また、カナ文
字、ひらがな文字、英字などの認識においても本発明を
適用可能である。
【図面の簡単な説明】
第1図は本発明の一実施例に係る文字認識装置の概略機
能ブロック図、第2図は同装置の更に詳細な機能ブロッ
ク図、第3図〜第5図は同装置における概略特徴抽出を
説明するための図、第6図は同装置における単語照合部
の機能ブロック図、第7図〜第9図は同装置における局
部特徴照合を説明するための図、第10図は同装置にお
ける局部特徴照合部の機能ブロック図である。 11・・・文字認識装置、12・・・認識制御部、16
・・・画像メモリ、17・・・検切部、18・・・概略
特徴照合部、19・・・入力特徴バッファ、20・・・
特徴辞書、21・・・候補バッファ、23・・・単語辞
書、24・・・単語照合部、25・・・局部特徴照合部
。 出願人代理人 弁理士 鈴江武彦 第1図 11     第2図 箒3図 第4図 パS5図 24/   第6図 第7図 第9区

Claims (4)

    【特許請求の範囲】
  1. (1)入力文字列を2値画像情報として記憶する画像記
    憶手段と、この画像記憶手段に蓄えられた上記入力文字
    列を構成する各入力文字の上下左右の外接枠を検出しこ
    の外接枠で上記各入力文字を切出す文字検出切出し手段
    と、この文字検出切出し手段で切出された前記各入力文
    字の独立した局部特徴集合からなる概略特徴を求めると
    ともに、この概略特徴と予め用意された標準文字パター
    ンの概略特徴辞書とを照合し前記各入力文字について候
    補文字を求める概略特徴照合手段と、この概略特徴照合
    手段で得られた各入力文字についての候補文字を1つず
    つ抽出して組合わせて構成される単語と予め用意された
    単語辞書とを照合しその照合結果から前記入力文字列の
    単語識別を行う単語識別手段とを具備してなることを特
    徴とする文字認識装置。
  2. (2)前記単語識別手段は、唯一の単語候補が得られた
    場合には、その単語候補を認識結果として出力し、複数
    の単語候補が得られた場合には、同一桁にあつて異なる
    候補文字対について当該文字の概略特徴辞書を比較して
    、上記概略特徴辞書を構成する複数の局部特徴辞書のう
    ち予め定められた値以上の差がある局部特徴を抽出し、
    当該桁の入力文字の概略特徴と前記各単語候補の概略特
    徴とを上記異なる局部特徴についてのみ比較して単語識
    別を行うものであることを特徴とする特許請求の範囲第
    1項記載の文字認識装置。
  3. (3)前記単語識別装置は、唯一の単語候補が得られた
    場合には、その単語候補を認識結果として出力し、複数
    の単語候補が得られた場合には、各単語候補間で最も異
    なる概略特徴を有する文字桁を検出し、この検出された
    前記文字桁の前記入力文字を個別識別するものであるこ
    とを特徴とする特許請求の範囲第1項記載の文字認識装
    置。
  4. (4)前記単語識別手段は、全ての単語候補についてト
    ーナメント方式により単語候補を絞り込み、唯一の単語
    候補が残つた場合にはその単語候補を認識出力し、複数
    の単語候補が残つた場合にはリジェクトとしてその複数
    の単語候補を出力することを特徴とする特許請求の範囲
    第2項記載の文字認識装置。
JP60215555A 1985-09-28 1985-09-28 文字認識装置 Pending JPS6275785A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60215555A JPS6275785A (ja) 1985-09-28 1985-09-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60215555A JPS6275785A (ja) 1985-09-28 1985-09-28 文字認識装置

Publications (1)

Publication Number Publication Date
JPS6275785A true JPS6275785A (ja) 1987-04-07

Family

ID=16674366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60215555A Pending JPS6275785A (ja) 1985-09-28 1985-09-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPS6275785A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212299B1 (en) 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
CN109753967A (zh) * 2018-12-29 2019-05-14 北京师范大学 一种图片文字识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212299B1 (en) 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
CN109753967A (zh) * 2018-12-29 2019-05-14 北京师范大学 一种图片文字识别方法

Similar Documents

Publication Publication Date Title
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
JP2734386B2 (ja) 文字列読み取り装置
CN101510252A (zh) 区域提取程序、字符识别程序以及字符识别装置
JPS6275785A (ja) 文字認識装置
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
JPH08243505A (ja) 住所読取装置及び方法
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP3162552B2 (ja) 郵便物あて名認識装置及びあて名認識方法
KR20120019706A (ko) 우편물 주소 인식 시스템
JP2685257B2 (ja) 認識方法
JP2000207491A (ja) 文字列読取方法及び装置
JPH10198761A (ja) 文字認識方法および文字認識装置
JPH0256086A (ja) 文字認識の後処理方法
JP6024118B2 (ja) 文字読取装置及び文字認識方法
JPH10174935A (ja) 宛名読取装置および文字情報読取装置
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JPH1196308A (ja) 文字情報読取装置および宛名読取装置
TW306994B (en) Image display method used for computer aided data logging
CN114596522A (zh) 文本处理方法、装置、电子设备和存储介质
JP2007257249A (ja) 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体
JPH02308384A (ja) 住所認識装置
JPH0646422B2 (ja) 文字読取方式
JPH01191992A (ja) 文字認識装置
JPH03123989A (ja) 文字認識装置