JPS6262388B2 - - Google Patents

Info

Publication number
JPS6262388B2
JPS6262388B2 JP56030853A JP3085381A JPS6262388B2 JP S6262388 B2 JPS6262388 B2 JP S6262388B2 JP 56030853 A JP56030853 A JP 56030853A JP 3085381 A JP3085381 A JP 3085381A JP S6262388 B2 JPS6262388 B2 JP S6262388B2
Authority
JP
Japan
Prior art keywords
word
address
place name
dictionary
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56030853A
Other languages
English (en)
Other versions
JPS57146380A (en
Inventor
Kazunari Egami
Tetsuo Umeda
Naoto Tsukagoshi
Yasuo Nishijima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP56030853A priority Critical patent/JPS57146380A/ja
Publication of JPS57146380A publication Critical patent/JPS57146380A/ja
Publication of JPS6262388B2 publication Critical patent/JPS6262388B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、郵便物等の紙葉上で連続した単語の
集合として表記されている住所の読取装置に関す
る。
現在、郵便物に書かれた郵便番号を読取る
OCRは機械化先進各国で多く使用されているか
あるいはその採用が真剣に検討されている。近
年、エレクトロニクス技術の飛躍的な向上に伴
い、以前より注目されていた単語認識を応用した
住所読取装置の導入が検討され始めた。これは従
来の郵便番号読取りのみではその読取率に限界が
あるためで、単語の持つ冗長性を最大限利用する
ことにより住所を認識し読取性能の向上をねらつ
たものである。
従来の文字認識装置において郵便番号の読取り
は1文字当りの装置の読取性能にのみ頼つてい
た。例えば1文字当りの読取性能が98%である場
合3桁の郵便番号の平均の読取率は(98%)
約94%となり5桁の郵便番号では(98%)で約
90%に下がる。したがつて郵便番号読取性能を得
ようとすると、各文字当りの読取性能を上げる以
外には方法がなかつた。これは、数字の組合せで
ある郵便番号において各数字間の相関が全くなく
読めない桁があつても、他の読めた桁からそれを
補なうことが不可能であるためである。また、誤
読を生じてもそれを補正する手段が全く存在しな
い。
そこで、郵便番号と共に住所を読取ることによ
り、郵便番号を導き出し読取率の向上及び誤読率
の低減をはかることが提案されている。住所は一
連の単語の集合であり住所読取りには単語の認識
手段が必要とされる。単語認識の方式については
種々の方式が提案されているが、動的計画法
(Dynamic Programing)を応用したDPマツチン
グ手法が一般的である。これはある入力文字列に
対し予め用意された単語辞書と文字対文字を1対
1に照合するだけでなく、各文字毎にある一定幅
ずらした文字に対しても照合をとり最もよく一致
する(最大一致)部分を抽出していく方法であ
る。この方式によれば、単語内に読めない文字等
がいくつか存在したり、文字のセグメンテーシヨ
ンエラー等により文字数が多少増減しても、単語
の持つ冗長度によりある程度吸収され、辞書上の
単語と完全一致ではなくとも、非常によく一致す
る単語として抽出することができる。
本発明の目的は連続した単語列で構成される住
所を多段にわたつて単語認識を繰返すことにより
認識する住所読取装置を提供することである。
本発明の他の目的は文字読取装置から出力され
る文字列より抽出される連続した単語列の中から
一つの意味を成す単語を認識することができる住
所読取装置を提供することである。
本発明の他の目的は、文字読取装置の1文字当
りの読取性能の限界の打破を、単語の持つ冗長性
による単語認識に求め、読取性能の向上をはかる
ことができる住所読取装置を提供することであ
る。
以下、図面を参照しながら本発明を詳細に説明
する。欧米の郵便物の住所記載の一般的な例を第
1図aに示す。すなわち、住所は、行の後から大
区分地名、中区分地名、小区分地名と順に、複数
段の区分地名で構成し、郵便番号は一般的に大区
分地名の前、後、特に後に位置する場合が多い。
第1図bに米国郵便物の住所記載の実際例の1つ
を示す。本例では、大区分地名に相当するのが州
名「Michigan」で中区分地名に相当するものが
都市名「Benton Harbor」で、小区分地名に相当
するものが都市の区域名「Monte Road」であ
る。第2図は第1図bの例から単語抽出を行つた
後、得られた単語例を示している。ここで単語1
と2は本来1つであるべき単語「Michigan」が
印字ピツチずれ等のため2つの単語「Michi」と
「gan」とに分離した場合を想定している。同様
に単語6と単語7も「Mon」と「te」とに分離し
た場合を想定している。以下、第1図bと第2図
の例を用いて本発明の装置の動作を詳細に説明す
る。
第3図は本発明の装置の構成図である。図で文
字読取部1からは、第1図bの文字読取の結果が
各行ごとに、左端または右端より一連に出力され
る。文字読取結果は数字読取出力(以下N出力)
101、アルフアベツト大文字読取出力(以下
AC出力)102、アルフアベツト小文字読取出
力(以下AS出力)103の3つのチヤネル出力
及び文字位置、文字サイズ等の前処理情報104
が出力される。AC出力102、AS出力103及
び前処理出力104は、単語抽出部2に、またN
出力101及びAC出力102は数字コード抽出
部3に入力される。単語抽出部2においては、前
処理出力104を用いて単語間の区切り(スペー
ス等)を検出し、まず、単語を分離する。さらに
AC出力102、AS出力103及び前処理出力1
04に含まれる文字サイズデータにより単語を構
成する文字種すなわち、単語がすべてアルフアベ
ツト大文字か、小文字か、あるいは単語の先頭が
大文字で他が小文字であるかを判別する。数字コ
ード抽出部3では、単語抽出部2より1単語の区
切り情報105をもちい、当該単語が数字コード
であるか否かをN出力101とAC出力102と
を比較することにより決定する。単語抽出部2と
数字コード抽出部3との出力は単語バツフア4
に、単語列として記憶する。すなわち第1図bに
示す入力に対して、第2図に示すような単語列情
報が単語バツフア4にセツトされる。本例では前
述の如く、本来一つであるべき単語
“Michigan”が、単語2“Michi”と単語1
“gan”とに分離している場合を想定したが、単
語抽出部2においてはこれを一つとして結合させ
る必要はない。これは本装置の一つの特徴である
後述の多段最大一致検出手法により分離単語を一
つに合成し、認識することにより解決する。
単語抽出が完了すると、住所構成単語抽出部5
に単語列情報106が入力される。当該ブロツク
では、住所構成の規則性、すなわち第1図aに示
すごとく(1)住所は行の後から、大区分地名、中区
分地名、小区分地名の順に構成される(2)一行に、
住所がはいらない場合は、その上の行に書かれる
(3)郵便番号は大区分地名の前後、特に後に置かれ
る場合が多いという点に着目し、郵便番号を基準
として、住所構の解析を行う。住所判定は、大区
分地名から中区分、小区分の順で実行する。住所
成単語抽出部5では、まず、大区分地名候補とな
る単語を選び、大区分単語バツフア6にセツトす
る。第2図の例では、第4図aに示す単語1〜単
語4が大区分地名抽出の対象単語列として、大区
分単語バツフア6にセツトされる。さらに、辞書
選択部13に対し、大区分地名辞書10を選択す
る情報107を与え、辞書を読出すためのアドレ
スインデツクスデータを辞書索引部15に与え
る。大区分地名候補単語第4図aが大区分単語バ
ツフア6にセツトされ、また大区分辞書の選択が
実行されると入力単語選択部9は、第4図aの単
語を大区分単語バツフア6より順次読出し地名抽
出を開始する。大区分地名抽出は第4図aに示す
ように第1段から第4段の順にわたり実行する。
まず、第1段に相当する単語1を単語バツフア6
から読出し最大一致検出部14に入力する。さら
に、単語1の単語内の文字数(以下語長と称す)
より照合をとる辞書の範囲を指定する情報108
を辞書索引部15に与える。辞書の範囲とは、入
力単語の語長Nに対し、(N+10)の語長の地名
と照合をとつても無意味であるから、例えば(N
−2)から(N+2)ぐらいの語長範囲を辞書索
引部15に指定することをいう。辞書索引部15
では与えられた範囲の地名データを照合辞書バツ
フア16にセツトし最大一致検出部14に入力す
る。
最大一致検出部14では、入力単語選択部9か
ら与えられる単語と照合辞書バツフア16の地名
との照合を前述のDPマツチング手法により、例
えば語長(N−2)〜(N+2)の範囲の辞書と
入力単語(語長N)との照合をとる。DPマツチ
ング手法を用いることにより入力単語が実際は
(N+1)の語長であるのに前処理等で1字が欠
除し語長がNとなつている場合でも辞書の照合範
囲は常に(N−2)〜(N+2)で照合をとるた
め該当する地名が照合辞書範囲から、除外される
ことを防止できる。照合辞書範囲を入力単語の語
長に対し±2とすることは、すなわち入力単語の
語長が実際より±2変化しても、実際の地名と照
合がとれることを意味する。この状況を第5図に
て説明する。すなわち第5図aには1例として入
力単語“Michigan”が示されており、これは
“Michigan”の中央のiが欠除したものであり、
これが第5図bに示された大区分地名辞書と照合
されるのを説明する。この照合においては、単語
の各文字に対し±1文字前後にある文字の範囲で
一致すれば文字間距離0、全く一致しなければ文
字間距離10、多少似ている場合(但し、類似文字
についてはあらかじめ定義の必要がある)文字間
距離5と仮に設定すると、最大一致地名は第5図
cのようになる。すなわち入力単語長と同一の語
長7の辞書との照合結果距離35“Montana”と
いう地名が得られる。ただし、この距離は文字当
り平均35/7=5の距離で一致したとは判断できな
い。これに対し第5図dに示すように入力語長よ
り1文字長い…語長8の辞書との照合結果10
で、文字当り平均10/8=1.25の距離で
“Michigan”という地名が得られる。これは完全
に一致したと見ることができる。
以上のようにDPマツチング手法を用いること
によりセグメンテーシヨンエラー等により実際の
語長と異なつていても、よく一致する部分を探し
ながら照合をとり、非常によく似た地名として抽
出することができる。
最大一致検出部14の動作について説明した
が、最大一致地名として抽出された地名は地名判
定部17に入力し、一時記憶される。第4図aの
場合で説明すると、大区分地名抽出の第1段〜第
4段の単語組合せについて前述の最大一致検出を
繰返す。この場合入力単語の最大語長を規定し、
単語の組合せ語長がその規定長に対したら以降の
段の最大一致検出は中止する。第4図aの例で入
力最大語長の規定値を16文字とした場合第4段の
最大一致検出は実行されない。
大区分地名抽出が大区分単語バツフア6にセツ
トされたすべての単語列について実行し終ると、
地名判定部17はそれまでの最大一致検出地名の
中から、さらに最も一致度の高いものから、いく
つかの候補を選び、住所判定部18に出力する。
第4図aの例では“Michigan”が大区分地名と
して唯一出力される。
住所判定部18では、入力した地名候補を大区
分地名バツフア19に一時記憶し、その中の一つ
の候補を選び、次の中区分地名を抽出するための
情報109を住所構成単語抽出部5に出力する。
当該情報としては(1)大区分地名検出単語列、(2)大
区分地名候補の辞書アドレスである。住所構成単
語抽出部5では、前記情報(1)より第2図単語2ま
でが大区分地名単語であるから、中区分地名抽出
単語列として第4図bに示す単語を、中区分単語
バツフア7にセツトする。さらに前記情報(2)より
第6図に示す大区分地名辞書を参照し
“MICHIGAN”に対応する中区分地名辞書のアド
レスを示すポインターを読出し、辞書選択部13
に与える。これにより辞書選択部13では中区分
辞書11中の第6図に示す辞書m1,m2…mnを
選択し辞書を読出すためのアドレスインデツクス
データを辞書索引部15に与える。第4図bの単
語列が中区分単語バツフア7に与えられた中区分
辞書11の選択が実行されると入力単語選択部9
は第4図bの単語をバツフア7から順次読出し、
中区分地名抽出を開始する。中区分地名抽出は第
4図bに示すように第1段第2段にわたり繰返
す。まず、第1段に相当する単語3が単語バツフ
ア7から読出され、最大一致検出部14に入力さ
れる。
さらに単語3語長より照合をとる辞書の範囲を
指定する情報108を辞書索引部15に与える。
照合辞書の範囲を入力語長±2とした場合単語3
(語長が6)との照合辞書の範囲は語長4〜語長
8となり、この範囲の中区分地名辞書の内容が順
次照合辞書バツフア16にセツトされ、最大一致
検出部14において単語3との照合を行う。照合
は前述したとおりDPマツチングによる。
最大一致地名として抽出された地名は地名判定
部17に入力し、一時記憶する。続いて、中区分
地名の第2段について同様の最大一致検出を繰返
す。中区分単語バツフア7の単語列について、す
べて地名抽出が終了すると地名判定部17はそれ
までの最大一致検出地名の中で、さらに一致度の
高いものからいくつかの候補を選び住所判定部1
8に出力する。住所判定部18では入力した中区
分地名候補を中区分地名バツフア20に一時記憶
する。ここで、住所判定部18では先に大区分地
名候補の中の1つの地名をもとに、次の中区分地
名の辞書を第6図に示すごとく絞つた。すなわち
大区分地名“Michigan”の場合“Michigan”に
含まれる第6図の中区分地名m1,m2…mnにつ
いてのみ照合をとる。従つて、他に大区分地名候
補が選ばれている場合、すなわち優力な大区分地
名候補が複数あがつている場合、先の中区分地名
抽出では候補が上らないときもあり、他の大区分
地名候補についても、同様の中区分地名抽出を行
う。住所判定部18では大区分地名バツフア19
にセツトされたすべての大区分地名について、中
区分地名抽出を終了すると、大区分と中区分の地
名を総合し、住所として最も一致度の高いものを
選択する。一致度の尺度となるものは前述の第5
図c,dに示したように距離合計すなわち単語と
辞書間の距離データである。また、候補が絞れな
い場合数字コード抽出部3で抽出される郵便番号
110を参照し、逆に郵便番号から候補を特定す
る。住所として中区分地名まで決定すると決定し
た地名を大区分地名バツフア19、中区分地名バ
ツフア20にセツトする。第4図a,bの例で
は、大区分地名として“Michigan”中区分地名
として“Benton Harbor”がセツトされる。
さらに、次の小区分地名抽出のための情報10
9を住所構成単語抽出部5に出力する。当該情報
としては、(1)中区分地名抽出までの単語列、(2)中
区分地名の辞書アドレス、である。住所構成単語
抽出部5では前記情報(1)より第2図単語4までが
中区分地名までの単語であることを知り小区分地
名抽出単語列として第2図上行の単語を候補とし
第4図cに示す単語列を小区分単語バツフア8に
セツトする。さらに、前記情報(2)より第6図に示
す中区分辞書を参照し、小区分辞書アドレスを示
すポインターを読出し辞書選択部13に与える。
辞書選択部13においては小区分辞書12中の第
6図に示す辞書mi1,mi2,…,minを選択し辞書
を読出すためのアドレスインデツクスデータを辞
書索引部15に与える。
第4図cの単語列が小区分単語バツフア8に与
えられ、小区分辞書12の選択が実行されると、
入力単語選択部9は第4図cの単語をバツフア8
から順次読出し、小区分地名抽出を開始する。小
区分地名抽出は第4図cに示すように第1段〜第
3段にわたり繰返される。以下、大区分、中区分
地名抽出と同様の動作で地名抽出を行なう。小区
分地名辞書第6図mi1,mi2,…,minの中で最
もよく一致する地名として第4図cの単語5,
6,7を接続した“Monte Road”という入力単
語に対する地名“MONTE ROAD”が選択され
る。住所判定部18において選択された小区分地
名は小区分地名バツフア21にセツトされる。
以上、小区分地名まで抽出が終了すると住所が
決定しそれに伴い、一般に郵便番号が確定する。
郵便番号は第6図小区分地名辞書mijに示すよう
に辞書内に地名と共に記憶しておき、住所が確定
した時点で参照できる。郵便番号判定部22で
は、住所読取より得られる郵便番号と、文字読取
の結果得られた郵便番号110を比較し、郵便番号
110の補正、エラーチエツク等を実施し、より精
度の高い郵便番号を抽出できる。
以上、詳細に説明したように連続した単語列に
大区分から小区分の方向へ、最大一致検出手法を
多段にわたり順次、適用することにより住所を読
取ることができる。さらに読取つた住所より郵便
番号を索引し、文字読取により得られる郵便番号
のチエツク、訂正等を行い、郵便番号読取性能の
向上をはかることができる。なお、郵便番号は中
区分地名が決定した時点で確定する場合も多く、
住所読取を中区分地名までとしても、住所読取機
能を十分に果す。さらに、第1図の例において住
所フオーマツトが右から左(後から前)方向に大
区分から小区分と並んだ場合を示したが、方向が
逆でも、本装置の手法を適用できる。すなわち、
予め住所フオーマツトが明らかであれば単語の並
びを示す一連番号を大区分から小区分の方向へ与
えることにより解決できる。
【図面の簡単な説明】
第1図a,bは郵便物の住所記載の規則とその
一例を示す図である。第2図は、本発明により読
みとられる住所の単語列を抽出した例を示す図で
ある。第3図は本発明の一実施例を示す図であ
る。第4図a,b,cは本発明の動作を説明する
ための図で、住所検出手順図である。第5図a,
b,c,dは単語を説明するための図で、aは入
力、bは辞書例、c,dは比較動作と距離を示す
図、第6図は本発明に係わる住所辞書の概略図で
ある。

Claims (1)

    【特許請求の範囲】
  1. 1 紙葉上に記載された文字を走査し走査パター
    ンを単語単位として抽出する単語抽出手段と、住
    所を示すあらかじめ設定された辞書パターンを格
    納する記憶手段と、前記単語抽出手段から抽出さ
    れた単語を紙葉上に記載された順序に応じて組み
    合せながら辞書パターンと比較してゆく比較手段
    とを具備し、前記比較手段での比較結果から最も
    類似度の高い組み合せを選ぶことにより住所を読
    み取ることを特徴とする住所読取装置。
JP56030853A 1981-03-04 1981-03-04 Address reader Granted JPS57146380A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56030853A JPS57146380A (en) 1981-03-04 1981-03-04 Address reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56030853A JPS57146380A (en) 1981-03-04 1981-03-04 Address reader

Publications (2)

Publication Number Publication Date
JPS57146380A JPS57146380A (en) 1982-09-09
JPS6262388B2 true JPS6262388B2 (ja) 1987-12-25

Family

ID=12315264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56030853A Granted JPS57146380A (en) 1981-03-04 1981-03-04 Address reader

Country Status (1)

Country Link
JP (1) JPS57146380A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5848182A (ja) * 1981-09-18 1983-03-22 Fujitsu Ltd 文字認識後処理方式
JPH0711821B2 (ja) * 1984-05-29 1995-02-08 株式会社東芝 単語認識装置
JPH069053B2 (ja) * 1986-08-26 1994-02-02 日本電気株式会社 住所辞書照合装置
JPS63131288A (ja) * 1986-11-21 1988-06-03 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
JP2680311B2 (ja) * 1987-06-30 1997-11-19 株式会社東芝 文字認識方式
JPH0239290A (ja) * 1988-07-28 1990-02-08 Nec Corp 単語照合方式
JP4668345B1 (ja) * 2009-11-25 2011-04-13 シャープ株式会社 情報処理装置、および情報処理装置の制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PROCEEDINGS OF THE 1972INTERNATIONAL CONFERENCE ON CYBERNETICS AND SOCIETY CONTEXTUAL RECONITION OF MAIL PIECE ADDRESS INFORMATION=1972 *

Also Published As

Publication number Publication date
JPS57146380A (en) 1982-09-09

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US4771385A (en) Word recognition processing time reduction system using word length and hash technique involving head letters
US7120302B1 (en) Method for improving the accuracy of character recognition processes
JPS6262387B2 (ja)
AU606623B2 (en) Character recognition apparatus
JPS6262388B2 (ja)
JPH07509576A (ja) 文字の認識方法
JPS5854433B2 (ja) 相違度検出装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
El Yacoubi et al. Conjoined location and recognition of street names within a postal address delivery line
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JPH0441388B2 (ja)
JP3151866B2 (ja) 英文字認識方法
JP3188154B2 (ja) 文字認識処理方法
JPS63268082A (ja) パタ−ン認識装置
JPS646514B2 (ja)
JPS60138689A (ja) 文字認識方法
JP2942375B2 (ja) 文字読取装置
JP2529421B2 (ja) 文字認識装置
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH11120294A (ja) 文字認識装置および媒体
JP2947832B2 (ja) 単語照合方法
JPH0580710B2 (ja)
JPH08249427A (ja) 文字認識方法および装置
JP2923295B2 (ja) パターン同定処理方式