JPS6368989A - 文書読み取り装置 - Google Patents

文書読み取り装置

Info

Publication number
JPS6368989A
JPS6368989A JP61214352A JP21435286A JPS6368989A JP S6368989 A JPS6368989 A JP S6368989A JP 61214352 A JP61214352 A JP 61214352A JP 21435286 A JP21435286 A JP 21435286A JP S6368989 A JPS6368989 A JP S6368989A
Authority
JP
Japan
Prior art keywords
words
dictionary
document
characters
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61214352A
Other languages
English (en)
Other versions
JPH07120396B2 (ja
Inventor
Yoshiaki Uchida
好昭 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61214352A priority Critical patent/JPH07120396B2/ja
Publication of JPS6368989A publication Critical patent/JPS6368989A/ja
Publication of JPH07120396B2 publication Critical patent/JPH07120396B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [概 要] 文書を走査して2値データとして読み取ってから文字の
認識を行なって文章を読み取る装置において、その認識
率を向上させるため、従来、文字認識によって得られた
単語が通常の単語として妥当なものであるか否かを検査
したり、出来上がった文章が文法的に正しいか否かを検
査する方法が採られていたが、実際と異なる文字として
認識されているにもかかわらず、偶然その文字列が一般
に存在し得る単語であったり、文法的な誤りを生じない
場合には、これらの文字の認識の誤りを検出することが
できないという問題点があった。本発明はこのような従
来の問題点を解決するため、文字認識の結果得られた各
文字に対する複数の候補によって、組立てられる単語に
ついて当該文章中での使用状況と予想される単語の組合
わせを検査することにより、高い認識率を期待すること
のできる文書読み取り装置の制御について開示している
[産業上の利用分野] 本発明は文書読み取り装置に関し、特に文書の文字を正
しく認識するのに適した文書読み取り装置に係る。
[従来の技術] 文書画像を自動的に読み取って情報処理装置によって文
書に係る処理を行なう文書読み取り装置においては、文
書画像をドラムスキャナ等の入力装置によって2値デー
タ(ドツト列)として読み取って、これから文字列を抜
き出し、更に該文字列から個々の文字を抽出して、その
認識を行なうという処理が行なわれる。
このような処理においては、文章が正しく読み取られる
ためには、個々の文字が正しく認識される必要がある。
文字の認識は文字列から抽出した文字パターンを辞書中
に格納しである既知の文字パターンと照合して一致する
ものあるいは最も距離の近いものを選出して、これに対
応する文字であるとすることにより行なわれる。
しかし、対象となる文章が、使用する文字の種類等を制
限することなく作成された日本文である場合にはその文
字の認識は容易なことではない。すなわち、日本文その
ものが漢字かなまじりで文字種類が多い上、数字や英字
が混ざっていることが多いからこれらを正しく識別する
ことは非常に困難であることが多い。
そのため、従来文字の認識に際して得られた複数の候補
に対して、単語としての綴りの妥当性や、文中での文法
的な妥当性を検査して、候補の中から最も確からしさの
条件を備えたものを選択するという手法によって認識率
を向上させることが行なわれている。
[発明が解決しようとする問題点] 上述した従来の文書読み取り装置における文字の認識率
を向上させるための手段、すなわち、文字の認識に際し
て得られた複数の候補に対して、単語としての綴りの妥
当性や文中での文法的な妥当性を検査して候補の中から
最も確からしさの条件を備えたものを選択する手法を用
いた場合には、第一候補が誤っていて、文字が実際とは
異なる文字として認識されても、該文字を含む文字列が
何らの意味を持つ単語を構成する場合や、該文字を含む
文字列からなる単語の文法的属性が正しく見える場合に
は、それらが正しいものと誤認されて採択されてしまう
という問題点があった。
本発明はこのような従来の問題点に鑑み、文字をより正
しく認識することのできる文書読み取り装置を提供する
ことを目的としている。
[問題点を解決するための手段] 本発明によれば上述の目的は前記特許請求の範囲に記載
のとおり、文書を走査して文字を2値データとして読み
取りプロセッサがそれぞれの文字を認識して文章を読み
取る装置であって、対象となる文書において高い頻度で
出現することが予想される単語を格納しておく辞書(5
)と、4一 対象となる文書において該当する単語が頻繁に他の特定
の単語と連結して用いられる等限定した使用方法が予想
される単語との条件を格納しておく辞書とを具備し、文
字識別の結果得られた候補の文字からなる単語について
上記各辞書を用いて確からしさを調査してその結果を個
々の文字の認識に際する判定条件として用いることを特
徴とする文書読み取り装置により達成される。
[実 施 例] 第1図は本発明の1実施例のブロック図であって、文書
読み取り装置の構成の例を示している。図において1は
入力装置、2は表示部、3は処理部、4は文字認識用の
辞書、10は出力装置を表しており、また5、6.8.
9は辞書を、7はテーブルを示すもので、5は対象文書
において、高い頻度で出現することが予想される単語を
あつめた辞書、6は対象文書において、限定された使用
方法が予想される単語をあつめた辞書、7は対象文書に
おいて、実際に出現した単語とその使用方法を記録する
為のテーブル、8は対象文書において、実際に出現した
単語とその使用方法を記録する為の辞書、9は使用方法
がとくに限定されない語をあつめた辞書である。
第1図において、入力装置1(例えば0CR)によって
文書を2値画像データとして読み取り、得られた画像デ
ータについて処理部3が文字の識別を行なう。
文字の識別はプロセッサが入力データ中の文字と見なさ
れるドツト群のパターンを文字認識用の辞書4内の既知
の文字のパターンと照合することにより行なわれるが、
このとき、両者のパターンが全く一致することは稀であ
り、通常は、入力文字のパターンと類似したパターンを
有する文字が候補としていくつか選び出されることにな
る。そして、これらの候補は入力文字のパターンとの類
似の程度に応じて順序づけされる。
従って文字の識別の結果として入力の各文字それぞれに
対して、それぞれ複数の順序づけされた候補文字が得ら
れる。そして、これらの候補文字を連結することによっ
て、単語および文を生成しながら後述の方法により、そ
の妥当性を検査する。もし、不適当と判断されるものが
ある場合には、次候補を用いて再び単語を生成し検査を
行なう。そして、最終的に生成されたものを表示部2に
表示して、利用者の確認を受けた後、確定する。
上記妥当性の検査に際しては、前記、対象文書において
、高い頻度で出現することが予想される単語をあつめた
辞書5と、対象文書において、限定された使用方法が予
想される単語をあつめた辞書6と、対象文書において、
実際に出現した単語とその使用方法を記録する為のテー
ブル7と、対象文書において、実際に出現した単語とそ
の使用方法を記録する為の辞書8、および使用方法がと
くに限定されない語をあつめた辞書9とが用いられる。
これらの内、チー′ル7と辞書8は書き換え可能な記憶
領域に置かれ、また辞書6と8およびテーブル7の内容
はほぼ同じものとなる。
文字の認識に当たって、プロセッサはまず、第一候補を
つなげて、単語として成立するものまでをとりだす、こ
の時、第一候補と第二、第三候補の確からしさく類似の
度合)が接近しており、いずれかによって辞書5に指定
された語が構成されるならばそれを優先する。(候補の
順位を変更する〉 そして、取り出された単語の品詞が該単語の前後の単語
の品詞との関係において不都合がないかについての文法
検査を行なう。不当であればその単語はすてて、次候補
の選択から繰り返す。
取り出された単語が辞書6、テーブル7にあれば辞書中
に指定されたその語の限定条件を満たしているかを検査
する。不当であれば単語選択に戻って、次候補を選択す
る。このとき、不当とされた単語の情報はプロセッサの
メモリに残しておく。
上の処理において、あらゆる候補が不当となった時は、
その時点で保存されている単語を用いる。そのような語
もなければ文字認識の第一候補から単語を構成する。
文(ないし段落・文章)が得られたならば、それを表示
して、利用者に確認をもとめる。これに対し、利用者が
キーボード等から了解の旨を通知すると、プロセッサは
その文(ないし段落・文章)を確定したものとしてメモ
リに保持する。(受理する) 文(ないし段落)が受理された時点で受理した文の先頭
から、受理した単語それぞれについて辞書9になければ
その単語の使用方法を検査して辞書8に登録する。辞書
8の内容から使用方法が限定されていると判断される語
がみつかれば、それをテーブル7に登録する。また、辞
書6、テーブル7に登録された情報と矛盾する使用方法
がなされているならば、辞書6、テーブル7の該当レコ
ードの「その情報を使用しないように指定するフラグ」
をセットする。これらの処理が終了したら次の文につい
て、処理を続ける。
文書の読み取りが終了したならば、将来同じような文書
を処理する時のためにテーブル7に保存された情報を保
存する。
以上説明した実施例における文書処理について、更に具
体的に説明すると、例えば、辞書5、辞書6、辞書9に
それぞれ、第1表に示すような単語が登録されていると
き、下記に示す例文を処理すると、テーブル7に例えば
、「アドレス(拡張)」、「拡張(機能)」等の情報が
追加される。これは「アドレスjという単語は「拡張」
を伴って使用され、また「拡張」という単語は「機能j
を伴って使用されることがあることを意味している。こ
のような情報の収集は文中から自立語の連続を捜して、
いつも同じ組み合わせになっているものを見付けること
により行なわれる。
例文・・・・・・r M382はM2O0の上位に位置
する大型計算機であり、アドレス拡張機能をもつ最新の
オペレーティングシステム(MSP)が動作する。アド
レス拡張機能とは・・・・・・」第  1  表 [※辞書6の単語は()内の単語と共に使われることを
示している。] この後、次のような候補文字列を処理することを考える
。(下線を施した第一候補が誤り)「第一候補文字:m
387のLドレス拡張機隨は°°°°°°」 「第二候補文字:Mる日2あアトひヌ佑帳機能は・・・
・・・」 ■辞書5を検索することにより、(+387でなく )
M 382が選ばれる。(mの第二候補はM、7の第二
候補は2であり、辞書5にはM382なる単語が存在す
る) ■辞書5を検索することにより、(7ドレスでなく)ア
ドレスが選ばれる。(7の第二候補はアであり、辞書5
にはアドレスなる単語が存在する) ■テーブル7にアドレス−拡張の組合せが指定されてい
る。後の文字列により確認する。
■テーブル7に拡張−機能の組合せが指定されている。
これにより、後を(機能と)選ぶ。
■附属語や上のそれぞれは文法的な接続条件を満たすこ
とを確認する。
以上のような方法によれば、(IL38Lや拡張機械−
)のような文法検査だけではうまく処理できない場合で
も効率よく処理できる。
[発明の効果] 以上説明したように本発明は、「文書読み取り装置への
入力となる文書は比較的多量の文を含み、かつ一度に入
力される文書の範囲では単語のつかわれ方が比較的一定
している。」という特徴を利用するものである。
ここで、“単語のつかわれ方°′とは、その前後に限定
された語がつながること、同一文中に限定された語が現
れること、他の語にくらべて著しく高い頻度であられれ
ること、をさす。
即ち、本発明においては、文字識別の結果得られた候補
について、 選択された語の前後関係を確認すると共に、次候補によ
り構成される語のく予想される)出現頻度が著しく高い
ものであれば第一候補をすすてる等の処理を行ない、 また、上記の検査に使われる情報テーブルや辞書を、実
際に読み込まれた文に従って順次更新する等の手段によ
り、より妥当な候補を選択しているので、文字を正確に
読み取ることが可能であり、従来に比し、認識率が大幅
に向上する。また、文書の対象分野によっては、ある種
の語は限定された使用方法をされており、文書の対象分
野が分かっている場合はこのような語を予め登録してお
くことにより、同様の効果を上げることができる利点も
ある。(マニュアルにおける製品名、法律文書における
言回しなどが該当する。)
【図面の簡単な説明】
第1図は本発明の1実施例のブロック図である。 1・・・・・・入力装置、2・・・・・・表示部、3・
・・・・・処理部、4・・・・・・文字認識用の辞書、
5.6.8.9・・・・・・辞書、7・・・・・・テー
ブル、10・・・・・・出力装置□ \ ;、゛ハ 代理人 弁理士 井 桁 貞 −It  、+。

Claims (1)

  1. 【特許請求の範囲】 文書を走査して文字を2値データとして読み取りプロセ
    ッサがそれぞれの文字を認識して文章を読み取る装置で
    あって、 対象となる文書において高い頻度で出現することが予想
    される単語を格納しておく辞書(5)と、 対象となる文書において該当する単語が頻繁に他の特定
    の単語と連結して用いられる等限定した使用方法が予想
    される単語との条件を格納しておく辞書(6)とを具備
    し、 文字識別の結果得られた候補の文字からなる単語につい
    てプロセッサが上記各辞書を用いて確からしさを調査し
    てその結果を個々の文字の認識に際する判定条件として
    用いることを特徴とする文書読み取り装置。
JP61214352A 1986-09-11 1986-09-11 文書読み取り装置 Expired - Fee Related JPH07120396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61214352A JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61214352A JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Publications (2)

Publication Number Publication Date
JPS6368989A true JPS6368989A (ja) 1988-03-28
JPH07120396B2 JPH07120396B2 (ja) 1995-12-20

Family

ID=16654349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61214352A Expired - Fee Related JPH07120396B2 (ja) 1986-09-11 1986-09-11 文書読み取り装置

Country Status (1)

Country Link
JP (1) JPH07120396B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59117673A (ja) * 1982-12-24 1984-07-07 Comput Basic Mach Technol Res Assoc 文字認識装置における後処理方式
JPS60583A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS6174086A (ja) * 1984-09-18 1986-04-16 Fujitsu Ltd 単語認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59117673A (ja) * 1982-12-24 1984-07-07 Comput Basic Mach Technol Res Assoc 文字認識装置における後処理方式
JPS60583A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS6174086A (ja) * 1984-09-18 1986-04-16 Fujitsu Ltd 単語認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management

Also Published As

Publication number Publication date
JPH07120396B2 (ja) 1995-12-20

Similar Documents

Publication Publication Date Title
CA2153684C (en) Combined dictionary based and likely character string method of handwriting recognition
JPS60502175A (ja) 索引項目の発見方法
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH0785080A (ja) 全文書検索システム
JPS6368989A (ja) 文書読み取り装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JPS6262388B2 (ja)
JPS592191A (ja) 手書き日本語文の認識処理方式
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0256086A (ja) 文字認識の後処理方法
JP2886690B2 (ja) 光学的文字読取装置における文字認識方法
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JP2839515B2 (ja) 文字読取システム
JPH04106663A (ja) 文書分類装置
JPS60138689A (ja) 文字認識方法
JPH05108703A (ja) 機械翻訳機
JPH0318987A (ja) 辞書登録方法
JPH0355874B2 (ja)
JPH0922441A (ja) 光学文字読取装置
JPH04274580A (ja) 光学文字読取り装置
JPS63138479A (ja) 文字認識装置
JPH0728956A (ja) 誤読修正支援方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees