JPS61109183A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS61109183A
JPS61109183A JP59229625A JP22962584A JPS61109183A JP S61109183 A JPS61109183 A JP S61109183A JP 59229625 A JP59229625 A JP 59229625A JP 22962584 A JP22962584 A JP 22962584A JP S61109183 A JPS61109183 A JP S61109183A
Authority
JP
Japan
Prior art keywords
kanji
recognition result
character
underline
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59229625A
Other languages
English (en)
Inventor
Katsumi Yaguchi
矢口 克巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59229625A priority Critical patent/JPS61109183A/ja
Publication of JPS61109183A publication Critical patent/JPS61109183A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の技術分野] 本発明は、帳票上に記入された漢字混り文を認識する文
字認識装置に関する。
〔発明の技術的背景〕
近年、文字認識装置の進歩が著しく、手書きの漢字混り
文を認識することができる装置が開発されている。この
ような文字認識装置に読取らせる帳票としては、例えば
第3図に示したような名簿形式の帳票CI 、第4図に
示したような原稿用紙形式の帳票C2等が考えられる。
ところで帳票C1のように文字記入枠が、ある程度のま
とまりをもって設定されている帳票の読取りを行なう場
合には、文字記入枠内にいかなる分類内容の文字が記入
されているかが予め判明しているので、認識結果(通常
文字コードで表わされる)の妥当性のチェックを行うこ
とができる。
例えば帳票C+の住所記入枠aの1東京都」という漢字
固有名詞を認識する場合には、第5図に示したような認
識結果が得られる可能性がある。
ここで認識結果としては、同図に示したように順位をも
っていくつかの候補が得られる場合と、単−の候補のみ
が得られる場合とがあるが、いずれの場合においても、
住所記入枠aに記入されている漢字は住所を示す漢字で
あることが予め判明しているので、認識結果を住所とし
て妥当であるか否かの観点からチェックすることができ
る。したがって前者の場合には妥当なものを選出して出
力し、後者の場合には正しい認識結果が得られていると
きのみ出力すれば、読取ミスの発生を極力押えることが
できる。
[背景技術の問題点] しかしながら従来の文字認識装置では、帳票C2のよう
に文字記入枠が連続している帳票を使用した場合、漢字
混り文における漢字の「区切り」の判断が困難であるこ
とから、特定の文字記入枠にいかなる分類内容の文字が
記入されているかを予め知ることはできない。従って原
稿用紙形式の帳票を使用した場合には先に述べた認識結
果の妥当性チェックを実施することができず、読取りミ
スが多くなってしまうという問題があった。
[発明の目的] 本発明は上述したような従来の文字認識装置の問題点を
解決すべくなされたもので、文字記入枠が連続している
形式の帳票に記入された漢字混り文を認識する場合でも
、漢字熟語および固有名詞の認識結果の妥当性チェック
を行なうことができ、読取ミスの発生を少なくした文字
認識装置の提供を目的としている。
[発明の概要] すなわち本発明の文字認識装置は、帳票上に記入された
漢字混り文を認識する文字認識装置において、前記漢字
混り文中の予め区別記号が付された漢字混分を検出する
特定漢字混分検出手段と、漢字熟語及び固有名詞を記憶
する知識辞書とを有し、前記区別記号が付された漢字混
分の認識結果と前記知識辞書に記憶されている漢字熟語
及び固有名詞のそれぞれとを比較して前記認識結果の妥
当性を判断するよう構成されていることを特徴としてい
る。
[発明の実施例] 以下、本発明の実施例の詳細、を図面に基づいて説明す
る。
第1図は本発明の一実施例の構成を示すブロック図であ
る。
同図において1は帳票上の漢字混り文を光電変換素子等
により走査して文字パターンに変換する読取部、2は直
接読取った文字パターンに対してスムージング等の前処
理を行なう前処理部、3は認識すべき文字の標準のパタ
ーンが保存されている標準辞書部、4は前処理部2によ
り前処理された文字パターンと標準辞11m3に保存さ
れている文字パターンとを比較して文字パターンの認識
を行なう認識部、5は後述するアンダーラインを検出す
るアンダーライン検出部、6は意味的に正当な漢字熟語
及び固有名詞のコードを多数保存する知識辞書部、7は
認識部4での認識結果であるコードと沖識辞書部6に保
存さているコードとを比較して認識結果の妥当性を判断
する認識結果判断部を示している。
第2図は本実施例の文字認識装置に読取らせるべき原稿
用紙形式の帳票C3を示す平面図である。
この帳票C3においては、予め妥当性チェックを行ない
たい漢字熟語、および固有名詞が記入された文字記入枠
Cの真下にアンダーラインLが付されている。
本実施例の文字認識装置の動作について説明する。
帳票C3の文字記入枠C内に記入された漢字混り文は、
まず読取部1により読取られて文字パターンに変換され
、前処理部2により前処理された後、1文字ごとに認識
部4に入力され、標準辞書部3に保存されている標準の
文字パターンと比較されることにより認識される。ここ
で認識結′果としては、いくつかの候補が得られる場合
と、単一の候補のみが得られる場合とが考えられるが、
いずれの場合でも認識部4での認識結果は、−文字対応
ごとに認識結果判断部7に送られる。
一方、アンダーライン検出部5は帳票C3上のアンダー
ラインLを検出して、アンダーラインLが付されている
文字記入枠す内に記入されている漢字のパターンをアン
ダーラインLの区切りごとにまとめる信号を認識結果判
断部7に出力する。
この信号により認識結果判断部7は認識部4が出力する
漢字の認識結果であるコードをアンダーラインの連続す
る文字数ごとにバッファリングし、そのコードと知識辞
書部6に保存されているコードとを比較し、妥当性のチ
ェックを行なう。
そして候補が複数得られている場合には、知識辞書6内
に保存されているいずれかのコードと一致するものを選
び出して出力し、候補が単一の場合には知識辞書6内に
保存されているいずれかのコードと一致した場合のみ出
力する。
なお、上述した実施例においてはアンダーラインが付さ
れている漢字が認識可能で、しかも意味的に正当であっ
た場合でも、知識辞書内にそのコードが保存されていな
いと認識ミスと判断されてしまうので、知識辞書に保存
しておくコードはできるだけ多くすることが望ましい。
また知識辞書内に、例えば「技術用語」に分類される漢
字熟語、あるいは「地名」に分類される固有名詞などの
コードのみを保存しておき、帳票上の該当部分のみにア
ンダーラインを付すようにして、その部分のみ妥当性チ
ェックを行なうようにしてもよい。
また上述した実施例では漢字の真下にアンダーラインを
付して、妥当性チェックを行なうべき漢字を区別してい
るが、例えば適当なドツトマーク等を漢字の近傍に付し
たり、漢字混り文が縦書きにされている場合には文字の
右側あるいは左側にサイドラインを付したりして、これ
を検出するようにしてもよい。
[発明の効果] 以上説明したように本発明の文字認識装置は、漢字混り
文中の予め区別記号が付された漢字混分を検出する特定
漢字混分検出手段と、漢字熟語及び固有名詞を記憶する
知識辞書とを有し、区別記号が付された漢字混分の認識
結果と知識辞書に記憶されている漢字熟語及び固有名詞
のそれぞれとを比較して認識結果の妥当性を判断するよ
う構成されているので、読取らせるべき帳票が、文字記
入枠が連続している原稿用紙形式の帳票であっても読取
りミスの発生が大幅に減少する。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図は本発明の一実施例に用いる帳票を示す平面図、第
3図は従来の文字gl B装置に用いられる名簿形式の
帳票を示す平面図、第4図は同原稿用紙形式の帳票を示
す平面図、第5図は一般的な文字認識装置において認識
結果の候補になると考えられる固有名詞を示す図である
。 1・・・・・・・・・・・・読取部 2・・・・・・・・・・・・前処理部 3・・・・・・・・・・・・標準辞書部4・・・・・・
・・・・・・認識部 5・・・・・・・・・・・・アンダーライン検出部6・
・・・・・・・・・・・知識辞書部7・・・・・・・・
・・・・認識結果判断部代理人弁理士   須 山 佐
 − 第1図 第2図

Claims (3)

    【特許請求の範囲】
  1. (1)帳票上に記入された漢字混り文を認識する文字認
    識装置において、前記漢字混り文中の予め区別記号が付
    された漢字部分を検出する特定漢字部分検出手段と、漢
    字熟語及び固有名詞を記憶する知識辞書とを有し、前記
    区別記号が付された漢字部分の認識結果と前記知識辞書
    に記憶されている漢字熟語及び固有名詞のそれぞれとを
    比較して前記認識結果の妥当性を判断するよう構成され
    ていることを特徴とする文字認識装置。
  2. (2)区別記号が、漢字部分にあらかじめ手書きされた
    傍線である特許請求の範囲第1項記載の文字認識装置。
  3. (3)帳票が、文字記入枠が連続している原稿用紙形式
    の帳票である特許請求の範囲第1項または第2項記載の
    文字認識装置。
JP59229625A 1984-10-31 1984-10-31 文字認識装置 Pending JPS61109183A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59229625A JPS61109183A (ja) 1984-10-31 1984-10-31 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59229625A JPS61109183A (ja) 1984-10-31 1984-10-31 文字認識装置

Publications (1)

Publication Number Publication Date
JPS61109183A true JPS61109183A (ja) 1986-05-27

Family

ID=16895121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59229625A Pending JPS61109183A (ja) 1984-10-31 1984-10-31 文字認識装置

Country Status (1)

Country Link
JP (1) JPS61109183A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01302484A (ja) * 1988-05-31 1989-12-06 Canon Inc 情報処理方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01302484A (ja) * 1988-05-31 1989-12-06 Canon Inc 情報処理方法及び装置

Similar Documents

Publication Publication Date Title
US5867597A (en) High-speed retrieval by example
JP3427692B2 (ja) 文字認識方法および文字認識装置
JPS6077274A (ja) 文字認識方法
JPH0682403B2 (ja) 光学式文字読取装置
Chaudhuri et al. OCR error detection and correction of an inflectional indian language script
JPS61109183A (ja) 文字認識装置
JPH0634253B2 (ja) 誤読文字訂正処理装置
JPS59158482A (ja) 文字認識装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3157557B2 (ja) 文字認識装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2908460B2 (ja) 誤認識修正方法及び装置
JPH0256086A (ja) 文字認識の後処理方法
JPH0614375B2 (ja) 文字入力装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH0950485A (ja) 文字列認識装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPS6095689A (ja) 光学的文字読取装置
JPH08305698A (ja) 自然語解析方法及び装置
JPH08297720A (ja) 一般文書読み取り装置
JPS60138689A (ja) 文字認識方法
JPH07271911A (ja) 文字認識装置
JPS62191990A (ja) 日本文読取装置
JPS6182275A (ja) 自動翻訳装置
JPH02292691A (ja) 文字認識装置