JPS63150788A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS63150788A
JPS63150788A JP61297772A JP29777286A JPS63150788A JP S63150788 A JPS63150788 A JP S63150788A JP 61297772 A JP61297772 A JP 61297772A JP 29777286 A JP29777286 A JP 29777286A JP S63150788 A JPS63150788 A JP S63150788A
Authority
JP
Japan
Prior art keywords
character
character string
dictionary
kanji
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61297772A
Other languages
English (en)
Inventor
Yumie Gou
郷 由美恵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP61297772A priority Critical patent/JPS63150788A/ja
Publication of JPS63150788A publication Critical patent/JPS63150788A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置に係り、特に認識処理における認
識率の向上を計った文字認識装置に関するものである。
[従来の技術] 一般に、文字認識装置における文字認識率は100%以
下であり、どうしても認識不能な文字や不確実な文字が
存在することになる。このような文字認識率を向上させ
るために種々の方法か提案されているが、どの方法も認
識率を飛躍的に向上させることができないのが現状であ
る。
[発明が解決しようとする問題点コ 本発明は上述従来例に鑑みなされたもので、文字認識装
置において、認識された結果を基に熟語や文法を考慮し
て、誤認識文字の比率を低下させた文字認識装置を提供
することを目的とする。
[問題点を解決するための1手段] 上記目的を達成するために本発明の文字認識装置は以下
の様な構成からなる。即ち。
文書原稿を光電的に入力する入力手段と、入力した原稿
情報の文字認識を行って字種毎の文字列に分割する分割
手段と、辞書をもとに前記文字列の各単語が単独で出現
するか否かを判定する判定手段と、単独で出現しない単
語は少なくとも前後の文字列を含めて認識する手段とを
備える。
[作用コ 以上の構成において、文書原稿を光電的に入力し、入力
した原稿情報の文字認識を行って字種毎の文字列に分割
する。辞書をもとに文字列の各単語が単独で出現するか
否かを判定して、単独で出現しない単語は少なくとも前
後の文字列を含めて認識する様に動作する。
[実施例] 以下、添付図面を参照して本発明の実施例を詳細に説明
する。
[文字認識装置の説明 (第1図)] 第1図は本実施例の文字認識装置の構成図である。
図中、1は原稿を光電的に読取って入力するスキャナ、
2は文字の認識結果を表示するCRTディスプレイで、
表示された文書データをみながらキーボード等により画
面上で認識結果の修正あるいは編集を行うことができる
様に構成されている。3はCRTZ上での修正処理や編
集処理を指示するキーボードである。4は認識結果の文
書あるいは修正や編集済の文書等のプリントを行うプリ
ンタである。
5は認識された文書データをコード情報で格納する文書
メモリ、6は文字認識時に参照される辞書で、漢字、カ
タカナ、平仮名部分に分かれて構成されており、各文字
毎に熟語や活用形及び品詞や属性等が記憶されている。
7は装置全体の制御を行う例えばMC68000等のマ
イクロプロセッサ、8はCPU7の制御プログラムや文
字パターンデータ及び各種データ等を格納しているRO
Mである。9はCPU7のワークエリアとして使用され
るRAMである。10は後述する文字列や文字の位置を
指定するポインタ、漢字文字列やカナ文字列等の位置や
長さ等を記憶する文字列メモリ及び認識時の候補文字等
を記憶するエリアを備えたメモリである。11はシステ
ムバスで上述各構成要素を接続している。
[文字認識処理の説明 (第2図〜第4図)]第2図は
本実施例の文字認識処理の概略フローチャートで、本プ
ログラムはROM8に記憶されている。
ステップS1でスキャナ1により原稿1ページを読み取
り、ステップS2ではスキャナ1よりのイメージデータ
を量子化して文字の判別を行う。
ステップS3ではステップS2で判別された文字情報を
CRTディスプレイ2あるいはプリンタ4等に表示出力
する。次にステップS4で表示出力された文字情報と原
稿とを比較して修正処理を行う。修正処理が終了すれば
、ステップS5に進みスキャナ1による次の原稿入力あ
るいはプリンタ4による結果出力等の次処理を実行する
第3図は第2図のステップS2における判別処理のフロ
ーチャートである。
スキャナ1より入力された2値のイメージデータはステ
ップS20で文字の切り出し、ノイズ除去、細線化及び
ベクトル化等の前処理の後、文字特徴(文字領域におけ
る密度、曲線比、ベクトル方向、局所的特徴等)に従っ
て分類され量子化される。ステップS21ではステップ
520で量子化されたデータと辞書6に予め内蔵されて
いる各文字の標準パターンの特徴データとの照合を行う
。ステップ322では照合の結果、相似度の高いものか
ら順に候補文字を抽出する。最も類似度の高い文字のコ
ードをCH(1)、以下類似度の高い順にCH(2)、
CH(3)、・・・CH(N)とし、多値をそれぞれメ
モリ10の候補文字エリアA(1)、・・・、 A (
N)に代入する(本実施例ではN=10としている)。
次にステップS23で最も類似度の高い第1候補文字が
正答であるか否かを推定するために相関演算を行って処
理を終了する。
[相関処理の説明 (第4図、第5図)]第4図は第3
図のステップS23の相関処理のフローチャートである
−0 まず、ステップS30で第1位候補の文字列コードデー
タから句読点符号と空白(スペース)記号を捜し、その
位置で文字列を区切り、更に字種の変り目を検出して字
種列毎に分割を行う。この時点では第1位候補の文字列
に正答ではない文字が含まれていても修正処理は行わな
い。この処理を強制分割と呼ぶ。
句読点符号は1.(句点)1、(読点)の他、−(ハイ
フン)、”J、0.  “ 、、・9等の符号も含み、
これらの符号によって区切られた文字列単位をフレーズ
と称し、検証、修正処理の一単位とする。
字種の変り目の判定は文字コードの大小演算によって行
う。例えば、文字コードがJISコードによって表現さ
れている場合、文字コードが2420以上、2473以
下の文字は平仮名、2520以上、2576以下の文字
は片仮名、3020以上、4F53以下の文字は漢字(
第一水準)と判定される。尚、文字コードの数値はいず
れも16進数で表わしている。
第5図は原稿の文字列を光学的に読取って文字認識を行
った結果のデータ形式を示す図である。
60は読取った文字列「複写機の低価格競争が激しくな
っている。」を示し、各文字について第10位までの候
補文字61を絞っている。62は前述したステップS3
0の強制分割処理の結果を示したもので、67〜69は
漢字文字列、70〜72は平板名文字列である。この様
に同一字種の文字列(同一字種文字が連続しない場合は
単一の文字)に分け、それぞれの文字列に字種属性を付
与する。本実施例では漢字文字列、カタカナ文字列、平
板名文字列に分類し、各文字列はその長さく文字数)及
び1フレーズにおいてそれぞれの文字列の何番目に現れ
た文字列かを示す番号とともにメモリ10に記憶される
以上の強制分割処理が終了するとステップS31に進み
、後述する分割された文字列中の浅学文字列についての
処理を行う。
尚、この様な漢字文字列や仮名文字列の解析は文字ある
いは単語を収納した辞書を照合しながら行われるが、文
字列の字種により辞書6の別々の辞書領域を用いる。す
なわち、漢字文字列を処理する場合は漢字辞書、片仮名
文字列の場合は片仮名辞書、平板名文字列の場合は平仮
名辞書を用いる。尚、上記各々の辞書は字種毎の処理方
法に応じ、異なる文字または語句の収納形態を取ってい
るものとする。
[漢字文字列処理(第5図、6図〜第8図)]第6図(
A)〜(F)は辞書6の漢字辞書の1例を示す図である
本実施例の漢字辞書は漢字−字単位で構成されており、
パス1 (80)で各漢字について単独で出現するかど
うか(T:出現する。NT:出現しない)、接頭語もし
くは接尾語となりつるか、あるいは送り仮名を伴って活
用語となりつるかを記号で示すとともに、パス2(81
)では当該浅学を先頭とする2字ないし3字の漢字熟語
もしくは平仮名を含む句等が用意されている。
まず、第5図の文字列60の先頭文字「複」にメモリ1
0のポインタを置いて第7図(A)の「複」の辞書を検
索する。この「複」を含む漢字列67が2文字以上であ
るから、2字熟語を比較するパス2(81)に移る。こ
れは複合語は2字の熟語で構成されている確率が高いた
めである。
こうして2文字目の漢字「写」を含めたマツチングを行
う。辞書には「複写」82が登録されており、この「複
写」には“T”マークが付されているため、マツチング
が成功して第5図の63に示す如く、熟語「複写」に“
T”マークが出力される。
次にポインタは「機」に移動し、第6図(B)の辞書が
検索される。
ここでは漢字列の長さは“1”であるため、パス1 (
80)がアクセスされて、接尾語(Suf)83として
条件を満足する。この時この接尾語は“T”マークを伴
っているため、この文字列67の解析は終了する。
次にポインタは次の文字列68の先頭「低」に移動する
。まず第6図(C)の漢字「低コの辞書がアクセスされ
、次に文字列68は2字以上であるため、文字列67の
場合と同様にパス2(81)により2字熟語の辞書と「
価」のマツチングが行われる。しかしこの辞書中には「
低価Jという熟語はないためマツチングは失敗し、次に
「低」単独のパス1 (80)をアクセスする。この場
合は後に漢字が続くため、条件をみたすのは接頭語(P
re)84とみなされる。ここには“T”マークがある
ためポインタは次の「価」にυ動じ、第6図(D)の辞
書をアクセスする。
「価」以下は4字で構成されているため、2字の熟語を
チェックするために「価」のパス2(81)をアクセス
する。こうして2字熟語「価格」85のマツチングが成
功し、ここで“T”マークが検出されるためポインタは
「競」にうつり、同様に次の2字熟語のマツチングが行
われ「競争」81が得られる。
こうして文字列68が終了するとポインタは次の文字列
69「激」にO勅する。この文字列6つは1文字である
ため、第6図(F)の辞書のパス1  (80)がアク
セスされる。
「激」は単独では出現しない(NT)ため、形容詞(A
dj) 86 r激しい」の語幹の1部とみなされ、接
続の送り仮名を含めてマツチングが行われる。
第6図(F)の辞書により、この形容詞は「1斂し」を
語幹とする規則活用を持ち、漢字列69に続く仮名文字
列72のうち「シく」と供に形容詞の連用形を形成する
。このマツチングに成功すれば「激しく」を1グループ
化し、73(形容詞連用)の属性を与える。このように
単独で終らない漢字(列)について、後続(まれに前置
も)する平板名文字列を併せてマツチングを行うことを
終端処理と称する。
第7図は上述したステップS31の漢字文字列処理フロ
ーチャートである。
まずステップS40で漢字文字列が2字以上かどうかを
みる。2字以上の時はバス2(81)へ進み2字の熟語
単位で辞書を比較する。比較により一致するとステップ
S46に進むが、一致しない時はステップS43に進み
バス1 (80)をアクセスする。バス1 (80)で
一致するとステップS46に進むが、一致しない時はス
テップS45に進み、第2位以下の候補文字から類似度
の高い順に第1位の候補文字と交換し、再びステップS
40に戻る。
ステップ546では一致した熟語あるいは単一漢字が終
端文字(T)か、次に続く文字(NT)かをみる。終端
文字でない時はステップS47に進み、漢字列の最後の
文字(列)かをみる。最後の文字(列)の時はステップ
S32に進んでステップS32の終端処理へ進む。ステ
ップS47で最後の文字(列)でない時はステップS4
5の次候補文字の交@処理に進む。
ステップS48で終端文字のときは、ステップ348に
進み漢字列の最後かどうかをみる。最後の時はステップ
S49に進み最終の漢字列かどうかをみる。最終の漢字
列でなければステップS50に進み、次の漢字文字列に
ポインタを進め再びステップS40に戻る。ステップS
49て最終漠字列のときは処理を終了する。
以上述べた様にして第4図のステップS31゜S32の
漢字列の処理が行われると、次にステップS33で平板
名文字列の処理を行う。
[平板名文字列処理(第5図、8図、9図)コ第5図中
に示した平板名文字列中、70および71は漢字列67
〜69に前後をはさまれ、かつ“T”マークに後続され
ている。この条件における長さが1または2の平板名文
字列については、自立語がふくまれない可能性が大きい
とみなして、主に助詞からなる長さが一致する平仮名漢
字とのマツチングを行う。
平板名文字列72については、上述の終端処理によりグ
ループ化された部分73を除く文字列74「なっている
」の解析を行う。これは先頭より活用語を含む辞書との
マツチングを行い、単語分解されたそれぞれの単位につ
いて、その属性に従って相互間の接続検証を行うという
処理である。
第8図(A)は辞書構造及び各項目の属性を示す図であ
る。
90は動詞等の品詞部分で“V”は動詞を示している。
91は「なる」で動詞の基本形を、92は基本形91に
対する活用形を示しており、例えば°゛1“は仮定形、
“3”は終止形、” 4 ”は連体形を表している。9
3(Aux)は補助用言を示している。
第8図(B)はこの辞書を基に単語分解を行った各々の
属性を示す図である。
本例では、「なっている」のうち「なつ」は動詞「なる
」の連用形であり、「ている」は補助用言(助動詞とあ
わせて、Auxに分類する)の終止形(Aux(3))
もしくは連体形(Aux(4))で、この補助用言「い
る」用言の連用形に接続する。この接続条件をルール化
し先行単語の活用形とのマツチングを行う。例文では、
先行単語「なつ」が連用形であり修正は不要となる。ま
た「ている」の後に読点がくるため、「ている」は終止
形(Aux(3))として処理される。
第8図(C)は活用、接続選択のルールで、94は補助
動詞「ている」は用言の連用形に接続することを示し、
95は読点が直後にくるとき、用言の活用は終止形であ
ることを示している。
尚、平板名文字列中に非活用自立語(名詞、副詞など)
が検出された場合は、漢字列の処理と同様にターミナル
マーク(T)と属性を出力する。
平板名列の解析の際は、前後のグループ化された文字列
の属性より当該平板名列の品詞・属性条件を仮定し、そ
の条件に合致する単語のマツチングを行う。その主な条
件を第9図に示す。
第9図の96は平板名文字列の長さが″1°°のときで
、終端名詞と名詞の間にある平仮名は助詞(P)となる
ことを示し、97は平板名文字列の長さが2の場合で、
終端名詞と名詞の間になる平仮名は助詞(P)、副詞(
A d、、−) 、接続詞(c、、、、1)のいずれか
である。
以上説明したように本実施例によれば、入力文字列を字
種に従って区分し、文字列の字種によって異なる処理を
施すことにより、字種の性質に応じた正確な文字認識の
検証・補正ができるという効果がある。
また、漢字−字単位にその単独出現の可否情報を付加す
ることにより、接頭語・接尾語を含む漢字複合語の解析
が効率的に正確に行える。
また更に、漢字熟語の解析を2文字車位で行うことによ
り効率性が増し、漢字単位に送り仮名を伴う活用の情報
も持たせることにより、漢字とそれに続く送り仮名を活
用径をふくめた文字認識の解析・検証が漢字列の解析と
同じ段階で行うことかできる。
又、字種に応じて異なった処理を階層的に施し、漢字列
(片仮名列もこれに準じる)を最初に解析・検証し、単
独出現の可否(TorNT)を属性として出力し、“N
T”については後続の平板名文字列の検証を行って未処
理の平板名文字列の品位・属性の条件づけができるため
、より正確な解析・検証が行える。
[発明の効果] 以上述べた如く本発明によれば、文字認識や認識文字の
修正等に際し、認識された結果を基に熟語や文法を考慮
して、誤U識文字の比率を低下させることがでとるとい
う効果がある。
【図面の簡単な説明】
第1図は本実施例の文字認識装置の概略ブロック構成図
、 第2図は本実施例の文字認識処理の概略フローチャート
、 第3図は判別処理のフローチャート、 第4図は相関処理のフローチャート、 第5図は文字認識の結果のデータ形式を示す図、 第6図(A)〜(F)は漢字辞書の具体例を示す図、 第7図は漢字文字列処理のフローチャート、第8図(A
)は平仮名の辞書構造及び各項目の属性を示す図、 第8図(B)は単語分割の1例を示す図、第8図(C)
は活用、接続選択のルールを示す図、 第9図は平板名列の解析に際するマツチング条件を示す
図である。 図中、1・・・スキャナ、2・・・CRT、3・・・キ
ーボード、4・・・プリンタ、5・・・文書メモリ、6
・・・辞書、7・・・CPU、8・・・ROM、9・・
・RAM、・・・10・・・メモリ、67〜69・・・
浅学文字列、70〜72・・・平板名文字列、80・・
・バス1.81・・・バス2である。 特許出願人  キャノン株式会社 第2図      窮3図

Claims (1)

    【特許請求の範囲】
  1. 文書原稿を光電的に入力する入力手段と、入力した原稿
    情報の文字認識を行って字種毎の文字列に分割する分割
    手段と、辞書をもとに前記文字列の各単語が単独で出現
    するか否かを判定する判定手段と、単独で出現しない単
    語は少なくとも前後の文字列を含めて認識する手段とを
    備えたことを特徴とする文字認識装置。
JP61297772A 1986-12-16 1986-12-16 文字認識装置 Pending JPS63150788A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61297772A JPS63150788A (ja) 1986-12-16 1986-12-16 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61297772A JPS63150788A (ja) 1986-12-16 1986-12-16 文字認識装置

Publications (1)

Publication Number Publication Date
JPS63150788A true JPS63150788A (ja) 1988-06-23

Family

ID=17850980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61297772A Pending JPS63150788A (ja) 1986-12-16 1986-12-16 文字認識装置

Country Status (1)

Country Link
JP (1) JPS63150788A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384692A (ja) * 1989-08-29 1991-04-10 Hitachi Ltd 手書文字認識方式および装置
JPH06301822A (ja) * 1993-04-15 1994-10-28 Nec Corp 文字認識後処理方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384692A (ja) * 1989-08-29 1991-04-10 Hitachi Ltd 手書文字認識方式および装置
JPH06301822A (ja) * 1993-04-15 1994-10-28 Nec Corp 文字認識後処理方式

Similar Documents

Publication Publication Date Title
US6219453B1 (en) Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US20020041713A1 (en) Document search and retrieval apparatus, recording medium and program
JPH11194793A (ja) 音声ワープロ
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
Hong et al. Visual inter-word relations and their use in OCR postprocessing
JP2000089786A (ja) 音声認識結果の修正方法および装置
Strohmaier et al. A visual and interactive tool for optimizing lexical postcorrection of OCR results
JPS63150788A (ja) 文字認識装置
US5689583A (en) Character recognition apparatus using a keyword
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0619962A (ja) テキスト分割装置
JPS63200290A (ja) 文字認識方式
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH09274645A (ja) 文字認識方法および装置
JPH06119497A (ja) 文字認識方法
JPH07271921A (ja) 文字認識装置および文字認識方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JP2570681B2 (ja) ワード・プロセッサ
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH05174194A (ja) 文字認識装置
JP3466761B2 (ja) 文書処理装置及びその制御方法
JP3123181B2 (ja) 文字認識装置
JPH0458381A (ja) 光学的文字読取装置