JPS63150788A

JPS63150788A - 文字認識装置

Info

Publication number: JPS63150788A
Application number: JP61297772A
Authority: JP
Inventors: Yumie Gou; 郷　由美恵
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1986-12-16
Filing date: 1986-12-16
Publication date: 1988-06-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は文字認識装置に係り、特に認識処理における認
識率の向上を計った文字認識装置に関するものである。

［従来の技術］一般に、文字認識装置における文字認識率は１００％以
下であり、どうしても認識不能な文字や不確実な文字が
存在することになる。このような文字認識率を向上させ
るために種々の方法か提案されているが、どの方法も認
識率を飛躍的に向上させることができないのが現状であ
る。

［発明が解決しようとする問題点コ本発明は上述従来例に鑑みなされたもので、文字認識装
置において、認識された結果を基に熟語や文法を考慮し
て、誤認識文字の比率を低下させた文字認識装置を提供
することを目的とする。

［問題点を解決するための１手段］上記目的を達成するために本発明の文字認識装置は以下
の様な構成からなる。即ち。

文書原稿を光電的に入力する入力手段と、入力した原稿
情報の文字認識を行って字種毎の文字列に分割する分割
手段と、辞書をもとに前記文字列の各単語が単独で出現
するか否かを判定する判定手段と、単独で出現しない単
語は少なくとも前後の文字列を含めて認識する手段とを
備える。

［作用コ以上の構成において、文書原稿を光電的に入力し、入力
した原稿情報の文字認識を行って字種毎の文字列に分割
する。辞書をもとに文字列の各単語が単独で出現するか
否かを判定して、単独で出現しない単語は少なくとも前
後の文字列を含めて認識する様に動作する。

［実施例］以下、添付図面を参照して本発明の実施例を詳細に説明
する。

［文字認識装置の説明　（第１図）］第１図は本実施例の文字認識装置の構成図である。

図中、１は原稿を光電的に読取って入力するスキャナ、
２は文字の認識結果を表示するＣＲＴディスプレイで、
表示された文書データをみながらキーボード等により画
面上で認識結果の修正あるいは編集を行うことができる
様に構成されている。３はＣＲＴＺ上での修正処理や編
集処理を指示するキーボードである。４は認識結果の文
書あるいは修正や編集済の文書等のプリントを行うプリ
ンタである。

５は認識された文書データをコード情報で格納する文書
メモリ、６は文字認識時に参照される辞書で、漢字、カ
タカナ、平仮名部分に分かれて構成されており、各文字
毎に熟語や活用形及び品詞や属性等が記憶されている。

７は装置全体の制御を行う例えばＭＣ６８０００等のマ
イクロプロセッサ、８はＣＰＵ７の制御プログラムや文
字パターンデータ及び各種データ等を格納しているＲＯ
Ｍである。９はＣＰＵ７のワークエリアとして使用され
るＲＡＭである。１０は後述する文字列や文字の位置を
指定するポインタ、漢字文字列やカナ文字列等の位置や
長さ等を記憶する文字列メモリ及び認識時の候補文字等
を記憶するエリアを備えたメモリである。１１はシステ
ムバスで上述各構成要素を接続している。

［文字認識処理の説明　（第２図〜第４図）］第２図は
本実施例の文字認識処理の概略フローチャートで、本プ
ログラムはＲＯＭ８に記憶されている。

ステップＳ１でスキャナ１により原稿１ページを読み取
り、ステップＳ２ではスキャナ１よりのイメージデータ
を量子化して文字の判別を行う。

ステップＳ３ではステップＳ２で判別された文字情報を
ＣＲＴディスプレイ２あるいはプリンタ４等に表示出力
する。次にステップＳ４で表示出力された文字情報と原
稿とを比較して修正処理を行う。修正処理が終了すれば
、ステップＳ５に進みスキャナ１による次の原稿入力あ
るいはプリンタ４による結果出力等の次処理を実行する
。

第３図は第２図のステップＳ２における判別処理のフロ
ーチャートである。

スキャナ１より入力された２値のイメージデータはステ
ップＳ２０で文字の切り出し、ノイズ除去、細線化及び
ベクトル化等の前処理の後、文字特徴（文字領域におけ
る密度、曲線比、ベクトル方向、局所的特徴等）に従っ
て分類され量子化される。ステップＳ２１ではステップ
５２０で量子化されたデータと辞書６に予め内蔵されて
いる各文字の標準パターンの特徴データとの照合を行う
。ステップ３２２では照合の結果、相似度の高いものか
ら順に候補文字を抽出する。最も類似度の高い文字のコ
ードをＣＨ（１）、以下類似度の高い順にＣＨ（２）、
ＣＨ（３）、・・・ＣＨ（Ｎ）とし、多値をそれぞれメ
モリ１０の候補文字エリアＡ（１）、・・・、　Ａ　（
Ｎ）に代入する（本実施例ではＮ＝１０としている）。

次にステップＳ２３で最も類似度の高い第１候補文字が
正答であるか否かを推定するために相関演算を行って処
理を終了する。

［相関処理の説明　（第４図、第５図）］第４図は第３
図のステップＳ２３の相関処理のフローチャートである
−０まず、ステップＳ３０で第１位候補の文字列コードデー
タから句読点符号と空白（スペース）記号を捜し、その
位置で文字列を区切り、更に字種の変り目を検出して字
種列毎に分割を行う。この時点では第１位候補の文字列
に正答ではない文字が含まれていても修正処理は行わな
い。この処理を強制分割と呼ぶ。

句読点符号は１．（句点）１、（読点）の他、−（ハイ
フン）、”Ｊ、０．　　“　、、・９等の符号も含み、
これらの符号によって区切られた文字列単位をフレーズ
と称し、検証、修正処理の一単位とする。

字種の変り目の判定は文字コードの大小演算によって行
う。例えば、文字コードがＪＩＳコードによって表現さ
れている場合、文字コードが２４２０以上、２４７３以
下の文字は平仮名、２５２０以上、２５７６以下の文字
は片仮名、３０２０以上、４Ｆ５３以下の文字は漢字（
第一水準）と判定される。尚、文字コードの数値はいず
れも１６進数で表わしている。

第５図は原稿の文字列を光学的に読取って文字認識を行
った結果のデータ形式を示す図である。

６０は読取った文字列「複写機の低価格競争が激しくな
っている。」を示し、各文字について第１０位までの候
補文字６１を絞っている。６２は前述したステップＳ３
０の強制分割処理の結果を示したもので、６７〜６９は
漢字文字列、７０〜７２は平板名文字列である。この様
に同一字種の文字列（同一字種文字が連続しない場合は
単一の文字）に分け、それぞれの文字列に字種属性を付
与する。本実施例では漢字文字列、カタカナ文字列、平
板名文字列に分類し、各文字列はその長さく文字数）及
び１フレーズにおいてそれぞれの文字列の何番目に現れ
た文字列かを示す番号とともにメモリ１０に記憶される
。

以上の強制分割処理が終了するとステップＳ３１に進み
、後述する分割された文字列中の浅学文字列についての
処理を行う。

尚、この様な漢字文字列や仮名文字列の解析は文字ある
いは単語を収納した辞書を照合しながら行われるが、文
字列の字種により辞書６の別々の辞書領域を用いる。す
なわち、漢字文字列を処理する場合は漢字辞書、片仮名
文字列の場合は片仮名辞書、平板名文字列の場合は平仮
名辞書を用いる。尚、上記各々の辞書は字種毎の処理方
法に応じ、異なる文字または語句の収納形態を取ってい
るものとする。

［漢字文字列処理（第５図、６図〜第８図）］第６図（
Ａ）〜（Ｆ）は辞書６の漢字辞書の１例を示す図である
。

本実施例の漢字辞書は漢字−字単位で構成されており、
パス１　（８０）で各漢字について単独で出現するかど
うか（Ｔ：出現する。ＮＴ：出現しない）、接頭語もし
くは接尾語となりつるか、あるいは送り仮名を伴って活
用語となりつるかを記号で示すとともに、パス２（８１
）では当該浅学を先頭とする２字ないし３字の漢字熟語
もしくは平仮名を含む句等が用意されている。

まず、第５図の文字列６０の先頭文字「複」にメモリ１
０のポインタを置いて第７図（Ａ）の「複」の辞書を検
索する。この「複」を含む漢字列６７が２文字以上であ
るから、２字熟語を比較するパス２（８１）に移る。こ
れは複合語は２字の熟語で構成されている確率が高いた
めである。

こうして２文字目の漢字「写」を含めたマツチングを行
う。辞書には「複写」８２が登録されており、この「複
写」には“Ｔ”マークが付されているため、マツチング
が成功して第５図の６３に示す如く、熟語「複写」に“
Ｔ”マークが出力される。

次にポインタは「機」に移動し、第６図（Ｂ）の辞書が
検索される。

ここでは漢字列の長さは“１”であるため、パス１　（
８０）がアクセスされて、接尾語（Ｓｕｆ）８３として
条件を満足する。この時この接尾語は“Ｔ”マークを伴
っているため、この文字列６７の解析は終了する。

次にポインタは次の文字列６８の先頭「低」に移動する
。まず第６図（Ｃ）の漢字「低コの辞書がアクセスされ
、次に文字列６８は２字以上であるため、文字列６７の
場合と同様にパス２（８１）により２字熟語の辞書と「
価」のマツチングが行われる。しかしこの辞書中には「
低価Ｊという熟語はないためマツチングは失敗し、次に
「低」単独のパス１　（８０）をアクセスする。この場
合は後に漢字が続くため、条件をみたすのは接頭語（Ｐ
ｒｅ）８４とみなされる。ここには“Ｔ”マークがある
ためポインタは次の「価」にυ動じ、第６図（Ｄ）の辞
書をアクセスする。

「価」以下は４字で構成されているため、２字の熟語を
チェックするために「価」のパス２（８１）をアクセス
する。こうして２字熟語「価格」８５のマツチングが成
功し、ここで“Ｔ”マークが検出されるためポインタは
「競」にうつり、同様に次の２字熟語のマツチングが行
われ「競争」８１が得られる。

こうして文字列６８が終了するとポインタは次の文字列
６９「激」にＯ勅する。この文字列６つは１文字である
ため、第６図（Ｆ）の辞書のパス１　　（８０）がアク
セスされる。

「激」は単独では出現しない（ＮＴ）ため、形容詞（Ａ
ｄｊ）　８６　ｒ激しい」の語幹の１部とみなされ、接
続の送り仮名を含めてマツチングが行われる。

第６図（Ｆ）の辞書により、この形容詞は「１斂し」を
語幹とする規則活用を持ち、漢字列６９に続く仮名文字
列７２のうち「シく」と供に形容詞の連用形を形成する
。このマツチングに成功すれば「激しく」を１グループ
化し、７３（形容詞連用）の属性を与える。このように
単独で終らない漢字（列）について、後続（まれに前置
も）する平板名文字列を併せてマツチングを行うことを
終端処理と称する。

第７図は上述したステップＳ３１の漢字文字列処理フロ
ーチャートである。

まずステップＳ４０で漢字文字列が２字以上かどうかを
みる。２字以上の時はバス２（８１）へ進み２字の熟語
単位で辞書を比較する。比較により一致するとステップ
Ｓ４６に進むが、一致しない時はステップＳ４３に進み
バス１　（８０）をアクセスする。バス１　（８０）で
一致するとステップＳ４６に進むが、一致しない時はス
テップＳ４５に進み、第２位以下の候補文字から類似度
の高い順に第１位の候補文字と交換し、再びステップＳ
４０に戻る。

ステップ５４６では一致した熟語あるいは単一漢字が終
端文字（Ｔ）か、次に続く文字（ＮＴ）かをみる。終端
文字でない時はステップＳ４７に進み、漢字列の最後の
文字（列）かをみる。最後の文字（列）の時はステップ
Ｓ３２に進んでステップＳ３２の終端処理へ進む。ステ
ップＳ４７で最後の文字（列）でない時はステップＳ４
５の次候補文字の交＠処理に進む。

ステップＳ４８で終端文字のときは、ステップ３４８に
進み漢字列の最後かどうかをみる。最後の時はステップ
Ｓ４９に進み最終の漢字列かどうかをみる。最終の漢字
列でなければステップＳ５０に進み、次の漢字文字列に
ポインタを進め再びステップＳ４０に戻る。ステップＳ
４９て最終漠字列のときは処理を終了する。

以上述べた様にして第４図のステップＳ３１゜Ｓ３２の
漢字列の処理が行われると、次にステップＳ３３で平板
名文字列の処理を行う。

［平板名文字列処理（第５図、８図、９図）コ第５図中
に示した平板名文字列中、７０および７１は漢字列６７
〜６９に前後をはさまれ、かつ“Ｔ”マークに後続され
ている。この条件における長さが１または２の平板名文
字列については、自立語がふくまれない可能性が大きい
とみなして、主に助詞からなる長さが一致する平仮名漢
字とのマツチングを行う。

平板名文字列７２については、上述の終端処理によりグ
ループ化された部分７３を除く文字列７４「なっている
」の解析を行う。これは先頭より活用語を含む辞書との
マツチングを行い、単語分解されたそれぞれの単位につ
いて、その属性に従って相互間の接続検証を行うという
処理である。

第８図（Ａ）は辞書構造及び各項目の属性を示す図であ
る。

９０は動詞等の品詞部分で“Ｖ”は動詞を示している。

９１は「なる」で動詞の基本形を、９２は基本形９１に
対する活用形を示しており、例えば°゛１“は仮定形、
“３”は終止形、”　４　”は連体形を表している。９
３（Ａｕｘ）は補助用言を示している。

第８図（Ｂ）はこの辞書を基に単語分解を行った各々の
属性を示す図である。

本例では、「なっている」のうち「なつ」は動詞「なる
」の連用形であり、「ている」は補助用言（助動詞とあ
わせて、Ａｕｘに分類する）の終止形（Ａｕｘ（３））
もしくは連体形（Ａｕｘ（４））で、この補助用言「い
る」用言の連用形に接続する。この接続条件をルール化
し先行単語の活用形とのマツチングを行う。例文では、
先行単語「なつ」が連用形であり修正は不要となる。ま
た「ている」の後に読点がくるため、「ている」は終止
形（Ａｕｘ（３））として処理される。

第８図（Ｃ）は活用、接続選択のルールで、９４は補助
動詞「ている」は用言の連用形に接続することを示し、
９５は読点が直後にくるとき、用言の活用は終止形であ
ることを示している。

尚、平板名文字列中に非活用自立語（名詞、副詞など）
が検出された場合は、漢字列の処理と同様にターミナル
マーク（Ｔ）と属性を出力する。

平板名列の解析の際は、前後のグループ化された文字列
の属性より当該平板名列の品詞・属性条件を仮定し、そ
の条件に合致する単語のマツチングを行う。その主な条
件を第９図に示す。

第９図の９６は平板名文字列の長さが″１°°のときで
、終端名詞と名詞の間にある平仮名は助詞（Ｐ）となる
ことを示し、９７は平板名文字列の長さが２の場合で、
終端名詞と名詞の間になる平仮名は助詞（Ｐ）、副詞（
Ａ　ｄ、、−）　、接続詞（ｃ、、、、１）のいずれか
である。

以上説明したように本実施例によれば、入力文字列を字
種に従って区分し、文字列の字種によって異なる処理を
施すことにより、字種の性質に応じた正確な文字認識の
検証・補正ができるという効果がある。

また、漢字−字単位にその単独出現の可否情報を付加す
ることにより、接頭語・接尾語を含む漢字複合語の解析
が効率的に正確に行える。

また更に、漢字熟語の解析を２文字車位で行うことによ
り効率性が増し、漢字単位に送り仮名を伴う活用の情報
も持たせることにより、漢字とそれに続く送り仮名を活
用径をふくめた文字認識の解析・検証が漢字列の解析と
同じ段階で行うことかできる。

又、字種に応じて異なった処理を階層的に施し、漢字列
（片仮名列もこれに準じる）を最初に解析・検証し、単
独出現の可否（ＴｏｒＮＴ）を属性として出力し、“Ｎ
Ｔ”については後続の平板名文字列の検証を行って未処
理の平板名文字列の品位・属性の条件づけができるため
、より正確な解析・検証が行える。

［発明の効果］以上述べた如く本発明によれば、文字認識や認識文字の
修正等に際し、認識された結果を基に熟語や文法を考慮
して、誤Ｕ識文字の比率を低下させることがでとるとい
う効果がある。

【図面の簡単な説明】

第１図は本実施例の文字認識装置の概略ブロック構成図
、第２図は本実施例の文字認識処理の概略フローチャート
、第３図は判別処理のフローチャート、第４図は相関処理のフローチャート、第５図は文字認識の結果のデータ形式を示す図、第６図（Ａ）〜（Ｆ）は漢字辞書の具体例を示す図、第７図は漢字文字列処理のフローチャート、第８図（Ａ
）は平仮名の辞書構造及び各項目の属性を示す図、第８図（Ｂ）は単語分割の１例を示す図、第８図（Ｃ）
は活用、接続選択のルールを示す図、第９図は平板名列の解析に際するマツチング条件を示す
図である。図中、１・・・スキャナ、２・・・ＣＲＴ、３・・・キ
ーボード、４・・・プリンタ、５・・・文書メモリ、６
・・・辞書、７・・・ＣＰＵ、８・・・ＲＯＭ、９・・
・ＲＡＭ、・・・１０・・・メモリ、６７〜６９・・・
浅学文字列、７０〜７２・・・平板名文字列、８０・・
・バス１．８１・・・バス２である。特許出願人　　キャノン株式会社第２図　　　　　　窮３図

Claims

【特許請求の範囲】

文書原稿を光電的に入力する入力手段と、入力した原稿
情報の文字認識を行って字種毎の文字列に分割する分割
手段と、辞書をもとに前記文字列の各単語が単独で出現
するか否かを判定する判定手段と、単独で出現しない単
語は少なくとも前後の文字列を含めて認識する手段とを
備えたことを特徴とする文字認識装置。