JPS62247480A

JPS62247480A - 文字認識後処理方式

Info

Publication number: JPS62247480A
Application number: JP61091068A
Authority: JP
Inventors: Jiichi Igarashi; 五十嵐　治一
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-04-19
Filing date: 1986-04-19
Publication date: 1987-10-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔技術分野〕本発明はＯＣＲ文字認識装置等における後処理方式に関
する。

〔従来技術〕

ＯＣＲ文字認識装置では、ＯＣＲ（光学文字読取り装置
）による入力文字について文字認識を行って候補文字を
決めるが、この候補文字について更に後処理を施こすこ
とにより認識精度を高めることができる。

近年、この文字認識の後処理として言語の知識を利用す
ることが考えられてきている。その代表的なものとして
、誤認識された対象文字を含む文章に対して形態素解析
をほどこし、品詞間の接続チェックを行う方式がある。

しかしながら、従来技術においては、全文に対して形態
素解析を行ったり、あるいは、リジェクト文字に処理対
象を限定しているもの＼、仮名と漢字の区別なく形態素
解析を行ったりしているため、処理時間が長くなる欠点
があった。

なお、形態素解析を文字認識に利用した公知文献として
は、例えば特開昭５７−２５０７４号「文字認識後処理
方式」、電子通信学会論文誌（１９８４／１１　　Ｖｏ
ｌ、Ｊ６７−Ｄ　＆１１．Ｐ１３４８〜１３５５）ｒ認
識情報及び単語・文節情報を利用した文字認識後処理」
などが挙げられる。

〔目　的〕

本発明の目的は、言語の知識を利用して文字認識の後処
理を行うにあたり、その処理時間の短縮を図ることにあ
る。

〔構　成〕

本発明は仮名と漢字を区別し１文字認識の結果、第１位
候補文字が仮名であるときには、仮名ｎ−ｇｒａａｔ表
（ｎ字組）を利用して処理を行い、また、第１位候補文
字が漢字であるときには、漢字単語辞書、接辞（接頭語
・接尾語）辞書を利用して処理を行うものである。以下
、本発明の一実施例について図面により説明する。

第１図は本発明の一実施例の全体ブロック図を示す。

ＯＣＲ入力部１で入力された文字列に対して、文字認識
部２において各文字ごとの候補文字とその類似度が計算
される。この類似度をもとにして、誤認識位置判定部３
において誤認識された文字位置の推定が行われ、その文
字位置と候補文字群が候補文字出力部４より出力される
。候補文字出力部４より出力された候補文字群について
、第１位候補文字判定部５では候補文字群の類似度を比
較して第１位候補文字を判定し、該第１位候補文字が仮
名文字の場合は仮名後処理部６に、漢字の場合は漢字後
処理部７にそれぞれ処理を依頼する。

仮名後処理部６あるいは漢字後処理部７で求まった最尤
仮名／漢字候補文字は最尤候補文字出力部８より出力さ
れる。

次に、仮名後処理部６と漢字後処理部７について説明す
る。具体例として「いわゆる構文解析を・・・」を入力
した場合を考える。

今、入力文字列［いわゆる構文解析を・・・」の「る」
が誤認識されたと判定され、その候補文字が第１位から
順に「た」、「年」、「る」であったと仮定する。第１
位候補文字「た」が仮名であるので、仮名後処理部６に
処理依頼がかぎる。この場合、まず、仮名文字列切出し
部６１において「いわゆた」が切り出され、仮名文字列
検定部６２で検定される。仮名文字列検定部６２は、第
２図に示すように仮名ｆｉ−ｇｒａｎａ表検索部６２１
と単語辞書検索部６２２からなる。即ち、仮名文字列部
６２では、あらかじめ学習データから作成された仮名ｎ
−ｇｒａｍ表９と単語辞書１０とを検索し、マツチする
仮名文字列があれば、それを最尤仮名候補文字選択部６
３へ出力する０次に「いわゆる」が切り出されて同様の
処理が施される。これを仮名候補文字がなくなるまで繰
り返す、最尤仮名候補文字選択部６３では、マツチング
した登録仮名文字列の文字列長、出現頻度、品詞などの
情報を活用して最尤仮名文字候補を選択する０例えば仮
名文字列検定部６２では「いわゆる」から「た」を「い
わゆる」からは「いわゆる」を出力するが、最尤仮名候
補文字選択部６３は文字列長が長い方を優先して「る」
を最尤仮名文字と判定し、最尤候補文字出力部８より出
力する。

一方、もし第１位候補文字が１年）であると、漢字後処
理部７に処理依頼がか−る。この場合、漢字列切出し部
７１においてｒ年構文解析」が切り出され、漢字列検定
部７２において、この漢字列が文法的に見て妥当なもの
かどうかチェックされる。第３図は漢字列検定部７２の
処理フローを示したものである。即ち、漢字列検定部７
２では、漢字列の左から２文字ずつ切り出して、漢字２
字単語、２字接辞、１字接辞、漢字１字単語の順に優先
させて各辞書１１．１２，１３，１４に探索する。そし
て、もしマツチングする単語があれば、接続重み行列表
１５を使って直前単語との品詞接続をチェックする。さ
らに、その他の文法チェックとして接尾語＋接頭語など
の不適当な品詞配列をもつ漢字列、ならびに頻度の低い
語配列をもつ漢字列を不適当と判定する。これらの処理
を他に漢字候補文字が存在しなくなるまで繰り返し、最
尤漢字候補文字選択部７３へ出力する。最尤漢字候補文
字選択部７３では、候補順位、類似度、接続重み、出現
頻度などの情報を利用して最尤の漢字候補文字を選択し
、最尤候補文字出力部８より出力する。

ニーで、ｒ年構文解析」の例について第３図の処理フロ
ーを説明すると、以下の通りである。ステップ１０１で
「年構」が切り出されるが、これは漢字２字単語辞書１
１内に存在しないため、次にステップ１０２で２次接辞
辞書１２を検索し、その結果、１年」は接尾語であるこ
とが分かる。

次に、「構文解析」についてステップ１０１から同様の
処理が施される。その結果、「構文」　（漢字２字単語
）が見付は出されるが、これは接尾語１年」とは接続せ
ず、結局、ｒ年構文解析」は不適当な文字列と判定され
る。

なお、仮名後処理部６と漢字後処理部７において第１位
候補文字と同じ字種（仮名または漢字）の候補文字がす
べて棄却された場合は、もう一方の字種に属する候補文
字について後処理部６あるいは７を選択して処理を続行
する。

〔効　果〕

以上の通り１本発明では、第１候補文字が仮名文字であ
る場合と漢字である場合とで後処理方法を切り替えてい
る。この場合、仮名文字では形態素解析を行わず、漢字
では検索対象となる単語群を別々の辞書に格納し、また
、各単語群（漢字２字、接辞１字、接辞２字、漢字１字
）間の優先度を考慮して形態素解析を行うため、処理時
間がかなり短縮できる。

【図面の簡単な説明】

第１図は本発明の一実施例の全体ブロック図、第２図は
第１図中の仮名文字列検定部の詳細図。第３図は第１図の漢字列検定部の処理フロー図である。１・・・ＯＣＲ入力部、　２・・・文字認識部、３・・
・誤認識位置判定部、　４・・・候補文字出力部、５・
・・第１位候補文字判定部、　６・・・仮名後処理部、
　７・・・漢字後処理部、　８・・・最尤候補文字出力
部。代理人弁理士　　鈴　木　　　誠′□：　：：１ニン手続ネ市−市見）：（白づを）昭和６１年１１月２６日１、’ｌＧ件の表示昭和６１年特許願第９１０６８号２、発明の名称文字識認後処理方式３、補正をする者事件との関係　　出願人住所　　東京都大田区中馬込１丁目３番６号５、補正の
対象　　　明細書の「発明の詳細な説明」の欄６、補正
の内容（１）明細書筒５頁１２行目の「いわゆる」を「いわゆ
た」に補正する。（２）明細書筒７頁３行目の［２次接辞辞：１ＩＦ１２
を検索し、］の記載を「２字接辞辞書１２を検索し、ス
テップ１０３で１字接辞辞書１３を検索する。」に補正
する。（２）第３図を別紙の通りに補正する。７、添付書類の目録

Claims

【特許請求の範囲】

（１）入力された文字列を認識する文字認識装置におい
て、誤認識と判定された文字に対する候補文字群につい
て、第１位候補文字が仮名であると、該候補文字を含む
仮名文字列を切り出し、仮名ｎ−ｇｒａｍ表を利用して
最尤仮名候補文字を選択し、第１位候補文字が漢字であ
ると、該候補文字を含む漢字文字列を切り出し、漢字２
字単語辞書、接辞辞書、漢字１字単語辞書を利用して最
尤漢字候補文字を選択することを特徴とする文字認識後
処理方式。