JPS62247480A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPS62247480A
JPS62247480A JP61091068A JP9106886A JPS62247480A JP S62247480 A JPS62247480 A JP S62247480A JP 61091068 A JP61091068 A JP 61091068A JP 9106886 A JP9106886 A JP 9106886A JP S62247480 A JPS62247480 A JP S62247480A
Authority
JP
Japan
Prior art keywords
character
kana
kanji
candidate
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61091068A
Other languages
English (en)
Inventor
Jiichi Igarashi
五十嵐 治一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61091068A priority Critical patent/JPS62247480A/ja
Publication of JPS62247480A publication Critical patent/JPS62247480A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明はOCR文字認識装置等における後処理方式に関
する。
〔従来技術〕
OCR文字認識装置では、OCR(光学文字読取り装置
)による入力文字について文字認識を行って候補文字を
決めるが、この候補文字について更に後処理を施こすこ
とにより認識精度を高めることができる。
近年、この文字認識の後処理として言語の知識を利用す
ることが考えられてきている。その代表的なものとして
、誤認識された対象文字を含む文章に対して形態素解析
をほどこし、品詞間の接続チェックを行う方式がある。
しかしながら、従来技術においては、全文に対して形態
素解析を行ったり、あるいは、リジェクト文字に処理対
象を限定しているもの\、仮名と漢字の区別なく形態素
解析を行ったりしているため、処理時間が長くなる欠点
があった。
なお、形態素解析を文字認識に利用した公知文献として
は、例えば特開昭57−25074号「文字認識後処理
方式」、電子通信学会論文誌(1984/11  Vo
l、J67−D &11.P1348〜1355)r認
識情報及び単語・文節情報を利用した文字認識後処理」
などが挙げられる。
〔目 的〕
本発明の目的は、言語の知識を利用して文字認識の後処
理を行うにあたり、その処理時間の短縮を図ることにあ
る。
〔構 成〕
本発明は仮名と漢字を区別し1文字認識の結果、第1位
候補文字が仮名であるときには、仮名n−graat表
(n字組)を利用して処理を行い、また、第1位候補文
字が漢字であるときには、漢字単語辞書、接辞(接頭語
・接尾語)辞書を利用して処理を行うものである。以下
、本発明の一実施例について図面により説明する。
第1図は本発明の一実施例の全体ブロック図を示す。
OCR入力部1で入力された文字列に対して、文字認識
部2において各文字ごとの候補文字とその類似度が計算
される。この類似度をもとにして、誤認識位置判定部3
において誤認識された文字位置の推定が行われ、その文
字位置と候補文字群が候補文字出力部4より出力される
。候補文字出力部4より出力された候補文字群について
、第1位候補文字判定部5では候補文字群の類似度を比
較して第1位候補文字を判定し、該第1位候補文字が仮
名文字の場合は仮名後処理部6に、漢字の場合は漢字後
処理部7にそれぞれ処理を依頼する。
仮名後処理部6あるいは漢字後処理部7で求まった最尤
仮名/漢字候補文字は最尤候補文字出力部8より出力さ
れる。
次に、仮名後処理部6と漢字後処理部7について説明す
る。具体例として「いわゆる構文解析を・・・」を入力
した場合を考える。
今、入力文字列[いわゆる構文解析を・・・」の「る」
が誤認識されたと判定され、その候補文字が第1位から
順に「た」、「年」、「る」であったと仮定する。第1
位候補文字「た」が仮名であるので、仮名後処理部6に
処理依頼がかぎる。この場合、まず、仮名文字列切出し
部61において「いわゆた」が切り出され、仮名文字列
検定部62で検定される。仮名文字列検定部62は、第
2図に示すように仮名fi−grana表検索部621
と単語辞書検索部622からなる。即ち、仮名文字列部
62では、あらかじめ学習データから作成された仮名n
−gram表9と単語辞書10とを検索し、マツチする
仮名文字列があれば、それを最尤仮名候補文字選択部6
3へ出力する0次に「いわゆる」が切り出されて同様の
処理が施される。これを仮名候補文字がなくなるまで繰
り返す、最尤仮名候補文字選択部63では、マツチング
した登録仮名文字列の文字列長、出現頻度、品詞などの
情報を活用して最尤仮名文字候補を選択する0例えば仮
名文字列検定部62では「いわゆる」から「た」を「い
わゆる」からは「いわゆる」を出力するが、最尤仮名候
補文字選択部63は文字列長が長い方を優先して「る」
を最尤仮名文字と判定し、最尤候補文字出力部8より出
力する。
一方、もし第1位候補文字が1年)であると、漢字後処
理部7に処理依頼がか−る。この場合、漢字列切出し部
71においてr年構文解析」が切り出され、漢字列検定
部72において、この漢字列が文法的に見て妥当なもの
かどうかチェックされる。第3図は漢字列検定部72の
処理フローを示したものである。即ち、漢字列検定部7
2では、漢字列の左から2文字ずつ切り出して、漢字2
字単語、2字接辞、1字接辞、漢字1字単語の順に優先
させて各辞書11.12,13,14に探索する。そし
て、もしマツチングする単語があれば、接続重み行列表
15を使って直前単語との品詞接続をチェックする。さ
らに、その他の文法チェックとして接尾語+接頭語など
の不適当な品詞配列をもつ漢字列、ならびに頻度の低い
語配列をもつ漢字列を不適当と判定する。これらの処理
を他に漢字候補文字が存在しなくなるまで繰り返し、最
尤漢字候補文字選択部73へ出力する。最尤漢字候補文
字選択部73では、候補順位、類似度、接続重み、出現
頻度などの情報を利用して最尤の漢字候補文字を選択し
、最尤候補文字出力部8より出力する。
ニーで、r年構文解析」の例について第3図の処理フロ
ーを説明すると、以下の通りである。ステップ101で
「年構」が切り出されるが、これは漢字2字単語辞書1
1内に存在しないため、次にステップ102で2次接辞
辞書12を検索し、その結果、1年」は接尾語であるこ
とが分かる。
次に、「構文解析」についてステップ101から同様の
処理が施される。その結果、「構文」 (漢字2字単語
)が見付は出されるが、これは接尾語1年」とは接続せ
ず、結局、r年構文解析」は不適当な文字列と判定され
る。
なお、仮名後処理部6と漢字後処理部7において第1位
候補文字と同じ字種(仮名または漢字)の候補文字がす
べて棄却された場合は、もう一方の字種に属する候補文
字について後処理部6あるいは7を選択して処理を続行
する。
〔効 果〕
以上の通り1本発明では、第1候補文字が仮名文字であ
る場合と漢字である場合とで後処理方法を切り替えてい
る。この場合、仮名文字では形態素解析を行わず、漢字
では検索対象となる単語群を別々の辞書に格納し、また
、各単語群(漢字2字、接辞1字、接辞2字、漢字1字
)間の優先度を考慮して形態素解析を行うため、処理時
間がかなり短縮できる。
【図面の簡単な説明】
第1図は本発明の一実施例の全体ブロック図、第2図は
第1図中の仮名文字列検定部の詳細図。 第3図は第1図の漢字列検定部の処理フロー図である。 1・・・OCR入力部、 2・・・文字認識部、3・・
・誤認識位置判定部、 4・・・候補文字出力部、5・
・・第1位候補文字判定部、 6・・・仮名後処理部、
 7・・・漢字後処理部、 8・・・最尤候補文字出力
部。 代理人弁理士  鈴 木   誠′□: ::1ニン 手続ネ市−市見):(白づを) 昭和61年11月26日 1、’lG件の表示 昭和61年特許願第91068号 2、発明の名称 文字識認後処理方式 3、補正をする者 事件との関係  出願人 住所  東京都大田区中馬込1丁目3番6号5、補正の
対象   明細書の「発明の詳細な説明」の欄6、補正
の内容 (1)明細書筒5頁12行目の「いわゆる」を「いわゆ
た」に補正する。 (2)明細書筒7頁3行目の[2次接辞辞:1IF12
を検索し、]の記載を「2字接辞辞書12を検索し、ス
テップ103で1字接辞辞書13を検索する。」に補正
する。 (2)第3図を別紙の通りに補正する。 7、添付書類の目録

Claims (1)

    【特許請求の範囲】
  1. (1)入力された文字列を認識する文字認識装置におい
    て、誤認識と判定された文字に対する候補文字群につい
    て、第1位候補文字が仮名であると、該候補文字を含む
    仮名文字列を切り出し、仮名n−gram表を利用して
    最尤仮名候補文字を選択し、第1位候補文字が漢字であ
    ると、該候補文字を含む漢字文字列を切り出し、漢字2
    字単語辞書、接辞辞書、漢字1字単語辞書を利用して最
    尤漢字候補文字を選択することを特徴とする文字認識後
    処理方式。
JP61091068A 1986-04-19 1986-04-19 文字認識後処理方式 Pending JPS62247480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61091068A JPS62247480A (ja) 1986-04-19 1986-04-19 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61091068A JPS62247480A (ja) 1986-04-19 1986-04-19 文字認識後処理方式

Publications (1)

Publication Number Publication Date
JPS62247480A true JPS62247480A (ja) 1987-10-28

Family

ID=14016183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61091068A Pending JPS62247480A (ja) 1986-04-19 1986-04-19 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS62247480A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384692A (ja) * 1989-08-29 1991-04-10 Hitachi Ltd 手書文字認識方式および装置
CN110046298A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种查询词推荐方法、装置、终端设备及计算机可读介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384692A (ja) * 1989-08-29 1991-04-10 Hitachi Ltd 手書文字認識方式および装置
CN110046298A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN110046298B (zh) * 2019-04-24 2021-04-13 中国人民解放军国防科技大学 一种查询词推荐方法、装置、终端设备及计算机可读介质

Similar Documents

Publication Publication Date Title
KR970008023B1 (ko) 사전검색장치
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP5449521B2 (ja) 検索装置及び検索プログラム
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
KR101841824B1 (ko) 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP3230606B2 (ja) 固有名詞特定方法
CN115994199A (zh) 一种利用上下文将文本中实体关联到知识库的方法
JPH0447440A (ja) 語の変換方式
JP2002503849A (ja) 漢字文における単語区分方法
JPS62247480A (ja) 文字認識後処理方式
Shamsfard et al. STeP-1: standard text preparation for Persian language
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
JPS6394365A (ja) 日本文文書誤り検定装置
JPS62247481A (ja) 文字認識後処理方式
JPH04130578A (ja) 未登録語検索方法および装置
JPS62249269A (ja) 文書処理装置
Mon et al. Myanmar spell checker
JP3508312B2 (ja) キーワード抽出装置
JPH08305698A (ja) 自然語解析方法及び装置
JPS62247483A (ja) 文字認識後処理方式
JP3123181B2 (ja) 文字認識装置
Mao et al. A trigram statistical language model algorithm for Chinese word segmentation
JPH0262659A (ja) 日本文訂正候補文字抽出装置