JPS62284481A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPS62284481A
JPS62284481A JP61126793A JP12679386A JPS62284481A JP S62284481 A JPS62284481 A JP S62284481A JP 61126793 A JP61126793 A JP 61126793A JP 12679386 A JP12679386 A JP 12679386A JP S62284481 A JPS62284481 A JP S62284481A
Authority
JP
Japan
Prior art keywords
character
word
characters
candidate
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61126793A
Other languages
English (en)
Inventor
Jiichi Igarashi
五十嵐 治一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61126793A priority Critical patent/JPS62284481A/ja
Publication of JPS62284481A publication Critical patent/JPS62284481A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 3、発明の詳細な説明 [技術分野] 本発明は、OCR文字認識装置等における後処理方式に
関する。
[従来技術] OCR文字認識装置等においては、一般に誤認識と判定
された文字について、更に後処理を施こすことによって
認識精度を高めている。近年、この文字認識の後処理と
して言語の文法知識が利用することが考えられてきてい
る。その代表的なものとして、誤認識された対象文字を
含む文章に対して形態素解析を施こし、品詞間のチェッ
ク等を行う方式がある6例えば、情報処理学会第28回
(昭和59年前期)全国大会予稿集4M−91243〜
1244頁「形態素解析による文字認識の多義判定実験
」には、句読点またはスペースを境界として解析文字列
を切り出し、該解析文字列中の各候補文字を組合せてい
くつかの候補文字列を作成し、各候補文字列についてそ
れぞれ形態素解析を行い、日本語としての尤度を評価す
ることが記載されている。しかし、これはすべての候補
文字の組み合せについて実施する必要があるので、計算
時間が増大する難点がある。また、昭和57年度電子通
信学会総合全国大会予稿集5−2631278頁「言語
構造の文字認識への応用」には、尤度評価値として文節
数と累積類似値を用いることが記載されているが、これ
もすべての可能な形態素の分割解析を施こして最尤評価
を行うので、計算時間の増大がさけられない。
[目 的] 本発明の目的は、言語の知識を利用して文字認識の後処
理を行うにあたり、その処理時間の短縮を図ることにあ
る。
[構 成コ 本発明は、認識された文字列について、所定文字列(例
えば6文字)単位に読み込んで単語切り出しを行い、該
単語間の品詞接続チェックを行うことにより誤認識文字
位置の最終文字を選択するに際し、読み込んだ所定文字
列内に存在する誤認識文字位置に対して候補文字を代入
して候補文字列をすべて生成し、該候補文字列すべてか
ら単語を切り出し、最大評価値を持つ単語を選択する。
また、すべての候補文字について直前の単語と接続でき
る単語が切り出せない場合、バックトラックを起こして
直前の単語切り出し位置に戻り、次位候補単語を選択し
て処理をやり直す。
以下、本発明の一実施例について図面により説明する。
第1図は本発明の一実施例のブロック図を示す。
入力文に対し、文字認識部1において各文字ごとの候補
文字とその類似度が計算される。この類似度をもとにし
て誤認識文字検出部2において誤認識文字の検出が行わ
れ、認識文字列と共に誤認識の候補文字が後処理部3へ
送られる。後処理部3は送られてきた文字列に対し単語
辞書101品詞分類表11.用言活用表12、接続重み
行列表13等を参照して単語切り出し、単語間の品詞接
続チェックを行い、最大評価値を持つ単語を選択して最
終文字を決定する。
単語辞書10は、第2図に示すように、各単語ごとに、
読み(単語の読みをひらがな化したもの)。
表記(出力されるかな、漢字の表記)、品詞、頻度ラン
ク及びその他の情報を含んでいる。本実施例では、読み
はカナ表記で6文字とし、表記も読みに対応して6文字
とする。
品詞分類表11と用言活用表12は、接続重み行列表1
3を検索する際の行、列の番号を示したテーブルである
。品詞分類表11は活用語尾を持たない品詞に対応し、
第3図のようなレコード構成をとる。用言活用表12は
活用語尾を有する品詞に対応し、第3図(ロ)のような
レコード構成をとる。ニドで、活用語尾槽には動詞、形
容詞なとの語幹に続く語尾が記されており、この語尾が
入力文字にマツチして初めて評価の対象となる。
接続重み行列表13は第4図に示すように1行方向が受
はコード、列方向がかNリコードをとるマトリクスであ
り、各交点位置が接続の重みを表わしている。この接続
重み行列表13が検索されるまでの処理手順は、単語辞
書10を検索して、該当単語の品詞で品詞分類表11あ
るいは用言活用表12で受け、かNりを見つけ(用言の
場合は、このとき活用語尾と後続文字列のマツチングを
行う)、接続重み行列表13で接続チェックを行う流れ
となる。
第5図は本発明の中心をなす後処理部3の処理フローチ
ャートを示したものである。以下、第5図にもとづいて
後処理部3の処理を詳述する。
認識された文字列からユニット(句点、読点で囲まれた
文字列)を切り出しくステップ1o1)、その先頭から
6文字分読み込む(ステップ102)。
読み込んだ6文字内に誤認識文字位置が存在する場合、
該文字位置に各候補文字を代入して候補文字列をすべて
作成する(ステップ1o3)。これらの候補文字列につ
いて、単語辞書1o内を検索することにより単語を切り
出す(ステップ104)。
この切り出したすべての単語に対して、その品詞で品詞
分類表11あるいは用言活用表12を検索し、活用語に
対しては入力文字列と活用語尾についてマツチングをと
った後(ステップ105)。
接続重み行列表13により直前単語との接続チェックを
行う(ステップ106)。そして、接続が可と判定され
た単語について、接続重み、読みの長さ、使用頻度等に
もとづいて評価値を計算しくステップ107)、最優先
単語を選択する(ステップ108)、なお、ステップ1
07では、計算した評価値、単語情報、現在の6文字読
込み位置を示すポインタ等をメモリにストアしておく。
次にユニットの終りかどうか判定しくステップ109)
、終りなら次のユニットの処理へ進み(ステップ110
)、終りでなければポインタを次に進めてステップ10
2に戻る。
もし、ステップ106の接続チェックにより、切り出せ
る単語がすべて棄却された場合には、ステップ112〜
115のバックトラック処理を実行する。即ち、現在の
6文字読み込み位置を示すポインタ、ならびにメモリに
蓄えられている評価値、単語情報等をゼロクリアしくス
テップl 12)。
直前のポインタ位置に戻す(ステップ113)。
次に、そのポインタ位置に対応してメモリに蓄えられて
いた単語の中で、最も評価値の大きいものをゼロクリア
しくステップ114)、次優先単語を選択する(ステッ
プ115)。そして、ステップ109〜111を経てス
テップ102に戻り。
処理をやり直す。
次に、入力文が〔車で箱をはこぶ」とした場合の例一つ
いて説明する。
文字認識部1で文字認識が行われ、その類似度計算から
誤認識文字検出部2において、誤認識文字が「は」と検
出され、その候補文字が第1位から順に「ぬ」、「な」
、「は」であったとする。
後処理部3において、ステップ101でユニットとして
r車で箱をはこぶ」が切り出され、ステップ102で「
車で箱をはこ」が読み込まれる。
次のステップ103では、候補文字列としてr車で箱を
ぬこ」、「車で箱をなこ」、r車で笛をはこ」の3つが
作成される。これらの候補文字列について、ステップ1
04〜107により直前単語と接続可能な単語が切り出
され、その評価値が計算される。次にステップ108に
より、本例では各候補文字列ともにr車」が選択され、
ステップ109〜111を経てステップ102へ戻って
くる。
このときのポインタの位置は「で」の位置である。従っ
て、次に「で箱をぬこぶ」、「で箱をなこぶ」、「で箱
をはこぶ」が作成され、ステップ104以下が実行され
る。このようにして、どの候補文字列からも「で」、「
箱」、「を」が順次切り出されるが、「ぬこぶ」、rな
こぶ」、「はこぶ」に対しては、ステップ104〜10
6により「はこぶ」だけが切り出し可能となり、正解文
字はrは」であると判定される。
[効 果コ 以上の説明から明らかな如く、本発明の文字認識後処理
方式は、誤認識文字列に対して逐次最尤文字を決定して
行き、それにゆきづまるとパックトラックを起こす縦型
探索方式であるため、処理が高速化される。そして、読
み込んだ所定文字列内に存在する誤認識文字に対して各
候補文字を代入して候補文字列をすべて作成し、該候補
文字列すべてから最大評価値を持つ単語を選択するため
、特に正解文字が候補文字中の下位にくるような認識率
の低いOCR文字認識等に対して処理の高速化が達成さ
れる。
【図面の簡単な説明】
第1図は本発明の一実施例の全体構成図、第2図は単語
辞書の一例を示す図、第3図は品詞分類表、用言活用表
の一例を示す図、第4図は接続重み行列表の一例を示す
図、第5図は第1図における後処理部の処理フローを示
す図である。 1・・・文字認識部、 2・・・誤認識文字検出部、3
・・・後処理部、  10・・・単語辞書。 11・・・品詞分類表、  12・・・用言活用表。 13・・・接続重み行列表。 第1図 第3図 ・・>胃可→■=f口 第2図 第4図

Claims (2)

    【特許請求の範囲】
  1. (1)認識された文字列について、所定文字列単位に読
    み込んで単語切り出しを行い、該単語間の品詞接続チェ
    ックを行うことにより誤認識文字位置の正解文字を決定
    する文字認識後処理方式において、読み込んだ所定文字
    列内に存在する誤認識文字位置に対して候補文字を代入
    して候補文字列をすべて生成し、該候補文字列すべてか
    ら単語を切り出し、最大評価値を持つ単語を選択するこ
    とを特徴とする文字認識後処理方式。
  2. (2)すべての候補文字について直前の単語と接続でき
    る単語が切り出せない場合、直前の単語切り出し位置に
    戻り、次位候補単語を選択して処理をやり直すことを特
    徴とする特許請求の範囲第1項記載の文字認識後処理方
    式。
JP61126793A 1986-05-31 1986-05-31 文字認識後処理方式 Pending JPS62284481A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61126793A JPS62284481A (ja) 1986-05-31 1986-05-31 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61126793A JPS62284481A (ja) 1986-05-31 1986-05-31 文字認識後処理方式

Publications (1)

Publication Number Publication Date
JPS62284481A true JPS62284481A (ja) 1987-12-10

Family

ID=14944085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61126793A Pending JPS62284481A (ja) 1986-05-31 1986-05-31 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS62284481A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (ja) * 2000-09-11 2002-05-31 Fujitsu Ltd 住所認識装置、記録媒体及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (ja) * 2000-09-11 2002-05-31 Fujitsu Ltd 住所認識装置、記録媒体及びプログラム

Similar Documents

Publication Publication Date Title
US5982929A (en) Pattern recognition method and system
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
CN107291684B (zh) 语言文本的分词方法和系统
JPH10232866A (ja) データ処理方法及び装置
KR101072460B1 (ko) 한국어 형태소 분석 방법
JPH0682403B2 (ja) 光学式文字読取装置
Ahmed et al. Question analysis for Arabic question answering systems
JPS62284481A (ja) 文字認識後処理方式
JPS62284480A (ja) 文字認識後処理方式
JPS5856071A (ja) 日本語による検索システム
JPS62285189A (ja) 文字認識後処理方式
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3109187B2 (ja) 形態素解析方式
JPH03154985A (ja) 最尤度単語認識方式
JPS62293386A (ja) 文字認識後処理方式
JPS59221732A (ja) カナ漢字変換処理装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPH0576675B2 (ja)
JPS6132166A (ja) 漢字音認識方式
JPS6132167A (ja) カナ漢字変換処理装置
JPH06149872A (ja) 文章入力装置
JPS62285190A (ja) 未知語処理方法
JP2798747B2 (ja) 自然言語処理方式
JPS62247480A (ja) 文字認識後処理方式
Marukawa et al. A post-processing method for handwritten Kanji name recognition using Furigana information