JPS6239793B2 - - Google Patents

Info

Publication number
JPS6239793B2
JPS6239793B2 JP55099674A JP9967480A JPS6239793B2 JP S6239793 B2 JPS6239793 B2 JP S6239793B2 JP 55099674 A JP55099674 A JP 55099674A JP 9967480 A JP9967480 A JP 9967480A JP S6239793 B2 JPS6239793 B2 JP S6239793B2
Authority
JP
Japan
Prior art keywords
word
character
candidate
characters
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55099674A
Other languages
English (en)
Other versions
JPS5725074A (en
Inventor
Koya Fujita
Osamu Kato
Haruo Akimoto
Tetsuji Morishita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP9967480A priority Critical patent/JPS5725074A/ja
Publication of JPS5725074A publication Critical patent/JPS5725074A/ja
Publication of JPS6239793B2 publication Critical patent/JPS6239793B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は光学文字読取り装置やオンライン手書
文字読取装置等の読取られた文字パターンを認識
する文字認識装置において、認識の結果、読取り
不能となつた場合に認識の過程で得られた類似文
字を候補文字として出力すると共に、該読取り不
能となつた文字を含む単語を候補文として作成し
この候補文が文法的に正しいか否かを調べる事に
より正解文字を識別するようにした文字認識後処
理方式に関する。光学文字読取り装置やオンライ
ン手書読取装置等のように入力された文字を認識
する場合には、特に類似した文字の認識が困難で
ある事は一般に良く知られている。
従来の認識装置においては認識結果を示す文字
コードか、もしくは読取不能の場合はリジエクト
コードによつて答を出力している。
しかしながら、上述の類似した文字のように2
つの候補文字ぐらいに限定されるが最終的にこれ
らのいずれの文字なのか判断がつかない場合があ
り、このような文字についてはある程度まで認識
されているにもかかわらずリジエクトされてしま
う欠点があつた。
特に図形的に見ても似ている文字、例えば
「ン」と「ソ」や「リ」と「ソ」などにおいては
その文字1字だけではどちらに決定すべきか判断
に困難な事が多い。
この事は漢字まじりの日本語文章において特に
いちぢるしく、字形として全くじものもある。例
えば漢字の「力」とカタカナの「カ」、漢字の
「工」とカタカナの「エ」などがこの典型であ
る。さらには字形が全く同じでなくとも非常に似
かよつている文字も多い。例えば「憶」と
「億」,「犬」と「大」及び「太」がそうである。
このように1文字だけでは何かを決定する事が
困難なものでも、単語または文章として前後の文
字と共に見れば何であるかを決定できることは
我々人間が単に1文字づつを認識している訳でな
く、他の色々な情報(文章の前後関係)を用いて
いる事より明らかである。
そこで従来より認識後処理として、単語単位も
しくは句単位の情報を用いて正解を作成する事が
行なわれているが、単純に単語もしくは句単位で
の組合せを行なつているため、例えば同一の単語
について2種類ある場合にはこの方法でも見分け
がつかない欠点があつた。
この従来の方法を第1図を参照しながら説明す
る。図において、1は単語抽出部、2は単語辞書
照合部、3は文法チエツク部、4は単語辞書、5
は文法辞書、6は判定部をそれぞれ示す。
この認識後処理部には認識結果が速られてく
る。例えば認識結果として「ニシキスル、」と
いうコード列が与えられたとすると単語抽出部1
においては単語に分割する。この単語に分ける処
理には種々の方法が考えられているが簡単には句
読点や特殊記号,異種文字の前後等で一つの単語
として分割するような方法がある。この例では図
示されていないが句読点「、」で1つの分割が行
なわれ「ニシキスル」と文字列を単語として抽
出した場合である。
単語抽出が行なわれると、その単語に対して単
語辞書4と単語辞書照合部2により照合をとる。
照合方法としては例えば頭の文字を見出しとして
「ニ」で始まる6文字の単語と照合し、一致した
ものがあればの所を一致した単語文字に変更す
る。
また、一致しない場合には後の文字から1文字
ずつけずり「ニシキス」という5文字の単語と
照合する。
このようにして一致する単語があるまで繰り返
し、例えば「ニシキ」という4文字の単語で
「ニンシキ」という辞書と一致した場合には、こ
の文字に対するの位置ンを付加し、さらに前記
処理工程において削除した「スル」という文字を
付加して文法チエツク部3を送出し「ニンシキス
ル」という単語が文法的に正しいかどうかを文法
辞書5と照合しながら判定を行なう。
この例では「ニンシキ」という単語はサ変名語
であるため「スル」という送りがながつくことが
ゆるされるため「ニンシキスル」という文字が判
定され判定部6によつて「」の所が「ン」とい
う文字に置きかえられた後処理が完成した事にな
る。
しかし、この例の様に一意に決まるものでなく
例えば「カダン」という単語があつた場合、こ
れが「カイダン」(階段)なのか「カクダン」(格
段)なのかわからず、どちらにも決定する事がで
きない場合があり、この従来の方法では全てをカ
バーする事ができない欠点があつた。
従つて本発明では上記欠点を解消する事を目的
とするもので、この目的は光学文字読取装置やオ
ンライン手書文字読取り装置等の読取られた文字
を認識する文字認識装置において、認識の結果特
定文字に確定できない場合に、該確定できない文
字を含む単語単位の認識結果情報を該確定できな
い類似文字を含む複数の候補文として複数個作成
する候補作成手段と、単語辞書及び文法辞書とを
設け、上記候補文中の候補文字の類似度順に上記
辞書を参照しながら単語単位で、かつ文法的に正
しい組合せの候補文を抽出し、該候補文中の候補
文字を正解として出力するようにする事により達
成することができる。
すなわち、本発明は認識部から単にリジエクト
といつた1つのコードだけを認識結果として出力
するだけでなく候補文字とそれに対する類似度
(その文字らしさを表わす量)を同時に出力し、
その類似度情報も含めて該処理を行なうものであ
る。
以下本発明を図面を参照して説明する。
第2図は、本発明に係る文字認識後処理方式の
一実施例、第3図は第2図における候補文字作成
部の具体例を示す。
さらに図において第1図と同記号のものは同一
のものを示し、さらに7は候補文字作成部、8は
候補文字コード格納部、9は類似度格納部、10
は候補文格納部、11は類似度和作成部、12は
メモリー読出し制御部をそれぞれ示す。
第2図に示すように認識結果が候補文字作成部
7に入力される。この候補文字作成部7において
は第3図に示すような回路構成となつている。こ
の候補文字作成部7においては認識結果として文
字コードと類似度が入力される。
すなわち、第4図に示すように認識ができた、
できないにかかわらず各読取つた文字に対して候
補1位の文字及び候補2位の文字が類似度と共に
出力される。
この認識結果の文字が単語単位で区切つた場合
に認識装置において全ての文字が十分認識できた
場合には認識結果を直接候補文字作成部7より判
定部6を介して答として出力する。
ただし、単語単位で区切つた中に読取り不能文
字があつた場合、第5図の如く認識過程において
得られた候補文字を類似度順に認識不可能となつ
た文字位置に挿入して候補文を作成する。
例えば第4図で示したように「カイダン」とい
う文字を認識した場合に第2番目の文字が「イ」
と「ク」とで類似度が予じめ定めた閾値以上差異
がなかつた場合には、第5図に示すように類似度
順に候補文を例1に示すように類似度を付して作
成する。
すなわち、第3図に示すように候補文字コード
格納部8と類似度格納部9にそれぞれ候補文字と
その文字に対応して類似度が格納される。
この格納部8,9の出力はそれぞれ候補文格納
部10及び類似度和作成部11に送り候補文を作
成すると共に、この候補文に対する類似度和を作
成する。これらの出力は単語抽出部1に送られ
る。
単語抽出部1においては第1図において詳述し
たように単語単位で単語辞書照合部2に送り単語
の先頭文字と単語数より対応の文字が単語として
あるか否かを単語辞書4をサーチする。その結果
答が得られれば文法チエツク部3で文法チエツク
を行なつた後判定部6を介して答を出力する。ま
た単語辞書4内に入力された単語に相当するもの
がなかつた場合は、判定部6を介して単語抽出部
1に通知し、単語抽出部1においては単語の最後
部の文字を削除して最度同様の単語辞書との照合
を行なう。
このようにして1番目の候補文内に対象の単語
がなかつた場合には判定部6より候補文字作成部
7にその旨を通知し、候補文字作成部7において
はメモリ読出し制御部12により制御して第2の
候補文を単語抽出部1に送出して上述と同時に処
理を行なう。例えば第5図に示す例1の場合には
候補文1が最初に単語抽出部1に入力され、単語
辞書4によりカイダンという文字が照合一致され
文法チエツク部3により文法チエツクされ判定部
6を介して答として出力する。また第5図例2の
場合には候補文1が単語抽出部1に入力され単語
辞書4と照合されるが合致したものがないため、
単語抽出部1においては得補文1の最後部の1文
字を削除した形で再度単語辞書4と照合されるが
やはり、この場合も合致したものがないため単語
抽出部1においてはさらに今作成した候補文1の
最後部の1文字を削除した形で再々度単語辞書4
と照合される。
この場合、始めてニンシキと単語と一致が取れ
るため、文法チエツク部部3において「ニンシ
キ」という単語に「スル」という送りが付く事が
良いのか否かを文法辞書5を参照しながらチエツ
クを行なう。
この結果スルとは文法的におかしい事が判明す
るため、判定部6においては上述のように候補文
字作成部7に指令を発して第2の候補文を単語抽
出部1に送出する。以降は上述と同様に単語辞書
4及び文法辞書5と照合もしくは参照しながら答
を送出できるようにする。
この場合、単語辞書4に「ニンシキスル」とい
う文を単語としてもつていてもよいし「ニンシ
キ」という単語だけをもつていて「スル」は送り
ガナとして適当か否かを文法チエツクによつて行
なつてもよい。
以上のように本発明は認識後処理を行なうに際
して候補文字とその類似度より作成した候補文が
文法的もしくは単語として誤りがないか否かを判
定する事により正解文字を送出しているため従来
に比して正解文字を正解にできると共に後処理を
高速化できる。
【図面の簡単な説明】
第1図は本発明に係る文字認識後処理方式の従
来例、第2図は本発明の文字認識後処理方式の一
実施例、第3図は第2図における候補文字作成部
を一実施例、第4図は候補文字と類似度の入力
例、第5図は候補文の作成部をそれぞれ示し、さ
らに図において、1は単語抽出部、2は単語辞書
照合部、3は文法チエツク部、4は単語辞書、5
は文法辞書、6は判定部、7は候補文字作成部、
8は候補文字コード格納部、9は類似度格納部、
10は候補文格納部、11は類似度和作成部、1
2はメモリ読出し制御部をそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 1 入力された文字パターンを認識する文字認識
    装置において、認識の結果、読取り不能文字が発
    生した場合に、この読取り不能文字に対する複数
    の候補文字及び該読取り不能文字を含む単語単位
    の認識結果情報を抽出し、該単語単位の認識結果
    情報の該読取り不能文字に対応する位置に該候補
    文字を挿入した複数の候補文を作成する候補作成
    手段と、単語辞書と文法辞書を設け、上記候補文
    中の候補文字の類似度が高い順に上記辞書と照合
    し、上記候補文と上記辞書の内容とが一致した場
    合、当該候補文字を読取り不能文字に対する正解
    文字として出力するようにした事を特徴とする文
    字認識後処理方式。
JP9967480A 1980-07-21 1980-07-21 Character recognition post-processing system Granted JPS5725074A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9967480A JPS5725074A (en) 1980-07-21 1980-07-21 Character recognition post-processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9967480A JPS5725074A (en) 1980-07-21 1980-07-21 Character recognition post-processing system

Publications (2)

Publication Number Publication Date
JPS5725074A JPS5725074A (en) 1982-02-09
JPS6239793B2 true JPS6239793B2 (ja) 1987-08-25

Family

ID=14253572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9967480A Granted JPS5725074A (en) 1980-07-21 1980-07-21 Character recognition post-processing system

Country Status (1)

Country Link
JP (1) JPS5725074A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5953985A (ja) * 1982-09-20 1984-03-28 Toshiba Corp 文字認識装置
JPH0625988B2 (ja) * 1983-09-12 1994-04-06 株式会社東芝 日本語情報入力方式
JPH0614375B2 (ja) * 1983-12-23 1994-02-23 株式会社日立製作所 文字入力装置
JPS60173688A (ja) * 1984-02-20 1985-09-07 Toshiba Corp パタ−ン処理装置
JPH0644302B2 (ja) * 1984-11-12 1994-06-08 シャープ株式会社 文字認識処理装置
JPS6354686A (ja) * 1986-08-26 1988-03-09 Fujitsu Ltd ドキユメントリ−ダの文章修正方式
JPH08227427A (ja) * 1995-10-27 1996-09-03 Toshiba Corp 文字認識装置

Also Published As

Publication number Publication date
JPS5725074A (en) 1982-02-09

Similar Documents

Publication Publication Date Title
US5615378A (en) Dictionary retrieval device
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US20030233235A1 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
JPS6239793B2 (ja)
CN116450896A (zh) 文本模糊匹配方法、装置、电子设备及可读存储介质
Mohapatra et al. Spell checker for OCR
JPH11143893A (ja) 単語照合装置
JPS5842904B2 (ja) 手書きカナ・漢字の文字認識装置
US20240160839A1 (en) Language correction system, method therefor, and language correction model learning method of system
Kawada et al. Linguistic error correction of Japanese sentences
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
Matsuura et al. Extraction of authors’ characteristics from Japanese modern sentences via n-gram distribution
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPH0256086A (ja) 文字認識の後処理方法
KR20170088169A (ko) 기계학습 기반의 중국어 단어 분리 장치
JP2560959B2 (ja) 文字認識後処理方式
Singh et al. Content Improvisation by Spell Checking, Grammar Checking, Tone Checking and Scoring
JPH03156589A (ja) 誤読文字の検出,修正方法
JP3151866B2 (ja) 英文字認識方法
JPH06119497A (ja) 文字認識方法
Mon et al. Myanmar spell checker