JPS63100584A - 文字認識処理方式 - Google Patents
文字認識処理方式Info
- Publication number
- JPS63100584A JPS63100584A JP61245314A JP24531486A JPS63100584A JP S63100584 A JPS63100584 A JP S63100584A JP 61245314 A JP61245314 A JP 61245314A JP 24531486 A JP24531486 A JP 24531486A JP S63100584 A JPS63100584 A JP S63100584A
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- candidate
- word
- candidate character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title description 3
- 238000003672 processing method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 11
- 238000012805 post-processing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
本発明け1文字−,!i&装置に関Tる。
(従来の技術)
近時、印刷1手書き入力された文字列を認識し。
その入力の意味する情報を計算機システムに取り込む技
術の開発が活発に進められている。この認識技術は、基
本的には入力する文字列と予め用意された単語辞書とを
参照し、文字列を構成する単語t−認識することによっ
て入力文字列を認識するものである。従って、l#語辞
書にない単語が入力されると十分な認識性能が発揮され
ないと論う欠点が内在されている。そこで%修正時に人
手によって指定された略語をその時点で単語をその時点
で単語辞書に追加登録してそれ以降の照合に用いるとい
う方式が提案されているが1人手を介するという意味で
は省力化という本来の目標からは逆行することになるの
で、より有効な方式の開発が待たれいた。
術の開発が活発に進められている。この認識技術は、基
本的には入力する文字列と予め用意された単語辞書とを
参照し、文字列を構成する単語t−認識することによっ
て入力文字列を認識するものである。従って、l#語辞
書にない単語が入力されると十分な認識性能が発揮され
ないと論う欠点が内在されている。そこで%修正時に人
手によって指定された略語をその時点で単語をその時点
で単語辞書に追加登録してそれ以降の照合に用いるとい
う方式が提案されているが1人手を介するという意味で
は省力化という本来の目標からは逆行することになるの
で、より有効な方式の開発が待たれいた。
(発明が解決しようとする間遺点)
本発明は、このような事情に鑑みてなされたもので、認
識結果の候補列から自動的に照合修正用の5at−生成
することによって認識性能を向上させることを目的とす
るものである。
識結果の候補列から自動的に照合修正用の5at−生成
することによって認識性能を向上させることを目的とす
るものである。
(間頂点t−S決する為の手段)
本発明は、入力文字列中の異なる位置にある類似した複
数の候補列を見付け、それらの認識結果から同定される
入力単語を後処理用の辞書単語として予め用意してあっ
た辞書とともに用いて、認識結果を修正するものである
。
数の候補列を見付け、それらの認識結果から同定される
入力単語を後処理用の辞書単語として予め用意してあっ
た辞書とともに用いて、認識結果を修正するものである
。
(作用)
かくして1本発明によれば、同一単語の認識結果の候補
列が互いに類似していると論う性質を用いて、予め登録
されていない頻出単語を自動的に抽出し、照合に用いる
ことによって1人手による登録という介入なしに高い認
識性能を得ることができる。
列が互いに類似していると論う性質を用いて、予め登録
されていない頻出単語を自動的に抽出し、照合に用いる
ことによって1人手による登録という介入なしに高い認
識性能を得ることができる。
(実施列)
以下、図面を参照して本発明の一実施例につき説明する
。
。
第1図は本発明の概略構成を示すブロック図である。第
1図において、光電変換部lに入力文書の各文字パター
ンは、この光電変換部1で光学的に読み取られて電気信
号に変換される。このようにして光電変換部1を介して
入力された電気信号は前処理部2にて処理され、文字認
識部3にて認識される。この文字認識部3では1例えば
、予め複数の文字パターンが登録されである文字認識辞
書4と上記入力文字パターンとの照合を行い、入力され
た文字に対して1個の候補文字を出力することによって
1文字認識が行われる。この出力は後処理部5へ送られ
る。
1図において、光電変換部lに入力文書の各文字パター
ンは、この光電変換部1で光学的に読み取られて電気信
号に変換される。このようにして光電変換部1を介して
入力された電気信号は前処理部2にて処理され、文字認
識部3にて認識される。この文字認識部3では1例えば
、予め複数の文字パターンが登録されである文字認識辞
書4と上記入力文字パターンとの照合を行い、入力され
た文字に対して1個の候補文字を出力することによって
1文字認識が行われる。この出力は後処理部5へ送られ
る。
さて、後処理部5は基本的には次の様に構成されている
。
。
導Ifi照合部6においては1文字認識部3でn個の文
字を認識した結果得られたnxr個の候浦文字詳と単語
の知識情報として予め複数個の単語が登録されである単
語辞書7との照合を行なう。そして、QL語辞書7に登
録されている単語の各文字と前記候補文字とが一致した
場合、(1)その候補文字の順位に対する点数を加算し
、単語辞書7に登録されている各県語毎に第20頭領度
である得点(単語得点という)を求め、(2)文字認識
部3で得られたnxr個の候補文字詳の内、fl、tば
nx1個の第1位文字詳で構成される単語に第1の類似
度としての得点(文字得点という)を与え、(3)QL
語得点および文字゛得点を考慮して認識結果の単語を求
める。ここで単語として認識されなかった文字列は、単
語判定部9に送られ1文字認、Ili@S3から得られ
る各文字の特徴パラメータに従りて、漢字の並びである
可能性が高い場合には単語であると判定され1文字列の
長さW毎に分類されバッファ10に入れられる。一時辞
書登録部11では。
字を認識した結果得られたnxr個の候浦文字詳と単語
の知識情報として予め複数個の単語が登録されである単
語辞書7との照合を行なう。そして、QL語辞書7に登
録されている単語の各文字と前記候補文字とが一致した
場合、(1)その候補文字の順位に対する点数を加算し
、単語辞書7に登録されている各県語毎に第20頭領度
である得点(単語得点という)を求め、(2)文字認識
部3で得られたnxr個の候補文字詳の内、fl、tば
nx1個の第1位文字詳で構成される単語に第1の類似
度としての得点(文字得点という)を与え、(3)QL
語得点および文字゛得点を考慮して認識結果の単語を求
める。ここで単語として認識されなかった文字列は、単
語判定部9に送られ1文字認、Ili@S3から得られ
る各文字の特徴パラメータに従りて、漢字の並びである
可能性が高い場合には単語であると判定され1文字列の
長さW毎に分類されバッファ10に入れられる。一時辞
書登録部11では。
入力の一定量(例えば1ペ一ジ分)の処理が終った時点
でバッファ10をもとに以下のような方法で琳語辞!I
ilこ入っていない41語(一時辞W拳語)を見付ける
ことができた場合、その単語を一時辞畜12に豆碌する
。単語照合部6ではその文書の処理が終わるまでの闇、
単語辞書7と一時辞’1iF12を併用する。
でバッファ10をもとに以下のような方法で琳語辞!I
ilこ入っていない41語(一時辞W拳語)を見付ける
ことができた場合、その単語を一時辞畜12に豆碌する
。単語照合部6ではその文書の処理が終わるまでの闇、
単語辞書7と一時辞’1iF12を併用する。
一時辞書登録部11の動作番こつ込でさらに詳しく説明
する。入力の一定量の処理が終った時点で一時辞書登録
部11は、文字長Wのバッファ中のal!識結果候補文
字列の各組み合わせに対して、予め定められた方法によ
って認識結果候補文字列間類似度を計算し、予め定めら
れた数Nより多くの認識結果候補文字列につ論゛でテめ
定められた点数θより高い点数が付いた場合、それらの
認識結果候補文字列から推定される最適な入力文字列を
一時辞書略語とする。
する。入力の一定量の処理が終った時点で一時辞書登録
部11は、文字長Wのバッファ中のal!識結果候補文
字列の各組み合わせに対して、予め定められた方法によ
って認識結果候補文字列間類似度を計算し、予め定めら
れた数Nより多くの認識結果候補文字列につ論゛でテめ
定められた点数θより高い点数が付いた場合、それらの
認識結果候補文字列から推定される最適な入力文字列を
一時辞書略語とする。
第2図を用いて実際の認識結果候補文字列から一時辞1
1F尋語を求める過穆を説明する。例えば、認識結果候
補文字グリ間類似度の計算方法として。
1F尋語を求める過穆を説明する。例えば、認識結果候
補文字グリ間類似度の計算方法として。
類似度1位の候補文字の一致する割合(−位の候補文字
の一致する数C÷候補文5字列の長さW)モとったとし
−N”2tθ−0,5とする。文字長W−5のバッファ
中に13の(a)〜(C)に示す3つがあったとする。
の一致する数C÷候補文5字列の長さW)モとったとし
−N”2tθ−0,5とする。文字長W−5のバッファ
中に13の(a)〜(C)に示す3つがあったとする。
ここでは候補文字の1立のみを#えているものとする。
この場合、 1a)tb)間、 jb)Ic)間。
(a)(C)間の認識結果候補文字列間類似度は全てC
÷W−3÷5−0.6)θとなるから、 N(−2)よ
り多く(この場@r3個)の認a績果淡袖文字列にっh
で認識結果候補文字列間類似度〉θを満たすことになる
。一時辞香薬語としては、(a)〜tc)にお論で1位
になった頻度のもっとも高匹候嶋文子からなるII#語
13を結果とする。
÷W−3÷5−0.6)θとなるから、 N(−2)よ
り多く(この場@r3個)の認a績果淡袖文字列にっh
で認識結果候補文字列間類似度〉θを満たすことになる
。一時辞香薬語としては、(a)〜tc)にお論で1位
になった頻度のもっとも高匹候嶋文子からなるII#語
13を結果とする。
本発明は前記実施例に限定されるものではなく。
その趣旨を変更しない範囲でさまざまの変形が可能であ
る。例えに後処理の方法、認識結果候補文字列類似度の
計算方法には上記以外にも一位以外の候補を用いるなど
様々の方法が考えられる。まt、同定されt単語を用い
て修正する方法についても。
る。例えに後処理の方法、認識結果候補文字列類似度の
計算方法には上記以外にも一位以外の候補を用いるなど
様々の方法が考えられる。まt、同定されt単語を用い
て修正する方法についても。
一時辞−$を持tず、1文書全体の処理が終わってから
認識結果候補文字列間類似度の高いグループを作り、同
一グループ内のすべての文字列の認識結果を、同定され
る最適の(同一の)文字列とするなどの方法が考えられ
る。さらに、入力文字列についてもベタの文章の場合や
、単語毎にフィールドが分かれている帳票の場合などが
考、tられる。
認識結果候補文字列間類似度の高いグループを作り、同
一グループ内のすべての文字列の認識結果を、同定され
る最適の(同一の)文字列とするなどの方法が考えられ
る。さらに、入力文字列についてもベタの文章の場合や
、単語毎にフィールドが分かれている帳票の場合などが
考、tられる。
以上説明したように0本発明によれば、認識結果から未
矧の単語を自動的に推定して後処理につ小うことによっ
て、認識性能を向上させることが可能となる。
矧の単語を自動的に推定して後処理につ小うことによっ
て、認識性能を向上させることが可能となる。
第1図は本発明の一実施例の概略構成を示すブロック図
、第2図は実際の認識結果候補文字列から一時辞書琳語
を求める過程の説明図である。 1・・・九電変換部、2・・・前処理部、3・・・文字
認識部、4・・・文字認識辞書、5・・・侵処理部、6
・・・単語照合部、7・・・単語辞書、9・・・暎語判
定部、10・・・バッファ、11・・・一時辞書登録部
、12・・・一時辞書、13・・・バッファ内の候補の
列、14・・・一時辞書単語の例。
、第2図は実際の認識結果候補文字列から一時辞書琳語
を求める過程の説明図である。 1・・・九電変換部、2・・・前処理部、3・・・文字
認識部、4・・・文字認識辞書、5・・・侵処理部、6
・・・単語照合部、7・・・単語辞書、9・・・暎語判
定部、10・・・バッファ、11・・・一時辞書登録部
、12・・・一時辞書、13・・・バッファ内の候補の
列、14・・・一時辞書単語の例。
Claims (1)
- 入力文字列を認識して得られた各入力文字に対する文字
候補からなる列(候補列)から上記入力文字列を認識す
る際に、入力文字列中の異なる位置にある同一単語の認
識結果と推定される複数の候補列を選び出す手段と、該
候補列から入力単語を同定する手段と、該入力単語を認
識して得られたと推定される候補列に対する認識結果を
該入力単語に修正する手段を備えたことを特徴とする文
字認識処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61245314A JPS63100584A (ja) | 1986-10-17 | 1986-10-17 | 文字認識処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61245314A JPS63100584A (ja) | 1986-10-17 | 1986-10-17 | 文字認識処理方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63100584A true JPS63100584A (ja) | 1988-05-02 |
Family
ID=17131827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61245314A Pending JPS63100584A (ja) | 1986-10-17 | 1986-10-17 | 文字認識処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63100584A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02238589A (ja) * | 1989-03-13 | 1990-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 用語照合方法 |
-
1986
- 1986-10-17 JP JP61245314A patent/JPS63100584A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02238589A (ja) * | 1989-03-13 | 1990-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 用語照合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Neural machine translation with BERT for post-OCR error detection and correction | |
JP4568774B2 (ja) | 手書き文字認識で使用されるテンプレートを生成する方法 | |
JP2726568B2 (ja) | 文字認識方法及び装置 | |
US9875254B2 (en) | Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language | |
Chanlekha et al. | Thai named entity extraction by incorporating maximum entropy model with simple heuristic information | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
CN113380223A (zh) | 多音字消歧方法、装置、系统及存储介质 | |
Hirayama et al. | Development of template-free form recognition system | |
JPS63100584A (ja) | 文字認識処理方式 | |
JP3955410B2 (ja) | 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体 | |
EP2565799A1 (en) | Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents | |
McPherson | Introducing Feedback into an Optical Music Recogniition System. | |
JPS61107486A (ja) | 文字認識後処理方式 | |
KR100473660B1 (ko) | 단어인식방법 | |
JP3245415B2 (ja) | 文字認識方法 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JP3151866B2 (ja) | 英文字認識方法 | |
JPS6365499A (ja) | 構文認識方式 | |
Peng et al. | TMCR: A Twin Matching Networks for Chinese Scene Text Retrieval | |
CN113360653A (zh) | 获取文本意图的方法和系统 | |
Sarker et al. | A learning based handwritten text categorization | |
Parvez et al. | Linguistic Descriptors for Arabic Sub-Words Conjugation and Recognition | |
JPH06195508A (ja) | 文字切り出し方法 | |
CN115617999A (zh) | 一种资讯信息的处理方法、装置及设备 | |
JPH0634259B2 (ja) | 文字認識装置 |