JPS63100584A

JPS63100584A - 文字認識処理方式

Info

Publication number: JPS63100584A
Application number: JP61245314A
Authority: JP
Inventors: Bunpei Irie; 文平入江; Haruo Asada; 麻田　治男; Shunji Ariyoshi; 俊二有吉; Yoshiaki Kurosawa; 由明黒沢
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1986-10-17
Filing date: 1986-10-17
Publication date: 1988-05-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の目的〕（産業上の利用分野）本発明け１文字−，！ｉ＆装置に関Ｔる。

（従来の技術）近時、印刷１手書き入力された文字列を認識し。

その入力の意味する情報を計算機システムに取り込む技
術の開発が活発に進められている。この認識技術は、基
本的には入力する文字列と予め用意された単語辞書とを
参照し、文字列を構成する単語ｔ−認識することによっ
て入力文字列を認識するものである。従って、ｌ＃語辞
書にない単語が入力されると十分な認識性能が発揮され
ないと論う欠点が内在されている。そこで％修正時に人
手によって指定された略語をその時点で単語をその時点
で単語辞書に追加登録してそれ以降の照合に用いるとい
う方式が提案されているが１人手を介するという意味で
は省力化という本来の目標からは逆行することになるの
で、より有効な方式の開発が待たれいた。

（発明が解決しようとする間遺点）本発明は、このような事情に鑑みてなされたもので、認
識結果の候補列から自動的に照合修正用の５ａｔ−生成
することによって認識性能を向上させることを目的とす
るものである。

〔発明の構成〕

（間頂点ｔ−Ｓ決する為の手段）本発明は、入力文字列中の異なる位置にある類似した複
数の候補列を見付け、それらの認識結果から同定される
入力単語を後処理用の辞書単語として予め用意してあっ
た辞書とともに用いて、認識結果を修正するものである
。

（作用）かくして１本発明によれば、同一単語の認識結果の候補
列が互いに類似していると論う性質を用いて、予め登録
されていない頻出単語を自動的に抽出し、照合に用いる
ことによって１人手による登録という介入なしに高い認
識性能を得ることができる。

（実施列）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明の概略構成を示すブロック図である。第
１図において、光電変換部ｌに入力文書の各文字パター
ンは、この光電変換部１で光学的に読み取られて電気信
号に変換される。このようにして光電変換部１を介して
入力された電気信号は前処理部２にて処理され、文字認
識部３にて認識される。この文字認識部３では１例えば
、予め複数の文字パターンが登録されである文字認識辞
書４と上記入力文字パターンとの照合を行い、入力され
た文字に対して１個の候補文字を出力することによって
１文字認識が行われる。この出力は後処理部５へ送られ
る。

さて、後処理部５は基本的には次の様に構成されている
。

導Ｉｆｉ照合部６においては１文字認識部３でｎ個の文
字を認識した結果得られたｎｘｒ個の候浦文字詳と単語
の知識情報として予め複数個の単語が登録されである単
語辞書７との照合を行なう。そして、ＱＬ語辞書７に登
録されている単語の各文字と前記候補文字とが一致した
場合、（１）その候補文字の順位に対する点数を加算し
、単語辞書７に登録されている各県語毎に第２０頭領度
である得点（単語得点という）を求め、（２）文字認識
部３で得られたｎｘｒ個の候補文字詳の内、ｆｌ、ｔば
ｎｘ１個の第１位文字詳で構成される単語に第１の類似
度としての得点（文字得点という）を与え、（３）ＱＬ
語得点および文字゛得点を考慮して認識結果の単語を求
める。ここで単語として認識されなかった文字列は、単
語判定部９に送られ１文字認、Ｉｌｉ＠Ｓ３から得られ
る各文字の特徴パラメータに従りて、漢字の並びである
可能性が高い場合には単語であると判定され１文字列の
長さＷ毎に分類されバッファ１０に入れられる。一時辞
書登録部１１では。

入力の一定量（例えば１ペ一ジ分）の処理が終った時点
でバッファ１０をもとに以下のような方法で琳語辞！Ｉ
ｉｌこ入っていない４１語（一時辞Ｗ拳語）を見付ける
ことができた場合、その単語を一時辞畜１２に豆碌する
。単語照合部６ではその文書の処理が終わるまでの闇、
単語辞書７と一時辞’１ｉＦ１２を併用する。

一時辞書登録部１１の動作番こつ込でさらに詳しく説明
する。入力の一定量の処理が終った時点で一時辞書登録
部１１は、文字長Ｗのバッファ中のａｌ！識結果候補文
字列の各組み合わせに対して、予め定められた方法によ
って認識結果候補文字列間類似度を計算し、予め定めら
れた数Ｎより多くの認識結果候補文字列につ論゛でテめ
定められた点数θより高い点数が付いた場合、それらの
認識結果候補文字列から推定される最適な入力文字列を
一時辞書略語とする。

第２図を用いて実際の認識結果候補文字列から一時辞１
１Ｆ尋語を求める過穆を説明する。例えば、認識結果候
補文字グリ間類似度の計算方法として。

類似度１位の候補文字の一致する割合（−位の候補文字
の一致する数Ｃ÷候補文５字列の長さＷ）モとったとし
−Ｎ”２ｔθ−０，５とする。文字長Ｗ−５のバッファ
中に１３の（ａ）〜（Ｃ）に示す３つがあったとする。

ここでは候補文字の１立のみを＃えているものとする。

この場合、　１ａ）ｔｂ）間、　ｊｂ）Ｉｃ）間。

（ａ）（Ｃ）間の認識結果候補文字列間類似度は全てＣ
÷Ｗ−３÷５−０．６）θとなるから、　Ｎ（−２）よ
り多く（この場＠ｒ３個）の認ａ績果淡袖文字列にっｈ
で認識結果候補文字列間類似度〉θを満たすことになる
。一時辞香薬語としては、（ａ）〜ｔｃ）にお論で１位
になった頻度のもっとも高匹候嶋文子からなるＩＩ＃語
１３を結果とする。

本発明は前記実施例に限定されるものではなく。

その趣旨を変更しない範囲でさまざまの変形が可能であ
る。例えに後処理の方法、認識結果候補文字列類似度の
計算方法には上記以外にも一位以外の候補を用いるなど
様々の方法が考えられる。まｔ、同定されｔ単語を用い
て修正する方法についても。

一時辞−＄を持ｔず、１文書全体の処理が終わってから
認識結果候補文字列間類似度の高いグループを作り、同
一グループ内のすべての文字列の認識結果を、同定され
る最適の（同一の）文字列とするなどの方法が考えられ
る。さらに、入力文字列についてもベタの文章の場合や
、単語毎にフィールドが分かれている帳票の場合などが
考、ｔられる。

〔発明の効果〕

以上説明したように０本発明によれば、認識結果から未
矧の単語を自動的に推定して後処理につ小うことによっ
て、認識性能を向上させることが可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例の概略構成を示すブロック図
、第２図は実際の認識結果候補文字列から一時辞書琳語
を求める過程の説明図である。１・・・九電変換部、２・・・前処理部、３・・・文字
認識部、４・・・文字認識辞書、５・・・侵処理部、６
・・・単語照合部、７・・・単語辞書、９・・・暎語判
定部、１０・・・バッファ、１１・・・一時辞書登録部
、１２・・・一時辞書、１３・・・バッファ内の候補の
列、１４・・・一時辞書単語の例。

Claims

【特許請求の範囲】

入力文字列を認識して得られた各入力文字に対する文字
候補からなる列（候補列）から上記入力文字列を認識す
る際に、入力文字列中の異なる位置にある同一単語の認
識結果と推定される複数の候補列を選び出す手段と、該
候補列から入力単語を同定する手段と、該入力単語を認
識して得られたと推定される候補列に対する認識結果を
該入力単語に修正する手段を備えたことを特徴とする文
字認識処理方式。