JPS61161588A

JPS61161588A - 文字認識後処理方式

Info

Publication number: JPS61161588A
Application number: JP60003062A
Authority: JP
Inventors: Akizo Kadota; 門田　彰三; Toshihiro Hananoi; 花野井　歳弘
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-01-11
Filing date: 1985-01-11
Publication date: 1986-07-22
Also published as: JPH0576675B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（発明の利用分野〕本発明は１文字認識後処理力式に関し、特に文字認識装
置により読み取られた認識結果に対して、単語辞書との
マツチングを行うことにより、正確に認識することが可
能な文字認識後処理方式に関するものである。

〔発明の背景〕

従来より、漢字ＯＣＲの認識精度を向上させる方法とし
て、単語辞書との照合を利用することが考えられている
が、照合する前にあらかじめ単語に分割しなければなら
ず、もし分割できないときには役に立たない、単語辞書
とのマツチングにより認識率を向上させる方法として１
例えば、特公昭５９−４０７１号公報、特開昭５７−２
５０７４号公報、特開昭５８−４４９０号公報、特開昭
５８−３９３７７号公報、特開昭５８−３９３７８号公
報、特開昭５８−４８１８１号公報、特開昭５８−５６
１８９号公報に記載された発明もある。しかし、これら
の方法は、第７図に示すように、帳票上のフォーマット
に制限を加えたり、第８図に示すように、単語間にスペ
ースを設けるものである。すなわち、第７図では、姓と
名と都道府県と市部区と区町村との間にあらかじめスペ
ースを設けたフォーマットを用いて、入力文字列が単語
単位に分割されていることを仮定している。

また、第８図では、単語間に必ず１つ空欄を設けて書く
ように、記述者に対して強制するもので。

単語分割部分を抽象的に表現しているのみで、実体が明
確ではない。このように、帳票あるいは記入方法に制限
を設けることは、記入者に負担を掛けるばかりで、単語
辞書との照合を実用化する場合に障害となるものであっ
た。

〔発明の目的〕

本発明の目的は、このような従来の問題を解決し、たと
え入力文字が単語単位に分割されていなくても、単語照
合を行うことができる文字認識後処理方式を提供するこ
とにある。

〔発明の概要〕

上記目的を達成するために１本発明の文字認識後処理方
式は、読取文字を認識する文字認識手段と、単語群を保
持する単語辞書と、上記文字認識手段により認識された
文字が上記単語辞書中に保持されている単語と一致する
か否かを照合する単語照合手段とを具備する文字認識後
処理方式において、上記文字認識手段から出力されたｌ
フィールド分の候補文字列を格納する候補文字テーブル
と、該候補文字テーブルの各カラムで最小の相違度を与
える候補単語およびその相違度を登録した整合度テーブ
ルとを設け、上記候補文字テーブルの各カラムの候補文
字をキーとして、上記単語辞書中から単語を選択的に取
り出し、該単語と上記候補文字列との相違度を計算した
後、上記整合度テーブルの中から相違度が最小の単語を
たどって出力単語列を得ることに特徴がある。

〔発明の実施例〕

以下１本発明の実施例を１図面により説明する。

先ず、本発明の動作原理を説明する。

第２図は１本発明に用いられる候補テーブルの説明図で
ある。

候補テーブルの一部１例えばカラム数１１の欄に、第２
図に示すような候補単語群が存在する。

このテーブルには、候補数と第１位、第２位、第３位の
各単語列が配置されている。第１カラムから始まる単語
は、神、初、杉のいずれかを先頭にして始まる。したが
って、神、初、杉をキーにして単語辞書の中から単語を
検索することにより。

複数の単語が抽出される。神、初、杉を先頭とする単語
としては１次のものがある。

神が丘、押開、神、神楽坂、・・・初音、初野、・・・・杉崎、杉谷、・・・・上記の単語のうち、第２図で示された候補文字を組み合
せて作られるものとしては１次の４つだけに絞られる神、押金、神奈川、神奈川系。

同じようにして、第２カラムから始まる単語は。

余、奈、糸を先頭として始まり、単語辞書中の単語群中
で、第２図で示された候補文字を組み合せ−で作られる
ものは、次の３つに絞られる。

余用、奈用、糸用。

同じようにして、各カラムを先頭とする単語で可能なも
のを列挙すると、第３図に示すように整理される。

これらの候補単語のうち、どの組み合せが正解かを見付
は出すために、整合度を以下の式により定義し、全体と
しての整合度が最小になる組み合せを求める。

ｇ（０）＝０・・・・・（１）ここで、ｇ（Ｉ）は１番目のカラムまでの整合度、ｄ（
１，Ｊ）はカラムＩ−Ｊから長さＪの単語の重みを表わ
す。ｎは、許される単語の長さである。

重みｄ（Ｉ、Ｊ）とは、単語のもっともらしさを与える
量で、前記の特開昭５８−３９３７８号公報において使
用されているように、候補順位により重み付けを行って
もよいし、また前記特開昭５８−４８１８１号公報で使
用されているように、認識装置から出力された各候補の
類似度（あるいは距離）を使用してもよい。

当該フィールドの長さをＫとすると、当該フィールドの
整合度は、ｇ（Ｋ）で与えられる。

各カラムで得られた最小の重みｄ（Ｉ、Ｊ）を与える単
語を最小の重みが得られるたびにセイブしておくと、第
４図に示すような単語群が得られる。

この場合、カラムを逆にたど１と、最も整合度のよい単
語の組み合せが得られる。

第４図の例を用いて、最も整合度のよい単語の抽出法の
説明を行う、カラム１１において最小の重みを与える単
語は、パ国府津″であるにの単語の長さは３であるため
、これに接続する単語はカラム８で終る。カラム８で最
小の重みを与える単語は、゛′市″である。この単語の
長さはｌであるため、これに接続する単語は、カラム７
で終る。カラム７で最小の重みを与える単語は、″小田
原″である。この単語の長さは３であるから、これに接
続する単語はカラム４で終る。カラム４で最小の重みを
与える単語は、′″神奈川用″であり、この単語の長さ
は４であって、当該フィールドでのカラムはこれで終了
する。

したがって、上記の例においては、″神奈川系″、″小
田原ｇＨ，Ｌｇ市１ｙ、ｌ１国府津″′が最もよく整合
する単語群として選択されたことになる。

以上が、本発明の後処理の動作原理であるが。

処理の容易さから言えば、第１カラムから順に求めるよ
りは、最後のカラムから逆方向に求めた方がやり易い、
この場合を式で示すと、最後のカラムをＫとして、次の
式を使用する。

ｇ（Ｋ＋１）＝０・・・・・（２）ただし、ｄ（１，Ｊ）は、カラム■から長さＪの単語の
重みである。

第１図は１本発明の一実施例を示す文字認識後処理シス
テムの全体ブロック図である。

この実施例では、記述はすべて前記（２）式、すなわち
フィールドの最後のカラムから逆方向に処理する方法を
用いる。

システムは、文字認識装置ｌ１重み計算回路２、単語辞
書３．１１１合度計算回路４、および単語抽出回路５よ
り構成される。

文字認識装置１からは、１フィールド分の文字列が出力
される。

文字認識装置ｌから出力された１フィールド分の認識結
果は１重み計算回路２内の候補テーブルに格納される。

候補テーブルは、第２図に示したように、フィールドの
カラム数、各カラムごとの候補数、および候補カテゴリ
から構成されている。

重み計算回路２は、候補テーブルを入力として。

第３図に示したような候補単語を単語辞書３から選択し
て、それぞれの単語の最もらしさを表わす重みを計算す
る。

重み計算回路２では、第４図において説明したように、
候補テーブルの最後のカラムから逆方向に、候補数だけ
、候補カテゴリをキーとして単語辞書３から単語を検索
する。単語辞書３は、単語をベタに詰めていてもよいが
、単語数が多いときには、カテゴリごとに分類しておき
、各カテゴリの先端を示すアドレス表を作っておいた方
が、検索し易くなる。

単語は、単語の長さΩと、Ｑ個の漢字コードから構成さ
れている。

本発明では１重み計算回路２と整合度計算回路４と単語
抽出回路５とが、入力文字列から構成される単語のあら
ゆる組み合せを考慮し、単語列の接合度の最もよいもの
を選択することにより、単語に分割することなく単語照
合を行う。最良の接合度を得るために、ダイナミック・
プログラミングの手法を利用する。

重み計算回路２は、第２図に示すフィールド分の文字列
が入力されたものと仮定して処理を行う。

なお、各カラムは、単一候補に絞れなかった場合には、
複数の候補が出力される。第２図の例では、最後のカラ
ムは、候補数が１で、候補カテゴリは″゛津″ある。単
語辞書３から、゛′津″を先頭とする単語をすべて読み
出す、″津″から始まる単語は。

゛′津Ｈ１′＃津山″、ｌｌ津島″、・・・・・等多数
存在するが、単語のカラムであるため長さ１の単語しか
許されず、゛津″のみが残される６カラム１０は、候補数が３で、候補カテゴリは、府、廊
、舟であるが、これらをキーとする単語のうち、長さが
２で最後が津で終る単語は存在しない。

次に、カラム９は候補数が３で、候補カテゴリは１国、
固１図であるが、これらをキーとする単語のうち、候補
テーブルを満足する単語は、″国府″と′″国府津″の
みである。以下同じようにして。

第１カラムまで逆にたどって行くと、第３図に示すよう
な単語群が得られる。

これらの単語の重みを計算する方法としては。

種々のものがあるが、ここでは特開昭５８−３９３７８
号公報に使用された重みを用いることにする。上記公報
で示された記号により書き表わすと、次のようになる。

ｄ（１，Ｊ）＝−Σｄ（Ｓｔ、Ｌｉ）・・・・（３）上
記（３）式を使って第３図に示された単語の重みを計算
すると、第５図に示すようになる。候補カテゴリの下に
記載された数字が、それぞれの重みである。

次に、整合度計算回路４では、第５図に示したような候
補単語を組み合わせて、最もよい整合度のものを選び出
すにのとき、整合度の計算には。

（２）式を使用する。

カラム１１における候補単語は、′津″だけである。長
さα１重みｄ、１１合度ｇとともに、単語パ津”を登録
する（第６図のカラム１１参照）。

カラム１０における候補単語は存在しないので。

ｄ＝ψ＋ｇ＝ψを登録する（第６図のカラム１０参照）
。

カラム９における候補単語は、″国府津″とパ国府″が
得られる。

ｇ（１２）＋ｄ（９，３）とｇ（１ｔ）＋ｄ（９，２）を比較し、小さい方を選択す
る。ここでは、″国府津″の方が小さいので、長さμ１
重みｄ、整合度ｇとともに、単語パ国府津′″を登録す
る。以下、同じようにして、先頭カラムまで遡って上記
手順を繰り返えすど、第６図に示すような整合度テーブ
ルが得られる。

単語抽出回路５では、整合度計算回路４で得られた第６
図の整合度テーブルから単語を取り出し。

出力する。先ず、整合度テーブルの第１カラムから単語
パ神奈用県″を取り出す、この単語の長さは４であるた
め１次の単語を取り出す位置は、第５カラムからである
。第５カラムから単１１０小田原″を取り出す、この単
語の長さは３であるため、次の単語を取り出す位置は、
第８カラムからである。

同じようにして、第８カラムから１′市”が１次番；第
９カラムから″国府津″が、それぞれ取り出される。

このようにして、最もよく入力候補と整合する単語群パ
神奈用県″′、パ小田ｇｎ、′市”、゛国府津”が得ら
れる。

以上の説明では、候補単語を最後のカラムから先頭のカ
ラムまで、すべて求めておいてから、整合度の計算をす
るように述べているが、整合度の計算は各カラムごとに
出莱るので、必ずしも全部終った後に行う必要はない。

また１以上の説明においては、認識装置１からカラムご
とに１つ以上の候補が出力されることを前提にしている
。しかし、実際の装置においては。

帳票上の塵挨や、汚れ等のために認識できない場合が少
なくない、候補なしが存在すると、そのカラムを含む単
語で一致するものがなくなるため、単語の重みが無限大
になってしまい、それ以後の単語照合結果が信用できな
くなる。

候補なしの場合の不都合をなくすため、以下に述べる方
法が有効である。すなわち、各カラムで。

最も一致する単語が見付かったとき、その重みｄがある
定められた閾値よりも小さいとき、ｇを０にしてしまう
方法である。１１合度テーブルから単語を取り出すには
１ｇが定められた閾値よりも小さいときには、単語を出
力し、閾値より大きいときには、リジェクトして、入力
候補文字を出力する。このようにすると、候補なしのカ
ラムの近傍のみがリジェクトされ、十分よく整合した単
語がその後見付かれば、正常に復帰することができる。

なお、実施例では、住所の例を挙げて説明したが。

住所欄に限定する必要はない。例えば１日本文の入力で
は、単語単位に分割するために単語ごとにスペースを入
れる等の方法が用いられているが。

本発明では、このような不便をなくして１通常の日本文
のままで入力が可能となる。

また１項目入力の場合にも、本発明をそのまま使用する
ことができ、項目の中に複合語が含まれていても、辞書
を拡張することなく、自然に複合語処理ができる。

〔発明の効果〕

以上説明したように１本発明によれば、単語単位にあら
かじめ分割しておく必要がなく、単語照合を使用して認
識後処理を行うことができる。したがって１本発明によ
れば、帳票設計時に単語単位にフィールド分けする必要
がなく、通常使用されているものと同じフォーマットの
帳票を使用することができ、記入者の心理的負担を大幅
に軽減することが可能である。

【図面の簡単な説明】

第１図は本発明の一実施例を示す単語後処理システムの
全体ブロック図、第２図は第１図に用いられる候補テー
ブルの一例図、第３図は第２図のテーブルから選択され
た候補単語群を示す図、第４図は整合度テーブルから最
もよい整合度の単語を選び出す手順を示す図、第５図は
第３ｃ！！Ｉの候補単語群に重みを付した図、第６図は
第２図の候補テーブルから作られた整合度テーブルを示
す図、第７図、第８図はそれぞれ従来のフィールド分け
した帳票、および単語間にスペースが入った日本語文を
示す図である。１：文字認識装置、２：重み計算回路、３：単語辞書、
４：１＄１合度計算回路、５：単語抽出回路。第１図第２図第３図第４図カ　　ラ　　ム　　位　置第５図第６図第７図第８図

Claims

【特許請求の範囲】

（１）読取文字を認識する文字認識手段と、単語群を保
持する単語辞書と、上記文字認識手段により認識された
文字が上記単語辞書中に保持されている単語と一致する
か否かを照合する単語照合手段とを具備する文字認識後
処理方式において、上記文字認識手段から出力された１
フィールド分の候補文字列を格納する候補文字テーブル
と、該候補文字テーブルの各カラムで最小の相違度を与
える候補単語およびその相違度を登録した整合度テーブ
ルとを設け、上記候補文字テーブルの各カラムの候補文
字をキーとして、上記単語辞書中から単語を選択的に取
り出し、該単語と上記候補文字列との相違度を計算した
後、上記整合度テーブルの中から相違度が最小の単語を
たどって出力単語列を得ることを特徴とする文字認識後
処理方式。