JPS6174086A - 単語認識装置 - Google Patents

単語認識装置

Info

Publication number
JPS6174086A
JPS6174086A JP59195107A JP19510784A JPS6174086A JP S6174086 A JPS6174086 A JP S6174086A JP 59195107 A JP59195107 A JP 59195107A JP 19510784 A JP19510784 A JP 19510784A JP S6174086 A JPS6174086 A JP S6174086A
Authority
JP
Japan
Prior art keywords
recognition
word
stored
value
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59195107A
Other languages
English (en)
Inventor
▲はい▼ 東善
Touzen Hai
Yukikazu Kaburayama
蕪山 幸和
Eiichiro Yamamoto
山本 栄一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59195107A priority Critical patent/JPS6174086A/ja
Publication of JPS6174086A publication Critical patent/JPS6174086A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は被認識単語を認識してい(つかの認識候補を求
めた後、その中から後処理によって認識結果を決定する
方式の単語認識装置に関する。
単語認識装置は、帳票上に記入された2例えは漢字によ
って表される姓等の被認識単語を観測して得られる観測
パターンを、予め記憶する文字種毎の標準パターンと照
合することによって認識結果を決定する装置である。
しかし、特に手書きによって記入された被認識単語を認
識する単語認識装置においては、認識精度を向上するた
め、いくつかの認識候補を求めたのち、その中から後処
理によって認識結果を決定するものが多い。
このような単語認識装置においては、認識精度の向上は
言うまでもなく、後処理に要せられる時間の短縮を図る
ことが特に重要である。
〔従来の技術〕
第2図は単語認識装置の従来例の構成を示すブロック図
であり、■は被認識単語パターンか記入される帳票、2
は帳票lに記入された被認識単語パターンを1文字分の
文字パターン毎に認識し類似度の順に複数の認識候補文
字種を得る認識部13は認識部2によって得られた認識
候補文字種を文字パターン毎に類似度の順に格納するバ
ッファ。
′ 4はバッファ3に格納された認識候補文字種からか
ら所定のキーの値を抽出する抽出部、5は予想される認
識対R単語を予め一前記所定のキーの値毎に記憶領域を
定めて記憶する単語辞書、6は前記キーの値と単語辞書
5の前記キー毎の記憶領域とを対応させて記憶するテー
ブル、7は抽出部4によって抽出されたキーの値とテー
ブル6とによって定まる単語辞書5の記憶領域に記憶さ
れる認識対象単語を検索し、バッファ3に記憶される認
識候補文字種の類似度によって、認識結果を決定する決
定部である。
次ぎに5認識対象車語を漢字によって表される姓とし、
また所定のキーとして姓の先頭の文字種および姓を構成
する漢字の文字数を用いるものとし、帳票1に記入され
た「中本」という被認識単語を認識する場合について説
明する。
認識部2では被認識単語パターンr中本Jを観測して得
られる* /!4++パターンを、】文字分の蜆が、1
(パターンr山」および1本」毎に、内蔵する文字種毎
の標準文字パターンと比較するごとにより。
それぞれに対する認識候補文字種として、類似度の順に 先頭文字−一一一一−1山) 1小J  r用j 1少
J次の文字−一一一一一′本」 1木、r水」 1永j
が得られたとすると、これらが類似度の順にバッファ3
に格納される。
抽出部4では、バッファ3の内容から、キーの値として 第1位:先頭文字種−r山」1文字数=2第2位:先頭
文字種−「小」8文字数−2第3位:先頭文字種=「川
」9文字数=2第4位:先頭文字棟=「少」1文字数=
2を抽出して記憶する。
単語辞書5には、所定のキーの値の組合せ毎に。
例えは、先頭文字が「山」で始まり文字数が2文字のm
語r山OJに対しては、該当する単語「山川ノ 「山ト
」「中本」・・・「山村」等の単語群が所定の記1誓領
域に記憶されており、一方、テーブルロには、所定のキ
ーの値の組合せ毎に、それぞれの午胎群が記憶されてい
る!g語辞書5中の記憶領域の先頭アドレスと最終アド
レスが記入されている。
決定部7は、バノプア3に記憶されている認識候補文字
種に対しては、各々の類似度の順位によって、第1位(
「山」 「本j)には0を、第2位(’tJzj’木J
 ) MはIを、第3位(「川」 「水J)には2を、
第4位(「少」 「永」)には3を。
また、バッファ3に記憶されていない文字種にはIOを
与え、J志識候補文字種と、抽出部4によって抽出され
たキーの値とテーブル6とによって定まる単語辞書5の
記憶領域に記憶される各対象単語との距離値を求め、最
小の距離値が得られるものをS忍識結果として出力する
その結果、各対象単語に対し2例えば「山川」に対して
は0と10との和として10.r山上」にはOと10と
の相として10.「中本」には0と0との和として0.
また「山村jにはOと10との和として10の距離値が
与えられ、距離値が最小値0とな−る「中本」を認識結
果として出力する。
ただし、距離値が0の認識対象単語が得られた時には、
残りの認識対象単語の距離を求める必要はない。
〔発明が解決しようとする問題点〕
上記構成のものにおいては、説明の例では「中本」が正
しい認識結果として出力されるのであるが、一般には、
距離値がOのものが見つからない限り、認識辞書5中の
先頭文字がr山」 「小」 「川」および「少Jで始ま
り文字数か2文字の単語「山○」 「小○」 「川○J
及び「少○」が記憶されている各記憶領域をすべて検索
する必要があり1したがって認識結果の決定に長時間を
必要とするという問題点がある。
(問題点を解決するための手段〕 本発明になる単語認識装置は、被認識単語バタ−ンを1
文字分の文字パターン毎に認識し類似度の順に複数の認
識1咳補文字種を得る認識部と、前記認識部によって得
られた認識候補文字種からから所定のキーの値を抽出す
る抽出部と、予想される認識対象単語を予め前記所定の
キーの値毎に記憶領域を定めて記憶する単語辞書と、 
fiii記のキーの値と前記を語辞臀中の記憶領域とそ
の記憶領域に記憶される単語から予め抽出した一部の単
語とを対応させて記憶するテーブルと、前記抽出部によ
って抽出した前記キーの値に対応して前記テーブルに記
憶される単語および前記キーの値と前記テーブルとによ
って定まる前記単語辞書中の記憶領域に記憶される単語
の中から前記認識部によって得られた認識候補文字種の
類似度によって認識結果を決定する決定部とを備えるこ
とによって。
前記問題点の解消を図ったものである。
〔作用〕
ずなわち、 ii+記キーの値と単語辞書中の記憶領域
の他に、その記憶領域に記憶される単語のうち出現′V
A度の商い一部の単語を予めテーブルに記憶して置き、
このテーブルによる検索を華語辞沓より優先させること
によって、認識速段を向上したものである。
〔実施例〕
以下に本発明の要旨を第1図に示す実施例によって具体
的に説明する。
第1図は本発明一実施例の構成を示すブロック図であり
第2図に示す従来例と共通する符号は同一対象を指す他
、8は所定のキーの値と単語辞書5中の記憶領域とその
記憶領域に記憶される単語から予め抽出した一部の出現
頻度の商い単語とを対応させて記憶するテーブル、9は
抽出a(;4によって認識候補から抽出した前記キーの
値に対応してテーブル8に記憶される単語を検索し1必
要があれば前記キーの値とテーブル8の内容とによって
定まる単語辞書5中の記憶領域に記憶される単語を検索
して、バッファ3に記憶される認識候補文字種の類似度
によって認識結果を決定する決定部である。
次ぎに、前記従来例の説明と同様に、認識対象単語を漢
字によって表される牲とし、また所定のキーとして牲の
先頭の文Y種および牲を構成する漢字の文字数を用いる
ものとし、帳票Iに記入された「中本jという被認識単
語パターンを認識t′ゝる場合について説明する。
抽出部4までの動作は従来例と同様であり、類似度が第
4位までの認識候補文字種として、類似度の順に 先鴫文字−−−−−−r山j 「小j 「川J 「少」
次の文字−一−−−−r本j1木」 「水」「永Jが得
られ1 これらが類似度の順にバッファ3に格納される
また抽出部4によって、キーの値として第1位:先頭文
字種=r山J1文字数=2第2位:先頭文字種=「小」
1文字数=2第3位:先明文字種−「川」1文字数−2
第4位:先頭文字種−「少」1文字数=2が抽出される
単語辞書5には、従来例と同様に、所定のキーの値の組
合せ毎に5例えは、先頭文字がr山」で始まり文字数が
2文字の単語r山○Jに対しては。
該当する単語「山川」 「山−ト」 ・・・ 「中本j
 ・・「山村」等の単語群が所定の記憶領域に記憶され
ている。
一方、テーブル8には、所定のキーの値の組合せ毎に、
それぞれの単語群が記憶されている単語辞書5中の記憶
領域の先頭アドレスと最終アドレスの他に、その記憶領
域に記憶される単語のうち出現頻度の高い一部の姓2例
えばr山○Jに対して、「山田」 「中本j 「山王1
および「山村jが記憶されている。
決定部9は、観測文字パターンr山」あるいはr本jと
の間の距離値として、バッファ3に記憶されている認識
候補文字種に対しては、各々の類似度の順位によって、
第1位(r山」 「本J〉にはOを、第2位(「小」「
木」)には1を、第3位(「川J「水」)には2を、第
4位(「少」 「永j)には3を、また、バッファ3に
記憶されていない文字種には10を与え、抽出部4によ
って抽出した前記キーの値に対応してテーブル8に記憶
される各単語の距離値を求め、続いて、抽出部4によっ
て抽出されたキーの+16とテーブル8とによって定ま
る里に吾辞書5の記↑意頑域に8己1意される各対象単
語の距離値を求め、最小の距離値が得られるものを認識
結果として出力する。
その結果、テーブル8に記憶される。「山田jには10
.「出歩」には0.「山王」にはlOl「山村」にはO
が、また認識辞書5に記憶される「山川jには10.「
山王jにばl(1,r白木」には0゜また「山村」には
l(+の距離値が与えられ1距離値が最小値Oとなる「
出歩Jを認識結果として出力する。
たたし、距離値が0の認識対象単語が得られた時には残
りの認識対象!11!語の距離を求める必要はないので
、説明例のように、テーブル8に記憶される「出歩」を
検索したとき認識結果が出力されるので、単語辞N9を
検索する必要がなく、従って後処理時間を短縮し認識速
度を向トすることができる。
〔発明の効果〕
以上説明したように9本発明によれば、認7舐候補文字
種とテーブルに記憶される各単語との距離値を求め、続
いて5認識候補文字種と単語辞書に記憶される各認識対
象単語の距離値を求め、最小の距離値が得られるものを
認識結果として出力するので、テーブルに出現頻度の高
い単語を記憶して置くことにより、テーブルに記f意さ
れるmA吾の中に距離値0のものが得られる6」能性が
高く、その場合には単語辞書に記憶される単語との距離
値をせとめる必要がない。したがってJ忍識速度を向上
するという効果が得られる。
【図面の簡単な説明】
第1図は本発明一実施例のブロック図。 第2図は従来例のブロック図。 図中。 1は帳票、       2は認識部。 4は抽出部、      5は単語辞書。

Claims (1)

    【特許請求の範囲】
  1. 被認識単語パターンを1文字分の文字パターン毎に認識
    し類似度の順に複数の認識候補文字種を得る認識部と、
    前記認識部によって得られた認識候補文字種から所定の
    キーの値を抽出する抽出部と、予想される認識対象単語
    を予め前記所定のキーの値毎に記憶領域を定めて記憶す
    る単語辞書と、前記のキーの値と前記単語辞書中の記憶
    領域とその記憶領域に記憶される単語から予め抽出した
    一部の単語とを対応させて記憶するテーブルと、前記抽
    出部によって抽出した前記キーの値に対応して前記テー
    ブルに記憶される単語および前記キーの値と前記テーブ
    ルとによって定まる前記単語辞書中の記憶領域に記憶さ
    れる単語の中から前記認識部によって得られた認識候補
    文字種の類似度によって認識結果を決定する決定部とを
    備えることを特徴とする単語認識装置。
JP59195107A 1984-09-18 1984-09-18 単語認識装置 Pending JPS6174086A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195107A JPS6174086A (ja) 1984-09-18 1984-09-18 単語認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195107A JPS6174086A (ja) 1984-09-18 1984-09-18 単語認識装置

Publications (1)

Publication Number Publication Date
JPS6174086A true JPS6174086A (ja) 1986-04-16

Family

ID=16335623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195107A Pending JPS6174086A (ja) 1984-09-18 1984-09-18 単語認識装置

Country Status (1)

Country Link
JP (1) JPS6174086A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6368989A (ja) * 1986-09-11 1988-03-28 Fujitsu Ltd 文書読み取り装置
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6368989A (ja) * 1986-09-11 1988-03-28 Fujitsu Ltd 文書読み取り装置
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置

Similar Documents

Publication Publication Date Title
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPS6174086A (ja) 単語認識装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPS6262388B2 (ja)
JPH0634253B2 (ja) 誤読文字訂正処理装置
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JPS61114388A (ja) 文字入力装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPH0259513B2 (ja)
JP2923295B2 (ja) パターン同定処理方式
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH04340686A (ja) 文字認識後処理用氏名辞書
JP2939945B2 (ja) ローマ字住所認識装置
JPS62180462A (ja) 音声入力かな漢字変換装置
JPS62285189A (ja) 文字認識後処理方式
JPH02121078A (ja) 用語辞書検索装置
Tung et al. 2-stage character recognition by detection and correction of erroneously-identified characters
JPH0212482A (ja) 単語認識装置
JPS61107486A (ja) 文字認識後処理方式
JPH03189890A (ja) 複合語照合方法
JPH0757059A (ja) 文字認識装置
JPS63268083A (ja) 単語認識装置
JPS6252912B2 (ja)
JPH02166588A (ja) 認識方法
JPH01183796A (ja) 文字認識装置