JPS61272888A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPS61272888A
JPS61272888A JP60114803A JP11480385A JPS61272888A JP S61272888 A JPS61272888 A JP S61272888A JP 60114803 A JP60114803 A JP 60114803A JP 11480385 A JP11480385 A JP 11480385A JP S61272888 A JPS61272888 A JP S61272888A
Authority
JP
Japan
Prior art keywords
word
words
character string
input
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60114803A
Other languages
English (en)
Inventor
Masami Hashimoto
雅美 橋本
Yoshiaki Kurosawa
由明 黒沢
Haruo Asada
麻田 治男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60114803A priority Critical patent/JPS61272888A/ja
Publication of JPS61272888A publication Critical patent/JPS61272888A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は入力文字列が構成する単語、または複数の単語
を連結した合成語を簡易に、且つ効果的に認識すること
のできる単i!i認識方式に関する・〔発明の技術的背
景とその問題点〕 情報処理技術の発展に伴い、印刷、手書き入力された文
字列、または音声入力された文字列からなる単語を認識
し、その情報を計算機システムに取込むことが行われて
いる。
この単iW1*は、基本的には単語を構成する文字列の
各文字の特徴をそれぞれ検出して行われるが、個々の文
字認識結果を組合わせるだけでは、単語として正しい認
識結果が得られないことが多い。
そこで従来では、入力文字列の各文字についてそれぞれ
mlEした後、その後処理として上記各文字に対する候
補文字の組合せによって示される候補単語と、単語辞書
に予め登録された単語とを、例えば類似度計算する等し
て照合し、その照合結果に従って前記入力文字列を単語
認識するようにしている。
ところが、複数の単語を連結した合成語を示す文字列が
入力された場合、その合成語を正しく認識することがで
きないと云う不具合があった。
例えば「×本大学」なる合成語が単語として辞書登録さ
れ、「熊本大学」なる合成語が単語として辞書登録され
ていない場合に「熊本大学」なる文字列が入力されると
、その4文字中の「本」r大J 「学Jなる3文字につ
いて高い認識結果(類似度)が得られることから、「×
本大学」なる単i1!(合成R)が上記入力文字列に対
する認識結果として求められる。
このような不具合を解消するべく、認識処理対象とする
種々の合成語の全てをそれぞれ単語として辞書登録して
おくことが考えられる。しかしその為には、単語辞書と
して膨大な容量の記憶装置を必要とする。しかもこのよ
うな単語辞書を用いて単語照合するには、その認識処理
に多大な時間を必要とする等の不具合があった。
〔発明の目的〕 本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字列が複数の単語を結合
した合成語であるとき、これを合理的に、且つ効果的に
H!i!することのできる単語認識方式を提供すること
にある。
(発明の概要〕 本発明は、入力文字列の各文字をそれぞれ認識して求め
られた各入力文字に対する候補文字から、上記入力文字
列が構成する単語、または複数の単語を連結した合成語
を認識するに際し、合成語が複数の単語を所定の関係に
従って連結して構成されることに鑑みて、合成語を構成
する単語をその種類に応じて分類した複数の単語辞書を
構成し、これらの各単語が相互に連結して合成語を構成
するときの単語辞書間の接続規則を記述した文法を用い
て入力文字列を単語単位に分割し、これらの各単語単位
毎に上記各単語辞書を選択的に参照して単R認識し、こ
れらの認識単語を連結して前記入力単語列を認識処理し
てなることを特徴とするものである。
〔発明の効果〕
かくして本発明によれば、入力文字列を、その合成語を
構成する単語単位に分割してそれぞれ単語認識し、それ
らの認識単語を連結して合成語を認識するので、合成語
を構成する単語毎に高い認識結果を得ることができ、そ
の3111度の向上を図ることができる。また分割され
た各単語単位の認識処理が、他の単語単位の認識結果に
よって左右されることがないので、従来のように入力文
字列を統一的に認識処理対象とした場合のような不具合
を招来することがない。
しかも単語辞書がその種類別に分類されているので、上
記文法規則に従って入力文字列を合理的に認識処理する
ことができる。また従来のように単語の組合せとして種
々構成される合成語をそれぞれ単語として辞書登録する
必要がないので、同じ単語の重複した辞書登録が不要で
あり、単語辞書の構成の簡略化を図って辞書容量の削減
を図ることができる等の効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例方式を適用した単語認識装置の要部概略
構成図である。
文字認識部1は入力文字列を構成する各文字を認lI処
理し、各文字に対する認識文字候補をそれぞれ求めてい
る。この文字認識は、入力文字列を構成する各文字の特
徴情報と、文字認識辞書に登録された認識対象文字の特
徴情報との類似度を計算する等して行われる。尚、入力
文字列は手書き入力された文字列、印刷文字を読取り入
力した文字列、或いは入力音声をWtiii処理して文
字コードに変換した文字列等として与えられる。
この文字認識部1にて求められた入力文字列の各文字に
対する文字認識結果(文字候補)は順次重R認識部2に
転送され、その単語情報バッファ3に蓄えられる。
単語i!識部2は、上記単語情報バッファ3に蓄えられ
た認識文字列を1つの単語を構成する文字列として、或
いは複数の単語の組合せからなる合成語を構成する文字
列として単語単位に切出し、これを単語類似度計算部4
に読出して単語辞書5に予め登録された認識対象単語と
の間の類似度計算を実行している。そして単語辞書5に
登録された単語の中で上記文字列との間で最も類似度の
高い単語を、その単語i!識結果として求めている。
即ち、上記単語情報バッファ3からの文字列の読出し、
および前記単語辞書5からの認識対象単語の読出しは、
コントローラ6によって制御されている。コントローラ
6は、単語情報バッフ?3に格納された文字列の文字数
を検出し、また文法辞書7に格納された文法規則を文法
解析部8にて解析し、この文法解析結果と上記文字数の
情報とに従って上記単語情報バッファ3に格納された入
力文字列を単語候補単位毎に分割している。そして単語
類似度計算部4にて、前記単語辞書5から選択的に読出
した単語と上記分割された各単語候補単位との間の類似
度計算を行わせ、その類似度計算結果を判定している。
この制御によって前記入力文字列に該当する単語が見出
だされた場合、その単語を入力文字列に対する!!識結
果として、また分割された単語候補毎にそれぞれ該当す
る単語が見出だされた場合には、それらの認識単語を結
合した合成語を上記入力文字列に対するml結果として
求めている。
この単1[識処理について更に詳しく説明すると、単語
辞書5は、合成語を構成する単語をその種類に応じて分
類し、各種別毎に独立して格納した複数の辞書ファイル
として構成される。例えば認識処理対象とする合成語が
学校名である場合、その合成語は一般に地名・名称を示
す単語、専攻科目を示す単語、学校種別を示す単語の組
合せとして構成される。そこでこのような場合には上記
単語辞書5は、例えば第2図に示すように「日本」「東
京」 「横浜」等の地名・名称を表す単語のみを分類し
て格納した辞書ファイル5a1「工業」「医科」 「歯
科」 「商業」 「理科」等の専攻科目を示す単語だけ
を分類して格納した辞書ファイル5b1「大学」「高校
」「学院」等の学校の種別を示す単語だけを分類して格
納した辞書ファイル5Cとして実現される。
しかして上記学校名を認識対象とする為の文法規則とし
ては、上記各辞書ファイル5a、 5b、 5cにそれ
ぞれ分類登録された単語を相互に連結して合成語を構成
する為の連結規則が、例えば第2図中に示すように準備
される。第2図中に示す文法規則 rs−+ACJ は、入力された全体の文字列Sが、部分文字列(未知単
語)Aの後に上記辞書ファイル5Cに格納された単語が
連結されて合成語を構成することを意味している。また rA−+ aBJ  rB−+bBJ は、部分文字列A(B)が、辞書ファイル5a(5b)
に登録された単語の後に部分文字列Bが結合されること
を意味し、更に rB−)b J は、部分文字列Bが辞書ファイル5bに格納された単語
によって構成されることを意味している。具体的には、
ここでは英記号の大文字によって任意の単語を構成する
文字列を表現し、英記号の小文字によってその該当単語
が登録された辞書ファイルの種別を特定している。従っ
て今、各辞書ファイルsa、 sb、 scにそれぞれ
登録された単語をり。
b、cとした場合、入力文字列Sは、 5−Ac−aBc−abBc−abbcor(纏abc
) として構成されることが文法規則として与えられること
になる。
しかして第2図に示すように、「東京医科歯科大学jな
る8文字からなる入力文字列が前記文字!!!fi1部
1を介して与えられると、コントローラ6は先ずその入
力文字列(8文字)を1つの単語として認識処理する。
この単il!識処理は、入力文字列の字数に該当する単
語を単語辞書中から検索し、その辞書登録された単語と
入力文字列との類似度を計算し、その類似度が所定の閾
値を越える単語を入力文字列に対する認識結果として抽
出することによって行われる。この場合、単語辞書5に
は8文字からなる単語が登録されていないことから、そ
のg!!識処理が失敗に終わる。
この認識処理の失敗を受けて前記コントローラ6は、該
入力文字列が複数の単語を連結した合成語であると判定
して前記文法辞書7を照合する。
この結果、先ず入力文字列全体に対する文法「S−+A
O」を得、入力文字列Sの末尾の文字(文字列)が単語
として辞書ファイル5Cに格納されていることを知る。
この文法解析結果に従って単語辞書バッファ3に格納さ
れた文字列からその最後の1文字を切出し、辞書ファイ
ル5Cに格納された単語との照合を行う。この照合に失
敗したときには、その切出し文字数の文字(文字列)に
該当する単語が存在しないと判定され、その切出し文字
数が1文字増される。そして今度は入力文字列の末尾2
文字について同様に単語照合が行われる。このような単
語照合が、十分精度の高い認識結果が得られるまで上記
切出し文字数を1文字づつ増やしながら繰返し行われる
。この例では、末尾2文字の切出しによって「大学」な
る単語との間で精度の高い認識処理結果が得られ、第1
段階としての単語照合処理が終了する。この結果、入力
文字列Sは、 r********* *大学成語であることが認識される。但し、*は認識処
理前の未知なる文字(文字候補)を示している。
しかる後、残された文字列Aに対する単語照合処理が行
われる。この場合には、前記文法規則7から、文字列A
に関する文法rA−+aBJが求められ、文字列Aが先
頭文字(文字列)が辞書ファイル5aに格納された単語
によって構成されることが解析される。この場合にも、
その先頭1文字について辞書ファイル5aとの照合が行
われ、更に先!!12文字について辞書ファイル5aと
の照合が行ねれる。この結果、この例では先頭2文字に
ついて「東京」なる単語認識結果が得られ、前記入力文
字列が 「東京****大学」 なる合成語を構成することが判定される。その後、残さ
れた文字列Bに対して、その文法[B→bBJ    
 ”「8→b」が解析され、同様な認識処理が行われる
この場合には、残された中央4文字の先頭文字(文字列
)に該当する単語が辞書ファイル5bに格納されている
ことが指示され、「医科」なる単語が認識される。この
結果、入力文字列は「東京医科**大学」 であることが認識される。そして残された2文字が再び
文字列Bとして辞書ファイル5bと照合され、「歯科」
なる単語が認識される。
この結果、前記入力文字列は 「東京医科歯科大学」 として単i!!l!l!IIIされ、これらの各単語W
1識結果を連結した合成語としてWX識されることにな
る。
尚、「東京工業大学」なる入力に対しては、rs−”A
CJ  ・・・(****大学)rA4 aBJ  ・
・・(東京**大学)rB4b J   ・・・(東京
工業大学)なる処理の流れによってその入力文字列が単
語単位で認識される。また「東京大学」なる入力文字列
に対してはrA−+a Jなる文法規則を用い、[S→
Ac J  ・・・(**大学)「A−+a」  ・・
・(東京大学) としてその入力文字列が認識されることになる・第3図
はこのような単語認識結果の制御の流れを示す図である
即ちコントローラ6では、先ず前記辞書5,7から辞書
登録された単語と文法規則とを読込む(ステップa)。
そして単語認識処理すべき入力文字列が存在するとき(
ステップb)、単語情報バッファ3に格納された文字列
データを読込み(ステップC)、また前記辞書7から読
込んだ文法規則を解析する(ステップd)。
その後、前記文法規則に従ってその入力文字列を構成す
る単語の他の部分文字列との結合形式を判定しくステッ
プe、f、g、h)、その結合形式に応じて重器辞書と
の照合を行う。この結合形式の¥!1定は、与えられた
文字列に対する文法解析結果に対して該文字列が ■ 単語部分と、これに続く未解析の文字列部分とから
なるか(ステップe) ■ 未解析の文字列部分と、これに続く単語部分とから
なるか(ステップf) ■ その全てが未解析の文字列部分からなるが(ステッ
プQ) ■ 切出された単語部分だけからなるか(ステップh) を判定して行われる。
しかして与えられた文字列に対する文法規則がrA4B
Jで示されるように単語部分を特定していない場合には
くステップQ)、その文字列に対する文法解析が再び行
われる(ステップ1)。この処理にてその文字列に対す
る文法規則が単語と部分文字列との組合せ(A−+aB
)であるか、或いは部分文字列と単語との組合せ(A−
+Ba)であるか、更にはその全てが単語を構成する(
A−+a )かが解析される。
このような解析結果に従って前述した文字列に対する文
法解析結果の判定が再び行われる。
そしてその文字列が単語部分と文字列部分との組合せと
して示される場合(ステップe)、或いは文字列部分と
単語部分との組合せとして示される場合(ステップf)
には、その文字列の単語部分についてその指定されたフ
ァイル名の単語辞書を用いて単語照合する(ステップj
)。この単語照合によって上記単語部分に対する候補単
語を求め、入力文字列の他の部分について既に求められ
ている候補単語が存在する場合には、これに結合する(
ステップにン。その後、その残された文字列部分に対し
て前述したステップiにより、再度文法規則の解析を行
う。
このようにして入力文字列(残された文字列)の文法解
析と、その単語部分に対する候補単語の検出を繰返す。
そしてその文字列に対する文法規則が、その文字列全体
で1つの単語を構成することを示す場合には、その部分
文字列に対して指定されたファイル名の単語辞書から順
次単語を続出  −して上記部分文字列との照合を行う
 (ステップa)。そしてその候補単語を、既に他の文
字列部分について求められた候補単語がある場合には、
これに結合する(ステップm)。このようにして求めた
単語、または複数の単語を結合した合成語を出力して(
ステップn)、その入力文字列に対する処理を終了する
このような認識処理の制御アルゴリズムに従って前述し
たような入力文字列に対する単語認識処理が行われるこ
とになる。
以上説明したように本方式によれば、合成語を構成する
入力文字列を単語単位に分割して認識処理し、その単語
認識結果を連結して合成語をg識するので、従来のよう
に種々の合成語をそれぞれ単語として辞書登録しなくて
も、合成語を構成する単語間の連結規則(文法)に従っ
て合理的に認識することができる。また合成語を構成す
る単語がその種類毎に分類されて辞書登録されているの
で、効率の良い単語照合が可能であり、その認識精度の
向上を図ることができる。しかも、合成語を構成する単
語単位に分割された各文字列の認識処理が他の文字列に
よる悪影響を受けることがないので、入力文字列の全体
に対する総合的に認識精度の向上を因ることが可能とな
る。
更には単語の重複登録が不要となるので、認識辞−の構
成の簡略化を図ることが可能となり・合理的で効率の良
い認識処理が可能となる等の実用上多大なる効果が奏せ
られる。
尚、本発明は上述した実施例に限定されるものではない
。例えば辞書ファイルの分類数は幾つでも良い。また文
法規則も上述した例に限定されるものではない。また合
成語を否定するような文法規則を導入することも可能で
ある。またここでは類似度計算によって単1!!!!l
iしたが、その他の単1!il!’!識法を導入するこ
とも勿論可能である。また入力文字列は音声入力された
ものであっても良く、要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例方式を適用した単語!!識装
置の要部概略構成図、第2図は実施例方式の処理概念を
示す図、第3図は実施例における単1!、!識処理の制
御例を示す図である。 1・・・文字認識部、2・・・単R認識部、3・・・単
語情報バッファ、4・・・単語類似度計算部、5・・・
単語辞書、601.コントローラ、7・・・文法辞書、
8・・・1文法解析部。 出願人代理人 弁理士 鈴江武彦 第2図

Claims (2)

    【特許請求の範囲】
  1. (1)入力文字列の各文字をそれぞれ認識して求められ
    た各入力文字に対する候補文字から、上記入力文字列が
    構成する単語、または複数の単語を連結した合成語を認
    識するに際し、単語の種類に応じて分類された複数の単
    語辞書間の接続構成規則を示す文法に従って上記単語辞
    書を選択的に参照して前記入力単語列を認識処理してな
    ることを特徴とする単語認識方式。
  2. (2)複数の単語辞書は、合成語を構成する単語をその
    種類に応じて分類したファイルからなり、文法はこれら
    のファイル内の単語が連結して合成語を構成するときの
    接続規則を記述したものである特許請求の範囲第1項記
    載の単語認識方式。
JP60114803A 1985-05-28 1985-05-28 単語認識方式 Pending JPS61272888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60114803A JPS61272888A (ja) 1985-05-28 1985-05-28 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60114803A JPS61272888A (ja) 1985-05-28 1985-05-28 単語認識方式

Publications (1)

Publication Number Publication Date
JPS61272888A true JPS61272888A (ja) 1986-12-03

Family

ID=14647079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60114803A Pending JPS61272888A (ja) 1985-05-28 1985-05-28 単語認識方式

Country Status (1)

Country Link
JP (1) JPS61272888A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612406A (ja) * 1991-04-19 1994-01-21 Pfu Ltd カナ住所表記およびカナ法人名表記の漢字変換処理方式

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5932080A (ja) * 1982-08-16 1984-02-21 Nippon Telegr & Teleph Corp <Ntt> 文字パタ−ンの認識処理方式
JPS60583A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS60584A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5932080A (ja) * 1982-08-16 1984-02-21 Nippon Telegr & Teleph Corp <Ntt> 文字パタ−ンの認識処理方式
JPS60583A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS60584A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612406A (ja) * 1991-04-19 1994-01-21 Pfu Ltd カナ住所表記およびカナ法人名表記の漢字変換処理方式

Similar Documents

Publication Publication Date Title
US5982929A (en) Pattern recognition method and system
US8386264B2 (en) Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
KR102015218B1 (ko) 기계 학습을 이용한 텍스트 분류 방법 및 장치
WO2017017738A1 (ja) 符号化プログラム、符号化装置、及び符号化方法
JP2989211B2 (ja) 音声認識装置における辞書制御方式
JPS62221088A (ja) 光学式文字読取装置
JPS61272888A (ja) 単語認識方式
JP5132430B2 (ja) 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム
JPH0795337B2 (ja) 単語認識方式
JPH0441388B2 (ja)
JP3188154B2 (ja) 文字認識処理方法
KR102278288B1 (ko) 음소 기반 텍스트 검색 장치 및 방법
JP2845463B2 (ja) パターン認識装置
JPH0454270B2 (ja)
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2813207B2 (ja) 音声認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS62180462A (ja) 音声入力かな漢字変換装置
JPS58186882A (ja) 手書き文字入力装置
JPS646514B2 (ja)
WO2021236052A1 (en) Inference methods for word or wordpiece tokenization
JPH07225763A (ja) 文書処理装置
JP2790064B2 (ja) 記号列読み取り装置
JPH069065B2 (ja) 単語認識装置
JPS63142422A (ja) 頻出文字列抽出方法