JPS6227800A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS6227800A
JPS6227800A JP60169163A JP16916385A JPS6227800A JP S6227800 A JPS6227800 A JP S6227800A JP 60169163 A JP60169163 A JP 60169163A JP 16916385 A JP16916385 A JP 16916385A JP S6227800 A JPS6227800 A JP S6227800A
Authority
JP
Japan
Prior art keywords
recognition
word
5core
speech
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60169163A
Other languages
English (en)
Other versions
JPH081560B2 (ja
Inventor
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP60169163A priority Critical patent/JPH081560B2/ja
Publication of JPS6227800A publication Critical patent/JPS6227800A/ja
Publication of JPH081560B2 publication Critical patent/JPH081560B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は単語を発声単位として音声を認識する単語音声
認識装置の改良に関するものである。
〈従来の技術〉 従来より、比較的低価格の音声認識装置として単語を単
位とした音声認識装置が開発されている。
この単語音声認識装置は話者に関する条件からいえば、
予め単語が決まっている不特定話者対象の音声認識装置
及び単語の選択が自由だが、予め発声者の声を登録する
必要のある特定話者対象の音声認識装置の二つに分かれ
る。また不特定話者対象の音声認識に関しても、音素単
位に入力音声を分析することによって、任意語いの認識
が可能になりつつある。
〈発明が解決しようとする問題点〉 しかしながら、従来の単語音声認識装置において、類似
した単語対が対象語い内にあれば、実際上認識が極めて
困難になるのが現状である。また特定話者対象の単語音
声認識装置では認識可能語数の増大と共に、類似単語対
の出現確率が必然的に高くなり、誤認識が生じていた。
本発明は上記の点に鑑みて創案されたものであり、認識
結果にもとずいて認識対象単語の最適化を行ない、類似
単語を無くし安定した認識対象語いで゛認識を行ない得
るようにした単語音声認識装置を提供することを目的と
している。
〈問題点を解決するための手段〉 上記の目的を達成するため、本発明は単語を発声単位と
して音声を認識する単語音声認識装置において、認識時
の発声入力に対する認識結果の正誤を指示する指示入力
手段と、この指示入力手段の入力にもとずいて認識結果
を検定する検定する手段と、この検定結果にもとずいて
誤認識の多い類似単語対を出力し、単語の入れ換えまた
は除去を報知する出力手段とを備えるように構成してい
る。
〈作 用〉 以上のような構成により、本発明においては、認識中に
認識結果の正誤を入力する指示入力手段を用いることに
より、認識結果の正誤が格納され、認識後に誤認識を多
く発生した単語対が出力され、またこのうちから最適な
消去(入れ換え)単語列が出力されるため、類似単語を
無くし、安定した認識対象語いでの認識が可能となる。
〈実施例〉 以下、図面を参照して本発明の一実施例を詳細に説明す
る。
第1図は本発明一実施例装置の構成を示すブロック図で
ある。
第1図において、101はマイクロホン、102は増幅
器、103はプリエンファシス回路、104はアンチエ
イリアスフィルタ、105は〜ろ変換器、106はワー
キングRAM、107はパターンメモリ、108はマイ
クロプロセッサ、109はプログラムメモリ、110は
文字入力装置、111は文字表示装置であり、本発明に
関連して実行される認識結果にもとすく認識対象単語の
検定処理については後述するようにプログラムメモリ1
09に格納されたプログラムてしたがってマイクロプロ
セッサ108によって実行されるように構成されている
上記のような構成において、使用者は音声認識を行ない
ながら、装置の応答に対して正しい指示を与える。
即ち、音声認識時に使用者の発声した単語発声音はマイ
クロホン101によって電気信号に変換されて装置内に
入力され、増幅器102で増幅された後、ダイナミック
レンジ及び音源特性の補正のため、プリエンファシス回
路103によって+6dB/10CTのプリエンファシ
ス処理が施され、その後、アナログ・ディジタル変換時
の折り返しノイズ除去のためのアンチエイリアスフィル
タ104を通った後、偽変換器105に入力される。A
//D変換器105によってディジタル信号に変換され
た音声信号はマイクロプロセッサ108に入力され、こ
のマイクロプロセッサ108において音声の特徴抽出及
び正規化が行なわれる。この抽出された特徴量は特定話
者対象等の単語音声認識装置では登録パス時にパターン
メモリ107に標準パターンとして格納される。
認識時、マイクロプロセッサ108において抽出された
入力音声の特徴量は予めパターンメモリ107に格納さ
れている標準パターンとマツチングされ、入力音声に対
し、第1候補の標準パターンと第2候補の標準パターン
を求める。このとき2候、補間の距離が小さいときには
りジェクトを行なう。
このようにして求められた認識結果は文字表示装置11
1に出力され、使用者はこの表示を見て正答か否かを判
断し、誤答のときには文字入力装置110の指示キー1
10aを操作して誤答である旨を装置に入力する。なお
、この指示キー110aは認識結果の第2候補等の次候
補要求の指示キーと兼用しても良い。
この文字入力装置110の指示キー110aの操作に応
答した入力1ハ号はマイクロプロセッサ108に入力さ
り、後述する正誤集計のためワーキングRAM106に
一担格納される。
このようにして、−通りの認識対象語いに対する認識を
数回行なった後、文字入力装置110からの入力指示等
により、マイクロプロセッサ108はワーキングRAM
I O6に格納されている正誤集計に基づいて、誤認識
単語対の探索を行ない、誤認識単語対及び最適消去(入
れ換え〕単語列を求め、その内容を文字表示装置111
に表示する。
使用者はこの表示に基づいて認識単語の消去または入れ
換えを行なう。
次に、誤認識回数を求める方法、及び最適消去(入れ換
え)単語列を求めるアルゴリズム、即ち本発明における
認識結果を検定する検定処理について、第2図を参照し
て説明する。
第2図は本発明における誤認識回数を求める方法及び最
適消去(入れ換え)単語列を求めるアルゴリズムについ
て示したフロー図である。
第2図において、まずステップ200において使用者が
認識対象語いを発声すると、処理のステップ201にお
いて、装置内で発声された単語の認識が行なわれる。
この認識処理の具体的方法は従来公知の方法で良く、入
力された単語音声と標準パターン301との照合により
、第1候補及び第2候補の認識結果を求め、認識結果の
第1候補を文字表示装置111に表示する。また第1候
補と第2候補については距離関係からりジェツトを判定
し、第1候補と第2候補間の距N1がある閾値より小さ
いときりジェツトを行なう。
次に処理のステップ202において、使用者は処理のス
テップ201で求められ、文字表示装置111に表示さ
れた結果に対し、正答が誤答かの判断を行なう。この処
理のステップ202の結果が誤答であった場合には、処
理のステップ203に移行して、使用者は文字入力装置
110の例えばキー110aを操作して第2候補要求を
装置に入力し、装置はこの入力に応答して第2候補を文
字表示装置111に表示する。
次に処理のステップ204において、使用者は処理のス
テップ203で文字表示装置111に表示された第2候
補の結果に対し、正答か誤答かの判断を行なう。この処
理のステップ204の結果が誤答でちった場合には、処
理のステップ205に移行して、使用者は文字入力装置
110を操作して正答の単語または単語の番号を入力す
る。
次に処理のステップ206に移行してマイクロプロセッ
サ108は誤認識を発生した単語対をワーキングRAM
I 06に格納する。
また処理のステップ204の結果が正答であった場合に
は、使用者はその旨に文字入力装置110を操作して入
力し、次の処理のステップ207に移行してマイクロプ
ロセッサ108は第2候補で正答と判断された入力音声
単語と第1候補単語を誤認識を発生した単語対としてワ
ーキングRAM106に格納する。
使用者は上記の各処理ステップを認識対象単語について
数回分の発声を行なって繰返し、その繰返し回数等を処
理のステップ208で判定して発声を終了する0 この処理のステップ208における発声の終了に応答し
て処理のステップ209に移行し、このステップ209
においてワーキングRAM106 に格納されている誤
認識結果より、誤認識単語対を誤り回数の多い対から順
にソートを行なう。
次に処理のステップ210において、処理のステップ2
09で求められた結果について、後述するbreadt
h first法により、最適消去(入れ換え)単語列
を求める。次に処理のステップ211に移行して、処理
のステップ210で求められた結果である最適消去単語
列及び認識率を文字表示装置111に出力する0 以上のような一連の処理により、認識対象語い及び認識
性能に対する所望の認識率を達成するだめの対象語いの
最適化(消去または入れ換え〕が具体的に文字表示装置
111上に報知されることKなり、使用者はこの表示内
容を見て誤認識を生じやすい単語対の消去または入れ換
えを行なって一パ認識対象語いを最適化することが可能
となる。
次に上記処理のステップ210における最適消去(寸た
は入れ換え)単語列を求めるbreadthfirst
法について説明する。
第3図は、最適消去単語列を求めるための処理フローを
説明する図であり、この方式は誤認識単語対の集合に対
して、消去することが認識率の向上に最も寄与する単語
から順に選択するアルゴリズムであり、このアルゴリズ
ムは一つ一つの単語の消去において、全体からの誤認識
回数の減少を最大にするという規範の下での最適探索で
あり、−例としてbreadth first法で解く
ことにより求めるようにしたものであり、以下に処理の
流れを説明する。
ここで、Nを消去打ち切り単語数。
Mを誤認識単語対の数。
Sを消去打ち切り点数。
j=1.・・・、L  (Lは誤認識単語)W(iL 
、)1 ): il:=t、・・・9Mjt=L  2
,3 jl=l、 2重語番号 j】−3誤り回数とする。
if処理のステップ401において、消去打ち切り単語
数N、誤認識単語対数M、誤認識単語対と頻度W(il
、 j 1)、 k、及び累積点数SGkを与えるO 次に処理のステップ402において消去単語列数kが指
定の消去打ち切り単語数Nより大きいか否かを判定して
に≧Nであれば探索を停止する。
またこのステップ402において、k≧Nでなければ処
理のステップ403に移行し、累積点数SGkが指定の
消去打ち切り点数S より犬になったか否かを判定し、
SGk≧S になったときに探索を停止する。なお、こ
の指定の消去打ち切り点数S が仕様として満足すべき
装置の認識率と比例関係を持っている。
また、このステップ403においてSGk≧Scでなけ
れば処理のステップ404に移行する。この処理のステ
ップ404においてはに段目において、各単語を消去し
たときの誤り点数を求める。
このとき別の誤認識単語対に同一の単語が含まれている
場合は、両者の誤り点数の和とする。
即ち、GドはW(il、)として W(41、1)またはW(il、2)=jのときG坪=
Gド+W(il、3) j として求められる。
次に処理のステップ405に移行し、このステップ40
5において、1(−1段までの消去単語列による累積点
数SGkに上記の処理のステップ404で求めた点数G
kを加え、この値が最大(MAX)になる単語をに段の
消去単語とする。
実際には、どの経路で加算しても重みが1であるため、
ステップ404で最大値を示すものについて加えれば良
いことになる。
次にステップ406に移行し、上記の処理のステソゲ・
105において消去列に選ばれた単語を含む誤認識単語
対の点数を「0」にする。
ぎW(]1,3)=0とする。これは以後の計算におい
て2重のカウントを避けるための処理である。
以上の各処理をステップ402または403の条件が満
足されるまで続行して最適消去単語列を求める。
次に第1表に示す100個の都市名を特定話者単語認識
方式にて認識する装置に上記した本発明に係る最適類似
単語列消去機能を附加した場合の具体例を示す。
第1表 100都市名 第1表に示した100都市名の単語を実際に発生して、
第1図に示した装置内で認識しくステップ201)、そ
の認識結果に対して正答か誤答かの指示入力を行なう(
ステップ202〜205)ことにより誤認識単語対とそ
の頻度がワーキングRAM 106に格納される(ステ
ップ206.207晃このような処理を上記の100都
市名に対して数回繰返した後、ワーキングRAM106
内の誤認識単語対を誤認識回数でソートする(ステップ
209)ことにより、以下に示す誤認識単語対とその頻
度情報を得る。
Na175INJOO5INGUU   5CORE=
>2N(118ZAMA          N0DA
       5CORE=>2N[119MITOI
YO5CORE=>2Nα20 5OOJA     
    5OOKA      5CORE=>2Na
21  YASUGI        TOCHI(8
5CORE=>2Nα22  ZAMA       
   NAHA      5CORE=>2N[L2
3  KOGANEI       TSURU   
  5CORE=>2Nα24  YASUGI   
      ZENTSUUJI  5CORE=>2
Nα25  TSURUGA       FUJII
DERA  5CORE−>2NIL 26  EBI
NA         ENIWA     5COR
E=>INα27  T31SAI         
BIZEN     5CORE=>INα28  D
ATE          YOKOTE    5C
ORE=>INα29 5ENDAI        
 ENZAN      5CORE=>INα30 
 TSURU         CHIRYUU   
 5CORE=>IN[131KOOFtJ[)OZU
SCORE=>INα32  NANYOOTENDO
O5CORE=>lN133  MOOKA     
    5OOKA      5CORE=>INα
34  KITAMI         BIBAI 
     5CORE=>INα35  YOKOTE
        KIYO5E     5CORE=
>lN136 5ANJOOTENDOO5CORE=
>1を框37 5UZU           MUT
SIJ      5CORE=>IN(L 38  
HONJ 00         TlミNDOO5C
ORE=>INu 39 5ASEBOT、AKEO5
CORE=>1を枢40  HISAI       
   ASAHI      5CORE=>INl 
41  GOBOOWAKOO5CORE=>114a
 42  KAMo          KAZO5C
ORE=>tN[L 43  BI SA I    
     ASAHI      5CORE=>IN
α44  DATE           KURE 
      5CORE=>lN145  TENDO
OMEGLIRO5CORE=>lN146 F(月I
         HAGI      5CORE=
>IN(L 47  HOOYA         N
0DA       5CORE=>INα48 5O
OKA         N0DA       5C
ORE=>INα49  NANYOO5ANJOO5
CORE=>lN150  TENDOO5INJOO
5CORE=>INα51  HOOYA      
    KOOBE      5CORE=>]Nα
52  WARABI         ASAHI 
     5CORE=>lN1153  TOCHI
GI        5EKI       5COR
E−=>IN[L54 1YOHIMI       
 5CORE=>INα55KITAMIYAMESC
ORE=>INα56NIJMAZUUOZI)SCO
RE=>1m57  UBE            
MINE       5CORE=>1随58 5I
NJOOCHIBA      5CORE=>INu
59  BISAI          RIJMOI
      5CORE=>INIL60  DATE
           N[N0HE     5CO
RE=>IN[L61  YONAGO5USONO5
CORE=>INα62  RUMOI       
   BUZEN      5CORE=>1随63
  MANE            KURE   
    5CORE=>]jくα64  DATE  
         TORIDE     5CORE
=>1j框65  ZAMA           H
ONDO5CORE=>IN[L66  WAKOON
ANYOO5CORE=>11框67 5ASEBO5
USONO5CORE=>IN[L68 5ASEBO
KAZO5CORE=>INα69 5ASEBOYO
NAGO5CORE=>INα70  YUUKI  
         MORIGUCHI  5CORE
=>LNα71  NUMAZU         N
lN0HE     5CORE−>INα72  N
IHONMATSU     MOOKA      
5CORE−>1随73  RIKtJZENTAKA
DA  ENZAN      5CORE−>INα
74  YUKUHASHI       KOGAN
EI    5CORE=>INα75 5LISON
ON0DA        5CORE=>INα76
  zus+            KooFu  
    5CORE=>1j4α77  MAS[JD
A          MUTSU      5CO
RE=>INα78  RUMOI         
  ENZAN      5CORE=>INα79
  RUMOI           GOBOO5C
ORE=>lN180  GUSIKAWA     
   MUKOO5CORE=>1ト1α811YON
EMURO5CORE=>1N[L82  NEYAG
A〜’/A       N0DA        5
CORE=>INα83  TSURUGA     
    NIIZA      5CORE=>INα
84  GOBOON0DA        5COR
E=>INα85  Z(JSI          
  YUUKI       5CORE=>INα8
6  MUKOOMITO5CORE=>IN[L87
  ZENTSUUJI       IBUSUKI
    5CORE=>INα88  NUMAZU 
         N0DA       5CORE
=>INα89  NIHONMATSU     N
0DA        5CORE=>]N1190 
00MUTA         KOOBE     
 5CORE=>IN[L91  KUROISONU
MAZU      5CORE=>INα92  t
JOZU            IYO5CORE=
>1このようにして得られた誤認識単語対とその頻度情
報にもとずいて、第3図に示した最適消去(入れ換え)
単語列を求める探索処理を施すことにより、第2表に示
す最適消去単語列を得る。
第2表 最適消去単語列 なお、第2表に示した最適消去単語列の探索結果は消去
打ち切り単語数Nを15に設定すると共に消去打ち切り
点数Scを140に設定しで探索したものであり、累積
点数(GLOBAL)は認識率と比例しており、その認
識率を併記している。
また、この消去単語数と認識率の関係を第4図に示して
いる。
この第4図からも明らかなように、最適消去(入れ換え
)単語列を探索することにより、極めて効果的に認識対
象単語から認識率低下要素を除去することが可能となる
〈発明の効果〉 以上のように本発明によれば、認識時の発声入力に対す
る認識結果の正誤を指示入力し、認識後にこの結果を検
定することにより、誤認識の多い類似単語対が出力され
ることになり、使用者はその出力に応答して単語の入れ
換え、除去等を効果的に行なうことが可能となり、その
結果単語音声認識装置の認識率を効果的に向上させるこ
とができる0
【図面の簡単な説明】
第1図は本発明の一実施例装置の構成を示すブロック図
、第2図は本発明における誤認識回数及び最適消去(入
れ換え)単語列を求めるアルゴリズムについて示したフ
ロー図、第3図は最適消去単語列を求めるための処理フ
ローを示す図、第4図は消去単語数と認識率との関係を
示す図である。 101・・・マイクロホン、  105・・・A4変換
器、106・・・ワーキングRAM、  107・・・
パターンメモリ、108・・・マイクロプロセッサ、1
09・・・プログラムメモリ、110・・・文字入力装
置、  110a・・・正誤指示キー、111・・・文
字表示装置。 代理人 弁理士 福 士 愛 彦(他2名)第1  U 第2図 第3図

Claims (1)

  1. 【特許請求の範囲】 1、単語を発声単位として音声を認識する単語音声認識
    装置において、 認識時の発声入力に対する認識結果の正誤を指示する指
    示入力手段と、 該指示入力手段の入力にもとずいて認識結果を検定する
    検定手段と、 該検定結果にもとずいて誤認識の多い類似単語対を出力
    し、単語の入れ換えまたは除去を報知する出力手段と を備えたことを特徴とする単語音声認識装置。 2、前記指示入力手段は、認識時の発声入力に対する認
    識結果を複数候補まで求め、第1に第1候補を表示し、
    誤認識のとき第2候補の表示を求めるキー入力手段を兼
    ねてなり、前記検定手段は上記キー操作を認識結果の正
    誤の指示として格納し、認識後結果を検定する手段を含
    んでなることを特徴とする特許請求の範囲第1項記載の
    単語音声認識装置。
JP60169163A 1985-07-29 1985-07-29 単語音声認識装置 Expired - Fee Related JPH081560B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60169163A JPH081560B2 (ja) 1985-07-29 1985-07-29 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60169163A JPH081560B2 (ja) 1985-07-29 1985-07-29 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS6227800A true JPS6227800A (ja) 1987-02-05
JPH081560B2 JPH081560B2 (ja) 1996-01-10

Family

ID=15881435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60169163A Expired - Fee Related JPH081560B2 (ja) 1985-07-29 1985-07-29 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPH081560B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59154498A (ja) * 1983-02-23 1984-09-03 三菱電機株式会社 音声入力装置
JPS59167636A (ja) * 1983-03-15 1984-09-21 Matsushita Electric Ind Co Ltd 加熱装置
JPS6063900U (ja) * 1983-10-05 1985-05-04 カシオ計算機株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59154498A (ja) * 1983-02-23 1984-09-03 三菱電機株式会社 音声入力装置
JPS59167636A (ja) * 1983-03-15 1984-09-21 Matsushita Electric Ind Co Ltd 加熱装置
JPS6063900U (ja) * 1983-10-05 1985-05-04 カシオ計算機株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH081560B2 (ja) 1996-01-10

Similar Documents

Publication Publication Date Title
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
JP4574390B2 (ja) 音声認識方法
JP3967952B2 (ja) 文法更新システム及び方法
JP4816409B2 (ja) 認識辞書システムおよびその更新方法
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
JP5093963B2 (ja) 置換コマンドを有する音声認識方法
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
KR20070060581A (ko) 화자적응 방법 및 장치
JP2005534983A (ja) 自動音声認識の方法
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20170270923A1 (en) Voice processing device and voice processing method
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP4293340B2 (ja) 対話理解装置
JP2015060210A (ja) データ収集装置、音声対話装置、方法およびプログラム
JPS6227800A (ja) 単語音声認識装置
JP2009086063A (ja) 音声認識装置およびコンピュータプログラム
JP2009075249A (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP4877112B2 (ja) 音声処理装置およびプログラム
JP2005283646A (ja) 音声認識率推定装置
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP2867695B2 (ja) 連続音声認識装置
JP3868798B2 (ja) 音声認識装置
JP5522679B2 (ja) 検索装置
JP2005173008A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees