JPS62291700A - 連続数字音声認識方式 - Google Patents
連続数字音声認識方式Info
- Publication number
- JPS62291700A JPS62291700A JP61134460A JP13446086A JPS62291700A JP S62291700 A JPS62291700 A JP S62291700A JP 61134460 A JP61134460 A JP 61134460A JP 13446086 A JP13446086 A JP 13446086A JP S62291700 A JPS62291700 A JP S62291700A
- Authority
- JP
- Japan
- Prior art keywords
- digits
- distance
- digit
- normalized
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
3、発明の詳細な説明
〔概要〕
単純に桁数による正規化距離をもって入力桁数の決定を
行うのではなく、その前後の認識結果のセグメンテーシ
ョンと距離を比較し、それぞれの共通しない部分のみを
対象にして正規化を行い、桁数を決定する連続数字音声
認識方式である。
行うのではなく、その前後の認識結果のセグメンテーシ
ョンと距離を比較し、それぞれの共通しない部分のみを
対象にして正規化を行い、桁数を決定する連続数字音声
認識方式である。
本発明は連続数字認識時の桁数誤りを減少させる連続数
字音声認識方式に関するものである。
字音声認識方式に関するものである。
従来の連続数字音声認識では、最初に終端レベルD P
(Dynamic Programmig :動的計
画法)を行い、次に始終端レベルDPを行い、最後に文
レベルDPを行っている。第4図は終端レベルDPを説
明する図である。終端レベルDPにおいては、入カバタ
ーンAと登録パターンB (n)との照合を行う。照合
終了時に入力側の各フレームを終端とする最適なマツチ
ング・ルートを通ったDP距離DC(m、n)が計算さ
れる。但し、mは入カバターンのフレーム位置、nは登
録語を指す。このDC(m、 n)を登録パタージ長の
2倍で割って時間正規化した距離D R(m、 n)を
闇値により削減する。これにより終端候補を限定する方
法である。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば10m
秒である。第5図は始終端レベルDPを説明する図であ
る。始終端レベルDPでは、終端レベルDPで限定され
た終端から登録パターンと始端方向にDP照合を行う。
(Dynamic Programmig :動的計
画法)を行い、次に始終端レベルDPを行い、最後に文
レベルDPを行っている。第4図は終端レベルDPを説
明する図である。終端レベルDPにおいては、入カバタ
ーンAと登録パターンB (n)との照合を行う。照合
終了時に入力側の各フレームを終端とする最適なマツチ
ング・ルートを通ったDP距離DC(m、n)が計算さ
れる。但し、mは入カバターンのフレーム位置、nは登
録語を指す。このDC(m、 n)を登録パタージ長の
2倍で割って時間正規化した距離D R(m、 n)を
闇値により削減する。これにより終端候補を限定する方
法である。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば10m
秒である。第5図は始終端レベルDPを説明する図であ
る。始終端レベルDPでは、終端レベルDPで限定され
た終端から登録パターンと始端方向にDP照合を行う。
照合終了後に入力側の各フレームを始端とするDP距離
D r (m+ ttn)が計算される。
D r (m+ ttn)が計算される。
但し、mは部分パターンの終端、lは始端、nは登録語
である。このDI(m+ 11 n)を登録パターン長
と部分パターン長の和で時間正規化した距離DI (
m、Ln)を求める。これにより、部分パターンmwl
を求める方法である。第6図は文レベルDPを説明する
図である。文レベルDPでは、始終端DPにより求めら
れた部分パターンを用いて、最適な単語の結合を求める
。文レベルDPを行い、音声の入力終端における各桁毎
の累積距離をその桁数で正規化した距離が最小のものを
認識結果としている。第6図の場合には、2桁として認
識される。
である。このDI(m+ 11 n)を登録パターン長
と部分パターン長の和で時間正規化した距離DI (
m、Ln)を求める。これにより、部分パターンmwl
を求める方法である。第6図は文レベルDPを説明する
図である。文レベルDPでは、始終端DPにより求めら
れた部分パターンを用いて、最適な単語の結合を求める
。文レベルDPを行い、音声の入力終端における各桁毎
の累積距離をその桁数で正規化した距離が最小のものを
認識結果としている。第6図の場合には、2桁として認
識される。
この方法であると、入力桁数の前後桁での桁数正規化距
離が殆ど等しい場合があり、単純にその距離の大小で桁
数を決定しているため入力桁数の前後桁へバラつく傾向
があった。中でも、音声辞書のパターンと入力数字列の
一部の数字パターンとが特に良くマツチングし、その認
識距離が小さくなった場合など、実際の入力桁数より小
さい桁数として認識されてしまうものが見られた。
離が殆ど等しい場合があり、単純にその距離の大小で桁
数を決定しているため入力桁数の前後桁へバラつく傾向
があった。中でも、音声辞書のパターンと入力数字列の
一部の数字パターンとが特に良くマツチングし、その認
識距離が小さくなった場合など、実際の入力桁数より小
さい桁数として認識されてしまうものが見られた。
本発明は、この点に鑑みて創作されたものであって、連
続数字認識時の桁数誤りを減少させて、可能な限り桁数
既知時の認識率に近づけることを目的としている。
続数字認識時の桁数誤りを減少させて、可能な限り桁数
既知時の認識率に近づけることを目的としている。
従来の方法で求めた桁数の前後桁において認識結果のセ
グメンテーションと距離とを比較し、共通部分のパスは
充分信用できるパスとして外し、その他の共通しない部
分のパスは曖昧なパスと見做し、その部分のみを対象と
して残りの桁で正規化距離を求め、その値が小さい方の
桁数を最適桁数として選択する。第1図の例においては
、従来の方法では正規化距離がそれぞれ138,137
で3桁となるが、本発明を適用すると、175゜180
となり、4桁であると認識される。
グメンテーションと距離とを比較し、共通部分のパスは
充分信用できるパスとして外し、その他の共通しない部
分のパスは曖昧なパスと見做し、その部分のみを対象と
して残りの桁で正規化距離を求め、その値が小さい方の
桁数を最適桁数として選択する。第1図の例においては
、従来の方法では正規化距離がそれぞれ138,137
で3桁となるが、本発明を適用すると、175゜180
となり、4桁であると認識される。
第2図は本発明のハードウェア構成の1例を示す図であ
る。第2図において、■はマイクロプロセッサ、2はフ
ィルタ、3はDP処理装置、4は音声出力アダプタ、5
は直列インタフェース、6はフロッピィ・ディスク装置
をそれぞれ示している。マイクロプロセッサ1は、イン
テル80862 (8MHz)を使用しており、処理速
度−命令平均3μ秒、メモリ容量768KB(音声出力
情報、認識辞書各256KB)である。フィルタ2は、
200 Hz 〜5 K Hzの周波数帯を16に分割
し、各チャネル12bitの値をサンプリングして10
m秒毎に割り込みを発生するものである。DP処理装置
3は、パターン照合によって近似度を求めるものである
。音声出力アダプタ4は、PACOR方式により最大4
00秒の音声合成を行うものである。フロッピィ・ディ
スク装置6は、5174インチ2HDフロツピイ・ディ
スクであり、音声出力情報や認識単語情報、個人辞書を
保持する。
る。第2図において、■はマイクロプロセッサ、2はフ
ィルタ、3はDP処理装置、4は音声出力アダプタ、5
は直列インタフェース、6はフロッピィ・ディスク装置
をそれぞれ示している。マイクロプロセッサ1は、イン
テル80862 (8MHz)を使用しており、処理速
度−命令平均3μ秒、メモリ容量768KB(音声出力
情報、認識辞書各256KB)である。フィルタ2は、
200 Hz 〜5 K Hzの周波数帯を16に分割
し、各チャネル12bitの値をサンプリングして10
m秒毎に割り込みを発生するものである。DP処理装置
3は、パターン照合によって近似度を求めるものである
。音声出力アダプタ4は、PACOR方式により最大4
00秒の音声合成を行うものである。フロッピィ・ディ
スク装置6は、5174インチ2HDフロツピイ・ディ
スクであり、音声出力情報や認識単語情報、個人辞書を
保持する。
次に本発明の詳細について説明する。終端レベルDP、
始終端レベルDP及び文レベルDPを行い、複数の候補
が得られたとする。今、kを桁数で正規化した距離比較
で最も近いと見做されたものの桁数とし、B (K)を
桁数にの候補数字列とした場合、B (K)とB(K+
1) 、 B(K)とB (K−1)についてそれぞ
れ、候補と位置が共に一致する部分があった場合に限り
、そこを除いた部分を再照合対象として再度距離の正規
化を行い、照合する。
始終端レベルDP及び文レベルDPを行い、複数の候補
が得られたとする。今、kを桁数で正規化した距離比較
で最も近いと見做されたものの桁数とし、B (K)を
桁数にの候補数字列とした場合、B (K)とB(K+
1) 、 B(K)とB (K−1)についてそれぞ
れ、候補と位置が共に一致する部分があった場合に限り
、そこを除いた部分を再照合対象として再度距離の正規
化を行い、照合する。
再照合対象部分は、現候補削減方法においては終端と候
補テンプレートが一致する部分を除いた部分であり、ま
た、単語区間中点による候補削減方法においては単語区
間中点と候補テンプレートが一致する部分を除いた部分
である。次に正規化方法を説明する。B (K)のB(
j)に対する再照合距離Dk1、を次のように定義する
。
補テンプレートが一致する部分を除いた部分であり、ま
た、単語区間中点による候補削減方法においては単語区
間中点と候補テンプレートが一致する部分を除いた部分
である。次に正規化方法を説明する。B (K)のB(
j)に対する再照合距離Dk1、を次のように定義する
。
i=1
但し、
n (k、j)はB(Dに対するB (k)の再照合対
象の数字の個数、 D kl jl五はB(j)に対するB (k)の再照
合対象のi番目の数字に対する正規化距離、 Lk+j+i はその数字の入力側のフレーム数である
。判定方法は下記のようものである。
象の数字の個数、 D kl jl五はB(j)に対するB (k)の再照
合対象のi番目の数字に対する正規化距離、 Lk+j+i はその数字の入力側のフレーム数である
。判定方法は下記のようものである。
+l) B (k)とB(kl1) 、 B(k)
とB (k−1)とが一致部分を持たない場合には、k
桁を最終桁数とする。
とB (k−1)とが一致部分を持たない場合には、k
桁を最終桁数とする。
(2) B(k)とB (kl1)は一致部分を持つ
けれども、B (k)とB (k−1)は一致部分を持
たない場合は、次のようにする。
けれども、B (k)とB (k−1)は一致部分を持
たない場合は、次のようにする。
(a) Dk、、、に≧D1111141ならばに桁
を最終桁数トする。
を最終桁数トする。
(b) D、、、、に≦D+t、m*+ならばに桁を
最終桁数とする。
最終桁数とする。
(31B(k) とB (k−1)は一致部分を持つけ
れども、B (k)とB (kl1)は一致部分を持た
ない場合は、次のようにする。
れども、B (k)とB (kl1)は一致部分を持た
ない場合は、次のようにする。
(a) Dk、*−+ ≦Dk−1nkならばに桁を
最終桁数とする。
最終桁数とする。
(b) D 11+ k−1≧Dj+−1+にならば
に一1桁を最終指数とする。
に一1桁を最終指数とする。
+4) B(k)とB(kl1) 、 B(k)とB
(k−1)とが共に一致部分を持つ場合は次のように
する。
(k−1)とが共に一致部分を持つ場合は次のように
する。
(a) Dk−+、m≧D1++Il++且つDm+
++−+ > Dk−1+11ならばに一1桁を最終
桁数とする。
++−+ > Dk−1+11ならばに一1桁を最終
桁数とする。
fbl Dm−+、m≧Dk、に*+且つD kl
v−1≦Dk−6にならばに桁を最終桁数とする。
v−1≦Dk−6にならばに桁を最終桁数とする。
(C)Dk、l、k<百11+Il+1且つDk、に−
1≦Dつ−1,。
1≦Dつ−1,。
ならばに+1を最終桁数とする。
(d) Dk−+、h < D、M、m。1且つDl
l+I+−1> I)+−++hならばに桁を最終桁数
とする。
l+I+−1> I)+−++hならばに桁を最終桁数
とする。
第3図は第2図のマイクロプロセッサの処理を説明する
図である。
図である。
■ フィルタからフィルタ・パラメータを読み出す。
■ フィルタ・パラメータから音声パラメータを計算す
る。
る。
■ DPPに人力音声パラメータと登録パラメータを書
き込み、DPPハードをスタートさせる。
き込み、DPPハードをスタートさせる。
■ DPPからDP距離を読み出し、距離を正規化し、
終端候補を限定する。
終端候補を限定する。
■ DPPに入力音声パラメータと終端候補の登録パラ
メータを書き込み、DPPハードをスタートさせる。
メータを書き込み、DPPハードをスタートさせる。
■ DPPからDP距離を読み出し、距離を正規化し、
始端を求める。
始端を求める。
■ 部分パターンを用いて最適な結合を求める。
■ 全ての終端候補について終了したか否かを調べ、Y
eSのときは■の処理を行い、NOのときは■の処理に
戻る。
eSのときは■の処理を行い、NOのときは■の処理に
戻る。
■ 桁数を決定する。
[相] 桁数の再正規化を行う。
■ 得られた結果を送信する。
0 音声出力ありか否かを調べる。Yesのときは0の
処理を行う。
処理を行う。
■ 音声を出力する。
以上の説明から明らかなように、本発明によれば、認識
率の高い人には大した効果が期待できないが、認識率の
低い人(大抵の場合、桁数未知時と桁数既知時の認識率
の差は大きい)の場合には、可なりの認識率の向上が期
待できる。
率の高い人には大した効果が期待できないが、認識率の
低い人(大抵の場合、桁数未知時と桁数既知時の認識率
の差は大きい)の場合には、可なりの認識率の向上が期
待できる。
第1図は本発明の詳細な説明する図、第2図は本発明の
ハードウェア構成例を示す図、第3図はマイクロプロセ
ッサの処理を示す図、第4図は終端レベルDPを説明す
る図、第5図は始終端レベルDPを説明する図、第6図
は文レベルD Pを説明する図である。 1・・・マイクロプロセッサ、2・・・フィルタ、3・
・・DP処理装置、4・・・音声出力アダプタ、5・・
・直列インタフェース、6・・・フロッピィ・ディスク
装置。 特許出願人 富士通株式会社 代理人弁理士 京 谷 四 部 上前−flW棉゛ 3お1瀕1闇゛ 木登a月の亨既瞥 ハード゛ウェア環へ例 躬2図 (IIL) (し) y−鳩しR1し’DP 第斗図 6婢り 軸#も魂しベ゛ルDP 文レベルつP 第6図
ハードウェア構成例を示す図、第3図はマイクロプロセ
ッサの処理を示す図、第4図は終端レベルDPを説明す
る図、第5図は始終端レベルDPを説明する図、第6図
は文レベルD Pを説明する図である。 1・・・マイクロプロセッサ、2・・・フィルタ、3・
・・DP処理装置、4・・・音声出力アダプタ、5・・
・直列インタフェース、6・・・フロッピィ・ディスク
装置。 特許出願人 富士通株式会社 代理人弁理士 京 谷 四 部 上前−flW棉゛ 3お1瀕1闇゛ 木登a月の亨既瞥 ハード゛ウェア環へ例 躬2図 (IIL) (し) y−鳩しR1し’DP 第斗図 6婢り 軸#も魂しベ゛ルDP 文レベルつP 第6図
Claims (1)
- 終端レベル動的計画法で得られた終端候補について始終
端レベル動的計画法及び文レベル動的計画法を行って音
声の入力終端における各桁毎の累積距離をその桁数で正
規化して距離を求める連続数字音声認識方式において、
正規化した距離が最小である桁数にの候補数字列をB(
k)とするとき、B(k)とB(k+1)又はB(k)
とB(k−1)についてそれぞれ候補と位置が共に一致
する部分があった場合に限り、そこを除いた部分を再照
合対象として再度距離の正規化を行って再照合距離@D
@_k_+_1、_k、@D@_k、_k_+_1、@
D@_k、_k_−_1、@D@_k_−_1、_kを
求め、これらの再照合距離をも参照して、入力された連
続数字音声の認識結果を求めることを特徴とする連続数
字音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61134460A JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61134460A JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62291700A true JPS62291700A (ja) | 1987-12-18 |
JPH0443600B2 JPH0443600B2 (ja) | 1992-07-17 |
Family
ID=15128849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61134460A Granted JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62291700A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195791A (ja) * | 1997-07-31 | 1999-04-09 | Lucent Technol Inc | 音声認識方法 |
-
1986
- 1986-06-10 JP JP61134460A patent/JPS62291700A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195791A (ja) * | 1997-07-31 | 1999-04-09 | Lucent Technol Inc | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH0443600B2 (ja) | 1992-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0319140B1 (en) | Speech recognition | |
JP2002533789A (ja) | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 | |
EP1141943B1 (en) | Speaker recognition using spectrogram correlation | |
JPS61219099A (ja) | 音声認識装置 | |
JPS62291700A (ja) | 連続数字音声認識方式 | |
JPH0558553B2 (ja) | ||
JP4244524B2 (ja) | 音声認証装置、音声認証方法、及びプログラム | |
JPS6147999A (ja) | 音声認識装置 | |
JP2655637B2 (ja) | 音声パターン照合方式 | |
JP3031081B2 (ja) | 音声認識装置 | |
JP3004749B2 (ja) | 標準パターン登録方法 | |
JPH03179498A (ja) | 音声日本語変換方式 | |
JPS6225797A (ja) | 音声認識装置 | |
JPS58159598A (ja) | 単音節音声認識方式 | |
WO1987003127A1 (en) | System and method for sound recognition with feature selection synchronized to voice pitch | |
JPS61200596A (ja) | 連続音声認識装置 | |
JP2744622B2 (ja) | 破裂子音識別方式 | |
JP3011984B2 (ja) | パターン照合方法 | |
JP2665543B2 (ja) | 音声認識装置 | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
JPS60147797A (ja) | 音声認識装置 | |
JPS6147994A (ja) | 音声認識方式 | |
JPS6155680B2 (ja) | ||
JPS63104098A (ja) | 音声認識装置 | |
Yong-Joo et al. | A Time Reduction Algorithm Using Vowel Classification for Large-Vocabulary Speech Recognition |