JPS6117196A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6117196A JPS6117196A JP59138788A JP13878884A JPS6117196A JP S6117196 A JPS6117196 A JP S6117196A JP 59138788 A JP59138788 A JP 59138788A JP 13878884 A JP13878884 A JP 13878884A JP S6117196 A JPS6117196 A JP S6117196A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- section
- parameter
- distance
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声を認識する音声認識装置に関する。
背景技術とその問題点
従来、音声の発声速度変動に対処した音声認識装置とし
て例えば特開昭50−96104号公報に示されるよう
なりPマツチング処理を行なうようにしたものが提案さ
れている。
て例えば特開昭50−96104号公報に示されるよう
なりPマツチング処理を行なうようにしたものが提案さ
れている。
先ず、このDPマツチング処理にて音声認識を行なうよ
うにした音声認識装置について説明する。
うにした音声認識装置について説明する。
第1図において、(1)は音声信号入力部としてのマイ
クロホンを示し、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析部(2
)にて音響パラメータ時系列Pi(nlが得られる。
クロホンを示し、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析部(2
)にて音響パラメータ時系列Pi(nlが得られる。
この音響分析部(2)において例えばバンドパスフィル
タバンクの整流平滑化出力が音響パラメータ時系列Pi
(nl (i = 1.・・・・、I’iIはバンドパ
スフィルタバンクのチャンネル数、n ””’ 1 +
・・・・、N;Nは音声区間判定により切り出されたフ
レーム数である。)として得られる。
タバンクの整流平滑化出力が音響パラメータ時系列Pi
(nl (i = 1.・・・・、I’iIはバンドパ
スフィルタバンクのチャンネル数、n ””’ 1 +
・・・・、N;Nは音声区間判定により切り出されたフ
レーム数である。)として得られる。
この音響分析部(2)の音響パラメータ時系列Pi(n
lがモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)に格納
され、認識モードにおいてはDPマツチング距離計算部
(5)の一端に供給される。又、この認識モードにおい
ては標準パターンメモ1月4)に格納されている標準パ
ターンがDPマツチング距離計算部(5)の他端に供給
される。
lがモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)に格納
され、認識モードにおいてはDPマツチング距離計算部
(5)の一端に供給される。又、この認識モードにおい
ては標準パターンメモ1月4)に格納されている標準パ
ターンがDPマツチング距離計算部(5)の他端に供給
される。
このDPマツチング距離計算部(5)にてその時入力さ
れている音声の音響パラメータ時系列Pi(n+よりな
る入力パターンと標準パターンメモリ(4)の標準パタ
ーンとのDPマツチング距離計算処理がなされ、このD
Pマツチング距離計算部(5)のDPマツチング距離を
示す距離信号が最小距離判定部(6)に供給され、この
最小距離判定部(6)にて入力パターンに対してDPマ
ツチング距離が最小となる標準パターンが判定され、こ
の判定結果より入力音声を示す認識結果が出力端子(7
)に得られる。
れている音声の音響パラメータ時系列Pi(n+よりな
る入力パターンと標準パターンメモリ(4)の標準パタ
ーンとのDPマツチング距離計算処理がなされ、このD
Pマツチング距離計算部(5)のDPマツチング距離を
示す距離信号が最小距離判定部(6)に供給され、この
最小距離判定部(6)にて入力パターンに対してDPマ
ツチング距離が最小となる標準パターンが判定され、こ
の判定結果より入力音声を示す認識結果が出力端子(7
)に得られる。
ところで、一般に標準パターンメモリ(4)に格納され
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。DPマツチング処理により
この発声速度変動や単語長の違いに対処する為の時間軸
正規化がなされる。
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。DPマツチング処理により
この発声速度変動や単語長の違いに対処する為の時間軸
正規化がなされる。
以下、このDPマツチング処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi(n)の周波
数軸方向iに対応する次元を省略して標準パターンのパ
ラメータ時系列をbl、・・・・。
で、簡単の為に音響パラメータ時系列Pi(n)の周波
数軸方向iに対応する次元を省略して標準パターンのパ
ラメータ時系列をbl、・・・・。
bN、入力パターンのパラメータ時系列をa1+・・・
・+ aMとして、端点固定のDP−パスの場合のD
Pマツチング処理について説明する。
・+ aMとして、端点固定のDP−パスの場合のD
Pマツチング処理について説明する。
第2図はDPマツチング処理の概念図を示し、横軸に入
力パラメータ(M=19)が並べられ、縦軸に標準パラ
メータ(N=12)が並べられ、この第2図に示す(M
、N)格子状平面に於ける・点はMXN個であり、この
各・点に1つの距離が対応する。例えばa3とb5との
距離がa3から縦に伸した直線と、b5から横に伸した
直線との交点に位置する・に対応する。この場合、距離
として例えばチェビシェフ距離を取れば、a3とb5と
のチェビシェフ距離d (3,5)はとなる(この場合
、周波数軸方向lに対応する次元を省略しているのでI
=1である。)。そして、端点固定のDP−パスとして
、格子点(m、n)に対してこの格子点(m、n)に結
びつける前の状態として左側の格子点(m−1,n)、
斜め左下側の格子点(m−1,n−1)及び下側の格子
点(m、n−1)の3つ乃だけを許した場合、始点、即
ちalとblとのチェビシェフ距離D11を示す点■か
ら出発し、パス(経路)として3方向乃を選び、終点、
即ちaMとbNとのチェビシェフ距離d (M、 N)
を示す点■に至るパスで、通過する各格子点の距離の総
和が最小になるものを求め、この距離の総和を入力パラ
メータ数Mと標準パラメータ数Nとの和より値1を減算
した(M+N−1)にて除算して得られた結果が入力パ
ターンのパラメータ時系列a1+ ・・・・、aMと
標準パターンのパラメータ時系列b1+ ・・・・+
bNとのDPマツチング距離となされる。この様な
処理を示す初期条件及び漸化式は 初期条件 g (1,1) −d (L 1) 漸化式 と表され、これよりDPマツチング距離D (A、B)
は D (A、 B)=g (M、 N)/ (
M+N−1)と表されるiM+N−1)でg (M、N
)を割っているのは標準パターンのフレーム数Nの違い
による距離の値の差を補正するためである。)。
力パラメータ(M=19)が並べられ、縦軸に標準パラ
メータ(N=12)が並べられ、この第2図に示す(M
、N)格子状平面に於ける・点はMXN個であり、この
各・点に1つの距離が対応する。例えばa3とb5との
距離がa3から縦に伸した直線と、b5から横に伸した
直線との交点に位置する・に対応する。この場合、距離
として例えばチェビシェフ距離を取れば、a3とb5と
のチェビシェフ距離d (3,5)はとなる(この場合
、周波数軸方向lに対応する次元を省略しているのでI
=1である。)。そして、端点固定のDP−パスとして
、格子点(m、n)に対してこの格子点(m、n)に結
びつける前の状態として左側の格子点(m−1,n)、
斜め左下側の格子点(m−1,n−1)及び下側の格子
点(m、n−1)の3つ乃だけを許した場合、始点、即
ちalとblとのチェビシェフ距離D11を示す点■か
ら出発し、パス(経路)として3方向乃を選び、終点、
即ちaMとbNとのチェビシェフ距離d (M、 N)
を示す点■に至るパスで、通過する各格子点の距離の総
和が最小になるものを求め、この距離の総和を入力パラ
メータ数Mと標準パラメータ数Nとの和より値1を減算
した(M+N−1)にて除算して得られた結果が入力パ
ターンのパラメータ時系列a1+ ・・・・、aMと
標準パターンのパラメータ時系列b1+ ・・・・+
bNとのDPマツチング距離となされる。この様な
処理を示す初期条件及び漸化式は 初期条件 g (1,1) −d (L 1) 漸化式 と表され、これよりDPマツチング距離D (A、B)
は D (A、 B)=g (M、 N)/ (
M+N−1)と表されるiM+N−1)でg (M、N
)を割っているのは標準パターンのフレーム数Nの違い
による距離の値の差を補正するためである。)。
この様な処理により標準パターンの数がL個ある場合に
は入力パターンに対するDPマツチング距離がL個求め
られ、このL個のDPマツチング距離中最小の距離とな
る標準パターンが認識結果となされる。
は入力パターンに対するDPマツチング距離がL個求め
られ、このL個のDPマツチング距離中最小の距離とな
る標準パターンが認識結果となされる。
この様なりPマツチング処理による音声認識装置によれ
ば発声速度変動やllLi!長の違いに対処、即ち時間
軸正規化のなされた音声認識を行なうことができる。
ば発声速度変動やllLi!長の違いに対処、即ち時間
軸正規化のなされた音声認識を行なうことができる。
然し乍ら、この様なりPマツチング処理により音声認識
を行なうものにおいては、音声の定常部がDPマツチン
グ距離に大きく反映し、部分的に類似しているような語
い間に於いて誤認識し易いということが明らかとなった
。
を行なうものにおいては、音声の定常部がDPマツチン
グ距離に大きく反映し、部分的に類似しているような語
い間に於いて誤認識し易いということが明らかとなった
。
即ち、音響パラメータ時系列Pi(nlはそのパラメー
タ空間で軌跡を描くと考えることができる。実際には各
フレームnのパラメータがパラメータ空間内の1点に対
応することから、点列ではあるが時系列方向に曲線で結
んでいくと始点から終点迄の1つの軌跡が考えられる。
タ空間で軌跡を描くと考えることができる。実際には各
フレームnのパラメータがパラメータ空間内の1点に対
応することから、点列ではあるが時系列方向に曲線で結
んでいくと始点から終点迄の1つの軌跡が考えられる。
例えば2種類の単語”SAN″と”HAI″とを登録し
た場合、夫々の標準パターンA’、B’は第3図に示す
如くS”、“A”、1N″、′H″、“A”、′I”の
各音韻領域を通過する軌跡を描く。そして、認識モード
で“SAN”と発声した場合、全体的にみれば入力パタ
ーンAに対する標準パターンB′の類似する部分は非常
に少ないが、この入力パターンAの“SAN″の“A”
の部分が標準パターンA′の”SAN”の”A″の部分
より標準パターンB′の”HAI”の”A”の部分によ
り類似し、且つその部分(準定常部)に点数が多い場合
がある。
た場合、夫々の標準パターンA’、B’は第3図に示す
如くS”、“A”、1N″、′H″、“A”、′I”の
各音韻領域を通過する軌跡を描く。そして、認識モード
で“SAN”と発声した場合、全体的にみれば入力パタ
ーンAに対する標準パターンB′の類似する部分は非常
に少ないが、この入力パターンAの“SAN″の“A”
の部分が標準パターンA′の”SAN”の”A″の部分
より標準パターンB′の”HAI”の”A”の部分によ
り類似し、且つその部分(準定常部)に点数が多い場合
がある。
ここで、第3図に示す如く入力パターンAのパラメータ
が全体的には標準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマツチング処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に示す
状況、即ち部分的に類似している語い間の関係と同様の
1次5元パラメー多時系列として第4図に示す如き入力
パターンA i 2.4.6.8.8.8.8.6.4
.4.4.6゜8と、第5図に示す如き標準パターンA
’i3,5゜7、9.9.9.9.7.5.5.7.9
と、第6図に示す如き標準パターンB’ i 7.6
.6.8.8.8.8.6゜4、4.4とを考える。こ
れら第4図乃至第6図のパターンより明らかな如く入力
パターンAは標準パターンA′と判定されて欲しいパタ
ーンである。
が全体的には標準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマツチング処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に示す
状況、即ち部分的に類似している語い間の関係と同様の
1次5元パラメー多時系列として第4図に示す如き入力
パターンA i 2.4.6.8.8.8.8.6.4
.4.4.6゜8と、第5図に示す如き標準パターンA
’i3,5゜7、9.9.9.9.7.5.5.7.9
と、第6図に示す如き標準パターンB’ i 7.6
.6.8.8.8.8.6゜4、4.4とを考える。こ
れら第4図乃至第6図のパターンより明らかな如く入力
パターンAは標準パターンA′と判定されて欲しいパタ
ーンである。
ところが、入力パターンAに対する標準パターンA′及
びB′のDPマツチング距離を計算すると、入力パター
ンAは標準パターンB′に近いことが示される。
びB′のDPマツチング距離を計算すると、入力パター
ンAは標準パターンB′に近いことが示される。
即ち、入力パターンAに対する標準パターンA′のDP
マツチング処理として第2図と同様、第7図に示す如く
横軸に入力パターンAのパラメータ時系列; 2.4.
6.8.8.8.8.6.4.4.4.6゜8を並べ、
縦軸に標準パターンA′のパラメータ時系列; 3.5
.7.9.9.9.9.7.5.5.7.9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2と
、標準パラメータA′のパラメータ時系列の第1番目の
パラメータ3とのチェビシェフ距離d (1,1)=1
の点を始点とし、入力パターンAのパラメータ時系列の
第13番目のパラメータ8と、標準パターンA′のパラ
メータ時系列の第12番目のパラメータ9とのチェビシ
ェフ距離d (13,12) = 1の点を終点とし、
DP−パスとして第2図の場合と同様、任意の点に対す
る前の状態としてその任意の点の左側の点、下側の点及
び斜め左下側の点を取ることを許した場合(このパスを
実線矢印にて示す。)、パス上の点はd (1,1)
−d (2,2) −d(3,3)−a (4,4)
−d (5,5)−d(6,6)、−a (7,7)
−d (8,8)−a(9,9) −d (10
,10) −d (11,10) −d(12,
10) −d (13,11) −d (13
,12)の14点であり、その距離の総和は24であり
、このDPマツチング距離D (A、A’)はlである
。
マツチング処理として第2図と同様、第7図に示す如く
横軸に入力パターンAのパラメータ時系列; 2.4.
6.8.8.8.8.6.4.4.4.6゜8を並べ、
縦軸に標準パターンA′のパラメータ時系列; 3.5
.7.9.9.9.9.7.5.5.7.9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2と
、標準パラメータA′のパラメータ時系列の第1番目の
パラメータ3とのチェビシェフ距離d (1,1)=1
の点を始点とし、入力パターンAのパラメータ時系列の
第13番目のパラメータ8と、標準パターンA′のパラ
メータ時系列の第12番目のパラメータ9とのチェビシ
ェフ距離d (13,12) = 1の点を終点とし、
DP−パスとして第2図の場合と同様、任意の点に対す
る前の状態としてその任意の点の左側の点、下側の点及
び斜め左下側の点を取ることを許した場合(このパスを
実線矢印にて示す。)、パス上の点はd (1,1)
−d (2,2) −d(3,3)−a (4,4)
−d (5,5)−d(6,6)、−a (7,7)
−d (8,8)−a(9,9) −d (10
,10) −d (11,10) −d(12,
10) −d (13,11) −d (13
,12)の14点であり、その距離の総和は24であり
、このDPマツチング距離D (A、A’)はlである
。
一方、入力パターンAに対する標準パターンB′のDP
マツチング処理を上述第7図に示す場合と同様、第8図
に示す如、く行なう。即ち、入力パターンへの個々のパ
ラメータi 2.4.6.8.8.8゜8、6.4.4
.4.6.8に対する標準パターンB′の個個のパラメ
ータi 7.6.6.8.8.8.8.6゜4、4.4
のチェビシェフ距離を求め、DP−パスとして任意の点
に対する前の状態としてその任意の点の左側の点、下側
の点及び斜め左下側の点を取ることを許した場合(この
パスを実線矢印にて示す。)、パス上の点はd (1,
1)−d (2,2)−d (3,3) −d (4,
4)−d (5,5)−d (6,6)−d (7,7
)−d 、(8,8)−d(9,9) −d (10,
10) −d (11,11) =d(12,11)
−d (13,11)の13点であり、その距離の総和
は15であり、このDPマツチング距離D(A、B’)
は0,65である。
マツチング処理を上述第7図に示す場合と同様、第8図
に示す如、く行なう。即ち、入力パターンへの個々のパ
ラメータi 2.4.6.8.8.8゜8、6.4.4
.4.6.8に対する標準パターンB′の個個のパラメ
ータi 7.6.6.8.8.8.8.6゜4、4.4
のチェビシェフ距離を求め、DP−パスとして任意の点
に対する前の状態としてその任意の点の左側の点、下側
の点及び斜め左下側の点を取ることを許した場合(この
パスを実線矢印にて示す。)、パス上の点はd (1,
1)−d (2,2)−d (3,3) −d (4,
4)−d (5,5)−d (6,6)−d (7,7
)−d 、(8,8)−d(9,9) −d (10,
10) −d (11,11) =d(12,11)
−d (13,11)の13点であり、その距離の総和
は15であり、このDPマツチング距離D(A、B’)
は0,65である。
このDP−パスを3方向角とした結果より明らかな様に
入力パターンAがそのDPマツチング距離の小さな標準
パターンB′と判定され、判定されるべき結果が得られ
ない。この様にDPマツチング処理においては部分的に
類似しているような語い間に於いて誤認識し易い。
入力パターンAがそのDPマツチング距離の小さな標準
パターンB′と判定され、判定されるべき結果が得られ
ない。この様にDPマツチング処理においては部分的に
類似しているような語い間に於いて誤認識し易い。
又、DPマツチング処理においては上述した様に標準パ
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマツチング処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモ1月4)の記憶容量や演
算量の点で問題があった。
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマツチング処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモ1月4)の記憶容量や演
算量の点で問題があった。
この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
リ(4)の記憶容量や処理の為の演算量が比較的少ない
音声認山装置として第9図に示す如きものが考えられて
いる。
誤認識することが比較的少なく、且つ標準パターンメモ
リ(4)の記憶容量や処理の為の演算量が比較的少ない
音声認山装置として第9図に示す如きものが考えられて
いる。
第9図において、(1)は音声信号入力部としてのマイ
クロホンを示し、このマイクロホンfl)からの音声信
号を音響分析部(2)の増幅器(8)に供給し、この増
幅器(8)の音声信号をカントオフ周波数5.5KHz
のローパスフィルタ(9)を介してサンプリング周波数
12.5KI(zの12ビツトA/D変換器0[9に供
給し、このA/D変換器α0)のデジタル音声信号を1
5チヤンネルのデジタルバンドパスフィルタバンク(I
IA ) 、 (11B ) 、 ”、 (llo
)に供給する。
クロホンを示し、このマイクロホンfl)からの音声信
号を音響分析部(2)の増幅器(8)に供給し、この増
幅器(8)の音声信号をカントオフ周波数5.5KHz
のローパスフィルタ(9)を介してサンプリング周波数
12.5KI(zの12ビツトA/D変換器0[9に供
給し、このA/D変換器α0)のデジタル音声信号を1
5チヤンネルのデジタルバンドパスフィルタバンク(I
IA ) 、 (11B ) 、 ”、 (llo
)に供給する。
この15チヤンネルのデジタルバンドパスフィルタバン
ク(IIA) 、 (IIB) 、 ・・・・、
(llo)は例えばバターワース4次のデジタルフィル
タにて構成し、250Hzから5.5KHzまでの帯域
が対数軸上で等間隔となるように割り振られている。そ
して、各デジタルバンドパスフィルタ(IIA ) 、
(IIg ) 。
ク(IIA) 、 (IIB) 、 ・・・・、
(llo)は例えばバターワース4次のデジタルフィル
タにて構成し、250Hzから5.5KHzまでの帯域
が対数軸上で等間隔となるように割り振られている。そ
して、各デジタルバンドパスフィルタ(IIA ) 、
(IIg ) 。
・・・・、(llo)の出力信号を15チヤンネルの整
流器(12A ) 、 (12a ) 、 ・・・・
、 (12o )に夫々供給し、これら整流器(12
A ) 、 (12B ) 、・・・・。
流器(12A ) 、 (12a ) 、 ・・・・
、 (12o )に夫々供給し、これら整流器(12
A ) 、 (12B ) 、・・・・。
(12o)の2乗出力を15チヤンネルのデジタルロー
パスフィルタ(13A ) 、/(13a ) 、・・
・・、(13o)に夫々供給する。これらデジタルロー
パスフィルタ(13s> 、 (13B) 、 ”、
(13o)はカットオフ周波数52.8HzのFI
R(有限インパルス応答形)ローパスフィルタにて構成
する。
パスフィルタ(13A ) 、/(13a ) 、・・
・・、(13o)に夫々供給する。これらデジタルロー
パスフィルタ(13s> 、 (13B) 、 ”、
(13o)はカットオフ周波数52.8HzのFI
R(有限インパルス応答形)ローパスフィルタにて構成
する。
そして、各デジタルローパスフィルタ(13^)。
(13s)、・・・・、(13o)の出力信号をサンプ
リング周期5.12m5のサンプラー(14)に供給す
る。
リング周期5.12m5のサンプラー(14)に供給す
る。
このサンプラー(14)によりデジタルローパスフィル
タ(13A) 、 (13s) 、 ・・・・、
(13o)の出力信号をフレーム周期5−12m5毎に
サンプリングし、このサンプラー(14)のサンプリン
グ信号を音源情報正規化器(15)に供給する。この音
源情報正規化器(15)は認識しようとする音声の話者
による声帯音源特性の違いを除去するものである。
タ(13A) 、 (13s) 、 ・・・・、
(13o)の出力信号をフレーム周期5−12m5毎に
サンプリングし、このサンプラー(14)のサンプリン
グ信号を音源情報正規化器(15)に供給する。この音
源情報正規化器(15)は認識しようとする音声の話者
による声帯音源特性の違いを除去するものである。
即ち、フレーム周期毎にサンプラー(14)から供給さ
れるサンプリング信号As(nl (1−1+・・・・
。
れるサンプリング信号As(nl (1−1+・・・・
。
15 ; n :フレーム番号)に対してAt(nl−
1og (Ai(nl+ B) ・・・(
11なる対数変換がなされる。このTl1式において、
Bはバイアスでノイズレベルが隠れる程度の値を設定す
る。そして、声帯音源特性をyi=a−4十すなる式で
近位する。このa及びbの計数は次式により決定される
。
1og (Ai(nl+ B) ・・・(
11なる対数変換がなされる。このTl1式において、
Bはバイアスでノイズレベルが隠れる程度の値を設定す
る。そして、声帯音源特性をyi=a−4十すなる式で
近位する。このa及びbの計数は次式により決定される
。
(N=15) ・・・ (2)
(N=15) ・・・ (3)
そして、音源の正規化されたパラメータをPi(nlと
すると、a (n) < 0のときパラメータPi(n
)ハPi’+n)=A’1(n) −(a(ni i+
b(n)) ・・・(41と表わされる。
すると、a (n) < 0のときパラメータPi(n
)ハPi’+n)=A’1(n) −(a(ni i+
b(n)) ・・・(41と表わされる。
又、a (nl≧Oのときレベルの正規化のみ行ない、
パラメータPi(n)は ・・・ (5) と表わされる。
パラメータPi(n)は ・・・ (5) と表わされる。
この様な処理により声帯音源特性の正規化されたパラメ
ータPi(nlを音声区間内パラメータメモリ(16)
に供給する。この音声区間内パラメータメモリ (16
)は後述する音声区間判定部(17)からの音声区間判
定信号を受けて声帯音源特性の正規化されたパラメータ
Pl(nlを音声区間毎に格納する。
ータPi(nlを音声区間内パラメータメモリ(16)
に供給する。この音声区間内パラメータメモリ (16
)は後述する音声区間判定部(17)からの音声区間判
定信号を受けて声帯音源特性の正規化されたパラメータ
Pl(nlを音声区間毎に格納する。
一方、A/D変換器0φのデジタル音声信号を音声区間
判定部(17)のゼロクロスカウンタ(18)及びパワ
ー算出器(19)に夫々供給する。このゼロクロスカウ
ンタ(18)は5.12m5毎にその区間の64点のデ
ジタル音声信号のゼロクロス数をカウントし、そのカウ
ント値を音声区間判定器(20)の第1の入力端に供給
する。又、パワー算出器(19)は5.12m5毎にそ
の区間のデジタル音声信号のパワー、即ち2乗和を求め
、その区間内パワーを示すパワー信号を音声区間判定器
(20)の第2の入力端に供給する。更に、音源情報正
規化器(15)の音源正規化情報a (nl及びb (
nlを音声区間判定器(20)の第3の入力端に供給す
る。そして、音声区間判定器(20)においてはゼロク
ロス数、区間内パワー及び音源正規化情報a (nl、
b (nlを複合的に処理し、無音、無声音及び有
声音の判定処理を行ない、音声区間を決定する。この音
声区間判定器(20)の音声区間を示す音声区間判定信
号を音声区間判定部(17)の出力として音声区間内パ
ラメータメモリ (16)に供給する。
判定部(17)のゼロクロスカウンタ(18)及びパワ
ー算出器(19)に夫々供給する。このゼロクロスカウ
ンタ(18)は5.12m5毎にその区間の64点のデ
ジタル音声信号のゼロクロス数をカウントし、そのカウ
ント値を音声区間判定器(20)の第1の入力端に供給
する。又、パワー算出器(19)は5.12m5毎にそ
の区間のデジタル音声信号のパワー、即ち2乗和を求め
、その区間内パワーを示すパワー信号を音声区間判定器
(20)の第2の入力端に供給する。更に、音源情報正
規化器(15)の音源正規化情報a (nl及びb (
nlを音声区間判定器(20)の第3の入力端に供給す
る。そして、音声区間判定器(20)においてはゼロク
ロス数、区間内パワー及び音源正規化情報a (nl、
b (nlを複合的に処理し、無音、無声音及び有
声音の判定処理を行ない、音声区間を決定する。この音
声区間判定器(20)の音声区間を示す音声区間判定信
号を音声区間判定部(17)の出力として音声区間内パ
ラメータメモリ (16)に供給する。
この音声区間内パラメータメモリ (16)に格納され
た音声区間毎に声帯音源特性の正規化された音響パラメ
ータPi(n)をその時系列方向にNAT(NorII
lalization Along Trajecto
ry)処理部(21)に供給する。このNAT処理部(
21)は NAT処理として音響パラメータ時系列Pi
(nlからそのパラメータ空間における軌跡を直線近似
にて推定し、この軌跡に沿って直線補間にて新たな音響
パラメータ時系列Qi(ロ)を形成する。
た音声区間毎に声帯音源特性の正規化された音響パラメ
ータPi(n)をその時系列方向にNAT(NorII
lalization Along Trajecto
ry)処理部(21)に供給する。このNAT処理部(
21)は NAT処理として音響パラメータ時系列Pi
(nlからそのパラメータ空間における軌跡を直線近似
にて推定し、この軌跡に沿って直線補間にて新たな音響
パラメータ時系列Qi(ロ)を形成する。
ここで、このNAT処理部(21)について更に説明す
る。音響パラメータ時系列Pi(n) (i = 1.
・・・・+I;n=L・・・・、N)はそのパラメータ
空間に点列を描く。第10図に2次元パラメータ空間に
分布する点列の例を示す。この第10図に示す如く音声
の非定常部の点列は粗に分布し、準定常部は密に分布す
る。この事は完全に定常であればパラメータは変化せず
、その場合には点列はパラメータ空間に停留することか
らも明らかである。
る。音響パラメータ時系列Pi(n) (i = 1.
・・・・+I;n=L・・・・、N)はそのパラメータ
空間に点列を描く。第10図に2次元パラメータ空間に
分布する点列の例を示す。この第10図に示す如く音声
の非定常部の点列は粗に分布し、準定常部は密に分布す
る。この事は完全に定常であればパラメータは変化せず
、その場合には点列はパラメータ空間に停留することか
らも明らかである。
第11図は第10図に示す如き点列上に滑らかな曲線よ
りなる軌跡を推定し描いた例を示す。この第11図に示
す如く点列に対して軌跡を推定できれば、音声の発声速
度変動に対して軌跡は殆ど不変であると考えることがで
きる。何故ならば、音声の発声速度変動による時間長の
違いは殆どが準定常部の時間的伸縮(第10図に示す如
き点列においては準定常部の点列密度の違いに相当する
。)に起因し、非定常部の時間長の影響は少ないと考え
られるからである。
りなる軌跡を推定し描いた例を示す。この第11図に示
す如く点列に対して軌跡を推定できれば、音声の発声速
度変動に対して軌跡は殆ど不変であると考えることがで
きる。何故ならば、音声の発声速度変動による時間長の
違いは殆どが準定常部の時間的伸縮(第10図に示す如
き点列においては準定常部の点列密度の違いに相当する
。)に起因し、非定常部の時間長の影響は少ないと考え
られるからである。
NAT処理部(21)においてはこの様な音声の売声速
度変動に対する軌跡の不変性に着目して時間軸正規化を
行なう。
度変動に対する軌跡の不変性に着目して時間軸正規化を
行なう。
即ち、第1に音響パラメータ時系列PiTn)に対して
始点P 1(11から終点Pi(N)迄を連続曲線で描
いた軌跡を推定し、この軌跡を示す曲線を′P″1(s
l(0≦S≦S)とする。この場合、必ずしもPi(o
l = Pi(11。
始点P 1(11から終点Pi(N)迄を連続曲線で描
いた軌跡を推定し、この軌跡を示す曲線を′P″1(s
l(0≦S≦S)とする。この場合、必ずしもPi(o
l = Pi(11。
点列全体を近似的に通過するようなものであれば良い。
第2に推定されたPi(s)から軌跡の長さSLを求め
、第12図に○印にて示す如く軌跡に沿って一定長で新
たな点列をリサンプリングする。例えばM点にサンプリ
ングする場合、一定長さ、即ちリサンプリング間隔T=
SL/(M−1)を基準として軌跡上をリサンプリング
する。このリサンプリングされた点列をQi(m) (
t =L・・・・+I;m=L””+M)この様にして
得られた新たなパラメータ時系列Qi(ホ)は軌跡の基
本情報を有しており、しがも音声の発声速度変動に対し
て殆ど不変なパラメータとなる。即ち、新たなパラメー
タ時系列Qi(ホ)は時間軸正規化がなされたパラメー
タ時系列となる。
、第12図に○印にて示す如く軌跡に沿って一定長で新
たな点列をリサンプリングする。例えばM点にサンプリ
ングする場合、一定長さ、即ちリサンプリング間隔T=
SL/(M−1)を基準として軌跡上をリサンプリング
する。このリサンプリングされた点列をQi(m) (
t =L・・・・+I;m=L””+M)この様にして
得られた新たなパラメータ時系列Qi(ホ)は軌跡の基
本情報を有しており、しがも音声の発声速度変動に対し
て殆ど不変なパラメータとなる。即ち、新たなパラメー
タ時系列Qi(ホ)は時間軸正規化がなされたパラメー
タ時系列となる。
この様な処理の為に、音声区間内パラメータメモリ (
16)の音響パラメータ時系列Pi(nlを軌跡長算出
器(22)に供給する。この軌跡長算出器(22)は音
響パラメータ時系列PiTn)がそのパラメータ空間に
おいて描く直線近似による軌跡の長さ、即ち軌跡長を算
出するものである。この場合、■次元ベクトルa(及び
b1間の距離として例えばユークリッド距離D (a
i、bi)をとれば・ ・ ・ (6) である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、■次元の音響パ
ラメータ時系列Pi(nl (i= L・・・・、■;
n=1.・・・・、N)より、直線近似により軌跡を推
定した場合の時系列方向に隣接するパラメータ間距離S
(nlは 5(nl=D (Pl (nlt ) 、 PHnl)
(n=1.”・・、 N−1)・・・ +?) と表わされる。そして、時系列方向における第1番目の
パラメータPi(11から第n番目のパラメータPi(
nl迄の距離st、tn>は と表わされる。尚、5L(11= Oである。更に、軌
跡長SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にて示す信号処理を行なう如くな
す。
16)の音響パラメータ時系列Pi(nlを軌跡長算出
器(22)に供給する。この軌跡長算出器(22)は音
響パラメータ時系列PiTn)がそのパラメータ空間に
おいて描く直線近似による軌跡の長さ、即ち軌跡長を算
出するものである。この場合、■次元ベクトルa(及び
b1間の距離として例えばユークリッド距離D (a
i、bi)をとれば・ ・ ・ (6) である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、■次元の音響パ
ラメータ時系列Pi(nl (i= L・・・・、■;
n=1.・・・・、N)より、直線近似により軌跡を推
定した場合の時系列方向に隣接するパラメータ間距離S
(nlは 5(nl=D (Pl (nlt ) 、 PHnl)
(n=1.”・・、 N−1)・・・ +?) と表わされる。そして、時系列方向における第1番目の
パラメータPi(11から第n番目のパラメータPi(
nl迄の距離st、tn>は と表わされる。尚、5L(11= Oである。更に、軌
跡長SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にて示す信号処理を行なう如くな
す。
この軌跡長算出器(22)の軌跡長SLを示す軌跡長信
号を補間間隔算出器(23)に供給する。この補間間隔
算出器(23)は軌跡に沿って直線補間により新たな点
列をリサンプリングする一定長のりサンプリング間隔T
を算出するものである。この場合、M点にリサンプリン
グするとすれば、リサンプリング間隔Tは T=SL/(M−1) ・・・ αωと
表わされる。補間間隔算出器(23)はこの0ff1式
にて示す信号処理を行なう如くなす。
号を補間間隔算出器(23)に供給する。この補間間隔
算出器(23)は軌跡に沿って直線補間により新たな点
列をリサンプリングする一定長のりサンプリング間隔T
を算出するものである。この場合、M点にリサンプリン
グするとすれば、リサンプリング間隔Tは T=SL/(M−1) ・・・ αωと
表わされる。補間間隔算出器(23)はこの0ff1式
にて示す信号処理を行なう如くなす。
この補間間隔算出器(23)のりサンプリング間隔Tを
示すリサンプリング間隔信号を補間点抽出器(24)の
一端に供給すると共に音声区間内パラメータメモリ (
16)の音響パラメータ時系列Pi(nlを補間点抽出
器(24)の他端に供給する。この補間点抽出器(24
)は音響パラメータ時系列Pi(nlのそのパラメータ
空間における軌跡例えばパラメータ間を直線近似した軌
跡に沿ってリサンプリング間隔Tで新たな点列をリサン
プリングし、この新たな点列より新たな音響パラメータ
時系列Qi(ホ)を形成するものである。
示すリサンプリング間隔信号を補間点抽出器(24)の
一端に供給すると共に音声区間内パラメータメモリ (
16)の音響パラメータ時系列Pi(nlを補間点抽出
器(24)の他端に供給する。この補間点抽出器(24
)は音響パラメータ時系列Pi(nlのそのパラメータ
空間における軌跡例えばパラメータ間を直線近似した軌
跡に沿ってリサンプリング間隔Tで新たな点列をリサン
プリングし、この新たな点列より新たな音響パラメータ
時系列Qi(ホ)を形成するものである。
ここで、この補間点抽出器(24)における信号処理を
第13図に示す流れ図に沿って説明する。先ず、ブロッ
ク (24a )にてリサンプリング点の時系列方向に
おける番号を示す変数Jに値1が設定されると共に音響
パラメータ時系列Pi(n)の時系列方向における番号
を示す変数ICに値1が設定される。そして、ブロック
(24b)にて変数Jがインクリメントされ、ブロック
(24c)にてそのときの変数Jが(M−1)以下であ
るかどうかにより、そのときのりサンプリング点の時系
列方向における番号かりサンプリングする必要のある最
後の番号になっていないかどうかを判断し、なっていれ
ばこの補間点抽出器(24)の信号処理を終了し、なっ
ていなければブロック(24d)にて第1番目のりサン
プリング点から第5番目のりサンプリング点までのりサ
ンプル距離DLが算出され、ブロック(24e)にて変
数ICがインクリメントされ、ブロック(24f)にて
リサンプル距離DLが音響パラメータ時系列Pi(nl
の第1番目のパラメータPi(1)から第1C番目のパ
ラメータP iQC)までの距離SLθC)よりも小さ
いかどうかにより、そのときのりサン−プリング点が軌
跡上においてそのときのパラメータPi(IG)よりも
軌跡の始端側に位置するかどうかを判断し、位置してい
なければブロック(24e)にて変数ICをインクリメ
ントした後再びブロック(24f)にてリサンプリング
点とパラメータPiQc)との軌跡上における位置の比
較をし、リサンプリング点が軌跡上においてパラメータ
Pi(Ic)よりも始端側に位置すると判断されたとき
、プロ、り(24g)にてリサンプリングにより軌跡に
沿う新たな音響パラメータ口iU)が形成される。即ち
、先ず第3番目のりサンプリング点にょろりサンプル距
離DLからこの第3番目のりサンプリング点よりも始端
側に位置する第(1(ニー1 )番目のパラメータPi
(+cfx)による距離SL(Ic−1)を減算して第
(IC−1)番目のパラメータPi(IC−1)から第
3番目のりサンプリング点迄の距離SSを求める。次に
、軌跡上においてこの第3番目のりサンプリング点の両
側に位置するパラメータPi(+c−t)及びパラメー
タPi(IC>間の距離S(+c−t) (この距M!
t S 0c−t)は(7)式にて示される信号処理に
て得られる。)にてこの距離SSを除算SS/ S (
+c−z) シ、この除算結果SS/ S (+c、1
)に軌跡上において第3番目のりサンプリング点の両側
に位置するパラメータPi(Ic)とPiQc−x)と
の差(PiQc)−P toe −1) )を掛算(P
iQc) −Pi(+c−t)) * SS/ S Q
c−1)して、軌跡上において第3番目のりサンプリン
グ点のこのリサンプリング点よりも始端側に隣接して位
置する第(IC−1)番目のパラメータPi(Ic−1
)からの補間量を算出し、この補間量と第3番目のりサ
ンプリング点よりも始端側に隣接して位置する第(IC
−1)番目のパラメータPiQc−t)とを加算して、
軌跡に沿う新たな音響パラメータQi(J)が形成され
る。第14図に2次元の音響パラメータ時系列P(1)
、 P(21,・・・・、P(81に対してパラメー
タ間を直線近似して軌跡を推定し、この軌跡に沿って直
線補間により6点の新たな音響パラメータ時系列Q(1
1,Q(21,・・・・、Q(6)を形成した例を示す
。
第13図に示す流れ図に沿って説明する。先ず、ブロッ
ク (24a )にてリサンプリング点の時系列方向に
おける番号を示す変数Jに値1が設定されると共に音響
パラメータ時系列Pi(n)の時系列方向における番号
を示す変数ICに値1が設定される。そして、ブロック
(24b)にて変数Jがインクリメントされ、ブロック
(24c)にてそのときの変数Jが(M−1)以下であ
るかどうかにより、そのときのりサンプリング点の時系
列方向における番号かりサンプリングする必要のある最
後の番号になっていないかどうかを判断し、なっていれ
ばこの補間点抽出器(24)の信号処理を終了し、なっ
ていなければブロック(24d)にて第1番目のりサン
プリング点から第5番目のりサンプリング点までのりサ
ンプル距離DLが算出され、ブロック(24e)にて変
数ICがインクリメントされ、ブロック(24f)にて
リサンプル距離DLが音響パラメータ時系列Pi(nl
の第1番目のパラメータPi(1)から第1C番目のパ
ラメータP iQC)までの距離SLθC)よりも小さ
いかどうかにより、そのときのりサン−プリング点が軌
跡上においてそのときのパラメータPi(IG)よりも
軌跡の始端側に位置するかどうかを判断し、位置してい
なければブロック(24e)にて変数ICをインクリメ
ントした後再びブロック(24f)にてリサンプリング
点とパラメータPiQc)との軌跡上における位置の比
較をし、リサンプリング点が軌跡上においてパラメータ
Pi(Ic)よりも始端側に位置すると判断されたとき
、プロ、り(24g)にてリサンプリングにより軌跡に
沿う新たな音響パラメータ口iU)が形成される。即ち
、先ず第3番目のりサンプリング点にょろりサンプル距
離DLからこの第3番目のりサンプリング点よりも始端
側に位置する第(1(ニー1 )番目のパラメータPi
(+cfx)による距離SL(Ic−1)を減算して第
(IC−1)番目のパラメータPi(IC−1)から第
3番目のりサンプリング点迄の距離SSを求める。次に
、軌跡上においてこの第3番目のりサンプリング点の両
側に位置するパラメータPi(+c−t)及びパラメー
タPi(IC>間の距離S(+c−t) (この距M!
t S 0c−t)は(7)式にて示される信号処理に
て得られる。)にてこの距離SSを除算SS/ S (
+c−z) シ、この除算結果SS/ S (+c、1
)に軌跡上において第3番目のりサンプリング点の両側
に位置するパラメータPi(Ic)とPiQc−x)と
の差(PiQc)−P toe −1) )を掛算(P
iQc) −Pi(+c−t)) * SS/ S Q
c−1)して、軌跡上において第3番目のりサンプリン
グ点のこのリサンプリング点よりも始端側に隣接して位
置する第(IC−1)番目のパラメータPi(Ic−1
)からの補間量を算出し、この補間量と第3番目のりサ
ンプリング点よりも始端側に隣接して位置する第(IC
−1)番目のパラメータPiQc−t)とを加算して、
軌跡に沿う新たな音響パラメータQi(J)が形成され
る。第14図に2次元の音響パラメータ時系列P(1)
、 P(21,・・・・、P(81に対してパラメー
タ間を直線近似して軌跡を推定し、この軌跡に沿って直
線補間により6点の新たな音響パラメータ時系列Q(1
1,Q(21,・・・・、Q(6)を形成した例を示す
。
又、このブロック(24g)においては周波数系列方向
に1次元分(i=L・・・・、I)の信号処理が行なわ
れる。
に1次元分(i=L・・・・、I)の信号処理が行なわ
れる。
この様にしてブロック(24b)乃至(24g)にであ
る。)を除< (M−2)点のリサンプリングにより新
たな音響パラメータ時系列O1(ロ)が形成される。
る。)を除< (M−2)点のリサンプリングにより新
たな音響パラメータ時系列O1(ロ)が形成される。
このNAT処理部(21)の新たな音響パラメータ時系
列Qi(2))をモード切換スイッチ(3)により、登
録モードにおいては認識対象語毎に標準パターンメモ1
月4)に格納し、認識モードにおいてはチェビシェフ距
離算出部(25)の一端に供給する。又、この認識モー
ドにおいては標準パターンメモリ(4)に格納されてい
る標準パターンをチェビシェフ距離算出部(25)の他
端に供給する。このチェビシェフ距離算出部(25)に
おいてはその時入力されている音声の時間軸の正規化さ
れた新たな音響パラメータ時系列O1(ロ))よりなる
入力パターンと、標準パターンメモリ(4)の標準パタ
ーンとのチェビシェフ距離算出処理がなされる。
列Qi(2))をモード切換スイッチ(3)により、登
録モードにおいては認識対象語毎に標準パターンメモ1
月4)に格納し、認識モードにおいてはチェビシェフ距
離算出部(25)の一端に供給する。又、この認識モー
ドにおいては標準パターンメモリ(4)に格納されてい
る標準パターンをチェビシェフ距離算出部(25)の他
端に供給する。このチェビシェフ距離算出部(25)に
おいてはその時入力されている音声の時間軸の正規化さ
れた新たな音響パラメータ時系列O1(ロ))よりなる
入力パターンと、標準パターンメモリ(4)の標準パタ
ーンとのチェビシェフ距離算出処理がなされる。
そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
この様にしてなる音声認識装置の動作について説明する
。
。
マイクロホン(1)の音声信号が音響分析部(2)にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列Pi(nlに変換され、この音響パラメータ時
系列Pi(nlがNAT処理部(21)に供給され、こ
のNAT処理部(21)にて音響パラメータ時系列Pi
fn)からそのパラメータ空間における直線近似による
軌跡が推定され、この軌跡に沿って直線補間され時間軸
正規化のなされた新たな音響パラメータ時系列Qi(m
)が形成され、登録モードにおいてはこの新たな音響パ
ラメータ時系列Qi((ロ)がモード切換スイッチ(3
)を介して標準パターンメモリ(4)に格納される。
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列Pi(nlに変換され、この音響パラメータ時
系列Pi(nlがNAT処理部(21)に供給され、こ
のNAT処理部(21)にて音響パラメータ時系列Pi
fn)からそのパラメータ空間における直線近似による
軌跡が推定され、この軌跡に沿って直線補間され時間軸
正規化のなされた新たな音響パラメータ時系列Qi(m
)が形成され、登録モードにおいてはこの新たな音響パ
ラメータ時系列Qi((ロ)がモード切換スイッチ(3
)を介して標準パターンメモリ(4)に格納される。
又、認識モードにおいては、NAT処理部(21)の新
たな音響パラメータ時系列Qi(m)がモード切換スイ
ッチ(3)を介してチェビシェフ距離算出部(25)に
供給されると共に標準パターンメモリ(4)の標準パタ
ーンがチェビシェフ距離算出部(25)に供給される。
たな音響パラメータ時系列Qi(m)がモード切換スイ
ッチ(3)を介してチェビシェフ距離算出部(25)に
供給されると共に標準パターンメモリ(4)の標準パタ
ーンがチェビシェフ距離算出部(25)に供給される。
第15図乃至第17図に第4図乃至第6図に示す1次元
の入力パターンAのパラメータ時系列; 2.4.6.
8.8.8.8.6.4.4.4.6.8 、標準パタ
ーンA′のパラメータ時系列i 3.5.7.9゜9、
9.9.7.5.5.7.9、標準パターンB′のパラ
メータ時系列; 7.6.6.8.8.8.8.6.4
.4゜4をNAT処理部(21)にて直線近似にて軌跡
を推定し、リサンプリング点を8点とする処理をした1
次元の入力パターンAのパラメータ時系列;2.4.6
.8.6.4.6.8、標準パターンA′のパラメータ
時系列; 3.5.7.9.7.5.7.9、標準パタ
ーンB′のパラメータ時系列; 7.6.7.8゜7、
虐5.4を夫々示す。この場合、音響パラメータ時系列
Pi(n)からそのパラメータ空間における軌跡を推定
し、この軌跡に沿って新たな音響パラメータ時系列Qi
((2)が形成されるので、入力音声を変換した音響パ
ラメータ時系列Pi(nl自身により時間軸正規化がな
される。そして、チェビシェフ距離算出部(25)にお
いて入力パターンAと標準パターンA′との間のチェビ
シェフ距jll18が算出されると共に入力パターンA
と標準パターンB′との間のチェビシェフ距1i111
6が算出され、これら距離8及び距l1i1116を夫
々示す距離信号が最小距離判定部(6)に供給され、こ
の最小距離判定部(6)にて距離8が距離16よりも小
さいことから標準パターンAが入力パターンA′である
と判定され、この判定結果より入力音声が標準パターン
Aであることを示す認識結果が出力端子(7)に得られ
る。従って、部分的に類似しているような語い間に於い
ても誤認識することが比較的少ない音声認識を行なうこ
とができる。
の入力パターンAのパラメータ時系列; 2.4.6.
8.8.8.8.6.4.4.4.6.8 、標準パタ
ーンA′のパラメータ時系列i 3.5.7.9゜9、
9.9.7.5.5.7.9、標準パターンB′のパラ
メータ時系列; 7.6.6.8.8.8.8.6.4
.4゜4をNAT処理部(21)にて直線近似にて軌跡
を推定し、リサンプリング点を8点とする処理をした1
次元の入力パターンAのパラメータ時系列;2.4.6
.8.6.4.6.8、標準パターンA′のパラメータ
時系列; 3.5.7.9.7.5.7.9、標準パタ
ーンB′のパラメータ時系列; 7.6.7.8゜7、
虐5.4を夫々示す。この場合、音響パラメータ時系列
Pi(n)からそのパラメータ空間における軌跡を推定
し、この軌跡に沿って新たな音響パラメータ時系列Qi
((2)が形成されるので、入力音声を変換した音響パ
ラメータ時系列Pi(nl自身により時間軸正規化がな
される。そして、チェビシェフ距離算出部(25)にお
いて入力パターンAと標準パターンA′との間のチェビ
シェフ距jll18が算出されると共に入力パターンA
と標準パターンB′との間のチェビシェフ距1i111
6が算出され、これら距離8及び距l1i1116を夫
々示す距離信号が最小距離判定部(6)に供給され、こ
の最小距離判定部(6)にて距離8が距離16よりも小
さいことから標準パターンAが入力パターンA′である
と判定され、この判定結果より入力音声が標準パターン
Aであることを示す認識結果が出力端子(7)に得られ
る。従って、部分的に類似しているような語い間に於い
ても誤認識することが比較的少ない音声認識を行なうこ
とができる。
ここで、NAT処理を行なう音声認識装置とDPマツチ
ング処理を行なう音声認識装置との演算量における差異
について説明する。
ング処理を行なう音声認識装置との演算量における差異
について説明する。
入力パターンに対する標準パターン1個当たりのDPマ
ツチング距離計算部(5)における平均演算量をαとし
、チェビシェフ距離算出部(25)における平均演算量
をβとし、NAT処理部(21)の平均の演算量をγと
したとき、3個の標準パターンに対するDPマツチング
処理による演算量C1は C1−α・ J ・ ・ ・
(11)である。又、3個の標準パターンに対するN
AT処理した場合の演算量C2は C2=β・J+γ ・・・ (12)である
。一般に、平均演算量αは平均演算量βに対してα)β
なる関係がある。従って、γ なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算量C1は演算量C2に対してC1>>C2な
る関係となり、NAT処理を行なう音声認識装置に依れ
ば、演算量を大幅に低減できる。
ツチング距離計算部(5)における平均演算量をαとし
、チェビシェフ距離算出部(25)における平均演算量
をβとし、NAT処理部(21)の平均の演算量をγと
したとき、3個の標準パターンに対するDPマツチング
処理による演算量C1は C1−α・ J ・ ・ ・
(11)である。又、3個の標準パターンに対するN
AT処理した場合の演算量C2は C2=β・J+γ ・・・ (12)である
。一般に、平均演算量αは平均演算量βに対してα)β
なる関係がある。従って、γ なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算量C1は演算量C2に対してC1>>C2な
る関係となり、NAT処理を行なう音声認識装置に依れ
ば、演算量を大幅に低減できる。
又、NAT処理部(21)より得られる新たな音響パラ
メータ時系列Qi(1111はその時系列方向において
一定のパラメータ数に設定できるので、標準パターンメ
モ1月4)の記憶領域を有効に利用でき、その記憶容量
を比較的少なくできる。
メータ時系列Qi(1111はその時系列方向において
一定のパラメータ数に設定できるので、標準パターンメ
モ1月4)の記憶領域を有効に利用でき、その記憶容量
を比較的少なくできる。
この様にNAT処理を行なうようにした音声認識装置に
おいてはN’A T処理後のマツチング処理として入力
パターンに対する標準パターンのチェビシェフ距離を算
出し、このチェビシェフ距離が最小の値をとる標準パタ
ーンが入力音声であると判定するようにしているのであ
るが、このNAT処理によれば比較的大きな時間軸変動
は取り除くことができるけれども、依然として比較的小
さな時間軸変動は残っており、入力パターンに対する標
準パターンのチェビシェフ距離算出による単純マツチン
グではこの比較的小さな時間軸変動を取り除くことがで
きないという不都合があった。この為、NAT処理した
後にDPマツチング処理することが考えられる。然し乍
ら、このDPマツチング処理においては、整合窓の処理
と、この整合窓内の各点に対する処理と、パスに対する
重みの処理とが必要であり、時間軸変動を取り除くこと
はできるけれども演算量が比較的多(なるという不都合
があった。
おいてはN’A T処理後のマツチング処理として入力
パターンに対する標準パターンのチェビシェフ距離を算
出し、このチェビシェフ距離が最小の値をとる標準パタ
ーンが入力音声であると判定するようにしているのであ
るが、このNAT処理によれば比較的大きな時間軸変動
は取り除くことができるけれども、依然として比較的小
さな時間軸変動は残っており、入力パターンに対する標
準パターンのチェビシェフ距離算出による単純マツチン
グではこの比較的小さな時間軸変動を取り除くことがで
きないという不都合があった。この為、NAT処理した
後にDPマツチング処理することが考えられる。然し乍
ら、このDPマツチング処理においては、整合窓の処理
と、この整合窓内の各点に対する処理と、パスに対する
重みの処理とが必要であり、時間軸変動を取り除くこと
はできるけれども演算量が比較的多(なるという不都合
があった。
発明の目的
本発明は斯かる点に鑑み比較的少ない演算量で音声の発
声速度変動、音声区間のずれ等による比較的小さな時間
軸変動を取り除くことができる認識率の比較的高いもの
を得ることを目的とする。
声速度変動、音声区間のずれ等による比較的小さな時間
軸変動を取り除くことができる認識率の比較的高いもの
を得ることを目的とする。
発明の概要
本発明は音声信号入力部を有し、この音声信号入力部の
音声信号を音響分析部に供給し、この音響分析部の音響
パラメータ時系列を時間軸伸縮補正部に供給し、この時
間軸伸縮補正部の時間軸伸縮の補正された音響パラメー
タ時系列を大カパタ−ンとしてスイングサーチ部の一端
に供給すると共に標準パターンメモリの標準パターンを
スイングサーチ部の他端に供給し、スイングサーチ部に
て入力パターンと標準パターンとをスイングサーチ処理
して音声信号を認識するようにしたものであり、斯かる
本発明音声認識装置に依れば、比較的少ない演算量で音
声の発声速度変動、音声区間のずれ等による比較的小さ
な時間軸変動を取り除くことができる認識率の比較的高
いものを得ることができる利益がある。
音声信号を音響分析部に供給し、この音響分析部の音響
パラメータ時系列を時間軸伸縮補正部に供給し、この時
間軸伸縮補正部の時間軸伸縮の補正された音響パラメー
タ時系列を大カパタ−ンとしてスイングサーチ部の一端
に供給すると共に標準パターンメモリの標準パターンを
スイングサーチ部の他端に供給し、スイングサーチ部に
て入力パターンと標準パターンとをスイングサーチ処理
して音声信号を認識するようにしたものであり、斯かる
本発明音声認識装置に依れば、比較的少ない演算量で音
声の発声速度変動、音声区間のずれ等による比較的小さ
な時間軸変動を取り除くことができる認識率の比較的高
いものを得ることができる利益がある。
実施例
以下、第18図及び第19図を参照しながら本発明音声
認識装置の一実施例について説明しよう。この第18図
及び第19図において第1図乃至第17図と対応する部
分に同一符号を付してその詳細な説明は省略する。
認識装置の一実施例について説明しよう。この第18図
及び第19図において第1図乃至第17図と対応する部
分に同一符号を付してその詳細な説明は省略する。
本例においては第18図に示す如く登録モードにおいて
NAT処理部(21)の新たな音響パラメータ時系列Q
+(ml (i=1.・・・−、l; m=1+””+
M)をモード切換スイッチ(3)を介して標準パターン
メモ1月4)に格納する。又、認識モードにおいてはN
AT処理部(21)の新たな音響パラメータ時系列旧(
ロ)(i=1.・−・+I;m=+1.・−・−、M)
を入力パターンとしてモード切換スイッチ(3)を介し
てスイングサーチ部(26)の一端に供給すると共に標
準パターンメモ1月4)の標準パターンをスイングサー
チ部(26)の他端に供給する。
NAT処理部(21)の新たな音響パラメータ時系列Q
+(ml (i=1.・・・−、l; m=1+””+
M)をモード切換スイッチ(3)を介して標準パターン
メモ1月4)に格納する。又、認識モードにおいてはN
AT処理部(21)の新たな音響パラメータ時系列旧(
ロ)(i=1.・−・+I;m=+1.・−・−、M)
を入力パターンとしてモード切換スイッチ(3)を介し
てスイングサーチ部(26)の一端に供給すると共に標
準パターンメモ1月4)の標準パターンをスイングサー
チ部(26)の他端に供給する。
ここで、このスイングサーチ部(26)のスイングサー
チ処理について第19図を参照しながら説明する。この
スイングサーチ部(26)においては第19図に示す如
く入力パターンの音響パラメータ時系列11.・・・・
、IM (これら11.旧・、■門はi、即ち周波数系
列を要素とするベクトルであり、NAT処理部(21)
の新たな音響パラメータ時系列Qi(11,・・・・l
Qi(M)である。)を横軸に並べ、標準パターンの
音響パラメータ時系列51.・印。
チ処理について第19図を参照しながら説明する。この
スイングサーチ部(26)においては第19図に示す如
く入力パターンの音響パラメータ時系列11.・・・・
、IM (これら11.旧・、■門はi、即ち周波数系
列を要素とするベクトルであり、NAT処理部(21)
の新たな音響パラメータ時系列Qi(11,・・・・l
Qi(M)である。)を横軸に並べ、標準パターンの
音響パラメータ時系列51.・印。
5M (これら51.・・・・、5Mはi、即ち周波数
系列を要素とするベクトルであり、大刀パターンとして
の新たな音響パラメータ時系列Qi(1) + 旧・t
Qi(M)と同様のパラメータ数を有する。)を縦軸に
並べ、この距離平面における整合窓内の距離Djk、即
ち ・・・ (14) を算出処理しく但し、本例においてはλ−1のチェビシ
ェフ距離をとるものとする。)、この整合窓内の入力パ
ターンIjに対する標準パターン5j−i 、 5j
、 5j+xの距1i1tDH−1,Djj、 Djj
+xの内の最小値距離DMj、即ち DMj = min (Djj−r、 ・−+ DjL
−+ Djj+r)を算出処理する如くなし、これら
最小値距11tOMjλA パターンに対する標準パターンのスイング距離として算
出処理する如くなす。この第19図においては整合窓と
してr=lの場合を示す。
系列を要素とするベクトルであり、大刀パターンとして
の新たな音響パラメータ時系列Qi(1) + 旧・t
Qi(M)と同様のパラメータ数を有する。)を縦軸に
並べ、この距離平面における整合窓内の距離Djk、即
ち ・・・ (14) を算出処理しく但し、本例においてはλ−1のチェビシ
ェフ距離をとるものとする。)、この整合窓内の入力パ
ターンIjに対する標準パターン5j−i 、 5j
、 5j+xの距1i1tDH−1,Djj、 Djj
+xの内の最小値距離DMj、即ち DMj = min (Djj−r、 ・−+ DjL
−+ Djj+r)を算出処理する如くなし、これら
最小値距11tOMjλA パターンに対する標準パターンのスイング距離として算
出処理する如くなす。この第19図においては整合窓と
してr=lの場合を示す。
このスイングサーチ部(26)のスイングサーチ処理に
よるスイング距離を示す距離信号を最小距離判定部(6
)に供給する。その他音響分析部(2)、NAT処理部
(21) 、標準パターンメモリ(4)等は上述第9図
に示す音声認識装置と同様に構成する。
よるスイング距離を示す距離信号を最小距離判定部(6
)に供給する。その他音響分析部(2)、NAT処理部
(21) 、標準パターンメモリ(4)等は上述第9図
に示す音声認識装置と同様に構成する。
斯かる本例の音声認識装置の動作について説明する。
マイクロホン(1)の音声信号が音響分析部(2)にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列P i (n)に変換され、この音響パラメー
タ時系列P i (nlがNAT処理部(21)に供給
され、このNAT処理部(21)にて音響パラメータ時
系列Pi(nlからそのパラメータ空間における直線近
似による軌跡が推定され、この軌跡に沿って比較的大き
な時間軸変動が取り除かれた、即ち時間軸正規化のなさ
れた新たな音響パラメータ時系列。iに)(i =1.
””+I; m=1.”・・、M) カ形成すfL、こ
の新たな音響パラメータ時系列01例)が登録モードに
おいてはモード切換スイッチ(3)を介して標準パター
ンメモ1月4)に格納される。
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列P i (n)に変換され、この音響パラメー
タ時系列P i (nlがNAT処理部(21)に供給
され、このNAT処理部(21)にて音響パラメータ時
系列Pi(nlからそのパラメータ空間における直線近
似による軌跡が推定され、この軌跡に沿って比較的大き
な時間軸変動が取り除かれた、即ち時間軸正規化のなさ
れた新たな音響パラメータ時系列。iに)(i =1.
””+I; m=1.”・・、M) カ形成すfL、こ
の新たな音響パラメータ時系列01例)が登録モードに
おいてはモード切換スイッチ(3)を介して標準パター
ンメモ1月4)に格納される。
又、認識モードにおいては、NAT処理部(21)の新
たな音響パラメータ時系列Qi(ホ)が入力)<ターン
としてモード切換スイッチ(3)を介してスイングサー
チ部(26)に供給されると共に標準パターンメモ1月
4)の標準パターンがスイングサーチ部(26)に供給
され、このスイングサーチ部(26)にて(14)式、
(15)式及びこれらに関連するスイングサーチ処理が
なされる。この場合、−スイングサーチ部(26)のス
イングサーチ処理においては第19図に矢印にて示す如
く整合窓内において最小値距離としてDll D23
D32なるバスを取り得る。
たな音響パラメータ時系列Qi(ホ)が入力)<ターン
としてモード切換スイッチ(3)を介してスイングサー
チ部(26)に供給されると共に標準パターンメモ1月
4)の標準パターンがスイングサーチ部(26)に供給
され、このスイングサーチ部(26)にて(14)式、
(15)式及びこれらに関連するスイングサーチ処理が
なされる。この場合、−スイングサーチ部(26)のス
イングサーチ処理においては第19図に矢印にて示す如
く整合窓内において最小値距離としてDll D23
D32なるバスを取り得る。
このパスに沿って入力パターンを見るとその音響パラメ
ータ時系列1112 I3と順次時系列に沿い、この
パスに沿って標準パターンを見るとその音響パラメータ
時系列は51 53 52と時系列に対して1つ前の音
響パラメータ(53に対する52)を取る逆向きのバス
を取り得る。音声の発声速度変動、音声区間のずれ等に
よる比較的小さな時間軸変動においてはある部分におい
て比較的小さくではあるがその音響パラメータ時系列に
対して逆転に等しい現象が生じている。従つて、スイン
グサーチ処理によれば音声の発声速度変動、音声区間の
ずれ等による比較的小さな時間軸変動を取り除くことが
できる。
ータ時系列1112 I3と順次時系列に沿い、この
パスに沿って標準パターンを見るとその音響パラメータ
時系列は51 53 52と時系列に対して1つ前の音
響パラメータ(53に対する52)を取る逆向きのバス
を取り得る。音声の発声速度変動、音声区間のずれ等に
よる比較的小さな時間軸変動においてはある部分におい
て比較的小さくではあるがその音響パラメータ時系列に
対して逆転に等しい現象が生じている。従つて、スイン
グサーチ処理によれば音声の発声速度変動、音声区間の
ずれ等による比較的小さな時間軸変動を取り除くことが
できる。
このスイングサーチ部(26)のスイングサーチ処理に
より得られたスイング距離を示す距離信号が最小距離判
定部(6)にて判定処理され、入力音声を示す標準パタ
ーンが認識結果として出力端子(7)に得られる。この
場合、距離信号が入力パターンと標準パターンとのスイ
ング処理により音声の発声速度変動、音声区間のずれ等
による比較的小さな時間軸変動に対しても対処されてい
るので、その分だけ高い認識率が得られる。
より得られたスイング距離を示す距離信号が最小距離判
定部(6)にて判定処理され、入力音声を示す標準パタ
ーンが認識結果として出力端子(7)に得られる。この
場合、距離信号が入力パターンと標準パターンとのスイ
ング処理により音声の発声速度変動、音声区間のずれ等
による比較的小さな時間軸変動に対しても対処されてい
るので、その分だけ高い認識率が得られる。
以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン(1)を有し、この音声信
号入力部Tl)の音声信号を音響分析部(2)に供給し
、この音響分析部(2)の音響パラメータ時系列Pi(
n)を時間軸伸縮補正部としてのN、AT処理部(21
)に供給し、このNAT処理部(21)の時間軸伸縮の
補正された新たな音響パラメータ時系列Qiに)(m=
1.・・・・、M)を入力パターンIz、 ・・・・、
IIMとしてスイングサーチ部(26)の一端に供給す
ると共に標準パターンメモ1月4)の標準パターン51
.・・・・+5Mをスイングサーチ部(26)の他端に
供給し、スイングサーチ部(26)にて入力パターンN
z+ ・・・・、IMと標準パターン51゜・・・・+
5Mとをスイングサーチ処理して音声信号を認識するよ
うにした為、音声の発声速度変動、音声区間のずれ等に
よる比較的小さな時間軸変動を取り除くことができ、認
識率の比較的高いものを得ることができる利益がある。
入力部としてのマイクロホン(1)を有し、この音声信
号入力部Tl)の音声信号を音響分析部(2)に供給し
、この音響分析部(2)の音響パラメータ時系列Pi(
n)を時間軸伸縮補正部としてのN、AT処理部(21
)に供給し、このNAT処理部(21)の時間軸伸縮の
補正された新たな音響パラメータ時系列Qiに)(m=
1.・・・・、M)を入力パターンIz、 ・・・・、
IIMとしてスイングサーチ部(26)の一端に供給す
ると共に標準パターンメモ1月4)の標準パターン51
.・・・・+5Mをスイングサーチ部(26)の他端に
供給し、スイングサーチ部(26)にて入力パターンN
z+ ・・・・、IMと標準パターン51゜・・・・+
5Mとをスイングサーチ処理して音声信号を認識するよ
うにした為、音声の発声速度変動、音声区間のずれ等に
よる比較的小さな時間軸変動を取り除くことができ、認
識率の比較的高いものを得ることができる利益がある。
又、音声の発声速度変動、音声区間のずれ等による比較
的小さな時間軸変動を取り除くにはスイングサーチ処理
における整合窓を比較的小さく設定できるのでDPマツ
チング処理を行なう場合に比べて処理の為の演算量を大
幅に少なくできる利益がある。
的小さな時間軸変動を取り除くにはスイングサーチ処理
における整合窓を比較的小さく設定できるのでDPマツ
チング処理を行なう場合に比べて処理の為の演算量を大
幅に少なくできる利益がある。
尚、上述実施例においては時間軸伸縮補正部としてNA
T処理部(21)を設けた場合について述べたけれども
、持続時間が所定値となるように入力パターンを時間的
に拡大したり縮小する所謂線形伸縮マツチング部を設け
るようにしても上述実施例と同様の作用効果を得ること
ができることは容易に理解できよう。又、上述実施例に
おいてはスイングサーチ処理の距離平面における整合窓
内の距離Djkとして(14)式に示すλが値1のチェ
ビシェフ距離をとった場合について述べたけれども、そ
の他λ=2のユークリッド距離等をとっても上述実施例
と同様の作用効果を得ることができることは容易に理解
できよう。更に、本発明は上述実施例に限らず本発明の
要旨を逸脱することなく本の他種々の構成を取り得るこ
とは勿論である。
T処理部(21)を設けた場合について述べたけれども
、持続時間が所定値となるように入力パターンを時間的
に拡大したり縮小する所謂線形伸縮マツチング部を設け
るようにしても上述実施例と同様の作用効果を得ること
ができることは容易に理解できよう。又、上述実施例に
おいてはスイングサーチ処理の距離平面における整合窓
内の距離Djkとして(14)式に示すλが値1のチェ
ビシェフ距離をとった場合について述べたけれども、そ
の他λ=2のユークリッド距離等をとっても上述実施例
と同様の作用効果を得ることができることは容易に理解
できよう。更に、本発明は上述実施例に限らず本発明の
要旨を逸脱することなく本の他種々の構成を取り得るこ
とは勿論である。
発明の効果
本発明音声認識装置に依れば、音声信号入力部を有し、
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部の音響パラメータ時系列を時間軸伸縮補
正部に供給し、この時間軸伸縮補正部の時間軸伸縮の補
正された音響パラメータ時系列を入力パターンとしてス
イングサーチ部の一端に供給すると共に標準パターンメ
モリの標準パターンをスイングサーチ部の他端に供給し
、スイングサーチ部にて入力パターンと標準バターンと
をスイングサーチ処理して音声信号を認識するようにし
た為、音声の発声速度変動、音声区間のずれ等による比
較的小さな時間軸変動を取り除くことができ、認識率の
比較的高いものを得ることができる利益がある。
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部の音響パラメータ時系列を時間軸伸縮補
正部に供給し、この時間軸伸縮補正部の時間軸伸縮の補
正された音響パラメータ時系列を入力パターンとしてス
イングサーチ部の一端に供給すると共に標準パターンメ
モリの標準パターンをスイングサーチ部の他端に供給し
、スイングサーチ部にて入力パターンと標準バターンと
をスイングサーチ処理して音声信号を認識するようにし
た為、音声の発声速度変動、音声区間のずれ等による比
較的小さな時間軸変動を取り除くことができ、認識率の
比較的高いものを得ることができる利益がある。
第1図はDPマツチング処理により音声認識を行なうよ
うにした音声認識装置の例を示す構成図、第2図はDP
マツチング処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4図
、第5図及び第6図は夫々1次元の入力パターンA、標
準パターンA′及び標準パターンB′の例を示す線図、
第7図は入力パターンAのパラメータ時系列と標準パタ
ーンA′のバラメーク時系列とのDPマツチング処理に
よる時間軸正規化の説明に供する線図、第8図は入力パ
ターンAのパラメータ時系列と標準パターンB′のパラ
メータ時系列とのDPマツチング処理による時間軸正規
化の説明に供する線図、第9図はNAT処理をして音声
認識を行なうようにした音声認識装置の例を示す構成図
、第10図、第11図、第12図及び第14図は夫々N
AT処理部の説明に供する線図、第13図は補間点抽出
器の説明に供する流れ図、第15図、第16図及び第1
7図は夫々NAT処理部にてNAT処理した入力パター
ンA、標準パターンA′及び標準パターンB′の1次元
の音響パラメータ時系列を示す線図、第18図は本発明
音声認識装置の一実施例を示す構成図、第19図は第1
8図の説明に供する線図である。 (1)は音声信号入力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモリ、(6)は最小距離判定部、(II
A)。 (IIs)、・・・・、(llo)は15チヤンネルの
デジタルバンドパスフィルタバンク、(16)は音声区
間内パラメータメモリ、(21)はNAT処理部、(2
2)は軌跡長算出器、(23)は補間間隔算出器、(2
4)は補間点抽出器、(25)はチェビシェフ距離算出
部、(26)はスイングサーチ部である。 派 鰹 ロー 昧 第13図 第14図 第18図 DM+ DM2DM3・ ・ ・DMシ・ ・Dk+D
MM手続ネiti正書 昭和59年10月11日 特許庁長官 志 賀 学 殿昭和59年 特
許 願 第138788号3、補正をする者 事件との関係 特許出願人 住 所 東京部品用区花品用6丁目7番35号名称<2
18)ソニー株式会社 代表取締役 大 賀 典 雄 4、代理人 6、補正により増加する発明の数 (11明細書中、第14頁第4行〜第7行(N=15)
・・・ (2) (N−15) ・・・ (3) 」 とあるを下記の通りに訂正する。 (I −15) ・・・ (2)(1=15)
・・・ (3) (2) 1.]、 Iiq□141.〜□15イ、
′・ ・ ・ (5) 」 とあるを下記の通りに訂正する。 ・・・ (5) 」 (3)同、第29頁第18行〜第19行、第30頁第1
行、同頁第12行〜第13行、第31頁第8行、第36
頁第2行〜第3行、同頁第10行〜第11行、第37頁
第8行及び第39頁第3行「比較的小さな時間軸変動」
とあるを夫々「比較的小さな時間軸等の変動」に夫々訂
正する。 以上
うにした音声認識装置の例を示す構成図、第2図はDP
マツチング処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4図
、第5図及び第6図は夫々1次元の入力パターンA、標
準パターンA′及び標準パターンB′の例を示す線図、
第7図は入力パターンAのパラメータ時系列と標準パタ
ーンA′のバラメーク時系列とのDPマツチング処理に
よる時間軸正規化の説明に供する線図、第8図は入力パ
ターンAのパラメータ時系列と標準パターンB′のパラ
メータ時系列とのDPマツチング処理による時間軸正規
化の説明に供する線図、第9図はNAT処理をして音声
認識を行なうようにした音声認識装置の例を示す構成図
、第10図、第11図、第12図及び第14図は夫々N
AT処理部の説明に供する線図、第13図は補間点抽出
器の説明に供する流れ図、第15図、第16図及び第1
7図は夫々NAT処理部にてNAT処理した入力パター
ンA、標準パターンA′及び標準パターンB′の1次元
の音響パラメータ時系列を示す線図、第18図は本発明
音声認識装置の一実施例を示す構成図、第19図は第1
8図の説明に供する線図である。 (1)は音声信号入力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモリ、(6)は最小距離判定部、(II
A)。 (IIs)、・・・・、(llo)は15チヤンネルの
デジタルバンドパスフィルタバンク、(16)は音声区
間内パラメータメモリ、(21)はNAT処理部、(2
2)は軌跡長算出器、(23)は補間間隔算出器、(2
4)は補間点抽出器、(25)はチェビシェフ距離算出
部、(26)はスイングサーチ部である。 派 鰹 ロー 昧 第13図 第14図 第18図 DM+ DM2DM3・ ・ ・DMシ・ ・Dk+D
MM手続ネiti正書 昭和59年10月11日 特許庁長官 志 賀 学 殿昭和59年 特
許 願 第138788号3、補正をする者 事件との関係 特許出願人 住 所 東京部品用区花品用6丁目7番35号名称<2
18)ソニー株式会社 代表取締役 大 賀 典 雄 4、代理人 6、補正により増加する発明の数 (11明細書中、第14頁第4行〜第7行(N=15)
・・・ (2) (N−15) ・・・ (3) 」 とあるを下記の通りに訂正する。 (I −15) ・・・ (2)(1=15)
・・・ (3) (2) 1.]、 Iiq□141.〜□15イ、
′・ ・ ・ (5) 」 とあるを下記の通りに訂正する。 ・・・ (5) 」 (3)同、第29頁第18行〜第19行、第30頁第1
行、同頁第12行〜第13行、第31頁第8行、第36
頁第2行〜第3行、同頁第10行〜第11行、第37頁
第8行及び第39頁第3行「比較的小さな時間軸変動」
とあるを夫々「比較的小さな時間軸等の変動」に夫々訂
正する。 以上
Claims (1)
- 音声信号入力部を有し、該音声信号入力部の音声信号を
音響分析部に供給し、該音響分析部の音響パラメータ時
系列を時間軸伸縮補正部に供給し、該時間軸伸縮補正部
の時間軸伸縮の補正された音響パラメータ時系列を入力
パターンとしてスイングサーチ部の一端に供給すると共
に標準パターンメモリの標準パターンを上記スイングサ
ーチ部の他端に供給し、上記スイングサーチ部にて上記
入力パターンと上記標準パターンとをスイングサーチ処
理して上記音声信号を認識するようにしたことを特徴と
する音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59138788A JPH0792674B2 (ja) | 1984-07-04 | 1984-07-04 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59138788A JPH0792674B2 (ja) | 1984-07-04 | 1984-07-04 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6117196A true JPS6117196A (ja) | 1986-01-25 |
JPH0792674B2 JPH0792674B2 (ja) | 1995-10-09 |
Family
ID=15230222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59138788A Expired - Lifetime JPH0792674B2 (ja) | 1984-07-04 | 1984-07-04 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0792674B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5561722A (en) * | 1992-03-04 | 1996-10-01 | Sony Corporation | Pattern matching method and pattern recognition apparatus |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56151998A (en) * | 1980-04-28 | 1981-11-25 | Oki Electric Ind Co Ltd | Voice recognizing method |
-
1984
- 1984-07-04 JP JP59138788A patent/JPH0792674B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56151998A (en) * | 1980-04-28 | 1981-11-25 | Oki Electric Ind Co Ltd | Voice recognizing method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5561722A (en) * | 1992-03-04 | 1996-10-01 | Sony Corporation | Pattern matching method and pattern recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPH0792674B2 (ja) | 1995-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6024597A (ja) | 音声登録方式 | |
JPS6117196A (ja) | 音声認識装置 | |
JPH04318900A (ja) | 多方向同時収音式音声認識方法 | |
JPS613200A (ja) | 音声認識装置 | |
KR930007790B1 (ko) | 음성 인식방법 | |
JPS60249199A (ja) | 音声認識装置 | |
JPH0572598B2 (ja) | ||
JPS619696A (ja) | 音声認識装置 | |
JPH0573036B2 (ja) | ||
JPH04369698A (ja) | 音声認識方式 | |
Takashima et al. | Estimation of Talker's Head Orientation Based on Discrimination of the Shape of Cross-power Spectrum Phase Coefficients. | |
Bera et al. | Emotion recognition using combination of mfcc and lpcc with supply vector machine | |
JPS6117195A (ja) | 音声認識装置 | |
JPS60254198A (ja) | 音声認識装置 | |
Todo et al. | Estimation of musical pitch by using comb filters for the identification of musical instruments | |
JPS62136700A (ja) | 音声認識装置 | |
JP2024008102A (ja) | 信号処理装置、信号処理プログラム及び信号処理方法 | |
JPS6114699A (ja) | 音声認識装置 | |
JPS61176996A (ja) | 音声認識装置 | |
JPS61267098A (ja) | 音声認識装置 | |
JPH05313695A (ja) | 音声分析装置 | |
JPH0577080B2 (ja) | ||
JPS60115996A (ja) | 音声認識装置 | |
JPS62131299A (ja) | 音声標準パタン自動作成装置 | |
JPS61275799A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |