JPS613200A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS613200A JPS613200A JP59123443A JP12344384A JPS613200A JP S613200 A JPS613200 A JP S613200A JP 59123443 A JP59123443 A JP 59123443A JP 12344384 A JP12344384 A JP 12344384A JP S613200 A JPS613200 A JP S613200A
- Authority
- JP
- Japan
- Prior art keywords
- trajectory
- parameter
- standard pattern
- time series
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声をg&1Iliする音声認識装置に関する
。
。
背景技術とその問題点
従来、音声の発声速度変動に対処した音声認識装置とし
て例えば特開昭50−“96104号公報に示されるよ
うなりPマツチング処理を行なうようにしたものが提案
されている。
て例えば特開昭50−“96104号公報に示されるよ
うなりPマツチング処理を行なうようにしたものが提案
されている。
先ず、このDPマツクチグ処理にて音声認識を行なうよ
うにした音声認識装置について説明する。
うにした音声認識装置について説明する。
第1図において、(1)は音声信号人力部としてのマイ
クロホンを示し、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析部(2
)にて音響パラメータ時系列Pi(nlが得られる。
クロホンを示し、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析部(2
)にて音響パラメータ時系列Pi(nlが得られる。
この音響分析部(21において例えばバンドパスフィル
タバンクの整流平滑化出力が音響パラメータ時M列Pi
(nl (i = l、・・・・+I; Iはバンドパ
スフィルタバンクのチャンネル数、n−1,・・・・、
N、Nは音声区間判定により切り出されたフレーム数で
ある。)として得られる。
タバンクの整流平滑化出力が音響パラメータ時M列Pi
(nl (i = l、・・・・+I; Iはバンドパ
スフィルタバンクのチャンネル数、n−1,・・・・、
N、Nは音声区間判定により切り出されたフレーム数で
ある。)として得られる。
この音響分析部(2)の音響パラメータ時系列Pi(n
lがモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)に格納
され、認識モードにおいてはDPマツチング距距離針部
部5)の一端に供給される。又、この認識モードにおい
ては標準パターンメモ■月荀に格納されている標準パタ
ーンがDPマツチング距距離針部部5)の他端に供給さ
れる。
lがモード切換スイッチ(3)により、登録モードにお
いては認識対象語毎に標準パターンメモリ(4)に格納
され、認識モードにおいてはDPマツチング距距離針部
部5)の一端に供給される。又、この認識モードにおい
ては標準パターンメモ■月荀に格納されている標準パタ
ーンがDPマツチング距距離針部部5)の他端に供給さ
れる。
このDPマツクチグ距離計算部(5)にてその時入力さ
れている音声の音響パラメータ時系列Pi(n)よりな
る入力パターンと標準パターンメモリ(4)の標準パタ
ーンとのDPマツクチグ距離計算処理がなされ、このD
Pマツクチグ距離計算部(5)のDPマツクチグ距離を
示す距離信号が最小距離判定部(6)に供給され、この
最小距離判定部(6)にて入力パターンに対してDPマ
ツクチグ距離が最小となる標準パターンが判定され、こ
の判定結果より入力音声を示す認識結果が出力端子(7
)に得られる。
れている音声の音響パラメータ時系列Pi(n)よりな
る入力パターンと標準パターンメモリ(4)の標準パタ
ーンとのDPマツクチグ距離計算処理がなされ、このD
Pマツクチグ距離計算部(5)のDPマツクチグ距離を
示す距離信号が最小距離判定部(6)に供給され、この
最小距離判定部(6)にて入力パターンに対してDPマ
ツクチグ距離が最小となる標準パターンが判定され、こ
の判定結果より入力音声を示す認識結果が出力端子(7
)に得られる。
ところで、一般に標準パターンメモリ(4+に格納され
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。DPマツクチグ処理により
この発声速度変動や単語長の違いに対処する為の時間軸
正規化がなされる。
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。DPマツクチグ処理により
この発声速度変動や単語長の違いに対処する為の時間軸
正規化がなされる。
以下、このDPマツクチグ処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi(nlの周波
数軸方向lに対応する次元を省略して標準パターンのパ
ラメータ時系列をb1+ ・・・・。
で、簡単の為に音響パラメータ時系列Pi(nlの周波
数軸方向lに対応する次元を省略して標準パターンのパ
ラメータ時系列をb1+ ・・・・。
bN・入力パターンのパラメータ時系列をalt・・・
・、aMとして、端点固定のDP−パスの場合のDPマ
ツクチグ処理について説明スる。
・、aMとして、端点固定のDP−パスの場合のDPマ
ツクチグ処理について説明スる。
第2図はDPマツクチグ処理の概念図を示し、横軸に人
力パラメータCM −19)が並べられ、縦軸に標準パ
ラメータ(N−12)が並べられ、この第2図に示す(
M、 N)格子状平面に於ける・点はMXN個であり、
この各・点に1つの距離が対応する。例えばa3とb5
との距離がa3から縦に伸した直線と、b5から横に伸
した直線との交点に位置する・に対応する。この場合、
距離として例えばチェビシェフ距離を取れば、a3とb
5とのチェビシェフ距f@d (3,5)はとなる(こ
の場合、周波数軸方向五に対応する次元を省略している
ので1−1である。)、そして、端点固定のDP−バス
として、格子点(m、n)に対してこの格子点(m、n
)に結びつける前の状態として左側の格子点(m−1,
n)、斜め左下側の格子点(m−1,n−1)及び下側
の格子点(m、n−1)の3つ乃だけを許した場合、始
点、即ちalとblとのチェビシェフ距離D s’sを
ボす点■から出発し、パス(経路)として3方向力を選
び、終点、即ちaMとbNとのチェビシェフ距[d (
M、N)を示す点■に至るバスで、通過する各格子点の
距離の総和が最小になるものを求め、この距離の総和を
人力パラメータ数Mと標準パラメータ数Nとの和より値
1を減算した(M+N−1)にて除算して得られた結果
が入力パターンのパラメータ時系列al+ ・・・・、
aMと標準パターンのパラメータ時系列bx、 ・・・
・rbNとのDPマツクチグ距離となされる。この様な
処理を不す初期条件及び漸化式は 初期条件 g (1,1)=d (1,1) 漸化式 と表され、これよりDPマツクチグ距離D (A、B)
D (A、B)=g (M、N)/ (M+N−
1)と表される((M十N−1)でg (M、N)を割
っているのは標準パターンのフレーム数Nの違いによる
距離の値の差を補正するためである。)。
力パラメータCM −19)が並べられ、縦軸に標準パ
ラメータ(N−12)が並べられ、この第2図に示す(
M、 N)格子状平面に於ける・点はMXN個であり、
この各・点に1つの距離が対応する。例えばa3とb5
との距離がa3から縦に伸した直線と、b5から横に伸
した直線との交点に位置する・に対応する。この場合、
距離として例えばチェビシェフ距離を取れば、a3とb
5とのチェビシェフ距f@d (3,5)はとなる(こ
の場合、周波数軸方向五に対応する次元を省略している
ので1−1である。)、そして、端点固定のDP−バス
として、格子点(m、n)に対してこの格子点(m、n
)に結びつける前の状態として左側の格子点(m−1,
n)、斜め左下側の格子点(m−1,n−1)及び下側
の格子点(m、n−1)の3つ乃だけを許した場合、始
点、即ちalとblとのチェビシェフ距離D s’sを
ボす点■から出発し、パス(経路)として3方向力を選
び、終点、即ちaMとbNとのチェビシェフ距[d (
M、N)を示す点■に至るバスで、通過する各格子点の
距離の総和が最小になるものを求め、この距離の総和を
人力パラメータ数Mと標準パラメータ数Nとの和より値
1を減算した(M+N−1)にて除算して得られた結果
が入力パターンのパラメータ時系列al+ ・・・・、
aMと標準パターンのパラメータ時系列bx、 ・・・
・rbNとのDPマツクチグ距離となされる。この様な
処理を不す初期条件及び漸化式は 初期条件 g (1,1)=d (1,1) 漸化式 と表され、これよりDPマツクチグ距離D (A、B)
D (A、B)=g (M、N)/ (M+N−
1)と表される((M十N−1)でg (M、N)を割
っているのは標準パターンのフレーム数Nの違いによる
距離の値の差を補正するためである。)。
この様な処理により標準パターンの数がL個ある場合に
は入力パターンに対するDPマツクチグ距離がL個求め
られ、このL個のDPマツクチグ距離中最小の距離とな
る標準パターンが認識結果となされる。
は入力パターンに対するDPマツクチグ距離がL個求め
られ、このL個のDPマツクチグ距離中最小の距離とな
る標準パターンが認識結果となされる。
この様なりPマツチング処理による音声認識装置によれ
ば発声速度変動や単語長の違いに対処、即ち時間軸正規
化のなされた音声g織を行なうことができる。
ば発声速度変動や単語長の違いに対処、即ち時間軸正規
化のなされた音声g織を行なうことができる。
然し乍ら、この様なりPマツチング処理により音声認識
を行なうものにおいては、音声の定常部がDPマツクチ
グに!+Jに大きく反映し、部分的に類似しているよう
な語い間に於いて誤認識し易いということが明らかとな
った。
を行なうものにおいては、音声の定常部がDPマツクチ
グに!+Jに大きく反映し、部分的に類似しているよう
な語い間に於いて誤認識し易いということが明らかとな
った。
即ち、音響パラメータ時系列Pi(n)はそのパラメ−
夕空間で軌跡を描くと考えることができる。実際には各
フレームnのパラメータがパラメータ空間内の1点に対
応することから、点列ではあるが時系列方向に曲線で結
んでいくと始点から終点迄の1つの軌跡が考えられる。
夕空間で軌跡を描くと考えることができる。実際には各
フレームnのパラメータがパラメータ空間内の1点に対
応することから、点列ではあるが時系列方向に曲線で結
んでいくと始点から終点迄の1つの軌跡が考えられる。
例えば2棟類の単語“SAN”と“HAI″とを登録し
た場合、夫々の標準パターンA’、B’は83図に示す
如く1S”、′A”、“N″、6H”、′A″、11゛
の各音韻領域を通過する軌跡を描く。そして、認識モー
ドで“SAN”と発声した場合、全体的にみれば入力パ
ターンAに対する標準パターンB′の類似する部分は非
常に少ないが、この入力パターンAの“SAN”の“A
”の部分が標準パターンA′の“SAN″のA”の部分
より標準パターンB′の’ I A I”のaAlの部
分により類似し、且つその部分(準定常部)に点数が多
い場合がある。
た場合、夫々の標準パターンA’、B’は83図に示す
如く1S”、′A”、“N″、6H”、′A″、11゛
の各音韻領域を通過する軌跡を描く。そして、認識モー
ドで“SAN”と発声した場合、全体的にみれば入力パ
ターンAに対する標準パターンB′の類似する部分は非
常に少ないが、この入力パターンAの“SAN”の“A
”の部分が標準パターンA′の“SAN″のA”の部分
より標準パターンB′の’ I A I”のaAlの部
分により類似し、且つその部分(準定常部)に点数が多
い場合がある。
ここで、第3図に示す如く入力パターンAのパラメータ
が全体的には檜準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマツクチグ処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に承ず
状況、即ち部分的に類似している語い間の関係と同様の
1次元パラメータ時系列として第4図に示す如き入力パ
ターンA i 2.4.6.8.8.8.8.6.4.
4.4.6゜8と、第5図に不ず如き標準パターンA’
i3,5゜7、9.9.9.9.7.5.5.7.9と
、第6図に示す如き標準パターンB’ i 7.6.
6.8.8.8.8.6゜4、4.4とを考える。これ
ら第4図乃至第6図のパターンより明らかな如く入力パ
ターンAは標準パターンA′と判定されて欲しいパター
ンである。
が全体的には檜準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマツクチグ処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に承ず
状況、即ち部分的に類似している語い間の関係と同様の
1次元パラメータ時系列として第4図に示す如き入力パ
ターンA i 2.4.6.8.8.8.8.6.4.
4.4.6゜8と、第5図に不ず如き標準パターンA’
i3,5゜7、9.9.9.9.7.5.5.7.9と
、第6図に示す如き標準パターンB’ i 7.6.
6.8.8.8.8.6゜4、4.4とを考える。これ
ら第4図乃至第6図のパターンより明らかな如く入力パ
ターンAは標準パターンA′と判定されて欲しいパター
ンである。
ところが、入力パターンAに対する標準パターンA′及
びB′のDPマツクチグ距離を針部すると、入力パター
ンAは標準パターンB′に近いことが示される。
びB′のDPマツクチグ距離を針部すると、入力パター
ンAは標準パターンB′に近いことが示される。
即ち、入力パターンAに対する標準パターンA′のDP
マツクチグ処理として第2図と同様、第7図に示す如く
横軸に入力パターンへのパラメータ時系列i 2.4.
6.8.8.8.8.6.4.4.4.6゜8を並べ、
縦軸に標準パターンA′のパラメータ時系列; 3.5
.7.9.9.9.9.7.5.5.7.9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2と
、標準パラメータA′のパラメータ時系列の第1番目の
パラメータ3とのチェビシェフ化[d (1,1)=1
の点を始点とし、入力パターンAのパラメータ時系列の
第13番目のパラメータ8と、標準パターンA′のパラ
メータ時系列の第12番目のパラメータ9とのチェビシ
ェフ化Md (13,12) −1の点を終点とし、D
P−バスとして第2図の場合と同様、任意の点に対する
前の状態としてその任意の点の左側の点、下側の点及び
斜めノL下側の点を取ることを許した場合(このバスを
実線矢印にて示す。)、バス上の点はd (1,1)
−d (2,2) −d(3,3)−d (4,4)
−d (5,5)−d(6,6)−d (7,7)−d
(8,8)−d(9,9) −d (10,10
) −d (11,10) −d(12,10)
−d (13,11) −d (13,12
)の14点であり、その距離の総和は24であり、この
DPマンチング距離D (A、A’)は1である。
マツクチグ処理として第2図と同様、第7図に示す如く
横軸に入力パターンへのパラメータ時系列i 2.4.
6.8.8.8.8.6.4.4.4.6゜8を並べ、
縦軸に標準パターンA′のパラメータ時系列; 3.5
.7.9.9.9.9.7.5.5.7.9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2と
、標準パラメータA′のパラメータ時系列の第1番目の
パラメータ3とのチェビシェフ化[d (1,1)=1
の点を始点とし、入力パターンAのパラメータ時系列の
第13番目のパラメータ8と、標準パターンA′のパラ
メータ時系列の第12番目のパラメータ9とのチェビシ
ェフ化Md (13,12) −1の点を終点とし、D
P−バスとして第2図の場合と同様、任意の点に対する
前の状態としてその任意の点の左側の点、下側の点及び
斜めノL下側の点を取ることを許した場合(このバスを
実線矢印にて示す。)、バス上の点はd (1,1)
−d (2,2) −d(3,3)−d (4,4)
−d (5,5)−d(6,6)−d (7,7)−d
(8,8)−d(9,9) −d (10,10
) −d (11,10) −d(12,10)
−d (13,11) −d (13,12
)の14点であり、その距離の総和は24であり、この
DPマンチング距離D (A、A’)は1である。
一方、人カバターンAに対する標準パターンB′のDP
マツクチグ処理を上述第7図に示す場合と同様、第8図
に小才如く行なう。即ち、入力パターンAの個1/のパ
ラメータ; 2.4.6.8.8.8゜8、6.4.4
.4.6.8に対する標準パターンB′の個個のパラメ
ータ; 7.6.6.8.8.8.8.6゜4、4.4
のチェビシェフ距離を求め、DP−バスとして任意の点
に対する前の状態としてその任意の点の左側の点、F側
の点及び斜め左下側の点を取ることを許した場合(この
バスを実線矢印にてボす。)、パス上の点はd (1,
1) −d (2,2>−d (3,3) −d (4
,4)−d (5,5)−d (6,6)−d (7,
7)−d (8,8)−d(9,9) −d (10,
10) −d (11,11) −d(12,11)
−d (13,l’l)の13点であり、その距離の総
和は15であり、このDPマツチング距1iD(A、B
’)は0.65である。
マツクチグ処理を上述第7図に示す場合と同様、第8図
に小才如く行なう。即ち、入力パターンAの個1/のパ
ラメータ; 2.4.6.8.8.8゜8、6.4.4
.4.6.8に対する標準パターンB′の個個のパラメ
ータ; 7.6.6.8.8.8.8.6゜4、4.4
のチェビシェフ距離を求め、DP−バスとして任意の点
に対する前の状態としてその任意の点の左側の点、F側
の点及び斜め左下側の点を取ることを許した場合(この
バスを実線矢印にてボす。)、パス上の点はd (1,
1) −d (2,2>−d (3,3) −d (4
,4)−d (5,5)−d (6,6)−d (7,
7)−d (8,8)−d(9,9) −d (10,
10) −d (11,11) −d(12,11)
−d (13,l’l)の13点であり、その距離の総
和は15であり、このDPマツチング距1iD(A、B
’)は0.65である。
このDP−バスを3方向乃とした結果より明らかな様に
入力パターンAがそのDPマツクチグ距離の小さな標準
パターンB′と判定され、判定されるべき結果が得られ
ない。この様にDPマツクチグ処理においては部分的に
類似しているような語い間に於いて誤認識し易い。
入力パターンAがそのDPマツクチグ距離の小さな標準
パターンB′と判定され、判定されるべき結果が得られ
ない。この様にDPマツクチグ処理においては部分的に
類似しているような語い間に於いて誤認識し易い。
又、DPマツクチグ処理においては上述した様に標準パ
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマツクチグ処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモ1月4)の記憶容量や演
算量の点で問題があった。
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマツクチグ処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモ1月4)の記憶容量や演
算量の点で問題があった。
この為、部分的に類似しているようなi&い間に於いて
も誤認識することが比較的少なく、且つ標準パターンメ
モリ(4)の記憶容量や処理の為の演算量が比較的少な
い音声認識装置として第9図に示す如きものが考えられ
ている。
も誤認識することが比較的少なく、且つ標準パターンメ
モリ(4)の記憶容量や処理の為の演算量が比較的少な
い音声認識装置として第9図に示す如きものが考えられ
ている。
第9図において0、(1)は、音声信号入力部としての
マイクロホンを示し、このマイクロホンfllからの音
声信号を音響分析部(2)の増幅器(8)に供給し、こ
の増幅器(8)の音声信号をカットオフ周波数5.5K
Hzのローパスフィルタ(9)を介してサンプリング周
波数12.5KHzの12ビツトA/D変換器O1に供
給し、このA/D変換器O1のデジタル音声信号を15
チヤンネルのデジタルバンドパスフィルタバンク(II
A ) 、 ’(l1g ) 、 ”、 (llo
)に供給する。
マイクロホンを示し、このマイクロホンfllからの音
声信号を音響分析部(2)の増幅器(8)に供給し、こ
の増幅器(8)の音声信号をカットオフ周波数5.5K
Hzのローパスフィルタ(9)を介してサンプリング周
波数12.5KHzの12ビツトA/D変換器O1に供
給し、このA/D変換器O1のデジタル音声信号を15
チヤンネルのデジタルバンドパスフィルタバンク(II
A ) 、 ’(l1g ) 、 ”、 (llo
)に供給する。
この15チヤンネルのデジタルバンドパスフィルタバン
ク (11^) 、 CIIF+) 、・・・・、
(llo)は例えばバターワース4次のデジタルフィ
ルタにて構成し、250Hzから5.5KHzまでの帯
域が対数軸上で等間隔となるように割り振られている。
ク (11^) 、 CIIF+) 、・・・・、
(llo)は例えばバターワース4次のデジタルフィ
ルタにて構成し、250Hzから5.5KHzまでの帯
域が対数軸上で等間隔となるように割り振られている。
そして、各デジタルバンドパスフィルタ(11^)、(
11B)。
11B)。
・・・・、(llo)の出力信号を15チヤンネルの整
流器(12A) 、 (12s) 、 ・・・・、
(12o)に夫々供給し、これら整流器(12^)、
(128)、・・・・。
流器(12A) 、 (12s) 、 ・・・・、
(12o)に夫々供給し、これら整流器(12^)、
(128)、・・・・。
(12o)の2乗出力を15チヤンネルのデジタルロー
パスフィルタ(13^)、(13e)、・・・・、(1
3o)に夫々供給する。これらデジタルローパスフィル
タ(13^) 、 (13B) 、・・・・、(13
o)はカットオフ周波数52.8HzのFIR(有限イ
ンパルス応答形)ローパスフィルタにて構成する。
パスフィルタ(13^)、(13e)、・・・・、(1
3o)に夫々供給する。これらデジタルローパスフィル
タ(13^) 、 (13B) 、・・・・、(13
o)はカットオフ周波数52.8HzのFIR(有限イ
ンパルス応答形)ローパスフィルタにて構成する。
そして、各デジタルローパスフイルり(13八)。
(13B)、・・・・、(13o)の出力信号をサンプ
リング周期5.12+msのサンプラー(14)に供給
する。
リング周期5.12+msのサンプラー(14)に供給
する。
このサンプラー(14)によりデジタルローパスフィル
タ (13^)、(13日)、・・・・、(13o)の
出力信号をフレーム周期5.12a+s毎にサンプリン
グし、このサンプラー(14)のサンプリング信号を音
源情報正規化器(15)に供給する。この音源情報正規
化器(15)は認識しようとする音声の話者による声帯
音源特性の違いを除去するものである。
タ (13^)、(13日)、・・・・、(13o)の
出力信号をフレーム周期5.12a+s毎にサンプリン
グし、このサンプラー(14)のサンプリング信号を音
源情報正規化器(15)に供給する。この音源情報正規
化器(15)は認識しようとする音声の話者による声帯
音源特性の違いを除去するものである。
即ち、フレーム周期毎にサンプラー(14)から供給さ
れるサンプリング信号Ai(nl (1−1+・・・・
。
れるサンプリング信号Ai(nl (1−1+・・・・
。
15;n:フレーム番号)に対して
Ai(nl= log (^1(nl+B)・・Il
lなる対数変換がなされる。このtit式において、B
はバイアスでノイズレベルが隠れる程度の値を設定する
。そして、声帯音源特性をyi =a −i+bなる式
で近似する。このa及びbの計数は次式により決定され
る。
lなる対数変換がなされる。このtit式において、B
はバイアスでノイズレベルが隠れる程度の値を設定する
。そして、声帯音源特性をyi =a −i+bなる式
で近似する。このa及びbの計数は次式により決定され
る。
(N −15) ・・・ (2)(N=15)
・・・ (3) そして、音線の正規化されたパラメータをP i (n
lとすると、a(n)<QのときパラメータPi(n)
はPi(nl=Ai(nl (a(nl ・i +
b(nll ・・・(41と表わされる。
・・・ (3) そして、音線の正規化されたパラメータをP i (n
lとすると、a(n)<QのときパラメータPi(n)
はPi(nl=Ai(nl (a(nl ・i +
b(nll ・・・(41と表わされる。
又、a (nl上0のときレベルの正規化のみ行ない、
パラメータPi(nlは ・・・ (5) と表わされる。
パラメータPi(nlは ・・・ (5) と表わされる。
この様な処理により声帯音源特性の正規化されたパラメ
ータPifnlを音声区間内パラメータメモリ(16)
に供給する。この音声区間内パラメータメモリ (16
)は後述する音声区間判定部(17)からの音声区間判
定信号を受けて声帯音源特性の正規化されたパラメータ
Pilnlを音声区間毎に格納する。
ータPifnlを音声区間内パラメータメモリ(16)
に供給する。この音声区間内パラメータメモリ (16
)は後述する音声区間判定部(17)からの音声区間判
定信号を受けて声帯音源特性の正規化されたパラメータ
Pilnlを音声区間毎に格納する。
一方、A/D変換器OIのデジタル音声信号を音声区間
判定部(17)のゼロクロスカウンタ(18)及びパワ
ー算出器(19)に夫々供給する。このゼロクロスカウ
ンタ(18)は5.12o+s毎にその区間の64点の
デジタル音声信号のゼロクロス数をカウントし、そのカ
ウント値を音声区間判定器(20)の第1の入力端に供
給する。又、パワー算出器(19)は5.12m5毎に
その区間のデジタル音声信号のパワー、即ち2乗和を求
め、その区間内パワーを示すパワー信号を音声区間判定
器(20)の第2の入力端に供給する。更に、音源情報
正規化器(15)の音源正規化情fiIla ln)及
びb (nlを音声区間判定器(20)の第3の入力端
に供給する。そして、音声区間判定器(20)において
はゼロクロス数、区間内パワー及び音源正規化情報a
(nl、 blnlを複合的に処理し、無音、無声音
及び有声音の判定処理を行ない、音声区間を決定する。
判定部(17)のゼロクロスカウンタ(18)及びパワ
ー算出器(19)に夫々供給する。このゼロクロスカウ
ンタ(18)は5.12o+s毎にその区間の64点の
デジタル音声信号のゼロクロス数をカウントし、そのカ
ウント値を音声区間判定器(20)の第1の入力端に供
給する。又、パワー算出器(19)は5.12m5毎に
その区間のデジタル音声信号のパワー、即ち2乗和を求
め、その区間内パワーを示すパワー信号を音声区間判定
器(20)の第2の入力端に供給する。更に、音源情報
正規化器(15)の音源正規化情fiIla ln)及
びb (nlを音声区間判定器(20)の第3の入力端
に供給する。そして、音声区間判定器(20)において
はゼロクロス数、区間内パワー及び音源正規化情報a
(nl、 blnlを複合的に処理し、無音、無声音
及び有声音の判定処理を行ない、音声区間を決定する。
この音声区間判定器(20)の音声区間を示す音声区間
判定信号を音声区間判定部(17)の出力として音声区
間内パラメータメモリ (16)に供給する。
判定信号を音声区間判定部(17)の出力として音声区
間内パラメータメモリ (16)に供給する。
この音声区間内パラメータメモリ (16)に格納され
た音声区間毎に一帯音源特性の正規化された音響パラメ
ータPi(nlをその時系列方向にNAT(Norma
lization Along Trajectory
)処理部(21)に供給する。このNAT処理部(21
)は NAT処理として音響パラメータ時系列Pi(n
)からそのパラメータ空間における軌跡を直線近位にて
推定し、この軌跡に沿って直線補間にて新たな音響パラ
メータ時系列Qil+nlを形成する。
た音声区間毎に一帯音源特性の正規化された音響パラメ
ータPi(nlをその時系列方向にNAT(Norma
lization Along Trajectory
)処理部(21)に供給する。このNAT処理部(21
)は NAT処理として音響パラメータ時系列Pi(n
)からそのパラメータ空間における軌跡を直線近位にて
推定し、この軌跡に沿って直線補間にて新たな音響パラ
メータ時系列Qil+nlを形成する。
ここで、このNAT処理部(21)について更に説明す
る。音響パラメータ時系列Pi+n) (i −1,・
・・・+I; n ”’ 1+・・・・、N)はそのパ
ラメータ空間に点列を描く。第10図に2次元パラメー
タ空間に分布する点列の例を示す。この第10図に示す
如く音声の非定席部の点列は粗に分布し、準定雷部は密
に分布する。この事は完全に定常であればパラメータは
変化せず、その場合には点列はパラメータ空間に停留す
ることからも明らかである。
る。音響パラメータ時系列Pi+n) (i −1,・
・・・+I; n ”’ 1+・・・・、N)はそのパ
ラメータ空間に点列を描く。第10図に2次元パラメー
タ空間に分布する点列の例を示す。この第10図に示す
如く音声の非定席部の点列は粗に分布し、準定雷部は密
に分布する。この事は完全に定常であればパラメータは
変化せず、その場合には点列はパラメータ空間に停留す
ることからも明らかである。
第11図は第10図に不ず如き点列上に滑らかな曲線よ
りなる軌跡を推定し描いた例を示す。この第11図に示
す如く点列に対して軌跡を推定できれば、音声の発声速
度変動に対して軌跡は殆ど不変であると考えることがで
きる。何故ならば、音声の発声速度変動による時間長の
違いは殆どが準定富部の時間的伸縮(第1O図にボず如
き点列におい“ζは準定常部の点列密度の違いに相当す
る。)に起因し、非定席部の時間長の影響は少ないと考
えられるからである。
りなる軌跡を推定し描いた例を示す。この第11図に示
す如く点列に対して軌跡を推定できれば、音声の発声速
度変動に対して軌跡は殆ど不変であると考えることがで
きる。何故ならば、音声の発声速度変動による時間長の
違いは殆どが準定富部の時間的伸縮(第1O図にボず如
き点列におい“ζは準定常部の点列密度の違いに相当す
る。)に起因し、非定席部の時間長の影響は少ないと考
えられるからである。
NAT処理部(21)においてはこの様な音声の発声速
度変動に対する軌跡の不変性に着目して時間軸正規化を
行なう。
度変動に対する軌跡の不変性に着目して時間軸正規化を
行なう。
即ち、第1に音響パラメータ時系列Pi(nlに対して
始点Pifllから終点Pi(N)迄を連続曲線で描い
た軌跡を推定し、この軌跡を示す曲線をPi(sl(0
≦S≦S)とする。この場合、必ずしも’P’1fO)
= P 1(11。
始点Pifllから終点Pi(N)迄を連続曲線で描い
た軌跡を推定し、この軌跡を示す曲線をPi(sl(0
≦S≦S)とする。この場合、必ずしも’P’1fO)
= P 1(11。
点列全体を近似的に通過するようなものであれば良い。
第2に推定されたpi(slから軌跡の長さSLを求め
、第12図にO印にて示す如く軌跡に沿って一定長で新
たな点列をリサンプリングする。例えばM点にサンプリ
ングする場合、一定長さ、即ちリサンプリング間隔T=
SL/(M−1)を基準として軌跡上をリサンプリング
する。このリサンプリングされた点列を(li−(i=
1.・・・・、I;m=1.・・・・、静この様にして
得られた新たなパラメータ時系列Qifmは軌跡の基本
情報を有しており、しかも音声の発声速度変動に対して
殆ど不変なパラメータとなる。即ち、新たなパラメータ
時系列Qi((2)は時間軸正規化がなされたパラメー
タ時系列となる。
、第12図にO印にて示す如く軌跡に沿って一定長で新
たな点列をリサンプリングする。例えばM点にサンプリ
ングする場合、一定長さ、即ちリサンプリング間隔T=
SL/(M−1)を基準として軌跡上をリサンプリング
する。このリサンプリングされた点列を(li−(i=
1.・・・・、I;m=1.・・・・、静この様にして
得られた新たなパラメータ時系列Qifmは軌跡の基本
情報を有しており、しかも音声の発声速度変動に対して
殆ど不変なパラメータとなる。即ち、新たなパラメータ
時系列Qi((2)は時間軸正規化がなされたパラメー
タ時系列となる。
この様な処理の為に、音声区間内パラメータメモリ (
16)の音響パラメータ時系列Pi(n)を軌跡長算出
器(22)に供給する。この軌跡長算出器(22)は音
響パラメータ時系列Pi(nlがそのパラメータ空間に
おいて描く直線近似による軌跡の長さ、即ち軌跡長を算
出するものである。この場合、■次元ベクトルa1及び
bi間の距離として例えばユークリッド距離D (a
i、bi)をとれば・ ・ ・ (6) である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、■次元の音響パ
ラメータ時系列PHn) (i = 1.・・・・+I
in ”’ 1 +・・・・、N)より、直線近似によ
り軌跡を推定した場合の時系列方向に隣接するパラメー
タ間距* S (n)は 5(nl−D (Pi (nlx ) 、 Pi(nl
) (fi=L・−・−、N−1・ ・ ・ (7
) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)から第n番目のパラメータPi(
nl迄の距MsLtn)は n’=1 と表わされる。向、SL+11 = 0である。更に、
軌跡長SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にC示す信号処理を行なう如くな
す。
16)の音響パラメータ時系列Pi(n)を軌跡長算出
器(22)に供給する。この軌跡長算出器(22)は音
響パラメータ時系列Pi(nlがそのパラメータ空間に
おいて描く直線近似による軌跡の長さ、即ち軌跡長を算
出するものである。この場合、■次元ベクトルa1及び
bi間の距離として例えばユークリッド距離D (a
i、bi)をとれば・ ・ ・ (6) である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、■次元の音響パ
ラメータ時系列PHn) (i = 1.・・・・+I
in ”’ 1 +・・・・、N)より、直線近似によ
り軌跡を推定した場合の時系列方向に隣接するパラメー
タ間距* S (n)は 5(nl−D (Pi (nlx ) 、 Pi(nl
) (fi=L・−・−、N−1・ ・ ・ (7
) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)から第n番目のパラメータPi(
nl迄の距MsLtn)は n’=1 と表わされる。向、SL+11 = 0である。更に、
軌跡長SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にC示す信号処理を行なう如くな
す。
この軌跡長算出器(22)の軌跡長SLを示す軌跡長信
号を補間間隔算出器(23)に供給する。この補間間隔
算出器(23)は軌跡に沿って直線補間により新たな点
列をリサンプリングする一定長のりサンプリング間隔T
を算出するものである。この場合、M点にリサンプリン
グするとすれば、リサンプリング間隔Tは T−5L/ (M−1) ・・・ Ol
と表わされる。補間間隔算出器(23)はこの01式に
て示す信号処理を行なう如くなす。
号を補間間隔算出器(23)に供給する。この補間間隔
算出器(23)は軌跡に沿って直線補間により新たな点
列をリサンプリングする一定長のりサンプリング間隔T
を算出するものである。この場合、M点にリサンプリン
グするとすれば、リサンプリング間隔Tは T−5L/ (M−1) ・・・ Ol
と表わされる。補間間隔算出器(23)はこの01式に
て示す信号処理を行なう如くなす。
この補間間隔算出器(23)のりサンプリング間隔Tを
示すリサンプリング間隔信号を炉間点抽出器(24)の
一端に供給すると共に音声区間内パラメータメモリ (
16)の音響パラメータ時系列Piinlを補間点抽出
器(24)の他端に供給する。この補間点抽出器(24
)は音響パラメータ時系列Pifnlのそのパラメータ
空間における軌跡例えばパラメータ間を直線近似した軌
跡に沿ってリサンプリング間隔Tで新たな点ダ1rをリ
サンプリングし、この新たな点列より新たな音響パラメ
ータ時系列0N(2)を形成するものである。
示すリサンプリング間隔信号を炉間点抽出器(24)の
一端に供給すると共に音声区間内パラメータメモリ (
16)の音響パラメータ時系列Piinlを補間点抽出
器(24)の他端に供給する。この補間点抽出器(24
)は音響パラメータ時系列Pifnlのそのパラメータ
空間における軌跡例えばパラメータ間を直線近似した軌
跡に沿ってリサンプリング間隔Tで新たな点ダ1rをリ
サンプリングし、この新たな点列より新たな音響パラメ
ータ時系列0N(2)を形成するものである。
ここで、この補間点抽出器(24)における信号処理を
第13図に示す流れ図に沿って説明する。先ず、ブロッ
ク(24a)にてリサンプリング点の時系列方向におけ
る番号を示す変数Jに値1が設定されると共に音響パラ
メータ時系列Pi(nlの時系列方向における番号を示
す変数ICに値1が設定される。そして、ブロック(2
4b)にて変数Jがインクリメントされ、ブロック(2
4c)にてそのときの変数Jが(M−1)以トであるか
どうかにより、そのときのりサンプリング点の時系列方
向における番号がリサンプリングする必要のある最後の
番号になっていないかどうかを判断し、なっていればこ
の補間点抽出器(24)の信号処理を終rし、なってい
なければブロック(24d )にて第1番目のりサンプ
リング点から第3番目のりサンプリング点までのりサン
プル距#DLが算出され、ブロック(24e)にて変数
ICがインクリメントされ、ブロック(24f )にて
リサンプル距離[ILが音響パラメータ時系列Pifn
)の第1番目のパラメータPilllから第1C番目の
パラメータPi(Ic)までの距It SL(+c )
よりも小さいかどうかにより、そのときのりサンプリン
グ点が軌跡上においてそのときのパラメータPi(IC
)よりも軌跡の始端側に位置するかどうかを判断し、位
置し°Cいなければブロック(24e )にて変数IC
をインクリメントした後再びブロック(24f )にて
リサンプリング点とパラメータPH+c)との軌跡上に
おける位置の比較有し、リサンプリング点が軌跡上にお
いてパラメータPi(1c)よりも始端側に位置すると
判断されたとき、ブロック(24,)にてリサンプリン
グにより軌跡に沿う新たな音響パラメータDi(J)が
形成される。即ち、先ず第3番目のりサンプリング点に
よるリサンプル距MDLからこの第J#r目のりサンプ
リング点よりも始端側に位置する第(IC−1)番目の
パラメータPi(+c−t)による距離5L(IC−1
)を減算して第(IC−1)番目のパラメータPjOc
−11から第3番目のりサンプリング点迄の距離SSを
求める。次に、軌跡上においてこの第3番目のりサンプ
リング点の両側に位置するパラメータPi(re−t)
及びノくラメータPi(Ic)間の距離S Qc −1
) 、 (この距離S(Ic−1)は(7)式にてボさ
れる信号処理にて得られる。)にてこの距離SSを除算
SS/ S (IG−1) L、この除算結果SS/
S (IG−1)に軌跡上において第3番目のりサンプ
リング点の両側に位置するパラメータP kOc )と
PiOc−x)との差(Pi(Ic)−P 1(lc
−11)を掛算(Pi(Ic) ’−Pi(IC−1)
) * 35/ S (Ic−1)して、vL跡上にお
いて第3番目のりサンプリング点のこのリサンプリング
点よりも始端側に隣接して位置する第(IC−1)番目
のパラメータPi(+c−t)からの補間量を算出し、
この補間量と第3番目のりサンプリング点よりも始端側
に隣接して位置する第(IC−1)番目のパラメータP
i(IC−1)とを加算して、軌跡に沿う新たな音響パ
ラメータQi(J)が形成される。第14図に2次元の
音響パラメータ時系列P(11,P(21,・・・・、
P(81に対してパラメータ間を直線近似して軌跡を推
定し、この軌跡に沿って直線補間により6点の新たな音
響パラメータ時系列Q (11、Q (21、・・・・
’、 Q(61を形成した例を示す。
第13図に示す流れ図に沿って説明する。先ず、ブロッ
ク(24a)にてリサンプリング点の時系列方向におけ
る番号を示す変数Jに値1が設定されると共に音響パラ
メータ時系列Pi(nlの時系列方向における番号を示
す変数ICに値1が設定される。そして、ブロック(2
4b)にて変数Jがインクリメントされ、ブロック(2
4c)にてそのときの変数Jが(M−1)以トであるか
どうかにより、そのときのりサンプリング点の時系列方
向における番号がリサンプリングする必要のある最後の
番号になっていないかどうかを判断し、なっていればこ
の補間点抽出器(24)の信号処理を終rし、なってい
なければブロック(24d )にて第1番目のりサンプ
リング点から第3番目のりサンプリング点までのりサン
プル距#DLが算出され、ブロック(24e)にて変数
ICがインクリメントされ、ブロック(24f )にて
リサンプル距離[ILが音響パラメータ時系列Pifn
)の第1番目のパラメータPilllから第1C番目の
パラメータPi(Ic)までの距It SL(+c )
よりも小さいかどうかにより、そのときのりサンプリン
グ点が軌跡上においてそのときのパラメータPi(IC
)よりも軌跡の始端側に位置するかどうかを判断し、位
置し°Cいなければブロック(24e )にて変数IC
をインクリメントした後再びブロック(24f )にて
リサンプリング点とパラメータPH+c)との軌跡上に
おける位置の比較有し、リサンプリング点が軌跡上にお
いてパラメータPi(1c)よりも始端側に位置すると
判断されたとき、ブロック(24,)にてリサンプリン
グにより軌跡に沿う新たな音響パラメータDi(J)が
形成される。即ち、先ず第3番目のりサンプリング点に
よるリサンプル距MDLからこの第J#r目のりサンプ
リング点よりも始端側に位置する第(IC−1)番目の
パラメータPi(+c−t)による距離5L(IC−1
)を減算して第(IC−1)番目のパラメータPjOc
−11から第3番目のりサンプリング点迄の距離SSを
求める。次に、軌跡上においてこの第3番目のりサンプ
リング点の両側に位置するパラメータPi(re−t)
及びノくラメータPi(Ic)間の距離S Qc −1
) 、 (この距離S(Ic−1)は(7)式にてボさ
れる信号処理にて得られる。)にてこの距離SSを除算
SS/ S (IG−1) L、この除算結果SS/
S (IG−1)に軌跡上において第3番目のりサンプ
リング点の両側に位置するパラメータP kOc )と
PiOc−x)との差(Pi(Ic)−P 1(lc
−11)を掛算(Pi(Ic) ’−Pi(IC−1)
) * 35/ S (Ic−1)して、vL跡上にお
いて第3番目のりサンプリング点のこのリサンプリング
点よりも始端側に隣接して位置する第(IC−1)番目
のパラメータPi(+c−t)からの補間量を算出し、
この補間量と第3番目のりサンプリング点よりも始端側
に隣接して位置する第(IC−1)番目のパラメータP
i(IC−1)とを加算して、軌跡に沿う新たな音響パ
ラメータQi(J)が形成される。第14図に2次元の
音響パラメータ時系列P(11,P(21,・・・・、
P(81に対してパラメータ間を直線近似して軌跡を推
定し、この軌跡に沿って直線補間により6点の新たな音
響パラメータ時系列Q (11、Q (21、・・・・
’、 Q(61を形成した例を示す。
又、このブロック(24g)においては周波数系列方向
にI次元分(i−1,・・・・、I)の信号処理が行な
われる。
にI次元分(i−1,・・・・、I)の信号処理が行な
われる。
である。)を除< CM−2)点のりサンプリングに
より新たな音響パラメータ時系列Q!(ホ)が形成され
る。
より新たな音響パラメータ時系列Q!(ホ)が形成され
る。
このNAT処理部(21)の新たな音響パラメータ時系
列O1(ホ)をモード切換スイッチ(3)により、登録
モードにおいては認識対象梧毎に標準パターンメモ1月
4)に格納し、認識モードにおいてはチェビシェフ距離
算出部(25)の一端に供給する。又、この認識モード
においては標準パターンメモ1月4)に格納されている
標準パターンをチェビシェフ距離算出部(25)の他端
に供給する。このチェビシェフ距離算出部(25)にお
いてはその時入力されている音声の時間軸の正規化され
た新たな音響パラメータ時系列Qi+(2)よりなる人
カバターンと、標準パターンメモ1月4)の標準パター
ンとのチェビシェフ距離算出処理がなされる。
列O1(ホ)をモード切換スイッチ(3)により、登録
モードにおいては認識対象梧毎に標準パターンメモ1月
4)に格納し、認識モードにおいてはチェビシェフ距離
算出部(25)の一端に供給する。又、この認識モード
においては標準パターンメモ1月4)に格納されている
標準パターンをチェビシェフ距離算出部(25)の他端
に供給する。このチェビシェフ距離算出部(25)にお
いてはその時入力されている音声の時間軸の正規化され
た新たな音響パラメータ時系列Qi+(2)よりなる人
カバターンと、標準パターンメモ1月4)の標準パター
ンとのチェビシェフ距離算出処理がなされる。
そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
この様にしてなる音声g&lli装置の動作について説
明する。
明する。
マイクロホン(1)の音声信号が音響分析部(2)に゛
ζ音声区間毎に声帯音源特性の正規化された音響パラメ
ータ時系列Pifnlに変換され、この音響パラメータ
時系列PilnlがNAT処理部(21)に供給され、
このNAT処理部(21)にて音響パラメータ時系列P
ifnlからそのパラメータ空間における直線近似によ
る軌跡が推定され、この軌跡に沿っ゛ζ直線?11間さ
れ時間軸正規化のなされた新たな音響バラメーク時系列
Qi(ホ)が形成され、登録モードにおいてはこの新た
な音響パラメータ時系列Qihlがモード切換スイッチ
(3)を介し′(標準パターンメT−1月4)に格納さ
れる。
ζ音声区間毎に声帯音源特性の正規化された音響パラメ
ータ時系列Pifnlに変換され、この音響パラメータ
時系列PilnlがNAT処理部(21)に供給され、
このNAT処理部(21)にて音響パラメータ時系列P
ifnlからそのパラメータ空間における直線近似によ
る軌跡が推定され、この軌跡に沿っ゛ζ直線?11間さ
れ時間軸正規化のなされた新たな音響バラメーク時系列
Qi(ホ)が形成され、登録モードにおいてはこの新た
な音響パラメータ時系列Qihlがモード切換スイッチ
(3)を介し′(標準パターンメT−1月4)に格納さ
れる。
又、認識モードにおいては、NAT処理部(21)の新
たな音響パラメータ時系列Qi(ロ)がモード切換スイ
ッチ(3)を介してチェビシェフ距離算出部(25)に
供給されると共に標準パターンメモ1月4)の標準パタ
ーンがチェビシェフ距離算出部(25)に供給される。
たな音響パラメータ時系列Qi(ロ)がモード切換スイ
ッチ(3)を介してチェビシェフ距離算出部(25)に
供給されると共に標準パターンメモ1月4)の標準パタ
ーンがチェビシェフ距離算出部(25)に供給される。
第15図乃至第17図に第4図乃至第6図に示す1次元
の入力パターンへのパラメータ時系列; 2.4.6.
8.8.8.8.6.4.4.4.6.8 、標準パタ
ーンA′のパラメータ時系列; 3.5.7.9゜9、
9.9.7.5.5.7.9、標準パターンB′のパラ
メータ時系列i 7.6.6.8.8.8.8.6.4
.4゜4をNAT処理部(21)にて直線近似にて軌跡
を推定し、リサンプリング屯を8点とする処理をした1
次元の入力パターンAのパラメータ時系列;2、4.6
.8.6.4.6.8、標準パターンA′のバラメータ
時系列;3.5.7.9.7.5.7.9、標準パター
ンB′のパラメータ時系列; 7.6.7.8゜7、6
.5.4を夫々示す。この場合、音響パラメータ時系列
Pi(n)からそのパラメータ空間における軌跡を推足
し、この軌跡に沿って新たな音響パラメータ時系列Qi
■が形成されるので、入力音声を変換した音響パラメー
タ時系列Pi(nl自身により時間軸正規化がなされる
。そして、チェビシェフ距離算出部(25)において入
力パターンAと標準パターンA′との間のチェビシェフ
距[8が算出されると共に入力パターンAと標準パター
ンB′との間のチェビシェフ距[16が算出され、これ
ら距離8及び距離16を夫々示す距離信号が最小比m’
l’l1足部(6)に供給され、この最小距離判定部(
6)にて距離8が距1i11t16よりも小さいことか
ら標準パターンAが入力パターンA′であると判定され
、ごの゛μj定砧果より人力音声が標準パターン八であ
ることを示す認識結果が出力端子(7)に得られる。従
っζ、部分的に類似しているような給い間に於いても誤
認識することが比較的少ない音声gmを行なうことがで
きる。
の入力パターンへのパラメータ時系列; 2.4.6.
8.8.8.8.6.4.4.4.6.8 、標準パタ
ーンA′のパラメータ時系列; 3.5.7.9゜9、
9.9.7.5.5.7.9、標準パターンB′のパラ
メータ時系列i 7.6.6.8.8.8.8.6.4
.4゜4をNAT処理部(21)にて直線近似にて軌跡
を推定し、リサンプリング屯を8点とする処理をした1
次元の入力パターンAのパラメータ時系列;2、4.6
.8.6.4.6.8、標準パターンA′のバラメータ
時系列;3.5.7.9.7.5.7.9、標準パター
ンB′のパラメータ時系列; 7.6.7.8゜7、6
.5.4を夫々示す。この場合、音響パラメータ時系列
Pi(n)からそのパラメータ空間における軌跡を推足
し、この軌跡に沿って新たな音響パラメータ時系列Qi
■が形成されるので、入力音声を変換した音響パラメー
タ時系列Pi(nl自身により時間軸正規化がなされる
。そして、チェビシェフ距離算出部(25)において入
力パターンAと標準パターンA′との間のチェビシェフ
距[8が算出されると共に入力パターンAと標準パター
ンB′との間のチェビシェフ距[16が算出され、これ
ら距離8及び距離16を夫々示す距離信号が最小比m’
l’l1足部(6)に供給され、この最小距離判定部(
6)にて距離8が距1i11t16よりも小さいことか
ら標準パターンAが入力パターンA′であると判定され
、ごの゛μj定砧果より人力音声が標準パターン八であ
ることを示す認識結果が出力端子(7)に得られる。従
っζ、部分的に類似しているような給い間に於いても誤
認識することが比較的少ない音声gmを行なうことがで
きる。
ここで、NAT処理を行なう音声tg織装置とDPマツ
クチグ処理を行なう音声1m装置との演算量における差
異について説明する。
クチグ処理を行なう音声1m装置との演算量における差
異について説明する。
入力パターンに対する標準パターン1個当たりのDPマ
ツチング距距離計郡部5)における平均演算量をαとし
、チェビシェフ距離算出部(25)における平均演算量
をβとし、NAT処理部(21)の平均の演算量をγと
したとき、3個の標準パターンに対するDPマツクチグ
処理による演算ii Crは C1−α ・ J ・ ・
・ (11)である。又、3個の標準パターンに対する
NAT処理した場合の演算量C2は C2−β・J+γ ・・・ (12)である
。一般に、平均演算量αは平均演算量βに対してα)β
なる関係がある。従って、γ なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算@C1は演算量C2に対してC1>>C2な
る関係となり、NAT処理を9−Jなう音声認識装置に
依れば、演算量を大幅に低減できる。
ツチング距距離計郡部5)における平均演算量をαとし
、チェビシェフ距離算出部(25)における平均演算量
をβとし、NAT処理部(21)の平均の演算量をγと
したとき、3個の標準パターンに対するDPマツクチグ
処理による演算ii Crは C1−α ・ J ・ ・
・ (11)である。又、3個の標準パターンに対する
NAT処理した場合の演算量C2は C2−β・J+γ ・・・ (12)である
。一般に、平均演算量αは平均演算量βに対してα)β
なる関係がある。従って、γ なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算@C1は演算量C2に対してC1>>C2な
る関係となり、NAT処理を9−Jなう音声認識装置に
依れば、演算量を大幅に低減できる。
又、NAT処理部(21)より得られる新たな音響パラ
メータ時系列ON−はその時系列方向において一足のパ
ラメータ数に設定できるので、標準パターンメモリ(4
)の記憶領域を有効に利用でき、その記憶容重を比較的
少なくできる。
メータ時系列ON−はその時系列方向において一足のパ
ラメータ数に設定できるので、標準パターンメモリ(4
)の記憶領域を有効に利用でき、その記憶容重を比較的
少なくできる。
この様にNAT処理を行うようにした音声認識装置にお
いてはDPマツクチグ処理を行うようにした音声認識装
置に比べ入力パターンに対する標準パターン1個当りの
平均演算量の違いにより認識対象語い数の増加に伴って
演算量が低減する。
いてはDPマツクチグ処理を行うようにした音声認識装
置に比べ入力パターンに対する標準パターン1個当りの
平均演算量の違いにより認識対象語い数の増加に伴って
演算量が低減する。
然し乍ら、このNAT処理を行うようにした音声認識装
置においζも、入力パターンに対して全標準パターンを
処理しており、処理のための演算の絶対量は依然として
多いという不都合があった。
置においζも、入力パターンに対して全標準パターンを
処理しており、処理のための演算の絶対量は依然として
多いという不都合があった。
発明の目的
本発明は斯かる点に鑑み処理のための演算量の比較的少
ないものを得ることを14的とする。
ないものを得ることを14的とする。
発明の概要
本発明は音声イご号人力部を有し、この音声信号入力部
の音声信号を音響分析部に供給し、この音響分析部に基
づい゛(得た音響パラメータ系列を軌跡長算出器に供給
し、この軌跡長算出器にて音響パラメータ系列からその
パラメータ空間における軌跡の軌跡長を谷山し、入力パ
ターンとこの入力パターンの軌跡長に応じた標準パター
ンとをマツチング処理して音声を認識するようにしたも
のであり、斯かる本発明音声認識装置に依れば処理のた
めの演算量を比較的少なくできる利益がある。
の音声信号を音響分析部に供給し、この音響分析部に基
づい゛(得た音響パラメータ系列を軌跡長算出器に供給
し、この軌跡長算出器にて音響パラメータ系列からその
パラメータ空間における軌跡の軌跡長を谷山し、入力パ
ターンとこの入力パターンの軌跡長に応じた標準パター
ンとをマツチング処理して音声を認識するようにしたも
のであり、斯かる本発明音声認識装置に依れば処理のた
めの演算量を比較的少なくできる利益がある。
実施例
以下、818図乃至第20図を参照しながら本発明音声
認識装置の一実施例について説明しよう。この第18図
乃至第20図において第1図乃至第17図と対応する部
分に同一符号を付してその詳細な説明は省略する。
認識装置の一実施例について説明しよう。この第18図
乃至第20図において第1図乃至第17図と対応する部
分に同一符号を付してその詳細な説明は省略する。
本例においては第18図にボず如(NAT処理部(21
)の補間点抽出器(24)の新たな音響パラメ−夕晴系
列Qi(mlを軌跡長信号付加器(26)の一端に供給
すると共にSAT処理部(21)の軌跡長算出器(22
)の軌跡長信号を執′a長信号付加器(26)の他端及
び後述する標準パターン選択部(27)の一端に供給す
る。このり【路長信号付加器(26)はNAT処理部(
21)の新たな音響パラメータ時系列口itml毎にこ
の新たな音響パラメータ時系列nitmlの元となる音
響分析部(2)の音響パラメータ時系列Pilnlのパ
ラメータ空間における軌跡のilt跡長SLを示す軌跡
長信号を付加する。
)の補間点抽出器(24)の新たな音響パラメ−夕晴系
列Qi(mlを軌跡長信号付加器(26)の一端に供給
すると共にSAT処理部(21)の軌跡長算出器(22
)の軌跡長信号を執′a長信号付加器(26)の他端及
び後述する標準パターン選択部(27)の一端に供給す
る。このり【路長信号付加器(26)はNAT処理部(
21)の新たな音響パラメータ時系列口itml毎にこ
の新たな音響パラメータ時系列nitmlの元となる音
響分析部(2)の音響パラメータ時系列Pilnlのパ
ラメータ空間における軌跡のilt跡長SLを示す軌跡
長信号を付加する。
この軌跡長信号付加器(26)の軌跡長信号が付加され
た新たな音響パラメータ時系列oitmlをモード切換
スイッチ(3)により、登録モードにおいては認識対象
語毎に標準パターンメモ1月4)に格納し、認識モード
においてはチェビシェフ距離算出部(25)の一端に供
給する。又、この認識モードにおいては標準パターンメ
モリ(4)に格納されCいる標準パターンを標準パター
ン選択部(27)の他端に供給する。この標準パターン
選択部(27)は認識モードにおいζその時入力されて
いる人カバターンとしての新たな音響パラメータ時系列
Qi■に付加された軌跡長信号と、標準パターンメモ1
月4)の標準パターン毎に付加された軌跡長信号とを比
較し、この比較結果に基づいて入力パターンに対してマ
ツチング処理する標準パターンを選択する。
た新たな音響パラメータ時系列oitmlをモード切換
スイッチ(3)により、登録モードにおいては認識対象
語毎に標準パターンメモ1月4)に格納し、認識モード
においてはチェビシェフ距離算出部(25)の一端に供
給する。又、この認識モードにおいては標準パターンメ
モリ(4)に格納されCいる標準パターンを標準パター
ン選択部(27)の他端に供給する。この標準パターン
選択部(27)は認識モードにおいζその時入力されて
いる人カバターンとしての新たな音響パラメータ時系列
Qi■に付加された軌跡長信号と、標準パターンメモ1
月4)の標準パターン毎に付加された軌跡長信号とを比
較し、この比較結果に基づいて入力パターンに対してマ
ツチング処理する標準パターンを選択する。
ここで、この標準パターン選択部(27)について更に
説明する。一般に、同−tX語であればその音響パラメ
ータ系列はそのパラメータ空間において形状及び長さが
略等しい軌跡を描くと考えられる。標準パターン選択部
(27)においてはこの点に着目して入力パターンの軌
跡長に対してあまり大きなずれのない標準パターンを選
択するものである。即ち、標準パターンの軌跡長をTR
LSとし、入力パターンの軌跡長をTRLIとして、こ
れら標準パターンの軌跡長TRLSと入力パターンの軌
跡長TRLIとの軌跡長のずれTRLを例えばなる信号
処理にて算出する。尚、軌跡長のずれTRLはこの(1
4)式に限らず適宜な関数を用いることができる。この
場合、!IL跡長のずれTRLは(14)式より明らか
な如く標準パターンの軌跡長TRLSと入力パターンの
軌跡長TRLIとが等しいTRLS= TRLIときに
最小値2をとる。本例においては入力パターンの軌跡長
TRLIに対して標準パターンの軌跡長TRLSの軌跡
長のずれTRLが値2.1以ドをとる標準パターンをチ
ェビシェフ距離算出部(25)の他端に供給する。その
他は上述第9図に示す音声認識装置と同様に構成する。
説明する。一般に、同−tX語であればその音響パラメ
ータ系列はそのパラメータ空間において形状及び長さが
略等しい軌跡を描くと考えられる。標準パターン選択部
(27)においてはこの点に着目して入力パターンの軌
跡長に対してあまり大きなずれのない標準パターンを選
択するものである。即ち、標準パターンの軌跡長をTR
LSとし、入力パターンの軌跡長をTRLIとして、こ
れら標準パターンの軌跡長TRLSと入力パターンの軌
跡長TRLIとの軌跡長のずれTRLを例えばなる信号
処理にて算出する。尚、軌跡長のずれTRLはこの(1
4)式に限らず適宜な関数を用いることができる。この
場合、!IL跡長のずれTRLは(14)式より明らか
な如く標準パターンの軌跡長TRLSと入力パターンの
軌跡長TRLIとが等しいTRLS= TRLIときに
最小値2をとる。本例においては入力パターンの軌跡長
TRLIに対して標準パターンの軌跡長TRLSの軌跡
長のずれTRLが値2.1以ドをとる標準パターンをチ
ェビシェフ距離算出部(25)の他端に供給する。その
他は上述第9図に示す音声認識装置と同様に構成する。
斯かる構成に依れば、マイクロホンfi+の音声信号が
音響分析部(2)にて音声区間毎に声帯音源特性の正規
化された音響パラメータ時系列Pi(n)に変換され、
この音響パラメータ時系列Pi(nlがNAT処理部(
21)に供給され、このN A T処理部(21)にて
音響パラメータ時系列Pi(nlからそのパラメータ空
間における直線近似による軌跡が推定され、この軌跡に
基いて時間軸正規化のなされた新たな音響パラメータ時
系列Qihlが形成される。そして、tlL跡長倍長信
号付加器6)にてこの新たな音響パラメータ時系列Oi
+(ロ)にNAT処理部(21)の軌跡長算出器(22
)のこの新たな音響パラメータ時系列Oi(ホ)の元と
なる音響分析部(2)の音響パラメータ時系列Pi(n
lのパラメータ空間における直線近似による軌跡の軌跡
長を示す軌跡長信号が付加される。
音響分析部(2)にて音声区間毎に声帯音源特性の正規
化された音響パラメータ時系列Pi(n)に変換され、
この音響パラメータ時系列Pi(nlがNAT処理部(
21)に供給され、このN A T処理部(21)にて
音響パラメータ時系列Pi(nlからそのパラメータ空
間における直線近似による軌跡が推定され、この軌跡に
基いて時間軸正規化のなされた新たな音響パラメータ時
系列Qihlが形成される。そして、tlL跡長倍長信
号付加器6)にてこの新たな音響パラメータ時系列Oi
+(ロ)にNAT処理部(21)の軌跡長算出器(22
)のこの新たな音響パラメータ時系列Oi(ホ)の元と
なる音響分析部(2)の音響パラメータ時系列Pi(n
lのパラメータ空間における直線近似による軌跡の軌跡
長を示す軌跡長信号が付加される。
そして、この軌跡長信号付加器(26)の軌跡長信号が
付加された新たな音響バラメーク時系列01(2))が
、登録モードにおいてはモード切換スイッチ(3)を介
して標準パターンメモ1月4)に格納される。
付加された新たな音響バラメーク時系列01(2))が
、登録モードにおいてはモード切換スイッチ(3)を介
して標準パターンメモ1月4)に格納される。
又、認識モードにおいては、軌跡長信号付加器(26)
の軌跡長信号が付加された入力パターンとしての新たな
音響パラメータ時系列Qi−がモード切換スイッチ(3
)を介してチェビシェフ距離算出部(25)に供給され
る。又、軌跡長算出器(22)の軌跡長信号と標準パタ
ーンメモ1月4)の軌跡長ず6号の付加された標準パタ
ーンとが標準パターン選択部(27)に供給され、この
標準パターン選択部(27)にて入力パターンの軌跡長
に対する標準パターンの軌跡長のずれTRLが(14)
式にて示される信号処理により算出され、このずれTR
Lが値2.1以下となる標準パターンが選択され、ごの
標準パターンがチェビシェフ距離算出部(25)に供給
される。このとき、標準パターンメモリ(4)に格納さ
れていた全欅準パターンを第19図に示す如き領域Fと
すると、標準パターン選択部(27)を介してチェビシ
ェフ距MIIF田部(25)に供給される標準パターン
は第19図に示す如き狭い領域fにて表される。そして
、゛このチェビシェフ距離算出部(25)にて入力パタ
ーンと選択された標準パターンとのチェビシェフ距離が
算出され、このチェビシェフ距離を示す距離信号が最小
距離判定部(6)にて判定され、入力パターンがどの標
準パターンであるか、即ち人力音声が如何なる標準パタ
ーンであるかを示す認識結果が出力端子(7)に得られ
る。
の軌跡長信号が付加された入力パターンとしての新たな
音響パラメータ時系列Qi−がモード切換スイッチ(3
)を介してチェビシェフ距離算出部(25)に供給され
る。又、軌跡長算出器(22)の軌跡長信号と標準パタ
ーンメモ1月4)の軌跡長ず6号の付加された標準パタ
ーンとが標準パターン選択部(27)に供給され、この
標準パターン選択部(27)にて入力パターンの軌跡長
に対する標準パターンの軌跡長のずれTRLが(14)
式にて示される信号処理により算出され、このずれTR
Lが値2.1以下となる標準パターンが選択され、ごの
標準パターンがチェビシェフ距離算出部(25)に供給
される。このとき、標準パターンメモリ(4)に格納さ
れていた全欅準パターンを第19図に示す如き領域Fと
すると、標準パターン選択部(27)を介してチェビシ
ェフ距MIIF田部(25)に供給される標準パターン
は第19図に示す如き狭い領域fにて表される。そして
、゛このチェビシェフ距離算出部(25)にて入力パタ
ーンと選択された標準パターンとのチェビシェフ距離が
算出され、このチェビシェフ距離を示す距離信号が最小
距離判定部(6)にて判定され、入力パターンがどの標
準パターンであるか、即ち人力音声が如何なる標準パタ
ーンであるかを示す認識結果が出力端子(7)に得られ
る。
この場合、入力パターンに対して全標準パターンでなく
その一部分の標準パターンとマツチング処理すればよく
、チェビシェフ距離算出部(25)及び最小距離判定部
(6)の処理のための演算量が大幅に低減される。
その一部分の標準パターンとマツチング処理すればよく
、チェビシェフ距離算出部(25)及び最小距離判定部
(6)の処理のための演算量が大幅に低減される。
又、異なる単語の標準パターンであるが第20図に示す
如く部分的に1714mしている部分があるためにチェ
ビシェフ距離が判定されるべき標準パターンより小さく
なることが希にある。第20図にこの様な状況を示す、
この第20図においては、パラメータ空間における入力
パターンA;“A”と、標準パターンA ’ i″八
″びBl、“SAN″とを無音を示す準定當部にて切断
し展開して示す。
如く部分的に1714mしている部分があるためにチェ
ビシェフ距離が判定されるべき標準パターンより小さく
なることが希にある。第20図にこの様な状況を示す、
この第20図においては、パラメータ空間における入力
パターンA;“A”と、標準パターンA ’ i″八
″びBl、“SAN″とを無音を示す準定當部にて切断
し展開して示す。
この場合、無音をネオ準定常部と、“A゛を示す準定常
部とにおいて入力パターンAが標準パターンA′よりも
標準パターンB′により類イ以し、その他の部分におい
てはあまり差を生じていない。
部とにおいて入力パターンAが標準パターンA′よりも
標準パターンB′により類イ以し、その他の部分におい
てはあまり差を生じていない。
この様な場合において本例によれば、入力パターンA;
”A”の軌跡長と、標準パターンA′ ;A″及びB′
;“SAN”の軌跡長とが標準パターン選択部(27
)にて比較され、標準パターンB′の軌跡長が人カバタ
ーン人の軌跡長に比べてずれTRLが大きずぎることか
判断され、第20図に示す如き状況にある標準パターン
B′は選択されず、入力パターンAとして判定されるべ
き標準パターンA′がチェビシェフ距離算出部(25)
に供給され、その分だけw4認識することがなくなる。
”A”の軌跡長と、標準パターンA′ ;A″及びB′
;“SAN”の軌跡長とが標準パターン選択部(27
)にて比較され、標準パターンB′の軌跡長が人カバタ
ーン人の軌跡長に比べてずれTRLが大きずぎることか
判断され、第20図に示す如き状況にある標準パターン
B′は選択されず、入力パターンAとして判定されるべ
き標準パターンA′がチェビシェフ距離算出部(25)
に供給され、その分だけw4認識することがなくなる。
以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホンfilを有し、この音声信
号人力部(11の音声信号を音響分析部(2)に供給し
、この音響分析部(2)の音響パラメータ時系列Pf(
nlを軌跡長算出器(22)に供給し、このU【路長算
出′l5(22)にて音響パラメータ時系列Pifnl
からそのパラメータ空間における軌跡の軌跡長を算出し
、入力パターンとこの入力パターンの軌跡長に応じた標
準パターンとをマツチング処理して音声を認識するよう
にした為、入力パターンに対して標準パターンメモリ(
4)の全標準パターンをマツチング処理する必要がなく
、その分だけ演算量を比較的少なくできる利益がある。
入力部としてのマイクロホンfilを有し、この音声信
号人力部(11の音声信号を音響分析部(2)に供給し
、この音響分析部(2)の音響パラメータ時系列Pf(
nlを軌跡長算出器(22)に供給し、このU【路長算
出′l5(22)にて音響パラメータ時系列Pifnl
からそのパラメータ空間における軌跡の軌跡長を算出し
、入力パターンとこの入力パターンの軌跡長に応じた標
準パターンとをマツチング処理して音声を認識するよう
にした為、入力パターンに対して標準パターンメモリ(
4)の全標準パターンをマツチング処理する必要がなく
、その分だけ演算量を比較的少なくできる利益がある。
因みに、標準パターン選択部(27)の(14)式にて
示す軌跡長のずれTRLO値を2.1以下に設定したと
ころマツチング処理のための演算量が第9図に示すもの
に比べ略半減することが明らかとなった。
示す軌跡長のずれTRLO値を2.1以下に設定したと
ころマツチング処理のための演算量が第9図に示すもの
に比べ略半減することが明らかとなった。
尚、上述実施例においては音響パラメータ時系列PiT
nlからそのパラメータ空間における軌跡の軌跡長を算
出した場合について述べたけれども、音響パラメータ周
波数系列からそのパラメータ空間における軌跡の軌跡長
を算出するようにしても上述実施例と同様の作用効果を
得ることができることは容易に理解できよう。又、上述
実施例においては音響パラメータ時系列からそのパラメ
ータ空間における直線近似による軌跡の軌跡長を算出す
るようにした場合について述べたけれども、円弧近似、
スプライン近似等による軌跡の軌跡長を算出するように
しても上述実施例と同様の作用効果を得ることができる
ことは容易に理解できよう。
nlからそのパラメータ空間における軌跡の軌跡長を算
出した場合について述べたけれども、音響パラメータ周
波数系列からそのパラメータ空間における軌跡の軌跡長
を算出するようにしても上述実施例と同様の作用効果を
得ることができることは容易に理解できよう。又、上述
実施例においては音響パラメータ時系列からそのパラメ
ータ空間における直線近似による軌跡の軌跡長を算出す
るようにした場合について述べたけれども、円弧近似、
スプライン近似等による軌跡の軌跡長を算出するように
しても上述実施例と同様の作用効果を得ることができる
ことは容易に理解できよう。
更に、上述実施例においては音響分析部(2)の音響パ
ラメータ時系列Pi(n)をNAT処理部(21)の軌
跡長算出器(22)に供吟し、このNAT処理部(21
)の軌跡長算出器(22)より音響パラメータ時系列P
i(nlからそのパラメータ空間における軌跡の軌跡長
を算出するようにした場合について述べたけれども、N
AT処理部(21)の軌跡長算出器(22)とは別途に
軌跡長算出器を設け、この軌跡長算出器にNAT処理部
(21)の新たな音響パラメータ時系列01(2))を
供給し、新たな音響パラメー少時系列Gi&nlからそ
のパラメータ空間における軌跡の軌跡長を算出し、この
軌跡長に基づいて標準パターンを選択するようにしても
上述実施例と同様の作用効果を得ることができることは
容易に理解できよう。更に、第1図に示す如きDPマツ
クチグ処理を行うようにした音声認識装置においても、
音響分析部(2)の音響パラメータ系列を軌跡長算出器
に供給し、この軌跡長算出器の軌跡長信号を音響パラメ
ータ系列に付加し、人カバターンの軌跡長に応じて標準
パターンを選択するようにしてもDPマツクチグ処理の
ための演算量を比較的少なくすることができる。更に、
本発明は上述実施例に限らず本発明の要旨を逸脱するこ
となくその他種々の構成を取り得ることは勿論である。
ラメータ時系列Pi(n)をNAT処理部(21)の軌
跡長算出器(22)に供吟し、このNAT処理部(21
)の軌跡長算出器(22)より音響パラメータ時系列P
i(nlからそのパラメータ空間における軌跡の軌跡長
を算出するようにした場合について述べたけれども、N
AT処理部(21)の軌跡長算出器(22)とは別途に
軌跡長算出器を設け、この軌跡長算出器にNAT処理部
(21)の新たな音響パラメータ時系列01(2))を
供給し、新たな音響パラメー少時系列Gi&nlからそ
のパラメータ空間における軌跡の軌跡長を算出し、この
軌跡長に基づいて標準パターンを選択するようにしても
上述実施例と同様の作用効果を得ることができることは
容易に理解できよう。更に、第1図に示す如きDPマツ
クチグ処理を行うようにした音声認識装置においても、
音響分析部(2)の音響パラメータ系列を軌跡長算出器
に供給し、この軌跡長算出器の軌跡長信号を音響パラメ
ータ系列に付加し、人カバターンの軌跡長に応じて標準
パターンを選択するようにしてもDPマツクチグ処理の
ための演算量を比較的少なくすることができる。更に、
本発明は上述実施例に限らず本発明の要旨を逸脱するこ
となくその他種々の構成を取り得ることは勿論である。
発明の効果
本発明音声認識装置に依れば、音声信号入力部を有し、
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部に基づいて得た音響パラメータ系列を軌
跡長算出器に供給し、このiltm長算出器にて音響パ
ラメータ系列からそのパラメータ空間におけるgt跡の
軌跡長を算出し、入力パターンとこの人カバターンの軌
跡長に応じた標準パターンとをマツチング処理して音声
を認識するようにした為、演算量を比較的少なくできる
利益がある。
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部に基づいて得た音響パラメータ系列を軌
跡長算出器に供給し、このiltm長算出器にて音響パ
ラメータ系列からそのパラメータ空間におけるgt跡の
軌跡長を算出し、入力パターンとこの人カバターンの軌
跡長に応じた標準パターンとをマツチング処理して音声
を認識するようにした為、演算量を比較的少なくできる
利益がある。
第1図はDPマツクチグ処理により音声認識を行なうよ
うにした音声認識装置の例を示す構成図、第2図はDP
マツクチグ処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4図
、第5図及び第6図は夫々1次元の人カバターンA、標
準パターンA′及び標準パターンB′の例を承す線図、
第7図は入力パターンAのパラメータ時系列と標準パタ
ーンA′のパラメータ時系列とのDPマツクチグ処理に
よる時間軸正規化の説明に供する線図、第8図は人カバ
ターンAのパラメータ時系列と標準パターンB′のパラ
メータ時系列とのDPマツクチグ処理による時間軸+E
規化の説明に供する線図、第9図はSAT処理をして音
声認識を行なうようにした音声認識装置の例をボず構成
図、第10図、第11図、ff112図及び第14図は
夫々NAT処理部の説明に供する線図、第13図は補間
点抽出器の説明に供する流れ図、第15図、第16図及
び第17図は夫々NAT処理部にてNAT処理した人カ
バターンA、標準パターンA′及び標準パターンB′の
1次元の音響パラメータ時系列を示す線図、第18図は
本発明音声認識装置の一実施例を示す構成図、第19図
及び第20図は夫々第18図の説明に供する線図である
。 (1)は音声信号人力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモIJ 、+61は最小距離判定部、(
IIA)(IIs ) 、 ”・・、 (llo )
は15チヤンネルのデジタルバンドパスフィルタハンク
、(16)は音声区間内パラメータメモリ、(21)は
NAT処理部、(22)は1ltli!6長算出器、(
23)は補間間隔算出器、(24)は補間点抽出器、(
25)はチェビシェフ距離算出部、(26)は軌跡長信
号付加器、(27)は標準パターン選択部である。 11因 第13図
うにした音声認識装置の例を示す構成図、第2図はDP
マツクチグ処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4図
、第5図及び第6図は夫々1次元の人カバターンA、標
準パターンA′及び標準パターンB′の例を承す線図、
第7図は入力パターンAのパラメータ時系列と標準パタ
ーンA′のパラメータ時系列とのDPマツクチグ処理に
よる時間軸正規化の説明に供する線図、第8図は人カバ
ターンAのパラメータ時系列と標準パターンB′のパラ
メータ時系列とのDPマツクチグ処理による時間軸+E
規化の説明に供する線図、第9図はSAT処理をして音
声認識を行なうようにした音声認識装置の例をボず構成
図、第10図、第11図、ff112図及び第14図は
夫々NAT処理部の説明に供する線図、第13図は補間
点抽出器の説明に供する流れ図、第15図、第16図及
び第17図は夫々NAT処理部にてNAT処理した人カ
バターンA、標準パターンA′及び標準パターンB′の
1次元の音響パラメータ時系列を示す線図、第18図は
本発明音声認識装置の一実施例を示す構成図、第19図
及び第20図は夫々第18図の説明に供する線図である
。 (1)は音声信号人力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモIJ 、+61は最小距離判定部、(
IIA)(IIs ) 、 ”・・、 (llo )
は15チヤンネルのデジタルバンドパスフィルタハンク
、(16)は音声区間内パラメータメモリ、(21)は
NAT処理部、(22)は1ltli!6長算出器、(
23)は補間間隔算出器、(24)は補間点抽出器、(
25)はチェビシェフ距離算出部、(26)は軌跡長信
号付加器、(27)は標準パターン選択部である。 11因 第13図
Claims (1)
- 音声信号入力部を有し、該音声信号入力部の音声信号を
音響分析部に供給し、該音響分析部に基づいて得た音響
パラメータ系列を軌跡長算出器に供給し、該軌跡長算出
器にて上記音響パラメータ系列からそのパラメータ空間
における軌跡の軌跡長を算出し、入力パターンと該入力
パターンの軌跡長に応じた標準パターンとをマッチング
処理して音声を認識するようにしたことを特徴とする音
声認識装置。
Priority Applications (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59123443A JPH0632022B2 (ja) | 1984-06-15 | 1984-06-15 | 音声認識装置 |
| AU42751/85A AU586167B2 (en) | 1984-05-25 | 1985-05-22 | Speech recognition method and apparatus thereof |
| CA000482156A CA1227286A (en) | 1984-05-25 | 1985-05-23 | Speech recognition method and apparatus thereof |
| EP85303666A EP0164945B1 (en) | 1984-05-25 | 1985-05-23 | Methods of and apparatus for speech recognition |
| DE8585303666T DE3583067D1 (de) | 1984-05-25 | 1985-05-23 | Verfahren und anordnung zur spracherkennung. |
| US07/323,098 US5003601A (en) | 1984-05-25 | 1989-03-07 | Speech recognition method and apparatus thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59123443A JPH0632022B2 (ja) | 1984-06-15 | 1984-06-15 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS613200A true JPS613200A (ja) | 1986-01-09 |
| JPH0632022B2 JPH0632022B2 (ja) | 1994-04-27 |
Family
ID=14860723
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59123443A Expired - Fee Related JPH0632022B2 (ja) | 1984-05-25 | 1984-06-15 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0632022B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS619696A (ja) * | 1984-06-25 | 1986-01-17 | ソニー株式会社 | 音声認識装置 |
| US5561722A (en) * | 1992-03-04 | 1996-10-01 | Sony Corporation | Pattern matching method and pattern recognition apparatus |
| CN112817310A (zh) * | 2020-12-30 | 2021-05-18 | 广东电网有限责任公司电力科学研究院 | 一种变电站巡检策略的制定方法及装置 |
-
1984
- 1984-06-15 JP JP59123443A patent/JPH0632022B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS619696A (ja) * | 1984-06-25 | 1986-01-17 | ソニー株式会社 | 音声認識装置 |
| US5561722A (en) * | 1992-03-04 | 1996-10-01 | Sony Corporation | Pattern matching method and pattern recognition apparatus |
| CN112817310A (zh) * | 2020-12-30 | 2021-05-18 | 广东电网有限责任公司电力科学研究院 | 一种变电站巡检策略的制定方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0632022B2 (ja) | 1994-04-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO1993018505A1 (en) | Voice transformation system | |
| CN107851444A (zh) | 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用 | |
| JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
| JPS613200A (ja) | 音声認識装置 | |
| JP2003044077A (ja) | 音声特徴量抽出方法と装置及びプログラム | |
| JPH02157800A (ja) | 特徴抽出方式 | |
| JP2003177777A (ja) | 音声特徴抽出方法及び音声特徴抽出装置並びに音声認識方法及び音声認識装置 | |
| JPS619696A (ja) | 音声認識装置 | |
| JPS619697A (ja) | 音声認識装置 | |
| JPH0634181B2 (ja) | 音声認識装置 | |
| JPS6117196A (ja) | 音声認識装置 | |
| JPS60249199A (ja) | 音声認識装置 | |
| JPH0572598B2 (ja) | ||
| Bera et al. | Emotion recognition using combination of mfcc and lpcc with supply vector machine | |
| JPS60254198A (ja) | 音声認識装置 | |
| JPH0632011B2 (ja) | 音声認識装置 | |
| JPS61174600A (ja) | 音声認識装置 | |
| JPS62136700A (ja) | 音声認識装置 | |
| JPS6117195A (ja) | 音声認識装置 | |
| JPS6114699A (ja) | 音声認識装置 | |
| JPS62144200A (ja) | 連続音声認識装置 | |
| JPS62131299A (ja) | 音声標準パタン自動作成装置 | |
| JPS61176997A (ja) | 音声認識装置 | |
| JPH05313695A (ja) | 音声分析装置 | |
| JPS58168094A (ja) | 音声分析処理方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |