JPS619696A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS619696A
JPS619696A JP59130714A JP13071484A JPS619696A JP S619696 A JPS619696 A JP S619696A JP 59130714 A JP59130714 A JP 59130714A JP 13071484 A JP13071484 A JP 13071484A JP S619696 A JPS619696 A JP S619696A
Authority
JP
Japan
Prior art keywords
trajectory
distance
time series
parameter
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59130714A
Other languages
Japanese (ja)
Other versions
JPH0668678B2 (en
Inventor
曜一郎 佐古
平岩 篤信
誠 赤羽
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP59130714A priority Critical patent/JPH0668678B2/en
Priority to AU42751/85A priority patent/AU586167B2/en
Priority to CA000482156A priority patent/CA1227286A/en
Priority to EP85303666A priority patent/EP0164945B1/en
Priority to DE8585303666T priority patent/DE3583067D1/en
Publication of JPS619696A publication Critical patent/JPS619696A/en
Priority to US07/323,098 priority patent/US5003601A/en
Publication of JPH0668678B2 publication Critical patent/JPH0668678B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声を認識する音声認t(ル装置に関する。[Detailed description of the invention] Industrial applications The present invention relates to a voice recognition device for recognizing voice.

背景技術とその問題点 従来、音声の発声速度変動に対処した音゛戸1認61&
装置として例えば特開昭50−96104号公報に示さ
れるようなりPマツチング処理を行なうようにしたもの
が提案されている。
BACKGROUND TECHNOLOGY AND THEIR PROBLEMS Conventionally, there has been a sound system that deals with variations in speech rate.
For example, an apparatus has been proposed that performs P matching processing, as disclosed in Japanese Patent Laid-Open No. 50-96104.

先ず、このDPマツチング処理にて音声認識を行なうよ
うにした音声認識装置について説明する。
First, a speech recognition device that performs speech recognition using this DP matching process will be described.

第1図においで、(1)は音声信号入力部としてのマイ
クロボンをボし、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析ff1
i (21にて音響パラメータ時系列Pi(nlが得ら
れる。
In FIG. 1, (1) is a microphone as an audio signal input section, and the audio signal from this microphone (1) is supplied to an acoustic analysis section (2), and the acoustic analysis section ff1
i (21, the acoustic parameter time series Pi(nl) is obtained.

この音響分析部(2)において例えばバントパスフィル
タバンクの整流平滑化出力が音響パラメータ時系列Pi
(nl (i = 1.・・・・+I; Iばバンドパ
スフィルタバンクのチャンネル数、n−1,・・・・、
NUNは音PR区間判定により切り出されたフレーム数
である。)として得られる。
In this acoustic analysis section (2), for example, the rectified and smoothed output of the bandpass filter bank is calculated as the acoustic parameter time series Pi.
(nl (i = 1....+I; I is the number of channels of the bandpass filter bank, n-1,...,
NUN is the number of frames extracted by sound PR section determination. ) is obtained as

この音響分析部(2)の音響パラメータ時系列Pifn
)がモー F切換スイッチ(3)により、登録モードに
おいては認識対象語毎に標準バクーンメモ1月4)に格
納され、認識モードにおいてはDPマツチング距離計算
部(5)の一端に供給される。又、この認識モードにお
いては標準パターンメモリ(4)に格納されている標準
パターンがDPマツチング距離計算部(5)の他端に供
給される。
The acoustic parameter time series Pifn of this acoustic analysis section (2)
) is stored in the standard Bakun memo 1/4) for each recognition target word in the registration mode by the mode F changeover switch (3), and is supplied to one end of the DP matching distance calculation unit (5) in the recognition mode. Further, in this recognition mode, the standard pattern stored in the standard pattern memory (4) is supplied to the other end of the DP matching distance calculation section (5).

このDPマツチング距距離針部部5)にてその時人力さ
れている音声の音響パラメータ時系列Pi(nlよりな
る入力パターンと標準パターンメモ1月4)の標準パタ
ーンとのDPPマツチング離計算処理がなされ、このD
PPマツチング離計算部(5)のDPPマツチング離を
示す距離信号が最小距離判定部(6)に供給され、この
最小距離判定部(6)にて入力パターンに対してDPP
マツチング離が最小となる標準パターンが判定され、こ
の判定結果より入力音声を示す認識結果が出力端子(7
)に得られる。
This DP matching distance needle section 5) performs a DPP matching distance calculation process between the input pattern consisting of the acoustic parameter time series Pi (nl) of the human input voice at that time and the standard pattern of the standard pattern memo January 4. , this D
A distance signal indicating the DPP matching distance from the PP matching distance calculating section (5) is supplied to the minimum distance determining section (6), and the minimum distance determining section (6) calculates the DPP matching distance for the input pattern.
The standard pattern with the minimum matching distance is determined, and from this determination result, the recognition result indicating the input voice is output to the output terminal (7
) can be obtained.

ところで、一般に標準パターンメモ1月4)に格納され
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。D Pマツチング処理によ
りこの発声速度変動やli語長の違いに対処する為の時
間軸正規化がなされる。
Incidentally, the number N of frames of the standard pattern stored in the standard pattern memo (January 4) generally varies depending on variations in speaking speed and differences in word length. The D P matching process performs time axis normalization to deal with variations in speaking speed and differences in word length.

以下、このDPPマツチング理について説明する。ここ
で、簡単の為に音響パラメータ時系列P i (nlの
周波数軸方向iに対応する次元を省略して標準パターン
のパラメータ時系列をbl、 ・・・・。
This DPP matching process will be explained below. Here, for simplicity, the dimension corresponding to the frequency axis direction i of the acoustic parameter time series P i (nl is omitted, and the parameter time series of the standard pattern is expressed as bl, . . . ).

bN・入力パターンのパラメータ時系列をa□。bN・The parameter time series of the input pattern is a□.

・・・・+8Mとして、端点固定のDP−バスの場合の
DPPマツチング理について説明する。
. . +8M, the DPP matching process in the case of a DP-bus with fixed end points will be explained.

第2図はDPPマツチング理の概念図を承し、横軸に入
力パラメータ(M=19)が並べられ、縦軸に標準パラ
メータ(N = 12)が並べられ、この第2図に示す
(M、N)格子状平面に於ける・点はMXN個であり、
この各・点に1つの距離が対応する。例えばa3とb5
との距離がa3がら縦に伸した直線と、b5から横に伸
した直線との交点に位置する・に対応する。この場合、
距離として例えばチェビシェフ距離を取れば、a3とb
5とのチェビシェフ距離d (3,5)はとなる(この
場合、周波数軸方向iに対応する次元を省略しているの
でI=1である。)。そして、端点固定のDP−バスと
して、格子点(m、n)に対してこの格子点(m、n)
に結びつける前の状態として左側の格子点(ml 、n
 ) 、斜め左−ド側の格子点(m−1,n−1)及び
ト側の格子点(m、n−1)の3つ21だけを許した場
合、始点、即ちalとblとのチェビシェフ距1tll
t l) 11を示す点0から出発し、バス(経路)と
して3方向2Iを選び、終点、即ちaMとす、とのチェ
ビシェフ距離d (M、N)を示す点◎に至るバスで、
通過する各格子点の距離の総和が最小になるものを求め
、この距離の総和を入力パラメータ数Mと標準パラメー
タ数Nとの和より値1を減算した(M+N−1)にて除
算して得られた結果が入力パターンのパラメータ時系列
al+  ・・・・+8Mと標準パター ンのパラメー
タ時系列bx、  ・・・・rbNとのDPPマツチン
グ離となされる。この様な処理を示す初期条件及び漸化
式は 初期条件 g (1,,1) −d (1,1) 漸化式 と表され、これよりDPマツチング距11tD (A、
  B)は D  (A、、B)=g  (M、N)/ (M+N−
1)と表される((M+N−1)でg (M、N)を割
っているのは標準パターンのフレーム数Nの違いによる
距離の値の差を補正するためである。)。
Figure 2 shows a conceptual diagram of the DPP matching process, with input parameters (M = 19) arranged on the horizontal axis and standard parameters (N = 12) arranged on the vertical axis. , N) There are MXN points in the grid plane,
One distance corresponds to each point. For example a3 and b5
The distance corresponds to the intersection of the straight line extending vertically from a3 and the straight line extending horizontally from b5. in this case,
For example, if we take the Chebyshev distance as the distance, a3 and b
The Chebyshev distance d (3, 5) with respect to 5 is (in this case, I=1 because the dimension corresponding to the frequency axis direction i is omitted). Then, as a DP-bus with fixed end points, this grid point (m, n) is
The left grid point (ml, n
), if only three lattice points (m-1, n-1) on the diagonal left side (m-1, n-1) and grid points (m, n-1) on the g-side are allowed, then the starting point, that is, the connection between al and bl. Chebyshev distance 1tll
t l) Starting from point 0, which shows 11, select 3 directions 2I as the bus (route), and take a bus to point ◎, which shows the Chebyshev distance d (M, N) from the end point, that is, aM,
Find the one that minimizes the sum of the distances of each passing grid point, and divide this sum of distances by (M+N-1), which is the sum of the number of input parameters M and the number of standard parameters N, minus the value 1. The obtained result is subjected to DPP matching between the parameter time series al+...+8M of the input pattern and the parameter time series bx,...rbN of the standard pattern. The initial condition and recurrence formula showing such processing are expressed as the initial condition g (1,,1) -d (1,1) recurrence formula, and from this, the DP matching distance 11tD (A,
B) is D (A,,B)=g (M,N)/(M+N-
1) (The reason why g (M, N) is divided by (M+N-1) is to correct the difference in distance value due to the difference in the number of frames N of the standard pattern.)

この様な処理により標準パターンの数が5個ある場合に
は入力パターンに対するDPPマツチング離が5個求め
られ、この5個のDPマツチング距離中最小の距離とな
る標準パターンが認識結果となされる。
Through such processing, when there are five standard patterns, five DPP matching distances for the input pattern are obtained, and the standard pattern with the minimum distance among these five DP matching distances is determined as the recognition result.

この様なりPマツチング処理による音声認識装置によれ
ば発声速度変動や単語長の違いに対処、即ち時間軸正規
化のなされた音声認識を行なうことができる。
As described above, the speech recognition device using P matching processing can deal with variations in speaking speed and differences in word length, that is, perform speech recognition with time axis normalization.

然し乍ら、この様なりPマツチング処理により音声認識
を行なうものにおいては、音声の定常部がDPPマツチ
ング離に大きく反映し、部分的に類似しているような語
い間に於いて誤認識し易いということが明らかとなった
However, when speech recognition is performed using P matching processing like this, the stationary parts of the speech are largely reflected in the DPP matching distance, and it is easy to misrecognize between words that are partially similar. It became clear that

即ち、音響パラメータ時系列Pifnjはそのパラメー
タ空間で軌跡を描くと考えることができる。実際には各
フレームnのパラメータがパラメータ空間内の1点に対
応す名ことから、点列ではあるが時系列方向に曲線で結
んでいくと始点から終点迄の1つの軌跡が考えられる。
That is, the acoustic parameter time series Pifnj can be considered to draw a trajectory in the parameter space. Actually, since the parameters of each frame n correspond to one point in the parameter space, if the points are connected by curves in the time series direction, one locus from the starting point to the ending point can be considered.

例えば2種類の単語“”SAN”と“HAI”とを登録
した場合、夫々の標準パターンA’、B’は第3図に示
す如く“S”、”A″、”N″、”H”、  “A″、
′■”の各音韻領域を通過する軌跡を描く。そして、認
識モードで“”SAN”と発声した場合、全体的にみれ
ば入力パターンAに対する標準パターンB′の類似する
部分は非密に少ないが、この入力パターンAの”SAN
”の”A”の部分が標準パターンA′の“SAN”の“
A”の部分より標準パターンB′の“HAI″の”A”
の部分により類似し、且つその部分(準定常部)に点数
が多い場合がある。
For example, when two types of words ""SAN" and "HAI" are registered, the respective standard patterns A' and B' are "S", "A", "N", and "H" as shown in Figure 3. , "A",
Draw a trajectory that passes through each phonetic area of ``■''. Then, when ``SAN'' is uttered in the recognition mode, overall, there are very few similarities between standard pattern B' and input pattern A. However, the “SAN” of this input pattern A is
The “A” part of “” is the “SAN” of standard pattern A’.
"A" of "HAI" of standard pattern B' from part "A"
, and there are cases where there are many points in that part (quasi-stationary part).

ここで、第3図に示す如く入力パターンAのパラメータ
が全体的には標準パターンA′のパラメータに類似し、
部分的には標準パターンB′のバラメークに類似する場
合にDPマツチング処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に示す
状況、即ち部分的に類似し°ζいる語い間の関係と同様
の1次元パラメータ時系列として第4図に示す如き入力
パターンA ; 2.4.6.8.8.8.8.6.4
.4.4.6゜8と1.第5図に示す如き標準パターン
A′;3,5゜7、9.9.9.9.7.5.5.7.
9と、第6図に示す如き標準パターンB’  、 7.
6.6.8.8.8.8.6゜4、4.4とを考える。
Here, as shown in FIG. 3, the parameters of the input pattern A are generally similar to the parameters of the standard pattern A',
A case will be described using a one-dimensional parameter as an example, where DP matching processing causes erroneous recognition when the pattern is partially similar to the variation of standard pattern B'. In this case, the situation shown in FIG. 3, that is, the input pattern A as shown in FIG. 4 as a one-dimensional parameter time series similar to the relationship between partially similar words; 2.4.6.8 .8.8.8.6.4
.. 4.4.6°8 and 1. Standard pattern A' as shown in FIG. 5; 3,5°7, 9.9.9.9.7.5.5.7.
9, and a standard pattern B' as shown in FIG. 6, 7.
6.6.8.8.8.8.6°4, 4.4.

これら第4図乃至第6図のパターンより明らかな如く入
力パターンAは標準パターンA′と判定されて欲しいパ
ターンである。
As is clear from the patterns shown in FIGS. 4 to 6, input pattern A is a pattern that is desired to be determined as standard pattern A'.

ところが、入力パターンAに対する標準パターンA′及
びB′のDPマツチング距離を計算すると、入力パター
ンAは標準パターンB′に近いことが示される。
However, when calculating the DP matching distance of standard patterns A' and B' with respect to input pattern A, it is shown that input pattern A is close to standard pattern B'.

即ち、入力パターンAに対する標準パターンA′のDP
マツチング処理として第2図と同様、第7図に示す如く
横軸に入力パターンAのパラメータ時系列i 2.4.
6.8.8.8.8.6.4.4.4.6゜8を並べ、
縦軸に標準パターンA′のパラメータ時系列、 3.5
.7.9.9.9.9.7.5.5.7.9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、人力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2と
、標準パラメータA′のパラメータ時系列の第1番目の
バラメーク3とのチェビシェフ距1i1td’(1,1
) −1(7)点を始点とし、入力パターンへのパラメ
ータ時系列の第13番目のパラメータ8と、標準パター
ンA′のパラメータ時系列の第12番目のパラメータ9
とのチェビシェフ距111d (13,’12) −1
の点を終点とし、DP−パスとして第2図の場合と同様
、仕怠の点に対する前の状態としてその任意の点の左側
の点、下側の点及び斜め左+側の点を取ることを許した
場合(このパスを実線矢印にて示す。)、パス上の点は
d (1,1)−d (2,2)−d(3,3)−d 
(4,4) −d (,5,5)−d(6,6)  −
d  (7,7)−d  (8,8)  −d(9,9
>−d  (10,10)  −d  (IL  10
)−d(12,10)  −cl  (13,11) 
 −d  (13,12)の14点であり、その距離の
総和は24であり、このDPマツチング距離D (A、
A’)は1である。
That is, the DP of standard pattern A' for input pattern A
Similar to FIG. 2, as for matching processing, as shown in FIG. 7, the horizontal axis represents the parameter time series i of input pattern A. 2.4.
6.8.8.8.8.6.4.4.4.6゜8 arranged,
The vertical axis is the parameter time series of standard pattern A', 3.5
.. 7.9.9.9.9.7.5.5.7.9 are arranged, and each parameter of standard pattern A' is calculated for each parameter of input pattern A corresponding to the intersection in the grid plane. Find the Chebyshev distance. Then, the Chebyshev distance 1i1td'(1,1
) -1(7) point as the starting point, the 13th parameter 8 of the parameter time series to the input pattern, and the 12th parameter 9 of the parameter time series of the standard pattern A'
Chebyshev distance 111d (13,'12) -1
Set the point as the end point, and as in the case of Figure 2 as the DP-path, take the point to the left of that arbitrary point, the point below it, and the point on the diagonal left + side as the previous state for the point of negligence. (This path is indicated by a solid arrow), the points on the path are d (1, 1) - d (2, 2) - d (3, 3) - d
(4,4) −d (,5,5) −d(6,6) −
d (7, 7) - d (8, 8) - d (9, 9
>-d (10,10) -d (IL 10
)-d(12,10)-cl(13,11)
-d (13, 12), the total distance is 24, and this DP matching distance D (A,
A') is 1.

一方、入力パターンAに対する標準パターンB′のDP
マツチング処理を上述第7図に承ず場合と同様、第8図
に示す如く行なう。即ち、入力パターンAの(IM々の
パラメータ; 2.4.6.8.8.8゜8、6.4.
4.4.6.8に対する標準パターンB′のイ固(固の
パラメータi 7.6.6.8.8.8. ’8.6゜
4、4.4のチェビシェフ距離を求め、DP−パスとし
°ζ任意の点に対する前の状態としてその任意の点の左
側の点、下側の点及び斜め左下側の点を取ることを許し
た場合(このパスを実線矢印にて示す。)、パス上の点
はd (1,1)−d (2,2)−d (3,3,)
 −d (4,4) −d (5,5) −d (6,
6)−d  (7,7)−d  (8,8)−d(9,
9) −d (10,10) −d (11,11) 
−d(12,11) −d  (13,11)の13点
であり、その距離の総和は15であり、このDPマツチ
ング距m1tD(A、B’)は0.65である。、・ このDP−パスを3方向力とした結果より明らかな様に
入力パターンAがそのDPマツチング距離の小さな標準
パターンB′と判定され、判定されるべき結果が得られ
ない。この様にDPマツチング処理においては部分的に
類似しているような語い間に於いて誤認識し易い。
On the other hand, DP of standard pattern B' for input pattern A
The matching process is performed as shown in FIG. 8, as in the case of FIG. 7 described above. That is, input pattern A's (IM parameters; 2.4.6.8.8.8°8, 6.4.
Find the Chebyshev distance of standard pattern B' for 4.4.6.8 (fixed parameter i 7.6.6.8.8.8. '8.6°4, 4.4, and calculate DP- As a path °ζIf we are allowed to take the points to the left, the points below, and the points diagonally to the lower left of any point as the previous state for that point (this path is shown by a solid arrow), The points on the path are d (1,1)-d (2,2)-d (3,3,)
-d (4,4) -d (5,5) -d (6,
6)-d (7,7)-d (8,8)-d(9,
9) -d (10,10) -d (11,11)
-d (12, 11) -d (13, 11), and the sum of their distances is 15, and this DP matching distance m1tD (A, B') is 0.65. , As is clear from the result of using this DP-path as a three-directional force, the input pattern A is determined to be the standard pattern B' whose DP matching distance is small, and the result to be determined cannot be obtained. In this way, in the DP matching process, it is easy to misrecognize words that are partially similar.

又、DPマツチング処理においては上述した様に標準パ
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマツチング処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメ禾1月4)の記憶容量や演
算量の点で問題があった。
In addition, in the DP matching process, as mentioned above, the number of frames N of the standard pattern is undefined, and it is necessary to perform the DP matching process on all standard patterns for the input pattern, and as the number of words increases, the amount of calculation increases accordingly. This has caused problems in terms of the storage capacity and amount of calculation required for standard pattern memory.

この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
1月4)の記憶容量や処理の為の演算量が比較的少ない
音声認識装置と巳で第9図に示す如きものが考えられて
いる。
For this reason, there are relatively few misrecognitions even between words that are partially similar, and the storage capacity and amount of calculation for processing of the standard pattern memo (January 4) is relatively small. A voice recognition device and a snake as shown in FIG. 9 have been considered.

第9図において、(11は音声信号入力部としてのマイ
クロホンを示し、このマイクロホンTl)からの音声信
号を音響分析部(2)の増幅器(8)に供給し、この増
幅器(8)の音声信号をカットオフ周波数5.5KHz
のクーバスフィルタ(9)を介してサンプリング周波数
12.5KHzの12ビツトA/D変換器aωに供給し
、このA/D変換器αψのデジタル音声信号を15チヤ
ンネルのデジタルバンドパスフィルタバンク(ILA)
 、  (lls) 、 ”・・、  (llo)に供
給する。
In FIG. 9, (11 indicates a microphone as an audio signal input section, the audio signal from this microphone Tl) is supplied to the amplifier (8) of the acoustic analysis section (2), and the audio signal of this amplifier (8) is The cutoff frequency 5.5KHz
The digital audio signal from the A/D converter αψ is supplied to a 12-bit A/D converter aω with a sampling frequency of 12.5 KHz through a Cubas filter (9) of 15 channels.
, (lls) , ”..., (llo).

この15チヤンネルのデンタルバンドパスフィルタバン
ク (llA) 、  (11B) 、 ”、  (l
lo)は例えばバターワース4次のデジタルフィルタに
て構成し、250Hzから5.5KHzまでの帯域が対
数軸上で等間隔となるように割り振られている。そして
、各デジタルパ′ンドバスフイルり(11八)、(ll
s)。
This 15-channel dental bandpass filter bank (llA), (11B), ”, (l
lo) is composed of, for example, a Butterworth fourth-order digital filter, and the bands from 250 Hz to 5.5 KHz are distributed at equal intervals on the logarithmic axis. And each digital bus fill (118), (ll
s).

・・・・、(llo)の出力信号を15チヤンネルの整
流器(12A ) +  (12B) + ・・・・+
  (12o )に夫々供給し、これら整流器(12^
)、(12s)、・・・・。
..., (llo) output signal through a 15-channel rectifier (12A) + (12B) + ....+
(12o) respectively, and these rectifiers (12^
), (12s),...

(12o)の2乗出力を15チヤンネルのデジタルロー
パスフィルタ(13A )  、  (13g ) 、
・・・・、(13o)に夫々供給する。これらデジタル
ローパスフィルタ(13A) 、  (13s) 、 
”、  (13o)はカットオフ周波数52.88Zの
FIR(有限インパルス応答形)ローパスフィルタにて
構成する。
The square output of (12o) is passed through a 15-channel digital low-pass filter (13A), (13g),
..., (13o), respectively. These digital low-pass filters (13A), (13s),
”, (13o) is constituted by an FIR (finite impulse response type) low-pass filter with a cutoff frequency of 52.88Z.

そして、各デジタルローパスフィルタ(llA)。and each digital low-pass filter (llA).

(13B)、・・・・、(13o)の出力信号をサンプ
リング周期5.12m5のサンプラー(14)に供給す
る。
The output signals of (13B), . . . , (13o) are supplied to a sampler (14) with a sampling period of 5.12 m5.

このサンプラー(14)によりデジタルローパスフィル
タ(13A > 、  (13s ) 、・・・・、(
13o)の出力信号をフレーム周期5.12m5毎にサ
ンプリングし、このサンプラー(14)のサンプリング
信号を音曲情報正規化器(15)に供給する。この音源
情l111.’iE規化器(15)は認識しようとする
音声の話者による声帯音源特性の違いを除去するもので
ある。
This sampler (14) allows digital low-pass filters (13A > , (13s) , ..., (
The output signal of 13o) is sampled every frame period of 5.12m5, and the sampling signal of this sampler (14) is supplied to the music information normalizer (15). This sound source information l111. The 'iE normalizer (15) removes differences in vocal cord sound source characteristics depending on the speaker of the speech to be recognized.

即ち、フレーム周期毎にサンプラー(14)から供給さ
れるサンプリング信号A11n) (i = 1.・・
・・。
That is, the sampling signal A11n) (i = 1...) supplied from the sampler (14) every frame period.
....

15Hn:フレーム番号)に対して Ai(nl=  log (Ai(nl+B)    
 ’  ・・if)なる対数変換がなされる。この(1
)式において、Bはバイアスでノイズレベルが隠れる程
度の値を設定する。そして、声帯音源特性をyi=a−
1+bなる式で近似する。このa及びbの計数は次式に
より決定される。
15Hn: frame number) for Ai(nl=log(Ai(nl+B)
'...if) is performed. This (1
), B is set to a value such that the noise level is hidden by the bias. Then, the vocal cord sound source characteristics are yi=a−
It is approximated by the formula 1+b. The counts of a and b are determined by the following equation.

(N=15)    ・・・ (2) N(N−1) (N=15)    ・・・ (3) そしζ、音源の正規化されたパラメータをPi(nlと
すると、aH< 0のときパラメータPi(nlはPi
Tn)−AiTnl −(a(ni i +bTnl)
   ・・・+41と表わされる。
(N=15) ... (2) N (N-1) (N=15) ... (3) Then ζ, if the normalized parameter of the sound source is Pi (nl), when aH < 0 Parameter Pi (nl is Pi
Tn) −AiTnl −(a(ni i +bTnl)
... is expressed as +41.

又、a (nl上0のときレベルの正規化のみ行ない、
パラメータPi(n)は ・・・ (5) と表わされる。
Also, a (only normalizes the level when nl is 0,
The parameter Pi(n) is expressed as... (5).

この様な処理により声帯音源特性の正規化されたパラメ
ータPifn)を音声区間内パラメータメモリ(16)
に供給する。この音声区間内パラメータメモリ(16)
は後述する音声区間判定部(17)からの音声区間判定
信号を受けて声帯音源特性の正規化されたパラメータP
ifn)を音声区間毎に格納する。
Through such processing, the normalized parameters Pifn) of the vocal cord sound source characteristics are stored in the vocal interval parameter memory (16).
supply to. Parameter memory within this voice section (16)
is a normalized parameter P of the vocal cord sound source characteristics in response to a voice interval determination signal from a voice interval determination unit (17) to be described later.
ifn) is stored for each audio section.

一方、A/D変換器(10)のデジタル音声信号を音声
区間判定部(17)のゼロクロスカウンタ(18)及び
パワー算出器(19)に夫々供給する。このゼロクロス
カウンタ(18)は5.12m5毎にその区間の64点
のデジタル音声信号のゼロクロス数をカウントし、その
カウント値を音声区間判定器(20)の第1の入力端に
供給する。又、パワー算出器(19)は5.12m5毎
にその区間のデジタル音声信号のパワー、即ち2乗和を
求め、その区間内パワーを不ずパワー信号を音声区間判
定器(20)の第2の入力端に供給する。更に、音源情
報正規化器(15)の音源正規化情報a (nl及びb
 tn+を音声区間判定器(20)の第3の入力端に供
給する。そして、音声区間判定器(20)においてはゼ
ロクロス数、区間内パワー及び音源正規化情報a fn
l、  b (n)を複合的に処理し、無音、無声音及
び有声音の判定処理を行ない、音声区間を決定する。こ
の音声区間判定器(20)の音声区間を示す音声区間判
定信号を音声区間判定部(17)の出力として音声区間
内パラメータメモリ (16)に供給する。
On the other hand, the digital audio signal from the A/D converter (10) is supplied to a zero cross counter (18) and a power calculator (19) of the audio section determining section (17), respectively. This zero cross counter (18) counts the number of zero crosses of the digital audio signal at 64 points in that section every 5.12 m5, and supplies the count value to the first input terminal of the audio section determiner (20). Also, the power calculator (19) calculates the power of the digital audio signal in that section every 5.12 m5, that is, the sum of squares, and calculates the power signal without calculating the power within the section and sends the power signal to the second voice section determiner (20). Supplied to the input terminal of Furthermore, the sound source normalization information a (nl and b) of the sound source information normalizer (15)
tn+ is supplied to the third input of the speech segment determiner (20). Then, in the voice section determiner (20), the number of zero crossings, the power within the section, and the sound source normalization information a fn
l, b (n) are processed in a composite manner, and a process for determining silence, unvoiced sound, and voiced sound is performed to determine a voice section. A voice interval determination signal indicating the voice interval of the voice interval determiner (20) is supplied to the voice interval parameter memory (16) as an output of the voice interval determination unit (17).

この音声区間内パラメータメモリ (16)に格納され
た音声区間毎に声帯音源特性の正規化された音響パラメ
ータPifnlをその時系列方向にSAT(Norma
lization Along Trajectory
)処理部(21)に供給する。このNAT処理部(21
)は NAT処理として音響パラメータ時系列pitn
lからそのパラメータ空間における軌跡を直線近似にて
推定し、この軌跡に沿って直線補間にて新たな音響パラ
メータ時系列O1(@を形成する。
The normalized acoustic parameters Pifnl of the vocal cord sound source characteristics are stored in this intra-speech-segment parameter memory (16) for each speech period and are SAT (Normal) in the chronological direction.
lization Along Trajectory
) is supplied to the processing section (21). This NAT processing unit (21
) is the acoustic parameter time series pitn as NAT processing.
A trajectory in the parameter space is estimated from l by linear approximation, and a new acoustic parameter time series O1 (@) is formed by linear interpolation along this trajectory.

ここで、このNAT処理部(21)について更に説明す
る。音響パラメータ時系列Pi(n) (i = 1.
・・・・+I i n−1+・・・・、N)はそのパラ
メータ空間に点列を描く。第10図に2次元パラメータ
空間に分布する点列の例を示す。この第10図にボず如
く音声の非定常部の点列は粗に分布し、準定當部は密に
分布する。この事は完全に定常であればパラメータは変
化せず、その場合には点列はパラメータ空間に停留する
ことからも明らかである。
Here, this NAT processing section (21) will be further explained. Acoustic parameter time series Pi(n) (i = 1.
...+I i n-1+ ..., N) draws a point sequence in the parameter space. FIG. 10 shows an example of a point sequence distributed in a two-dimensional parameter space. As shown in FIG. 10, the point sequence of the non-stationary part of the voice is roughly distributed, and the quasi-constant part is densely distributed. This is clear from the fact that if it is completely stationary, the parameters will not change, and in that case the point sequence will remain in the parameter space.

第11図は第10図に示す如き点列上に滑らかな曲線よ
りなる軌跡を推定し描いた例を示す。この第11図に示
す如く点列に対して軌跡を推定できれば、音声の発声速
度変動に対して軌跡は殆ど不変であると考えることがで
きる。何故ならば、音声の発声速度変動による時間長の
違いは殆どが準定常部の時間的伸縮(第10図に示す如
き点列においては準定常部の点列密度の違いに相当する
。)に起因し、非定常部の時間長の影響は少ないと考え
られるからである。
FIG. 11 shows an example in which a locus consisting of a smooth curve is estimated and drawn on a series of points as shown in FIG. If a trajectory can be estimated for a sequence of points as shown in FIG. 11, it can be considered that the trajectory remains almost unchanged with respect to variations in speech rate. This is because most of the differences in time length due to variations in speech rate are due to the temporal expansion and contraction of the quasi-stationary part (in the dot sequence shown in Figure 10, this corresponds to the difference in the density of the dot sequence of the quasi-stationary part). This is because it is thought that the influence of the time length of the unsteady part is small.

NAT処理部(21)においてはこの様な音声の発声速
度変動に対する軌跡の不変性に着目して時間軸正規化を
行なう。
The NAT processing unit (21) performs time axis normalization by focusing on the invariance of the trajectory with respect to such variations in speech rate.

即ち、第1に音響パラメータ時系列Pi(nlに対して
始点Pi(1)から終点Pi(9)迄を連続曲線で措い
た軌跡を推定し、この軌跡を示す曲線を’P’i[s)
 (0≦S≦S)とする。この場合、必ずしもPi(o
l = Pifll 。
That is, first, a trajectory is estimated as a continuous curve from the start point Pi (1) to the end point Pi (9) for the acoustic parameter time series Pi (nl), and the curve representing this trajectory is defined as 'P'i[s )
(0≦S≦S). In this case, Pi(o
l = Pifll.

点列全体を近似的に通過するようなものであれば良い。It suffices if it passes approximately through the entire point sequence.

第2に推定されたP 1(slから軌跡の長さSLを求
め、第12図に○印にて示す如く軌跡に沿って一定長で
新たな点列をリサンプリングする。例えばM点にサンプ
リングする場合、一定長さ、即ちり号ンプリング間隔T
=SL/(M−1)を基準として軌跡上をリサンプリン
グする。このリサンプリングされた点列を旧fml (
i =L−・・・、I; m=1.−・・−、M)この
様にして得られた新たなパラメータ時系列Qi(mlは
軌跡の基本情報を有しており、しかも音声の発声速度変
動に対して殆ど不変なパラメータとなる。即ち、新たな
パラメータ時系列旧(mlは時間軸正規化がなされたパ
ラメータ時系列となる。
Second, obtain the length SL of the trajectory from the estimated P1(sl), and resample a new point sequence at a constant length along the trajectory as shown by the circle in Fig. 12. For example, sample at point M. In this case, a fixed length, i.e., the number sampling interval T
The trajectory is resampled based on =SL/(M-1). This resampled point sequence is converted into the old fml (
i=L-...,I; m=1. -...-, M) The new parameter time series Qi (ml) obtained in this way has the basic information of the trajectory and is a parameter that is almost invariant to variations in the speech rate. , the new parameter time series old (ml is the parameter time series that has been time-axis normalized).

この様な処理の為に、音声区間内パラメータメモ’J 
 (16)の音響パラメータ時系列Pifnlを軌跡長
算出器(22)に供給する。この軌跡長算出器(22)
は音響パラメータ時系WtlPi(n)がそのパラメー
タ空間において描く直線近恭による軌跡の長さ、即ち軌
跡長を算出するものである。この場合、I次元ベクトル
a1及びb□間の距離として例えばユークリッド距1i
lltD  (ai 、  N )をとれば■ ・・・ (6) である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、■次元の音響パ
ラメータ時系列Pil11> (1= L・・・・、l
;n−1,・・・・、N)より、直線近似により軌跡を
11ト定した場合の時系列方向に隣接するパラメータ間
距1i11i S (nlは 5(nl −D  (Pi  (nlx  )  、 
 Pi(nl)   (n  =1.・・ ・・、  
N−1)・ ・ ・  (7) と表わされる。そして、時系列方向における第1番目の
パラメータPi(11から第n番目のパラメータPiC
nl迄の距離st、tn>は へ表わされる。尚、5L(11= 0である。更に、軌
跡長SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にて示す信号処理を行なう如くな
す。
For this kind of processing, parameter memo 'J
The acoustic parameter time series Pifnl of (16) is supplied to the trajectory length calculator (22). This trajectory length calculator (22)
calculates the length of the trajectory drawn by the acoustic parameter time series WtlPi(n) in its parameter space based on a straight line, that is, the trajectory length. In this case, as the distance between the I-dimensional vectors a1 and b□, for example, the Euclidean distance 1i
If lltD (ai, N) is taken, ■... (6). Note that this distance may be Chebyshev distance, square distance, or the like. Therefore, ■-dimensional acoustic parameter time series Pil11> (1= L..., l
;n-1,...,N), the distance between adjacent parameters in the time series direction when 11 trajectories are determined by linear approximation is 1i11iS (nl is 5(nl - D (Pi (nlx),
Pi(nl) (n = 1......,
N-1)・・・・(7) Then, the first parameter Pi (11th to nth parameter PiC
The distance st, tn> to nl is expressed as. In addition, 5L (11 = 0.Furthermore, the trajectory length SL is expressed as.The trajectory length calculator (22) uses this equation (7),
The signal processing shown in equations (8) and (9) is performed.

この軌跡長算出器(22)の軌跡長SLを示す軌跡長信
号を補間間隔算出器(23)に供給する。この補間間隔
算出器(23)は軌跡に沿って直線補間により新たな点
列をリサンプリングす゛る一定長のりサンプリング間隔
Tを算出するものである。この場合、M点にリサンプリ
ングするとすれば、リサンプリング間隔Tは T=SL/ (M−1)        ・−・QOI
と表わされる。補間間隔算出器(23)はこの(1(1
1式にて示す信号処理を行なう如くなす。
A trajectory length signal indicating the trajectory length SL of this trajectory length calculator (22) is supplied to an interpolation interval calculator (23). This interpolation interval calculator (23) calculates a constant length sampling interval T for resampling a new point sequence by linear interpolation along the locus. In this case, if resampling is performed at M points, the resampling interval T is T=SL/ (M-1) ・-・QOI
It is expressed as The interpolation interval calculator (23) calculates this (1(1
The signal processing shown in equation 1 is performed.

この補間間隔算出器(23)のりサンプリング間隔Tを
示すリサンプリング、間隔信号を補間点抽出器(24)
の一端に供給すると共に音声区間内パラメータメモリ 
(16)の音響パラメータ時系列1’1(n)を補間点
抽出器(24)の他端に供給する。この補間点抽出器(
24)は音響パラメータ時系列Pi[nlのそのパラメ
ータ空間における軌跡例えばパラメータ間を直線近似し
た軌跡に沿ってリサンプリング間隔Tで新たな点列をリ
サンプリングし、この新たな点列より新たな音響パラメ
ータ時系列Qi(m)を形成するものである。
This interpolation interval calculator (23) resamples the interval signal indicating the sampling interval T to the interpolation point extractor (24)
Parameter memory within the speech interval as well as supplying to one end
The acoustic parameter time series 1'1(n) of (16) is supplied to the other end of the interpolation point extractor (24). This interpolation point extractor (
24) resamples a new point sequence at the resampling interval T along the trajectory of the acoustic parameter time series Pi[nl in its parameter space, for example, a trajectory that is a linear approximation between the parameters, and from this new point sequence, a new acoustic It forms a parameter time series Qi(m).

ここで、この補間点抽出器(24)における信号処理を
第13図に示す流れ図に沿っ゛ζ説明する。先ず、ブロ
ック(24a)にてリサンプリング点の時系列方向にお
ける番号を示す底敷Jに値1が設定されると共に音響パ
ラメータ時系列Pi(nlの時系列方向における番号を
示す変数ICに値lが設定される。そして、ブロック(
24b)にて変数Jがインクリメントされ、ブロック(
24c)にCそのときの変数Jが(M−1)以)である
かどうかにより、そのときのりサンプリング点の時系列
方向における番号かりサンプリングする必要のある最後
の番 号になっていないかどうかを判断し、なっていれ
ばこの補間点抽出器(24)の信号処理を終了し、なっ
°ζいなければブロック(24d )にて第1番目のり
サンプリング点から第3番目のりサンプリング点までの
りサンプル距mDLが算出され、ブロック(24e)に
て変数1Gがインクリメントされ、ブロック(24f)
にてリサンプル距離DLが音響パラメータ時系列Pi(
nlの第1番目のパラメータP H1+から第1C番目
のパラメータPiQc)までの距111t S LGc
 )よりも小さいかどうかにより、そのときのりサンプ
リング点が軌跡上においてそのときのパラメータP 1
(IC)よりも軌跡の始端側に位置するかどうかを判断
し、位置し”ζいなければブロック(24e)にて変数
ICをインクリメントした後再びブロック(24f )
にてリサンプリング点とパラメータPi(Ic)との軌
跡上における位置の比較をし、リサンプリング点が軌跡
上においてパラメータP 1(IC>よりも始端側に位
置すると判断されたとき、ブロック(24g>にぶりサ
ンプリングにより軌跡に沿う新たな音響パラメータQi
(J)が形成される。即ち、先ず第5番目のりサンプリ
ング点によるリザンプル距離DLからこの第5番目のり
サンプリング点よりも始端側に位置する第(1(、−1
)番HのパラメータP 1(IC−1)による距1i1
11sL(Ic−x)を減算して第(IC−1)番Hの
パラメータPiQc−x)から第3番1」のりサンプリ
ング点迄の距離SSを求める。次に、軌跡」二において
この第5番目のりサンプリング点の両側に位置するパラ
メータP i(Ic−1)及びパラメータPi(Ic)
間の距%li S 0c−1) (この距1jit S
 (Ic−1>は(7)式にてjくされる信号処理にて
得られる。)にてこの距離SSを除算sS/ S (I
C−1) L、この除算結果SS/Sθ(ニー1)に1
lllL跡上において第5番目のりサンプリング点の両
側に位置するパラメータP iQc )とP 1(Ic
−t)との差(Pi(IC)−P i(Ic −t) 
)を掛算(Pi(lc) −Pi(Ic−1)) * 
55/ S(+c−t)して、軌跡上において第5番目
のりサンプリング点のこのリサンプリング点よりも始端
側に隣接して位置する第(IC−1)番目のパラメータ
Pi(lc−1)からの補間量を算出し、この補間量と
第5番目のりサンプリング点よりも始端側に隣接し゛ζ
位置する第(IC−1)番目のパラメータPi(+c−
z)とを加算して、軌跡に沿う新たな音響パラメータ口
1(J)が形成される。第14図に2次元の音響パラメ
ータ時系列P(11,P(21,・・・・、P(81に
対してパラメータ間を直線近似して軌跡を推定し、この
軌跡に沿って直線補間により6点の新たな音響パラメー
タ時系列Qfll、 Q(2)、  ・・・・、Q(6
1を形成した例を示す。
Here, the signal processing in this interpolation point extractor (24) will be explained along the flowchart shown in FIG. First, in block (24a), the value 1 is set to the base J indicating the number in the time series direction of the resampling point, and the value l is set to the variable IC indicating the number in the time series direction of the acoustic parameter time series Pi (nl). is set. Then, the block (
24b), the variable J is incremented, and the block (
In 24c), depending on whether the variable J at that time is (M-1) or higher, it is determined whether the number of the sampling point in the time series direction at that time is the last number that needs to be sampled. If it is, the signal processing of this interpolation point extractor (24) is finished, and if it is not, a block (24d) extracts the signal from the first glue sampling point to the third glue sampling point. The sample distance mDL is calculated, a variable 1G is incremented in block (24e), and block (24f)
The resampling distance DL is the acoustic parameter time series Pi (
Distance 111t S LGc from the first parameter P H1+ of nl to the first C-th parameter PiQc)
), depending on whether the glue sampling point is smaller than the parameter P 1 on the trajectory.
It is determined whether the position is closer to the starting end of the trajectory than (IC), and if it is not located, the variable IC is incremented at block (24e), and then block (24f) is executed again.
The positions of the resampling point and the parameter Pi (Ic) on the trajectory are compared at >New acoustic parameter Qi along the trajectory by Niburi sampling
(J) is formed. That is, first, from the resample distance DL at the fifth glue sampling point, the (1(, -1
) Distance 1i1 by parameter P 1 (IC-1) of number H
11sL(Ic-x) is subtracted to find the distance SS from the parameter PiQc-x) of No. 3 H (IC-1) to the sampling point No. 3 No. 1. Next, the parameter P i (Ic-1) and the parameter Pi (Ic) located on both sides of this fifth glue sampling point in the trajectory "2"
distance between %li S 0c-1) (this distance 1jit S
(Ic-1> is obtained by signal processing divided by j in equation (7).) Divide this distance SS by sS/S (I
C-1) L, this division result SS/Sθ (knee 1) is 1
Parameters P iQc ) and P 1 (Ic
-t) (Pi(IC) - Pi(Ic -t)
) multiplied by (Pi(lc) - Pi(Ic-1)) *
55/S(+c-t), and the (IC-1)th parameter Pi(lc-1) located adjacent to the starting end side of the fifth resampling point on the trajectory. Calculate the amount of interpolation from ゛ζ
The located (IC-1)th parameter Pi(+c-
z) to form a new acoustic parameter mouth 1 (J) along the trajectory. Figure 14 shows a two-dimensional acoustic parameter time series P(11, P(21,..., P(81), for which a trajectory is estimated by linear approximation between the parameters, and linear interpolation is performed along this trajectory. 6 new acoustic parameter time series Qfll, Q(2), ..., Q(6
An example of forming 1 is shown below.

又、このブロック(24g )においては周波数系列方
向に1次元分(i=]、、・・・・、I)の信号処理が
行なわれる。
Further, in this block (24g), one-dimensional (i=], . . . , I) signal processing is performed in the frequency sequence direction.

この様にしてブロック(24b)乃至(24g )にて
始点及び終点(ごれらはQi(11−pi(ol 、 
Qi(M) −Pi(S)である。)を除<  (M−
2)点のりサンプリングにより新たな音響パラメータ時
系列Qi(@が形成され乙。
In this way, blocks (24b) to (24g) are set at the starting and ending points (Qi(11-pi(ol,
Qi(M)-Pi(S). ) except < (M-
2) A new acoustic parameter time series Qi (@) is formed by point sampling.

このNAT処理部(21)の新たな音響パラメータ時系
列Qitに)をモード切換スイッチ(3)により、登録
モードにおいては認識対象梧毎に標準パターンメモ1月
4)に格納し、認識モードにおいてはチェビシェフ距離
算出部(25)の一端に供給する。又、この認識モード
においては標準パターンメモi月4)に格納されている
標準パターンをチェビシェフ距離算出部(25)の他端
に供給する。このチェビシェフ距離算出部(25)にお
いてはその時入力されている音声の時間軸の正規化され
た新たな音響パラメータ時系列O1(@よりなる入力パ
ターンと、標準パターンメ9モ1月4)の標準パターン
とのチェビシェフ距離算出処理がなされる。
This new acoustic parameter time series Qit of the NAT processing unit (21) is stored in the standard pattern memo (January 4) for each recognition target in the registration mode by the mode changeover switch (3), and in the recognition mode. It is supplied to one end of the Chebyshev distance calculating section (25). Also, in this recognition mode, the standard pattern stored in the standard pattern memo i month 4) is supplied to the other end of the Chebyshev distance calculation section (25). In this Chebyshev distance calculation unit (25), a new acoustic parameter time series O1 (input pattern consisting of @ and standard pattern memo January 4) which is normalized on the time axis of the audio input at that time is used. Chebyshev distance calculation processing with the pattern is performed.

そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
Then, the distance signal indicating this Chebyshev distance is supplied to the minimum distance determining section (6), and the minimum distance determining section (6) determines the standard pattern that has the minimum Chebyshev distance with respect to the input pattern, and based on this determination result. A recognition result indicating the input speech is supplied to an output terminal (7).

この様にしてなる音声認識装置の動作につい゛ζ説明す
る。
The operation of the speech recognition device constructed in this way will be explained.

マイクロホン(1)の音声信号が音響分析部(2)にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列P i (nlに変換され、この音響、パラメ
ータ時系列PilnlがNAT処理部(21)に供給さ
れ、このNAT処理部(21)にて音響パラメータ時系
列Pi(nlからそのパラメータ空間における直線近似
による軌跡が推定され、この軌跡に沿って直線補間され
時間軸正規化のなされた新たな音響パラメータ時系列旧
fm)が形成され、登録モードにおいてはこの新たな音
響パラメータ時系列Qi(m)がモード切換スイッチ(
3)を介して標準パターンメモリ(4)に格納される。
The audio signal of the microphone (1) is converted into an acoustic parameter time series P i (nl), which is a normalized vocal cord sound source characteristic of vocal cord sound source characteristics, for each voice section in the acoustic analysis unit (2), and this acoustic parameter time series Pilnl is subjected to NAT processing. The NAT processing unit (21) estimates a trajectory by linear approximation in the parameter space from the acoustic parameter time series Pi (nl), performs linear interpolation along this trajectory, and performs time axis normalization. A new acoustic parameter time series (old fm) is formed, and in the registration mode, this new acoustic parameter time series Qi(m) is selected by the mode changeover switch (
3) and stored in the standard pattern memory (4).

又、認識モードにおいては、NAT処理部(21)の新
たな音響パラメータ時系列旧(@がモード切換スイッチ
(3)を介してチェビシェフ距離算出部(25)に供給
されると共に標準パターンメモリ(4)の標準パターン
がチェビシェフ距離算出部(25)に供給される。第1
5図乃至第17図に第4図乃至第6図に示す1次元の入
力パターンAのパラメータ時系列; 2.4.6.8.
8.8.8.6.4.4.4.6.8 、標準パターン
A′のパラメータ時系列; 3.5.7.9゜9、9.
9.7.5.5.7.9、標準パターンB′のパラメー
タ時系列纂7.6.6.8.8.8.8.6.4.4゜
4をNAT処理部(21)にて直線近似にて軌跡を推定
し、リサンプリング点を8点とする処理をした1次元の
入力パターンAのパラメータ時系列;2.4.6.8.
6.4.6.8、標準パターンA′のノマラメータ時系
列i 3.5.”7.9.7.5.7.9、標準パター
ンB′のパラメータ時系列、 7.6.7.8゜7、6
.5.4を夫々示す。この場合、音響パラメータ時系列
Pi(nlからそのパラメータ空間における軌跡を推定
し、この軌跡に沿って新たな音響パラメータ時系列Qi
l(6)が形成されるので、入力音声を変換した音響パ
ラメータ時系列PL(nl自身により時間軸正規化がな
される。そして、チェビシェフ距1Iltt算出部(2
5)において入力パターンAと標準パターンA′との間
のチェビシェフ距N8が算出されると共に入力パターン
Aと標準パターンB′との間のチェビシェフ距離16が
算出され、これら距離8及び距離16を夫々示す距離信
号が最小能1i111111定部(6)に供給され、こ
の最小距離判定部+6)にて距離8が距離16よりも小
さいことから標準パターンAが入力パターンA′である
と判定され、この判定績°果より入力音声が標準パター
ンAであることを示す認識結果が出力端子(7)に得ら
れる。従って、部分的に類似し・ているような措い間に
於いても誤認識することが比較的少ない音声認識を行な
うことができる。
In the recognition mode, the new acoustic parameter time series old (@) of the NAT processing unit (21) is supplied to the Chebyshev distance calculation unit (25) via the mode changeover switch (3), and is also stored in the standard pattern memory (4). ) is supplied to the Chebyshev distance calculation unit (25).
Parameter time series of one-dimensional input pattern A shown in FIGS. 4 to 6 in FIGS. 5 to 17; 2.4.6.8.
8.8.8.6.4.4.4.6.8, Parameter time series of standard pattern A'; 3.5.7.9°9, 9.
9.7.5.5.7.9, parameter time series collection 7.6.6.8.8.8.8.6.4.4°4 of standard pattern B' to NAT processing unit (21) Parameter time series of one-dimensional input pattern A whose trajectory was estimated by linear approximation and the resampling points were set to 8; 2.4.6.8.
6.4.6.8, Noramameter time series i of standard pattern A' 3.5. "7.9.7.5.7.9, Parameter time series of standard pattern B', 7.6.7.8°7,6
.. 5.4 are shown respectively. In this case, a trajectory in the parameter space is estimated from the acoustic parameter time series Pi(nl, and a new acoustic parameter time series Qi is created along this trajectory.
l(6) is formed, the time axis normalization is performed by the acoustic parameter time series PL (nl itself) obtained by converting the input speech.Then, the Chebyshev distance 1Iltt calculation unit (2
In 5), the Chebyshev distance N8 between the input pattern A and the standard pattern A' is calculated, and the Chebyshev distance 16 between the input pattern A and the standard pattern B' is calculated, and these distances 8 and 16 are calculated, respectively. The distance signal shown in FIG. As a result of the determination, a recognition result indicating that the input voice is the standard pattern A is obtained at the output terminal (7). Therefore, it is possible to perform speech recognition with relatively few erroneous recognitions, even if the speech is partially similar.

ここで、NAT処優を行なう音声認識装置とDPマツチ
ング処理を行なう音声認識装置との演算量における差異
について説明する。
Here, the difference in the amount of calculation between a voice recognition device that performs NAT processing and a voice recognition device that performs DP matching processing will be explained.

入力パターンに対する標準パターン1個当たり゛ のD
Pマツチング距離計算部(5)における平均演算量をα
とし、チェビシェフ距離算出部(25)における平均演
算量をβとし、NAT処理部(21)の平均の演算量を
γとしたとき、5個の標準パターンに対するDPマツチ
ング処理による演算量C1は C1−α・J           ・ ・ ・ (1
1)である。又、5個の標準パターンに対するNAT処
理した場合の演算量C2は C2−β・J十γ      ・・・ (12)である
。一般に、平均演算量αは平均演算量βに対してα)β
なる関係示ある。従って、γ ・ ・ ・ (13) α−β なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算量C1は演算量C2に対してC1>>C2な
る関係となり、N A T処理を行なう音声認識装置に
依れば、演算量を大幅に低減できる。
D of ゛ per standard pattern for input pattern
The average amount of calculation in the P matching distance calculation unit (5) is α
When the average amount of calculation in the Chebyshev distance calculation unit (25) is β and the average amount of calculation in the NAT processing unit (21) is γ, the amount of calculation C1 due to the DP matching process for the five standard patterns is C1− α・J ・ ・ ・ (1
1). Further, the amount of calculation C2 when performing NAT processing on five standard patterns is C2-β·J1γ (12). In general, the average amount of calculations α is α)β compared to the average amount of calculations β
There is a relationship. Therefore, the relationship γ ・ ・ ・ (13) α−β holds true, that is, as the number of words to be recognized increases, the amount of calculation C1 becomes the relationship C1>>C2 with respect to the amount of calculation C2, and the NAT process is Depending on the speech recognition device that performs this, the amount of calculation can be significantly reduced.

又、NAT処理部(21)より得られる新たな音響パラ
メータ時系列Qi((ロ)はその時系列方向において一
定のパラメータ数に設定できるので、標準パターンメモ
1月4)の記憶領域を有効に利用でき、その記憶容量を
比較的少なくできる。
In addition, the storage area of the new acoustic parameter time series Qi obtained from the NAT processing unit (21) ((b) can be set to a constant number of parameters in the time series direction, so the storage area of the standard pattern memo January 4) can be effectively used. , and its storage capacity can be relatively small.

ところで、この様なNAT処理を行うようにした音声認
識装置においては第18図に示す如き状況において入力
パターンAに対して判定されるべきでない標準バク。1
ンB′が判定結果となされる。
By the way, in a speech recognition device that performs such NAT processing, there are standard errors that should not be judged for input pattern A in the situation shown in FIG. 1
B' is taken as the determination result.

この第18図においては、パラメータ空間における入力
パターンA;″A″と、標準パターンΔ′ ;“A″と
、標準パターンB’i”SAN″どを無音を示す準定常
部にて切断し展開してネオ。この場合、入力パターンA
は標準パターンB′に対して同一の音M″A”を含み、
無音と“A ”とを示ず準定常部において入力パターン
Aが標準パターンA′よりも標準パターンB′により類
似し、全体の軌跡は異なるがリザンブリング点が判定さ
れるべきでない標準パターンB′に近づいている。
In this FIG. 18, input pattern A; "A", standard pattern Δ'; Neo. In this case, input pattern A
contains the same sound M″A″ for the standard pattern B′,
A standard pattern B' in which the input pattern A is more similar to the standard pattern B' than the standard pattern A' in the quasi-stationary region without silence and "A", and the overall trajectory is different but no resembling point should be determined. is approaching.

このとき、チェビシェフ距離算出部(25)において入
力パターンAに対する標準パターンB′のチェビシェフ
距離が標準パターンA′のチェビシェフ距離よりも小さ
な値として得られ、判定されるべきでない標準パターン
B′が判定結果となされる。この様にNAT処理を行う
ようにした音声認識装置においては第18図に示す如く
同一の音韻を含み、全体の軌跡は異なるかりサンプリン
グ点が判定されるべきでない標準パターンB′に近づく
ことがあり、このとき誤認識し、VAΔへ率が低下する
という不都合があった。
At this time, the Chebyshev distance of the standard pattern B' with respect to the input pattern A is obtained as a smaller value than the Chebyshev distance of the standard pattern A' in the Chebyshev distance calculation unit (25), and the standard pattern B', which should not be judged, is the judgment result. It is done. In a speech recognition device that performs NAT processing in this way, as shown in FIG. 18, the same phoneme is included, but the overall trajectory is different, and the sampling point may approach the standard pattern B' that should not be determined. , at this time, there was an inconvenience that erroneous recognition occurred and the rate decreased to VAΔ.

発明の目的 本発明は斯かる点に鑑み同一の音韻を含み全体の軌跡は
異なるかりサンプリング点が判定されるべきでない標準
パターンに近づくときに誤認識することが比較的少ない
ものを得ることを目的とずる。
Purpose of the Invention In view of the above, an object of the present invention is to obtain a pattern that is relatively less likely to be misrecognized when it approaches a standard pattern that contains the same phoneme, has a different overall trajectory, and whose sampling point should not be determined. Tozuru.

発明の概要 本発明は音声信号入力部を有し、この音声信号入力部の
音声信号を音響分析部に供給し、この音響分析部に基づ
いて得た音響パラメータ系列を軌跡長算出器に供給し、
この軌跡長算出器にて音響パラメータ系列からそのパラ
メータ空間における軌跡の軌跡長を算出し一2入力パタ
ーンと標準パターンとをマツチング処理した処理結果を
入力パターン及び標準パターンの軌跡長に応じて判定し
、音声を認識するようにしたものであり、斯かる本発明
音声認識装置に依れば同一の音韻を含み全体の軌跡は異
なるかりサンプリング点が判定されるべきでない標準、
パターンに近づくときに誤認識することを比較的少なく
できる利益がある。
Summary of the Invention The present invention has an audio signal input section, supplies an audio signal from the audio signal input section to an acoustic analysis section, and supplies an acoustic parameter series obtained based on the acoustic analysis section to a trajectory length calculator. ,
This trajectory length calculator calculates the trajectory length of the trajectory in the parameter space from the acoustic parameter series, and the processing result of matching the 12 input patterns and the standard pattern is judged according to the trajectory length of the input pattern and the standard pattern. , which is designed to recognize speech, and according to the speech recognition device of the present invention, it is a standard in which the sampling points should not be determined because they contain the same phoneme but the overall trajectory is different,
There is an advantage that erroneous recognition when approaching a pattern can be relatively reduced.

実施例 以下、第19図を参照しながら本発明音声認識装置の一
実施例について説明しよう。この第19図において第1
図乃至第18図と対応する部分に同一符号を付してその
詳細な説明は省略する。
Embodiment Hereinafter, an embodiment of the speech recognition apparatus of the present invention will be described with reference to FIG. In this figure 19,
The same reference numerals are given to the parts corresponding to those in the figures to FIG. 18, and detailed explanation thereof will be omitted.

本例においては第19図に不ず如<NAT処理部(21
)の補間点抽出器(24)の新たな音響パラメータ時系
列Qi(mlを軌跡長信号付加器(26)の一端に供給
すると共にNAT処理部(21)の軌跡長算出器(22
)の軌跡長信号を軌跡長信号付加器(26)の他端及び
後述する距離信号補正器(27)の一端に供給する、。
In this example, as shown in FIG.
) of the interpolation point extractor (24) is supplied to one end of the trajectory length signal adder (26) and the trajectory length calculator (22) of the NAT processing section (21).
) is supplied to the other end of a trajectory length signal adder (26) and one end of a distance signal corrector (27) to be described later.

この軌跡長信号付加器(26)はNAT処理部(21)
の新たな音響パラメータ時系列Qi(ml毎にこの新た
な音響パラメータ時系列Qi(@の冗となる音響分析部
(2)の音響パラメータ時系列Pi(n)のパラメータ
空間における軌跡の軌跡長SLを示す!lL跡長倍長信
号加する。
This trajectory length signal adder (26) is connected to the NAT processing unit (21)
The trajectory length SL of the trajectory in the parameter space of the acoustic parameter time series Pi(n) of the acoustic analysis unit (2), which becomes a new acoustic parameter time series Qi (@ redundant) !IL trace length double length signal is added.

この軌跡長信号付加器(26)の軌跡長信号が付加され
た新たな音響パラメータ時系列口ifm)をモード切換
スイッチ(3)により、登録モードにおいては認識対象
語毎に標準パターンメモ1月4)に格納し、認識モード
においてはチェビシェフ距離算出部(25)の一端に供
給する。又、この認識モードにおいては標準パターンメ
モリ(4)に格納されている標準パターンをチェビシェ
フ距離算出部(25)の他端に供給する。このチェビシ
ェフ距1ilIIW出部(25)においてはチェビシェ
フ距離を示す距離信号にこのチェビシェフ距離に対応す
る標準パターンの軌跡長信号を付加した信号を形成する
如くなす。
A new acoustic parameter time series (ifm) to which the trajectory length signal of the trajectory length signal adder (26) has been added is added to the standard pattern memo for each recognition target word in the registration mode by using the mode changeover switch (3). ), and in the recognition mode, it is supplied to one end of the Chebyshev distance calculation unit (25). Further, in this recognition mode, the standard pattern stored in the standard pattern memory (4) is supplied to the other end of the Chebyshev distance calculating section (25). In this Chebyshev distance 1ilIIW output section (25), a signal is formed by adding a trajectory length signal of a standard pattern corresponding to this Chebyshev distance to a distance signal indicating the Chebyshev distance.

このチェビシェフ距離算出器(25)の軌跡長信号が付
加された距離信号を距離信号補正器(27λの他端に供
給する。この距離信号補止器(27)はその時入力され
ている入力パターンとしての新たな音響パラメータ時系
列Q i (mlに付加されたUL跡長信号と、距離信
号に対応する標準パターンの軌跡長信号とを比較し、こ
の比較結果に基づいて距離信号を補正する。
The distance signal to which the trajectory length signal of the Chebyshev distance calculator (25) has been added is supplied to the other end of the distance signal corrector (27λ). The UL trace length signal added to the new acoustic parameter time series Q i (ml is compared with the trace length signal of the standard pattern corresponding to the distance signal, and the distance signal is corrected based on the comparison result.

ここで、この距離信号補止器(27)についζ更に説明
する。一般に、同一単語であればその音響パラメータ系
列はそのパラメータ空間におい゛ζ形状及び長さが略等
しい軌跡を描くと考えられる。
Here, this distance signal compensator (27) will be further explained. In general, if the words are the same, the acoustic parameter series is considered to draw a trajectory in the parameter space with approximately the same shape and length.

距離信号補正器(27)においてはこの点に着目して、
入力パターンと標準パターンとの距離(本例においては
チェビシェフ距離である。)を、入力パターン及び標準
パターンの軌跡長のずれに応じて補正する。即ち、標準
パターンの軌跡長をTI?LSとし、入力パターンの軌
跡長をTR3Iとして、これら標準パターンの軌跡長T
RLSと入力パターンの軌跡長Tl?L IとのUL跡
長のずれTRLを例えばなる信号処理にて算出する。こ
の場合、軌跡長のずれTRLば(14)式より明らかな
如く標準パターンの軌跡長TRLSと入カバクーンの軌
跡長TRLIとが等しいTRLS= TRLIときに最
−++11t2をとる。そして、距離信号をChbsと
したときに、この距離信号Chbsに対して軌跡長のず
れTRLにより次式にてポされる如き信号処理よりなる
補正を行い、補正された距離信号CHBSを得る如くな
す。
Focusing on this point, the distance signal corrector (27)
The distance between the input pattern and the standard pattern (in this example, it is the Chebyshev distance) is corrected according to the difference in trajectory length between the input pattern and the standard pattern. That is, the locus length of the standard pattern is TI? LS, and the trajectory length of the input pattern is TR3I, and the trajectory length T of these standard patterns is
RLS and input pattern trajectory length Tl? The deviation TRL of the UL trace length from LI is calculated by, for example, signal processing. In this case, as is clear from equation (14), the trajectory length deviation TRL takes the maximum value of -++11t2 when the trajectory length TRLS of the standard pattern and the trajectory length TRLI of the input back cover are equal TRLS=TRLI. Then, when the distance signal is Chbs, correction is performed on this distance signal Chbs by signal processing as expressed by the following formula using the trajectory length deviation TRL, so as to obtain a corrected distance signal CHBS. .

CHBS=Chbs−TRLa(a >0)  ・・(
15)本例においてはa=2に設定する。
CHBS=Chbs-TRLa(a > 0)...(
15) In this example, set a=2.

この距離信号補止器(27)の補正された距離信号CH
BSを最小距離判定部(6)に供給する。その他音響分
析部(2)等は上述第9図に示す音声認識装置と同様に
構成する。
Corrected distance signal CH of this distance signal supplement (27)
The BS is supplied to the minimum distance determining section (6). Other components such as the acoustic analysis section (2) are constructed in the same manner as the speech recognition device shown in FIG. 9 above.

この様にしてなる音声□認識装置の動作について説明す
る。
The operation of the speech □ recognition device constructed in this way will be explained.

マイクロホン(1)の音声信号が音響分析部(2)に”
ζ音声区間毎に声帯音源特性の正規化された音響パラメ
ータ時系列Pi(nlがNAT処理部(21)に供給さ
れ、このNAT処理部(21)にて音響パラメータ時系
列P i (n)からそのパラメータ空間における直線
近似による軌跡が推定され、この軌跡に基づいて時間軸
正規化のなされた新たな音響パラメータ時系列Qi(→
が形成される。そして、軌跡長信号付加器(26)にて
この新たな音響パラメータ時系列Qi1mlの元となる
音響分析器(2)の音響パラメータ時系列Pi(nlの
パラメータ空間における直線近似による軌跡の軌跡長を
示す軌跡長信号が付加される。
The audio signal from the microphone (1) is sent to the acoustic analysis section (2).
ζ The normalized acoustic parameter time series P i (nl) of the vocal cord sound source characteristics is supplied to the NAT processing unit (21) for each speech interval, and the NAT processing unit (21) converts the acoustic parameter time series P i (n) into A trajectory is estimated by linear approximation in the parameter space, and a new acoustic parameter time series Qi (→
is formed. Then, the trajectory length signal adder (26) calculates the trajectory length of the trajectory by linear approximation in the parameter space of the acoustic parameter time series Pi(nl) of the acoustic analyzer (2), which is the source of this new acoustic parameter time series Qi1ml. A trajectory length signal shown is added.

そして、この軌跡長信号付加器(26)の軌跡長信号が
付加された新たな音響パラメータ時系列(IH(2)が
、登録モードにおいてはモード切換スイッチ(3)を介
して標準パターンメモリ(4)に格納される。
Then, in the registration mode, a new acoustic parameter time series (IH (2)) to which the trajectory length signal of the trajectory length signal adder (26) has been added is transferred to the standard pattern memory (4) via the mode changeover switch (3). ).

又、認識モードにおいては、軌跡長信号付加器(26)
の新たな音響パラメータ時系列Qi(@が入力パターン
としてモード切換スイッチ(3)を介してチェビシェフ
距離算出器(25)に供給されると共に標準パターンメ
モ1月4の標準パターンがチェビシェフ距離算出器(2
5)に供給され、このチェビシェフ距離算出器(25)
にて入力パターンと標準パターンとのチェジヒエフ距離
が算出され、このチェビシェフ距離を示ず距離信号Ch
bsにこのチェビシェフ距離に対応する標準パターンの
軌跡長信号を付加した信号が距離信号補正器(27)に
供給される。
In addition, in the recognition mode, the trajectory length signal adder (26)
The new acoustic parameter time series Qi (@ is supplied as an input pattern to the Chebyshev distance calculator (25) via the mode changeover switch (3), and the standard pattern of the standard pattern memo January 4 is input to the Chebyshev distance calculator (25). 2
5) and this Chebyshev distance calculator (25)
The Chebyshev distance between the input pattern and the standard pattern is calculated in Ch.
A signal obtained by adding a standard pattern trajectory length signal corresponding to this Chebyshev distance to bs is supplied to a distance signal corrector (27).

一方、軌跡長算出器(22)のその時入力されている入
力パターンとしての新たな音響パラメータ時系列Ql(
ホ)に付加された軌跡長信号が距離信号補正器(27)
に供給され、この距離信号補正器(27)にて入力パタ
ーンの軌跡長TRLIと標準パターンの軌跡長TRLS
とのずれTRLが(14)式にて示される信号処理にて
得られ、この軌跡長のずれTRLにより(15)式にて
示される信号処理がなされ、軌跡長のずれTRLに基づ
いて補正された距離信号CHBSが得られる。この場合
、第18図に示す如く入力パターンA古は異なる単語を
示す標準パターンB′が入力パターンに対して同一の音
韻“A″を含み全体の軌跡は異なるがリサンプリング点
が近づき、そのチェビシェフ距離が同一単語を、■〈す
標準パターンA′等に比べ最小となるときにおいても、
同一単語を示す標準パターンA′の入力パターンAに対
する軌跡長のずれTRLが略最小値2に等しくなり、こ
れに対して異なる単語を示す標準パターンB′の入力パ
ターンAに対する軌跡長のずれTRLが比較的大きな値
をとる。従って、距離信号補正器(27)にて入力パタ
ーンAと同−sitを示す標準パターンA′よりなる補
正された距離信号CHBSが得られ、この補正された距
離信号CHBSが最小距離判定部(6)にて判定処理さ
れ、入力パターンAに対して判定されるべき標準パター
ンA′が判定結果として出力端子(7)に得られる。
On the other hand, a new acoustic parameter time series Ql(
The trajectory length signal added to (e) is sent to the distance signal corrector (27).
The distance signal corrector (27) calculates the trajectory length TRLI of the input pattern and the trajectory length TRLS of the standard pattern.
The deviation TRL from the trajectory length is obtained by the signal processing shown in equation (14), and the signal processing shown in equation (15) is performed using this trajectory length deviation TRL, and the correction is made based on the trajectory length deviation TRL. A distance signal CHBS is obtained. In this case, as shown in FIG. 18, the standard pattern B', which indicates a different word from the input pattern A, contains the same phoneme "A" with respect to the input pattern, and although the overall trajectory is different, the resampling point approaches, and the Chebyshev Even when the distance is the minimum compared to the standard pattern A' etc. for the same word,
The trajectory length deviation TRL of the standard pattern A' indicating the same word with respect to the input pattern A is approximately equal to the minimum value 2, whereas the trajectory length deviation TRL of the standard pattern B' indicating a different word with respect to the input pattern A is approximately equal to the minimum value 2. Takes a relatively large value. Therefore, the distance signal corrector (27) obtains a corrected distance signal CHBS consisting of the standard pattern A' showing the same sit as the input pattern A, and this corrected distance signal CHBS is transmitted to the minimum distance determining section (6). ), and the standard pattern A' to be determined for the input pattern A is obtained at the output terminal (7) as a determination result.

以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン(11を有し、この音声信
号入力部(11の音声信号を音響パラメータ時系列Pi
(nlを軌跡長算出器(22)に供給し、この軌跡長算
出器(22)にて音響パラメータ時系列Pi(nlから
そのパラメータ空間における軌跡の軌跡長を算出し、入
力パターン−と標準パターンとをマツチング処理した処
理結果を入力パターン及び標準パターンの軌跡長に応じ
て判定し、音声を認識するようにした為、同一の音韻を
含み全体の軌跡は異なるかりサンプリング点が判定され
るべきでない標準パターンに近づくときに誤認識するこ
とを比較的少なくできる利益がある。
As described above, according to the speech recognition device of this example, the microphone (11) is provided as an audio signal input section, and the audio signal of this audio signal input section (11) is input into the acoustic parameter time series Pi.
(nl is supplied to the trajectory length calculator (22), and the trajectory length calculator (22) calculates the trajectory length of the trajectory in the parameter space from the acoustic parameter time series Pi(nl), and calculates the trajectory length of the trajectory in the parameter space from the input pattern Since speech is recognized by determining the matching processing result according to the trajectory length of the input pattern and the standard pattern, the sampling point should not be determined because the overall trajectory is different even though it includes the same phoneme. There is an advantage that erroneous recognition can be relatively reduced when approaching a standard pattern.

尚、上述実施例においては距離信号補正器(27)にお
いて(14)式及び(15)式にて表される信号処理を
行うようにした場合について述べたけれども、これら(
14)式及び(15)式に限らず適宜な関数にて表され
る信号処理を行うようにすることを可とする。又、上述
実施例においては音響パラメータ時系列Pi(n)から
そのパラメータ空間における軌跡の軌跡長を算出した場
合について述べたけれども、音響パラメータ周波数系列
からそのパラメータ空間における軌跡の軌跡長を算出す
るようにしでも上述実施例と同様の作用効果を得ること
ができることは容易に理解できよう。又、上述実施例に
おいては音響パラメータ時系列からそのノ(ラメータ空
間における直線近似による軌跡の軌跡長を算出した場合
について述べたけれども、円弧近似、スプライン近似等
による軌跡の1lilL跡長を算出するようにしても上
述実施例と同様の作用効果を得ることができることは容
易に理解できよう。
In the above embodiment, a case was described in which the distance signal corrector (27) performs signal processing expressed by equations (14) and (15), but these (
It is possible to perform signal processing expressed by an appropriate function, not limited to equations (14) and (15). Furthermore, in the above embodiment, the case was described in which the trajectory length of the trajectory in the parameter space was calculated from the acoustic parameter time series Pi(n), but it is also possible to calculate the trajectory length of the trajectory in the parameter space from the acoustic parameter frequency series. It is easy to understand that the same effects as those of the above-mentioned embodiments can be obtained. Furthermore, in the above embodiment, the trajectory length of the trajectory was calculated from the acoustic parameter time series by linear approximation in the parameter space. However, it is easy to understand that the same effects as in the above embodiment can be obtained.

更に、上述実施例においては音響分析部(2)の音響パ
ラメータ時系列Pi(n)をNAT処理部(21)の1
ill跡長算出器(z2)に供給し、このN A T処
理1′H4(21)の軌跡長算出器(22)より音響パ
ラメータ時系列Pi(n)からそのパラメータ空間にお
ける軌跡の軌跡長を算出するようにした場合について述
べたけれども、NAT処理部(21)の1lill跡長
算出器(22)とは別途に軌跡長算出器を設け、この!
FilL跡長算出器にNAT処理部(21)の新たな音
響ノぐラメータ時系列口i (mlを供給し、新たな音
響パラメータ時系列Qt(2)からそのパラメータ空間
にお&Jる軌跡の軌跡長を算出し、この軌跡長に基づい
て距離、信号の補正を行うようにしても上述実施例と同
様の作用効果を得ることができることは容易に理解でき
よう。更に、第1図に示す如きDPマ・ノチング処理を
行うようにした音声認識装置においても、音響分析部(
2)の音響パラメータ系列を軌跡長算出器に供給し、こ
の軌跡長算出器の軌跡長信号を音響パラメータ系列に付
加し、入力パターン及び標準パターンの軌跡長に応じて
DPマンナング距離を補正するようにしても誤認識を比
較的少なくすることができる。尚、本発明は上述実施例
に限らず本発明の要旨を逸脱することなくその他種々の
構成を取り得ることは勿論である。
Furthermore, in the above embodiment, the acoustic parameter time series Pi(n) of the acoustic analysis section (2) is
The trajectory length calculator (22) of this NAT processing 1'H4 (21) calculates the trajectory length of the trajectory in the parameter space from the acoustic parameter time series Pi(n). As described above, a trajectory length calculator is provided separately from the 1lill trace length calculator (22) of the NAT processing unit (21), and this!
The new acoustic parameter time series i (ml) of the NAT processing unit (21) is supplied to the FIL trace length calculator, and the locus of the trajectory from the new acoustic parameter time series Qt (2) to that parameter space is calculated. It is easy to understand that the same effect as in the above embodiment can be obtained by calculating the trajectory length and correcting the distance and signal based on this trajectory length.Furthermore, as shown in FIG. Even in a speech recognition device that performs DP ma-noting processing, the acoustic analysis section (
The acoustic parameter series of 2) is supplied to a trajectory length calculator, the trajectory length signal of this trajectory length calculator is added to the acoustic parameter series, and the DP Manning distance is corrected according to the trajectory length of the input pattern and the standard pattern. Even so, misrecognition can be relatively reduced. It goes without saying that the present invention is not limited to the above-described embodiments, and can take various other configurations without departing from the gist of the present invention.

発明の効果 本発明音声認識装置に依れば音声信号入力部を有し、こ
の音声信号入力部の音声信号を音響分析部こ棋錨し、こ
の音響分析部に基づいて得た音響パラメータ系列を軌跡
長算出器に供給し、この軌跡長算出器にて音響パラメー
タ系列からそのパラメータ空間における軌跡の軌跡長を
算出し、入力パターンと標準パターンとをマツチング処
理した処理結果を入力パターン及び標準パターンの軌跡
長に応じて判定し、音声を認識するようにした為、同一
の音韻を含み全体の軌跡は異なるがリサンプリング点が
判定されるべきでない標準パターンに近づくときに誤認
識することを比較的少なくできる利益がある。
Effects of the Invention According to the speech recognition device of the present invention, it has an audio signal input section, the audio signal from this audio signal input section is used as an anchor to the acoustic analysis section, and the acoustic parameter series obtained based on the acoustic analysis section is obtained. The trajectory length calculator calculates the trajectory length of the trajectory in the parameter space from the acoustic parameter series, and matches the input pattern and the standard pattern. Since the speech is recognized by making a judgment based on the trajectory length, it is relatively possible to make a false recognition when approaching a standard pattern that contains the same phoneme and has a different overall trajectory, but the resampling point should not be judged. There are benefits that can be reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はDPマツチング処理により音声認識を行なうよ
うにした音声認識装置の例を示す構成図、第2図はDP
マツチング処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4図
、第5図及び第6図は夫々1次元の入力パターンA、標
準パターンA′及び標準パターンB′の例を示す線図、
第7図は入力パターンAのパラメータ時系列と標準パタ
ーンA′のパラメータ時系列とのDPマツチング処理に
よる時間軸正規化の説明に供する線図、第8図は入力パ
ターンAのパラメータ時系列と標準パターンB′のパラ
メータ時系列とのDPマツチング処理による時間軸正規
化の説明に供する線図、第9図はNAT処理をして音声
認識を行なうようにした音声認識装置の例を示す構成図
、第10図、第11図、第12図及び第14図は夫々N
AT処理部の説明に供する線図、第13図は補間点抽出
器の説明に供する流れ図、第15図、第16図及び第1
7図は夫々NAT処理部にてNAT処理した入力パター
ンA、標準パターンA′及び標準パターンB′の1次元
の音響パラメータ時系列を示す線図、第18図は同一の
音韻を含み全体の軌跡は異なるかりサンプリング点が近
い関係にあるパラメータ時系列の例を示ず路線図、第1
9図は本発明音声認識装置の一実施例を示す構成図であ
る。 (1)は音声信号入力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモリ、(6)は最小距離判定部、(11
八)。 (11B) 、 ・・・・、  (llo )は15チ
ヤンネルのデジタルバンドパスフィルタバンク、(16
)は音声区間内パラメータメモリ、(21)はNAT処
理部、(22)は軌跡長算出器、(23)は補間間隔算
出器、(24)は補間点抽出器、(25)はチェ・ビシ
エフ距1111t算出部、(26)は軌跡長信号付加器
、(27)は距離信号補正器である。 第1図 第13図 第14図 第18図 第19図 −ト続ネ市−tE’7F)’;’ 昭和51〕年io月 11日 昭和59年 特 許願第130714号2°’;a ′
91ov t+ +lh   イゆ4.工)43、補正
をする者 事件との関係   時計出願人 住 所 東京部品用区北品用6丁ト17 & 35 ’
;名称(218)ソ ニ −株式会社 代表取締役 大 賀 典 ム1F 4、代理人 6、補正により増加する発明の数 7、補正の対象  明細書の発明の8”lj細な説明の
欄。 8、補正の内容 (1)明細書中、第34頁第34行〜第7行N (N+
1)(N−1) (N = 15)    ・・・ (2)N(N−]、
) (N=15)    ・・・ (3) 」 とあるを下記の通りに訂正する。 1  (1+1)(1−1) (1= 15)    ・・・ (2)(1= 15)
    ・・・ (3)」 (2)同、同頁第14行〜第15行 とあるを下記の通りに訂正する。 (3)同、第34頁第3行r TR3IJとあるをr 
TRLIJに訂正する。 (4)  同、第36頁第7行「チェジヒエフ距離」と
あるを「チェビシェフ距離」に訂正する。 以上
Fig. 1 is a configuration diagram showing an example of a speech recognition device that performs speech recognition by DP matching processing, and Fig.
A conceptual diagram for explaining the matching process, FIG. 3 is a diagram for explaining the locus in the acoustic parameter space, and FIGS. 4, 5, and 6 are one-dimensional input pattern A, standard pattern A', and A diagram showing an example of standard pattern B',
Figure 7 is a diagram for explaining time axis normalization by DP matching processing between the parameter time series of input pattern A and the parameter time series of standard pattern A', and Figure 8 is a diagram showing the parameter time series of input pattern A and the standard pattern A'. A diagram for explaining time axis normalization by DP matching processing with the parameter time series of pattern B', FIG. 9 is a configuration diagram showing an example of a speech recognition device that performs speech recognition by performing NAT processing, Figures 10, 11, 12 and 14 are N
Figure 13 is a diagram for explaining the AT processing section, Figure 13 is a flowchart for explaining the interpolation point extractor, Figures 15, 16, and 1.
Figure 7 is a diagram showing the one-dimensional acoustic parameter time series of input pattern A, standard pattern A', and standard pattern B' that were each subjected to NAT processing by the NAT processing unit, and Figure 18 is a diagram showing the entire trajectory including the same phoneme. The route map, the first
FIG. 9 is a block diagram showing an embodiment of the speech recognition device of the present invention. (1) is a microphone as an audio signal input section; (2)
is the acoustic analysis section, (3) is the mode changeover switch, (4) is the standard pattern memory, (6) is the minimum distance determination section, (11) is the
Eight). (11B), ..., (llo) is a 15-channel digital bandpass filter bank, (16
) is the voice interval parameter memory, (21) is the NAT processing unit, (22) is the trajectory length calculator, (23) is the interpolation interval calculator, (24) is the interpolation point extractor, and (25) is Choi Byshiev. A distance 1111t calculating section, (26) a trajectory length signal adder, and (27) a distance signal corrector. Fig. 1 Fig. 13 Fig. 14 Fig. 18 Fig. 19 - Totsukune City - tE'7F)';' io month 11, 1978 Patent Application No. 130714 2°';a'
91ov t+ +lh Iyu4. (Engineering) 43. Relationship with the case of the person making the amendment. Address of the watch applicant: 6-chome, 17th &35', Kitashinyo, Tokyo Parts Store
; Name (218) Sony Co., Ltd. Representative Director Nori Ohga 1F 4, Agent 6, Number of inventions increased by amendment 7, Subject of amendment 8"lj Detailed explanation column of the invention in the specification. 8 , Contents of amendment (1) In the specification, page 34, line 34 to line 7 N (N+
1) (N-1) (N = 15) ... (2) N (N-],
) (N=15) ... (3)'' should be corrected as follows. 1 (1+1) (1-1) (1= 15) ... (2) (1= 15)
... (3)'' (2) Same page, lines 14 to 15 are corrected as follows. (3) Same, page 34, line 3 r TR3IJ
Correct to TRLIJ. (4) Same, page 36, line 7, ``Chezykhiev distance'' is corrected to ``Chebyshev distance.''that's all

Claims (1)

【特許請求の範囲】[Claims] 音声信号入力部を有し、該音声信号入力部の音声信号を
音響分析部に供給し、該音響分析部に基づいて得た音響
パラメータ系列を軌跡長算出器に供給し、該軌跡長算出
器にて上記音響パラメータ系列からそのパラメータ空間
における軌跡の軌跡長を算出し、入力パターンと標準パ
ターンとをマッチング処理した処理結果を上記入力パタ
ーン及び上記標準パターンの軌跡長に応じて判定し、音
声を認識するようにしたことを特徴とする音声認識装置
comprising an audio signal input section, supplies the audio signal of the audio signal input section to an acoustic analysis section, supplies an acoustic parameter series obtained based on the acoustic analysis section to a trajectory length calculator, and supplies the acoustic parameter series obtained based on the acoustic analysis section to a trajectory length calculator; The length of the trajectory in the parameter space is calculated from the acoustic parameter series, the processing result of matching the input pattern and the standard pattern is determined according to the trajectory length of the input pattern and the standard pattern, and the audio is A speech recognition device characterized in that it recognizes speech.
JP59130714A 1984-05-25 1984-06-25 Voice recognizer Expired - Lifetime JPH0668678B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP59130714A JPH0668678B2 (en) 1984-06-25 1984-06-25 Voice recognizer
AU42751/85A AU586167B2 (en) 1984-05-25 1985-05-22 Speech recognition method and apparatus thereof
CA000482156A CA1227286A (en) 1984-05-25 1985-05-23 Speech recognition method and apparatus thereof
EP85303666A EP0164945B1 (en) 1984-05-25 1985-05-23 Methods of and apparatus for speech recognition
DE8585303666T DE3583067D1 (en) 1984-05-25 1985-05-23 METHOD AND ARRANGEMENT FOR VOICE RECOGNITION.
US07/323,098 US5003601A (en) 1984-05-25 1989-03-07 Speech recognition method and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59130714A JPH0668678B2 (en) 1984-06-25 1984-06-25 Voice recognizer

Publications (2)

Publication Number Publication Date
JPS619696A true JPS619696A (en) 1986-01-17
JPH0668678B2 JPH0668678B2 (en) 1994-08-31

Family

ID=15040863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59130714A Expired - Lifetime JPH0668678B2 (en) 1984-05-25 1984-06-25 Voice recognizer

Country Status (1)

Country Link
JP (1) JPH0668678B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS613200A (en) * 1984-06-15 1986-01-09 ソニー株式会社 Voice recognition equipment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS613200A (en) * 1984-06-15 1986-01-09 ソニー株式会社 Voice recognition equipment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus

Also Published As

Publication number Publication date
JPH0668678B2 (en) 1994-08-31

Similar Documents

Publication Publication Date Title
JPH0612089A (en) Speech recognizing method
JPS6024597A (en) Voice registration system
JPH0561496A (en) Voice recognizing device
JPS6128998B2 (en)
JPS619696A (en) Voice recognition equipment
JPS613200A (en) Voice recognition equipment
JPS6117196A (en) Voice recognition equipment
JPS619697A (en) Voice recognition equipment
JPH0572598B2 (en)
JPS60249199A (en) Voice recognition equipment
JPH0634181B2 (en) Voice recognizer
JPS6117195A (en) Voice recognition equipment
JPS60254198A (en) Voice recognition equipment
JPH07111639B2 (en) Automatic voice standard pattern generator
JPS61176996A (en) Voice recognition equipment
JPS62136700A (en) Voice recognition equipment
JPS6114699A (en) Voice recognition equipment
JPS61208097A (en) Voice recognition equipment
JPS62113197A (en) Voice recognition equipment
JPS61174600A (en) Voice recognition equipment
JPS61267098A (en) Voice recognition equipment
JPS61275799A (en) Voice recognition equipment
JPS60115996A (en) Voice recognition equipment
JPS61176997A (en) Voice recognition equipment
JPS6061800A (en) Voice recognition system

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term