JPS61275899A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS61275899A
JPS61275899A JP11826685A JP11826685A JPS61275899A JP S61275899 A JPS61275899 A JP S61275899A JP 11826685 A JP11826685 A JP 11826685A JP 11826685 A JP11826685 A JP 11826685A JP S61275899 A JPS61275899 A JP S61275899A
Authority
JP
Japan
Prior art keywords
parameter
circuit
acoustic
time series
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11826685A
Other languages
Japanese (ja)
Other versions
JPH0632025B2 (en
Inventor
誠 赤羽
平岩 篤信
雅男 渡
佐古 曜一朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11826685A priority Critical patent/JPH0632025B2/en
Publication of JPS61275899A publication Critical patent/JPS61275899A/en
Publication of JPH0632025B2 publication Critical patent/JPH0632025B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は音響分析部にバンドパスフィルタバンクを用
いる音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speech recognition device using a bandpass filter bank in an acoustic analysis section.

〔発明の概要〕[Summary of the invention]

この発明は音声認識装置の音響分析部にパン1パスフイ
ルタバンクを用いるものにおいて、聴覚特性に対応した
メル(mel )  ・スケールと、−・般に用いられ
るログ(log)  ・スケールの両者の特長を取り入
れてハント゛バスフィルタバンクを+1 h2したもの
で、低域側(51メル・スケール等間隔で、高域側し5
口1グ・スケール等間隔で周波数分割して構成する。こ
のようにした結果、フィルタバンクのチャンネル数の削
減が図られ、フィルタの設d1が容易になるという利点
がある。
This invention uses a pan 1-pass filter bank in the acoustic analysis section of a speech recognition device, and features features of both the mel scale, which corresponds to auditory characteristics, and the commonly used log scale. It is a Hunt bass filter bank with +1 h2, with equal intervals on the low frequency side (51 mel scale, and 5 on the high frequency side).
It is constructed by dividing the frequency at equal intervals on the 1G scale. As a result, there is an advantage that the number of channels in the filter bank can be reduced and the filter installation d1 can be facilitated.

〔従来の技術〕[Conventional technology]

音声は時間軸に沿って変化する現象で、スペクトラJ8
・パターンが刻々と変化するように音声を発声すること
によっ°ζ固有の申話やd葉が41.まれる。この人間
が発声する小話や言葉を自動認識する技術が音声認識で
あるが、人間の聴覚機能に匹敵するような音声認識を実
現することは現在のところ至難のことである。このため
、現在実用化されている音覧す認もへの殆んどは、一定
の使用条(’+の下で、認識対象弔語の標準パターンと
入カパターンとのパターンマツチングを行なうことによ
りなす方法である。
Sound is a phenomenon that changes along the time axis, and Spectra J8
・By uttering sounds in such a way that the patterns change from moment to moment, 41. be caught. Speech recognition is a technology that automatically recognizes short stories and words uttered by humans, but it is currently extremely difficult to achieve speech recognition that is comparable to the human auditory function. For this reason, most of the audio recognition systems currently in practical use perform pattern matching between the standard pattern of the eulogy to be recognized and the input pattern under a certain usage condition ('+). This method is done by

第1図はこの音声認識装置の一例のブロック図で、マイ
クロホンf11よりの音声入力が音響分析回路(2)に
供給される。この音響分析回路(2)では入力音声パタ
ーンの特徴を表わす音響パラメータが抽出される。この
音響パラメータを抽出する音響分析の方法は種々考えら
れるが、その−例としてバンドパスフィルタと整流回路
を1チヤンネルとし、このようなチャンネルを音声帯域
を分割した通過帯域をそれぞれ有するものとして複数個
並べ、このバンドパスフィルタ群の出力としてスペクト
ラム・パターンの時間変化を抽出する方法が用いられる
FIG. 1 is a block diagram of an example of this speech recognition device, in which speech input from a microphone f11 is supplied to an acoustic analysis circuit (2). This acoustic analysis circuit (2) extracts acoustic parameters representing the characteristics of the input speech pattern. Various acoustic analysis methods can be considered to extract these acoustic parameters, but one example is to use a bandpass filter and a rectifier circuit as one channel, and to divide such a channel into multiple channels each having a passband that is obtained by dividing the audio band. A method is used in which a temporal change in a spectrum pattern is extracted as the output of this group of band-pass filters.

すなわち、音響分析回路(2)においては、マイクロホ
ン(1)からの音声信号がアンプ(21+ )及び帯域
制限用のローパスフィルタ(212)を介してA/Dコ
ンバータ(213)に供給され、例えば12.5kll
zのサンプリング周波数で12ビツトのデジタル音声信
号に変換される。このデジタル音声信号は、1列えば1
6チヤンネルのバントパスフィルタバンクの各チャンネ
ルのデジタルバントパスフィルタ (221+ )  
、  (2212)  、  ・・・・、  (221
+ら)に供給される。このデジタルバントパスフィルタ
(22h) 、  (2212)  、・・・・、  
(22L+g)は例えばバターワース4次のデジタルフ
ィルタにて構成され、25011zから5.5KIIz
までの帯域が対数軸上で等間隔で分割された各帯域が各
フィルタの通過帯域となるようにされている。すなわち
、「1グ・スケール等間隔で周波数分割されて16チヤ
ンネル分のバンドパスフィルタバンクが構成されている
That is, in the acoustic analysis circuit (2), an audio signal from the microphone (1) is supplied to an A/D converter (213) via an amplifier (21+) and a band-limiting low-pass filter (212). .5kll
It is converted into a 12-bit digital audio signal at a sampling frequency of z. This digital audio signal consists of one row of
Digital bandpass filters for each channel of a 6-channel bandpass filter bank (221+)
, (2212) , ..., (221
+ et al.). This digital band pass filter (22h), (2212),...
(22L+g) is composed of, for example, a Butterworth 4th order digital filter, and is 25011z to 5.5KIIz.
Each band obtained by dividing the band up to 100 nm at equal intervals on the logarithmic axis becomes the pass band of each filter. That is, a bandpass filter bank for 16 channels is constructed by dividing the frequency at equal intervals on a 1G scale.

各デジタルバントパスフィルタ(22h L。Each digital bandpass filter (22h L.

(2212) 、・・・・、  (22L+6)の出力
信号はそれぞれ整流回路(222ス) 、  (222
2) 、・・・・。
The output signals of (2212), ..., (22L+6) are rectifier circuits (222) and (222
2) ,...

(22216)に供給され、これら整流回路(222+
 ) 。
(22216) and these rectifier circuits (222+
).

(2222> 、  ・・・・(2221G )の出力
はそれぞれデジタルローパスフィルタ (223+ )
 、  (2232) 。
(2222>, ...(2221G) outputs are each digital low-pass filter (223+)
, (2232).

・・・・、  (2231e)に供給される。これらデ
ジタルローパスフィルタ(223+ ) 、  (22
32) 、・・・・。
..., (2231e). These digital low-pass filters (223+), (22
32) ,...

(22316)は例えばカットオフ周波数52.811
zのFIRローパスフィルタにて構成される。
(22316) is, for example, a cutoff frequency of 52.811
It is composed of a Z FIR low pass filter.

音響分析回路(2)の出力である各デジタルローパスフ
ィルタ(223t) 、  (2232) 、・・・・
Each digital low-pass filter (223t), (2232), ... which is the output of the acoustic analysis circuit (2)
.

(223z6)の出力信号は特徴抽出回路(23)を構
成するサンプラ=(23] )に供給される。このサン
プラー(231)ではデジタルローパスフィルタ(22
31) 、  (2232) 、・・・・、  (22
31G)の出力信号をフレーム周期5.12m5ec毎
にサンプリングする。したがって、これよりはサンプル
時系列At(nl (1=1. 2. −16; nは
フレーム番号でn=1.2.  ・・・・、N)が得ら
れる。
The output signal of (223z6) is supplied to a sampler (23) constituting the feature extraction circuit (23). This sampler (231) uses a digital low-pass filter (22
31) , (2232) ,..., (22
31G) is sampled every frame period of 5.12m5ec. Therefore, from this, a sample time series At(nl (1=1.2.-16; n is the frame number and n=1.2. . . , N) is obtained.

このサンプラー(231)からの出力、つまりサンプル
時系列At1n+は音源情報正規化回路(232)に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。
The output from this sampler (231), that is, the sample time series At1n+, is supplied to a sound source information normalization circuit (232), which removes differences in vocal cord sound source characteristics depending on the speaker of the speech to be recognized.

即ち、フレーム周期毎にサンプラー(231)から供給
されるサンプル時系列At(n)に対して八1(nl=
  log(^1(nl+ B)          
 ・・−(tlなる対数変換がなされる。この(11式
において、Bはバイアスでノイズレベルが隠れる程度の
値を設定する。
That is, 81 (nl=
log(^1(nl+B)
...-(tl logarithmic transformation is performed. In this equation (11), B is set to a value such that the noise level is hidden by the bias.

そして、声帯音源特性をyi=a−i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
Then, when the vocal cord sound source characteristics are approximated by the formula yi=a−i+b, the coefficients of a and b are determined by the following formula.

(1= 16>     ・・・(2)(I = 16
)     ・・・(3)そして、音源の正規化された
パラメータをPifnlとすると、a (n) < Q
のときパラメータPi(n)はPi(nl−At(nl
 −(a fnl ・i→−bfnll    ・−−
T41と表される。
(1 = 16> ...(2) (I = 16
)...(3) Then, if the normalized parameter of the sound source is Pifnl, a (n) < Q
Then the parameter Pi(n) is Pi(nl-At(nl
−(a fnl ・i → −bfnll ・−−
It is expressed as T41.

又、a (nl≧0のときレベルの正規化のみ行ない、
パラメータPifnlは ・・・(5) と表される。
Also, a (when nl≧0, only level normalization is performed,
The parameter Pifnl is expressed as...(5).

こうして声帯音源特性の違いが正規化されて除去された
音響パラメータ時系列Pifnlがこの音源情報正規化
回路(232>より得られる。
In this way, the acoustic parameter time series Pifnl in which differences in vocal cord sound source characteristics are normalized and removed is obtained from this sound source information normalization circuit (232>).

この音源情報正規化回路(232)よりの音響パラメー
タPi(nlは音声区間内パラメータメモリ(8)に供
給される。この音声区間内パラメータメモ1月8)では
音声区間判定回路(24)からの音声区間判定信号を受
けて、パラメータPifn)が、判定さた音声区間毎に
ストアされる。
The acoustic parameters Pi (nl) from this sound source information normalization circuit (232) are supplied to the voice interval parameter memory (8). In response to the speech section determination signal, a parameter Pifn) is stored for each determined speech section.

音声区間判定回路(24)はゼロクロスカウンタ(24
1)とパワー算出回路(242)と音声区間決定回路(
243)とからなり、A/Dコンバータ(2]3)より
のデジタル音声信号がゼロクロスカウンタ(241)及
びパワー算出回路(242>に供給される。ゼロクロス
カウンタ(241)でばIフレーム周期5.12m5e
c毎に、この1フレ一ム周期内の64サンプルのデジタ
ル音声信号のゼロクロス数をカウントし、そのカウント
値が音声区間決定回路(243>の第1の入力端に供給
される。パワー算出回路(242)では1フレ一ム周期
毎にこのlフ【/−ム周期内のデジタル音声信号のパワ
ー、すなわち2乗和が求められ、その出力パワー信号が
音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第
3の入力端に音源情報正規化回路(232)よりの音源
正規化情報が供給される。そして、この音声区間決定回
路(243)においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定される
The voice section determination circuit (24) includes a zero cross counter (24).
1), a power calculation circuit (242), and a voice section determination circuit (
243), and the digital audio signal from the A/D converter (2]3) is supplied to the zero-cross counter (241) and the power calculation circuit (242).The zero-cross counter (241) has an I frame period of 5. 12m5e
c, the number of zero crosses of the 64 samples of the digital audio signal within this one frame period is counted, and the count value is supplied to the first input terminal of the audio section determination circuit (243).Power calculation circuit (242), the power of the digital audio signal within this l frame period, that is, the sum of squares, is determined for each frame period, and the output power signal is sent to the second voice section determining circuit (243). The voice section determining circuit (243) is further supplied with voice source normalization information from the voice source information normalization circuit (232) at its third input terminal. In the section determining circuit (243), the number of zero crossings, the power within the section, and the sound source normalization information are processed in a composite manner, and a process of determining silence, unvoiced sound, and voiced sound is performed, and a voice section is determined.

この音声区間決定回路(243)よりの判定された音声
区間を示す音声区間判定信号は音声区間判定面178 
(24)の出力として音声区間内パラメータメモリ (
200)に供給される。
The voice interval determination signal indicating the determined voice interval from the voice interval determination circuit (243) is sent to the voice interval determination surface 178.
The output of (24) is the voice interval parameter memory (
200).

こうしで、判定音声区間内においてメモリ (200)
にストアされた音響パラメータ時系列PifnlはNA
T処理回V!1f91にイj先給される。
In this way, the memory (200) is
The acoustic parameter time series Pifnl stored in is NA
T treatment episode V! 1f91 will be paid in advance.

NAT処理回路(9)は軌跡長算出回路(91)と補間
間隔算出回路(92)と補間点抽出回路(93)からな
る。
The NAT processing circuit (9) includes a trajectory length calculation circuit (91), an interpolation interval calculation circuit (92), and an interpolation point extraction circuit (93).

パラメータメモリ (200)からのパラメータ時系列
Pifn) (i =1. 2. −、 16; n 
=1. 2゜・・・・、N)は軌跡長算出回路(91)
に供給される。
Parameter time series Pifn) from parameter memory (200) (i = 1. 2. −, 16; n
=1. 2゜..., N) is the trajectory length calculation circuit (91)
supplied to

この軌跡長算出回路(91)においては音響パラメータ
時系列Pi(nlがそのパラメータ空間において第3図
に示すように描く直線近似による軌跡の長さを算出する
(図中、X印で示すものは各パラメータの値のとる位置
で、これは説明のためPl、P2の2次元空間の場合と
して示しである)。
In this trajectory length calculation circuit (91), the acoustic parameter time series Pi (nl) calculates the length of the trajectory by linear approximation drawn in the parameter space as shown in FIG. This is the position taken by the value of each parameter (this is shown as a case of a two-dimensional space of Pl and P2 for the sake of explanation).

この場合、■次元ベクトルaI及びbI間のユークリッ
ド距離D (at +  bI )は■ D(at、bI)−Σ (a(−bI)2i +1 ・・・(6) である。そこで、■次元の音響パラメータ時系列Pi(
nlより、直線近似により軌跡を推定した場合の時系列
方向に隣接するパラメータ間距離S (nlは5(nl
=D (PI (n +1) 、 PiTn))(n=
1.・・・・、N)      ・・・(7)と表わさ
れる。そして、時系列方向における第1番目のパラメー
タPi(1)から第n番目のパラメータPifnl迄の
距1111 S fun)ばと表わされる。なお、St
、(11−〇である。
In this case, the Euclidean distance D (at + bI) between the ■-dimensional vectors aI and bI is ■D(at, bI)-Σ (a(-bI)2i +1 ... (6). Therefore, the ■-dimensional The acoustic parameter time series Pi(
From nl, the distance S between adjacent parameters in the time series direction when the trajectory is estimated by linear approximation (nl is 5(nl
=D (PI(n+1), PiTn))(n=
1. ..., N) ...(7). Then, the distance from the first parameter Pi(1) to the n-th parameter Pifnl in the time series direction is expressed as 1111 S fun). In addition, St.
, (11-0.

そして、全軌m長SLは この軌跡長算出回路(91)にて求められた軌跡長SL
を示す信号は補間間隔算出回路(92)に供給される。
The total track length m SL is the track length SL calculated by this track length calculation circuit (91).
A signal indicating the interpolation interval calculation circuit (92) is supplied to the interpolation interval calculation circuit (92).

この補間間隔算出回路(92)では軌跡に沿って再サン
プリングするときの再サンプリング間隔Tを算出する。
This interpolation interval calculation circuit (92) calculates the resampling interval T when resampling is performed along the locus.

この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T=SL/ (M−1)           −・=
l+01として求められる。
In this case, if resampling is performed at M points, the resampling interval T is T=SL/ (M-1) −・=
It is determined as l+01.

この補間間隔算出回路(92)よりの百サンプリング間
隔Tを示す信号は補間点抽出回路(93)に供給される
。また、パラメータメモ1月8)より)の音響パラメー
タ時系列Pi(nlも、また、この補間点抽出回路(9
3)に供給される。この補間点抽出回路(93)は音響
パラメータ時系列Pifnlのそのパラメータ空間にお
ける軌跡、例えばパラメータ間を直線近似した軌跡に沿
って第4図において○印にて示すように再サンプリング
間隔Tで再サンプリングし、このザンブリングにより得
た新たな点列より認識パラメータ時系列旧hlを形成す
る。
A signal indicating the 100 sampling interval T from this interpolation interval calculation circuit (92) is supplied to an interpolation point extraction circuit (93). In addition, the acoustic parameter time series Pi (nl from the parameter memo January 8) is also obtained from this interpolation point extraction circuit (9
3). This interpolation point extraction circuit (93) resamples the acoustic parameter time series Pifnl at a resampling interval T as shown by the circle in FIG. Then, the recognition parameter time series old hl is formed from the new point sequence obtained by this zumbling.

ここで、この補間点抽出回路(93)においては第2図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列旧fmlが形成される。
Here, the interpolation point extraction circuit (93) performs processing according to the flowchart shown in FIG. 2 to form the recognition parameter time series old fml.

先ず、ステップ(101)にて再サンプリング点の時系
列方向における番号を示す変数、1に値1が設定される
と共に音響パラメータ時系列Pi(nlのフレーム番号
を示す変数ICに値1が設定され、イニシャライズされ
る。次にステップ(102)にて変数、■がインクリメ
ントされ、ステップ(1031にてそのときの変数、1
が(M−1)以−トであるかどうかが判別される、二と
により、そのときの肉り′ンプリング点の時系列方向に
お4Jる番号がリナンプリングする必要のある最後の番
号になっているかどうかを判l折する。最1多の番号で
あればステップ(104)に進め、釘サンプリングは終
了する。
First, in step (101), the value 1 is set to the variable 1 indicating the number of the resampling point in the time series direction, and the value 1 is set to the variable IC indicating the frame number of the acoustic parameter time series Pi (nl). , is initialized.Next, in step (102), the variable ■ is incremented, and in step (1031), the variable at that time, 1
It is determined whether or not is (M-1) or later, and the number 4J in the chronological direction of the sampling point at that time is the last number that needs to be renumbered. Check to see if it is. If the number is the highest, the process advances to step (104) and the nail sampling ends.

最後の番すでなければステップ[05)にて第1番目の
再り゛ンプリング点(これは必ず無音の部分である。)
から第、1番目の再す′ンプリング点までの再サンプリ
ング距離DCが算出される。次にステップ(106)に
進み変数ICがインクリメントされる。次にステップ(
107)にてN4°ザンブル距削叶が音響パラメータ時
系列Pifnlの第1番[1のパラメータ門(1)から
第1C番目のパラメータPtac+までの距離s+、+
。よりも小さいかどうかにより、そのときの再サンプリ
ング点が軌跡上においてそのときのパラメータP i 
+1oよりも軌跡の始点側に位置するかどうかが判断さ
れ、始点側に位置していなければステップ(106)に
戻り変数ICをインクリメントした(灸再びステップ(
107)に′C再ザンプリング点とパラメータP i 
ac)との軌跡上における位置の比較をし、再サンプリ
ング点が軌跡上においてパラメータPi、1oよりも始
点側に位置すると判断されたとき、ステップ(108)
に進み認識パラメータ旧σ)が形成される。
If it is not the last number, step [05] is the first resampling point (this is always a silent part).
The resampling distance DC from to the first resampling point is calculated. Next, the process proceeds to step (106), where the variable IC is incremented. Then step (
107), the distance s+,+ from the first parameter gate (1) of the acoustic parameter time series Pifnl to the 1Cth parameter Ptac+ is
. Depending on whether the resampling point is smaller than the parameter P i on the trajectory, the resampling point at that time
It is determined whether the position is closer to the start point of the trajectory than +1o, and if it is not located to the start point side, the process returns to step (106) and the variable IC is incremented (step (moxibustion) again).
107), 'C resampling point and parameter P i
ac), and when it is determined that the resampling point is located closer to the starting point than the parameters Pi, 1o on the trajectory, step (108)
Then, the recognition parameter (old σ) is formed.

即ち、第5番目の再サンプリング点による阿すンプリン
グ距離叶からこの第5番目の再サンプリング点よりも始
点側に位置する第(1F、−1)番目のパラメータP 
1ac−nによる距離5LfIC−11を減算して第(
IC−1)番目のパラメータP L (Ic−11から
第、1番目の再サンプリング点迄の距MSSを求める。
That is, from the sampling distance obtained by the fifth resampling point, the (1F, -1)th parameter P located closer to the starting point than this fifth resampling point
Subtract the distance 5LfIC-11 due to 1ac-n to get the (
The distance MSS from the IC-1)th parameter P L (Ic-11 to the first resampling point is determined).

次に、軌跡上においてこの第5番目の再サンプリング点
の両側に位置するパラメータP i(+c−s+及びパ
ラメータPb1C1間の距離5fnl(この距離S t
n+は(7)式にて示される信号処理にて得られる。)
にてこの距MSSを除算し、この除算結果SS/ S 
(Ic−11に軌跡上において第5番目の再サンプリン
グ点の両側に位置するパラメータPioc+とP i、
1cm11との差(P i uc、P i (ic−1
,)を11)算して、軌跡−ににおいて第5番目の再サ
ンプリング点のこの再サンプリング点よりも始点側に隣
接して位置する第(Ic−1)番L1のパラメータP 
L+c−11からの補間旨を算出し、この補間Mと第5
番目の釘サンプリング点よりも始点側に隣接して位置す
る第(IC−1)番目のパラメータP i uc−1+
とを加算して、軌跡に沿う新たな認識パラメータ旧(1
))が形成される。
Next, the distance 5fnl (this distance S t
n+ is obtained by signal processing shown in equation (7). )
Divide this distance MSS by and get the division result SS/S
(In Ic-11, parameters Pioc+ and P i located on both sides of the fifth resampling point on the trajectory,
The difference from 1 cm11 (P i uc, P i (ic-1
, ) in 11), and calculate the parameter P of the (Ic-1)th L1 located adjacent to the starting point side of the fifth resampling point on the trajectory -.
Calculate the interpolation effect from L+c-11, and use this interpolation M and the fifth
The (IC-1)th parameter P i uc-1+ located adjacent to the starting point side of the nail sampling point
and a new recognition parameter along the trajectory old (1
)) is formed.

このようにU7て始点及び終点(これらはそれぞれ無音
であるときは旧(Il = PHol ” 0 、 旧
fMl−門IG)−〇である。)を除<  (M−2)
点の再サンプリングにより認識パラメータ時系列旧(m
lが形成される。
In this way, U7 excludes the start point and end point (when they are silent, they are old (Il = PHol " 0, old fMl - gate IG) - 0) < (M-2)
The recognition parameter time series old (m
l is formed.

このN A T処理回路(9)よりの認識パラメータ時
系列旧(mlはモー1゛切換スイツチ(3)により、登
録モー]′においては誌織対象語毎に標準パターンメモ
1月4)にストアされる。また、認識モードにおいては
距fIVJJ算出回路(6)に供給され、標準パターン
メモリ(4)よりの標準パターンのパラメータ時系列と
の距離の算出がなされる。この場合の距離は例えば簡易
的なチェヒう’j−フ距離として算出される。この距離
算出回路(0)よりの各I!!準パターンと入カバター
ンとの距離の算出出力は最小値判定回路(7)に供給さ
れ、距離算出値が最小となる標準パターンが判定され、
この判定結果により入力音声の認識結果が出力端(70
)に得られる。
The recognition parameters from this NAT processing circuit (9) are stored in the standard pattern memo (January 4) for each journal target word in the registration mode in the chronological order (ml is the mode 1 changeover switch (3)). be done. Further, in the recognition mode, the distance fIVJJ is supplied to the distance fIVJJ calculation circuit (6), and the distance between the parameter time series of the standard pattern from the standard pattern memory (4) is calculated. The distance in this case is calculated, for example, as a simple Chech u'j-fu distance. Each I! from this distance calculation circuit (0)! ! The calculated output of the distance between the quasi pattern and the input cover pattern is supplied to the minimum value determination circuit (7), and the standard pattern with the minimum calculated distance value is determined.
Based on this judgment result, the recognition result of the input voice is transferred to the output terminal (70
) can be obtained.

なお、以上の例は時間正規化処理と17で音響パラメー
タ時系列Pifnlがそのパラメータ空間で描く軌跡を
推定し、その軌跡に沿って再サンプリングして新たな正
規化パラメータ時系列旧+m+を得るようにした場合が
あるが、時間iE規化の手法としてはその他の手法、例
えば距離算出時に、いわゆるDPマツチングを行なうよ
うにする手法を用いてもよい。
Note that in the above example, the time normalization process and Step 17 estimate the trajectory that the acoustic parameter time series Pifnl draws in its parameter space, and resample along that trajectory to obtain a new normalized parameter time series old+m+. However, other methods may be used for time iE normalization, such as a method that performs so-called DP matching when calculating distance.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

以上のように音響分析部にはバンドパスフィルタバンク
が用いられることが多く、その場合に、前述したように
従来は、周波数軸をログ・スケールにとり、音声帯域を
その周波数軸上で等間隔に分割して多チャンネルに構成
している。
As described above, a bandpass filter bank is often used in the acoustic analysis section, and in that case, as mentioned above, conventionally, the frequency axis is set on a log scale, and the audio bands are equally spaced on the frequency axis. It is divided into multiple channels.

ところで、このようにログ・スケールで等間隔に音声帯
域周波数を分割すると、低域は細かく、高域は粗くなる
。このため、音声認識における音響分析部の周波数分解
能は低域のチャンネル数が多く、高域のチャンネル数が
少なくなり、少ないチャンネル数で最適なフィルタバン
クを構成するごとが困難になる。
By the way, when the audio band frequency is divided into equal intervals on a log scale like this, the low range becomes fine and the high range becomes coarse. For this reason, the frequency resolution of the acoustic analysis unit in speech recognition has a large number of low-frequency channels and a small number of high-frequency channels, making it difficult to construct an optimal filter bank with a small number of channels.

また、低域はチャンネル数が多くなるので、各フィルタ
を設計するのも難しくなるという問題点もある。
Another problem is that the number of channels in the low range increases, making it difficult to design each filter.

〔問題点を解決するための手段〕[Means for solving problems]

この発明においては音響分析部のバンドパスフィルタバ
ンクを低域側はメル・スケール等間隔で、高域側はログ
・スケール等間隔で音声周波数帯域を分割して構成する
In this invention, the bandpass filter bank of the acoustic analysis section is constructed by dividing the audio frequency band into equal intervals on the mel scale on the low frequency side and equal intervals on the log scale on the high frequency side.

〔作用〕[Effect]

低域側をメル・スケール等間隔で帯域分割したことによ
りログ・スケール等間隔で帯域分割した場合に比べて低
域側のチャンネル数が少なくなり、フィルタバンク全体
としてチャンネル数の削減が図れるととにもフィルタの
設計が容易になる。
By dividing the low-pass band at equal intervals on the mel scale, the number of channels on the low-pass side is smaller than when dividing the band at equal intervals on the log scale, and it is possible to reduce the number of channels for the filter bank as a whole. It also makes filter design easier.

〔実施例〕 16チヤンネルのバンドパスバンクを構成した場合の1
列を示す。
[Example] 1 when configuring a 16-channel bandpass bank
Indicates a column.

この例では低域側を5チヤンネル、高域側を11チヤン
ネルに分割する。
In this example, the low frequency side is divided into 5 channels and the high frequency side is divided into 11 channels.

そして、低域側の5チヤンネルに分割する周波数帯域は
、0.25kHz〜0.85kllzとされ、これがメ
ル・スケール等間隔で分割される。
The frequency band to be divided into five channels on the low frequency side is 0.25 kHz to 0.85 kllz, and this is divided at equal intervals on the mel scale.

また、高域側の11チヤンネルに分割する周波数帯域は
0 、85kllz 〜5 、2kllzとされ、これ
がログ・スケール等間隔で分割される。
Further, the frequency band divided into 11 channels on the high frequency side is set to 0, 85kllz to 5, 2kllz, and this is divided at equal intervals on a log scale.

この場合、全通過帯域はそれぞれ一3dBの点で隣接す
るチャンネルの通過帯域がクロスするように、4次のバ
ターワース・バンドパスフィルタが設a1される。
In this case, a fourth-order Butterworth bandpass filter a1 is installed so that the passbands of adjacent channels cross each other at a point of -3 dB in the entire passband.

なお、周波数fに対するメル・スケール上の値Xの近似
式は、 x =  log2 (f/1000+1 )    
 f ≦850・ ・ ・ (11) と表わされ、周波数fに対するログ・スケール−Lの値
yとの変換式は V=  log2f    (f > 850)   
 −−・(12)となる。
The approximate formula for the value X on the mel scale with respect to the frequency f is x = log2 (f/1000+1)
It is expressed as f ≦850 (11), and the conversion formula between the frequency f and the value y of log scale - L is V = log2f (f > 850)
---(12).

以上により設計された16チヤンネルのバンドパスフィ
ルタの各チャンネルの通過中心周波数を次表に示す。
The passing center frequencies of each channel of the 16-channel bandpass filter designed as described above are shown in the following table.

〔発明の効果〕〔Effect of the invention〕

メル・スケールは人間の聴覚特性に対応したものであり
、ログ・スケールに比べて低域側に粗く高域側に細かく
なる。
The Mel scale corresponds to the characteristics of human hearing, and is coarser in the low range and finer in the high range compared to the log scale.

この発明によれば、低域側はメル・スケールで、高域側
はログ・スケールで構成したことにより、低域側のフィ
ルタ数の削減が図られ、その結果、フィルタバンクのチ
ャンネル数の削減が可能になり、また低域のフィルタ数
が減少したごとから全体としてフィルタの設計が容易に
なるものである。
According to this invention, by configuring the low frequency side using Mel scale and the high frequency side using log scale, the number of filters on the low frequency side can be reduced, and as a result, the number of channels in the filter bank can be reduced. This also makes it easier to design the filter as a whole since the number of low-pass filters is reduced.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は音声認識装置の一例のブロック図、第2図〜第
4図はその説明のための図である。 (2)は音響分析部で、(221z )〜(22116
)はバンドパスフィルタバンクの各フィルタである。 :、1.il八へ1 〜−−−−−−−」 〇− 6〕!
FIG. 1 is a block diagram of an example of a speech recognition device, and FIGS. 2 to 4 are diagrams for explaining the same. (2) is the acoustic analysis section, (221z) to (22116
) are each filter in the bandpass filter bank. :, 1. Il 8 to 1 ~---------" 〇- 6〕!

Claims (1)

【特許請求の範囲】 入力音声をバンドパスフィルタバンクを有する音響分析
部に供給して音響パラメータを得、この入力の音響パラ
メータと登録されている認識対象語の標準パターンの音
響パラメータとの差を算出し、その算出出力により音声
認識をなす装置において、 上記バンドパスフィルタバンクとして低域側はメル・ス
ケール等間隔で、高域側はログ・スケール等間隔で周波
数分割して構成したものを用いてなる音声認識装置。
[Claims] Input speech is supplied to an acoustic analysis unit having a band-pass filter bank to obtain acoustic parameters, and the difference between the input acoustic parameters and the acoustic parameters of registered standard patterns of recognition target words is calculated. In a device that performs speech recognition based on the calculated output, the above-mentioned band-pass filter bank is configured by dividing the frequency into equal intervals on the mel scale for the low frequency side and equal intervals on the log scale for the high frequency side. A voice recognition device.
JP11826685A 1985-05-31 1985-05-31 Voice recognizer Expired - Fee Related JPH0632025B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11826685A JPH0632025B2 (en) 1985-05-31 1985-05-31 Voice recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11826685A JPH0632025B2 (en) 1985-05-31 1985-05-31 Voice recognizer

Publications (2)

Publication Number Publication Date
JPS61275899A true JPS61275899A (en) 1986-12-05
JPH0632025B2 JPH0632025B2 (en) 1994-04-27

Family

ID=14732378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11826685A Expired - Fee Related JPH0632025B2 (en) 1985-05-31 1985-05-31 Voice recognizer

Country Status (1)

Country Link
JP (1) JPH0632025B2 (en)

Also Published As

Publication number Publication date
JPH0632025B2 (en) 1994-04-27

Similar Documents

Publication Publication Date Title
RU2731372C2 (en) Method and system for decomposing an acoustic signal into sound objects, as well as a sound object and use thereof
JP2004531767A (en) Utterance feature extraction system
JPH0431898A (en) Voice/noise separating device
JPS61275899A (en) Voice recognition equipment
Bruce et al. Robust formant tracking in noise
JP3916834B2 (en) Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
JP3707135B2 (en) Karaoke scoring device
Okuno et al. Understanding three simultaneous speeches
Tessier et al. A CASA front-end using the localisation cue for segregation and then cocktail-party speech recognition
Kajita et al. A binaural speech processing method using subband-cross correlation analysis for noise robust recognition
JP2658104B2 (en) Voice recognition device
JP3841705B2 (en) Occupancy degree extraction device and fundamental frequency extraction device, method thereof, program thereof, and recording medium recording the program
JPS61208097A (en) Voice recognition equipment
Kiukaanniemi et al. Long-term speech spectra: A computerized method of measurement and a comparative study of Finnish and English data
Sharma et al. Separating the source information in repetition-dependent music and enhancing it by real-time digital audio processing
JPH1097288A (en) Background noise removing device and speech recognition system
JPS61281300A (en) Voice recognition equipment
Kajita et al. Subband-crosscorrelation analysis for robust speech recognition
Kadhim et al. Statistical analysis for the pitch of mask-wearing Arabic speech
CN113936689A (en) Multi-type noise data family spectrum based on acoustic features
JPS6148898A (en) Voice/voiceless discriminator for voice
JPS61176997A (en) Voice recognition equipment
JPS61267098A (en) Voice recognition equipment
JPS61174600A (en) Voice recognition equipment

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees