JPS61273599A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS61273599A
JPS61273599A JP11402385A JP11402385A JPS61273599A JP S61273599 A JPS61273599 A JP S61273599A JP 11402385 A JP11402385 A JP 11402385A JP 11402385 A JP11402385 A JP 11402385A JP S61273599 A JPS61273599 A JP S61273599A
Authority
JP
Japan
Prior art keywords
signal
spectrum
frequency
time
envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11402385A
Other languages
Japanese (ja)
Inventor
淡中 泰明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11402385A priority Critical patent/JPS61273599A/en
Publication of JPS61273599A publication Critical patent/JPS61273599A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、音声信号を構成する単音節を対象とし、単音
節を構成する子音と母音のうち、母音をより精度良く認
識するために、信号処理回路を構成した音声認識装置に
関する0 〔発明の背景〕 従来、−語一語を区切って発声した音声信号に対して、
それぞれ個別に単音節が何であるかを認識する、いわゆ
る単音節認識法においては一語一語の音声信号からエン
ベロープ信号を形成し、エンベロープ信号の立上り領域
を子音情報を得る領域とし、エンベロープの最大振幅値
を有する時点から以後を母音情報を得る領域として、そ
れぞれの領域における原音声信号のスペクトル形状、あ
るいはスペクトル形状の変化を求める方法が行なわれて
いる。そして、あらかじめ設定した標準の特性値あるい
はパターンと類似度を計算し、最も近い単音節を選択し
てこれを入力音声の単音節と同定している。
[Detailed Description of the Invention] [Field of Application of the Invention] The present invention targets monosyllables constituting a speech signal. 0 Regarding a speech recognition device configured with a processing circuit [Background of the invention] Conventionally, for a speech signal that is uttered by separating each - word,
In the so-called monosyllabic recognition method, which recognizes each monosyllable individually, an envelope signal is formed from the speech signal of each word, and the rising region of the envelope signal is used as the region from which consonant information is obtained, and the maximum of the envelope is A method has been used to determine the spectral shape or change in the spectral shape of the original speech signal in each region from the point in time when the amplitude value is present to the region from which vowel information is obtained. Then, the degree of similarity with standard characteristic values or patterns set in advance is calculated, the closest monosyllable is selected, and this is identified as the monosyllable of the input speech.

日本語の母音には「あいうえお」の5種類がある。子音
を伴わない母音そのものを発声した場合には、母音ごと
にスペクトル形状は互に大きく異なるため、スペクトル
形状をもと化した母音の認識は容易tこ行なわれる。し
かしなカラ、子音を伴う単音節、特に濁音「ざじずぜぞ
」等においては、母音領域のスペクトル形状が母音その
ものの形状と比較して、同じ母音であるにもかかわらず
著しく変形する。このことが、単音節全体の母音認識を
悪化させる一つの要因になっている。
There are five types of vowels in Japanese: ``aiueo.'' When a vowel itself without a consonant is uttered, the spectral shape of each vowel differs greatly, so it is easy to recognize the vowel based on the spectral shape. However, in monosyllables with consonants, especially in voiced sounds such as ``zajizuzezo'', the spectral shape of the vowel region is significantly deformed compared to the shape of the vowel itself, even though they are the same vowel. This is one of the factors that worsens the vowel recognition of the entire monosyllable.

上記のような母音領域スペクトルの変形に対して、同じ
母音についてはなるべく同じ情報を得るために、スペク
トルに対する様々な計算処理法が従来から行なわれてい
る。
In order to obtain as much of the same information as possible for the same vowel regarding the above-mentioned transformation of the vowel region spectrum, various calculation processing methods have been conventionally applied to the spectrum.

その代表的な方法の一つは、電子通信学会技術研究報告
、EA−5i〜6B、 P57〜64 (1985)に
おいて、金、牧野、城戸による[スペクトルのローカル
ピークを用いた日本語破裂子音の認隨の文献に記載され
ているように、スペクトルに対して最小二乗法によって
求められた直線を引き、この直線を閾値として、この値
を越えるスペクトルの局所的なピークの位置を求める方
法が提案されている。この方法は第2図に示し九ように
、スペクトル1におけるピーク位置の検出が、直線2を
用いて容易に行なわれ、スペクトル全体の傾斜が様々に
変化する場合においても、ピーク位置、すなわち擬似ホ
ルマントの出現する周波数情報を容易に得ることが出来
るという利点を有する。
One of the representative methods is the method by Kim, Makino, and Kido in IEICE Technical Report, EA-5i-6B, P57-64 (1985). As described in the literature, a method has been proposed in which a straight line determined by the least squares method is drawn on the spectrum, this straight line is used as a threshold, and the position of the local peak of the spectrum exceeding this value is determined. has been done. As shown in Figure 2, this method allows the detection of peak positions in spectrum 1 to be easily performed using straight line 2, and even when the slope of the entire spectrum changes variously, the peak position This has the advantage that it is possible to easily obtain frequency information where .

また他の方法として、電子技術総合研究所報告、/11
1841.P1〜122 (1984)における日中に
よる文献「音素的単位による音声の自動認識に関する基
礎的研究」に記載されているように、スペクトル形状か
ら所定の周波数幅を有するピーク個所を求め、このピー
ク個所を強調して擬似ホルマント周波数を求める方法が
提案されている。ピーク個所の強調が適度に大きくなれ
ば、上記と同様にスペクトル全体の傾斜が様々に変化す
る場合においても擬似ホルマントの出現する周波数情報
を容易に得るという利点を有する。
Another method is the Electronic Technology Research Institute report, /11
1841. As described in the document "Basic research on automatic recognition of speech based on phonemic units" by Nichichi in P1-122 (1984), a peak location with a predetermined frequency width is determined from the spectral shape, and this peak location is A method has been proposed that emphasizes the pseudo formant frequency. If the emphasis at the peak point is appropriately increased, there is an advantage that frequency information at which pseudo formants appear can be easily obtained even when the slope of the entire spectrum varies in the same way as described above.

しかしながら、上記の方法はいずれも、スペクトルの振
幅データをもとにし九複雑な計算を必要とするため、認
識の計算時間を短縮するという観点からすると、無視出
来ない計算時間となる。
However, since all of the above methods require complex calculations based on spectral amplitude data, the calculation time is not negligible from the viewpoint of shortening the recognition calculation time.

また、いわゆる50音の範囲内では、同じ母音間のスペ
クトル形状の変化は小さく、スペクトル形状そのものも
単音節を同定する有用な情報となっている。したがって
、前記のようなスペクトル形状を無くしてしまう方法は
、かえって有用な情報を失なう結果となるという問題点
を生じる。
Further, within the range of so-called 50 sounds, the change in spectral shape between vowels is small, and the spectral shape itself is useful information for identifying monosyllables. Therefore, the method of eliminating the spectral shape as described above causes a problem in that useful information is lost.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、上記した従来の問題点を無くすために
、音声信号を周波数分析する分析回路の後に、信号処理
回路を設けることによって案時間で母音に関する情報を
得ることを可能とした音声認識装置を提供するにある。
In order to eliminate the above-mentioned conventional problems, an object of the present invention is to provide a speech recognition system that makes it possible to obtain information about vowels in a timely manner by providing a signal processing circuit after an analysis circuit that analyzes the frequency of a speech signal. We are in the process of providing equipment.

〔発明の概要〕[Summary of the invention]

前記したように、母音スペクトル全体の傾斜が様々に変
化する状況に対処し、この傾斜を除くためにはスペクト
ル形状を一つの波形と見なし、この信号波形をハイパス
フィルタによって処理する0すなわち、音声信号をノ(
ンドノくスフイk1群によって分析した後、個々のフィ
ルタ出力信号を所定の時定数を有すル:c 7 ヘo 
−)形成回路によってエンベロープ信号とし、このエン
ベロープ信号をマルチプレクサにより所定の時間間隔で
掃査すると、低域周波数から高域周波数に到る時系列信
号が得られる。この信号の時間軸を周波数軸に置き換え
た場合に周波数特性になる。この時系列信号をハイパス
フィルタによって処理すれば、時系列信号全体にわたる
大きな変化は除去されて局所的な変化のみ得ることが出
来る。
As mentioned above, in order to deal with the situation where the slope of the entire vowel spectrum changes in various ways, and to remove this slope, the spectrum shape is regarded as one waveform, and this signal waveform is processed by a high-pass filter.ノ(
After being analyzed by the NONDONOKUSUFIK1 group, the individual filter output signals are converted to a filter with a predetermined time constant: c 7
-) A forming circuit generates an envelope signal, and a multiplexer sweeps the envelope signal at predetermined time intervals to obtain a time-series signal ranging from a low frequency to a high frequency. When the time axis of this signal is replaced with the frequency axis, it becomes a frequency characteristic. If this time-series signal is processed by a high-pass filter, large changes over the entire time-series signal can be removed and only local changes can be obtained.

第5図はハイパスフィルタによる信号処理例を示したも
のである。第3図(2)は円と発声された信号のうち、
母音領域においてバンドパスフィルタとそれに続く検波
回路とマルチプレクサにより得られた時系列信号である
。この信号を所定のカットオフ周波数と減衰特性を有す
るハイパスフィルタを通過させた信号が第3図の)であ
る。これにより、前記した周波数域全体にわ念る傾斜は
除去されることになる。
FIG. 5 shows an example of signal processing using a high-pass filter. Figure 3 (2) shows the circle and the vocalized signal.
This is a time-series signal obtained in the vowel region by a bandpass filter followed by a detection circuit and a multiplexer. The signal obtained by passing this signal through a high-pass filter having a predetermined cutoff frequency and attenuation characteristic is the signal shown in FIG. This eliminates the above-mentioned slope across the entire frequency range.

このハイパスフィルタ通過信号を基にして単音節の認識
計算を実行するためには、直前に振幅を正規する必要が
ある0これは、音声の発声強度が発声ごとに変化するた
め、この変化を除去した後で認識計算を実行する必要が
ある。この正規化され九段階で、「あ」と発声されたデ
ータと比較すると、「ざ」の母音領域データから得られ
る形状と良く一致するのである。
In order to perform monosyllable recognition calculations based on this high-pass filter passed signal, it is necessary to normalize the amplitude immediately beforehand. This is because the phonation intensity of the voice changes with each utterance, so this change is removed. After that, it is necessary to perform recognition calculations. Comparing this normalized nine-level data with the data uttered as "a", the shape matches well with the shape obtained from the vowel region data of "za".

〔発明の実施例〕[Embodiments of the invention]

以下において、本発明の装置全体にわたる構成と動作を
第1図を用いて説明する。発声された音声信号は、図の
マイクロホン3.マイクアンプ4を介してエンベロープ
形成回路5とバンドパスフィルタ群10へ入力される。
The overall structure and operation of the apparatus of the present invention will be explained below with reference to FIG. The uttered audio signal is sent to microphone 3 in the figure. The signal is input to an envelope forming circuit 5 and a group of bandpass filters 10 via a microphone amplifier 4.

エンベロープ形成回路5において形成された音声エンベ
ロープの振幅が所定の基準値以上になると、その情報は
トリガーパルスによってコントローラ9へ伝送され、コ
ントローラの動作を開始する。
When the amplitude of the audio envelope formed in the envelope forming circuit 5 exceeds a predetermined reference value, that information is transmitted to the controller 9 by a trigger pulse, and the controller starts operating.

それと同時に、音声エンベロープ信号はA/D変換器6
を介してディジタル信号としてメモリ7に記録される。
At the same time, the audio envelope signal is sent to the A/D converter 6.
is recorded in the memory 7 as a digital signal.

上記のエンベロープ形成回路5における時定数は15m
秒であり、A/D変換器6におけるサンプリング濁期は
同じく15m秒に設定されている。
The time constant in the above envelope forming circuit 5 is 15 m.
The sampling period in the A/D converter 6 is also set to 15 msec.

単音節の立上り時間は、通常aom秒程度であるため、
ここでは立上り領域を大体5分割してそれぞれの時間間
隔における平均スペクトルを計測している。熱論、稀に
は15m秒以内に立上る場合や、150m秒要する場合
もある。し九がって、15m秒以内に発生するスペクト
ル変動を平滑化するために、15m秒の時定数を選んで
いる0 メモリ7は約8秒間の音声エンベロープ信号を記憶出来
るバックアメモリである。このメモリ7が最初のα36
秒間の信号で満たされると、エンベロープパラメータ計
算部8の計算が開始される。Q、36秒間には15m秒
間に得られる平均スペクトルが24個得られ、これ番こ
より単音節を1個ないし2個分を細かく分割して時系列
のスペクトルを得ることになる。
Since the rise time of a monosyllable is usually about aom seconds,
Here, the rising region is divided into approximately five parts, and the average spectrum at each time interval is measured. In rare cases, it may rise within 15 msec, or it may take 150 msec. Therefore, a time constant of 15 msec is chosen in order to smooth out spectral fluctuations occurring within 15 msec. The memory 7 is a backup memory capable of storing approximately 8 seconds of audio envelope signals. This memory 7 is the first α36
Once the signal is filled with a second signal, the envelope parameter calculation section 8 starts calculation. Q. In 36 seconds, 24 average spectra obtained in 15 m seconds are obtained, and from this number, one or two monosyllables are finely divided to obtain a time series spectrum.

上記0.56秒間に存在する音節のうち、最初の単音節
が取出されてエンベロープ振幅の最大値を示す時間的位
置、ならびに最大振幅値を1.0として求め九、エンベ
ロープの立上り部におけるO、Sの振幅を示す時間的位
置を求め、これ等の値をコントローラ9を介してスペク
トル計算部16へ伝送する。
Among the syllables existing in the above 0.56 seconds, the temporal position where the first single syllable is extracted and shows the maximum value of the envelope amplitude, and the maximum amplitude value is determined as 1.0.9, O at the rising edge of the envelope, The temporal position indicating the amplitude of S is determined, and these values are transmitted to the spectrum calculation section 16 via the controller 9.

一方、信号分析部20において、バンドパスフィルタ群
10へ伝送された音声信号の個々の出力信号は、エンベ
ロープ形成回路11によってエンベロープ信号となる。
On the other hand, in the signal analysis section 20, each output signal of the audio signal transmitted to the bandpass filter group 10 is converted into an envelope signal by the envelope forming circuit 11.

上記のバンドパスフィルタ群10の内容は、1個のバン
ドパスフィルタが173オクターブの周波数帯域を持ち
、200…2から5K11zにわたり、15チヤンネル
のフィルタ群により成り立っている。また、エンベロー
プ形成回路11の時定数はエンベロープ形成回路5の時
定数と同一であり、エンベロープ形成回路5で計算され
たエンベロープパラメータに対応するようになっている
The contents of the band-pass filter group 10 described above are such that one band-pass filter has a frequency band of 173 octaves, ranging from 200...2 to 5K11z, and consists of a filter group of 15 channels. Further, the time constant of the envelope forming circuit 11 is the same as the time constant of the envelope forming circuit 5, and corresponds to the envelope parameter calculated by the envelope forming circuit 5.

エンベロープ形成回路11の出力信号は、マルチプレク
サ12によって、15m秒のフレーム間隔テ掃査すれる
0マルチプレクサの出力信号は、ハイパスフィルタ13
によって処理され、A/D変換器14を介してメモリ1
5に記録される。このハイパスフィルタ13の機能につ
いては後で詳しく説明する0メモリ15への記録は、メ
モリ7におけると同様に、あらかじめ設定した基準振幅
値以上の信号が入力した場合に動作が開始される。メモ
リ15はメモリ7におけると同様に、約8秒間の音声分
析データを記憶出来るバッファメモリになっている。メ
モリ15にα36秒間のデータが記録され、かつエンベ
ロープパラメータ計算部8の計算が終了している場合に
は、コントローラ9の指示に従ってスペクトル計算部1
6における計算を開始する。エンベロープバ’y)−夕
の計算が終了していない場合には終了を待ち、終了した
後にコントローラ9の指示に従って0.36秒間のエン
ベクープデータをスペクトル計算部16において計算す
る。
The output signal of the envelope forming circuit 11 is scanned by a multiplexer 12 at a frame interval of 15 msec.
is processed by the memory 1 through the A/D converter 14.
Recorded in 5. The function of this high-pass filter 13 will be explained in detail later.Recording in the memory 15 is started when a signal having an amplitude equal to or higher than a preset reference amplitude value is input, similarly to the memory 7. The memory 15, like the memory 7, is a buffer memory capable of storing approximately 8 seconds of voice analysis data. When the data for α36 seconds is recorded in the memory 15 and the calculation by the envelope parameter calculation unit 8 has been completed, the spectrum calculation unit 1
Start the calculation in step 6. If the envelope calculation has not yet been completed, wait for it to be completed, and after the calculation is completed, the spectrum calculation unit 16 calculates envelope data for 0.36 seconds according to instructions from the controller 9.

スペクトル計算部における計算は、エンベロープパラメ
ータ計算W58において求めたエンベロープ最大値から
30m秒間のスペクトルを求めこのスペクトルと前記し
たエンベロープ振幅値がI15におけるスペクトルとの
差分を求め、差分スペクトルを得るものである。ここで
30m秒間のスペクトルはマルチプレクサ12において
15m秒間の掃査によって得られる2系統のデータを平
均し工水められる。次に、エンベロープ振幅値が0.5
となる単音節の終了域におけるスペクトルを求める。結
局、次の3種類のスペクトルがパターンメそす17へ記
録されることになる。
The calculation in the spectrum calculation section is to obtain a spectrum for 30 m seconds from the envelope maximum value obtained in envelope parameter calculation W58, and to obtain a difference spectrum by calculating the difference between this spectrum and the spectrum at the envelope amplitude value I15 described above. Here, the spectrum for 30 m seconds is obtained by averaging two lines of data obtained by scanning for 15 m seconds in the multiplexer 12. Next, the envelope amplitude value is 0.5
Find the spectrum in the final region of a single syllable. In the end, the following three types of spectra will be recorded in the pattern meso 17.

(1)  音声エンベロープ最大振幅値におけるスペク
トル。
(1) Spectrum at the maximum amplitude value of the audio envelope.

(2)差分スペクトル (5)終了域スペクトル ここで、(1)は母音領域のスペクトルであり、(2)
は音声信号の立上り領域におけるスペクトルの変化を表
わすもので、これから子音の情報が得られる。(3)は
終了域の母音が(1)と同じか、異なるかを判断するた
めのもので、類似度計算により、同じであれば母音1個
の単音節であり、異なれば母音が2個含まれる「きや」
 「きゆ」などの単音節と判断出来る。ここで、計算さ
れた3種のスペクトルに対して、それぞれ振幅を正規化
しておく必要がある。方法は、個々の振幅値の二乗和、
すなわち全周波数域にわたるパワーが一定値になるよう
に個々の振幅値を決定する。その結果次のパターンマツ
チング部18における計算が精度良く行なわれることに
なる。
(2) Difference spectrum (5) Ending region spectrum Here, (1) is the spectrum of the vowel region, and (2)
represents the change in the spectrum in the rising region of the audio signal, and consonant information can be obtained from this. (3) is used to determine whether the vowel in the final region is the same as (1) or different. By calculating the similarity, if the vowel is the same, it is a monosyllable with one vowel, and if it is different, it is a monosyllable with one vowel. "Kiya" included
It can be determined that it is a monosyllable such as "kiyu". Here, it is necessary to normalize the amplitudes of the three types of spectra calculated. The method is the sum of squares of the individual amplitude values,
That is, individual amplitude values are determined so that the power over the entire frequency range is a constant value. As a result, the next calculation in the pattern matching section 18 will be performed with high accuracy.

スペクトル計算部lこおける計算によって、1個ずつ計
算が終了するごとにパターンメモリ17に記録する。記
録が終了すると、パターンマツチング部18における計
算が開始される。
Each time the calculation is completed in the spectrum calculation unit 1, it is recorded in the pattern memory 17. When the recording is completed, calculation in the pattern matching section 18 is started.

パターンマツチング部においては、あらかじめ記憶させ
た標準パターンメモリ25のパターンと類似度を計算し
、最初に入力単音節の母音が何であるかを同定し、次い
で子音を同定し、最後に母音が1個存在するか、あるい
は2個存在するかを判断し、ご”れ等の結果を総合して
入力単音節が何であるかを同定する。得られ六結果は出
力バッファ19ヲ介して出力端子21より出力する。
The pattern matching section calculates the degree of similarity with the pattern in the standard pattern memory 25 stored in advance, first identifies the vowel of the input monosyllable, then identifies the consonant, and finally identifies the vowel in the input monosyllable. It determines whether there are one or two syllables, and identifies the input monosyllable by combining the results. The six results are sent to the output terminal 21 via the output buffer 19. Output from

次に、第4.5図を用いてハイパスフィルタ1Sの機能
について説明する。第4図の22はマルチプレクサ22
の出力信号を表わしている。マルチプレクサの掃査時間
は15m秒であるから、バンドパスフィルタ出力信号は
1m秒ごとに低域周波数から高域周波数にかけて遂次出
力することになる。15m秒は66.7Hzに和尚する
。そこでハイパスフィルタのカットオフ周波数を250
 Hzとし、12dB10atの減衰特性を持つように
すれば、66.7111zでは大体22dB減衰するこ
とになる。
Next, the function of the high-pass filter 1S will be explained using FIG. 4.5. 22 in FIG. 4 is a multiplexer 22
represents the output signal of Since the scanning time of the multiplexer is 15 msec, the bandpass filter output signal is sequentially output from the low frequency to the high frequency every 1 msec. 15 msec corresponds to 66.7Hz. Therefore, the cutoff frequency of the high pass filter is set to 250.
Hz and have an attenuation characteristic of 12 dB10at, the attenuation will be approximately 22 dB at 66.7111z.

すなわち、周波数域全体にわたる大きな変動は20dB
以上減衰させることが可能となる。
That is, the large variation across the frequency range is 20 dB.
It becomes possible to attenuate the amount by more than 100%.

第5図は、12dB10ctのハイパスフィルタを示し
たものである。図において、23はバッファアンプを構
成するオペアンプであり、24はハイパスフィルタを構
成するオペアンプを示している0 上記の実施例においては、音声信号の周波数分析ヲハン
ドパスフィルタ群により行なっていルカ、かならずしも
これに限定されるものではなく、たとえば中心周波数を
可変としたバンドパスフィルタにより中心周波数を掃査
する方法・離散的フーリエ変換によるフーリエスペクト
ル。
FIG. 5 shows a 12 dB 10 ct high pass filter. In the figure, 23 is an operational amplifier that constitutes a buffer amplifier, and 24 is an operational amplifier that constitutes a high-pass filter. Examples include, but are not limited to, a method of sweeping the center frequency using a bandpass filter with a variable center frequency, and a Fourier spectrum using discrete Fourier transform.

線形予測法によるスペクトル包絡などにおいても、スペ
クトル値を時系列データに変換すれば同様に取扱うこと
が出来る。
Spectral envelopes based on the linear prediction method can be handled in the same way by converting the spectral values into time series data.

マ念、本実施例ではアナログフィルタが用いられ九が、
マルチプレクサ12の出力信号をその11一旦メモリ1
5に記憶させ、その後ディジタルフィルタによって低域
周波数成分を除去したとしても、全く同様の効果を持つ
ものである。
Please note that in this example, an analog filter is used.
The output signal of multiplexer 12 is transferred to memory 1
5 and then remove the low frequency components using a digital filter, the same effect will be obtained.

さらに、フィルタを用いずにスペクトル計算部16にお
いて、フィルタリングに相当する計算を行なうことも可
能である。しかしこの場合は、計算時間の短縮には貢献
せず、スペクトル形状を保持してスペクトル全体の形状
を計画するというパターンマツチングによる認識計算の
利点を生かすことが出来るのみである。
Furthermore, it is also possible to perform calculations equivalent to filtering in the spectrum calculation section 16 without using a filter. However, in this case, it does not contribute to shortening the calculation time, and it is only possible to take advantage of the recognition calculation based on pattern matching, which maintains the spectral shape and plans the shape of the entire spectrum.

〔発明の効果〕 従来、子音の種類によって単音節の母音領域におけるス
ペクトルが大きく変化する現象に対して、比較的複雑な
計算によって母音の特ffiヲ抽出するため、無祈出来
ない計算時間を必要としたが、本発明により、簡単な回
路構成によって実時間で母音の特徴を抽出出来ることに
なった0 まな、従来はスペクトル形状を捨て去り、特徴のみ抽出
していたことに対して、本発明の方法によれば、母音の
スペクトル形状を保持出来るため、全体のスペクトル形
状を評価出来るというパターンマツチング法の利点を生
かした認識計算を可能とすることが出来た。
[Effects of the Invention] Conventionally, in response to the phenomenon that the spectrum in the vowel region of a single syllable changes greatly depending on the type of consonant, the characteristics of the vowel are extracted through relatively complicated calculations, which requires an unreasonable amount of calculation time. However, with the present invention, it has become possible to extract vowel features in real time with a simple circuit configuration.In contrast, in the past, the spectral shape was discarded and only the features were extracted, but the present invention According to this method, since the spectral shape of the vowel can be maintained, recognition calculations that take advantage of the pattern matching method's ability to evaluate the overall spectral shape were made possible.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の回路ブロック図、第2図は母音スペク
トルにおける従来の特徴抽出法を示した波形図、第5図
は本発明の機能を示す波形図、第4図は本発明の装置に
おけるマルチプレクサ出力信号の波形図、第5図は本発
明の装置におけるハイパスフィルタ回路図である。
Fig. 1 is a circuit block diagram of the present invention, Fig. 2 is a waveform diagram showing a conventional feature extraction method in a vowel spectrum, Fig. 5 is a waveform diagram showing the functions of the present invention, and Fig. 4 is a device of the present invention. FIG. 5 is a waveform diagram of a multiplexer output signal in FIG. 5, and FIG. 5 is a high-pass filter circuit diagram in the apparatus of the present invention.

Claims (1)

【特許請求の範囲】[Claims] 入力音声を周波数分析し、子音から母音領域にいたる複
数個のスペクトルパターンを生成し、あらかじめ記憶さ
せた標準スペクトルパターンとの類似度を計算すること
により、上記入力音声を認識するようにした音声認識装
置において、上記音声信号を周波数分析する手段と、該
周波数分析された振幅あるいはパワーのスペクトル値を
時系列のデータに変換する手段と、該時系列データの低
域周波数成分を除去するハイパスフィルタと、該時系列
データあるいはハイパスフィルタ通過信号を記憶する手
段を有し、スペクトルの特徴を安定に抽出することを特
徴とする音声認識装置。
A speech recognition system that recognizes the input speech by frequency-analyzing the input speech, generating multiple spectral patterns ranging from consonants to vowels, and calculating the degree of similarity with pre-stored standard spectral patterns. The apparatus includes means for frequency-analyzing the audio signal, means for converting the frequency-analyzed amplitude or power spectrum value into time-series data, and a high-pass filter for removing low frequency components of the time-series data. , a speech recognition device characterized in that it has means for storing the time-series data or the high-pass filter passed signal, and stably extracts spectral features.
JP11402385A 1985-05-29 1985-05-29 Voice recognition equipment Pending JPS61273599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11402385A JPS61273599A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11402385A JPS61273599A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS61273599A true JPS61273599A (en) 1986-12-03

Family

ID=14627104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11402385A Pending JPS61273599A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS61273599A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03145167A (en) * 1989-10-31 1991-06-20 Nec Corp Voice recognition system
CN104186588A (en) * 2005-04-07 2014-12-10 普林格斯有限公司 Image registration on edible substrates

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03145167A (en) * 1989-10-31 1991-06-20 Nec Corp Voice recognition system
CN104186588A (en) * 2005-04-07 2014-12-10 普林格斯有限公司 Image registration on edible substrates

Similar Documents

Publication Publication Date Title
US4829574A (en) Signal processing
JPS6366600A (en) Method and apparatus for obtaining normalized signal for subsequent processing by preprocessing of speaker,s voice
CN112151066A (en) Voice feature recognition-based language conflict monitoring method, medium and equipment
JP3354252B2 (en) Voice recognition device
JPH0237600B2 (en)
JPS61273599A (en) Voice recognition equipment
JP2968976B2 (en) Voice recognition device
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
Kiukaanniemi et al. Long-term speech spectra: A computerized method of measurement and a comparative study of Finnish and English data
JPS61180297A (en) Speaker collator
JP2658426B2 (en) Voice recognition method
JPH0731506B2 (en) Speech recognition method
JPS58224396A (en) Voice recognition equipment
JPS61273600A (en) Voice recognition equipment
JP2891259B2 (en) Voice section detection device
JPH0558556B2 (en)
Schauer Very low frequency characteristics of speech
JP2000250599A (en) Acoustic feature extracting method and device
JPS59114600A (en) Speaker identification system
JPH0469800B2 (en)
JPH03120434A (en) Voice recognizing device
JPH07104675B2 (en) Speech recognition method
JPS61180300A (en) Voice recognition equipment
JPS62254198A (en) Specified speaker monosyllable voice recognition equipment