JPS61273600A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS61273600A
JPS61273600A JP60114026A JP11402685A JPS61273600A JP S61273600 A JPS61273600 A JP S61273600A JP 60114026 A JP60114026 A JP 60114026A JP 11402685 A JP11402685 A JP 11402685A JP S61273600 A JPS61273600 A JP S61273600A
Authority
JP
Japan
Prior art keywords
signal
frequency
spectrum
vowel
vowels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60114026A
Other languages
Japanese (ja)
Inventor
淡中 泰明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60114026A priority Critical patent/JPS61273600A/en
Publication of JPS61273600A publication Critical patent/JPS61273600A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は・音声信号を構成する単音節を対象とした、音
声g識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Application of the Invention] The present invention relates to a speech recognition device that targets monosyllables constituting a speech signal.

〔発明の背景〕[Background of the invention]

従来、−語一語を区切って発声した音声信号に対して、
それぞれ個別に単音節が何であるかを認識する、いわゆ
る単音節認識法においては、−語一語の音声信号からエ
ンベロープ信号を形成し、エンベロープ信号の立上り領
域を子音情報を得る領域とし、エンベロープの最大振幅
値を有する時点から以後を母音情報を得る領域として、
それぞれの領域における原音声信号のスペクトル形状、
あるいはスペクトル形状の変化を求める方法が行なわれ
ている。そして、あらかじめ設定した標準の特性値ある
いはパターンと類似度を計算し、最も近い単音節を選択
してこれを入力音声の単音節と同定している。
Conventionally, for audio signals that were uttered by dividing each -word,
In the so-called monosyllabic recognition method, which recognizes each monosyllable individually, an envelope signal is formed from the speech signal of each word, the rising region of the envelope signal is used as the region from which consonant information is obtained, and the envelope signal is The area from the time when the maximum amplitude value is obtained is defined as the area from which vowel information is obtained.
The spectral shape of the original audio signal in each region,
Alternatively, a method of determining changes in the shape of the spectrum has been used. Then, the degree of similarity with standard characteristic values or patterns set in advance is calculated, the closest monosyllable is selected, and this is identified as the monosyllable of the input speech.

日本語の母音は「あいうえお」の5種類である。子音を
伴わない母音そのものを発声した場合には、母音ごとの
スペクトル形状は相互に大きく異なるため、スペクトル
形状をもと圧した母音の認識は容易に行なわれる。しか
しながら、子音を伴う単音節、%に濁音「ざじずぜぞ」
等においては、母音領域のスペクトル形状が母音そのも
のの形状と比較して、同じ母音でおるKもかかわらず著
しく変形する。このことが、単音節全体の母音認識を悪
化させる一つの要因になっている。
There are five types of vowels in Japanese: ``aiueo.'' When a vowel itself is uttered without a consonant, the spectral shape of each vowel differs greatly, so it is easy to recognize the vowel based on the spectral shape. However, monosyllables with consonants, % with a voiced sound "zajizuzezo"
etc., the spectral shape of the vowel region is significantly deformed compared to the shape of the vowel itself, even though K is the same vowel. This is one of the factors that worsens the vowel recognition of the entire monosyllable.

上記のような母音領域スペクトルの変形に対して、同じ
母音についてはなるべく同じ情報を得るために、スペク
トルに対する様々な計算処理法が従来から行なわれてい
る。
In order to obtain as much of the same information as possible for the same vowel regarding the above-mentioned transformation of the vowel region spectrum, various calculation processing methods have been conventionally applied to the spectrum.

その代表的な方法の一つは、電子通信学会技術研究報告
、E A −61〜68. P 57〜64 (198
5)において、金、牧野、城戸による「スペクトルのロ
ーカルピークを用いた日本語破裂子音の認識」の文献に
記載されているように、スペクトルに対して最小二乗法
によって求められた直線を引き、この直線を閾値として
、この値を越えるスペクトルの局所的なピークの位置を
求める方法が提案されている。この方法によれば、スペ
クトル全体の傾斜が様々忙変化する場合においても、ピ
ークの位置、すなわち擬似ポルマントの出現する周波数
情報を容易に得ることが出来るという利点を有する。
One of the representative methods is described in Technical Research Report of Institute of Electronics and Communication Engineers, EA-61-68. P 57-64 (198
In 5), as described in the paper ``Recognition of Japanese plosive consonants using local peaks of the spectrum'' by Kin, Makino, and Kido, a straight line determined by the least squares method is drawn on the spectrum, A method has been proposed in which this straight line is used as a threshold and the position of a local peak in the spectrum exceeding this value is determined. This method has the advantage that even when the slope of the entire spectrum changes in various ways, it is possible to easily obtain the position of the peak, that is, the frequency information at which the pseudopolmant appears.

また他の方法として、電子技術総合研究所報告、+41
841.Pi〜122 (1984)Kおける国中によ
る文献[音素的単位による音声の自動認識に関する基礎
的研究」に記載されているように、スペクトル形状から
所定の周波数幅を有するピーク個所を求め、このピーク
個所を強調して擬似ホルマント周波数を求める方法が提
案されている。ピーク個所の強調が適度に大きくなれば
、上記と同様にスペクトル全体の傾斜が様々に変化する
場合においても、擬似ホルマントの出現する周波数情報
を容易に得るという利点を有する。
Another method is the Electronic Technology Research Institute report, +41
841. Pi~122 (1984) As described in the document by Kuninaka [Basic research on automatic recognition of speech based on phonemic units] in K., a peak location with a predetermined frequency width is determined from the spectrum shape, A method has been proposed in which the pseudo formant frequency is determined by emphasizing the part. If the emphasis at the peak location is appropriately increased, there is an advantage that frequency information at which pseudo formants appear can be easily obtained even when the slope of the entire spectrum varies in the same way as described above.

しかしながら、上記の方法はいずれも、スペクトルの振
幅データをもとにした複雑な計算を必要とするため、認
識の計算時間を短縮するという観点からすると、無視出
来ない計算時間トなる。
However, all of the above methods require complex calculations based on spectral amplitude data, and therefore, from the viewpoint of shortening the recognition calculation time, the calculation time is considerable.

また、いわゆる9音の範囲内では、同じ母音間における
スペクトル形状の変化は小石<、スペクトル形状そのも
のも単音節を同定する有用な情報となっている。すなわ
ち、パターンマ。
Moreover, within the range of so-called nine sounds, changes in the spectral shape between the same vowels are small, and the spectral shape itself is useful information for identifying monosyllables. Namely, pattern ma.

チングによる認識計算が有効に動作するのである。した
がって、前記のようなスペクトル形状を無くしてしまう
方法は、かえりて有用な情報を失う結果になるという問
題点を生じる。人は言葉を発声するごとに同じ言葉であ
っても発声の条件は異なり、観測されるスペクトルには
、言葉の特徴が明確に現われている場合や、不明確な場
合があり、さらに特徴が明確に出現する周波数域もその
都度変化しているのが実状である。したがって、精度の
良い認識計算を行なうためには、実状に促したきめ細か
な対応が必要である。
The recognition calculation based on checking works effectively. Therefore, the method of eliminating the spectral shape as described above causes a problem in that useful information is lost. Every time a person utters a word, the conditions under which it is uttered differ even if it is the same word, and the observed spectrum may show the characteristics of the word clearly, may be unclear, and may have clearer characteristics. The reality is that the frequency range that appears in the spectrum also changes from time to time. Therefore, in order to perform accurate recognition calculations, it is necessary to take detailed measures based on the actual situation.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、上記した従来の問題点を無くする丸め
に、音声信号を周波数分析する分析回路の後に信号処理
回路を設けることによシ、複数個の母音に関する情報を
得て、多角的な認識計算を可能とした音声認識装置を提
供するにある。
An object of the present invention is to eliminate the above-mentioned conventional problems by providing a signal processing circuit after an analysis circuit that analyzes the frequency of a speech signal, thereby obtaining information regarding a plurality of vowels and providing multifaceted information. An object of the present invention is to provide a speech recognition device that enables accurate recognition calculations.

〔発明の概要〕[Summary of the invention]

本発明の認識装置においては、まず音声信号をバンドパ
スフィルタによシ分析し、出力信号をエンベロープ形成
回路によりエンベロープ信号とする。バンドパスフィル
タの中心周波数は所定の時間内に低域から高域周波数に
わたシ掃査され、周波数特性を表わす信号を形成する。
In the recognition device of the present invention, a voice signal is first analyzed by a bandpass filter, and the output signal is converted into an envelope signal by an envelope forming circuit. The center frequency of the bandpass filter is swept from low to high frequencies within a predetermined period of time to form a signal representative of the frequency characteristics.

この信号の低域周波数成分を除去するためにハイパスフ
ィルタを設け、このフィルタ通過信号が認識計算を行な
うための入力信号スペクトルとする。
A high-pass filter is provided to remove the low frequency components of this signal, and the signal passed through this filter is used as the input signal spectrum for performing recognition calculations.

第2図は単音節の母音領域におけるスペクトルの一例で
ある。ここで、0etBはスペクトルの平均レベルを表
わしている。スペクトルの周波数域を低域(25045
0ffz) 、中域(6301250Hz)。
FIG. 2 is an example of a spectrum in the vowel region of a monosyllable. Here, 0etB represents the average level of the spectrum. Change the frequency range of the spectrum to the low range (25045
0ffz), midrange (6301250Hz).

高中域(t25j 2.5&ffz)  、高域(2,
5k−5kHz )  の周波数域に分割し、相互の平
均レベルを比較すると、「あいうえお」の5母音をある
程度特徴付けることが可能である。ここで定義した低域
周波数は、第1の擬似ホルマントが出現する領域であシ
、中域は第2の擬似ホルマントが、高域においては高次
の擬似ホルマントが出現スル。
High mid range (t25j 2.5 & ffz), high range (2,
By dividing the frequency range into 5kHz-5kHz and comparing their average levels, it is possible to characterize the five vowels of ``Aiueo'' to some extent. The low frequency defined here is the region where the first pseudo formant appears, the middle frequency is the region where the second pseudo formant appears, and the high frequency is where the higher order pseudo formant appears.

母音の種類によってホルマント周波数が異なるため、上
記のような比較的簡単な見方によっても母音間の相違を
ある程度特徴付けることが出来る。
Since the formant frequency differs depending on the type of vowel, the differences between vowels can be characterized to some extent even from the above-mentioned relatively simple viewpoint.

単音節スペクトルにおいて、上記の周波数域内の平均振
幅値を求め、まず横軸を低域周波数における平均振幅と
し、縦軸を中域周波数における平均振幅としてグラフに
表わすと第3図を得る。
In the monosyllabic spectrum, the average amplitude value within the above frequency range is determined, and the horizontal axis is the average amplitude in the low frequency range, and the vertical axis is the average amplitude in the middle frequency range. When this is expressed in a graph, FIG. 3 is obtained.

図の2次元平面は8個の領域に分割されているが、これ
等の領域は70個の単音節(「きや」「きゅ」等の2母
音単音節は除いている)に対して多数のデータを上記2
次元平面上にプロットし、全てのデータが満足する領域
として設定されたものである。図によると、「あ」、「
お」。
The two-dimensional plane in the figure is divided into 8 regions, but these regions are divided into 70 monosyllables (excluding diphthong monosyllables such as "kiya" and "kyu"). A large amount of data in the above 2
It is plotted on a dimensional plane and set as an area that satisfies all data. According to the diagram, “A”, “
oh".

「え」のように−個の母音が存在する領域、複数個存在
する領域、全ての母音が存在する領域に分けられている
。−個の母音で表わされる領域に存在するサンプルは、
低域と中域の関係のみで明確な特徴を持つが、これに対
して全ての母音で表わされる領域に存在するサンプルは
、上記のような簡単な取扱いでは明確な特徴を示さ表い
サンプルと考えられる。
It is divided into an area where there are only one vowel, such as ``e'', an area where there are multiple vowels, and an area where all vowels are present. − Samples existing in the region represented by vowels are
Samples that exist in the region represented by all vowels have distinct characteristics only in the relationship between the low and mid frequencies, but in contrast, samples that exist in the region represented by all vowels do not show distinct characteristics when treated simply as described above. Conceivable.

次に、上記第3図における複数個の母音が存在する領域
に関して、中域(6301250Hz)  における平
均振幅と高中域(t25&−2,5&Hz)  Kおけ
る平均振幅を2次元平面上に表わすと、第4,5図のよ
うな二つのタイプのグラフが得られる。
Next, regarding the region in which multiple vowels exist in Fig. 3 above, if the average amplitude in the middle range (6301250 Hz) and the average amplitude in the high middle range (t25 & -2,5 & Hz) K are expressed on a two-dimensional plane, Two types of graphs as shown in Figures 4 and 5 are obtained.

この二つのタイプに所属する領域は次のようである。The areas belonging to these two types are as follows.

タイプ1;「あえお」、「あうお」、「あうえお」 タイプ2;「いうえ」、「アいうえお」タイプ1のグラ
フは、たとえば第3図における「あえお」の領域におい
て、この領域に存在するサンプルをもとにして得たグラ
フであるが、第4図のように「あ」、「あお」、「あえ
お」。
Type 1: "Aeo", "Aueo", "Aueo" Type 2: "Iue", "Aueo" The graph of Type 1 is, for example, in the area of "Aeo" in Figure 3. , is a graph obtained based on samples existing in this area, and as shown in Figure 4, there are "Ah", "Ao", and "Aeo".

「え」の4個の領域に分割される。ここで「え」を「う
えお」の領域と置きなおせば、タイプ1に属する領域に
共通したグラフとなる。タイプ2のグラフも同様にして
第5図のように得られる。
It is divided into four areas: ``e''. If we replace "e" with the "ueo" area, we will get a graph that is common to areas belonging to type 1. A type 2 graph is similarly obtained as shown in FIG.

結局第3図における複数個の母音が存在する領域は、2
個のタイプに集約されるため、8個の領域は5個に集約
されることになる。しかしながら、領域を細かく分割す
ると、入力単音節の性質を知る重要な手がかシを得るこ
とになる。
In the end, the area in which multiple vowels exist in Figure 3 is 2
Therefore, eight areas are aggregated into five types. However, by dividing the region into smaller parts, we gain an important clue as to the nature of the input monosyllable.

上記のように、比較的簡単な変数による2次元マツプを
用いることにより、入力単音節スペクトルに対して明確
な特徴を持つサンプルはただちKその母音が同定され、
持たないサンプルに対しては2〜4個の候補母音を設定
することが出来る。この候補サンプルに対しては、認識
計算としてパターンマツチングを行なう・上記の各領域
におけるサンプルスペクトルの特徴は比較的類似してい
るため、あらかじめ各領域ごとに基準p4ターンを作成
しておけば、比較的細かな特徴による相互比較が行なえ
るため、/櫂ターンマツチング計算の精度は向上する。
As mentioned above, by using a two-dimensional map with relatively simple variables, the vowels of samples that have clear characteristics with respect to the input monosyllable spectrum can be immediately identified.
Two to four candidate vowels can be set for samples that do not have such vowels. For this candidate sample, pattern matching is performed as a recognition calculation. Since the characteristics of the sample spectrum in each region above are relatively similar, if a reference p4 turn is created for each region in advance, Since mutual comparison can be performed using relatively detailed features, the accuracy of /paddle turn matching calculations is improved.

次に、上記のようなマツプを用いた計算を高速化するた
めに、本発明ではスペクトルの時系列データを得ると同
時に、並列に接続された4個のバンドパスフィルタを中
心とする信号処理回路によって、時系列データを信号処
理する。
Next, in order to speed up the calculation using the above-mentioned map, in the present invention, while obtaining time-series data of the spectrum, a signal processing circuit centered on four band-pass filters connected in parallel is used. The time-series data is signal-processed.

この信号処理系の概略ブロック図を第6図に示した。図
において、端子1よ〕入力された単音節信号は、中心周
波数を可変としたバンドパスフィルタ2へ入力される。
A schematic block diagram of this signal processing system is shown in FIG. In the figure, a monosyllabic signal input through terminal 1 is input to a bandpass filter 2 whose center frequency is variable.

このバンドパスフィルタ2は、中心周波数を低域から高
域周波数にわたシ掃査することによりて時系夕ら信号を
形成する。この信号が1回の掃査に要する時間軸を周波
数軸に置き換えると単音節信号の周波数特性になる。こ
の信号はエンベロープ形成回路3によってエンベロープ
信号となシ、ハイパスフィルタ4によシ低域成分を除去
し、4個の並列ニ接続されたバンドパスフィルタ群5に
よって、各々設定した周波数帯域の信号成分を抽出する
This bandpass filter 2 forms a time series signal by sweeping the center frequency from a low frequency range to a high frequency range. When the time axis required for one sweep of this signal is replaced with the frequency axis, the frequency characteristic becomes that of a monosyllabic signal. This signal is converted into an envelope signal by an envelope forming circuit 3, a low-frequency component is removed by a high-pass filter 4, and a signal component in a set frequency band is processed by a group of four band-pass filters 5 connected in parallel. Extract.

径路7を通過する信号は、ハイパスフィルタ4の出力信
号そのものである。各バンドパスフィルタの出力信号か
ら、平均値抽出回路群6Vcよりて1回の掃査時間にお
ける平均振幅値が求められ、マルチプレクサ8によりて
これ等の信号を所定の時間間隔で掃査し、ルΦ変換器9
によりてディジタル信号を形成する。ここで、エンベロ
ープ形成回路3の出力信号KI$Iしては、バンドパス
フィルタ2における中心周波数の掃査が低域から高域限
界周波数にいたるタイミングに合わせてマルチプレクサ
14における信号のサンプリングが動作するようにマル
チプレクサ14の動作論理を構成する。
The signal passing through path 7 is the output signal of high-pass filter 4 itself. From the output signal of each bandpass filter, the average amplitude value in one scanning time is determined by the average value extraction circuit group 6Vc, and the multiplexer 8 sweeps these signals at predetermined time intervals. Φ converter 9
to form a digital signal. Here, as for the output signal KI$I of the envelope forming circuit 3, the sampling of the signal in the multiplexer 14 operates in accordance with the timing when the center frequency in the bandpass filter 2 is swept from the low frequency range to the high frequency limit frequency. The operating logic of the multiplexer 14 is configured as follows.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明の装置全体にわたる構成と動作について、
第1図によシ説明する。発声された音声信号は、図のマ
イクロホン1.マイクアンプ10を介してエンベローフ
形成回路1】とバンドi4 X フィルタ2へ入力され
る。エンベロープ形成回路l】における音声エンベロー
プの振幅が所定の基準値以上になると、その情報はコン
トローラ19へ伝送され、コントローラの動作を開始す
る。
The overall configuration and operation of the device of the present invention will be explained below.
This will be explained with reference to FIG. The uttered audio signal is transmitted to microphone 1 in the figure. The signal is inputted via the microphone amplifier 10 to the envelope forming circuit 1] and the band i4x filter 2. When the amplitude of the audio envelope in the envelope forming circuit 1 exceeds a predetermined reference value, the information is transmitted to the controller 19, and the controller starts operating.

、p< 7 トi4スフィルタ2の中心周波数はコント
ローラ1sKおける論理回路によって可変であ#)%2
00jrzから5kHzにわたJ)、15++s秒の時
間間隔で掃査する。バンドパスフィルタ20周波数帯域
幅は1/6オクターブである。バンドパスフィルタ2の
出力信号はエンベロープ形成回路3によシエンベロープ
信号となり、さらにハイパスフィルタ4によって信号の
低域成分が除去される。
, p< 7 The center frequency of the i4tooth filter 2 is variable by the logic circuit in the controller 1sK)%2
00jrz to 5kHz J), at time intervals of 15++s seconds. The frequency bandwidth of the bandpass filter 20 is 1/6 octave. The output signal of the bandpass filter 2 is converted into an envelope signal by the envelope forming circuit 3, and further, the low frequency component of the signal is removed by the highpass filter 4.

このハイパスフィルタ4は250Hzのカットオフ周波
数と12cLB100t、の減衰特性を持っている。
This high-pass filter 4 has a cutoff frequency of 250Hz and an attenuation characteristic of 12cLB100t.

ハイパスフィルタ4の出力信号は、前記したよ5に4個
の並列接続されたバンドパスフィルタ群5によって処理
され、さらに個々の信号から平均値抽出回路群6によっ
て、個々の帯域における平均値電圧が出力される。これ
等の出力信号はマルチプレクサ80入力信号となる。ま
た、^と同時に径路7によって、バイパスフィル4の信
号がマルチプレクサBの入力信号となる。
The output signal of the high-pass filter 4 is processed by the group of four band-pass filters 5 connected in parallel as described above, and then the average value voltage in each band is extracted from each signal by the average value extraction circuit group 6. Output. These output signals become multiplexer 80 input signals. At the same time, the signal of the bypass fill 4 becomes the input signal of the multiplexer B through the path 7.

一方、エンベロープ形成回路1】の出力信号は、音声原
信号のエンベロープ信号となっているが、この信号もま
た、マルチプレクサ80入力信号となる。コントローラ
19の論理回路によって制御されたマルチプレクサ8は
、上記6種の信号をサンプリングする。ここで、径路7
の信号に対しては、15風秒間のデータが全てψ変換器
9へ入力するように時間間隔が割当てられている。A/
D変換器9におけるサンプリング周期はcL5m秒であ
シ、15s秒間における30個のスペグトルデータがメ
モ1312に記録される。メモリ15は約8秒間の音声
分析データを記憶出来るバッファメモリである。
On the other hand, the output signal of the envelope forming circuit 1 is an envelope signal of the original audio signal, and this signal also becomes an input signal to the multiplexer 80. The multiplexer 8 controlled by the logic circuit of the controller 19 samples the above six types of signals. Here, path 7
For the signals, time intervals are assigned so that all data for 15 wind seconds are input to the ψ converter 9. A/
The sampling period in the D converter 9 is cL 5 msec, and 30 pieces of spectre data for 15 s are recorded in the memo 1312. The memory 15 is a buffer memory that can store approximately 8 seconds of voice analysis data.

メモリ15が最初の゛CL36秒間の信号を記憶した時
点でスペクトルパターン計算部13の計算を開始する。
When the memory 15 stores the signal for the first CL36 seconds, the spectral pattern calculation unit 13 starts calculation.

036秒間には、15風秒間の時系列データとして得ら
れるスペクトルが24個含まれ、これ′より1単音節を
1個ないし2個分を細分化している。
036 seconds includes 24 spectra obtained as time-series data of 15 seconds, and one monosyllable is subdivided into one or two syllables from this spectrum.

次に1スペクトルパタ一ン計算部13における計算を第
7図の概略フローチャートを用いて説明する。最初に、
エンベロープ形成回路l】におけるエンベロープ信号を
用いて、単音節の最大値時点を検出する。この最大値時
点が子音と母音領域を分ける基準を与える。この最大値
時点における15寓秒間のスペクトルと、次の15簿秒
間のスペクトルを平均して母音領域のスペクトルを導出
する。スペクトルの全周波数域にわたるトータルパワー
は、発声強度によって常圧変化しているため、トータル
パワーを一定値にしてスペクトルの振幅値を正規化する
必要がある。
Next, calculations in the 1-spectral pattern calculation unit 13 will be explained using the schematic flowchart of FIG. At first,
The envelope signal in the envelope forming circuit 1 is used to detect the maximum value point of a single syllable. This maximum value point provides a criterion for separating consonant and vowel regions. The spectrum of the vowel region is derived by averaging the spectrum for 15 seconds at the time of this maximum value and the spectrum for the next 15 seconds. Since the total power over the entire frequency range of the spectrum changes normally depending on the vocalization intensity, it is necessary to normalize the amplitude value of the spectrum by keeping the total power at a constant value.

この正規化計算に用いられるパラ、メータによって、バ
ンドパスフィルタ群5を通過した信号振幅値を正規化す
る。この正規化されたバラメ−タ(各種周波数域におけ
る平均レベル)ヲ用イて、図3 、4 、5において示
した母音マツプにおける入力単音節母音の位置を決定す
る。決定された位置によって、母音が直ちに決定される
か、あるいは複数個の母音候補が決定されることになる
The signal amplitude value that has passed through the bandpass filter group 5 is normalized by the parameters used in this normalization calculation. Using this normalized parameter (average level in various frequency ranges), the position of the input monosyllabic vowel in the vowel map shown in FIGS. 3, 4, and 5 is determined. Depending on the determined position, either a vowel is determined immediately or a plurality of vowel candidates are determined.

次に、エンベロープ形成回路1】におけるエンベロープ
信号を用いて、最大振幅値をtoとし、最大値時点から
単音節開始時点の方向へ、α5に近い振幅を有する時点
を探索し、そのスペクトルを求める。このスペクトルと
、上記の最大値時点におけるスペクトルとの差分を計算
する。
Next, using the envelope signal in the envelope forming circuit 1, the maximum amplitude value is set to, and a time point having an amplitude close to α5 is searched from the maximum value time point toward the monosyllable start time point, and its spectrum is determined. The difference between this spectrum and the spectrum at the time of the maximum value is calculated.

この差分スペクトルは、子音の情報を得る丸めのもので
ある。次に、単音節が終了して行く方向に探索を進め、
α5の振幅を有する時点のスペクトルを導出する。これ
が終了域のスペクトルである。この終了域のスペクトル
は、終了域の母音が上記エンベロープの最大振幅時点で
の母音と同じか、異なるかを判断するためのもので、類
似度計算によシ同じであれば母音1個の単音節であシ、
異なれば母音が2個含まれる「きヤj。
This difference spectrum is rounded to obtain consonant information. Next, proceed with the search in the direction where the monosyllable ends,
Derive the spectrum at a time point with an amplitude of α5. This is the end range spectrum. The spectrum of this end region is used to judge whether the vowel in the end region is the same as or different from the vowel at the maximum amplitude of the envelope. syllable,
If it is different, it will contain two vowels.

「きゅ」などの単音節と判断する0 次に、上記3種のスペクトル、すなわチ、母音領域スペ
クトル、差分スペクトル、終了域スペクトルは計算が終
了すると遂次パターンメモリ14へ記録する。記録が終
了すると、パターンマツチング部15における計算が開
始される。パターンマツチング部においては、あらかじ
め記憶させた標準パターンと類似度を計算し、候補母音
間のうち1個の母音を決定し、次いで子音に対する類似
度計算によシ子音を決定する。最後に母音が1個存在す
るか、あるいは2個存在するかを判断し、これ等の結果
を総合して入力単音節が何であるかを決定する。得られ
た結果は出力バッファ17を介して出力端子21より出
力する。なお、上記回路ブロック図におけるバンドパス
フィルタ群5と平均値抽出回路群6は、第8図に示した
バンドパスフィルタと積分回路よシ構成され、これが4
系統設けられている。
It is determined that it is a single syllable such as "kyu".Next, the above three types of spectra, ie, the vowel area spectrum, the difference spectrum, and the ending area spectrum, are sequentially recorded in the pattern memory 14 when the calculation is completed. When the recording is completed, calculation in the pattern matching section 15 is started. The pattern matching section calculates the degree of similarity with a standard pattern stored in advance, determines one vowel among the candidate vowels, and then determines the consonant by calculating the degree of similarity with respect to the consonants. Finally, it is determined whether there is one or two vowels, and these results are combined to determine what the input monosyllable is. The obtained result is output from the output terminal 21 via the output buffer 17. The band-pass filter group 5 and the average value extraction circuit group 6 in the circuit block diagram above are composed of the band-pass filter and the integrating circuit shown in FIG.
A system is established.

ここで、オペアンプ20 、21はバンドI−eスフィ
ルタを、オペアンプ22は積分回路を示している。
Here, operational amplifiers 20 and 21 represent band I-e filters, and operational amplifier 22 represents an integrating circuit.

なお、本実施例においては、音声信号の周波数分析法は
バンドパスフィルタの中心周波数を掃査する方法によっ
ているが、かならずしもこれに限定されるものではなく
、たとえば、バンドパスフィルタ群、離散的フーリエ変
換によるフーリエスペクトル、線形予測法によるスペク
トル包絡などにおいても、同様に取扱うことが出来るこ
とは言うまでもない。
In this embodiment, the frequency analysis method of the audio signal is based on a method of sweeping the center frequency of a bandpass filter, but the method is not limited to this. For example, a group of bandpass filters, a discrete Fourier It goes without saying that the Fourier spectrum obtained by transformation, the spectral envelope obtained by the linear prediction method, etc. can be treated in the same manner.

また、本実施例で示したバンドル4スフイルタ群5.平
均値抽出回路群6によるスペクトルに関するパラメータ
を実時間で求める方法に対して、これ等の回路を用いず
、ハイパスフィルタ4の出力信号をマルチプレクサ9 
、 A/D変換器9を介して一旦メモリ12に記憶し、
スペクトルパターン計算部13において計算により上記
/寸うメータを求めることも可能である。しかし、この
場合は無視出来立い計算時間を必要とし、高速計算を損
うことになるが、母音認識の信頼性向上には寄与するこ
とになる。
In addition, the bundle 4 filter group 5 shown in this embodiment is also included. In contrast to the method of obtaining spectrum-related parameters in real time using the average value extraction circuit group 6, instead of using these circuits, the output signal of the high-pass filter 4 is sent to the multiplexer 9.
, temporarily stored in the memory 12 via the A/D converter 9,
It is also possible to obtain the above-mentioned/dimension meter by calculation in the spectrum pattern calculation section 13. However, in this case, negligible calculation time is required, impairing high-speed calculation, but it does contribute to improving the reliability of vowel recognition.

〔発明の効果〕〔Effect of the invention〕

本発明により、単音節信号を周波数分析して得られたス
ペクトル信号に対して、複数個のバンドパスフィルタを
中心とする信号処理回路を設けることだより、スペクト
ルの特徴を抽出するパラメータを実時間で得ることが可
能となり、単音節の母音を高速度で決定することが可能
となった。母音を高速度で決定出来ることと、決定の信
頼性向上により、子音決定を含めた単音節の認識に要す
る時間は短縮され、信頼性は向上することになる。
According to the present invention, by providing a signal processing circuit centered on a plurality of bandpass filters for a spectral signal obtained by frequency analysis of a monosyllabic signal, parameters for extracting spectral features can be extracted in real time. This made it possible to determine monosyllabic vowels at high speed. By being able to determine vowels at high speed and improving the reliability of the determination, the time required for single syllable recognition, including consonant determination, will be shortened and reliability will be improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の回路ブロック図、第2図は音声スペク
トルの一例を示した波形図、第3図。 第4図、$5図は、母音特徴抽出を説明した図、第6図
は本発明の詳細な説明する回路ブロック図、第7図は計
算の概略フローチャート、第8図は本発明の主要部に関
して一実施例を示す回路図である。 2・・・パンドパスフィルタ 3・・・エンベロープ形成回路 4・・・ハイパスフィルタ 5・・・バンドパスフィルタ群 6・・・平均値抽出回路群 8・・・マルチプレクサ9
・・・メモリ 20.21・・・バンドパスフィルタ 22・・・積分回路 第 22 第 312] 第4 図 第 5 図 高 管 第 6 図 第 7 図
FIG. 1 is a circuit block diagram of the present invention, FIG. 2 is a waveform diagram showing an example of an audio spectrum, and FIG. 3 is a circuit block diagram of the present invention. Figures 4 and 5 are diagrams explaining vowel feature extraction, Figure 6 is a circuit block diagram explaining the present invention in detail, Figure 7 is a schematic flowchart of calculation, and Figure 8 is the main part of the present invention. FIG. 2 is a circuit diagram showing an embodiment of the invention. 2...Band pass filter 3...Envelope forming circuit 4...High pass filter 5...Band pass filter group 6...Average value extraction circuit group 8...Multiplexer 9
...Memory 20.21...Band pass filter 22...Integrator circuit No. 22, No. 312] Fig. 4 Fig. 5 High tube Fig. 6 Fig. 7

Claims (1)

【特許請求の範囲】[Claims] 入力音声を周波数分析し、子音から母音領域にいたる複
数個のスペクトルパターンを生成し、あらかじめ記憶さ
せた標準スペクトルパターンとの類似度を計算すること
により、上記入力音声を認識するようにした音声認識装
置において、上記音声信号を周波数分析する手段と、該
周波数分析された振幅あるいはパワーのスペクトル値を
時間軸上に並べて一つの信号となす手段と、該時間軸上
に並べて得た信号の低域周波数成分を除去するハイパス
フィルタと、該ハイパスフィルタの通過信号に対して、
複数個の所定の周波数範囲における平均値を得る手段と
、該複数個の平均値と上記ハイパスフィルタの出力信号
とを記憶する手段とを有することを特徴とする音声認識
装置。
A speech recognition system that recognizes the input speech by frequency-analyzing the input speech, generating multiple spectral patterns ranging from consonants to vowels, and calculating the degree of similarity with pre-stored standard spectral patterns. In the apparatus, there is provided a means for frequency-analyzing the audio signal, a means for arranging the frequency-analyzed amplitude or power spectrum values on a time axis to form a single signal, and a means for arranging the frequency-analyzed amplitude or power spectrum values on a time axis to form a single signal, A high-pass filter that removes frequency components and a signal passed through the high-pass filter,
A speech recognition device comprising means for obtaining an average value in a plurality of predetermined frequency ranges, and means for storing the plurality of average values and an output signal of the high-pass filter.
JP60114026A 1985-05-29 1985-05-29 Voice recognition equipment Pending JPS61273600A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60114026A JPS61273600A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60114026A JPS61273600A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS61273600A true JPS61273600A (en) 1986-12-03

Family

ID=14627179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60114026A Pending JPS61273600A (en) 1985-05-29 1985-05-29 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS61273600A (en)

Similar Documents

Publication Publication Date Title
US8326610B2 (en) Producing phonitos based on feature vectors
JPH0990974A (en) Signal processor
US4677673A (en) Continuous speech recognition apparatus
Jelil et al. Exploration of compressed ILPR features for replay attack detection
JP2004240214A (en) Acoustic signal discriminating method, acoustic signal discriminating device, and acoustic signal discriminating program
US4885791A (en) Apparatus for speech recognition
JPS61273600A (en) Voice recognition equipment
JPS58108590A (en) Voice recognition equipment
AU612737B2 (en) A phoneme recognition system
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPH04100099A (en) Voice detector
JPH045198B2 (en)
JPS5936759B2 (en) Voice recognition method
JPS61273599A (en) Voice recognition equipment
JPS63278100A (en) Voice recognition equipment
JPH0114599B2 (en)
JP3049711B2 (en) Audio processing device
JPS63235999A (en) Voice initial end detector
JPH03288199A (en) Voice recognition device
CN117789764A (en) Method, system, control device and storage medium for detecting output audio of vehicle
JPH0462598B2 (en)
CN117679050A (en) Short-time energy-based electromyographic signal identification method, device, equipment and medium
JP3008404B2 (en) Voice recognition device
CN116229988A (en) Voiceprint recognition and authentication method, system and device for personnel of power dispatching system
JPH0731506B2 (en) Speech recognition method