JPS61246797A - Voice response switch - Google Patents

Voice response switch

Info

Publication number
JPS61246797A
JPS61246797A JP8937285A JP8937285A JPS61246797A JP S61246797 A JPS61246797 A JP S61246797A JP 8937285 A JP8937285 A JP 8937285A JP 8937285 A JP8937285 A JP 8937285A JP S61246797 A JPS61246797 A JP S61246797A
Authority
JP
Japan
Prior art keywords
vector
formant
circuit
voice
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8937285A
Other languages
Japanese (ja)
Inventor
博昭 竹山
仁 深川
清隆 竹原
安一 杵川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP8937285A priority Critical patent/JPS61246797A/en
Publication of JPS61246797A publication Critical patent/JPS61246797A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [技術分野1 本発明は音声応答スイッチ、さらに詳しくは、人の音声
を認識して作動する音73f応答スイッチに関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field 1] The present invention relates to a voice response switch, and more particularly to a sound 73f response switch that operates by recognizing human voice.

[背景技術] 従来上り音声応答スイッチとしては、第6図に示すよう
に、音声に相当する周波数帯域の入力信号を通過させる
フィルタ回路11と、フィルタ回路11の出力レベルを
検出するレベル検出回路12と、レベル検出回路12の
出力を予め設定された参照値と比較しレベル検出回路1
2の出力が参照値以上であるときに制御信号を出力する
制御回路13と、制御信号により開閉されるスイッチ要
素14とから構成されており、制御回路13への入力レ
ベルが参照値以上であるときにフィルタ回路11への入
力信号が音声信号であると判断するものが提供されてい
る。
[Background Art] As shown in FIG. 6, a conventional upstream voice response switch includes a filter circuit 11 that passes an input signal in a frequency band corresponding to voice, and a level detection circuit 12 that detects the output level of the filter circuit 11. The level detection circuit 1 compares the output of the level detection circuit 12 with a preset reference value.
It is composed of a control circuit 13 that outputs a control signal when the output of 2 is above a reference value, and a switch element 14 that is opened and closed by the control signal, and the input level to the control circuit 13 is above the reference value. A device is provided that sometimes determines that the input signal to the filter circuit 11 is an audio signal.

この回路構成においては、特定の周波数帯域のレベル判
定のみで音声であるかどうかを判別しているものである
から、フィルタ回路11を通過できる帯域の周波数成分
を持ちかつ参照値よりも高いレベルの入力信号であれば
音声ではない雑音であってもスイッチ要素14が作動す
ることになり、誤動作を生じるという問題がある。また
音声が入力されている場合でも、それがスイッチ要素1
4を作動させる目的で発せられた音声であるかどうかに
かかわらずスイッチ要素14が作動するから、スイッチ
要素14の作動を希望しないときスイッチ要素14が作
動することがあるという不都合が生じるものである・ このため、第7図に示すように、音声認識装置15を用
い、記憶部16に予め記憶された制御音声と入力信号と
を比較し、両者が一致したときにスイッチ要素3を開閉
させるものが考えられているが、不特定話者を対象とす
る場合には、音声認識のための演算処理に長い時間が必
要となり実時間でスイッチ要素14を制御することが困
難であるという問題があり、しかも現在の技術レベルで
は一般に認識率が低く誤動作しやすいという問題がある
。そして、認識率を高めるには情報量と計算量が多くな
るものであるから一層処理時間が遅れるという欠点があ
る。これに対して特定話者を対象とする場合には、使用
前に使用者自身の声を登録する必要があり、使用までの
作業が面倒である。
In this circuit configuration, it is determined whether or not it is a voice only by determining the level of a specific frequency band. If it is an input signal, the switch element 14 will be activated even if it is a noise that is not a voice, resulting in a problem of malfunction. Also, even if audio is input, it will be switched to switch element 1.
Since the switch element 14 is actuated regardless of whether the sound is emitted for the purpose of actuating the switch element 4, there is an inconvenience that the switch element 14 may be actuated when the switch element 14 is not desired to be actuated. - For this reason, as shown in FIG. 7, the voice recognition device 15 is used to compare the control voice stored in advance in the storage unit 16 with the input signal, and when the two match, the switch element 3 is opened or closed. However, when targeting unspecified speakers, there is a problem that a long time is required for arithmetic processing for voice recognition, making it difficult to control the switch element 14 in real time. Moreover, with the current level of technology, there is a problem that the recognition rate is generally low and malfunctions are likely to occur. Furthermore, since increasing the recognition rate requires a large amount of information and calculation, there is a drawback that the processing time is further delayed. On the other hand, when targeting a specific speaker, it is necessary to register the user's own voice before use, and the work required to use it is troublesome.

[発明の目的] 本発明は上述の点に鑑みて為されたものであって、その
主な目的とするところは、音声のうちの母音を特徴づけ
ている優勢な周波数成分である複数のフォルマントを抽
出し、各フォルマントを軸とするベクトル空間(または
平面)におけるベクトルの移動によりスイッチ要素を作
動させるかどうかを判別するようにしたことにより、実
時間で動作可能で認識率が高く、しかも不特定話者を対
象として使用できる音声応答スイッチを提供することに
ある。
[Object of the Invention] The present invention has been made in view of the above-mentioned points, and its main purpose is to eliminate multiple formants that are dominant frequency components that characterize vowels in speech. By extracting the information from An object of the present invention is to provide a voice response switch that can be used for a specific speaker.

[発明の開示J 第5図は母音のスペクトルの一例を示すものであって、
母音を特徴づける優勢な周波数成分、すなわち、スペク
トルのピーク部分の周波数成分がフォルマントと呼ばれ
る。一般に母音には複数のフォルマントが存在し、周波
数の低いほうから順に第1フォルマントF1、第2フォ
ルマントF2、第3フォルマントF3%・・・・・・と
呼ばれる。これらのフォルマントのうち第17オルマン
)F、と第2フォルマントF2との寄与率がもつとも高
く、@1フォルマントF、と第2フォルマントF2とを
用いればかなり高い確度で母音を決定できるものである
[Disclosure of the Invention J Figure 5 shows an example of a vowel spectrum,
The dominant frequency component that characterizes a vowel, that is, the frequency component at the peak of the spectrum, is called a formant. Generally, a vowel has a plurality of formants, and they are called, in descending order of frequency, a first formant F1, a second formant F2, a third formant F3%, and so on. Among these formants, the contribution rate of the 17th orman F and the second formant F2 is high, and by using the @1 formant F and the second formant F2, vowels can be determined with a fairly high degree of accuracy.

ここで第1フォルマントF1を横軸にとり、第2フォル
マントF2を縦軸にとったF、−F2ベクトル平面上で
日本語の母音/a// i//u//e//o/を示す
と、各母音は第4図の破線で示す範囲で表わされる。フ
ォルマントは各個人の声道長などによりかなり変動する
ものであって、F、−F2平面上である程度の広がりを
もって表わされるものであり、各母音を表わす範囲同士
ががなりの部分で重複するものであるが、一般に同一環
境で同一人物の発した5母音のフォルマントはFl−F
2平面上において略5角形となり、環境が変化したり、
発話者が変わっても5母音の相対的位置関係、すなわち
この5角形の形状は保持されたままで平行移動すること
が知られている。したが)で、母音が変化したときの相
対位置、すなわち変化ベクトルは環境や発話者がかわっ
ても略一定に−なる。つまり、母音/a/のベクトル成
分を(800Hz、1800H2)とし母音10/のベ
クトル成分を(500Hz、1000 Hz)とすると
、/a/から10/への変化ベクトルの成分は(−30
0Hz、−800Hz)となり、変化ベクトルの成分は
環境や発話者が異なっていても略一定になるのである。
Here, the Japanese vowel /a//i//u//e//o/ is shown on the F, -F2 vector plane with the first formant F1 on the horizontal axis and the second formant F2 on the vertical axis. , each vowel is represented by the range shown by the broken line in FIG. Formants vary considerably depending on the vocal tract length of each individual, and are expressed with a certain degree of spread on the F and -F2 planes, with the ranges representing each vowel overlapping each other at the edges. However, in general, the formants of five vowels uttered by the same person in the same environment are Fl-F.
It becomes approximately pentagonal on two planes, and the environment changes,
It is known that even if the speaker changes, the relative positional relationship of the five vowels, that is, the pentagonal shape, remains unchanged and moves in parallel. However, the relative position when the vowel changes, that is, the change vector, remains approximately constant regardless of the environment or speaker. In other words, if the vector component of the vowel /a/ is (800Hz, 1800H2) and the vector component of the vowel 10/ is (500Hz, 1000Hz), the component of the change vector from /a/ to 10/ is (-30
0Hz, -800Hz), and the components of the change vector remain approximately constant even if the environment or speaker is different.

しかして、本発明においては、複数の母音を連続させて
制御音声を構成し、各母音間での変化ベクトルを監視す
ることによって入力信号が予め設定された制御音声と一
致するかどうかを判定し、入力信号が制御音声と一致す
るとスイッチ要素を開閉する音声応答スイッチを開示す
る。なお、以下の説明においては、第1フォルマントF
1と第2フォルマントF2とを使用して音声の認識を行
なっているが、さらに認識率を高めるために、第3フォ
ルマントF、をベクトルの第3成分として用いてもよく
、一般にFl−F、−F、ベクトル空間上で各母音を表
わせば、各母音間の重複部分が除去されるものであるか
ら、検出確度が一層向上するものである。
Therefore, in the present invention, a plurality of vowels are made up in succession to form a control voice, and it is determined whether the input signal matches a preset control voice by monitoring the change vector between each vowel. , discloses a voice responsive switch that opens and closes a switch element when an input signal matches a control voice. In addition, in the following explanation, the first formant F
Speech recognition is performed using F1 and second formant F2, but in order to further increase the recognition rate, the third formant F may be used as the third component of the vector. -F, if each vowel is represented on a vector space, the overlapping portion between each vowel will be removed, so the detection accuracy will be further improved.

(実施例) 第1図に示すように、音声信号はフォルマント抽出回路
1に入力され第1フォルマントF1と第2フォルマント
F2とが抽出される。フォルマント抽出回路1の出力は
制御音声判別回路2に入力され、入力信号が予め設定さ
れた制御音声と一致したと判断されると制御信号が出力
されるようになっている。制御音声判別回路2の出力は
スイッチ要素3に入力され、スイッチ要素3に制御信号
が入力されるとスイッチ要素3が開閉される。
(Example) As shown in FIG. 1, an audio signal is input to a formant extraction circuit 1, and a first formant F1 and a second formant F2 are extracted. The output of the formant extraction circuit 1 is input to a control voice discrimination circuit 2, and when it is determined that the input signal matches a preset control voice, a control signal is output. The output of the control voice discrimination circuit 2 is input to the switch element 3, and when a control signal is input to the switch element 3, the switch element 3 is opened or closed.

第2図にフォルマント抽出回路1の一例を示す。FIG. 2 shows an example of the formant extraction circuit 1.

フォルマント抽出回路1はそれぞれ200 Hzの帯域
中を有し通過周波数が互いに異なる多数の帯域フィルタ
111〜llnよりなる帯域フィルタ群と、各帯域フィ
ルタ111〜Iinの出力信号をデジタル信号に変換す
るアナログ/デフタル変換回路12と、各帯域フィルタ
111〜llnの出力レベル値からフォルマントを検出
するマイクロプロセッサ等からなる演算回路13とから
構成される。
The formant extraction circuit 1 includes a bandpass filter group consisting of a large number of bandpass filters 111 to 11n each having a band of 200 Hz and different pass frequencies, and an analog/band filter group that converts the output signal of each bandpass filter 111 to Iin into a digital signal. It is composed of a differential conversion circuit 12 and an arithmetic circuit 13 including a microprocessor or the like that detects formants from the output level values of the bandpass filters 111 to lln.

帯域フィルタ111〜llnはそれぞれ0〜200Hz
、  200−4008Z、  400−600 Hz
Bandpass filters 111 to lln each have a frequency of 0 to 200Hz.
, 200-4008Z, 400-600 Hz
.

・・・・・・、2200〜2400 Hz、・・・・・
・と通過周波数帯域が互いに異なるとともに、全帯域フ
ィルタ111〜finを合わせると音声帯域の全周波数
が通過できるように設定されている。演算回路13は第
17オルマン)F、1127オルマン) F2.!:を
検出するとともに、入力音声が変化したかどうかを判定
する音韻変化信号を出力する。なお、フォルマントの抽
出は回路構成によって/%−−的に行なっているが、線
形予測法などのソフト的な手法を用いて行なってもよい
......, 2200-2400 Hz, ...
* and pass frequency bands are different from each other, and are set so that all frequencies in the audio band can be passed by combining the full band filters 111 to fin. The arithmetic circuit 13 is the 17th Orman) F, the 1127th Orman) F2. ! : is detected and outputs a phoneme change signal that determines whether the input voice has changed. Although formant extraction is performed in a /% manner depending on the circuit configuration, it may also be performed using a software method such as a linear prediction method.

第3図は制御音声判別回路2の一例を示すものであって
、制御音声判別回路2は、音韻変化信号が入力されると
第1フォルマントF、と第2フォルマントF2とを成分
とするベクトルを記憶する第1ベクトル保持回路22と
、音韻変化信号が入力されると第1ベクトル保持回路2
2に記憶されていたベクトルを記憶する第2ベクトル保
持回路23と、第1ベクトル保持回路22に記憶された
ベクトルから第2ベクトル保持回路23に記憶されたベ
クトルを減算することにより変化ベクトルを算出する変
化ベクトル算出回路24と、スイッチ要素3を駆動すべ
き制御音声における隣接した音韻間の変化ベクトルが所
定の順序で記憶された記憶部25と、変化ベクトル算出
回路24の出力値と記憶部25に記憶された設定値とを
比較して入力された音声信号の変化ベクトルが記憶部2
5に記憶された変化ベクトルの設定範囲内であるときに
一致信号を出力する比較判定回路26と、一致信号が入
力されるとスイッチ要素3を開閉するための制御信号を
出力する制御信号発生回路27とから構成される。記憶
部25においては設定された制御音声の隣接する音韻間
の変化ベクトルがある程度の誤差を許容する形で記憶さ
れている。
FIG. 3 shows an example of the control speech discrimination circuit 2, which, when a phoneme change signal is input, generates a vector having the first formant F and the second formant F2 as components. A first vector holding circuit 22 for storing, and a first vector holding circuit 2 for storing a phoneme change signal.
A change vector is calculated by subtracting the vector stored in the second vector holding circuit 23 from the vector stored in the first vector holding circuit 22. a change vector calculation circuit 24 for calculating the change vector, a storage section 25 in which change vectors between adjacent phonemes in the control speech to drive the switch element 3 are stored in a predetermined order, and an output value of the change vector calculation circuit 24 and the storage section 25. The change vector of the input audio signal is compared with the set value stored in the storage unit 2.
a comparison determination circuit 26 that outputs a match signal when the change vector is within the set range of the change vector stored in 5; and a control signal generation circuit that outputs a control signal for opening and closing the switch element 3 when the match signal is input. It consists of 27. In the storage unit 25, change vectors between adjacent phonemes of the set control voice are stored in a form that allows a certain degree of error.

すなわち、個人差や環境の差による変化ベクトルの誤差
を考慮して変化ベクトルの許容誤差範囲が設定されてい
るのであって、例えば、/a/から10/への変化ベク
トルの範囲として(300±α1Hz。
In other words, the permissible error range of the change vector is set in consideration of errors in the change vector due to individual differences and environmental differences.For example, the range of the change vector from /a/ to 10/ is (300± α1Hz.

800±ff2Hz)が設定されているのであり、α1
、a2の値を適宜設定することにより感度が調節される
ようになっている。しかして、制御音声判別回路2では
音韻変化信号が制御音声判別回路2に入力されるたびに
入力された音声信号の変化ベクトルが記憶部25に記憶
された変化ベクトルの許容誤差範囲内であるかどうかが
判定され、入力された音声信号の各音韻間の変化ベクト
ルが記憶部25に記憶された制御音声の変化ベクトルの
設定範囲内であると判定されると、比較判定回路26か
ら一致信号が出力されるのである。なお、制御音声判別
回路2の記憶部25を除く部分に関してはマイクロプロ
セッサ20を用いて構成することができる。
800±ff2Hz), and α1
, a2 are set appropriately to adjust the sensitivity. Therefore, in the control speech discriminating circuit 2, each time a phoneme change signal is input to the control speech discriminating circuit 2, the change vector of the input speech signal is checked to see if it is within the tolerance range of the change vector stored in the storage section 25. If it is determined that the change vector between each phoneme of the input voice signal is within the set range of the change vector of the control voice stored in the storage unit 25, a match signal is output from the comparison determination circuit 26. It is output. Note that the parts of the control voice discrimination circuit 2 other than the storage section 25 can be constructed using the microprocessor 20.

(動作) 以下、動作を説明する。まずフォルマント抽出回路1に
なんらかの音声信号が入力されると、フォルマント抽出
回路1では各入力信号のFIF2平面上でのベクトル成
分がそれぞれ抽出されるとともに、音韻の変化時点でそ
れぞれ音韻変化信号が発生する。制御音声判別回路2で
は、1#1音声が入力された時点でまず第1音声のベク
トル成分を第1ベクトル保持回路22に記憶する。次に
第2音声が入力され音韻変化信号が得られると、第1ベ
クトル保持回路22に記憶されていた第1音声のベクト
ル成分がWS2ベクトル保持回路23に入力されるとと
もに、第1ベクトル保持回路22にはfJ&2音声のベ
クトル成分が記憶される。このとき変化ベクトル算出回
路24では第2ベクトル保持回路23に記憶されたベク
トル成分と第1ベクトル保持回路22に記憶されたベク
トル成分との変化量から変化ベクトルの成分が算出され
る。ここで記憶部25に記憶された設定範囲と変化ベク
トル算出回路24の出力値としての変化ベクトルの成分
とが比較され、変化ベクトルが記憶部25に記憶された
設定範囲内であるかどうかが判断される0次にtJIa
3音声が入力されると、11ベクトル保持回路22に記
憶されていた第2音声のベクトル成分が第2ベクトル保
持回路23に入力されるとともに、t!J3音声のベク
トル成分が第1ベクトル保持回路22に記憶され、変化
ベクトル算出回路24では第2ベクトル保持回路23に
記憶された12音声から第1ベクトル保持回路22に記
憶されたplS3音声への変化ベクトルの成分が算出さ
れる。この変化ベクトルは比較判定回路26において記
憶部25に記憶された2番目の変化ベクトルの設定範囲
と比較され、変化ベクトル算出回路24の出力値が記憶
部25に記憶された変化ベクトルの設定範囲内であるが
どうかが判断される。
(Operation) The operation will be explained below. First, when some audio signal is input to the formant extraction circuit 1, the formant extraction circuit 1 extracts the vector components of each input signal on the FIF2 plane, and generates a phoneme change signal at each point in time when the phoneme changes. . In the control voice discrimination circuit 2, when the 1#1 voice is input, first, the vector component of the first voice is stored in the first vector holding circuit 22. Next, when the second voice is input and a phoneme change signal is obtained, the vector component of the first voice stored in the first vector holding circuit 22 is input to the WS2 vector holding circuit 23, and the first vector holding circuit 22 stores the vector component of the fJ&2 voice. At this time, the change vector calculation circuit 24 calculates the component of the change vector from the amount of change between the vector component stored in the second vector holding circuit 23 and the vector component stored in the first vector holding circuit 22. Here, the setting range stored in the storage unit 25 and the component of the change vector as an output value of the change vector calculation circuit 24 are compared, and it is determined whether the change vector is within the setting range stored in the storage unit 25. The zero-order tJIa
When 3 voices are input, the vector components of the 2nd voice stored in the 11 vector holding circuit 22 are input to the second vector holding circuit 23, and t! The vector component of the J3 voice is stored in the first vector holding circuit 22, and the change vector calculation circuit 24 calculates the change from the 12 voices stored in the second vector holding circuit 23 to the plS3 voice stored in the first vector holding circuit 22. The components of the vector are calculated. This change vector is compared with the set range of the second change vector stored in the storage unit 25 in the comparison/judgment circuit 26, and the output value of the change vector calculation circuit 24 is within the set range of the change vector stored in the storage unit 25. It is determined whether or not.

以上のようにして入力信号が停止するまで同様の動作を
繰り返し、入力されるすべての音韻に対する音声信号の
変化ベクトルが記憶部25に記憶された設定範囲内であ
るときに、判定回路26から一致信号が出力され、制御
信号発生回路27では一致信号を受けて制御信号を出力
するのである。
The same operation as described above is repeated until the input signal stops, and when the change vector of the speech signal for all the input phonemes is within the setting range stored in the storage section 25, the determination circuit 26 determines that a match is found. A signal is output, and the control signal generating circuit 27 receives the coincidence signal and outputs a control signal.

制御信号はスイッチ要素3に入力されスイッチ要素3が
開閉される。入力信号が記憶部25に設定された設定範
囲とは異なるときにスイッチ要素3が以前の状態を保つ
のは言うまでもない。
The control signal is input to the switch element 3 to open and close the switch element 3. Needless to say, when the input signal is different from the setting range set in the storage section 25, the switch element 3 maintains its previous state.

ところで、制御音声は/i//e//a/ 10//u
//i/の順で循環する母音ループの任意の音を始音と
し、母音ループを少なくとも1周する母音列で構成され
ている。すなわち、制御音声の構成例としては/ l 
tegll嘗O!ut !//a+oyU費:5etl
l//otue !!e1atOtuy I/などが考
えられる。このように、母音ループを少なくとも1周す
る母音列により制御音声が構成されていることにより、
/i/から/e/と/u/から/。/との変化のように
変化ベクトルが略等しくなるような変化が発生せず、す
べでの変化ベクトルが互いに異なるものとなるから、入
力される音声信号の誤認が生じないものであり、認識率
が向上するものである。また、通常の会話において、5
母音が連続する言葉として「青い家」「あいうえお」な
どがあるが、母音ループに沿って5母音が連続して発生
することはほとんどないものであり、母音ループのどの
音を始音としても通常の会話における言葉によって誤動
作することがないものである。
By the way, the control voice is /i//e//a/ 10//u
The vowel string consists of a vowel string that starts with an arbitrary sound in a vowel loop that circulates in the order of //i/, and that goes around the vowel loop at least once. In other words, an example of the configuration of the control voice is / l
tegll 嘗O! Ut! //a+oyU fee: 5etl
l//otue! ! Possible examples include e1atOtuy I/. In this way, since the control voice is composed of a vowel string that goes around the vowel loop at least once,
/i/ to /e/ and /u/ to/. Since there is no change in which the change vectors become approximately equal like the change between / and all change vectors are different from each other, there is no misrecognition of the input audio signal, and the recognition rate is low. This will improve the results. Also, in normal conversation, 5
Words with consecutive vowels include ``Blue House'' and ``Aiueo,'' but it is rare for five vowels to occur consecutively along a vowel loop. It is something that will not malfunction depending on the words used in the conversation.

上述の実施例において母音を検出するために第1フォル
マントF、と第2フォルマントF2とをベクトル成分と
して2次元空間でのベクトルを用いたが、第3フォルマ
ントF1以上の高次フォルマントもベクトル成分として
用いることにより3次元以上の多次元空間でのベクトル
を用いて母音の判定を行なうようにしてもよい。さらに
、上述の実施例ではフォルマント抽出回路1と制御音声
判別回路2とにそれぞれマイクロプロセッサを眉いた例
を示したが、両回路1,2のマイクロプロセッサを共有
化して1つにしてもよい。さらに、母音ループがF、−
F2ベクトル平面上において5角形となり、入力される
音声信号がこの母音ループに沿って変化することを検出
しているから、F、−F2ベクトル平面上で5角形にな
ることを利用して判定することが可能であり、音声信号
が予め設定された制御音声と一致するかどうかの判定が
容易になるものである。
In the above embodiment, a vector in a two-dimensional space is used with the first formant F and the second formant F2 as vector components to detect a vowel, but higher formants higher than the third formant F1 can also be used as vector components. By using this, vowels may be determined using vectors in a multidimensional space of three or more dimensions. Further, in the above embodiment, the formant extraction circuit 1 and the control voice discrimination circuit 2 each have a microprocessor, but the microprocessor of both circuits 1 and 2 may be shared and integrated into one. Furthermore, the vowel loop is F, −
It forms a pentagon on the F2 vector plane, and since it is detected that the input audio signal changes along this vowel loop, the judgment is made using the fact that it forms a pentagon on the F, -F2 vector plane. This makes it easy to determine whether the audio signal matches the preset control audio.

[発明の効果1 本発明は上述のように、入力される音声信号から少なく
とも第1フォルマントと第2フォルマントとを抽出する
フォルマント抽出回路と、連続する母音から構成された
制御音声の各母音間のフォルマントの変化が所定の順序
でありかつ変化量が所定範囲内であるときに制御信号を
出力する制御音声判別回路と、制御信号により開閉され
るスイッチ要素とから構成され、制御音声は/ i//
e//a//o//u//r/の順で循環する母音ルー
プの任意の音を始音とし、母音ループを少なくとも1周
するように構成されているので、音声のうちの母音を特
徴づけでいる優勢な周波数成分であるフォルマントを抽
出し、複数のフォルマントにより形成されたベクトル空
間における音声ベクトルの移動によりスイッチ要素を作
動させるかどうかを判別するようにした結果、母音のフ
ォルマントの変化のみを検出すればよく計算量が少なく
かつ音声の認識が確実に行なえるものであり、実時間で
の動作が可能で認識率が高いという利点を有する。しか
もフォルマントの変化分で音声を認識するから、不特定
話者に対して使用可能であるという利点を有する。
[Effect 1 of the Invention] As described above, the present invention includes a formant extraction circuit that extracts at least a first formant and a second formant from an input speech signal, and a formant extraction circuit that extracts at least a first formant and a second formant from an input speech signal, and a formant extraction circuit that extracts at least a first formant and a second formant from an input speech signal, and a It consists of a control voice discrimination circuit that outputs a control signal when the formant changes are in a predetermined order and the amount of change is within a predetermined range, and a switch element that is opened and closed by the control signal, and the control voice is /i/ /
Since the structure is such that the starting sound is any sound in the vowel loop that circulates in the order of e//a//o//u//r/, and the vowel loop is configured to go around at least once, the vowel in the voice By extracting the formants, which are the dominant frequency components that characterize the vowel, we determined whether to activate the switch element by moving the speech vector in a vector space formed by multiple formants. It requires only a change to be detected, the amount of calculation is small, and speech recognition can be performed reliably, and it has the advantage of being able to operate in real time and having a high recognition rate. Furthermore, since speech is recognized based on changes in formants, it has the advantage that it can be used for any type of speaker.

また、母音ループを少なくとも1周する母音列により制
御音声が構成されていることにより、/i/から/e/
と/u/から10/との変化のような、変化ベクトルが
略同じになるような変化が発生せず、すべての変化ベク
トルが互いに異なるものとなるから、入力信号の誤認が
生じないものであり、認識率が一層向上するものである
In addition, since the control voice is composed of a vowel string that goes around the vowel loop at least once, /i/ to /e/
Since changes such as the change from /u/ to 10/ in which the change vectors are almost the same do not occur, and all change vectors are different from each other, misidentification of the input signal does not occur. This will further improve the recognition rate.

【図面の簡単な説明】[Brief explanation of drawings]

@1図は本発明の一実施例を示すブロック図、第2図は
同上に使用するフォルマント抽出回路を示すブロック図
、第3図は同上に使用する制御音声判別回路を示すブロ
ック図、第4図はF+F−図の一例を示す動作説明図、
第5図は母音の周波数特性の一例を示す動作説明図、第
6図は従来例を示すブロック図、第7図は他の従来例を
示すブロック図である。 1はフォルマント抽出回路、2は制御音声判別回路、3
はスイッチ要素である。
@ Figure 1 is a block diagram showing an embodiment of the present invention, Figure 2 is a block diagram showing a formant extraction circuit used in the above, Figure 3 is a block diagram showing a control speech discrimination circuit used in the same, and Figure 4 is a block diagram showing a control speech discrimination circuit used in the same. The figure is an operation explanatory diagram showing an example of F+F- diagram,
FIG. 5 is an operation explanatory diagram showing an example of vowel frequency characteristics, FIG. 6 is a block diagram showing a conventional example, and FIG. 7 is a block diagram showing another conventional example. 1 is a formant extraction circuit, 2 is a control speech discrimination circuit, 3
is a switch element.

Claims (1)

【特許請求の範囲】[Claims] (1)入力される音声信号から少なくとも第1フォルマ
ントと第2フォルマントとを抽出するフォルマント抽出
回路と、連続する母音から構成された制御音声の各母音
間のフォルマントの変化が所定の順序でありかつ変化量
が所定範囲内であるときに制御信号を出力する制御音声
判別回路と、制御信号により開閉されるスイッチ要素と
から構成され、制御音声は/i//e//a//o//
u//i/の順で循環する母音ループの任意の音を始音
とし、母音ループを少なくとも1周するように構成され
たことを特徴とする音声応答スイッチ。
(1) A formant extraction circuit that extracts at least a first formant and a second formant from an input speech signal; It consists of a control voice discrimination circuit that outputs a control signal when the amount of change is within a predetermined range, and a switch element that is opened and closed by the control signal, and the control voice is /i//e//a//o//
A voice response switch characterized in that the voice response switch is configured to have an arbitrary sound in a vowel loop that circulates in the order of u//i/ as the starting sound, and to make at least one round of the vowel loop.
JP8937285A 1985-04-24 1985-04-24 Voice response switch Pending JPS61246797A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8937285A JPS61246797A (en) 1985-04-24 1985-04-24 Voice response switch

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8937285A JPS61246797A (en) 1985-04-24 1985-04-24 Voice response switch

Publications (1)

Publication Number Publication Date
JPS61246797A true JPS61246797A (en) 1986-11-04

Family

ID=13968861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8937285A Pending JPS61246797A (en) 1985-04-24 1985-04-24 Voice response switch

Country Status (1)

Country Link
JP (1) JPS61246797A (en)

Similar Documents

Publication Publication Date Title
Childers et al. Gender recognition from speech. Part II: Fine analysis
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
US4718096A (en) Speech recognition system
JPS60200300A (en) Voice head/end detector
JP3523382B2 (en) Voice recognition device and voice recognition method
JPS61246797A (en) Voice response switch
JP2797861B2 (en) Voice detection method and voice detection device
Blomberg et al. Auditory models in isolated word recognition
JPS61246800A (en) Voice response switch
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS61246799A (en) Voice response switch
CA1216944A (en) Speech recognition system
JPS61246798A (en) Voice response switch
JPS61246796A (en) Voice response switch
JPS6148897A (en) Voice recognition equipment
JPS6142280B2 (en)
JPH0567039B2 (en)
JPS61260299A (en) Voice recognition equipment
JPH0343639B2 (en)
Ruinskiy et al. A multistage algorithm for fricative spotting
JPH0376471B2 (en)
JPS6334479B2 (en)
JPH0316038B2 (en)
JPS607492A (en) Monosyllable voice recognition system
JPS6370298A (en) Double consonant recognition equipment