JPS63221397A - Monosyllable voice recognition equipment - Google Patents
Monosyllable voice recognition equipmentInfo
- Publication number
- JPS63221397A JPS63221397A JP62057621A JP5762187A JPS63221397A JP S63221397 A JPS63221397 A JP S63221397A JP 62057621 A JP62057621 A JP 62057621A JP 5762187 A JP5762187 A JP 5762187A JP S63221397 A JPS63221397 A JP S63221397A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- threshold
- monosyllable
- voice recognition
- recognition equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000002542 deteriorative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】 抜4九更 本発明は、単音節音声認識に関する。[Detailed description of the invention] Nuki 49 The present invention relates to monosyllabic speech recognition.
灸未遣監
従来の単音節音声認識においては、母音を同定した後に
全ての子音とマツチングするため演算量が多いという欠
点があった。Conventional monosyllabic speech recognition has the disadvantage that it requires a large amount of calculation because it must match all consonants after identifying the vowel.
一圧一一道一
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、単音節音声msにおいて、音声区間の先頭が、音
声エネルギーが低くかつ低い周波数成分の占める割合が
高いとき、有声子音とのみマツチングを行なうことによ
り、マツチング処理量の低減を図ることを目的としてな
されたものである。One Pressure One Road One This invention was made in view of the above-mentioned circumstances.
In particular, in monosyllabic speech ms, when the beginning of the speech interval has low speech energy and a high proportion of low frequency components, the purpose of this study is to reduce the amount of matching processing by performing matching only with voiced consonants. It has been done.
勇−−」え
本発明は、上記目的を達成するために、入力信号を周波
数分析して特徴ベクトルの時系列(xl。In order to achieve the above object, the present invention frequency-analyzes an input signal to generate a time series of feature vectors (xl).
x2・・・Xr)に変換する特徴系列変換手段と、入力
信号から音声区間を切り出す音声区間検出手段とを具備
する単音節音声認識装置において、音声のエネルギーが
第1の閾値より低くかつ低い周波数成分が音声エネルギ
ー中に占める割合が第2の閾値より高くなるフレームが
、音声区間の先頭から第3の閾値より長く継続するとき
、撥音/N/と有声子音(/b/、/d/、/g/、/
m/、/n/、/z/、/r/)を持つ単音節とのみマ
ツチングすることを特徴としたものである。以下。x2... When a frame in which the proportion of the component in the speech energy is higher than the second threshold continues from the beginning of the speech section for longer than the third threshold, the phonic sound /N/ and voiced consonants (/b/, /d/, /g/, /
It is characterized by matching only with monosyllables having the following characters (m/, /n/, /z/, /r/). below.
本発明の実施例に基いて説明する。An explanation will be given based on an example of the present invention.
第1図は、本発明の一実施例を説明するための構成図で
1図中、1はマイク、2は特徴系列変換部、3は音声区
間検出部、4は判定部、5は認識部で、まず、マイクよ
り入力された音声信号を周波数分析して特徴ベクトルの
時系列に変換する。FIG. 1 is a block diagram for explaining one embodiment of the present invention. In the figure, 1 is a microphone, 2 is a feature sequence converter, 3 is a speech section detector, 4 is a determination unit, and 5 is a recognition unit. First, the audio signal input from the microphone is frequency-analyzed and converted into a time series of feature vectors.
入力信号を周波数分析する方法には、様々なものがある
が、本実施例では、15チヤンネルのバンドパスフィル
タ一群を用いる事にする。フィルターのチャンネルは中
心周波数250〜6300&の範囲で1/3オクターブ
ごとに配置すればよい。There are various methods for frequency analysis of an input signal, but in this embodiment, a group of 15 channel bandpass filters will be used. The filter channels may be arranged every 1/3 octave within the center frequency range of 250 to 6300&.
音声区間検出手段は1本発明では、直接関係がないので
、その詳細な説明は省略するが、様々な方法があること
は知られている。Since the voice section detection means is not directly related to the present invention, a detailed explanation thereof will be omitted, but it is known that there are various methods.
判定部では、音声区間の先頭がバズバ一部であるか否か
を判定している。バズバ一部は、有声破裂音の前部に存
在し、破裂時点以前に声帯が振動を開始するために、呪
われる区間である0判定で用いるパラメータは、以下で
述べる正規化音声エネルギーPLと低周波数成分の割合
LLとを用いる。The determination unit determines whether the beginning of the voice section is part of the buzzer. The buzzer part exists at the front of the voiced plosive, and the vocal cords start vibrating before the point of plosive, so the parameters used in the 0 judgment, which is a cursed section, are the normalized vocal energy PL and low The frequency component ratio LL is used.
ここでχi、jは、iフレームのjチャンネルの出力で
ある。Here, χi,j is the output of the j channel of the i frame.
つまり、Piはiフレームの音声エネルギー(Σj=1
Thlは第1の閾値、Th2は第2の閾値、Th3は第
3の閾値、iはクレーム番号、Piは正規化音声エネル
ギー、Liは低周波数成分の割合2mはバスバ一部(P
i<ThlかつLi>Th2)と判定されたフレーム数
であり、mが閾値Th3を越えるか(A)、否か(B)
で認識の対象を変えている。但し、m>Thであっても
、つまり(A)であっても、/b/、/d/、/g/、
/z/以外に/r/や/m/、/n/、/N/ともマツ
チングを行うようにしている。これは、流音/r/や鼻
音/m/、/n/、/N/の音声区間先頭でバズバ一部
と非常に良く似た特徴(つまりPi(ThlかつLi>
Th2)を持つ場合があるからである。That is, Pi is the audio energy of i frame (Σj=1, Thl is the first threshold, Th2 is the second threshold, Th3 is the third threshold, i is the claim number, Pi is the normalized audio energy, and Li is the low frequency The component ratio 2m is part of the busbar (P
i<Thl and Li>Th2), and whether m exceeds the threshold Th3 (A) or not (B)
The object of recognition is changed. However, even if m>Th, that is, even if (A), /b/, /d/, /g/,
In addition to /z/, /r/, /m/, /n/, and /N/ are also matched. This is a feature very similar to the buzz part at the beginning of the vocal section of the fluid sound /r/ and the nasal sound /m/, /n/, /N/ (i.e., Pi (Thl and Li>
Th2).
また、有声破裂音においてもバズバ一部を持たない場合
もあり、m (T H3の場合つまり(B)の場合には
全ての子音とマツチングを行うようにしている。Also, voiced plosives may not have part of the buzz, so in the case of m (T H3, that is, in the case of (B)), matching with all consonants is performed.
以上のようにして、本発明によって、認識性能を劣化さ
せることなく、マツチングの演算量を削減する事が可能
である。なお、閾値は、Th1=0.75.Th2=0
.9.Th3=4(フレーム周期5 m5ecの場合、
つまり、20■sec程度)に設定すればよい。As described above, according to the present invention, it is possible to reduce the amount of matching calculations without deteriorating recognition performance. Note that the threshold value is Th1=0.75. Th2=0
.. 9. Th3=4 (if the frame period is 5 m5ec,
In other words, it may be set to about 20 seconds).
籐−一来
以上の説明から明らかなように、本発明によると、認識
性能を劣化させることなく、子音の識別に必要な演算量
を削減することができる。As is clear from the above description, according to the present invention, the amount of calculation required for consonant identification can be reduced without deteriorating recognition performance.
第1図は、本発明の一実施例を説明するための構成図、
第2図は、その動作説明をするためのフローチャートで
ある。
1・・・マイク、2・・・特徴系列変換部、3・・・音
声区間検出部、4・・・判定部、5・・・認識部。FIG. 1 is a configuration diagram for explaining one embodiment of the present invention,
FIG. 2 is a flowchart for explaining the operation. DESCRIPTION OF SYMBOLS 1...Microphone, 2...Feature series converter, 3...Speech section detection part, 4...Determination part, 5...Recognition part.
Claims (1)
1、X_2・・・X_x)に変換する特徴系列変換手段
と、入力信号から音声区間を切り出す音声区間検出手段
とを具備する単音節音声認識装置において、音声のエネ
ルギーが第1の閾値より低くかつ低い周波数成分が音声
エネルギー中に占める割合が第2の閾値より高くなるフ
レームが、音声区間の先頭から第3の閾値より長く継続
するとき、撥音/N/と有声子音(/b/、/d/、/
g/、/m/、/n/、/z/、/r/)を持つ単音節
とのみマッチングすることを特徴とする単音節音声認識
装置。Frequency analysis of the input signal is performed to generate a time series of feature vectors (X_
1, X_2... When a frame in which the proportion of low frequency components in the speech energy is higher than the second threshold continues from the beginning of the speech section for longer than the third threshold, the phonic /N/ and voiced consonants (/b/, /d /、/
A monosyllabic speech recognition device characterized in that it matches only monosyllables having g/, /m/, /n/, /z/, /r/).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62057621A JPS63221397A (en) | 1987-03-11 | 1987-03-11 | Monosyllable voice recognition equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62057621A JPS63221397A (en) | 1987-03-11 | 1987-03-11 | Monosyllable voice recognition equipment |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63221397A true JPS63221397A (en) | 1988-09-14 |
Family
ID=13060945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62057621A Pending JPS63221397A (en) | 1987-03-11 | 1987-03-11 | Monosyllable voice recognition equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63221397A (en) |
-
1987
- 1987-03-11 JP JP62057621A patent/JPS63221397A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130393A (en) | Voice recognition equipment | |
JPS5972496A (en) | Single sound identifier | |
JPS63221397A (en) | Monosyllable voice recognition equipment | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JPS5995597A (en) | Voice feature parameter preparation system | |
JP2557497B2 (en) | How to identify male and female voices | |
JPS63223696A (en) | Voice pattern generation system | |
JPS6217800A (en) | Voice section decision system | |
JPS6257000A (en) | Voice recognition equipment | |
JPH0567039B2 (en) | ||
JPS59211098A (en) | Voice recognition equipment | |
JP3008404B2 (en) | Voice recognition device | |
JPS60115996A (en) | Voice recognition equipment | |
JPS5946698A (en) | Voice recognition system | |
JPS6059394A (en) | Voice recognition equipment | |
JPS62115498A (en) | Voiceless plosive consonant identification system | |
JPS6069695A (en) | Segmentation of head consonant | |
JPS62238599A (en) | Voice section detecting system | |
JPS6053997A (en) | Phoneme discrimination | |
JPS61203498A (en) | Preselection system for voice recognition equipment | |
JPS6391700A (en) | Voice recognition equipment | |
JPS6363919B2 (en) | ||
JPS62191900A (en) | Voiceless plosive consonant identification system | |
JPS63213900A (en) | Plosive consonant identification system | |
JPS6069700A (en) | Voice recognition equipment |