JPS63221397A - Monosyllable voice recognition equipment - Google Patents

Monosyllable voice recognition equipment

Info

Publication number
JPS63221397A
JPS63221397A JP62057621A JP5762187A JPS63221397A JP S63221397 A JPS63221397 A JP S63221397A JP 62057621 A JP62057621 A JP 62057621A JP 5762187 A JP5762187 A JP 5762187A JP S63221397 A JPS63221397 A JP S63221397A
Authority
JP
Japan
Prior art keywords
speech
threshold
monosyllable
voice recognition
recognition equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62057621A
Other languages
Japanese (ja)
Inventor
室井 哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62057621A priority Critical patent/JPS63221397A/en
Publication of JPS63221397A publication Critical patent/JPS63221397A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 抜4九更 本発明は、単音節音声認識に関する。[Detailed description of the invention] Nuki 49 The present invention relates to monosyllabic speech recognition.

灸未遣監 従来の単音節音声認識においては、母音を同定した後に
全ての子音とマツチングするため演算量が多いという欠
点があった。
Conventional monosyllabic speech recognition has the disadvantage that it requires a large amount of calculation because it must match all consonants after identifying the vowel.

一圧一一道一 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、単音節音声msにおいて、音声区間の先頭が、音
声エネルギーが低くかつ低い周波数成分の占める割合が
高いとき、有声子音とのみマツチングを行なうことによ
り、マツチング処理量の低減を図ることを目的としてな
されたものである。
One Pressure One Road One This invention was made in view of the above-mentioned circumstances.
In particular, in monosyllabic speech ms, when the beginning of the speech interval has low speech energy and a high proportion of low frequency components, the purpose of this study is to reduce the amount of matching processing by performing matching only with voiced consonants. It has been done.

勇−−」え 本発明は、上記目的を達成するために、入力信号を周波
数分析して特徴ベクトルの時系列(xl。
In order to achieve the above object, the present invention frequency-analyzes an input signal to generate a time series of feature vectors (xl).

x2・・・Xr)に変換する特徴系列変換手段と、入力
信号から音声区間を切り出す音声区間検出手段とを具備
する単音節音声認識装置において、音声のエネルギーが
第1の閾値より低くかつ低い周波数成分が音声エネルギ
ー中に占める割合が第2の閾値より高くなるフレームが
、音声区間の先頭から第3の閾値より長く継続するとき
、撥音/N/と有声子音(/b/、/d/、/g/、/
m/、/n/、/z/、/r/)を持つ単音節とのみマ
ツチングすることを特徴としたものである。以下。
x2... When a frame in which the proportion of the component in the speech energy is higher than the second threshold continues from the beginning of the speech section for longer than the third threshold, the phonic sound /N/ and voiced consonants (/b/, /d/, /g/, /
It is characterized by matching only with monosyllables having the following characters (m/, /n/, /z/, /r/). below.

本発明の実施例に基いて説明する。An explanation will be given based on an example of the present invention.

第1図は、本発明の一実施例を説明するための構成図で
1図中、1はマイク、2は特徴系列変換部、3は音声区
間検出部、4は判定部、5は認識部で、まず、マイクよ
り入力された音声信号を周波数分析して特徴ベクトルの
時系列に変換する。
FIG. 1 is a block diagram for explaining one embodiment of the present invention. In the figure, 1 is a microphone, 2 is a feature sequence converter, 3 is a speech section detector, 4 is a determination unit, and 5 is a recognition unit. First, the audio signal input from the microphone is frequency-analyzed and converted into a time series of feature vectors.

入力信号を周波数分析する方法には、様々なものがある
が、本実施例では、15チヤンネルのバンドパスフィル
タ一群を用いる事にする。フィルターのチャンネルは中
心周波数250〜6300&の範囲で1/3オクターブ
ごとに配置すればよい。
There are various methods for frequency analysis of an input signal, but in this embodiment, a group of 15 channel bandpass filters will be used. The filter channels may be arranged every 1/3 octave within the center frequency range of 250 to 6300&.

音声区間検出手段は1本発明では、直接関係がないので
、その詳細な説明は省略するが、様々な方法があること
は知られている。
Since the voice section detection means is not directly related to the present invention, a detailed explanation thereof will be omitted, but it is known that there are various methods.

判定部では、音声区間の先頭がバズバ一部であるか否か
を判定している。バズバ一部は、有声破裂音の前部に存
在し、破裂時点以前に声帯が振動を開始するために、呪
われる区間である0判定で用いるパラメータは、以下で
述べる正規化音声エネルギーPLと低周波数成分の割合
LLとを用いる。
The determination unit determines whether the beginning of the voice section is part of the buzzer. The buzzer part exists at the front of the voiced plosive, and the vocal cords start vibrating before the point of plosive, so the parameters used in the 0 judgment, which is a cursed section, are the normalized vocal energy PL and low The frequency component ratio LL is used.

ここでχi、jは、iフレームのjチャンネルの出力で
ある。
Here, χi,j is the output of the j channel of the i frame.

つまり、Piはiフレームの音声エネルギー(Σj=1 Thlは第1の閾値、Th2は第2の閾値、Th3は第
3の閾値、iはクレーム番号、Piは正規化音声エネル
ギー、Liは低周波数成分の割合2mはバスバ一部(P
i<ThlかつLi>Th2)と判定されたフレーム数
であり、mが閾値Th3を越えるか(A)、否か(B)
で認識の対象を変えている。但し、m>Thであっても
、つまり(A)であっても、/b/、/d/、/g/、
/z/以外に/r/や/m/、/n/、/N/ともマツ
チングを行うようにしている。これは、流音/r/や鼻
音/m/、/n/、/N/の音声区間先頭でバズバ一部
と非常に良く似た特徴(つまりPi(ThlかつLi>
Th2)を持つ場合があるからである。
That is, Pi is the audio energy of i frame (Σj=1, Thl is the first threshold, Th2 is the second threshold, Th3 is the third threshold, i is the claim number, Pi is the normalized audio energy, and Li is the low frequency The component ratio 2m is part of the busbar (P
i<Thl and Li>Th2), and whether m exceeds the threshold Th3 (A) or not (B)
The object of recognition is changed. However, even if m>Th, that is, even if (A), /b/, /d/, /g/,
In addition to /z/, /r/, /m/, /n/, and /N/ are also matched. This is a feature very similar to the buzz part at the beginning of the vocal section of the fluid sound /r/ and the nasal sound /m/, /n/, /N/ (i.e., Pi (Thl and Li>
Th2).

また、有声破裂音においてもバズバ一部を持たない場合
もあり、m (T H3の場合つまり(B)の場合には
全ての子音とマツチングを行うようにしている。
Also, voiced plosives may not have part of the buzz, so in the case of m (T H3, that is, in the case of (B)), matching with all consonants is performed.

以上のようにして、本発明によって、認識性能を劣化さ
せることなく、マツチングの演算量を削減する事が可能
である。なお、閾値は、Th1=0.75.Th2=0
.9.Th3=4(フレーム周期5 m5ecの場合、
つまり、20■sec程度)に設定すればよい。
As described above, according to the present invention, it is possible to reduce the amount of matching calculations without deteriorating recognition performance. Note that the threshold value is Th1=0.75. Th2=0
.. 9. Th3=4 (if the frame period is 5 m5ec,
In other words, it may be set to about 20 seconds).

籐−一来 以上の説明から明らかなように、本発明によると、認識
性能を劣化させることなく、子音の識別に必要な演算量
を削減することができる。
As is clear from the above description, according to the present invention, the amount of calculation required for consonant identification can be reduced without deteriorating recognition performance.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は、本発明の一実施例を説明するための構成図、
第2図は、その動作説明をするためのフローチャートで
ある。 1・・・マイク、2・・・特徴系列変換部、3・・・音
声区間検出部、4・・・判定部、5・・・認識部。
FIG. 1 is a configuration diagram for explaining one embodiment of the present invention,
FIG. 2 is a flowchart for explaining the operation. DESCRIPTION OF SYMBOLS 1...Microphone, 2...Feature series converter, 3...Speech section detection part, 4...Determination part, 5...Recognition part.

Claims (1)

【特許請求の範囲】[Claims] 入力信号を周波数分析して特徴ベクトルの時系列(X_
1、X_2・・・X_x)に変換する特徴系列変換手段
と、入力信号から音声区間を切り出す音声区間検出手段
とを具備する単音節音声認識装置において、音声のエネ
ルギーが第1の閾値より低くかつ低い周波数成分が音声
エネルギー中に占める割合が第2の閾値より高くなるフ
レームが、音声区間の先頭から第3の閾値より長く継続
するとき、撥音/N/と有声子音(/b/、/d/、/
g/、/m/、/n/、/z/、/r/)を持つ単音節
とのみマッチングすることを特徴とする単音節音声認識
装置。
Frequency analysis of the input signal is performed to generate a time series of feature vectors (X_
1, X_2... When a frame in which the proportion of low frequency components in the speech energy is higher than the second threshold continues from the beginning of the speech section for longer than the third threshold, the phonic /N/ and voiced consonants (/b/, /d /、/
A monosyllabic speech recognition device characterized in that it matches only monosyllables having g/, /m/, /n/, /z/, /r/).
JP62057621A 1987-03-11 1987-03-11 Monosyllable voice recognition equipment Pending JPS63221397A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62057621A JPS63221397A (en) 1987-03-11 1987-03-11 Monosyllable voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62057621A JPS63221397A (en) 1987-03-11 1987-03-11 Monosyllable voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS63221397A true JPS63221397A (en) 1988-09-14

Family

ID=13060945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62057621A Pending JPS63221397A (en) 1987-03-11 1987-03-11 Monosyllable voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS63221397A (en)

Similar Documents

Publication Publication Date Title
JPS58130393A (en) Voice recognition equipment
JPS5972496A (en) Single sound identifier
JPS63221397A (en) Monosyllable voice recognition equipment
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS5995597A (en) Voice feature parameter preparation system
JP2557497B2 (en) How to identify male and female voices
JPS63223696A (en) Voice pattern generation system
JPS6217800A (en) Voice section decision system
JPS6257000A (en) Voice recognition equipment
JPH0567039B2 (en)
JPS59211098A (en) Voice recognition equipment
JP3008404B2 (en) Voice recognition device
JPS60115996A (en) Voice recognition equipment
JPS5946698A (en) Voice recognition system
JPS6059394A (en) Voice recognition equipment
JPS62115498A (en) Voiceless plosive consonant identification system
JPS6069695A (en) Segmentation of head consonant
JPS62238599A (en) Voice section detecting system
JPS6053997A (en) Phoneme discrimination
JPS61203498A (en) Preselection system for voice recognition equipment
JPS6391700A (en) Voice recognition equipment
JPS6363919B2 (en)
JPS62191900A (en) Voiceless plosive consonant identification system
JPS63213900A (en) Plosive consonant identification system
JPS6069700A (en) Voice recognition equipment