JPS6310437B2 - - Google Patents

Info

Publication number
JPS6310437B2
JPS6310437B2 JP56035710A JP3571081A JPS6310437B2 JP S6310437 B2 JPS6310437 B2 JP S6310437B2 JP 56035710 A JP56035710 A JP 56035710A JP 3571081 A JP3571081 A JP 3571081A JP S6310437 B2 JPS6310437 B2 JP S6310437B2
Authority
JP
Japan
Prior art keywords
frame
word
beginning
section
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56035710A
Other languages
Japanese (ja)
Other versions
JPS57148799A (en
Inventor
Yoshiteru Mifune
Hidekazu Tsuboka
Satoru Kabasawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP56035710A priority Critical patent/JPS57148799A/en
Publication of JPS57148799A publication Critical patent/JPS57148799A/en
Publication of JPS6310437B2 publication Critical patent/JPS6310437B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声の語頭検出方式に関するものであ
る。具体的には例えば入力信号パターン系列の電
力値に基づく音声区間の切り出しおよび音声区間
の系列に対してパターンに基づく音韻分類を行な
つた後に、音声区間の音韻系列の並びによつて音
声の語頭検出を行なうことにより、音声の語頭に
発生する雑音(外界雑音、唇、歯、舌、唾による
雑音)を除去し、かつ語頭の無声子音の確保を図
り、音声の語頭検出精度を向上させ、音声認識装
置における認識率の改善を図ることを目的とする
ものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a method for detecting the beginning of a speech word. Specifically, for example, after cutting out a speech section based on the power value of an input signal pattern sequence and performing phoneme classification based on the pattern on the series of speech sections, the beginning of a speech is detected based on the arrangement of the phoneme sequence of the speech section. By doing this, noise that occurs at the beginning of speech words (external noise, noise caused by lips, teeth, tongue, and saliva) is removed, and the voiceless consonants at the beginning of words are secured, improving the accuracy of detecting the beginning of speech words. The purpose is to improve the recognition rate of recognition devices.

今、入力信号パターン系列は式(1)のように特徴
ベクトルの系列として表わされているものとす
る。
It is now assumed that the input signal pattern sequence is expressed as a sequence of feature vectors as shown in equation (1).

X1,X2,……,XN ……(1) 各々のXi,i=1,……,Nはそれぞれm次元
のベクトルであつて、 Xi=(xi1,……,xin) と表わされる。ここで、特徴ベクトルとしては、
例えばmチヤンネルのバンドパスフイルタの出力
x1(t),……,xj(t),……,xn(t)を時間標
本化したものと考えることができる。
X 1 , X 2 , ..., X N ... (1) Each X i , i=1, ... , N is an m-dimensional vector, in ). Here, the feature vector is
For example, the output of an m-channel bandpass filter
It can be considered that x 1 (t), ..., x j (t), ..., x n (t) are time-sampled.

また、特徴ベクトルで表わされる信号の区間
(時間標本化区間)をフレームと表現している。
Furthermore, a signal interval (time sampling interval) represented by a feature vector is expressed as a frame.

信号パターン系列の電力値系列は、式(2)で示さ
れる各フレームの電力値の系列であり、 PW1,PW2,……,PWN ……(2) 式(1)で表わされる信号パターン系列がフイルタ
バンクによつて得られる場合にはベクトルXiの電
力値は、 PWi=(nj=1 xij 21/2 あるいは PWinj=1 |xij| ……(3) と定義される。
The power value series of the signal pattern series is a series of power values of each frame expressed by equation (2), and PW 1 , PW 2 , ..., PW N ... (2) The signal expressed by equation (1) If the pattern sequence is obtained by a filter bank, the power value of vector X i is PW i = ( nj=1 x ij 2 ) 1/2 or PW i = nj=1 | x ij | ...(3) is defined as.

ただし、Xi=(xi1,……,xin)である。 However, X i =(x i1 , ..., x in ).

従来の音声信号パターン系列の語頭検出方式
は、そのほとんどのものが式(3)で示したような入
力信号パターン系列の電力値のみに基づいてお
り、第1図に示すように、入力信号パターン系列
の電力値PWが、はじめて音声信号の最小電力値
PVMiN以上となるフレームが一定フレーム長L
1以上連続する場合を語頭とし、この語頭以後の
系列において、該電力値PWが、はじめて音声信
号の最小電力値PVMiN以下となるフレームが一
定フレーム長L2以上連続する場合を語尾とし
て、入力信号パターン系列の音声区間Vを検出し
ていた。
Most of the conventional word beginning detection methods for audio signal pattern sequences are based only on the power value of the input signal pattern sequence as shown in equation (3). The power value PW of the series is the minimum power value of the audio signal for the first time.
PVM i A frame with N or more has a constant frame length L
The case where 1 or more consecutive frames are input as the beginning of a word, and the case where the power value PW is less than or equal to the minimum power value PVM i N of the audio signal for the first time in the series after the beginning of the word is considered as the end of the word. Voice section V of the signal pattern series was detected.

さらに音声の語頭の無声子音を確保することを
目的とするものでは、第2図に示すように、音声
区間の切り出しを2つの電力値レベルQ1,Q2
よつて行なうものがあり、入力信号パターン系列
の電力値PWが、はじめて閾値Q2以上となるフレ
ームが一定フレーム長L1′以上連続する場合を
語頭候補とし、語頭候補の直前で、該電力値PW
が閾値Q1と交わる時点を語頭としていた。
Furthermore, as shown in Fig. 2, there is a system whose purpose is to secure unvoiced consonants at the beginning of speech words, in which the segmentation of speech sections is performed using two power value levels Q 1 and Q 2 . A case where the power value PW of the signal pattern series is equal to or higher than the threshold Q2 for the first time continues for a certain frame length L1' or more is considered a word-initial candidate, and the power value PW is set immediately before the word-initial candidate.
The point at which Q intersects with the threshold Q 1 was taken as the beginning of the word.

このような、信号パターン系列の電力値のレベ
ルと発生区間長にのみ基づく語頭検出方式におい
ては、音声の発声時点に生じる雑音(外界の騒音
振動音あるいは音声の発声の準備に伴う、歯、
唇、舌などがぶつかる音や唾による雑音)を語頭
として検出する場合があり、このような雑音を除
去するために電力値の閾値レベルを上げるか発生
区間長を長く設定すると音声の語頭の無声子音を
確保することが不可能となり、語頭の検出精度は
きわめて低いものとなる。
In such a word beginning detection method based only on the power level of the signal pattern sequence and the length of the generation interval, it is difficult to detect noise that occurs at the time of speech production (such as external noise, vibrations, teeth, etc. accompanying the preparation for speech production).
In some cases, sounds such as lips and tongues colliding or noises caused by saliva may be detected as the beginning of a word.In order to remove such noise, increasing the power threshold level or setting a longer generation interval length may detect silence at the beginning of a word. It becomes impossible to secure consonants, and the accuracy of detecting the beginning of a word becomes extremely low.

このため従来の音声認識装置は、正確な音声区
間の切り出しができず、認識率は低いものであつ
た。
For this reason, conventional speech recognition devices have been unable to accurately cut out speech sections, resulting in low recognition rates.

上述したように音声パターン系列の語頭検出
を、信号パターン系列の電力値のみに基づいて行
なうと、音声の発声時点における雑音と無声子音
の判別が困難となり検出精度が低減する。そこで
式(1)で示される信号パターン系列がフイルタ・バ
ンクによつて得られる場合には、各フレームのパ
ターンに基づく周波数情報を用いることが考えら
れる。
As described above, if the beginning of a speech pattern series is detected based only on the power value of the signal pattern series, it becomes difficult to distinguish between noise and unvoiced consonants at the time the speech is uttered, and the detection accuracy decreases. Therefore, if the signal pattern series expressed by equation (1) is obtained by a filter bank, it is conceivable to use frequency information based on the pattern of each frame.

本発明はこの点に着目したもので、以下にその
実施例と共に説明する。
The present invention focuses on this point, and will be described below along with examples thereof.

式(2)で示した電力値系列以外に、式(4)で表わさ
れる低域偏り値系列、 PL1,PL2,………,PLN (4) および、式(5)で表わされる電力偏り値系列、 PD1,PD2,………,PDN (5) を使用するものとする。するとフイルタ・バンク
がmチヤンネルで構成され、中心周波数wcoが、 wc1<wc2<………<wcj<………<wcn である場合には、前記特徴ベクトルXiの低域偏り
値は、 PLikj=1 |xij| (6) k<m/2 で定義され、前記特徴ベクトルXの電力偏り値
は、式(3)で定義される電力値PWiを用いて、 PDi=j such that min{j|jj=1 |xij|>PWi/2} と定義される。
In addition to the power value series shown in equation (2), the low-frequency bias value series shown in equation (4), PL 1 , PL 2 , ......, PL N (4), and the equation (5) shown in Assume that the power bias value series PD 1 , PD 2 , ......, PD N (5) is used. Then, if the filter bank is composed of m channels and the center frequency w co is w c1 < w c2 < ...... < w cj < ...... < w cn , then the low frequency of the feature vector X i The bias value is defined as PL i = kj=1 | x ij | (6) k<m/2, and the power bias value of the feature vector X is the power value PW i defined by equation (3). PD i =j such that min {j| jj=1 |x ij |>PW i /2}.

つまり式(3)で示した電力値以外に、周波数情報
として式(6)で示した低域偏り値、および式(7)で示
した電力偏り値の3つのパラメータに基づいて音
声パターン系列の語頭検出を行なうものとする。
In other words, in addition to the power value shown in equation (3), the voice pattern sequence is calculated based on three parameters: the low frequency bias value shown in equation (6) as frequency information, and the power bias value shown in equation (7). It is assumed that word beginning detection is performed.

また音声パターン系列の各フレームの大まかな
音韻分類は、該電力値、低域偏り値、電力偏り値
の3つのパラメータによつて行なうことができ
る。ここで大まかな音韻分類とは有声音、無声子
音、無音に分類することを示す。有声音は母音
(|a|,|i|,|u|,|e|,|o|)、有声子
音(|m|,|n|,|b|,|g|,|d|,|r
|,|Z|)、半母音(|z|,|w|)および撥
音(|x|,うん音)であり、無声子音は(|c
|,|s|,|h|,|p|,|t|,|k|)およ
び促音(|Q|、つまり音)であり、無音は音韻
が発声されていない状態である。
Rough phoneme classification of each frame of the speech pattern series can be performed using three parameters: the power value, the low frequency bias value, and the power bias value. Here, the rough phonological classification refers to classification into voiced sounds, voiceless consonants, and silent sounds. Voiced sounds are vowels (|a|, |i|, |u|, |e|, |o|), and voiced consonants (|m|, |n|, |b|, |g|, |d|, | r
|, |Z|), semivowels (|z|, |w|) and pellicles (|x|, un), and voiceless consonants are (|c
|, |s|, |h|, |p|, |t|, |k|) and consonants (|Q|, that is, sounds), and silence is a state in which no phoneme is uttered.

第4図に、音声パターン系列の各フレームにお
ける、大まかな音韻分類と、電力値PW、電力偏
り値PDおよびおよび低域偏り値PLとの対応関係
を示す。同図においてフイルタ・バンクは第3図
に示したような中心周波数と帯域幅をもつ20チヤ
ンネルのフイルタ・バンクを用い、低域偏り値
PLは、式(6)においてK=3(低域3チヤンネル分
の和)としたものである。同図aは、低域偏り値
PL≦0.05×電力値PWの場合の大まかな音韻分類
を示し、同図bは低域偏り値PL>0.05×電力値
PWの場合を示す。
FIG. 4 shows the correspondence between the rough phoneme classification and the power value PW, power bias value PD, and low frequency bias value PL in each frame of the speech pattern series. In the figure, a 20-channel filter bank with the center frequency and bandwidth shown in Figure 3 is used, and the low frequency bias value is
PL is obtained by setting K=3 (sum of three low-frequency channels) in equation (6). In the same figure, a is the low frequency bias value.
The rough phonological classification is shown when PL≦0.05×power value PW, and b of the same figure shows the low frequency bias value PL>0.05×power value.
The case of PW is shown.

そこで音声パターン系列の語頭検出を、はじめ
は信号パターン系列の電力値に基づく音声区間の
切出しを行ない、次はその音声区間の信号パター
ン系列の各フレームを電力値PWi、低域偏り値
PLi、電力偏り値PDiに基づいて大まかな音韻分
類を行ない、最後に音韻系列のならびにもとづい
て行なうものとする。上記のような語頭検出を行
なうと日本語音声の音韻のならびにおける特性と
音声の発声時点における雑音の周波数および発生
区間の特性によつてより精度の高い語頭検出を行
なうことができる。
Therefore, when detecting the beginning of a speech pattern series, we first cut out a speech section based on the power value of the signal pattern series, and next we extract each frame of the signal pattern series in that speech section using the power value PW i and the low frequency bias value.
Rough phoneme classification is performed based on PL i and power bias value PD i , and finally based on the arrangement of phoneme sequences. When the beginning of a word is detected as described above, it is possible to detect the beginning of a word with higher accuracy based on the characteristics of the phoneme sequence of Japanese speech, the frequency of the noise at the time of utterance, and the characteristics of the interval of occurrence.

日本語音声の音韻のならびにおける特性は、音
節が、母音、子音+母音、子音+半母音+母音で
構成されており子音だけが独立することがないこ
とである。また音声の発生時点における雑音の特
性は、パルス性の雑音であるため発生区間が孤立
していることであり、大まかな音韻分類にもとづ
くと、孤立した短い無声子音区間(一部有声音も
含む)と考えられる。つまり語頭の無声子音は、
音韻系列においてはじめて一定長以上有声子音が
連続する区間(母音)の前に連続する無声子音区
間で検出され、音声の発生時点における雑音は、
その連続有声子音区間とは孤立した一定長以下の
無声子音区間(一部有声音も含む)で検出され
る。
A characteristic of the phonetic sequence of Japanese speech is that syllables are composed of vowels, consonants + vowels, and consonants + semi-vowels + vowels, and consonants do not stand alone. Furthermore, the characteristic of noise at the time of speech generation is that it is a pulsed noise, so the generation interval is isolated. )it is conceivable that. In other words, the voiceless consonant at the beginning of a word is
For the first time in the phonetic series, voiced consonants of a certain length or longer are detected in a continuous unvoiced consonant interval before a continuous interval (vowel), and the noise at the time of speech generation is
The continuous voiced consonant section is detected as an isolated unvoiced consonant section (including some voiced sounds) of a certain length or less.

音声区間の音韻系列における語頭検出方式を第
5図にて説明する。同図は音韻系列のならびを示
したものであり、Hは音声区間切出しの始端フレ
ームを示し、■は有声音フレーム、□/は無声子音
フレーム、□は無音フレームを示している。
A method for detecting the beginning of a word in a phoneme sequence of a speech interval will be explained with reference to FIG. The figure shows the arrangement of phoneme sequences, where H indicates the starting frame of speech segment extraction, ■ indicates a voiced frame, □/ indicates a voiceless consonant frame, and □ indicates a silent frame.

まず始端フレームH以後に始めて一定長L3以
上有声音フレームの連続する区間を検出し、その
先頭フレームipを検出する(音節における母音、
半母音、有声子音の検出)。第5図aのようにフ
レームHとフレームipの間に無音フレームのない
場合には、フレームHを語頭WHとする(雑音と
なる孤立フレームが存在しない)。フレームHと
フレームipの間に無音フレームが存在する場合
は、フレームipに最も隣接した無音フレームの直
後のフレームを語頭候補フレームWH1とする
(母音、半母音の直前の無声子音を確保)。第5図
bのようにフレームHとフレームWH1の間に一
定長L4以上の孤立した非無音フレーム(有声音
あるいは無声子音フレーム)が無に場合には、フ
レームWH1を語頭WHとする(音声の発声時点
の雑音除去)。第5図cのようにフレームHとフ
レームWH1の間に一定長L4以上の孤立した非
無音フレームが存在する場合は、フレームWH1
に最も隣接した該非無音フレームの先頭フレーム
を語頭WHとする(語頭の無声子音および有声子
音の確保)。
First, starting after the starting frame H, a continuous section of voiced frames of a certain length L3 or more is detected, and its starting frame ip is detected (the vowel in the syllable,
detection of semivowels and voiced consonants). If there is no silent frame between frame H and frame ip as shown in FIG. 5a, frame H is taken as the beginning of the word WH (there is no isolated frame that becomes noise). If a silent frame exists between frame H and frame ip, the frame immediately after the silent frame closest to frame ip is set as the word-initial candidate frame WH1 (a silent consonant immediately before a vowel or semi-vowel is secured). As shown in Figure 5b, if there is no isolated non-silent frame (voiced sound or unvoiced consonant frame) of a certain length L4 or more between frame H and frame WH1, frame WH1 is set as the beginning of the word WH (of the voice). noise removal at the time of utterance). If there is an isolated non-silent frame of a certain length L4 or more between frame H and frame WH1 as shown in Figure 5c, frame WH1
The first frame of the non-silent frame most adjacent to is set as the word-initial WH (to ensure word-initial voiceless consonants and voiced consonants).

第6図は本発明の語頭検出方式を実現するため
の装置の具体構成を示すものである。同図におい
て、入力部1はフイルタ・バンク13、標本化器
14からなり、パラメータ計算部2は電力値計算
器15、低域偏り値計算器16、電力偏り値計算
器17からなり、音声区間切出し部3は電力値判
別部18、電力値系列カウント器19からなり、
音韻分類部4は音韻大分類器20、音韻系列カウ
ント器21、音韻レジスタA22、音韻レジスタ
B23、出力ゲート25から構成されている。1
2はマイクロホン、24は音韻検出部、26は出
力端子である。
FIG. 6 shows a specific configuration of an apparatus for realizing the word beginning detection method of the present invention. In the figure, the input section 1 consists of a filter bank 13 and a sampler 14, and the parameter calculation section 2 consists of a power value calculator 15, a low frequency bias value calculator 16, a power bias value calculator 17, and a voice interval The extraction unit 3 includes a power value discriminator 18 and a power value series counter 19.
The phoneme classification section 4 is composed of a phoneme major classifier 20, a phoneme sequence counter 21, a phoneme register A22, a phoneme register B23, and an output gate 25. 1
2 is a microphone, 24 is a phoneme detection section, and 26 is an output terminal.

次に動作を説明する。マイクロホン12から入
力された入力音声信号は、フイルタ・バンク13
および標本化器14を介して、信号パラメータ系
列としてパラメータ計算部2に入力される。パラ
メータ計算部2では、電力値計算器15によつて
パターン系列の電力値を計算し、音声区間切出部
および低域偏り値計算器16、電力偏り値計算器
17に入力される。低域偏り値計算器16および
電力偏り値計算器17は音声区間切出し部から音
声区間信号e1が出力されていると、パターンおよ
び電力値から低域偏り値および電力偏り値を計算
し、音韻分類部へ出力する。音声区間切出し部で
は、電力値を電力値判定器18によつて一定の閾
値レベル以上か否を判定し、一定の閾値レベル以
上のフレームは電力値系列カウント器19によつ
てカウントを行ない、一定長のフレーム数連続す
る場合には、音声区間信号e1を出力する。音韻分
類部4では、音声区間検出部3から音声区間信号
e1が出力されていると、音韻大分類器20は、パ
ラメータ計算部2から出力される電力値、低域偏
り値、電力偏り値から、各フレームの大まかな、
有声音か無声子音あるいは無音かの音韻分類を行
ない、音韻系列カウント器21および音韻レジス
A22へ出力を行なう。音韻系列カウンタ21
は、はじめて有声子音フレームが一定長L3以上
連続することを検出すると、音韻レジスタA22
の内容を音韻レジスタB23に並列転送する。語
頭検出部24は、音韻レジスタB23の音韻系列
のならびによつて語頭を検出し、音韻レジスタB
23の内容を、語頭から出力ゲート25を介し
て、出力音韻系列26として出力を行い、音韻レ
ジスタB23の内容を出力し終ると、音韻レジス
タA22は遂次更新されているため、音韻レジス
タB23の内容に連続するフレームから音韻レジ
スタA22の内容を出力ゲート25を介して、出
力音韻系列として出力端子26から出力される。
Next, the operation will be explained. The input audio signal input from the microphone 12 is passed through the filter bank 13.
and is inputted to the parameter calculation unit 2 as a signal parameter series via the sampler 14. In the parameter calculating section 2, the power value of the pattern sequence is calculated by the power value calculator 15 and inputted to the voice section extraction section, the low frequency bias value calculator 16, and the power bias value calculator 17. When the voice section signal e1 is output from the voice section extraction section, the low frequency bias value calculator 16 and the power bias value calculator 17 calculate the low frequency bias value and the power bias value from the pattern and the power value, and calculate the phoneme. Output to the classification section. In the voice section extraction unit, a power value determiner 18 determines whether the power value is equal to or higher than a certain threshold level, and frames whose power value is equal to or higher than a certain threshold level are counted by a power value sequence counter 19, If a long frame number continues, a voice section signal e 1 is output. The phoneme classification section 4 receives the speech section signal from the speech section detection section 3.
If e 1 is output, the phoneme rough classifier 20 roughly calculates the
The phonemes are classified as voiced, unvoiced consonants, or silent, and are output to the phoneme sequence counter 21 and the phoneme register A22. Phonological sequence counter 21
When detecting for the first time that a voiced consonant frame continues for a certain length L3 or more, the phoneme register A22
The contents of are transferred to the phoneme register B23 in parallel. The word beginning detection unit 24 detects the beginning of a word based on the alignment of the phoneme series in the phoneme register B23, and
23 is output from the beginning of the word through the output gate 25 as the output phoneme sequence 26. When the contents of the phoneme register B23 have been output, since the phoneme register A22 has been updated successively, the contents of the phoneme register B23 are The contents of the phoneme register A22 are outputted from the output terminal 26 as an output phoneme sequence via the output gate 25 from frames that follow the contents.

以上の説明から明らかなように本発明は入力信
号パターン系列の電力値に基づく音声区間の切り
出しを行ない、さらにこの音声区間の信号パター
ン系列の各フレームを、パターンから求まる低域
偏り値および電力偏り値とこの電力値に基づいて
大まかな音韻分類を行なつた後に、音声区間の音
韻系列のならびに基づいて語頭検出を行なうこと
により、音声の発声時における雑音を除去し、か
つ音声の語頭の無声子音の確保を図り、音声の語
頭検出精度を向上させることができ、音声認識装
置の認識率の改善を図ることができる。
As is clear from the above description, the present invention cuts out a voice section based on the power value of an input signal pattern series, and further extracts each frame of the signal pattern series of this voice section based on the low frequency bias value and power bias found from the pattern. After performing a rough phoneme classification based on the power value and the power value, the beginning of the word is detected based on the phoneme sequence of the speech interval, thereby removing noise at the time of speech production and unvoiced speech at the beginning of the speech. It is possible to secure consonants, improve the accuracy of detecting the beginning of speech, and improve the recognition rate of the speech recognition device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図および第2図はそれぞれ音声区間を切り
出す操作を示す波形図、第3図は本発明による音
声の語頭検出方式を適用した音声信号パターン系
列を作成するフイルタ・バンクの周波数特性図、
第4図a,bは信号パターン系列の各フレームの
大まかな音韻分類と、パターンの電力値、低域偏
り値および電力偏り値との対応関係を示す図、第
5図a,b,cはそれぞれ音声区間の音韻系列か
ら音声の語頭を検出する操作の過程説明図、第6
図は本発明を適用した音声の語頭検出装置のブロ
ツク図である。 1……入力部、2……パラメータ計算部、3…
…音声区間切出し部、4……音韻分類部。
1 and 2 are waveform diagrams showing the operation of cutting out a speech section, respectively, and FIG. 3 is a frequency characteristic diagram of a filter bank for creating a speech signal pattern series to which the speech beginning detection method according to the present invention is applied.
Figures 4a and 4b are diagrams showing the correspondence between the rough phoneme classification of each frame of the signal pattern sequence and the power value, low frequency bias value, and power bias value of the pattern. A process explanatory diagram of the operation of detecting the beginning of a speech word from the phoneme sequence of a speech interval, respectively, Part 6
The figure is a block diagram of a speech word beginning detection device to which the present invention is applied. 1...Input section, 2...Parameter calculation section, 3...
...Speech segment cutting unit, 4...Phonological classification unit.

Claims (1)

【特許請求の範囲】[Claims] 1 一定長連続した入力信号パターン系列の電力
値が初めて閾値として定めた電力値以上となる開
始区間と、その開始区間以降に初めて、一定長連
続した前記パターン系列の電力値が閾値として定
めた電力値以下となる終了区間を検出して音声区
間の切り出しを行ない、前記音声区間の各々のフ
レームに対して、各フレームのパターンに基づ
き、有声音(母音、有声子音)、無声子音、無音
の分類を行ない、前記音声区間の語頭検出を、そ
の音声区間の始端と、初めて、有声音フレームが
連続する区間に、無音フレームが無い場合には、
その始端を語頭とし、無音フレームが有る場合に
は、前記連続有声音フレーム区間に最も隣接した
無音フレームの直後のフレームを語頭候補とし、
前記始端と語頭候補との間に、連続する非無音
(有声音あるいは無声子音)フレーム区間が無い
場合には、前記語頭候補を語頭とし、前記連続非
無音フレーム区間が有る場合には、前記語頭候補
に最も隣接した前記連続非無音フレーム区間の先
頭フレームを語頭とすることを特徴とする音声の
語頭検出方式。
1. A start interval in which the power value of a series of input signal patterns that continues for a certain length is equal to or higher than the power value determined as a threshold value for the first time, and a power value for which the power value of the pattern series that continues for a certain length for the first time after that start interval is determined as a threshold value. The end section that is less than or equal to the value is detected and the speech section is cut out, and each frame of the speech section is classified into voiced sounds (vowels, voiced consonants), voiceless consonants, and silence based on the pattern of each frame. The beginning of the word in the speech section is detected from the beginning of the speech section, and if there is no silent frame in the section where voiced frames are continuous,
The starting point is taken as the beginning of a word, and if there is a silent frame, the frame immediately after the silent frame most adjacent to the continuous voiced frame section is taken as the beginning of a word,
If there is no continuous non-silent (voiced or unvoiced consonant) frame section between the starting point and the word-initial candidate, the word-initial candidate is taken as the word-initial, and if there is a continuous non-silent frame section, the word-initial A method for detecting the beginning of a word in speech, characterized in that the first frame of the continuous non-silent frame section most adjacent to a candidate is taken as the beginning of a word.
JP56035710A 1981-03-11 1981-03-11 Voice leader detection system Granted JPS57148799A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56035710A JPS57148799A (en) 1981-03-11 1981-03-11 Voice leader detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56035710A JPS57148799A (en) 1981-03-11 1981-03-11 Voice leader detection system

Publications (2)

Publication Number Publication Date
JPS57148799A JPS57148799A (en) 1982-09-14
JPS6310437B2 true JPS6310437B2 (en) 1988-03-07

Family

ID=12449411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56035710A Granted JPS57148799A (en) 1981-03-11 1981-03-11 Voice leader detection system

Country Status (1)

Country Link
JP (1) JPS57148799A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5678732B2 (en) * 2011-03-07 2015-03-04 富士通株式会社 Analysis apparatus, analysis program, and analysis method

Also Published As

Publication number Publication date
JPS57148799A (en) 1982-09-14

Similar Documents

Publication Publication Date Title
JPS6147440B2 (en)
JP3069531B2 (en) Voice recognition method
CN108986844B (en) Speech endpoint detection method based on speaker speech characteristics
JPH0797279B2 (en) Voice recognizer
JPH0449952B2 (en)
JPS6310437B2 (en)
JPH067357B2 (en) Voice recognizer
JP2006010739A (en) Speech recognition device
Seman et al. Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech
JPS60129796A (en) Sillable boundary detection system
JP2891259B2 (en) Voice section detection device
JPS5925240B2 (en) Word beginning detection method for speech sections
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPH034918B2 (en)
JP3049711B2 (en) Audio processing device
JP2760096B2 (en) Voice recognition method
JPH05303391A (en) Speech recognition device
JP3008404B2 (en) Voice recognition device
JPS59149400A (en) Syllable boundary selection system
JPH0567040B2 (en)
JPS63217399A (en) Voice section detecting system
JPH0289098A (en) Syllable pattern segmenting system
JPH0554117B2 (en)
JPS6136798A (en) Voice segmentation