JPS63235999A - Voice initial end detector - Google Patents

Voice initial end detector

Info

Publication number
JPS63235999A
JPS63235999A JP62069775A JP6977587A JPS63235999A JP S63235999 A JPS63235999 A JP S63235999A JP 62069775 A JP62069775 A JP 62069775A JP 6977587 A JP6977587 A JP 6977587A JP S63235999 A JPS63235999 A JP S63235999A
Authority
JP
Japan
Prior art keywords
value
energy
section
threshold
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62069775A
Other languages
Japanese (ja)
Inventor
丹羽 美幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP62069775A priority Critical patent/JPS63235999A/en
Publication of JPS63235999A publication Critical patent/JPS63235999A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声を含む信号の振幅に対しサンプリングやそ
の他の処理を行うことにより音声領域の始端に対応する
時点を検出する音声始端検出装置に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a voice start edge detection device that detects a time point corresponding to the start edge of a voice region by performing sampling or other processing on the amplitude of a signal containing voice. .

[従来技術] 音声の始端検出に関する従来例としては、信号の区間毎
ののエネルギー値を用いたものかよく利用される。この
例として特開昭61−46999号公報に記載の技術が
ある。これは、固定された二個の閾値によって連続する
一定の個数の区間の列を始端検出区間として抽出して、
その始端検出区間におけるエネルギーの平均値を第3の
閾値とし、始端検出区間において前記2個の閾値の低い
方の閾値を再び越えることなく、前記第3の閾値を下回
る時点の検出を時間的に遡る方向に向って行うものであ
る。
[Prior Art] As a conventional example of detecting the start of a voice, a method using energy values for each section of a signal is often used. An example of this is the technique described in Japanese Patent Application Laid-Open No. 61-46999. This is done by extracting a sequence of a certain number of consecutive sections as the start detection section using two fixed thresholds,
The average value of the energy in the starting edge detection section is set as the third threshold, and the detection at the point in time when the energy falls below the third threshold without exceeding the lower of the two thresholds again in the starting edge detection section is performed. This is done in the backward direction.

また区間毎のエネルギー値と零交差数とを利用したもの
として、新差康永;音声認識、共立出版(1979)が
ある。これは予め非音声部の分析によって得られた区間
毎のエネルギー値及び零交差数に対する3個の閾値を用
いるものである。
Furthermore, there is Yasunaga Shindashi's Speech Recognition, Kyoritsu Shuppan (1979), which utilizes the energy value and the number of zero crossings for each section. This uses three threshold values for the energy value and the number of zero crossings for each section, which are obtained in advance by analyzing the non-speech parts.

更に特開昭60−200300号公報に記載されるよう
に区間毎のエネルギーの変化及びスペクトルの変化とい
った動的要因を用いたものもある。
Furthermore, as described in Japanese Patent Application Laid-Open No. 60-200300, there is also a method using dynamic factors such as changes in energy and changes in spectrum for each section.

[発明が解決しようとする問題点] 一般に音声の特に破裂音の発生の直前にはバズ音とよば
れる基本周波数が低くかつエネルギーの比較的低い鼻音
性の信号が発生することがある。
[Problems to be Solved by the Invention] In general, a nasal signal called a buzz sound, which has a low fundamental frequency and relatively low energy, may be generated immediately before the occurrence of a voice, especially a plosive sound.

このバズ音は同一人物の発生においても、発生する場合
と発生しない場合とがある。そのため、特に音声認識等
を行う場合、それに用いる標準パラメータはバズ音のな
い音声信号より抽出する必要が市り、また認識される音
声信号においてもバズ音の発生時には予めその部分を除
去する必要がおる。そのため音声認識等に用る音声信号
の抽出において、バズ音は自動的に非音声とみなし予め
除去してしまうことが望ましい。
This buzzing sound may or may not occur even when the same person is making the same noise. Therefore, especially when performing speech recognition, it is necessary to extract the standard parameters used for it from an audio signal that does not have a buzz sound, and it is also necessary to remove that part in advance when a buzz sound occurs in the audio signal to be recognized. is. Therefore, when extracting audio signals for use in speech recognition, etc., it is desirable to automatically consider buzz sounds as non-speech and remove them in advance.

前)ホした特開昭61−46999号公報に記載の技術
では、バズ音の発生時にはバズ音の始端を音声の始端と
して検出してしまい、その除去は不可能である。
In the technique described in Japanese Patent Application Laid-Open No. 61-46999 mentioned above, when a buzz sound occurs, the start of the buzz is detected as the start of the sound, and it is impossible to remove it.

また析差康永;音声認識、共立出版(1979)記載の
技i1′Jiにおいては、闇値を非音声部の分析によっ
て得ているため、非音声部としてバズ音の部分を抽出す
ることにより、バズ音の除去が可能でおるが、バズ音部
の抽出が困難て必り非実用的である。
In addition, in the technique i1'Ji described by Yasunaga Anasai, Speech Recognition, Kyoritsu Shuppan (1979), the dark value is obtained by analyzing the non-speech part, so by extracting the buzz sound part as the non-speech part, Although it is possible to remove the buzz, it is difficult to extract the buzz, making it impractical.

また特開昭60−200300号公報に記載の技術では
、スペクトル等の分析か必要となり、処理が難しく、ま
た装置も複雑になるといった欠点があった。
Furthermore, the technique described in Japanese Patent Application Laid-Open No. 60-200300 requires analysis of spectra, etc., which has the disadvantage that processing is difficult and the apparatus is complicated.

[発明の目的] 本発明は上記の欠点に鑑みてなされたもので、その主な
る目的は、バズ音に影響されることのない、音声認識等
の処理に適した音声信号を抽出するための音声始端検出
装置を提出することである。
[Object of the Invention] The present invention has been made in view of the above-mentioned drawbacks, and its main purpose is to extract audio signals suitable for processing such as speech recognition, which are not affected by buzz sounds. The purpose is to submit a voice start detection device.

[問題点を解決するための手段] そこで本発明では、音声を含んだ入力信号の振幅を一定
時間毎にサンプリングして、複数の振幅値の列に変換す
るサンプリング手段と、前記複数の振幅値の列を複数の
区間に分割し、その区間毎における前記入力信号のエネ
ルギー値に関連するエネルギー関連値を計算する計算手
段と、少なくとも前記人力信号のエネルギー関連値とそ
の関連値に対する閾値とを廿較する比較手段を含み、そ
の比較結果を参酌して前記音声の始端を決定する音声始
端決定手段を有する音声始端検出装置において、前記音
声の最初の音節として確定される連続した区間を抽出す
る抽出手段と、前記抽出手段によって抽出された区間の
各々のエネルギー関連値の増減に関連して変化する基準
値を決定する基準値決定手段と、前記基準値に関連して
前記闇値を決定する閾値決定手段とを有することを特徴
としたものである。
[Means for Solving the Problems] Therefore, the present invention provides sampling means for sampling the amplitude of an input signal including audio at regular time intervals and converting the amplitude into a string of a plurality of amplitude values, and the plurality of amplitude values. calculation means for dividing a sequence of into a plurality of sections and calculating an energy-related value related to the energy value of the input signal for each section; and at least an energy-related value of the human input signal and a threshold value for the related value. extraction for extracting a continuous section that is determined as the first syllable of the speech in a speech start detection device that includes a speech start determining means that determines the start of the speech by taking into account the comparison result; means, a reference value determining means for determining a reference value that changes in relation to an increase or decrease in the energy-related value of each of the sections extracted by the extracting means, and a threshold value for determining the dark value in relation to the reference value. The invention is characterized in that it has a determining means.

[作用] 従って、本発明において音声を含む信号はサンプリング
手段によって複数の振幅値の列に変換され、それらの複
数の振幅値の列は、計算手段によって複数の区間に分割
され、それぞれの区間のエネルギー関連値が計算される
[Operation] Accordingly, in the present invention, a signal including audio is converted into a sequence of multiple amplitude values by the sampling means, and the sequence of these multiple amplitude values is divided into multiple intervals by the calculation means, and the value of each interval is Energy-related values are calculated.

その後、抽出手段は、その信号に含まれる音声の始めの
音節の区間を抽出する。基準値決定手段ではその抽出さ
れた区間のエネルギー関連値の増減に関連して変化する
基準値を抽出し、閾値決定手段はその基準値に関連して
閾値を計算する。
Thereafter, the extraction means extracts the syllable section at the beginning of the voice included in the signal. The reference value determination means extracts a reference value that changes in relation to an increase or decrease in the energy-related value in the extracted section, and the threshold value determination means calculates a threshold value in relation to the reference value.

その後、始端決定手段は、前記区間毎のエネルギー関連
値と前記閾値とを比較し、その比較結果を参酌して前記
音声の始端を検出する。
Thereafter, the start end determining means compares the energy-related value for each section with the threshold value, and detects the start end of the audio by taking the comparison result into consideration.

一般に単一の話者において発生するバズ音は、そのエネ
ルギー関連値が略一定であり、音声のエネルギー関連値
はど大きな変化はない。しかし、音声認識等に用いられ
る音声信号は、そのエネルギー関連値のレベルが略一定
に調整されており、そのため、後続の音声のエネルギー
関連値に関連して閾値を設定することにより実用上問題
のない程度にバズ音と音声を分離することが可能となる
In general, the energy-related value of a buzz sound generated by a single speaker is approximately constant, and the energy-related value of the voice does not change significantly. However, the level of the energy-related value of the audio signal used for speech recognition etc. is adjusted to be approximately constant, so setting a threshold value in relation to the energy-related value of the subsequent audio poses a practical problem. It becomes possible to separate the buzz sound and voice to the extent that there is no noise.

[実施例] 以下、第2図及び第3図を参照して本発明の一実施例を
詳細に説明する。
[Embodiment] Hereinafter, an embodiment of the present invention will be described in detail with reference to FIGS. 2 and 3.

第2図は、汎用の中央演算装置(以下CPUと称す〉1
5を利用して本実施例の音声始端決定装置を構成したブ
ロック図である。話者の発生した音声を含む音響情報を
集音して電気信号に変換するマイクロホン11は、増幅
器12の入力端子に接続されている。増幅器12はマイ
クロホン11により送られた電気信号を以後の処理に適
したレベルに増幅するように構成されている。増幅器1
−7− ′ 2の出力には、アナログローパスフィルタ13か接続さ
れている。このフィルタ13はカットオフ周波数を4K
H2に設定され、そのカットオフ周波数以上の周波数の
信号を遮断するように構成されている。このフィルタ1
3の出力には、サンプリング手段に対応するA/D変換
器14が接続されている。このA/D変換器14の出力
端子は、CPU15に接続されている。このCPU”+
5には、後述する各処理の手順を決定するプログラム及
び各種定数等を記憶している読出し専用メモリ(以下R
OMと称す)16及び随時書込みメモリ(以下RAMと
称す)17が接続されている。このRA、M17は、A
/D変換器14でサンプリングされた音声波形の振幅値
が順次書込まれていく振幅バッフ117a、エネルギー
関連値か順次書込まれていくエネルギー関連値バッファ
17b、任意の整数値を記憶可能な第1のポインタレジ
スタ17c及び第2のポインタレジスタ17d、閾値を
記憶可能な閾値レジスタ17e1及び後述の各処理を行
うためのワーキングエリアを含んでいる。
Figure 2 shows a general-purpose central processing unit (hereinafter referred to as CPU) 1
5 is a block diagram configuring a voice start end determination device of the present embodiment using 5. A microphone 11 that collects acoustic information including the voice generated by a speaker and converts it into an electrical signal is connected to an input terminal of an amplifier 12. Amplifier 12 is configured to amplify the electrical signal sent by microphone 11 to a level suitable for subsequent processing. amplifier 1
An analog low-pass filter 13 is connected to the output of -7-'2. This filter 13 has a cutoff frequency of 4K
H2, and is configured to block signals with frequencies higher than the cutoff frequency. This filter 1
An A/D converter 14 corresponding to sampling means is connected to the output of No. 3. The output terminal of this A/D converter 14 is connected to the CPU 15. This CPU”+
5 is a read-only memory (hereinafter referred to as R
OM) 16 and an occasional write memory (hereinafter referred to as RAM) 17 are connected. This RA, M17 is A
An amplitude buffer 117a to which the amplitude values of the audio waveform sampled by the /D converter 14 are sequentially written; an energy-related value buffer 17b to which energy-related values are sequentially written; It includes a first pointer register 17c, a second pointer register 17d, a threshold value register 17e1 capable of storing a threshold value, and a working area for performing each process described later.

上記のように構成された本実施例の音声始端検出装置の
動作を以下第3図に示すフローチャートを参照して詳細
に説明する。
The operation of the voice start end detection device of this embodiment configured as described above will be explained in detail below with reference to the flowchart shown in FIG.

話者が発生した音声は、マイクロフォン11て集音され
電気信号に変えられる。この電気信号は増幅器12によ
って後述の処理に適したレベルに増幅される。増幅され
た電気信号は、アナログローパスフィルタ13によって
、4KH2以上の信号弁が遮断される。以上の動作はス
テップ20に対応している。
The voice generated by the speaker is collected by the microphone 11 and converted into an electrical signal. This electrical signal is amplified by an amplifier 12 to a level suitable for processing described later. The amplified electric signal is passed through the analog low-pass filter 13, which cuts off the signal valves of 4KH2 or higher. The above operation corresponds to step 20.

前記アナログロウパスフィルタ13の出力は、サンプリ
ング手段に対応するA/D変換器14に入力される。A
/D変換器14では入力信号を8KH2のサンプリング
周波数でサンプリングし、125マイクロ秒毎の振幅値
を出力する。この振幅値は、標本化定理より前記入力信
号の4KH2までの情報をすべて含んでいる。この振幅
値のi番目の値、すなわちサンプリングの開始より12
5X(i−1)マイクロ秒後の振幅値を以後へ(i)と
表すことにする。このiは1からnまでの値であり、こ
のnはサンプリングされた振幅値の総数である。これら
のA(1)からA (n)までの値は前記振幅バッファ
17aに順次書込まれていく。この処理はステップ21
にて実行される。
The output of the analog low-pass filter 13 is input to an A/D converter 14 corresponding to sampling means. A
The /D converter 14 samples the input signal at a sampling frequency of 8KH2 and outputs an amplitude value every 125 microseconds. This amplitude value includes all information up to 4KH2 of the input signal according to the sampling theorem. The i-th value of this amplitude value, that is, 12 from the start of sampling.
The amplitude value after 5X(i-1) microseconds will be hereinafter expressed as (i). This i is a value from 1 to n, where n is the total number of sampled amplitude values. These values A(1) to A(n) are sequentially written into the amplitude buffer 17a. This process is performed in step 21
It will be executed at

次にステップ22に進み、CPU15は前記n個の振幅
値を61!4個毎の区間、即ち8ミリ秒毎の振幅情報に
分υル、その区間毎のエネルギー関連値を計算する。エ
ネルギー関連値は厳密な意味でのエネルギー値である必
要はなく、比較的エネルギー値に似た性質のものであれ
ばよい。本実施例ではエネルギー関連値として64個毎
の振幅値の絶対値の和を利用している。即ち、第j番目
のエネルギー関連値をE(j>とすると、その関連値は
下記の式にて求められる。
Next, the process proceeds to step 22, where the CPU 15 divides the n amplitude values into amplitude information for every 61!4 sections, that is, every 8 milliseconds, and calculates an energy-related value for each section. The energy-related value does not need to be an energy value in the strict sense, but may have properties relatively similar to an energy value. In this embodiment, the sum of the absolute values of every 64 amplitude values is used as the energy-related value. That is, if the j-th energy-related value is E(j>), the related value is obtained by the following formula.

4j E(j)  −ΣIA(q)1 q=64j−63 ここでjは整数であり、その最大値はnを64で割りそ
の剰余を切上げた商の値となる。この、」の値を以下そ
の区間の区間番号と呼ぶことにする。
4j E(j) −ΣIA(q)1 q=64j−63 Here, j is an integer, and its maximum value is the value of the quotient obtained by dividing n by 64 and rounding up the remainder. Hereinafter, this value will be referred to as the section number of that section.

この処理は計算手段の動作に対応する。This processing corresponds to the operation of the calculation means.

次にステップ23に進み、E(j>の値をj−1より順
に予め設定されている母音検出用の閾値と比較し、E(
j>の値が少なくとも2個以上連続して母音検出用の閾
値を越える最初の区間の列を抽出し、その区間の列の最
初の区間の区間番号を第1のポインタレジスタ17Gに
、その区間の列の最後の区間の区間番号を第2のポイン
タレジスタ17dに記憶させる。この処理は抽出手段の
動作に対応している。
Next, the process proceeds to step 23, where the value of E(j> is compared with preset vowel detection thresholds in order from j-1, and E(
extract the first interval sequence in which at least two successive values of j> exceed the threshold for vowel detection, and store the interval number of the first interval in the sequence of intervals in the first pointer register 17G. The section number of the last section of the column is stored in the second pointer register 17d. This process corresponds to the operation of the extraction means.

次にステップ24に進み、前ステップ23において抽出
された区間の各々のエネルギー関連値を前記エネルギー
関連値バッファ17bより読出し、それらの最大値を求
める。この処理は基準値決定手段の動作に対応し、前記
最大値の値が基準値となる。
Next, the process proceeds to step 24, where the energy-related values of each section extracted in the previous step 23 are read out from the energy-related value buffer 17b, and their maximum value is determined. This process corresponds to the operation of the reference value determining means, and the maximum value becomes the reference value.

次にステップ25に進み、前ステップ24で抽出された
基準値に予め設定された、定数αを乗じ、その積を前記
閾値レジスタ16eに記憶させる。
Next, the process proceeds to step 25, where the reference value extracted in the previous step 24 is multiplied by a preset constant α, and the product is stored in the threshold register 16e.

この積は閾値に対応しており、以下Teと称すことにす
る。この閾値Teは、バズ音のエネルギー関連値の最大
値より僅かに低い値に設定されることか望しく、本実施
例ではα−0,13程度とすることによりそれを実現し
ている。この処理は、閾値決定手段の動作に対応してい
る。
This product corresponds to a threshold value and will be referred to as Te hereinafter. It is desirable that this threshold Te be set to a value slightly lower than the maximum value of the energy-related value of the buzz sound, and in this embodiment, this is achieved by setting it to approximately α-0.13. This process corresponds to the operation of the threshold value determining means.

次にステップ30に進み、前記第1のポインタレジスタ
17Gの値を読出して、その値より1を引き、再び第1
のポインタレジスタ17Gに記憶させる。以後このポイ
ンタレジスタ17Gの記憶する値をkで表すことにする
。即ち、この処理はkにに−1を代入することになる。
Next, the process proceeds to step 30, where the value of the first pointer register 17G is read, 1 is subtracted from that value, and the value of the first pointer register 17G is subtracted from the value.
is stored in the pointer register 17G. Hereinafter, the value stored in this pointer register 17G will be expressed as k. That is, this process assigns -1 to k.

このkの値は以下のステップ31乃至ステップ33の処
理の対象となる区間の区間番号を表す。次にステップ3
1に進み、ステップ25で得られた閾値Teと第1のポ
インタレジスタ17Gで示される区間のエネルギー関連
値E(k)とを比較し、その結果がE (k)≧Teで
あるならばステップ30に戻り、E (k)<Teであ
るならばステップ32に進む。
The value of k represents the section number of the section to be processed in steps 31 to 33 below. Next step 3
1, the threshold Te obtained in step 25 is compared with the energy-related value E(k) in the section indicated by the first pointer register 17G, and if the result is E(k)≧Te, step Returning to step 30, if E (k)<Te, proceed to step 32.

このステップ31は、比較手段の動作に対応している。This step 31 corresponds to the operation of the comparison means.

ステップ32では、第1のポインタレジスタ17Cの示
す区間の零交差数を計算する。計算方法については、特
開昭60−117299号公報等に記載されているので
、詳細については省く。
In step 32, the number of zero crossings in the section indicated by the first pointer register 17C is calculated. The calculation method is described in Japanese Unexamined Patent Application Publication No. 117299/1983, so details thereof will be omitted.

尚、このステップ32で得られた零交差数をZ(k)と
表すことにする。次にステップ33に進み、前ステップ
32において得られた零交差数Z(k)と予め設定され
ている零交差数に対する閾値とを比較する。この閾値は
本実施例では4としている。この閾値をT、Zとして表
したとぎ、この比較結果がZ (k)≧TZであるなら
ばステップ30に戻り、Z (k)<Tzであるならば
ステップ34へ進む。即ち、ステップ30乃至ステップ
33の動作を要約すると、ステップ23で得られた区間
の列の直前の区間より時間を遡る方向に調査し、最初に
E (k)<Te、力saZ (k)<Tzとなる区間
を抽出し、その値を第1のポインタレジスタ17Gに記
憶して、次のステップ34に進んでいる。このステップ
34ではこの時点における第1のポインタレジスタ17
Gの内容に1を加え、その和によって表される区間番号
の区間を前記音声の始端としている。このステップ30
乃至ステップ34の処理は音声始端抽出手段の動作に対
応している。
Note that the number of zero crossings obtained in step 32 will be expressed as Z(k). Next, the process proceeds to step 33, where the number of zero crossings Z(k) obtained in the previous step 32 is compared with a preset threshold value for the number of zero crossings. This threshold value is set to 4 in this embodiment. Assuming that the threshold values are expressed as T and Z, if the comparison result is Z (k)≧TZ, the process returns to step 30, and if Z (k)<Tz, the process proceeds to step 34. That is, to summarize the operations from step 30 to step 33, an investigation is performed in a direction going back in time from the section immediately before the row of sections obtained at step 23, and first, E (k)<Te, force saZ (k)< The section corresponding to Tz is extracted, its value is stored in the first pointer register 17G, and the process proceeds to the next step 34. In this step 34, the first pointer register 17 at this point is
1 is added to the content of G, and the section with the section number represented by the sum is set as the start of the audio. This step 30
The processing from step 34 corresponds to the operation of the voice start edge extraction means.

このように本実施例において、バズ音と音声とで比較的
大きな差異の表れる零交差数をも参酌しているため、よ
り正確な始端の検出が可能となる。
In this way, in this embodiment, since the number of zero crossings, which shows a relatively large difference between the buzz sound and the voice, is also taken into account, it is possible to detect the start end more accurately.

尚、本発明は上記実施例に限るものではなく、例えば本
実施例でエネルギー関連値として使用した絶対値の和は
、一般的に使われる下記の式にて求められる短時間エネ
ルギーであってもよい。
Note that the present invention is not limited to the above-mentioned embodiments; for example, the sum of absolute values used as energy-related values in this embodiment may be a short-time energy calculated by the commonly used formula below. good.

4j E′(j)  −Σ[A(q)]” ]q=64j−6 3た、基準値は抽出手段で抽出された区間のエネルギー
関連値の最大値としたが、その最大値をとる区間の近傍
値の平均値、おるいは抽出された区間のエネルギー関連
値のモード値等であってもよい。ただしこの場合、前記
定数αの値は本実施例の値とは異なる。更に、本実施例
では零交差数の変動を始端の決定に利用しているが、短
時間スペクトルの変化等も利用できる。
4j E′(j) −Σ[A(q)]” ]q=64j−6 3.The reference value is the maximum value of the energy-related values in the section extracted by the extraction means, but the maximum value is taken. It may be the average value of the neighboring values of the section, or the mode value of the energy-related value of the extracted section.However, in this case, the value of the constant α is different from the value of this embodiment.Furthermore, In this embodiment, fluctuations in the number of zero crossings are used to determine the starting point, but changes in short-term spectra can also be used.

[発明の効果] 本発明では入力信号に関連して変化する基準値から閾値
を決定し、その閾値に基いて音声の始端を検出するので
、音声信号の直前に発生するバズ音等の不要な信号を正
確に除去し得る。この結果、本発明の音声始端検出装置
を既存の音声終端検出装置と併用することにより、音声
82識等の処理に適した音声の情報を確実に抽出するこ
とが可能となる。
[Effects of the Invention] In the present invention, a threshold value is determined from a reference value that changes in relation to an input signal, and the start of audio is detected based on the threshold value. The signal can be accurately removed. As a result, by using the voice start edge detection device of the present invention together with an existing voice end detection device, it becomes possible to reliably extract voice information suitable for processing such as voice recognition.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の全体の動作を示すフローチャート、第
2図は本発明の一実施例の構成を示すブロック図、第3
図は本発明の一実施例の動作を示すフローチャートであ
る。 図中、14はA/D変換器、15はCPU、16はRO
M、17はRAMである。 また、21はサンプリング手段に対応するステップ、2
2は計算手段に対応するステップ、23は抽出手段に対
応するステップ、24は基準値決定手段に対応するステ
ップ、25は閾値決定手段に対応するステップ、30,
31,32,33゜34は音声始端決定手段に対応する
ステップであり31は比較手段に対応するステップであ
る。
FIG. 1 is a flow chart showing the overall operation of the present invention, FIG. 2 is a block diagram showing the configuration of an embodiment of the present invention, and FIG.
The figure is a flowchart showing the operation of an embodiment of the present invention. In the figure, 14 is an A/D converter, 15 is a CPU, and 16 is an RO.
M, 17 is a RAM. Further, 21 is a step corresponding to the sampling means;
2 is a step corresponding to the calculation means, 23 is a step corresponding to the extraction means, 24 is a step corresponding to the reference value determining means, 25 is a step corresponding to the threshold value determining means, 30,
31, 32, 33, and 34 are steps corresponding to the voice start end determining means, and 31 is a step corresponding to the comparing means.

Claims (1)

【特許請求の範囲】 1、音声を含んだ入力信号の振幅を一定時間毎にサンプ
リングして、複数の振幅値の列に変換するサンプリング
手段(14)と、 前記複数の振幅値の列を複数の区間に分割し、その区間
毎における前記入力信号のエネルギー値に関連するエネ
ルギー関連値を計算する計算手段(22)と、 少なくとも前記入力信号のエネルギー関連値とその関連
値に対する閾値とを比較する比較手段(31)を含み、
その比較結果を参酌して前記音声の始端を決定する音声
始端決定手段(30、31、32、33、34)とを有
する音声始端検出装置において、 前記音声の最初の音節として確定される連続した区間を
抽出する抽出手段(23)と、 前記抽出手段によって抽出された区間の各々のエネルギ
ー関連値の増減に関連して変化する基準値を決定する基
準値決定手段(24)と、 前記基準値に関連して前記閾値を決定する閾値決定手段
(25)とを有することを特徴とする音声始端検出装置
。 2、前記基準値決定手段(24)は、前記抽出手段(2
3)によって抽出された区間のエネルギー関連値の最高
値、あるいは前記最高値をとる区間の近傍の区間のエネ
ルギー関連値の平均値を基準値として決定することを特
徴とする特許請求の範囲第1項記載の音声始端検出装置
[Claims] 1. Sampling means (14) that samples the amplitude of an input signal including audio at regular time intervals and converts the amplitude into a plurality of sequences of amplitude values; calculating means (22) for calculating an energy-related value related to the energy value of the input signal in each section; and comparing at least the energy-related value of the input signal with a threshold value for the related value. comprising a comparison means (31);
A speech start detection device comprising a speech start determining means (30, 31, 32, 33, 34) that determines the start of the speech by taking into account the comparison result, the continuous extraction means (23) for extracting a section; reference value determining means (24) for determining a reference value that changes in relation to an increase or decrease in the energy-related value of each of the sections extracted by the extraction means; and the reference value. a threshold determining means (25) for determining the threshold in relation to the threshold. 2. The reference value determining means (24) includes the extracting means (2).
Claim 1, characterized in that the reference value is determined as the highest value of the energy-related values of the section extracted by 3) or the average value of the energy-related values of the sections in the vicinity of the section having the highest value. The voice start end detection device described in .
JP62069775A 1987-03-24 1987-03-24 Voice initial end detector Pending JPS63235999A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62069775A JPS63235999A (en) 1987-03-24 1987-03-24 Voice initial end detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62069775A JPS63235999A (en) 1987-03-24 1987-03-24 Voice initial end detector

Publications (1)

Publication Number Publication Date
JPS63235999A true JPS63235999A (en) 1988-09-30

Family

ID=13412495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62069775A Pending JPS63235999A (en) 1987-03-24 1987-03-24 Voice initial end detector

Country Status (1)

Country Link
JP (1) JPS63235999A (en)

Similar Documents

Publication Publication Date Title
JPH0990974A (en) Signal processor
JPS63235999A (en) Voice initial end detector
KR0136608B1 (en) Phoneme recognizing device for voice signal status detection
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
JPS63257797A (en) Voice initial end detector
JPH05100661A (en) Measure border time extraction device
JPH03114100A (en) Voice section detecting device
JPS63278100A (en) Voice recognition equipment
JP2891259B2 (en) Voice section detection device
JP2557497B2 (en) How to identify male and female voices
JP2643202B2 (en) Detection device for steady, transient and uncertain parts of input speech
JP3008404B2 (en) Voice recognition device
JPS59204099A (en) Voice recognition system
JPS61273600A (en) Voice recognition equipment
JPS60262198A (en) Consonant section detector
JPH0316038B2 (en)
JPS6227798A (en) Voice recognition equipment
JPH01165000A (en) Vocal sound section information forming apparatus
JPS61273599A (en) Voice recognition equipment
JPH0412478B2 (en)
JPS60262199A (en) Vowel section detector
JPS5885495A (en) Voice recognition equipment
JPH09127971A (en) Voice section detecting device and voice recognition device
JPS61223797A (en) Voice section detector