JPS6165300A - Voice signal processing circuit - Google Patents

Voice signal processing circuit

Info

Publication number
JPS6165300A
JPS6165300A JP59186346A JP18634684A JPS6165300A JP S6165300 A JPS6165300 A JP S6165300A JP 59186346 A JP59186346 A JP 59186346A JP 18634684 A JP18634684 A JP 18634684A JP S6165300 A JPS6165300 A JP S6165300A
Authority
JP
Japan
Prior art keywords
noise level
voice
section
audio
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59186346A
Other languages
Japanese (ja)
Inventor
利一 安江
吉明 北爪
遠藤 武之
正和 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59186346A priority Critical patent/JPS6165300A/en
Publication of JPS6165300A publication Critical patent/JPS6165300A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声信号処理回路に係り、騒音レベルを自動追
従し、周囲の騒音レベルの大きさに応じて音声検出レベ
ルを変えf fiffiな音声区間を検出する回路を提
供することにある。
[Detailed Description of the Invention] [Field of Application of the Invention] The present invention relates to an audio signal processing circuit that automatically tracks the noise level and changes the audio detection level according to the magnitude of the surrounding noise level to detect fiffi audio sections. The purpose of this invention is to provide a circuit for detecting.

〔発明の背景〕[Background of the invention]

音声を自動認識したりp^rf編集により音声を再生し
たりする場合、人JJ JET号の中から音声の存在す
る区間だけを自動的に求める必要がある。
When automatically recognizing a voice or reproducing a voice by p^rf editing, it is necessary to automatically find only the section where the voice exists from the JJ JET issue.

r″?声検出の一般的な方法としては入力言号の短区間
パワーを求め、これが所定の閾値を超えた1く間を音声
区間、それ以外の区間を無音区間とする方法がある。と
ころが種々の騒音環境下では騒音レベルが異なったり変
動も生ずる。このヨウL ”+、ii Mレベルが変4
σ71.た場、+1、例えば固定閾値で判定すると、騒
音と音111を分離し騒音に重畳された音声だけを正確
に検出することは難しい。
r''? A common method for voice detection is to find the short-term power of the input word, and to set the period in which this power exceeds a predetermined threshold as a speech section, and the other sections as silent sections.However, Under various noise environments, the noise level differs or fluctuates.This yaw L ''+, ii M level changes 4
σ71. If the noise is +1, for example, a fixed threshold value is used for determination, it is difficult to separate the noise and the sound 111 and accurately detect only the sound superimposed on the noise.

そこで次に考えられるのが浮動閾値法で、背景11所音
レベルを演出しこれをもとに音声検出閾値を変える方法
である。背景騒音レベルを自動検出する方法としては、
例えば特開昭57−1445971j公報がある。この
方式は、音声部分を含む音点信号波形を入力バッファメ
モリに一旦記憶し、この中から背景騒音レベルを推定し
ていた。そしてこれに基づいて入カバソファメモリの入
力信号波形を再度判定して音声部分を検出していた。騒
音エネルギレベルの推定は、音声信号波形の短区間エネ
ルギレベルに対してその累積度数をヒストグラムとして
求め、この最大反故の示すエネルギレベルを急音レベル
とした。この方式は音声を含む入力波形全体から背景騒
音レベルを推定しているため、騒音レベルの変動には強
い反面・バッファメモリが必要であり、また背景騒音レ
ベルを推定したあと、バッファメモリの波形を再度判定
しているために実時間処理が困蝿となり、後読の音声認
識等の処理が大幅に遅れるという問題があった。
Therefore, the next consideration is the floating threshold method, which creates the sound level of 11 backgrounds and changes the voice detection threshold based on this. As a method to automatically detect background noise level,
For example, there is Japanese Unexamined Patent Publication No. 57-1445971j. In this method, the sound point signal waveform including the audio portion is temporarily stored in an input buffer memory, and the background noise level is estimated from this. Then, based on this, the input signal waveform of the input cover sofa memory was judged again to detect the audio portion. To estimate the noise energy level, the cumulative frequency of the short-term energy level of the audio signal waveform was determined as a histogram, and the energy level indicated by the maximum error was defined as the sudden sound level. This method estimates the background noise level from the entire input waveform including speech, so it is robust against noise level fluctuations, but it requires a buffer memory, and after estimating the background noise level, the waveform in the buffer memory is Since the determination is made again, real-time processing becomes difficult, and there is a problem in that processing such as speech recognition for read-behind is significantly delayed.

〔発明の目的〕[Purpose of the invention]

本発明の目的は上述の従来技゛術の問題点に鑑みてなさ
れたもので、騒音レベルをリアルタイムで自動検出し、
騒音に重畳された音声を正確に検出可能な回路を提供す
ることにある。
The purpose of the present invention has been made in view of the problems of the above-mentioned conventional technology, and is to automatically detect the noise level in real time,
An object of the present invention is to provide a circuit that can accurately detect sound superimposed on noise.

〔発明の概要〕[Summary of the invention]

この目的を達成するために、本発明においては人力信号
の短区間エネルギを利用し、この、<ワーレベルに対応
する累4ヒj度数をヒストグラムとして求め、ヒストグ
ラムの最大頻度のパワーレベルを騒音平均レベルとして
検出するように17、さらに累積度数を求める際に所定
値を超えたときに累積度数が負値にならない範囲ですべ
ての累積度数を減じ、常に所定値を超えないようにする
。これは騒音パワーが定常であるかぎりある範囲におさ
まっているのに対して音声部分は種々のレベルをとるこ
とを利用したもので、また過去のパワーレベルから騒音
レベルを遂次推定しているため実時間での音声検出が可
MFとなる。
In order to achieve this objective, the present invention utilizes the short-term energy of the human input signal, calculates the cumulative frequency corresponding to the < noise level as a histogram, and calculates the maximum frequency power level of the histogram as the noise average level. 17 so that the cumulative frequency is detected as 17, and when the cumulative frequency exceeds a predetermined value, all cumulative frequencies are subtracted within a range in which the cumulative frequency does not become a negative value, so that the cumulative frequency does not always exceed the predetermined value. This takes advantage of the fact that while the noise power remains within a certain range as long as it is stationary, the sound part takes on various levels, and also because the noise level is successively estimated from past power levels. MF allows voice detection in real time.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明を実施例により説明する。第1図は特定話
者の音声認識装償の例である。最初に登録記動によりそ
の話者の音声を標準音声記憶部に登録する。登録する場
合も人力信号波形から音声の部分を自動的に検出する必
要がある。
The present invention will be explained below using examples. FIG. 1 is an example of speech recognition compensation for a specific speaker. First, the speaker's voice is registered in the standard voice storage section by recording and recording. When registering, it is necessary to automatically detect the voice part from the human signal waveform.

まずマイク等からの入力音声信号が入力部1に。First, an input audio signal from a microphone or the like is input to input section 1.

取込よれた炭、分析部2では周波数スペクトル。The analysis section 2 analyzes the frequency spectrum of the captured charcoal.

分解して認識の基になる特徴パラメータと、音声検出の
基になる音声使用パラメータを出力する。さらに詳細に
は、人力部1で人力音声信号の中1))ら音声帯域の信
号だけを取出すためGこ5.6KHzの低域通過フィル
タ?aし、その後8 K Hzでサンプリングし、アナ
ログテイジタル変換によって12ビツトのディジタル音
声信号にして分析部2に送る。分析部2では人力部1か
らの音声信号を16個の帯域通過フィルタにより周波数
スペクトル分解し、低域通過フィルタで平滑化した後、
例えば20m513c間隔でサンプリングして16個の
特徴パラメータを出力する。また分析部2では入力部1
からの音声信号を20m5ecに区切り、この間の短区
間エネルギを計にスし、対数変換した後、音声検出パラ
メータとして出力する。この20m5ecの時間単位は
特徴パラメータ、音声検出パラメータが分析部2から出
力されるタイミングであり、また分析の基本単位でもあ
りフレームと呼ぶ。騒音レベル検出部5ではフレーム単
位の音声パワーを入力し、後述する本特許方式により、
累411された過去の音声パワーと併用して騒音レベル
をフレーム単位に推定する。音声検出部4&まこの1掻
音推定レベルと音声パワーの両方を用いてそのフレーム
音声がU音か無音かを判定する。有音/無音の判別は1
i;Ii騒音レベルもとに一定レベル高いところに音1
119出「、j値を設定し、この閾値を超えるかどうか
で行なう。つぎにこの情報を用いて音声区間を検出する
。1尚去からの・ff音断続時間を調べ、所定時間を超
えたときにそれご音声とみなす。
It decomposes and outputs feature parameters that are the basis for recognition and voice usage parameters that are the basis for voice detection. More specifically, the human power unit 1 uses a 5.6 KHz low-pass filter to extract only the voice band signal from the human voice signal. a, then sampled at 8 KHz, converted into a 12-bit digital audio signal by analog-to-digital conversion, and sent to the analysis section 2. In the analysis section 2, the audio signal from the human power section 1 is subjected to frequency spectrum decomposition using 16 band-pass filters, smoothed using a low-pass filter, and then
For example, 16 feature parameters are output by sampling at intervals of 20m513c. In addition, in the analysis section 2, the input section 1
The audio signal is divided into 20m5ec, the short-term energy during this time is counted, logarithmically converted, and output as audio detection parameters. This time unit of 20 m5ec is the timing at which the feature parameters and voice detection parameters are output from the analysis section 2, and is also the basic unit of analysis, which is called a frame. The noise level detection unit 5 inputs the audio power in units of frames, and uses the patented method described below to
The noise level is estimated on a frame-by-frame basis using the accumulated past audio power. The voice detection unit 4 & Mako 1 determines whether the frame voice is a U sound or no sound using both the estimated level of scratching sound and the voice power. Discrimination of sound/silence is 1
i;Ii Sound 1 at a certain level high based on the noise level
119, set the j value and check whether it exceeds this threshold. Next, use this information to detect the voice section. When it is considered your voice.

さらに無音区間が所定時間以上続いたときに音声が終了
したとしてその有音区間を音声区間として標準音声記憶
部6に出力する。標準音声記憶部6では分析部2からの
特徴パラメータ分フレーム単位に入力し、音声検出部4
からの音声区間でゲートして音声区間内の特徴パラメー
タだけを記憶する。以上がび録作業である。このように
してあらかじめ決められた音声を登録したあと認識フェ
ーズに入る。認識起動が照合部5と標準音声記憶部乙に
入ると、入力信号を分析し、登録と同様に騒音レベル検
出および音声検出を行なう。照合部5では入力信号を分
析した特徴パラメータと音声区間情報を取込み、有効な
音声区間の特徴パラメータを照合対象とする。そして標
準音声記憶部6カ)らすでに登録されている音声を順次
入力し、人力音声との比軟照合により最良の標準音声の
名称を認識結果として出力する。以上が認識の流れであ
る。このように実時間で騒音レベルおよび音声検出を行
なっているため、音声区間の始端が検出されたときから
照合処理を並列して進めることができ、認識処理が極め
て速くなる。
Further, when the silent section continues for a predetermined time or longer, the sound section is assumed to have ended and is outputted to the standard speech storage section 6 as a speech section. The standard voice storage unit 6 inputs the feature parameters from the analysis unit 2 in frame units, and inputs the characteristic parameters from the analysis unit 2 to the voice detection unit 4.
Gate the speech section from , and store only the feature parameters within the speech section. The above is the recording work. After registering the predetermined voice in this way, the recognition phase begins. When the recognition activation enters the collation unit 5 and standard voice storage unit B, the input signal is analyzed and noise level detection and voice detection are performed in the same manner as in registration. The matching unit 5 takes in the feature parameters obtained by analyzing the input signal and the speech section information, and uses the feature parameters of valid speech sections as the object of matching. Then, the already registered voices are sequentially inputted from the standard voice storage section 6), and the name of the best standard voice is outputted as a recognition result by soft comparison with the human voice. The above is the flow of recognition. Since the noise level and voice are detected in real time in this way, the matching process can proceed in parallel from the time the start of the voice section is detected, making the recognition process extremely fast.

第2図に本特許を用いた音声分析、合成の例を示す。分
析起動により入力音声を圧縮して記憶するが為この場合
も入力信号波形から音声の部分を自動的に検出する必要
がある。マイク等からの入力音声信号が入力部1に取込
まれ1第1図と同様に12ビツトの11” CM化され
たディジタル信号が出力され、分4j? +’A 2で
は音声検出のための音声パワーを騒音レベル検出部6に
出力する。また分析部2は過応形苓分P(1!M(AD
POMと呼ぶ)により4ビツトに圧縮し、4ビツトの波
形データを圧縮部7に出力する。騒音レベル演出部3で
は20m5θCのフレーム単位に音声パワーを入力し、
騒音レベルを推定した後、音声検出部4で音声パワーと
併用して有効な音声区間を検出し、その区間位11を圧
縮部7に出力する。圧縮部7では音声検出部4からの音
声区間情報にもとづき4ビツト化された音声波形をさら
に圧縮する。圧縮は力■音区間で行なう。
Figure 2 shows an example of speech analysis and synthesis using this patent. Since the input audio is compressed and stored by starting the analysis, it is necessary to automatically detect the audio portion from the input signal waveform in this case as well. An input audio signal from a microphone, etc. is taken into the input section 1, and a 12-bit 11" CM digital signal is output as in FIG. The audio power is output to the noise level detection section 6.The analysis section 2 also outputs the sound power to the noise level detection section 6.The analysis section 2 outputs the sound power to the noise level detection section 6.
The waveform data is compressed into 4 bits using a POM (referred to as POM), and the 4-bit waveform data is output to the compression section 7. In the noise level production section 3, audio power is input in frame units of 20m5θC,
After estimating the noise level, the voice detecting section 4 detects an effective voice section using the voice power in combination, and outputs the section position 11 to the compression section 7. The compression section 7 further compresses the 4-bit speech waveform based on the speech section information from the speech detection section 4. Compression is performed in the force/sound section.

if声区間の中にも有音区間と音声情報が含まれていな
い無音区間があり、この無音区間を削除して無音区間の
長さだけを記憶させるものである。記憶させる音声は単
1f1)でも文章でもかまわない。文章の場合には文淋
終丁条件を例えば1秒とし、1秒無音がつづくとき文章
終了とみなすようにすればよい。この圧縮されたp a
 M波形データは記憶部8にラベルを付けて録音される
。録音が終了すると合成起動によりいつでも。
If the voice section includes a voice section and a silent section that does not contain voice information, the silent section is deleted and only the length of the silent section is stored. The voice to be memorized may be a single (1f1) or a sentence. In the case of a sentence, the sentence ending condition may be set to 1 second, for example, and the sentence is considered to be finished when silence continues for 1 second. This compressed p a
The M waveform data is labeled and recorded in the storage section 8. Whenever the recording is finished, the synthesis is activated.

元の波形に復元できる。いま記憶部8に合成部。Can be restored to the original waveform. The synthesis section is now in the storage section 8.

動とともに音声の種類が人力されると、記憶部ではその
音声が記憶されているアドレスを調べてそこからの圧縮
された20M波形データを伸、 長・合成部9に送る。
When the type of voice is manually entered along with the motion, the storage section checks the address where the voice is stored, decompresses the compressed 20M waveform data from there, and sends it to the length/synthesis section 9.

伸長・合成部9ではADPCMIIE縮とは逆の伸長処
理を施すとともに、削除し詰められている無音区間を復
元しもとの波形に戻して出力する。以上が音声分析・合
成の流れで、分析して圧縮録音する際に実時間で騒音レ
ベル検出および音声検出を行なっている。
The decompression/synthesis section 9 performs decompression processing that is the opposite of ADPCMIIE compression, and also restores the silent sections that have been deleted and compressed to restore the original waveform and output it. The above is the flow of audio analysis and synthesis, and noise level detection and audio detection are performed in real time when analyzing and compressing recording.

つぎに本発明の騒音レベル検出部3における騒音レベル
の推定方法の一実施例について詳述する。第4図にフロ
ーチャートを、第3図には騒音レベルの推定のための波
杉図を示す。まず分析部2から送られてくる音声パワー
のレベルに対応した累積度数を+1カウントアツプし、
ヒストグラムを修正する。これはフレーム時間単位に行
なわれる。しがしカウントアツプし続けると累積度数は
やがてオーバーフローする。
Next, an embodiment of a method for estimating the noise level in the noise level detecting section 3 of the present invention will be described in detail. FIG. 4 shows a flowchart, and FIG. 3 shows a Hasugi diagram for estimating the noise level. First, the cumulative frequency corresponding to the level of voice power sent from the analysis section 2 is counted up by +1,
Modify the histogram. This is done in frame time units. If the count continues to increase, the cumulative frequency will eventually overflow.

そこで所定量O以下になるように制限を付け1もし度数
が0以上になったときにはすべての累1f1度微を一1
カウントダウンする。但しカウントダウンによって負値
になるときにはゼロにリセットし、常に度数がO−aの
中にあるようにコントロールする。騒音レベルの推定は
、累積度数の最大値を検出し、これに相当する音声パワ
ーで行なうことができる。このように累積度す々をフン
トロールすればオーバーフローラ防りことばかりでなく
、騒音レベルが変化しても累(0度数の最大部分がやが
て現在の騒音レベルのところに移り正しく騒音レベルを
追従することができる。この様子を第3図に示す。横軸
が時間、縦軸が音声パワーレベルを表わす。t=Qです
べての累積度数をゼロにリセットしておく。
Therefore, we set a limit so that it is less than a predetermined amount 1. If the frequency becomes 0 or more, all cumulative 1 f 1 degree minute is 1 1
Count down. However, when it becomes a negative value due to countdown, it is reset to zero and controlled so that the frequency is always within O-a. The noise level can be estimated by detecting the maximum value of the cumulative frequency and using the audio power corresponding to this value. By controlling the cumulative degree in this way, you can not only prevent overflow, but also ensure that even if the noise level changes, the maximum part of the 0 degree will eventually move to the current noise level and accurately track the noise level. This situation is shown in Fig. 3.The horizontal axis represents time and the vertical axis represents the audio power level.At t=Q, all cumulative frequencies are reset to zero.

A点でのヒストグラムは第31J(A)のようになる。The histogram at point A is as shown in No. 31J(A).

縦軸が音声パワーレベル、横軸はこれに対する累積度数
を表わしている。背景δ音に吋して音声パワーは分散し
ており、h′5音レベしP、7・が王しく推定できる。
The vertical axis represents the voice power level, and the horizontal axis represents the cumulative frequency. The voice power is dispersed in the background δ sound, and it can be estimated that the level of the h'5 sound is P, 7.

したがって音声検出閾値も正しく設定でき、これにより
正確な音声区間が得られる。音声1を分析録音する場合
音声検出閾値がさらに重要となる。録音対象は音声区間
であるが、音声検出閾値を下回っている無音部分につい
ては前述のように削除する。これにより有効な音声のみ
を圧縮録音することが可能となる。
Therefore, the voice detection threshold can also be set correctly, and thereby accurate voice sections can be obtained. When analyzing and recording voice 1, the voice detection threshold becomes even more important. Although the recording target is a voice section, silent portions below the voice detection threshold are deleted as described above. This makes it possible to compress and record only valid audio.

B点のヒストグラム(B)では音声部分がゼロになって
いる。これは背景騒音レベルが所定量0に達し、他の度
近を減少させていったためである。
In the histogram (B) at point B, the audio portion is zero. This is because the background noise level reached a predetermined amount of 0 and other noise levels decreased.

しかし負値になることはない。B点から曙音レベルが下
がっている。騒音推定レベルP1■と音声検出閾値はと
もにしばらくは前値のままであるが、0時点ではヒスト
グラム(a)をみると前の騒音レベルと今の邸音レベル
の累積度数が一致しており、ここで始めて騒音レベルが
正しく求まる。前の音声検出閾値では音声2を検出する
ことはできないが、このように騒音レベルを自動追従し
て補正することにより正しく検出できる。
However, it never becomes a negative value. The dawn sound level is decreasing from point B. Both the estimated noise level P1■ and the voice detection threshold remain at their previous values for a while, but at time 0, looking at the histogram (a), the cumulative frequencies of the previous noise level and the current house sound level match, Only then can the noise level be determined correctly. Although voice 2 cannot be detected using the previous voice detection threshold, it can be detected correctly by automatically tracking and correcting the noise level in this way.

なおり点のヒストグラム(1))をみるとわかるように
前の騒音レベルPVの累(゛?1度数が減少しており自
動追従している様子がわかる。
As can be seen from the histogram (1) of the navigation point, the cumulative (゛?1) degree of the previous noise level PV has decreased, indicating that automatic tracking is being performed.

尚、本発明は上記実施例に限定されるものではない0本
実施例では音声検出パラメータに短区間音声エネルどの
対:”’t f+αを用いたが、エネルギをそのまま用
いてもよく、また音声パワーの池に高域成分と低域成分
の比率を表わした高域2/低域パワー比とを組合わける
こともでき、この場合、エネルギの小さいxI(声音声
も容易に検出できるようになる。この騒音の高域/低域
パワー比は音声パワーと同様の方法でヒストグラムによ
り推定することができる。
Note that the present invention is not limited to the above-mentioned embodiment. In this embodiment, the short-range sound energy pair: "'t f + α is used as the voice detection parameter, but the energy may be used as it is, or the voice It is also possible to combine the power pond with a high frequency 2/low frequency power ratio that represents the ratio of high frequency components and low frequency components. The high/low frequency power ratio of this noise can be estimated using a histogram in the same manner as the voice power.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、騒−11変動に関する問題が解決され
、いかなる騒音環境下でもその騒音レベルを自動追従し
ていくことができ、重畳された音声も正確に検出再記と
なり、音声認識、分析合成等にその実用点利点は極めて
大きい。
According to the present invention, the problem of noise level fluctuation is solved, the noise level can be automatically tracked in any noise environment, superimposed voices can be accurately detected and rewritten, and voice recognition and analysis can be performed. Its practical advantages in synthesis, etc. are extremely large.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明を用いた音声認識ブロック図、第2ニス
は本発明を用いた音声分析・訃成ブロック図、第3図は
第11ス、第2図の音声検出の例を示す図、第4図は第
1図、窮2図の騒音レベル検出フローチャートであるO P・・・短区間音声パワー 珈・・・背景騒音推定レベル S・・・累積度数 代理人弁理士 、・、1.(1(ii  明 夫第  
1 聞 $z図 本 分l夷勅 $4図
Figure 1 is a block diagram of speech recognition using the present invention, Figure 2 is a block diagram of voice analysis and processing using the present invention, Figure 3 is a diagram showing an example of voice detection in Figure 11 and Figure 2. , Figure 4 is a noise level detection flowchart of Figures 1 and 2. OP...Short interval audio power...Estimated background noise level S...Cumulative frequency Attorney Patent Attorney...1 .. (1 (ii Akio No.
1 Volume 1, Volume 1, Volume 1, Volume 4, Volume 1

Claims (1)

【特許請求の範囲】[Claims] 1、音声入力信号から短区間音声パワーを抽出する手段
と、抽出した音声パワーから背景騒音レベルを推定する
騒音レベル検出手段と、該騒音レベルと音声パワーとか
ら音声区間を検出する音声検出手段とから成る音声信号
処理回路において、該騒音レベル検出手段は、該騒音パ
ワーレベルに対する頻度をヒストグラムとして求めて、
該ヒストグラムにおける最大頻度のパワーレベルを騒音
レベルと推定するようにし、ヒストグラム計算の際にそ
の累積度数が所定量を超えたときにすべての累積度数を
減じ、累積度数が負値の場合にゼロにリセットして度数
を正値で所定量以内におさえたことを特徴とする音声信
号処理回路。
1. Means for extracting short period audio power from an audio input signal; Noise level detection means for estimating a background noise level from the extracted audio power; and Audio detection means for detecting a speech section from the noise level and audio power. In the audio signal processing circuit, the noise level detection means obtains the frequency with respect to the noise power level as a histogram,
The power level of the maximum frequency in the histogram is estimated as the noise level, and when the cumulative frequency exceeds a predetermined amount during histogram calculation, all cumulative frequencies are subtracted, and if the cumulative frequency is a negative value, it becomes zero. An audio signal processing circuit characterized in that the frequency is suppressed to a positive value within a predetermined amount by being reset.
JP59186346A 1984-09-07 1984-09-07 Voice signal processing circuit Pending JPS6165300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59186346A JPS6165300A (en) 1984-09-07 1984-09-07 Voice signal processing circuit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59186346A JPS6165300A (en) 1984-09-07 1984-09-07 Voice signal processing circuit

Publications (1)

Publication Number Publication Date
JPS6165300A true JPS6165300A (en) 1986-04-03

Family

ID=16186744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59186346A Pending JPS6165300A (en) 1984-09-07 1984-09-07 Voice signal processing circuit

Country Status (1)

Country Link
JP (1) JPS6165300A (en)

Similar Documents

Publication Publication Date Title
US7756707B2 (en) Signal processing apparatus and method
US5579431A (en) Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) Speech detection device for the detection of speech end points based on variance of frequency band limited energy
EP0077194B1 (en) Speech recognition system
JP3105465B2 (en) Voice section detection method
US11170760B2 (en) Detecting speech activity in real-time in audio signal
JPS6165300A (en) Voice signal processing circuit
JP2992324B2 (en) Voice section detection method
JP2003271190A (en) Method and device for eliminating noise, and voice recognizing device using the same
JPH03114100A (en) Voice section detecting device
KR0135878B1 (en) Starting and ending point detection method and device
JP3058569B2 (en) Speaker verification method and apparatus
JP3190231B2 (en) Apparatus and method for extracting pitch period of voiced sound signal
JPS59105697A (en) Voice recognition equipment
KR950009329B1 (en) Apparatus for removing a surrounding noise in a camcorder
JP2891259B2 (en) Voice section detection device
KR940002853B1 (en) Adaptationally sampling method for starting and finishing points of a sound signal
JPS61233791A (en) Voice section detection system for voice recognition equipment
JPS6227798A (en) Voice recognition equipment
JPH034918B2 (en)
JPH0635498A (en) Device and method for speech recognition
JPH0731506B2 (en) Speech recognition method
JPH0376471B2 (en)
JPH09297596A (en) Voice recognization device
JP2901976B2 (en) Pattern matching preliminary selection method