WO2011044853A1 - 一种实现通信系统中背景噪声的跟踪的方法和装置 - Google Patents

一种实现通信系统中背景噪声的跟踪的方法和装置 Download PDF

Info

Publication number
WO2011044853A1
WO2011044853A1 PCT/CN2010/077777 CN2010077777W WO2011044853A1 WO 2011044853 A1 WO2011044853 A1 WO 2011044853A1 CN 2010077777 W CN2010077777 W CN 2010077777W WO 2011044853 A1 WO2011044853 A1 WO 2011044853A1
Authority
WO
WIPO (PCT)
Prior art keywords
time window
noise
frame
current frame
threshold
Prior art date
Application number
PCT/CN2010/077777
Other languages
English (en)
French (fr)
Inventor
王喆
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP10823082.2A priority Critical patent/EP2437256B1/en
Publication of WO2011044853A1 publication Critical patent/WO2011044853A1/zh
Priority to US13/116,323 priority patent/US8095361B2/en
Priority to US13/325,985 priority patent/US8447601B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • the present invention relates to the field of communications, and more particularly to a method and apparatus for implementing tracking of background noise in a communication system. Background technique
  • the f it VAD Voice System
  • the voice communication system the f it VAD (Voice System) can know when the voice is active, so that it can transmit signals only in the active state, effectively saving bandwidth resources.
  • the speech signal input by the speaker to the terminal is usually accompanied by background noise, and the background noise caused by the speech can be effectively reduced or suppressed by the oi se Suppres s ion, noise suppression technology. Improve the subjective feelings of the listener.
  • the voice activation detection VAD whether the current signal is speech or non-speech is essentially the fact that the current signal is characterized by being closer to the background noise or closer to the speech, and the closer one is the current signal category.
  • noise suppression NS in order to reduce the influence of background noise on speech, it is also necessary to know some characteristics of the current background noise, so that these features can be removed from the speech signal, thereby achieving the purpose of suppressing noise. So whether it is voice activation detection VAD or noise suppression NS, it involves a key technology, namely background noise tracking.
  • the widely used background noise tracking technology is the background noise tracking technology used in AMR (Audio/Modem Riser) VAD2.
  • the technique first calculates the SNR of the current frame (S i gna l to No i s Ra io , signal to noise ratio). If the SNR is smaller than the background noise threshold, the current frame is confirmed as a background noise frame; otherwise, the current detection is detected.
  • the pitch and tone characteristics of the frame if the current frame has the characteristics of pitch and pitch, the hysteresis counter is incremented by 1, otherwise the spectral fluctuation of the current frame and several frames adjacent thereto is further calculated, if the spectrum fluctuation of the current frame is Large, greater than a threshold, the current frame may be considered not to be a noise frame and the hysteresis counter is incremented by one, otherwise the current frame may be considered a noisy frame and the continuous noise frame counter is incremented by one. If the continuous noise frame counter reaches 50 frames, Confirm that the current frame should be a background noise frame.
  • hysteresis counter the continuous noise counter reaches 50 frames, if the hysteresis counter is not greater than 6 (that is, the frame that is not sure is not more than 6 frames), it is confirmed that the current frame is a noise frame, that is, the confirmation of the current noise frame is not affected at this time. If the hysteresis counter exceeds 6 frames during the accumulation of the continuous noise counter, the continuous noise frame counter is reset, and the current signal is not confirmed as background noise.
  • the above background noise tracking technique has defects in tracking speed.
  • the background noise is abrupt (in the direction of increasing SNR, such as a sudden increase in noise level)
  • the comparison between SNR and background noise threshold has been used.
  • the noise signal cannot be recognized, and only 50 consecutive noise frames can be waited for, resulting in slow tracking speed. If the speaker's frequency is too fast to satisfy the condition of 50 consecutive noise frames, the AMR VAD2 will not be able to track the background noise.
  • the above background noise tracking technique has defects in the accuracy of tracking.
  • embodiments of the present invention provide a method and apparatus for implementing tracking of background noise in a communication system.
  • the technical solution is as follows:
  • a method of enabling tracking of background noise in a communication system comprising:
  • the frame counter cnt 2 is accumulated, and the pitch characteristics and the signal stability characteristics of the current frame are calculated;
  • the noise feature in the time window is extracted based on the determined likelihood that the time window contains a noise interval.
  • an apparatus for enabling tracking of background noise in a communication system comprising: a first processing module, configured to calculate a signal to noise ratio SNR of the current frame according to the input audio signal; and a second processing module, configured to: if the signal to noise ratio SNR of the current frame is not less than a threshold 1, the frame counter cnt 2 is accumulated And calculating a pitch characteristic and a signal stability characteristic of the current frame;
  • a third processing module configured to: when the frame counter cn t 2 is accumulated to a time window length, determine, according to the calculated pitch feature value and signal stability feature value of each frame of the time window The probability of having a noise interval in the time window;
  • a fourth processing module configured to extract a noise feature in the time window according to the determined probability that the time window contains a noise interval.
  • FIG. 1 is a flow chart showing a method for implementing tracking of background noise in a communication system according to Embodiment 1 of the present invention
  • FIG. 2 is a flow chart showing a method for implementing tracking of background noise in a communication system according to Embodiment 2 of the present invention
  • FIG. 3 is a schematic diagram of an apparatus for implementing tracking of background noise in a communication system according to Embodiment 3 of the present invention. detailed description
  • Example 1 Those skilled in the art will appreciate that the performance of the background noise tracking technique can be measured by two indicators, namely the speed of tracking and the accuracy of tracking.
  • the tracking speed refers to the distance between the time when a certain background noise signal is recognized and the actual time when the signal is actually generated. The shorter the distance, the faster the tracking speed is.
  • the accuracy of the tracking means that the background noise signal and the non-background noise signal can be correctly identified, and the feature parameters are extracted only in the background noise signal.
  • existing noise tracking techniques generally suffer from insufficient tracking accuracy and tracking speed.
  • the lack of tracking speed mainly occurs when there is a background noise with more severe changes.
  • the existing noise tracking technology takes a long time, and can only be effectively tracked after the background noise becomes stable and lasts for a long time.
  • the lack of tracking accuracy mainly occurs when there is a music signal. Since there are no obvious pitch and tone features in many music signals, the existing background noise tracking technology will mistake such music signals as noise signals for tracking, and special attention is required.
  • the music signal without obvious pitch and tonal features is a general term. Any signal other than the speech signal and the background noise signal in the transmitted signal can be called as long as there is no obvious pitch and pitch characteristics. Music signal.
  • the embodiments of the present invention provide a method for implementing background noise tracking in a communication system, which aims to improve the problem that the existing background noise tracking technology has a slow tracking speed in the presence of abrupt background noise.
  • the method is as follows:
  • tonal features including but not limited to extraction - the maximum peak-to-valley ratio of the spectrum, the linear combination of the local peak-to-valley ratio of the spectrum, the local peak number of the spectrum, the local peak number of the partial spectrum, the maximum peak-to-average ratio of the spectrum, the spectrum A linear combination of local peak-to-average ratios, etc.
  • the signal stability characteristics include, but are not limited to, extracting one-to-one total energy fluctuation, sub-band energy fluctuation, spectrum maximum peak position fluctuation, spectrum maximum peak-to-valley ratio fluctuation, and multiple spectral local peak position fluctuations.
  • the probability that the time window contains a noise interval refers to whether the time window contains noise and a position containing noise.
  • the following noise interval possibilities may exist: Current frame For noise frames, there are noise frames.
  • the noise characteristics of the current frame can be directly raised.
  • the noise frame exists, the following includes: a full noise interval, a majority of the noise interval, and only a small number of non-noise intervals. Noise characteristics are extracted for different types according to different situations.
  • the method provided by the embodiment of the invention can quickly detect or track frequently and severe background noise by analyzing the existence of background noise continuously in a certain time window. At the same time, the detection of tonal characteristics, spectral peak position stability and maximum peak-to-valley ratio position stability significantly reduces the background noise mistracking that occurs in music signals.
  • the embodiment of the present invention provides a A method for implementing tracking of background noise in a communication system, see FIG. 2, the method content is as follows:
  • each audio signal is transmitted in the form of a frame format.
  • the calculation of the signal-to-noise ratio is required for the current frame. The calculation method is as follows:
  • the non-uniform division of the spectrum of the current frame into 16 sub-bands is taken as an example.
  • a uniform division manner may be adopted, which is not limited in this embodiment.
  • the number of subbands obtained by the division is not limited. For example, when the frequency domain resolution is required to be high, the number of subbands may be appropriately increased, but the computational complexity may increase. In the specific application, the selection is made according to the actual needs of the technician, and the embodiment does not limit this.
  • snr (i) Es (i) / En (i) ; snr (i) represents the SNR of the ith subband of the current frame, and Es (i) and En (i) represent the current frame and background noise estimates, respectively.
  • step 102 Determine whether the SNR of the current frame is less than a threshold. If yes, go to step 103; otherwise, go to step 104.
  • the threshold 1 may be referred to as a noise threshold, and the value of the threshold 1 is a small value.
  • the value unit of the SNR is a decibel DB, and correspondingly, the value unit of the threshold 1 is also a DB.
  • the method further includes: setting the continuous noise counter cnt l Add 1 to determine whether the continuous noise counter cnt l is greater than the threshold 2. If yes, the current frame is confirmed as a noise frame; otherwise, the current frame is the end of the voice, and the process ends.
  • the SNR of the current frame is not less than the threshold 1, and the frame counter cnt 2 is incremented by 1.
  • the pitch characteristic value parameters include, but are not limited to: a maximum peak-to-valley ratio of the spectrum, a linear combination of local peak-to-valley ratios of the spectrum, a local peak number of the spectrum, a local peak number of the partial spectrum, a maximum peak-to-average ratio of the spectrum, and a spectrum A linear combination of local peak-to-average ratios, etc.
  • ⁇ Sample shows ⁇ ! 1 local peak of the spectrum, ra /, and respectively represent the minimum value of the search within the range of 4 frequency points on the left and right sides of the peak, indicating that the edge is close to ⁇ ⁇ Local valley value,
  • E avg represents the mean of the spectral energy.
  • the above signal stability parameters include but are not limited to: total energy fluctuation, sub-band energy fluctuation, spectrum maximum peak position fluctuation, spectrum maximum peak-to-valley ratio position fluctuation, and multiple spectral local peak position fluctuations.
  • this embodiment illustrates the fluctuation values of the spectral fluctuation value, the spectral peak position fluctuation value of the current frame, and the spectral maximum peak-to-valley ratio position of the current frame. See below for details:
  • the frequency peak position fluctuation value ( ⁇ ⁇ ) of the current frame indicates the magnitude of the maximum peak position of the FFT (Fast Fourier Transform) spectrum.
  • the calculation method is as follows:
  • ⁇ ⁇ (0) and max (-l) represent the FFr frequency index of the maximum peak of the spectrum in the current and previous frames, respectively.
  • Mp flux The maximum peak-to-valley ratio of the spectrum is Mp flux ), which indicates the magnitude of the peak position of the FFT spectrum with the largest peak-to-valley ratio in the frame.
  • M P flux idx pwmaK (0) - idx pwmaK (-1)
  • W ⁇ max(0) and W> max (-l) respectively represent the frequency index of the current frame and its previous frame with the largest peak-to-valley ratio
  • the calculation method of the peak-to-valley ratio is
  • ⁇ energy
  • the minimum sub-band energy buffer involved in the step 105 is updated to store the minimum energy value of each sub-band in the current time window.
  • step 106 According to the parameter value obtained in step 105, after comparing with the threshold corresponding to each parameter, for each parameter, the counter corresponding to the parameter satisfying the respective condition is incremented by one. See below for details:
  • step 106A Determine whether the spectral fluctuation value of the current frame obtained in step 105 is less than the threshold 3, and if so, increase the weak spectrum fluctuation counter cnt3 by 1; otherwise, keep the weak spectrum fluctuation counter cnt3 unchanged.
  • step 106B It is judged whether the pitch characteristic value obtained in step 105 is less than the threshold 4, and if so, the weak tone counter cnt4 is incremented by 1; otherwise, the weak pitch counter cnt4 is kept unchanged.
  • step 106C Determine whether the maximum peak-to-valley ratio fluctuation value of the spectrum obtained in step 105 is less than the threshold 5, and if so, increase the stable maximum peak-to-valley ratio position counter cnt5 by 1; otherwise, maintain the stable maximum peak-to-valley ratio position counter cnt5 unchanged.
  • 106D determining whether the spectral peak position fluctuation value obtained in step 105 is greater than a threshold 6, and if so, adding the spectral peak position fluctuation counter cnt6 to 1; otherwise, maintaining the spectral peak position fluctuation counter Cnt6 does not change.
  • the threshold 3 may be 12, the threshold 4 may be 15, the threshold 5 may be 1, and the threshold 6 may be 0.
  • the specific value of each threshold and the unit of value are not limited, and are set according to actual applications.
  • the purpose of the frame counter cnt2 is to establish a time window.
  • the length of the time window is preset to 30, that is, the time window is composed of 30 frame lengths, which is equivalent to the frame counter cnt2 counting reaches 30,
  • the signal characteristics are analyzed in each of the time windows, and the background noise characteristics that may exist are extracted therefrom.
  • step 108 Determine whether the weak pitch counter cnt4 is greater than the threshold 7, if yes, execute step 109; otherwise, go to step 112.
  • the weak pitch counter cnt4 is greater than the threshold 7, it is considered that there is a noise frame in the past 30 frames, and it is judged whether the following conditions are simultaneously satisfied: the weak spectrum fluctuation counter cnt3>the threshold 8, the stable maximum peak-to-valley ratio position counter cnt5 ⁇ threshold 9 The spectral peak position fluctuation counter cnt6>the threshold 10, the spectral fluctuation of the current frame spdev ⁇ threshold 11, if yes, step 113 is performed; otherwise, step 110 is performed.
  • the sub-band energy stored in the minimum sub-band energy buffer is taken as the characteristic of the noise sub-band energy. If it is executed to step 111, it means that at least a noise frame exists in the past 30 frames, and the sub-band energy stored in the minimum sub-band energy buffer is used as a noise feature.
  • step 112 If it is executed to step 112, it means that there is no noise frame in the past 30 frames.
  • step 113 If it is executed to step 113, it can be confirmed that the current frame is a noise frame.
  • step 114 Determine whether the frame counter cnt2 is greater than 30. If no, go to step 115; otherwise, go to step 116.
  • step 116 Determine whether the spectrum fluctuation is less than the threshold 11, if yes, execute step 113, that is, confirm the current The frame is a noise frame; otherwise, step 112 is executed to reset each counter cnt l-6 to 0 and clear the minimum sub-band energy buffer.
  • the noise feature of the time window may not be extracted; if the current frame is a noise frame, the feature value of the noise frame may be directly extracted; if it is determined that there is a noise frame in the time window, In the following manner, the noise characteristics of the time window are extracted, as follows: Further, if the result of the judgment is that there is a noise frame in the time window, the statistical value of the tone characteristic and the statistical value of the signal stability may be determined according to the above-mentioned pitch characteristic statistical value.
  • the time window contains the type of background noise interval (that is, including the full noise interval, most of which is the noise interval and only a small number of non-noise intervals), as follows:
  • the background noise interval in the time window is mostly a noise interval and only a small number of non-noise intervals; for example, according to the weak spectrum fluctuation counter cnt 3, determining whether the weak spectral fluctuation counter cnt 3 is smaller than a time window length and If the value is greater than the preset value (the preset value is an empirical value set according to actual needs in the art), if yes, it is considered that the time window is mostly a noise interval and only a small number of non-noise intervals;
  • the method further includes: determining a position where the small number of non-noise intervals appear in the time window, For example, whether the small amount of the non-noise interval is located at the front end of the time window, or whether the small amount of the non-noise interval is located at the end of the time window, or whether the small amount of the non-noise interval is located at both ends of the time window.
  • the method is as follows: Obtain a frame that does not satisfy the weak spectrum fluctuation counter cnt 3+l, and obtain the position information of the frame for the acquired frame, and according to the obtained position information, the position of the time window of the frame can be obtained. For example, for each frame of the input audio signal, its related information is recorded in the buffer when processing, for example, for the frame that satisfies the weak spectrum fluctuation counter cnt 3+l, its identification is recorded in the cache. It is "1"; for the frame that satisfies the weak spectrum fluctuation counter cnt 3+l, its identifier is marked as "0" in the cache; accordingly, at this time, the relevant content recorded in the cache can be known. Not satisfying the position information of the frame of the weak spectrum fluctuation counter cnt 3+l, and Further, a position where a small number of non-noise intervals appear in the time window can be known.
  • the method provided by the embodiment of the present invention further includes:
  • the feature of the background noise is extracted according to actual needs. For example: extracting a feature value of a noise interval at the end of the time window as a feature of the background noise in the time window; or, extracting a feature mean of all noise intervals in the time window as a feature of the background noise in the time window; or The weighted feature value of the partial or total noise interval in the time window is extracted as a feature of the background noise in the time window.
  • the embodiment of the present invention does not limit the manner and method of the extraction.
  • the time window contains a background noise interval which is mostly a noise interval and only a small number of non-noise intervals
  • the method provided by the embodiment of the present invention can quickly detect or track frequent and severe background noise by analyzing the existence of background noise continuously in a certain time window. At the same time, by detecting the pitch characteristics, spectral peak position stability and maximum peak-to-valley ratio position stability, the background noise false tracking phenomenon occurring in the music signal is significantly reduced.
  • Example 3
  • the embodiment of the present invention provides a device for implementing background noise tracking in a communication system.
  • the device includes:
  • the first processing module 301 is configured to calculate a signal to noise ratio SNR of the current frame according to the input audio signal
  • the second processing module 302 is configured to: if the signal to noise ratio SNR of the current frame is not less than the threshold 1, the frame counter cnt 2 is accumulated. And calculating a pitch characteristic of the current frame and a signal stability characteristic;
  • the third processing module 303 is configured to: when the frame counter cn t 2 is accumulated to the time window length, determine, according to the calculated pitch feature value and the signal stability feature value of each frame of the time window, the time window includes a noise interval Probability size
  • the fourth processing module 304 is configured to extract the noise feature in the time window according to the probability that the determined time window contains the noise interval.
  • the first processing module 301 includes:
  • a dividing unit configured to acquire spectrum information of the current frame according to the input audio signal, and divide the spectrum of the current frame into multiple sub-bands
  • the second processing module 302 includes:
  • a threshold determining unit configured to determine whether a signal to noise ratio SNR of the current frame is greater than a threshold 1;
  • a frame counter accumulating unit configured to: when the determining unit determines that the result is negative, accumulate the frame counter cnt2; and the calculating unit is configured to calculate a spectral fluctuation value of the current frame, a tonal feature value of the current frame, a spectral peak position fluctuation value of the current frame, and The maximum peak-to-valley ratio of the current frame is the position fluctuation value.
  • the third processing module 303 further includes:
  • the accumulating unit is configured to accumulate the weak spectrum fluctuation counter cnt3 if the spectral fluctuation value of the current frame is less than the threshold 3; if the pitch characteristic value of the current frame is less than the threshold 4, accumulate the weak pitch counter cnt4; if the spectrum of the current frame has the largest peak and valley If the position fluctuation value is less than the threshold 5, the stable maximum peak-to-valley ratio position counter cnt5 is accumulated; if the spectrum peak position fluctuation value of the current frame is greater than the threshold 6, the spectrum peak position fluctuation counter cnt6 is accumulated;
  • the determining unit is configured to determine whether there is a noise frame in the time window according to the spectral fluctuation value of the current frame, the pitch characteristic value, the spectral maximum peak-to-valley ratio position fluctuation value, the spectral peak position fluctuation value, and each counter.
  • the determining unit is specifically configured to: if the weak pitch counter cnt4 is greater than the threshold 7, the noise window in the time window; if the weak pitch counter cnt4 is not greater than the threshold 7, if the weak spectrum fluctuation counter cnt3 is greater than the threshold 8, the stable maximum peak-to-valley ratio
  • the position counter cnt5 is smaller than the threshold 9, the spectrum peak position fluctuation counter cnt6 is greater than the threshold 10, and the current frame spectral fluctuation value is less than the threshold 11, the current frame is a noise frame; otherwise, if the stable maximum peak-to-valley ratio position counter cnt5 is less than the threshold 9, And if the spectral peak position fluctuation counter cnt6 is greater than the threshold 10, there is a noise frame in the time window; otherwise, there is no noise frame in the time window.
  • the third processing module 303 is specifically configured to: if the weak spectrum fluctuation counter cnt3 is equal to the time window length, the time window is a full noise interval; if the weak spectrum fluctuation counter cnt3 is smaller than the time window length and If it is greater than the preset length, the time window is mostly a noise interval and there are a small number of non-noise intervals; if there is no noise frame in the time window.
  • the third processing module 303 further includes: a location type determining unit, configured to determine a location type of a small number of non-noise intervals appearing in the time window, where the location type includes: The front end of the time window, the end of the time window, and both ends of the time window.
  • the location type determining unit is specifically configured to obtain, according to the weak spectrum fluctuation counter cnt 3, a frame that does not satisfy the accumulation of the weak spectrum fluctuation counter cnt 3, obtain a frame position according to the acquired frame, and obtain a small amount of non-noise interval according to the position.
  • the fourth processing module 304 is specifically configured to: if the time window is a full noise interval, extract the feature value of the noise interval at the end of the time window; or, extract the feature mean of all the noise intervals in the time window; or, extract the portion of the time window Or a weighted eigenvalue of all noise intervals; if the time window is mostly a noise interval and there are a small number of non-noise intervals, if the non-noise interval is not at the end of the time window, the eigenvalue of the noise interval at the end of the time window is extracted; Or, extracting a weighted feature value of a partial noise interval near the end in the time window; if the non-noise interval is at the end of the time window, extracting a minimum value of the noise feature in the time window; or, extracting a weighted feature value of the partial noise interval.
  • the third processing module is further configured to: when the frame counter cnt 2 is greater than the length of the time window, if the spectral fluctuation value of the current frame is less than a threshold of 1, the current frame is a noise frame; otherwise, The current frame is a non-noise frame.
  • the apparatus can quickly detect or track frequently changing and severe background noise by continuously analyzing the existence of background noise in a time window of a certain length. At the same time, by detecting the pitch characteristics, spectral peak position stability and maximum peak-to-valley ratio position stability, the background noise false tracking phenomenon occurring in the music signal is significantly reduced.
  • the term "receiving" in the embodiment of the present invention may be understood as actively acquiring information from other modules or receiving information sent by other modules.
  • modules in the apparatus in the embodiment can be described according to the embodiments.
  • the corresponding change can also be made in one or more devices different from the embodiment.
  • the modules of the above embodiments may be combined into one module, or may be further split into multiple sub-modules.
  • Some of the steps in the embodiments of the present invention may be implemented by using software, and the corresponding software program may be stored in a readable storage medium, such as an optical disk or a hard disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

一种实现通信系统中背景噪声的跟踪的方法和装置 本申请要求了 2009年 10月 15 日提交的, 申请号为 200910205300. 2, 发明 名称为 "一种实现通信系统中背景噪声的跟踪的方法和装置" 的中国专利申请 的优先权, 其全部内容通过引用结合在本申请中。
技术领域
本发明涉及通信领域, 特别涉及一种实现通信系统中背景噪声的跟踪的方 法和装置。 背景技术
在语音通信系统中, f it VAD ( Vo i ce Act ivi ty Detec t ion, 语音激活检测) 技术, 可以获知语音何时是激活状态, 从而可以实现只在激活状态传输信号, 有效地节约带宽资源。 另外, 由于语音通信系统中, 说话人输入给终端的语音 信号中通常都夹带有背景噪声, 通过赚 oi se Suppres s ion,噪声抑制)技术, 可以有效降低或者抑制语音中夹带的背景噪声, 显著改善听者的主观感受。
在语音激活检测 VAD 中, 区别当前信号是语音还是非语音, 本质上是看当 前信号的特征是更接近背景噪声的特征还是更接近语音的特征, 更接近的一方 则为当前信号的类别。 在噪声抑制 NS中, 为了削弱背景噪声对语音的影响, 也 需要知道当前背景噪声的某些特征, 这样才能把这些特征从语音信号中去除掉, 从而达到抑制噪声的目的。 于是无论是语音激活检测 VAD还是噪声抑制 NS, 都 要涉及到一个关键的技术, 即背景噪声跟踪。
目前, 广泛使用的背景噪声跟踪技术是 AMR ( Audio/Modem Ri ser , 声音 / 调制解调器插卡) VAD2 中所用的背景噪声跟踪技术。 该技术首先计算当前帧的 SNR ( S i gna l to Noi se Ra t io , 信噪比), 如果 SNR较小, 小于背景噪声门限, 则当前帧就被确认为是背景噪声帧; 否则检测当前帧的基音和音调(tone)特征, 如果当前帧具有基音和音调的特征, 则将滞后计数器加 1, 否则进一步计算当前 帧与其之前相邻若干帧的谱波动大小, 如果当前帧的谱波动较大, 大于一个门 限, 则认为当前帧可能不是噪声帧且将滞后计数器加 1, 否则认为当前帧可能是 噪声帧且将连续噪声帧计数器加 1。 如果连续噪声帧计数器达到了 50帧, 则可 确认当前帧应为背景噪声帧。 并且, 在连续噪声帧计数器累加的过程中, 允许 个别不确信的帧出现(以滞后计数器来表示)。 当连续噪声计数器达到 50帧时, 如果滞后计数器不大于 6 (即不确信的帧不大于 6帧)时,则确认当前帧为噪声帧, 即此时不影响对当前噪声帧的确认。 如果在连续噪声计数器累加的过程中, 滞 后计数器超过 6帧, 则重置连续噪声帧计数器, 当前信号不确认为背景噪声。
一方面, 上述背景噪声跟踪技术在跟踪速度上存在缺陷, 当背景噪声发生 突变时(指向 SNR增大的方向变化, 比如噪声电平突然升高的情况), 依靠 SNR 和背景噪声门限的比较已无法识别出噪声信号,只能等待连续 50个噪声帧出现, 导致跟踪速度慢。 如果说话人的频率较快, 无法满足出现连续 50个噪声帧的条 件, AMR VAD2将无法跟踪上背景噪声。 另一方面, 上述背景噪声跟踪技术在跟 踪的准确性上存在缺陷, 由于很多音乐信号中没有明显的基音和音调特征, 则 如果依据连续噪声计数器大于等于 50且滞后计数器不大于 6的条件, 会将某些 音乐信号也错误的判断为是背景噪声。 发明内容
为了提高跟踪背景噪声的速度、 提高跟踪背景噪声的准确性, 本发明实施 例提供了一种实现通信系统中背景噪声的跟踪的方法和装置。 所述技术方案如 下:
一方面,提供了一种实现通信系统中背景噪声的跟踪的方法, 所述方法包 括:
才艮据输入的音频信号, 计算当前帧的信噪比 SNR;
若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算 所述当前帧的音调特征以及信号稳定性特征;
当所述帧计数器 cnt 2累加至时间窗口长度时, 则根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征值, 判断出所述时间窗口中含有 噪声区间的可能性大小;
根据判断出的所述时间窗口含有噪声区间的可能性大小, 提取所述时间窗 口中的噪声特征。
再一方面,提供了一种实现通信系统中背景噪声的跟踪的装置, 所述装置包 括: 第一处理模块, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ; 第二处理模块, 用于若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算所述当前帧的音调特征以及信号稳定性特征;
第三处理模块, 用于当所述帧计数器 cn t 2累加至时间窗口长度时, 则根据 所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值, 判断出 所述时间窗口中含有噪声区间的可能性大小;
第四处理模块, 用于根据判断出的所述时间窗口含有噪声区间的可能性大 小, 提取所述时间窗口中的噪声特征。
本发明实施例提供的技术方案的有益效果是:
通过连续的在一定长度的时间窗口中分析背景噪声的存在性, 可以快速的 检测或跟踪变化频繁且剧烈的背景噪声。 同时, 通过对音调特征, 频谱峰值位 置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景 噪声误跟踪现象。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付 出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例 1提供的实现通信系统中背景噪声的跟踪的方法的流 程示意图;
图 2是本发明实施例 2提供的实现通信系统中背景噪声的跟踪的方法的流 程示意图;
图 3是本发明实施例 3提供的实现通信系统中背景噪声的跟踪的装置的示 意图。 具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明 实施方式作进一步地详细描述。
实施例 1 本领域技术人员可以获知: 背景噪声跟踪技术的性能可以用两个指标来衡 量, 即跟踪的速度和跟踪的准确性。 其中, 跟踪的速度指识别出某背景噪声信 号的时间与该信号实际发生时间之间的距离, 距离越短跟踪速度就越快。 跟踪 的准确性指能够正确识别出背景噪声信号和非背景噪声信号, 进而只在背景噪 声信号中提取特征参数。
如前所述, 现有的噪声跟踪技术普遍在跟踪准确性和跟踪速度上都存在不 足。 跟踪速度的不足主要出现在有变化较剧烈的背景噪声存在时, 现有噪声跟 踪技术需要一段比较长的时间, 只有在背景噪声变的平稳且持续一段较长的时 间之后才能有效的跟踪上。 跟踪准确性的不足主要出现在有音乐信号存在时, 由于很多的音乐信号中没有明显的基音和音调特征, 现有背景噪声跟踪技术会 把此类音乐信号误当成噪声信号进行跟踪, 需要特别注意的是, 此处没有明显 的基音和音调特征的音乐信号是一种泛指, 传输的信号中除语音信号、 背景噪 声信号以外的任何信号, 只要没有明显的基音和音调特征的都可称为音乐信号。
有鉴于此, 本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方 法, 旨在改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下, 跟踪速 度较慢的问题, 以及改善现有背景噪声跟踪技术在有音乐信号存在时的误跟踪 问题, 参见图 1, 该方法内容如下:
Sl: 4艮据输入的音频信号, 计算当前帧的信噪比 SNR;
S2:若当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算当 前帧的音调特征以及信号稳定性特征;
其中, 音调特征, 包括但不限于提取——频谱的最大峰谷比, 频谱的局部 峰谷比的线性组合, 频谱的局部峰值数量, 部分频谱的局部峰值数量, 频谱的 最大峰均比, 频谱的局部峰均比的线性组合等。 其中,信号稳定性特征, 包括但 不限于提取一一总能量波动, 子带能量波动, 频谱最大峰值位置波动, 频谱最 大峰谷比位置波动, 多个频谱局部峰值位置波动等。
S 3:当帧计数器 cnt 2 累加至时间窗口长度时, 则根据计算得到的时间窗口 各帧的音调特征值和信号稳定性特征值, 判断出时间窗口中含有噪声区间的可 能性大小;
时间窗中含有噪声区间的可能性大小指时间窗中是否含有噪声及含有噪声 的位置。 对于一个时间窗中的音频帧, 可能存在下列噪声区间可能性: 当前帧 为噪声帧, 存在噪声帧。
S4:才艮据判断出的时间窗口含有噪声区间的可能性大小, 提取时间窗口中的 噪声特征。
对于当前帧为噪声帧的情况, 可以直接提起当前帧的噪声特性, 对于存在 噪声帧的情况又具体包括: 全噪声区间、 大部分为噪声区间而仅有少量非噪声 区间。 对不同的类型根据不同情况提取噪声特征。
本发明实施例提供的方法,通过连续的在一定长度的时间窗口中分析背景 噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景噪声。 同时, 通 过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降 低了发生在音乐信号的背景噪声误跟踪现象。
实施例 2
为了改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下, 跟踪速 度较慢的问题, 以及现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题, 本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法, 参见图 2, 该 方法内容如下:
101 : 才艮据输入的音频信号, 计算当前帧的信噪比 SNR。
对于输入的音频信号, 各音频信号以帧格式的形式进行传输, 首先需要对 于当前帧进行信噪比的计算, 其中, 计算方法如下:
101A:获取当前帧的频谱信息, 将当前帧的频谱非均匀的划分为 16个子带。 其中,本实施例以将当前帧的频谱非均匀的划分为 16个子带为例进行说明, 具体实现时, 可以采用均匀的划分方式, 本实施例对此不做限制。 另外, 具体 实现时, 对划分得到的子带数目不做限制, 例如, 当对于频域分辨率要求较高 的情况, 则子带数目可以适当增加, 但同时计算的复杂度会增大。 具体应用时, 根据技术人员的实际需要进行选择, 本实施例对此不做限制。
101B: 根据得到的子带, 计算每个子带的 snr (i)。
其中, snr (i) = Es (i) / En (i) ; snr (i)表示当前帧第 i个子带的 SNR, Es (i) 和 En (i)分别表示当前帧和背景噪声估计中第 i子带的能量。
101C: 根据计算得到的每个子带的 snr (i), 得到当前帧的 SNR。 其中, 当前帧的 SNR表示为所有子带 snr (i)的和, 即 Μ? = Χ Γ( )。
102: 判断当前帧的 SNR是否小于门限 1, 如果是, 执行步骤 103; 否则执 行步骤 104
其中, 该门限 1可以称为噪声门限, 且该门限 1 的取值为一较小的数值, 通常 SNR的数值单位为分贝 DB, 相应地, 该门限 1的数值单位也为 DB, 具体实 现时, 对门限的数值单位不做限制。
103: 确认当前帧是噪声帧。
进一步地, 为了防止将能量较低的语音末尾当做背景噪声, 由于该语音末 尾由于能量较低, 所以其 SNR会有可能小于上述门限 1, 相应地, 在步骤 103还 包括: 将连续噪声计数器 cnt l加 1, 之后判断连续噪声计数器 cnt l是否大于门 限 2, 如果是, 则将当前帧确认为噪声帧; 否则, 则当前帧是语音末尾, 流程结 束。
104: 当前帧的 SNR不小于门限 1, 将帧计数器 cnt 2加 1
105: 在将帧计数器 cnt 2加 1 的同时, 计算当前帧的音调特征值参数和信 号稳定性参数; 且对最小子带能量緩存进行更新。
其中, 上述音调特征值参数包括但不限于: 频谱的最大峰谷比, 频谱的局 部峰谷比的线性组合, 频谱的局部峰值数量, 部分频谱的局部峰值数量, 频谱 的最大峰均比, 频谱的局部峰均比的线性组合等。 优选地, 本实施例是以频谱 最大的 3个归一化峰谷比的和来表示音调特征值。 详见如下: tonal = PVRmaxl + PVRmm2 + PVRmax3
其中 ^^ 3分别表示当前帧频谱中最大的 3个归一化峰谷比, 归一化峰谷比 表示为 PVR = [(peak - val, ) + (peak - val )] / E
其中?^樣示^!1谱的某个局部峰值, ra/,和 分别表示 谱峰值 左右两侧各 4个 频点范围内搜索得到的最小值, 表示 ?£>α洒侧距^ α撮近的局部谷值,
Eavg表示 频谱能量的均值。
其中, 上述信号稳定性参数包括但不限于: 总能量波动, 子带能量波动, 频谱 最大峰值位置波动, 频谱最大峰谷比位置波动, 多个频谱局部峰值位置波动等。 优选地, 本实施例以谱波动值、 当前帧的频谱峰值位置波动值、 当前帧的频谱 最大峰谷比位置的波动值为例进行说明。 分别详见如下:
1 普波动值( spdev ), 计算方法如下:
Figure imgf000009_0001
其中 M Ew(0的均值, Ew(0为第子带经谱减后的能量, 表示为
EW( ) = E ·)/ ()
其中 表示当前帧第子带的能量, Eavg(0表示第子带的能量滑动平均, 表示为
Eavg(i) = a-Eavg(i) + (\-a)-Es(i)
其中《是遗忘系数
2、当前帧的频普峰值位置波动值( ^),表示 FFT( Fast Fourier Transform, 傅立叶变换)谱最大峰值位置的前后变化大小,计算方法如下:
P idxp max (0)― idxp max (― 1)
其中^ ^ (0)和 max(-l)分别表示当前和前一帧中频谱最大峰值的 FFr频点索引。 3、 频谱最大峰谷比位置波动值 Mpflux ), 表示帧内具有最大峰谷比的 FFT 谱峰值位置的前后变化大小, 其计算方法如下。
MPflux = idxpwmaK (0) - idxpwmaK (-1)
其中 W~ max(0)和 W> max(-l)分别表示当前帧和其前一帧具有最大峰谷比的^频点 索引, 峰谷比 的计算方法为
Figure imgf000009_0002
其中 — 表示局部峰值^啲能量, — ,和 分别表示^:左侧第个和右侧 第个 频点的能量。 其中, 该步骤 105 中所涉及的对最小子带能量緩存进行更新, 其作用是存 储当前时间窗口中各个子带的最小能量值。
106: 根据步骤 105得到的参数值, 和各参数对应的门限进行比较后, 针对 各参数而言, 对于满足各自的条件的参数对应的计数器加 1。 详见如下:
106A:判断步骤 105得到的当前帧的谱波动值是否小于门限 3, 如果是, 则 将弱谱波动计数器 cnt3加 1; 否则, 保持弱谱波动计数器 cnt3不变。
106B:判断步骤 105得到的音调特征值是否小于门限 4, 如果是, 则将弱音 调计数器 cnt4加 1; 否则, 保持弱音调计数器 cnt4不变。
106C:判断步骤 105得到的频谱最大峰谷比位置波动值是否小于门限 5, 如 果是, 则将稳定最大峰谷比位置计数器 cnt5加 1; 否则, 保持稳定最大峰谷比 位置计数器 cnt5不变。
106D:判断步骤 105得到的频谱峰值位置波动值是否大于门限 6, 如果是, 则将频谱峰值位置波动计数器 cnt6加 1; 否则, 保持频谱峰值位置波动计数器 cnt6不变。
优选地, 上述门限 3可以取值为 12、 门限 4可以取值为 15、 门限 5可以取 值为 1、 门限 6可以取值为 0。 本实施例对各门限具体取值大小和取值单位不做 限制, 根据实际应用进行设置。
107: 判断帧计数器 cnt2 计数是否等于预设的时间窗口长度; 如果是, 则 执行步骤 108; 否则, 执行步骤 114。
其中, 帧计数器 cnt2的目的是为了建立一个时间窗口, 本实施例中将该时 间窗口的长度预设为 30,即该时间窗口由 30帧帧长组成,相当于帧计数器 cnt2 计数达到 30,本实施例中在每一个这样的时间窗口内都会对信号特征进行分析, 从中提取出可能存在的背景噪声特征。
108: 判断弱音调计数器 cnt4是否大于门限 7, 如果是, 则执行步骤 109; 否则, 执行步骤 112。
109: 弱音调计数器 cnt4大于门限 7, 则认为在过去的 30帧中存在噪声帧, 则判断是否同时满足如下条件: 弱谱波动计数器 cnt3>门限 8、 稳定最大峰谷比 位置计数器 cnt5〈门限 9、 频谱峰值位置波动计数器 cnt6>门限 10、 当前帧的谱 波动 spdev〈门限 11, 如果是, 则执行步骤 113; 否则, 执行步骤 110。
110: 判断是否同时满足如下条件: 稳定最大峰谷比位置计数器 cnt5〈门限 9、 频谱峰值位置波动计数器 cnt6>门限 10; 如果是, 则执行步骤 111; 否则, 执行步骤 112。
111: 将最小子带能量緩存中存储的子带能量作为噪声子带能量的特征。 其中, 若执行到步骤 111, 则表示过去的 30帧中至少存在噪声帧, 且将最 小子带能量緩存中存储的子带能量作为噪声特征。
112: 将各计数器 cntl-6重置为 0, 并将最小子带能量緩存清空。
其中, 若执行到步骤 112, 则表示过去的 30帧中不存在噪声帧。
113: 确认当前帧为噪声帧。
其中, 若执行到步骤 113, 则可确认当前帧为噪声帧。
114: 判断帧计数器 cnt2是否大于 30, 如果否, 则执行步骤 115; 否则, 执行步骤 116。
115: 继续读取当前帧的下一帧, 返回执行步骤 101。
116: 判断谱波动是否小于门限 11, 如果是, 则执行步骤 113, 即确认当前 帧为噪声帧; 否则, 执行步骤 112, 即将各计数器 cnt l-6重置为 0, 并将最小 子带能量緩存清空。
其中, 若当前帧为非噪声帧, 则可以不用提取时间窗口的噪声特征; 若当 前帧为噪声帧, 则可以直接提取该噪声帧的特征值; 若判断出时间窗户存在噪 声帧, 则可以通过以下方式方法, 提取到该时间窗口的噪声特征, 详见如下: 进一步地, 若判断结果为时间窗口存在噪声帧时, 则根据上述音调特征统 计值和信号稳定性统计值, 可以判断得出该时间窗口中含有背景噪声区间的类 型(即包括全噪声区间、 大部分为噪声区间而仅有少量非噪声区间), 具体如下:
1、 判断该时间窗口中含有背景噪声区间是否为全噪声区间; 例如, 根据弱 谱波动计数器 cnt 3, 判断该弱谱波动计数器 cnt 3是否等于时间窗口长度, 如果 是, 则认为该时间窗口中含有背景噪声区间为全噪声区间; 否则, 则认为该时 间窗口中含有背景噪声区间不为全噪声区间;
2、 判断该时间窗口中含有背景噪声区间是否是大部分为噪声区间而仅有少 量非噪声区间; 例如, 根据弱谱波动计数器 cnt 3, 判断该弱谱波动计数器 cnt 3 是否小于时间窗口长度且大于预设取值 (该预设取值为本领域技术根据实际需 要所设定的经验值), 如果是, 则认为该时间窗口中是大部分为噪声区间而仅有 少量非噪声区间;
3、 判断该时间窗口中不存在噪声区间。 即如前所述, 若执行到步骤 112, 则表示过去的 30帧中不存在噪声帧。
进一步地, 若上述判断得出该时间窗口中含有背景噪声区间是大部分为噪 声区间而仅有少量非噪声区间, 则进一步包括: 判断上述少量的非噪声区间在 该时间窗口中出现的位置, 例如, 上述少量的非噪声区间是否位于该时间窗口 的前端, 或, 上述少量的非噪声区间是否位于该时间窗口的末端, 或, 上述少 量的非噪声区间是否位于该时间窗口的两端。 方法如下: 获取不满足令弱谱波 动计数器 cnt 3+l的帧, 对于获取的帧得到帧的位置信息, 根据所得到的位置信 息, 可以得出帧所在时间窗口的位置。 例如, 对于输入的音频信号的每个帧, 在进行处理时, 都会在緩存中记录其相关的信息, 例如, 对于满足令弱谱波动 计数器 cnt 3+l的帧, 在緩存中将其标识记为 " 1" ; 对于满足令弱谱波动计数器 cnt 3+l的帧, 在緩存中将其标识记为 " 0" ; 相应地, 此时, 可以才艮据緩存中记 录的相关内容, 可以获知不满足令弱谱波动计数器 cnt 3+l的帧的位置信息, 并 进而可以获知少量的非噪声区间在该时间窗口中出现的位置。
当需要提取背景噪声的特征时, 本发明实施例提供的方法还包括:
1、 当该时间窗口中含有背景噪声区间为全噪声区间时, 根据实际需要进行 背景噪声的特征的提取。 例如: 提取该时间窗口最末端的噪声区间的特征值作 为该背景噪声在该时间窗口的特征; 或, 提取该时间窗口内所有噪声区间的特 征均值作为该背景噪声在该时间窗口的特征; 或, 提取该时间窗口内部分或全 部噪声区间的加权特征值作为该背景噪声在该时间窗口的特征, 本发明实施例 对提取的方式和方法不做限制。
2、 当该时间窗口中含有背景噪声区间为大部分为噪声区间而仅有少量非噪 声区间时,
1 )若非噪声区间不在时间窗口的末端时, 则提取该时间窗口最末端的噪声 区间的特征值作为该背景噪声在该时间窗口的特征; 或, 提取时间窗口中靠近 末端的部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征;
2 )若非噪声区间在时间窗口的末端时, 则提取时间窗口中的最小特征值作 为该背景噪声在该时间窗口的特征; 或, 提取部分噪声区间的加权特征值作为 该背景噪声在该时间窗口的特征。
综上所述, 本发明实施例提供的方法, 通过连续的在一定长度的时间窗口 中分析背景噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景噪声。 同时, 通过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性的检测 显著的降低了发生在音乐信号的背景噪声误跟踪现象。 实施例 3
与上述方法实施例相应地,本发明实施例提供了一种实现通信系统中背景 噪声的跟踪的装置,参见图 3,该装置包括:
第一处理模块 301, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ; 第二处理模块 302, 用于若当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算当前帧的音调特征以及信号稳定性特征;
第三处理模块 303, 用于当帧计数器 cn t 2 累加至时间窗口长度时, 则根据 计算得到的时间窗口各帧的音调特征值和信号稳定性特征值, 判断出时间窗口 中含有噪声区间的可能性大小; 第四处理模块 304, 用于根据判断出的时间窗口含有噪声区间的可能性大 小, 提取时间窗口中的噪声特征。
其中,第一处理模块 301, 包括:
划分单元, 用于根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧 的频谱划分为多个子带;
子带计算单元, 用于根据得到的各子带, 计算每个子带的信噪比 snr(i); 获得单元, 用于根据计算得到的每个子带的 snr(i), 得到当前帧的 SNR。 其中,第二处理模块 302, 包括:
门限判断单元, 用于判断当前帧的信噪比 SNR是否大于门限 1;
帧计数器累加单元, 用于若判断单元判断结果为否时, 累加帧计数器 cnt2; 计算单元, 用于计算当前帧的谱波动值、 当前帧的音调特征值、 当前帧的 频谱峰值位置波动值以及当前帧的频谱最大峰谷比位置波动值。
其中, 第三处理模块 303, 还包括:
累加单元, 用于若当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt3;若当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt4; 若当前帧 的频谱最大峰谷比位置波动值小于门限 5, 则累加稳定最大峰谷比位置计数器 cnt5; 若当前帧的频谱峰值位置波动值大于门限 6, 则累加频谱峰值位置波动计 数器 cnt6;
判断单元, 用于根据当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位 置波动值、 频谱峰值位置波动值以及各计数器, 判断时间窗口中是否存在噪声 帧。
其中, 判断单元具体用于如果弱音调计数器 cnt4大于门限 7, 则时间窗口 中无噪声帧; 如果弱音调计数器 cnt4不大于门限 7, 则若弱谱波动计数器 cnt3 大于门限 8、 稳定最大峰谷比位置计数器 cnt5小于门限 9、 频谱峰值位置波动 计数器 cnt6大于门限 10, 且当前帧的谱波动值小于门限 11, 则当前帧为噪声 帧; 否则, 若稳定最大峰谷比位置计数器 cnt5小于门限 9, 且频谱峰值位置波 动计数器 cnt6大于门限 10, 则时间窗口中存在噪声帧; 否则, 时间窗口中无噪 声帧。
其中, 第三处理模块 303, 具体用于若弱谱波动计数器 cnt3等于时间窗口 长度, 则时间窗口为全噪声区间; 若弱谱波动计数器 cnt3小于时间窗口长度且 大于预设长度, 则时间窗口为大部分为噪声区间且存在少量的非噪声区间; 若 时间窗口中无噪声帧。
若时间窗口为大部分为噪声区间且存在少量的非噪声区间, 第三处理模块 303还包括: 位置类型判断单元,用于判断少量的非噪声区间在时间窗口出现的 位置类型, 位置类型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两 端。
其中, 位置类型判断单元具体用于根据弱谱波动计数器 cnt 3, 获取不满足 令弱谱波动计数器 cnt 3累加的帧, 根据获取的帧, 得到帧的位置, 根据位置获 得少量的非噪声区间在时间窗口出现的位置类型。
第四处理模块 304 具体用于若时间窗口为全噪声区间时, 则提取时间窗口 最末端的噪声区间的特征值; 或, 提取时间窗口内所有噪声区间的特征均值; 或, 提取时间窗口内部分或全部噪声区间的加权特征值; 若时间窗口为大部分 为噪声区间且存在少量的非噪声区间时, 如果非噪声区间不在时间窗口的末端, 则提取时间窗口最末端的噪声区间的特征值; 或, 提取时间窗口中靠近末端的 部分噪声区间的加权特征值; 如果非噪声区间在时间窗口的末端时, 则提取时 间窗口中噪声特征的最小值; 或, 提取部分噪声区间的加权特征值。 所述第三处理模块,还用于当所述帧计数器 cnt 2大于所述时间窗口长度时, 若所述当前帧的谱波动值小于门限 1 1, 则所述当前帧为噪声帧; 否则, 所述当 前帧为非噪声帧。
综上所述, 本发明实施例提供的装置, 通过连续的在一定长度的时间窗口 中分析背景噪声的存在性, 可以快速的检测或跟踪变化频繁且剧烈的背景噪声。 同时, 通过对音调特征, 频谱峰值位置稳定性和最大峰谷比位置稳定性的检测 显著的降低了发生在音乐信号的背景噪声误跟踪现象。 本发明实施例中的 "接收" 一词可以理解为主动从其他模块获取也可以是 接收其他模块发送来的信息。
本领域技术人员可以理解附图只是一个优选实施例的示意图, 附图中的模 块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述分 布于实施例的装置中, 也可以进行相应变化位于不同于本实施例的一个或多个 装置中。 上述实施例的模块可以合并为一个模块, 也可以进一步拆分成多个子 模块。
上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。
本发明实施例中的部分步骤, 可以利用软件实现, 相应的软件程序可以存 储在可读取的存储介质中, 如光盘或硬盘等。
以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的 精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的 保护范围之内。

Claims

权 利 要 求 书
1、 一种实现通信系统中背景噪声的跟踪的方法, 其特征在于, 所述方法包 括:
才艮据输入的音频信号, 计算当前帧的信噪比 SNR;
若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计数器 cnt 2, 并计算 所述当前帧的音调特征以及信号稳定性特征;
当所述帧计数器 cnt 2累加至时间窗口长度时, 则根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征值, 判断出所述时间窗口中含有 噪声区间的可能性大小;
根据判断出的所述时间窗口含有噪声区间的可能性大小, 提取所述时间窗 口中的噪声特征。
2、 如权利要求 1所述的方法, 其特征在于, 所述根据输入的音频信号, 计 算当前帧的信噪比 SNR的步骤, 包括:
根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧的频谱划分为多 个子带;
根据得到的各子带, 计算每个子带的信噪比 snr (i);
根据计算得到的每个子带的 s nr (i), 得到当前帧的 SNR。
3、 如权利要求 1所述的方法, 其特征在于, 所述根据所述计算得到的所述 时间窗口各帧的音调特征值和信号稳定性特征值, 判断出所述时间窗口中含有 噪声区间的可能性大小, 包括:
根据所述音调特征值和信号稳定性特征值判断当前帧是否为噪声帧, 若当 前帧为噪声帧, 则判断所述时间窗口中含有噪声区间的可能性大小。
4、 如权利要求 1所述的方法, 其特征在于, 所述计算所述当前帧的音调特 征以及信号稳定性特征的步骤, 包括:
计算所述当前帧的音调特征值、 所述当前帧的谱波动值、 所述当前帧的频 谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。
5、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的音调特征值 包括计算频谱最大的 3个归一化峰谷比的和:
tonal = i + PVR 2 + PVR
其中尸 ^2,3分别表示当前帧频谱中最大的 3个归一化峰谷比, 归一化峰谷比 表示为 PVR = [(peak - val, ) + (peak - valr )] I Eavg
其中; 表示 FFr谱的某个局部峰值, ra/ nV 分别表示 FFr谱峰值;? 左右两侧各 4个 频点范围内搜索得到的最小值, 表示;? ei^两侧距;? ei^最近的局部谷值,
Eavg表示 FFr频谱能量的均值。
6、如权利要求 4所述的方法,其特征在于,计算所述当前帧的谱波动值 s pdev 包括: spdev = ∑ (Ew (0 - Mf
N
其中 M Ew(;o的均值, 为第子带经谱减后的能量, 表示为
Figure imgf000017_0001
其中 表示当前帧第子带的能量, Eavg«表示第子带的能量滑动平均, 表示为
Eavg{i) = a-Eavg{i) + {l-a)-Es{i)
其中《是遗忘系数
7、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的频谱峰值位 置波动值 包括:
Pflu, = idxpm^ (0) - idxpmax (- 1)
其中 idxpmax O)和 Wxpmax (-1)分别表示当前和前一帧中频谱最大峰值的 频点索引。
8、 如权利要求 4所述的方法, 其特征在于, 计算所述当前帧的频谱最大峰 谷比位置波动值 Α ^包括:
MPflUX = (°) - 其中 ^^ (0)和^^ (-1)分别表示当前帧和其前一帧具有最大峰谷比的 FFr频点 索引, 峰谷比? vr的计算方法为
Figure imgf000017_0002
其中 表示局部峰值 的能量, E, — — ,和 E,A+,分别表示^ 左侧第个和右侧 第个 FFr频点的能量。
9、 如权利要求 4至 8任一项所述的方法, 其特征在于, 所述判断出所述时 间窗口中含有噪声区间的可能性大小的步骤之前, 所述方法还包括:
若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt 3;
若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ;
若所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰 谷比位置计数器 cnt 5 ;
若所述当前帧的频谱峰值位置波动值大于门限 6,则累加频谱峰值位置波动 计数器 cnt 6 ;
根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否存在噪声帧。
10、 如权利要求 9所述的方法, 其特征在于, 当所述帧计数器 cnt 2累加至 时间窗口长度时, 所述判断所述时间窗口中是否存在噪声帧的步骤, 包括: 如果所述弱音调计数器 cnt 4不大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱音调计数器 cnt 4大于门限 7,则若所述弱谱波动计数器 cnt 3大 于门限 8、 所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位 置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所 述当前帧为噪声帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰值位置波动计数器 cnt 6大于门限 10,则所述时间窗口中存在噪声 帧; 否则, 所述时间窗口中无噪声帧。
11、 如权利要求 10所述的方法, 其特征在于, 若所述时间窗口中存在噪声 帧, 所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤, 包括: 若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全 噪声区间;
若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所 述时间窗口为大部分为噪声区间且存在少量的非噪声区间。
12、 如权利要求 11所述的方法, 其特征在于, 若所述时间窗口包含的噪声 区间的类型为大部分为噪声区间且存在少量的非噪声区间, 则所述方法还包括: 判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位置类 型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。
1 3、 如权利要求 12所述的方法, 其特征在于, 所述判断所述少量的非噪声 区间在所述时间窗口出现的位置类型的步骤, 包括:
根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。
14、 如权利要求 1 3所述的方法, 其特征在于, 所述根据判断出的所述时间 窗口含有噪声区间的可能性大小, 提取所述时间窗口的噪声特征的步骤, 包括: 若所述时间窗口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间 的特征值; 或, 提取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述 时间窗口内部分或全部噪声区间的加权特征值;
若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时, 如果所 述非噪声区间不在所述时间窗口的末端, 则提取所述时间窗口最末端的噪声区 间的特征值; 或, 提取所述时间窗口中靠近末端的部分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取所述时间窗口中噪声特征的 最小值; 或, 提取部分噪声区间的加权特征值。
15、 如权利要求 1 所述的方法, 其特征在于, 所述判断出所述时间窗口中 含有噪声区间的可能性大小的步骤之前, 所述方法还包括:
根据所述音调特征值和信号稳定性特征值, 和各音调特征值和信号稳定性 特征值对应的门限进行比较, 对于满足各自的条件的音调特征值和信号稳定性 特征值对应的计数器进行累加。
16、 如权利要求 15所述的方法, 其特征在于, 所述根据所述音调特征值和 信号稳定性特征值, 和各音调特征值和信号稳定性特征值对应的门限进行比较, 对于满足各自的条件的音调特征值和信号稳定性特征值对应的计数器进行累 力口, 包括:
若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数器 cnt 3;
若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ;
若所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰 谷比位置计数器 cnt 5 ;
若所述当前帧的频谱峰值位置波动值大于门限 6,则累加频谱峰值位置波动 计数器 cnt 6 ;
根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否存在噪声帧。
17、 如权利要求 15或 16所述的方法, 其特征在于, 当所述帧计数器 cnt 2 累加至时间窗口长度时, 根据所述计算得到的所述时间窗口各帧的音调特征值 和信号稳定性特征值, 判断出所述时间窗口中含有噪声区间的可能性大小包括: 当所述帧计数器 cnt 2累加至时间窗口长度时, 根据所述当前帧的音调特征 值和信号稳定性特征值以及各音调特征值和信号稳定性特征值对应的计数器, 判断所述时间窗口中是否存在噪声帧;
若所述时间窗口中存在噪声帧, 则判断所述时间窗口中含有噪声区间的可 能性大小。
18、 如权利要求 17所述的方法, 其特征在于, 当所述帧计数器 cnt 2 累加 至时间窗口长度时, 所述判断所述时间窗口中是否存在噪声帧的步骤, 包括: 如果所述弱音调计数器 cnt 4不大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱音调计数器 cnt 4大于门限 7,则若所述弱谱波动计数器 cnt 3大 于门限 8、 所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位 置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所 述当前帧为噪声帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰值位置波动计数器 cnt 6大于门限 10,则所述时间窗口中存在噪声 帧; 否则, 所述时间窗口中无噪声帧。
19、 如权利要求 18所述的方法, 其特征在于, 若所述时间窗口中存在噪声 帧, 则判断所述时间窗口中含有噪声区间的可能性大小的步骤, 包括: 若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全 噪声区间;
若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所 述时间窗口为大部分为噪声区间且存在少量的非噪声区间。
20、 如权利要求 19所述的方法, 其特征在于, 若所述时间窗口包含的噪声 区间的类型为大部分为噪声区间且存在少量的非噪声区间, 则所述方法还包括: 判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位置类 型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。
21、 如权利要求 20所述的方法, 其特征在于, 所述判断所述少量的非噪声 区间在所述时间窗口出现的位置类型的步骤, 包括:
根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。
22、 如权利要求 21所述的方法, 其特征在于, 所述根据判断出的所述时间 窗口含有噪声区间的可能性大小, 提取所述时间窗口的噪声特征的步骤, 包括: 若所述时间窗口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间 的特征值; 或, 提取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述 时间窗口内部分或全部噪声区间的加权特征值;
若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时, 如果所 述非噪声区间不在所述时间窗口的末端, 则提取所述时间窗口最末端的噪声区 间的特征值; 或, 提取所述时间窗口中靠近末端的部分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取所述时间窗口中噪声特征的 最小值; 或, 提取部分噪声区间的加权特征值。
23、 如权利要求 1所述的方法, 其特征在于, 当所述帧计数器 cnt 2大于所 述时间窗口长度时, 所述方法还包括: 获得当前帧的谱波动值, 若所述当前帧的谱波动值小于门限 1 1, 则所述当 前帧为噪声帧; 否则, 所述当前帧为非噪声帧。
24、 一种实现通信系统中背景噪声的跟踪的装置, 其特征在于, 所述装置 包括:
第一处理模块, 用于根据输入的音频信号, 计算当前帧的信噪比 SNR ;
第二处理模块, 用于若所述当前帧的信噪比 SNR不小于门限 1, 则累加帧计 数器 cnt 2, 并计算所述当前帧的音调特征以及信号稳定性特征;
第三处理模块, 用于当所述帧计数器 cn t 2累加至时间窗口长度时, 则根据 所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值, 判断出 所述时间窗口中含有噪声区间的可能性大小。
第四处理模块, 用于根据判断出的所述时间窗口中含有噪声区间的可能性 大小, 提取所述时间窗口中的噪声特征。
25、 如权利要求 24所述的装置, 其特征在于, 所述第一处理模块, 包括: 划分单元, 用于根据输入的音频信号, 获取当前帧的频谱信息, 将当前帧 的频谱划分为多个子带;
子带计算单元, 用于根据得到的各子带, 计算每个子带的信噪比 snr (i) ; 获得单元, 用于根据计算得到的每个子带的 snr (i), 得到当前帧的 SNR。
26、 如权利要求 24所述的装置, 其特征在于, 所述第二处理模块, 包括: 门限判断单元, 用于判断所述当前帧的信噪比 SNR是否大于门限 1; 帧计数器累加单元, 用于若所述判断单元判断结果为否时, 累加帧计数器 cnt 2 ;
计算单元, 用于计算所述当前帧的谱波动值、 所述当前帧的音调特征值、 所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动 值。
27、 如权利要求 26所述的装置, 其特征在于, 所述第三处理模块, 还包括: 累加单元, 用于若所述当前帧的谱波动值小于门限 3, 则累加弱谱波动计数 器 cnt 3;若所述当前帧的音调特征值小于门限 4, 则累加弱音调计数器 cnt 4 ; 若 所述当前帧的频谱最大峰谷比位置波动值小于门限 5,则累加稳定最大峰谷比位 置计数器 cnt 5 ; 若所述当前帧的频谱峰值位置波动值大于门限 6, 则累加频谱 峰值位置波动计数器 cnt 6 ;
判断单元, 用于根据所述当前帧的谱波动值、 音调特征值、 频谱最大峰谷 比位置波动值、 频谱峰值位置波动值以及各计数器, 判断所述时间窗口中是否 存在噪声帧。
28、 如权利要求 27所述的装置, 其特征在于, 所述判断单元具体用于如果 所述弱音调计数器 cnt 4大于门限 7, 则所述时间窗口中无噪声帧; 如果所述弱 音调计数器 cnt 4不大于门限 7, 则若所述弱谱波动计数器 cnt 3大于门限 8、 所 述稳定最大峰谷比位置计数器 cnt 5小于门限 9、 所述频谱峰值位置波动计数器 cnt 6大于门限 10, 且所述当前帧的谱波动值小于门限 11, 则所述当前帧为噪声 帧; 否则, 若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9, 且所述频谱峰 值位置波动计数器 cnt 6大于门限 1 0, 则所述时间窗口中存在噪声帧; 否则, 所 述时间窗口中无噪声帧。
29、 如权利要求 28所述的装置, 其特征在于, 所述第三处理模块, 具体用 于若所述弱谱波动计数器 cnt 3等于所述时间窗口长度, 则所述时间窗口为全噪 声区间; 若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度, 则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间; 若所述时间窗 口中无噪声帧。
30、 如权利要求 29所述的装置, 其特征在于, 若所述时间窗口为大部分为 噪声区间且存在少量的非噪声区间, 所述第三处理模块还包括: 位置类型判断 单元,用于判断所述少量的非噪声区间在所述时间窗口出现的位置类型, 所述位 置类型包括: 时间窗口的前端、 时间窗口的末端、 时间窗口的两端。
31、 如权利要求 30所述的装置, 其特征在于, 所述位置类型判断单元具体 用于根据所述弱谱波动计数器 cnt 3,获取不满足令所述弱谱波动计数器 cnt 3累 加的帧, 根据所述获取的帧, 得到所述帧的位置, 根据所述位置获得所述少量 的非噪声区间在所述时间窗口出现的位置类型。
32、 如权利要求 30所述的装置, 所述第四处理模块具体用于若所述时间窗 口为全噪声区间时, 则提取所述时间窗口最末端的噪声区间的特征值; 或, 提 取所述时间窗口内所有噪声区间的特征均值; 或, 提取所述时间窗口内部分或 全部噪声区间的加权特征值; 若所述时间窗口为大部分为噪声区间且存在少量 的非噪声区间时, 如果所述非噪声区间不在所述时间窗口的末端, 则提取所述 时间窗口最末端的噪声区间的特征值; 或, 提取所述时间窗口中靠近末端的部 分噪声区间的加权特征值; 如果所述非噪声区间在时间窗口的末端时, 则提取 所述时间窗口中噪声特征的最小值; 或, 提取部分噪声区间的加权特征值。
33、 如权利要求 26 所述的装置, 其特征在于, 所述第三处理模块,还用于 当所述帧计数器 cnt 2大于所述时间窗口长度时, 若所述当前帧的谱波动值小于 门限 11, 则所述当前帧为噪声帧; 否则, 所述当前帧为非噪声帧。
PCT/CN2010/077777 2009-10-15 2010-10-15 一种实现通信系统中背景噪声的跟踪的方法和装置 WO2011044853A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP10823082.2A EP2437256B1 (en) 2009-10-15 2010-10-15 Method and device for realizing trace of background noise in communication system
US13/116,323 US8095361B2 (en) 2009-10-15 2011-05-26 Method and device for tracking background noise in communication system
US13/325,985 US8447601B2 (en) 2009-10-15 2011-12-14 Method and device for tracking background noise in communication system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2009102053002A CN102044241B (zh) 2009-10-15 2009-10-15 一种实现通信系统中背景噪声的跟踪的方法和装置
CN200910205300.2 2009-10-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/116,323 Continuation US8095361B2 (en) 2009-10-15 2011-05-26 Method and device for tracking background noise in communication system

Publications (1)

Publication Number Publication Date
WO2011044853A1 true WO2011044853A1 (zh) 2011-04-21

Family

ID=43875854

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/077777 WO2011044853A1 (zh) 2009-10-15 2010-10-15 一种实现通信系统中背景噪声的跟踪的方法和装置

Country Status (4)

Country Link
US (2) US8095361B2 (zh)
EP (1) EP2437256B1 (zh)
CN (1) CN102044241B (zh)
WO (1) WO2011044853A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US9059785B2 (en) * 2011-07-07 2015-06-16 Qualcomm Incorporated Fast timing acquisition in cell search
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
JP6179087B2 (ja) * 2012-10-24 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
CA2913578C (en) 2013-06-21 2018-05-22 Michael Schnabel Apparatus and method for generating an adaptive spectral shape of comfort noise
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9997172B2 (en) * 2013-12-02 2018-06-12 Nuance Communications, Inc. Voice activity detection (VAD) for a coded speech bitstream without decoding
CN103854662B (zh) * 2014-03-04 2017-03-15 中央军委装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
US9552829B2 (en) * 2014-05-01 2017-01-24 Bellevue Investments Gmbh & Co. Kgaa System and method for low-loss removal of stationary and non-stationary short-time interferences
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN105203839B (zh) * 2015-08-28 2018-01-19 中国科学院新疆天文台 一种基于宽带频谱的干扰信号提取方法
CN107528646B (zh) * 2017-08-31 2020-08-28 中国科学院新疆天文台 一种基于宽带频谱的干扰信号识别及提取方法
KR102460071B1 (ko) * 2017-12-21 2022-10-28 삼성전자주식회사 통신모뎀 전단의 통신신호 식별 장치 및 방법
CN109771945B (zh) * 2019-01-30 2022-07-08 上海艾为电子技术股份有限公司 终端设备的控制方法和装置
CN111161749B (zh) * 2019-12-26 2023-05-23 佳禾智能科技股份有限公司 可变帧长的拾音方法、电子设备、计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450484A (en) * 1993-03-01 1995-09-12 Dialogic Corporation Voice detection
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN1802694A (zh) * 2003-05-08 2006-07-12 语音信号科技公司 信噪比中介的语音识别算法
KR20060134882A (ko) * 2006-11-29 2006-12-28 인하대학교 산학협력단 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659622A (en) 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6122610A (en) 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6662155B2 (en) * 2000-11-27 2003-12-09 Nokia Corporation Method and system for comfort noise generation in speech communication
JP2003271191A (ja) 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
EP1982324B1 (en) * 2006-02-10 2014-09-24 Telefonaktiebolaget LM Ericsson (publ) A voice detector and a method for suppressing sub-bands in a voice detector
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8090588B2 (en) 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450484A (en) * 1993-03-01 1995-09-12 Dialogic Corporation Voice detection
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN1802694A (zh) * 2003-05-08 2006-07-12 语音信号科技公司 信噪比中介的语音识别算法
KR20060134882A (ko) * 2006-11-29 2006-12-28 인하대학교 산학협력단 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법

Also Published As

Publication number Publication date
EP2437256A1 (en) 2012-04-04
US20110238418A1 (en) 2011-09-29
US20120084085A1 (en) 2012-04-05
US8095361B2 (en) 2012-01-10
US8447601B2 (en) 2013-05-21
EP2437256B1 (en) 2013-08-28
EP2437256A4 (en) 2012-04-11
CN102044241A (zh) 2011-05-04
CN102044241B (zh) 2012-04-04

Similar Documents

Publication Publication Date Title
WO2011044853A1 (zh) 一种实现通信系统中背景噪声的跟踪的方法和装置
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US9959886B2 (en) Spectral comb voice activity detection
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
US8515097B2 (en) Single microphone wind noise suppression
US9253568B2 (en) Single-microphone wind noise suppression
CN102543063B (zh) 基于说话人分割与聚类的多说话人语速估计方法
EP2407960B1 (en) Audio signal detection method and apparatus
JP2016001877A (ja) モバイルデバイスのロケーションを決定するための方法および装置
US20210136230A1 (en) Howl detection in conference systems
CN110782910A (zh) 一种高检出率的啸叫音频检测系统
CN111883182B (zh) 人声检测方法、装置、设备及存储介质
US20060265215A1 (en) Signal processing system for tonal noise robustness
WO2011044848A1 (zh) 信号处理的方法、装置和系统
KR20120130371A (ko) Gmm을 이용한 응급 단어 인식 방법
CN113223554A (zh) 一种风噪检测方法、装置、设备和存储介质
WO2008106852A1 (fr) Méthode et dispositif de classification d'un signal audio sans bruit
US20120265526A1 (en) Apparatus and method for voice activity detection
US10070219B2 (en) Sound feedback detection method and device
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
CN116364115A (zh) 破音检测方法和装置、电子设备、存储介质
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
JP2018081277A (ja) 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
Ramirez et al. Improved voice activity detection combining noise reduction and subband divergence measures.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10823082

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010823082

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 56/CHENP/2012

Country of ref document: IN

NENP Non-entry into the national phase

Ref country code: DE