WO2009123412A1 - 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체 - Google Patents

노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체 Download PDF

Info

Publication number
WO2009123412A1
WO2009123412A1 PCT/KR2009/001641 KR2009001641W WO2009123412A1 WO 2009123412 A1 WO2009123412 A1 WO 2009123412A1 KR 2009001641 W KR2009001641 W KR 2009001641W WO 2009123412 A1 WO2009123412 A1 WO 2009123412A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
noise
search
signal
frame
Prior art date
Application number
PCT/KR2009/001641
Other languages
English (en)
French (fr)
Inventor
정성일
하동경
Original Assignee
(주)트란소노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41135740&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2009123412(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by (주)트란소노 filed Critical (주)트란소노
Priority to US12/935,124 priority Critical patent/US8744845B2/en
Publication of WO2009123412A1 publication Critical patent/WO2009123412A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to speech signal processing, and more particularly, to determine a state of noise in a noisy speech signal, to estimate noise from the noisy speech signal, and to improve sound quality using the estimated noise. And a device and a computer readable recording medium for processing the noisy voice signal.
  • the Spectral Subtraction (SS) method there are several ways to improve the sound quality using the estimated noise signal, one of which is the Spectral Subtraction (SS) method.
  • SS Spectral Subtraction
  • the spectrum of the noise signal estimated from the spectrum of the noisy speech signal is subtracted, whereby an improved speech signal can be obtained by attenuating or removing the noise from the noisy speech signal.
  • the processed noisy speech signal can cause two kinds of side effects.
  • One is when the estimated noise is lower than the actual noise, in which case annoying residual noise or residual musical noise may be detected in the processed noisy speech signal.
  • the other is that the estimated noise is larger than the actual noise, in which case the speech distortion occurs due to excessive spectral subtraction.
  • the problem to be solved by the present invention is non-static, and accurately detects the noise state of the input noisy speech signal even under various types of noise conditions, and also uses a noise-like section and a speech-like section even with a small amount of memory and computation.
  • the present invention provides a method for processing a noisy speech signal capable of accurately determining a speech-like section or a noise state for speech recognition, and an apparatus and a computer-readable recording medium therefor.
  • a method for processing a noisy voice signal which is a method for processing an input noisy voice signal in a time domain, and performs a Fourier transform on the noisy voice signal.
  • Generates an omnidirectional search performs an omnidirectional search for a search signal representing a predicted noise component of the noisy speech signal, and uses the Fourier transform signal and the search signal to determine an identification ratio representing the noise state of the noisy speech signal.
  • the search signal is a search signal of a previous frame and a previous signal.
  • the size of the Fourier transform from a random signal is obtained by applying a small signal and the forgetting factor on the Fourier transform signal in the current frame.
  • an apparatus for processing a noisy voice signal to process an input noisy voice signal in a time domain to estimate a noise component of the noisy voice signal.
  • the processing apparatus performs a Fourier transform on the noisy speech signal to generate a Fourier transform signal, performs an omnidirectional search to obtain a search signal representing a predicted noise component of the noisy speech signal, and performs the Fourier transform.
  • the noise signal of the previous frame and the current frame The current frame defined by the cyclic average of the Fourier transform signal In seeking the noise signal and the search signal is to be obtained by the small signal from the Fourier-transformed signal of the previous frame and the search signal of the previous frame and apply the forgetting factor on the Fourier transform signal in the current frame.
  • the present embodiment it is possible to perform noise estimation using the identification ratio obtained by omni-directional search rather than the existing VAD based method or MS algorithm.
  • the present embodiment not only is the amount of computation relatively small in noise estimation, but also the amount of memory required is large, so that it is easy to implement with real hardware or software.
  • FIG. 2 is a diagram illustrating a schematic shape of a search spectrum according to a first omnidirectional search procedure.
  • FIG. 4 is a diagram illustrating a schematic shape of a search spectrum according to a third omnidirectional search procedure.
  • FIG. 8 is a flowchart illustrating a sound quality improvement procedure for an input noisy voice signal according to a third embodiment of the present invention.
  • FIG. 12 is a block diagram illustrating a configuration of an apparatus for improving sound quality of a noisy voice signal according to a sixth embodiment of the present invention.
  • FIG. 14 is an improved segmental SNR graph for showing the effect of a noise state discrimination procedure of a noisy speech signal according to a first embodiment of the present invention on an input noisy speech signal including various kinds of additional noise.
  • FIG. 17 is a segmental WSSM graph for showing an effect of a noise estimation procedure of a noisy voice signal according to a second embodiment of the present invention on an input noisy voice signal including various kinds of additional noise.
  • the noise spectrum or the magnitude of the noise signal using a cyclic average technique using the adaptive forgetting factor ⁇ i (j) defined using the search spectrum T i, j (f).
  • Noise Spectrum Using Cyclic Mean Technique with Adaptive Oblivion Factor ⁇ i (j) Can be updated.
  • Equation (14) shows the relative size difference ⁇ i (j) according to the embodiment of the present invention.
  • max (a, b) is a function representing the larger value of a and b. In general, a noise signal cannot be larger than a noisy voice signal containing it, so that no noise is greater than a contaminated voice, so max (S i, j (f), It is reasonable to use).
  • an embodiment of the present invention proposes an overweight gain function ⁇ i (j) of an improved nonlinear structure that is applied differentially for each frequency band in consideration of characteristics of colored noise.
  • Equation 16 represents a modified overweight gain function ⁇ i (j) according to an embodiment of the present invention.
  • the conventional overweight gain function ⁇ i (j) is for allocating a low gain in the low frequency band and a high gain in the high frequency band to reduce the attenuation effect of the unvoiced sound.
  • the modified overweight gain function ⁇ i (j) of Equation 16 allows higher gain to be allocated to the low frequency band compared to the high frequency band, thereby more attenuating the effect of noise in the low frequency band.
  • the relative magnitude difference ⁇ i (j) is ⁇ , i.e. With respect to the portion to be abnormal (that is, the portion where the magnitude size SNR ⁇ i (j) becomes 0.5 or more), the magnitude SNR ⁇ i (j) (when ⁇ is set to 2.5) ) Shows the change in the overweight gain function ⁇ i (j) of the deformed nonlinear structure.
  • the vertical dotted line shows a strong noise region of the existing overgain function ⁇ i (j) with the boundary of 0.75, which is the central position of the size SNR ⁇ i (j), in a region where the relative magnitude difference ⁇ i (j) is greater than ⁇ . It is a baseline for dividing into a weak noise region.
  • the modified overgain function ⁇ i (j) has two main advantages as follows.
  • noise estimation and updating can be efficiently performed according to the change of noise, and noise estimation Can improve the accuracy.
  • noise estimation may be performed using the identification ratio ⁇ i (j) obtained by the omnidirectional search according to the first embodiment, rather than the existing VAD based method or MS algorithm.
  • identification ratio ⁇ i (j) obtained by the omnidirectional search according to the first embodiment, rather than the existing VAD based method or MS algorithm.
  • FIG. 10 is a block diagram illustrating an apparatus for processing a noisy speech signal according to a fourth embodiment of the present invention.
  • the apparatus 100 for determining a noise state for a noisy speech signal includes a Fourier transform unit 110, a magnitude smoothing unit 120, an omnidirectional search unit 130, and identification for an input noisy speech signal.
  • a non-calculating unit 140 The functions of the components 110, 120, 130, and 140 included in the apparatus 100 for determining the noise state according to the embodiment of the present invention are the processing of the noisy voice signal according to the first embodiment of the present invention described above. Since what is described in steps S11, S12, S13, and S14 constituting the procedure may be applied in the same manner, detailed description thereof will be omitted below.
  • FIG. 13 is a block diagram illustrating a configuration of a voice-based application device according to a seventh embodiment of the present invention, and includes an apparatus 300 for processing a noisy voice signal illustrated in FIG. 10, 10, or 12.
  • the voice-based application device 400 includes a microphone 410, a device for processing a noisy voice signal 420, and an application device 430.
  • the microphone 410 is an input means for inputting a noisy voice signal into the voice-based application device 400.
  • the noisy voice signal processing device 420 processes the noisy voice signal obtained through the microphone 410 to determine a noise state, estimate the noise, or output an improved voice signal using the estimated noise.
  • the device 420 for processing a noisy voice signal may be a device having the same configuration as one of the devices 100, 200, and 300 shown in FIGS. 10 to 12.
  • the noisy voice signal processing apparatus 420 processes and identifies the noisy voice signal according to the processing procedure of the noisy voice signal according to the first, second, or third embodiments of the present invention described above. Outputs a ratio, an estimated noise signal, or an improved speech signal.
  • the speech-based application device 400 includes an application device 430 for another use using the identification ratio, the estimated noise signal, or the improved speech signal generated by the processing unit of the noisy speech signal.
  • the application device 430 may be an output device for outputting the improved speech signal to the outside of the device 400, such as a speaker and / or a speech recognition system for speech recognition from the improved speech signal, the improved A codec device for compressing a voice signal, and / or a transmission device for transmitting the compressed voice signal through a wired or wireless communication network.
  • CB is the total number of critical bands
  • ⁇ , , ⁇ SPL, and ⁇ (r) is a variable coefficient
  • SPL Clean Pressure Level
  • SPL the weight of each critical band to control the respective clean speech sound pressure
  • SPL the overall performance of the enhanced speech.
  • Wow Are the magnitude spectral slopes at the center frequencies of the critical bands of the clear speech signal and the enhanced speech signal, respectively.
  • the residual musical noise was hardly observed in the embodiment of the present invention, and it was confirmed that the distortion in the improved speech signal was considerably reduced compared with other conventional methods.
  • the experimental results in the quantitative test supported the experimental results in this qualitative test.
  • a 30-second speech signal was selected from the TIMIT database, of which 15 seconds were male voice and the remaining 15 seconds female voice signal, which lasted more than 6 seconds.
  • Four types of noise signals were used as additive noise, all of which were selected from the NoiseX-92 database, respectively, speech-like noise, F16 fighter aircraft, and factory noise. ), And white gaussian noise.
  • Each voice was combined with SNR 0dB, 5dB, and 10dB using each type of noise.
  • the sampling frequency of all signals is 16 kHz, and each frame consists of 512 samples (32 ms) with 50% overlap.
  • the segmental SNR measured on the improved speech signal obtained using the existing weighted average (WA) procedure.
  • WA weighted average
  • segmental WSSM is a segmental WSSM as another example for showing the effect of a procedure for determining a noise state of a noisy voice signal according to a first embodiment of the present invention.
  • the segmental WSSM is generally lowered regardless of the input SNR.
  • the segmental WSSM may be slightly increased.
  • segmental WSSM as another example for showing the effect of a procedure for determining a noise state of a noisy voice signal according to a second embodiment of the present invention. Referring to FIG. 17, it can be seen that according to the embodiment of the present invention, the segmental WSSM is generally lowered regardless of the input SNR.

Abstract

노이지 음성 신호의 잡음 추정 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공한다. 본 발명의 일 실시예에 따른 노이지 음성 신호의 잡음 추정 방법은 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다. 이러한 본 발명의 실시예에 의하면, 잡음 추정을 위한 계산량이 적으며 또한 대용량의 메모리가 필요 없기 때문에, 하드웨어나 소프트웨어로 구현하기가 용이하며, 또한 주파수 서브밴드별로 적응적인 절차의 수행이 가능해서 잡음 추정의 정확도를 높일 수가 있다.

Description

노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
본 발명은 음성 신호 처리에 관한 것으로, 보다 구체적으로 노이지 음성 신호(Noisy Speech Signal)에서 잡음의 상태를 판별하고, 또한 노이지 음성 신호로부터 잡음을 추정하며, 아울러 추정된 잡음을 이용하여 음질을 개선하는 등과 같은 노이지 음성 신호의 처리 절차와 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.
스피커폰(Speakerphone)은, 다수의 사람들 사이의 통신을 용이하게 하며 또한 개별적으로는 핸즈-프리 세팅을 제공할 수 있기 때문에 많은 통신 기기의 필수 장치로 구비되어 있다. 최근에는 무선 통신 기술의 발달로 영상 통화용 통신 기기가 널리 보급되고 있는 추세이다. 그리고 멀티미디어 재생을 지원하는 통신 기기나 PMP(Portable Multimedia Player)나 MP3 플레이어 등과 같은 미디어 재생 장치의 보급 증가로 블루투스(bluetooth) 등과 같은 근거리 무선 통신 기기의 보급도 증가하고 있다. 또한, 청력이 약하여 잘 들을 수 없는 사람들에게 도움을 줄 수 있도록 보청기(Hearing Aid)가 개발되어 보급되고 있다. 이러한 스피커폰이나 보청기, 그리고 영상 통화용 통신 기기나 블루투스 등과 같은 장치에서는 잡음이 섞여 있는 음성 신호인 노이지 음성(Noisy Speech) 신호로부터 음성을 인식하거나 또는 배경 잡음(Background Noise)을 제거하거나 약화시켜서 개선된 음성 신호를 추출하기 위한 노이지 음성 신호의 처리 장치가 구비되어 있다.
노이지 음성 처리 장치의 성능은 이를 구비하는 음성 기반 어플리케이션 장치의 성능에 결정적인 영향을 미친다. 왜냐하면, 배경 잡음은 거의 언제나 음성 신호를 오염시켜서, 음성 코덱, 개인 휴대 통신(Cellular Telephony), 및 음성 인식(Speech Recognition) 등과 같은 음성 기반 어플리케이션 장치의 성능을 급격하게 떨어뜨릴 수가 있기 때문이다. 따라서 배경 잡음에 의한 영향을 최소화함으로써 노이지 음성 신호의 처리 성능을 향상시키기 위한 연구가 활발하게 진행되고 있다.
음성 인식은 일반적으로 마이크나 전화 등을 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 이러한 음성 인식의 정확도를 향상시키기 위한 첫 번째 과정은, 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 입력 신호로부터 음향학적 신호인 음성 성분만을 효율적으로 추출하는 것이다. 노이지 음성 신호로부터 음성 성분만을 추출하기 위해서는, 입력 노이지 음성 신호에서 잡음 성분이 우세한지 또는 음성 성분이 우세한지를 판별하거나 또는 잡음의 상태를 정확하게 파악하는 등과 같은 노이지 음성 신호의 처리 절차가 효율적으로 수행되어야 한다.
그리고 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 음성 신호의 음질을 개선하기 위해서는, 노이지 음성 신호 중에서 음성 성분에는 손상을 가하지 않으면서 잡음 성분만을 효율적으로 약화시키거나 또는 제거하여야 한다. 따라서 단일 채널을 통해 입력되는 노이지 음성 신호의 처리 절차에서는, 입력 노이지 음성 신호에서 잡음의 상태를 정확하게 파악하고, 또한 이를 이용하여 입력 노이지 음성 신호로부터 잡음 성분을 구하기 위한 잡음 추정(Noise Estimation) 절차를 기본적으로 포함한다. 그리고 추정된 잡음(Estimated Noise) 신호는 노이지 음성 신호에서 잡음 성분을 약화시키거나 또는 제거하여 음질을 개선하는데 이용된다.
추정된 잡음 신호를 이용하여 음질을 개선하는 방법은 여러 가지가 있는데, 그 중의 한 가지 방법은 스펙트럼 차감(Spectral Subtraction, SS)법이다. 스펙트럼 차갑법에 의하면, 노이지 음성 신호의 스펙트럼에서 추정된 잡음 신호의 스펙트럼을 차감하는데, 이에 의하여 노이지 음성 신호로부터 잡음을 감쇠시키거나 또는 제거함으로써 향상된 음성 신호를 얻을 수가 있다.
스펙트럼 차감법을 이용하는 노이지 음성 신호의 처리 장치에서는 무엇보다도 잡음 추정이 정확하게 이루어져야 하며, 또한 정확한 잡음의 추정을 위해서는 잡음의 상태를 정확하게 파악해야 한다. 하지만, 입력 노이지 음성 신호로부터 실시간으로 잡음의 상태를 파악하고 또한 실시간으로 잡음을 정확하게 추정하는 것은 결코 쉽지가 않다. 특히, 다양한 비정적인 환경에 오염된 노이지 음성 신호인 경우에는, 잡음의 상태 파악이나 잡음 추정을 정확하게 수행하고 이로부터 향상된 음성 신호를 얻는다는 것은 매우 어려운 일이다.
잡음 추정이 부정확한 경우에, 처리된 노이지 음성 신호는 두 가지 종류의 부작용을 유발할 수가 있다. 그 하나는 추정된 잡음이 실제 잡음보다 낮은 경우인데, 이러한 경우에는 처리된 노이지 음성 신호에서 성가신 잔류 잡음(Annoying Residual Noise) 또는 잔류 뮤지컬 잡음(Residual Musical Noise)이 감지될 수 있다. 다른 하나는 추정된 잡음이 실제 잡음보다 큰 경우인데, 이러한 경우에는 과도한 스펙트럼 차감으로 인하여 음성 왜곡이 발생하게 된다.
노이지 음성 신호에서 잡음의 상태를 파악하고 또한 정확한 잡음 추정을 위하여 많은 방법들이 제안되었다. 그 중에서 한 가지는 음성 활동 감지(Voice Activity Detection, VAD)와 이를 이용하는 VAD 기반 잡음 추정 방법이다. VAD 기반 잡음 추정 방법에 의하면, 이전의 여러 잡음 프레임(Noise Frame)이나 긴 과거 프레임으로부터 획득한 통계 정보를 이용하여 잡음의 상태를 파악하고 또한 잡음을 추정한다. 잡음 프레임이란 음성이 포함되지 않은 묵음 프레임(Silent Frame or Speech-absent Frame) 또는 전체 노이지 음성 신호에서 음성보다 잡음 성분이 압도적으로 우세한 잡음-우세 프레임(Noise Dominant Frame)을 일컫는다.
이러한 기존의 VAD 기반 잡음 추정 방법은 잡음이 시간에 따라서 변화가 심하지 않을 경우에 상당히 우수한 성능을 보여 준다. 그러나 배경 잡음이 비정적(Non-stationary)이거나 또는 레벨 가변적(Level-varying)인 경우, 신호 대 잡음비(Signal to Noise Ratio, SNR)가 낮은 경우, 또는 음성 신호의 에너지가 약한 경우 등에, 종래의 VAD 기반 방법은 잡음의 상태나 현재의 잡음 레벨에 대한 신뢰할 수 있는 정보를 획득하기가 어려운 단점이 있다. 또한, VAD 기반 방법은 일반적으로 높은 계산비용을 지불해야 하는 문제점을 보여 준다.
VAD 기반 방법의 단점을 극복하기 위하여, 여러 가지 새로운 방법이 제안되었다. 이들 중에서 널리 알려진 접근법 중의 하나는 회귀 평균화(Recursive Averaging)를 기반으로 하는 가중된 평균화(Weighted Average, WA) 기법이다. WA 기법은 VAD를 도입하지 않고 주파수 영역에서 잡음 추정하고 또한 추정된 잡음을 연속적으로 갱신하는 방법이다. WA 기법에 의하면, 현재 프레임에서 노이지 음성 신호의 크기 스펙트럼(Magnitude Spectrum)과 이전 프레임에서 추정된 잡음의 크기 스펙트럼 사이에 고정된 망각 요소(Forgetting Factor)를 적용하여 잡음을 추정한다. 하지만, 이러한 WA 기법은 고정된 망각 요소를 적용하기 때문에, 다양한 잡음 환경이나 비정적인 잡음 환경에서의 잡음 변화를 반영할 수 없으며, 그 결과 올바른 잡음 추정을 수행하지 못하는 한계가 있다.
VAD 기반 방법의 단점을 극복하기 위하여 제안된 다른 하나의 잡음 추정 방법은 최소 통계(Minimum Statistics, MS) 알고리즘을 이용하는 것이다. 이에 의하면, 탐색 윈도우(Search Window)에 걸쳐서 노이지 음성 신호의 평활된 파워 스펙트럼(Smoothed Power Spectrum)의 최소값을 추적하며, 추적된 최소값에 보상 상수(Compensate Constant)를 곱하여 잡음을 추정한다. 여기서, 탐색 윈도우는 약 1.5초의 최근 프레임들을 커버한다. 이러한 MS 알고리즘은 일반적으로 훌륭한 성능을 보여 주지만, 탐색 윈도우 길이에 해당하는 긴 과거 프레임의 정보가 지속적으로 필요하기 때문에 대용량의 메모리가 필요하고, 특히 잡음이 대부분을 차지하는 잡음 우세 신호(Noise Dominant Signal)에서 잡음 레벨의 변화를 빨리 추적할 수 없는 단점이 있다. 또한, MS 알고리즘도 기본적으로 과거 프레임의 추정된 잡음 정보를 이용하기 때문에, 잡음의 레벨 변화가 심하거나 또는 다른 잡음 환경으로 바뀌는 경우에는 신뢰할만한 결과를 보여 주지 못하는 한계가 있다.
이러한 기존 MS 알고리즘의 단점을 해결하기 위하여, 여러 가지 종류의 수정된 MS 알고리즘이 제안되었다. 이들 수정된 MS 알고리즘의 대부분이 갖는 공통적인 두 가지 특징은 다음과 같다. 첫째는 고려 대상이 되는 현재 프레임 또는 주파수 위치(Frequency Bin)에 음성이 존재하는지 또는 묵음 구간인지를 연속적으로 구별하기 위한 VAD 방법을 포함하고 있다는 것이고, 두 번째 특징은 순환 평균(Recursive Averaging, RA) 기반의 잡음 추정기(Noise Estimator)가 사용된다는 것이다.
그런데, 이러한 기존의 수정된 MS 알고리즘은 최초의 MS 알고리즘이 보여준 잡음 추정에 있어서의 시간 지연과 비정적인 잡음 환경에서의 부정확한 추정을 어느 정도는 해결할 수가 있었지만, 이를 완전하게 해결할 수는 없다. 왜냐하면, 수정된 MS 알고리즘도 본질적으로는 MS 알고리즘과 동일한 방법, 즉 현재 프레임의 잡음을 추정함에 있어서, 이전의 여러 잡음 프레임이나 또는 긴 과거 프레임의 추정된 잡음 신호가 반영되어 사용되고 있으며, 그 결과 대용량의 메모리와 많은 계산량이 요구되기 때문이다.
따라서 종래의 MS 알고리즘 또는 수정된 MS 알고리즘은 잡음 환경이 가변적이거나 또는 잡음 도미넌트 프레임에서 레벨의 변화가 급격한 배경 잡음을 신속하고 정확하게 추정하기가 어려운 단점이 있다. 또한, 기존의 VAD 기반 방법이나 MS 알고리즘, 또는 변형된 MS 알고리즘은 잡음의 상태를 파악하기 위하여 큰 용량의 메모리가 필요할 뿐만 아니라 연산량이 상당히 많아서 높은 계산 비용이 지불되어야 하는 한계가 있다.
본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 입력 노이지 음성 신호의 잡음 상태를 정확하게 판별하고 또한 적은 메모리와 연산량을 이용해서도 잡음 유사(Noise-like) 구간과 음성 유사(Speech-like) 구간을 정확하게 판별하거나 또는 음성 인식을 위한 잡음 상태의 판별이 가능한 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 비정적이며 또한 다양한 유형의 잡음 조건에서도 정확하게 현재 프레임의 잡음을 추정할 수 있고, 또한 이를 통하여 처리된 노이지 음성 신호의 음질을 개선할 수 있으며, 특히 잔류 뮤지컬 잡음을 효과적으로 억제할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 노이지 도미넌트 신호인 경우에도 잡음의 변화를 신속하고 또한 정확하게 추적할 수 있으며, 또한 시간 지연이 발생하는 것을 효과적으로 방지할 수 있는 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 음성이 대부분을 차지하는 신호에서는 잡음 레벨이 과대평가 되어서 음성 왜곡이 발생하는 것을 방지할 수 있는 잡음 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
상기한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 노이지 음성 신호의 처리 방법은 입력 노이지 음성 신호의 잡음을 추정하는 방법으로써, 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계, 및 상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다.
상기한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 노이지 음성 신호의 처리 방법은 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 방법은 시간 도메인의 입력 노이지 음성 신호를 처리하는 방법으로써, 상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고, 상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고, 상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고 상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하는 것을 포함하고, 상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛, 상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 전방향 탐색 유닛, 및 상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛, 인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛, 직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 유닛, 상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태 판별 유닛, 및 상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함한다.
상기한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 노이지 음성 신호의 처리 장치는 시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하기 위한 노이지 음성 신호의 처리 장치로써, 상기 처리 장치는 상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고, 상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고, 상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고 상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하며, 상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구한다.
본 발명의 실시예에 의하면, 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정한다. 그리고 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트가 지속적으로 이루어지지만, 음성 성분의 비중이 상대적으로 높은 음성 유사 영역에서는 업데이트를 하지 않는다. 따라서 본 발명의 실시예에 의하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소는 입력 노이지 음성 신호의 잡음 상태에 따라서도 그 값이 달라질 수 있다. 예컨대, 상기 적응적 망각 요소는 식별비의 값에 비례할 수가 있으며, 이와 같은 경우에는 잡음 성분이 더 많은 비중을 차지할수록 입력 노이지 음성 신호를 더 많이 반영함으로써, 잡음 추정의 정확도를 향상시킬 수가 있다.
또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전방향 탐색으로 구한 식별비를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
도 1은 본 발명의 제1 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다.
도 2는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 3은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 4는 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 개략적인 모양을 보여 주는 도면이다.
도 5는 본 발명의 제1 실시예를 이용하여 구한 식별비 φi(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다.
도 6은 본 발명의 제2 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다.
도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 그래프이다.
도 8은 본 발명의 제3 실시예에 따른 입력 노이지 음성 신호에 대한 음질 개선 절차를 보여 주는 흐름도이다.
도 9는 크기 SNR ωi(j)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)의 변화의 일례를 나타내는 도면이다.
도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 장치의 구성을 보여 주는 블록도이다.
도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 잡음 추정 장치의 구성을 보여 주는 블록도이다.
도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 음질 개선 장치의 구성을 보여 주는 블록도이다.
도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도이다.
도 14는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 15는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.
도 16은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 17은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 추정 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.
도 18은 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다.
도 19는 여러 가지 종류의 부가 잡음을 포함하는 입력 노이지 음성 신호에 대한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 음질 개선 절차의 효과를 보여 주기 위한 세그멘탈 WSSM 그래프이다.
이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 예시적으로 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이며, 명세서 전체에 걸쳐서 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
그리고 후술하는 본 발명의 실시예는 노이지 음성 신호에 대한 주파수 영역으로의 변환 알고리즘으로서 푸리에 변환을 적용하는 경우에 대해서만 예를 들어서 설명한다. 하지만, 본 발명의 실시예가 여기에만 한정되는 것은 아니며, 예컨대 웨이블릿 패킷 변환을 적용하는 경우에도 동등하게 적용할 수 있다는 것은 당업자에게 자명하므로, 이하에서는 웨이블릿 패킷 변환을 적용하는 실시예에 대한 구체적인 설명은 생략한다.
제1 실시예
도 1은 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차의 일례로써, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차를 보여 주는 흐름도이다. 도 1을 참조하면, 본 발명의 제1 실시예에 따른 노이지 음성 신호에 대한 잡음 상태의 판별 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S11), 크기 평활화 단계(Magnitude Smoothing, S12), 전방향 탐색 단계(Forward Searching, S13), 및 식별비 계산 단계(Identification Ratio Calculation, S14)를 포함한다. 이하, 입력 노이지 음성 신호를 처리하여 개선된 음성을 출력하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다.
먼저, 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S11). 이러한 퓨리에 변환은 입력 노이지 음성 신호 y(n)의 단기간(short-time) 신호에 대하여 연속적으로 수행되며, 그 결과 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i (f)으로 근사화될 수 있다.
입력 노이지 음성 신호 y(n)는 다음의 수학식 1과 같이 깨끗한 음성과 가산 잡음의 합으로 표현할 수 있다. 수학식 1에서, n은 이산(discrete) 시간 인덱스, x(n)은 깨끗한 음성(Clean Speech) 신호, 그리고 w(n)은 부가적인 잡음(Additive Noise) 신호를 나타낸다.
수학식 1
Figure PCTKR2009001641-appb-M000001
그리고 상기 입력 노이지 음성 신호 y(n)은 단구간 퓨리에 변환에 의하여 근사하되는 퓨리에 스펙트럼 Y i (f)은 수학식 2로 표현할 수 있다.
수학식 2
Figure PCTKR2009001641-appb-M000002
수학식 2에서, if는 각각 프레임 인덱스와 주파수 위치(frequency bin) 인덱스를 나타내며, X i (f)는 깨끗한 음성의 퓨리에 스펙트럼(FS)이고, W i (f)는 잡음의 퓨리에 스펙트럼(FS)이다.
본 발명의 실시예에 의하면, 주파수 위치의 대역폭의 크기, 즉 서브밴드 사이즈(SB)에 대해서는 특별한 제한이 없다. 예를 들어, 서브밴드 사이즈는 전체 주파수 범위에 걸치거나 또는 전체 주파수 범위를 균등하게 2개, 4개, 또는 8개 등으로 분할한 대역폭일 수도 있다. 특히, 서브밴드 사이즈가 전체 주파수 범위를 2개 이상으로 분할한 대역폭일 경우에, 후속되는 잡음 상태의 식별 과정이나 잡음 추정 절차, 및 음질 개선 등의 절차는 퓨리에 스펙트럼을 각 서브밴드 단위로 분할하여 신호 처리 절차를 수행할 수도 있다. 이 경우에, 각 서브밴드에 대한 노이지 음성 신호의 퓨리에 변환 스펙트럼은 Y i,j (f)로 표시할 수 있는데, 여기서 j(0≤j<J<L이고, J와 L은 각각 전체 서브밴드 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다)는 전체 주파수 2L에서 서브밴드 사이즈(=2L-J)로 나눈 서브밴드 인덱스를 나타낸다.
다음으로, 퓨리에 변환된 신호에 대한 평활화(smoothing) 절차를 수행한다(S12). 평활화 절차는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 평활화 절차는 인접한 프레임 신호 사이에 존재하는 신호들의 크기 편차를 완화하기 위한 것으로써, 일반적으로 인접한 프레임의 신호들 사이에 그 크기에 있어서 큰 편차가 존재하는 경우에, 이들로부터 잡음의 상태를 정확하게 식별하거나 또는 정확한 실제 잡음을 취득하기가 어려운 문제가 있기 때문이다. 이에 의하면, 후속 단계인 전방향 탐색이나 그 이후의 단계에서, 평활화되기 이전의 퓨리에 스펙트럼의 크기인
Figure PCTKR2009001641-appb-I000001
를 사용하는 대신에 평활 요소(smoothing factor, αs)를 적용하여 인접 프레임의 신호들간의 편차를 완화시킨 평활화된 스펙트럼을 사용한다.
퓨리에 변환 스펙트럼 Y i (f)에 대한 크기 평활화 단계의 적용 결과, 수학식 3과 같은 평활 크기 스펙트럼(smoothed magnitude spectrum) S i (f)이 출력될 수 있다. 만일, 평활화 절차가 각 서브밴드 단위의 퓨리에 스펙트럼 Y i,j (f)에 대하여 수행되는 경우에는, 출력되는 평활 크기 스펙트럼은 S i,j (f)로 나타낼 수 있다.
수학식 3
Figure PCTKR2009001641-appb-M000003
그리고 평활화 절차를 전방향 탐색 절차의 이전에 수행하면, 후속되는 전방향 탐색 절차에서 음성 성분의 밸리(valley) 부분이 잡음 유사 영역이나 잡음 우세 프레임으로 잘못 판정되는 것을 방지할 수도 있다. 왜냐하면, 전방향 탐색 절차에서 상대적으로 큰 편차를 갖는 입력 신호를 그대로 사용하는 경우에는, 탐색 스펙트럼과 음성 성분의 밸리 부분과 일치할 수가 있기 때문이다.
일반적으로 음성 유사 영역이나 음성 우세 구간에서 상기 음성 성분의 밸리 전후에는 상대적으로 크기가 큰 음성 신호가 수반되기 때문에, 평활화 절차를 수행하면 음성 성분의 밸리 부분은 그 크기가 상대적으로 크게 증가한다. 따라서 평활화 절차를 수행하면 전방향 탐색 단계에서 상기 밸리 부분이 탐색 스펙트럼과 일치하게 되는 것을 방지할 수가 있다.
다음으로, 출력되는 평활 크기 스펙트럼 S i (f)에 대한 전방향 탐색(forward searching)을 수행한다(S13). 이러한 전방향 탐색은 각 서브밴드 단위로 수행될 수 있는데, 이 경우에는 전방향 탐색 절차에서는 S i,j (f)신호가 이용된다. 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음 성분을 예측하기 위한 과정이다.
후술하는 바와 같이, 전방향 탐색 절차에서는 직전 프레임의 탐색 스펙트럼만을 이용하거나 및/또는 직전 프레임의 탐색 스펙트럼과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스페트럼과 현재 프레임의 평활 크기 스펙트럼만을 이용하여 탐색 스펙트럼을 구하거나 업데이트 한다. 이러한 전방향 잡음 탐색 절차를 이용하면, 종래의 VAD 기반 방법이나 변형된 MS 알고리즘에 존재하는 여러 가지 문제점, 예컨대 비정적인 잡음 환경이나 잡음 에너지 레벨의 변화가 심한 경우에 잡음 추정이 정확하게 이루어지지 않는 문제점이나 많은 계산량 또는 상당히 많은 이전 프레임의 정보를 저장해야 하는 문제점 등을 효율적으로 극복할 수 있다. 이하, 본 발명의 실시예에 따른 전방향 탐색 절차에서 이용될 수 있는 세 가지 유형의 탐색 스펙트럼에 대하여 상세하게 설명한다.
수학식 4는 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
수학식 4
Figure PCTKR2009001641-appb-M000004
여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2L에서 서브밴드(SB) 사이즈(=2 L-J )로 나눈 서브밴드 인덱스인데, JL은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T i,j (f)는 첫 번째 전방향 탐색 절차에 이용되는 탐색 스펙트럼이고, S i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. U i-1,j (f)는 이전 프레임의 전방향 탐색의 정도를 반영하기 위한 가중된 스펙트럼(weighted spectrum)으로써, 예컨대 이전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시할 수 있다. 또한, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 탐색 스펙트럼 Ti,j(f)를 계산하기 위해 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하는 차등적 망각 요소이다.
본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에 의하면, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 보다 구체적으로, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f)보다 더 작은 경우에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 반면, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)이 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f)보다 더 큰 경우에는, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)은 이용하지 않고 이전 프레임과 현재 프레임의 평활 크기 스펙트럼 Si-1,j(f) 및 Si,j(f)만을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
따라서 상기 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 평활 크기 스펙트럼 Si-1,j(f) 중에서 크기가 더 작은 스펙트럼과 함께 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 이 경우에, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 평활 크기 스펙트럼 Si-1,j(f) 중에서 크기가 더 작은 스펙트럼은 '가중된 스펙트럼'이라고 칭할 수도 있다.
계속해서 수학식 4를 참조하면, 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 4에서 κ(j)로 표기)도 사용된다. 망각 요소는 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하기 위한 것이다. 이러한 망각 요소는 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소 κ(j)일 수 있는데, 이 경우에 차등적 망각 요소 κ(j)는 예컨대, 수학식 5와 같이 정의될 수도 있다.
수학식 5
Figure PCTKR2009001641-appb-M000005
이와 같이, 서브 밴드 별로 차등적 망각 요소 κ(j)의 크기를 달리하는 이유는 일반적으로 저주파 대역에서는 음성 신호인 유성음이 상대적으로 많은 비율을 차지하고, 고주파 대역에서는 잡음 신호인 무성임이 상대적으로 많은 비율을 차지하기 때문이다. 수학식 5에 의하면, 저주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 상대적으로 크며, 그 결과 탐색 스펙트럼 Ti,j(f)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f) 또는 평활 크기 스펙트럼 Si-1,j(f)이 상대적으로 높은 비율로 반영된다. 반면에, 고주파 대역에서는 차등적 망각 요소 κ(j)의 크기가 작아지며 그 결과 탐색 스펙트럼 Ti,j(f)에는 현재 프레임의 평활 크기 스펙트럼 Si,j(f)이 더 높은 비유로 반영된다.
이러한 첫 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 4)의 개략적인 모양은 도 2에 도시되어 있다. 도 2에서 가로축은 시간 방향, 즉 프레임 인덱스 j가 증가하는 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 다만, 도 2에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f)은 단지 예시적으로 도시한 것이며, 그 미세 모양을 세부적으로 도시하지 않고 개략적인 개형만을 도시한 것이다.
도 2를 참조하면, 수학식 4에 따른 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다(단, 첫 번째 프레임의 탐색 스펙트럼 T1,j(f) 크기는 평활 크기 스펙트럼 S1,j(f)의 크기와 같다). 이러한 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)의 기울기보다는 작은 소정의 기울기로 증가하는 형태를 가질 수 있다. 탐색 스펙트럼 Ti,j(f)의 기울기는 일정할 필요가 없지만, 그렇다고 본 발명의 실시예가 일정한 기울기를 갖는 것을 배제하는 것은 아니다. 그 결과, 탐색의 초기 단계인 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 Si,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 증가한다.
그리고 상기 제1 극대점(P2)에 해당되는 시간(T2) 이후, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소한다. 왜냐하면, 탐색 스펙트럼 Ti,j(f)은 크기가 일정하거나 조금씩 크기가 증가하기 때문이다. 이 경우, 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)이 만나며, 그 이후에는 상기 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다. 이 때, 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)은 그 크기가 거의 유사하게 움직인다.
계속해서 도 2를 참조하면, 이러한 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 제2 극소점(P3) 사이에서 나타나는 탐색 스펙트럼 Ti,j(f)의 궤적은, 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에서 제3 극소점(P5) 사이 및 그 이후에도 계속적으로 동일한 형태로 나타난다.
이와 같이, 본 발명의 일 실시예에 따른 첫 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구하며, 상기 탐색 스펙트럼 Ti,j(f)은 계속 업데이트된다. 그리고 이렇게 구한 탐색 스펙트럼 Ti,j(f)은, 각 서브밴드별로 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수 있는데, 이에 대해서는 후술한다.
다음으로 본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에 대하여 수행한다.
본 발명의 일 실시예에 따른 두 번째 및 세 번째 전방향 탐색 절차에서는 탐색을 2단계로 구분하여 수행한다는 점에서, 상기 첫 번째 전방향 탐색 절차와 다소 차이가 있지만 그 기본 원리가 다른 것은 아니다. 보다 구체적으로, 두 번째 및 세 번째 전방향 탐색 절차에서는 하나의 탐색 구간(예컨대, 평활 크기 스펙트럼 Si,j(f)에서 서로 인접한 극소점 사이)을 두 개의 하부 구간으로 나누어서, 각 하부 구간에 대하여 궤적을 달리하여 전방향 탐색을 수행한다. 이러한 탐색 구간은 예컨대, 평활 크기 스펙트럼이 증가하는 제1 하부 구간과 감소하는 제2 하부 구간으로 구분할 수 있다.
수학식 6은 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
수학식 6
Figure PCTKR2009001641-appb-M000006
단, 수학식 6에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.
수학식 6을 참조하면, 본 발명의 실시예에 따른 두 번째 전방향 탐색 절차에서는 탐색의 전반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 일례로, 수학식 6과 같이 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하다고 할 수 있다. 다만, 이 경우에는 탐색 스펙트럼 Ti,j(f)이 평활 크기 스펙트럼 Si,j(f)보다 더 커지게 될 수가 있는데, 탐색 스펙트럼 Ti,j(f)이 평활 크기 스펙트럼 Si,j(f)이 만나는 이후의 구간에서는 상기 제1 하부 구간에서 사용한 방법과 동일한 방법을 이용하여 탐색 스펙트럼 Ti,j(f)을 업데이트한다. 왜냐하면, 탐색 스펙트럼 Ti,j(f)은 예측된 잡음 성분이기 때문에 평활 크기 스펙트럼 Si,j(f) 보다 더 클 수는 없기 때문이다.
그리고 전술한 첫 번째 전방향 탐색 절차에서와 마찬가지로, 제1 하부 구간에서 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 6에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는 이전 프레임의 가중된 스펙트럼 Ui-1,j(f)와 현재 프레임의 평활 크기 스펙트럼 Si,j(f)간의 갱신 정도를 반영하기 위한 것으로써, 예컨대 수학식 5와 같이 정의된 차등적 망각 요소 κ(j)일 수 있다.
이러한 두 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 6)의 개략적인 모양은 도 3에 도시되어 있다. 도 3에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 3에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f)은 도 2와 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.
도 3을 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 Ti,j(f)은, 도 2와 마찬가지로, 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다. 그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서의 수학식 6에 따른 탐색 스펙트럼 Ti,j(f)은, 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소하나 감소 정도는 도 2의 경우보다 낮다. 그리고 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)의 크기가 일치하며, 그 이후에는 도 2와 동일하므로 상세한 설명은 생략한다.
이와 같이, 본 발명의 일 실시예에 따른 두 번째 전방향 탐색 절차에서는, 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 그리고 상기 탐색 스펙트럼 Ti,j(f)은 후속 절차에서 각 서브밴드 단위나 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음 상태를 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수가 있다.
수학식 7은 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼의 일례를 수학적으로 표현한 것이다.
수학식 7
Figure PCTKR2009001641-appb-M000007
단, 수학식 7에 사용된 기호의 의미는 수학식 4와 같으므로 설명은 생략한다.
수학식 7을 참조하면, 본 발명의 실시예에 따른 세 번째 전방향 탐색 절차에서는 전술한 두 번째 전방향 탐색 절차와는 반대로 탐색을 수행한다. 보다 구체적으로, 탐색의 전반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 증가하는 제1 하부 구간)에는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 일례로, 수학식 7과 같이 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하다고 할 수 있다. 반면, 탐색의 후반부(예컨대, 평활 크기 스펙트럼 Si,j(f)이 감소하는 제2 하부 구간)에는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다.
그리고 전술한 첫 번째 및 두 번째 전방향 탐색 절차에서와 마찬가지로, 제2 하부 구간에서 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 계산하는데 있어서 망각 요소(수학식 7에서 κ(j)로 표기)가 사용될 수 있다. 망각 요소는, 예컨대 수학식 5와 같이, 서브밴드 인덱스에 따라서 값이 변하는 차등적 망각 요소일 수 있다.
이러한 세 번째 전방향 탐색 절차에 따른 탐색 스펙트럼(수학식 7)의 개략적인 모양은 도 4에 도시되어 있다. 도 4에서 가로축은 시간 방향, 즉 프레임 방향을 나타내고 세로축은 크기 스펙트럼(평활 크기 스펙트럼이나 탐색 스펙트럼)을 나타낸다. 그리고 도 4에 도시된 평활 크기 스펙트럼 Si,j(f)이나 탐색 스펙트럼 Ti,j(f)도 도 2 및 도 3과 마찬가지로 그래프의 개형만을 예시적으로 도시한 것이다.
도 4를 참조하면, 제1 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 증가하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 Ti,j(f)은 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 동일하므로 기울기가 0인 직선의 형태를 갖는다. 그 결과, 탐색의 초기 단계, 예컨대 제1 극소점(P1)에 해당되는 시간(T1)에서부터 평활 크기 스펙트럼 Si,j(f)의 제1 극대점(P2)에 해당되는 시간(T2)까지는, 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 증가한다. 그리고 차이의 증가율도 도 2나 도 3의 경우보다 크다.
그리고 제2 하부 구간, 즉 평활 크기 스펙트럼 Si,j(f)이 감소하는 구간에서의 수학식 7에 따른 탐색 스펙트럼 Ti,j(f)은, 평활 크기 스펙트럼 Si,j(f)의 제1 극소점(P1)에서 출발하여 평활 크기 스펙트럼 Si,j(f)을 추종하여 증가한다. 이 경우에도 제1 극대점(P2)에 해당되는 시간(T2) 이후에는 대체적으로 평활 크기 스펙트럼 Si,j(f)과 탐색 스펙트럼 Ti,j(f)과의 차이는 감소한다. 그리고 평활 크기 스펙트럼 Si,j(f)의 제2 극소점(P3)에 해당되는 시간(T4) 이전의 임의의 시간(T3)에서 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)의 크기가 일치하며, 그 시간(T3) 이후에는, 상기 탐색 스펙트럼 Ti,j(f)은 평활 크기 스펙트럼 Si,j(f)을 추종하여 상기 제2 극소점(P3)에 해당되는 시간(T4)까지 그 값이 감소한다.
이와 같이, 본 발명의 일 실시예에 따른 세 번째 전방향 탐색 절차에서는 이전 프레임의 평활 크기 스펙트럼 Si-1,j(f) 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)과 현재 프레임의 평활 크기 스펙트럼 Si,j(f)을 이용하거나 또는 이전 프레임의 탐색 스펙트럼 Ti-1,j(f)만을 이용하여 현재 프레임의 탐색 스펙트럼 Ti,j(f)을 구한다. 상기 탐색 스펙트럼 Ti,j(f)은, 각 서브밴드별로 또는 전체 주파수 범위에서 입력 노이지 음성 신호에서 잡음이 차지하는 비율을 예측하거나 또는 잡음의 크기를 추정하는데 이용할 수가 있다.
계속해서 도 1을 참조하면, 전방향 탐색 단계의 결과로 구한 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)을 이용하여 식별비를 계산한다(S14). 식별비는, 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 것으로써, 입력 노이지 음성 신호에서 잡음 신호가 차지하는 비율을 나타내는 것일 수 있다. 이러한 식별비를 이용하면, 현재 프레임이 잡음 우세 프레임(Noise Dominant Frame)인지 또는 음성 우세 프레임(Speech Dominat Frame)인지를 판단하거나 또는 입력 노이지 음성 신호에서 잡음 유사 영역(Noise-like Region)과 음성 유사 영역(Speech-like Region)을 구분할 수가 있다.
상기 식별비는 전체 주파수 범위에 대하여 계산되거나 또는 서브밴드 단위로 계산될 수 있다. 전체 주파수 범위에 대하여 계산할 경우에, 각 서브밴드별 탐색 스펙트럼 Ti,j(f)과 평활 크기 스펙트럼 Si,j(f)을 각각 소정의 가중치를 부여하여 먼저 합한 다음에 식별비를 계산하거나 또는 각 서브밴드별로 식별비를 먼저 계산한 다음에 상기 서브밴드별 식별비를 소정의 가중치를 부여하여 합할 수도 있다.
식별비를 정확하게 계산하기 위해서는 입력 노이지 음성 신호에서 잡음 신호만을 추출해낼 수 있어야 한다. 그러나 음성과 잡음이 공존하는 노이지 음성 신호가 단일 채널을 통해 입력되는 경우에는 현실적으로 입력 신호에서 잡음 신호만을 추출할 수가 없다. 따라서 본 발명의 실시예에서는 이러한 식별비를 계산하기 위하여, 실제 잡음 신호가 아니라 전술한 탐색 스펙트럼 Ti,j(f), 즉 예측된 잡음 스펙트럼을 이용한다.
따라서 본 발명의 실시예에 의하면, 상기 식별비는 입력 노이즈 음성 신호의 크기, 즉 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 또는 예측된 잡음 스펙트럼 Ti,j(f)의 비율로 계산할 수 있다. 다만, 잡음 신호의 크기는 원 입력 신호보다 클 수가 없기 때문에 상기 식별비는 1보다 클 수 없으며, 이러한 경우에는 상기 식별비를 1로 할 수 있다.
이와 같이 본 발명의 실시예에 따라서 식별비를 정의할 경우에, 잡음의 상태는 다음과 같이 판별할 수 있다. 예컨대, 상기 식별비가 1에 근접할 경우에 해당 프레임은 잡음 유사 영역에 포함되거나 또는 잡음 우세 프레임에 해당된다. 그리고 상기 식별비가 0에 근접할 경우에는 해당 프레임은 음성 유사 영역에 포함되거나 또는 음성 우세 프레임에 해당된다.
본 발명의 실시예와 같이 탐색 스펙트럼 Ti,j(f)을 이용하여 식별비를 구하면, 여러 개의 과거 프레임에 대한 정보가 필요 없어서 대용량의 메모리가 요구되지 않으며 또한 계산량도 많지 않은 장점이 있다. 또한, 탐색 스펙트럼 Ti,j(f)(특히, 수학식 4의 탐색 스펙트럼)은 입력 노이지 음성 신호의 잡음 성분을 적응적으로 반영하기 때문에, 잡음 상태의 판별이나 잡음 추정의 정확도가 높다.
수학식 8은 본 발명의 실시예에 따른 식별비 φi(j)의 일례를 보여 주는 계산식으로써, 이에 의하면 식별비가 각 서브밴드별로 계산된다. 수학식 8을 참조하면, j번째 서브밴드에서의 식별비 φi(j)는 해당 서브밴드에서의 평활 크기 스펙트럼의 합에 대한 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼의 합 사이의 비임을 알 수 있다. 따라서 식별비 φi(j)는 0이상이지만 그 값은 1보다 클 수는 없다.
수학식 8
Figure PCTKR2009001641-appb-M000008
여기서 i는 프레임 인덱스이고, j(0≤j<J<L)는 전체 주파수 2L에서 서브밴드(SB) 사이즈(=2 L-J )로 나눈 서브밴드 인덱스인데, JL은 각각 전체 서브밴드의 개수와 전체 주파수 위치 개수를 결정짓는 자연수이다. 그리고 T i,j (f)는 전방향 탐색 절차에 따른 예측된 잡음 스펙트럼 또는 탐색 스펙트럼이고, S i,j (f)는 수학식 3에 따른 평활 크기 스펙트럼이다. 그리고 min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.
그리고 식별비 φi(j)를 수학식 8과 같이 정의하는 경우에, 수학식 4, 6, 및 7에서의 가중된 평활 크기 스펙트럼 U i,j (f)은 다음의 수학식 9와 같이 나타낼 수 있다.
수학식 9
Figure PCTKR2009001641-appb-M000009
도 5는 단계(S14)에서 구한 식별비 φi(j)를 이용하여 잡음의 상태를 판별하는 과정의 일례를 설명하기 위한 도면이다. 도 5에서 가로축은 시간 방향, 즉 프레임의 진행 방향을 나타내고, 세로축은 식별비 φi(j)를 나타낸다. 그리고 도 5의 식별비 φi(j)의 그래프는 도 2에 도시된 j번째 서브밴드에 대한 평활 크기 스펙트럼 S i,j (f)과 탐색 스펙트럼 T i,j (f)을 수학식 9에 적용하여 구한 값을 개략적으로 나타낸 것이다. 따라서 도 5에 표시되어 있는 시간 T1, T2, T3, 및 T4은 각각 도 2에 표시되어 있는 시간에 대응한다.
도 5를 참조하면, 식별비 φi(j)는 임의의 식별비 임계치(threshold value) φth를 기준으로 두 부분으로 구분된다. 여기서 식별비 임계치 φth는 0과 1 사이, 보다 구체적으로는 0.3과 0.7 사이의 임의의 값일 수 있는데, 예컨대 식별비 임계치 φth는0.5가 될 수 있다. 그리고 시간 Ta와 시간 Tb 사이와 시간 Tc와 시간 Td 사이(빗금친 영역)에서는 식별비 φi(j)가 상기 식별비 임계치 φth 보다 크지만, 시간 Ta 이전, 시간 Tb와 시간 Tc 사이, 및 시간 Td 이후에서는 식별비 φi(j)가 상기 식별비 임계치 φth 보다 작다. 본 발명의 실시예에 의하면, 식별비 φi(j)는 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 Ti,j(f)의 비율로 정의되므로, 식별비 φi(j)가 식별비 임계치 φth 이상인 시간(프레임)은 잡음 유사 영역(프레임)이라고 판별할 수 있고, 식별비 φi(j)가 식별비 임계치 φth 이상인 시간(프레임)은 음성 유사 영역(프레임)이라고 판별할 수 있다.
본 실시예의 다른 측면에 의하면, 단계 S14에서 구한 식별비 φi(j)는 음성 인식을 위한 VAD로 이용할 수도 있다. 예를 들어, 단계 S14에서 구한 식별비 φi(j)가 소정의 임계치 이하인 경우에만 음성 신호가 있는 것으로 간주하고, 상기 식별비 φi(j)가 소정의 임계치 이상인 경우에는 음성 신호가 없는 것으로 간주할 수 있다.
이상에서 상세하게 설명한 본 발명의 실시예에 따른 입력 노이지 음성 신호의 잡음 상태를 판별하기 위한 절차는 적어도 다음과 같은 두 가지의 특징을 갖는다.
첫째, 본 발명의 실시예에 의하면 탐색 스펙트럼 Ti,j(f)을 이용하여 잡음 상태를 판별하기 때문에, 기존의 VAD 방법 등과는 달리, 여러 개의 잡음 프레임이나 긴 과거 프레임에서 나타나는 정보를 이용하지 않는다. 대신에, 본 발명의 실시예에 의하면, 현재 프레임 또는 현재 프레임에서 나뉜 둘 이상의 서브밴드 각각에서 전방향 탐색 방법을 이용하여 탐색 스펙트럼 Ti,j(f)을 구하고 또한 이를 이용하여 구한 식별비 φi(j)만을 이용하여 잡음의 상태를 판별할 수 있다. 따라서 본 발명의 실시예에 의하면, 기존의 방법에 비하여 계산량이 현저히 적을 뿐만 아니라 대용량의 메모리도 필요 없으므로, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
둘째, 본 발명의 실시예에 의하면, 잡음의 레벨 변화가 크거나 또는 잡음 환경이 변화하는 등과 같이 비정적인 잡음 환경에서도 잡음의 상태를 빨리 판별할 수가 있다. 왜냐하면, 본 발명의 실시예에서는 전방향 탐색을 이용하여 탐색 스펙트럼 Si,j(f)을 구하며, 또한 이러한 탐색 스펙트럼을 구하는데 있어서 적응적으로 변화하는 여러 가지 값들, 예컨대 차등적 망각 요소 κ(j), 가중된 평활 크기 스펙트럼 Ui,j(f), 및/또는 식별비 φi(j)가 적용되기 때문이다.
제2 실시예
다음으로 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 잡음 추정 절차에 대하여 설명한다.
도 6은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 6을 참조하면, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S21), 크기 평활화 단계(Magnitude Smoothing, S22), 전방향 탐색 단계(Forward Searching, S23), 및 적응적 잡음 추정 단계(Adaptive Noise Estimation, S24)를 포함한다. 여기서 상기 단계 S21 내지 S23은, 도 1을 참조하여 전술한 본 발명의 제1 실시예에 따른 잡음 상태의 판별 절차의 단계 S11 내지 S13과 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제1 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다.
도 6을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S21). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i,j (f)으로 근사화될 수 있다.
다음으로, 퓨리에 스펙트럼 Y i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S22). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S i,j (f)이 출력된다.
다음으로, 출력되는 평활 크기 스펙트럼 S i,j (f)에 대한 전방향 탐색을 수행한다(S23). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제2 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 본 발명의 실시예에 따른 전방향 탐색 절차에서는 수학식 4, 수학식 6, 또는 수학식 7을 이용할 수 있으며, 그 결과 탐색 스펙트럼 Ti,j(f)이 얻어질 수 있다.
계속해서 도 6을 참조하면, 전방향 탐색이 완료되면 잡음 추정 절차를 수행한다(S24). 전술한 바와 같이, 단일 채널을 통해 입력되는 노이지 음성 신호에서 잡음 성분만을 분리하여 추출할 수는 없으므로, 본 단계의 잡음 추정 과정은 상기 입력 노이지 음성 신호에 포함되어 있는 잡음 성분 또는 그것의 크기를 예측하는 과정이라고 할 수 있다.
보다 구체적으로, 본 발명의 실시예에서는 탐색 스펙트럼 Ti,j(f)을 이용하여 정의되는 적응적 망각 요소 λi(j)를 이용한 순환 평균 기법을 이용하여 잡음 스펙트럼 또는 잡음 신호의 크기
Figure PCTKR2009001641-appb-I000002
를 추정한다. 예컨대, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 직전 프레임의 잡음 스펙트럼의 크기
Figure PCTKR2009001641-appb-I000003
에 적응적 망각 요소 λi(j)를 적용한 순환 평균 기법으로 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000004
을 업데이트할 수 있다.
그리고 본 발명의 실시예에 의하면, 잡음 추정 단계 S24는 전체 주파수 범위에 대하여 일괄적으로 수행되거나 또는 서브밴드 단위로 수행될 수 있다. 후자의 경우에, 적응적 망각 요소 λi(j)는 서브밴드 별로 그 값이 달라질 수 있다. 잡음 성분, 특히 뮤지컬 잡음은 고주파 밴드에 많이 발생하므로, 서브밴드별로 적응적 망각 요소 λi(j)를 달리하면 잡음의 특성에 따른 효율적인 잡음 추정이 가능하다.
본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λi(j)는 전방향 탐색의 결과로 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 구할 수 있지만, 본 실시예가 여기에만 한정되는 것은 아니다. 즉, 본 실시예에 따른 잡음 추정 절차에서 이용될 수 있는 적응적 망각 요소 λi(j)는 전방향 탐색 단계(S23)에서 구한 탐색 스펙트럼 Ti,j(f)이 아닌 지금까지 알려진 방법이나 이후에 새로 개발될 다른 방법으로 예측한 잡음 상태를 나타내기 위한 탐색 스펙트럼이나 예측 잡음 스펙트럼 등을 이용하여 구할 수도 있다.
본 발명의 일 실시예에 의하면, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000005
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 신호, 예컨대 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000006
을 구한다. 다만, 본 발명의 실시예에서는 고정된 망각 요소를 사용하는 종래의 가중 평균 기법과는 달리, 시간에 따른 잡음의 변화가 반영되며 또한 서브밴드별로 가중치가 달라지는 적응적 망각 요소 λi(j)를 사용하여 잡음 스펙트럼을 구한다. 이러한 본 발명의 실시예에 따른 잡음 추정 절차는 수학식 10으로 표현할 수 있다.
수학식 10
Figure PCTKR2009001641-appb-M000010
본 실시예의 다른 측면에 의하면, 현재 프레임이 잡음 유사 프레임인 경우에는, 수학식 10과 같이, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000007
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000008
을 구할 수 있다. 그리고 현재 프레임이 음성 유사 프레임인 경우에는, 이전 프레임의 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000009
만을 이용하여 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000010
을 구할 수 있다. 이러한 경우에는 상기 수학식 10에서 적응적 망각 요소 λi(j)가 0이 되는 경우에 해당되며, 그 결과 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000011
은 이전 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000012
과 동일하게 된다.
특히, 본 발명의 실시예에 의하면, 상기 적응적 망각 요소 λi(j)는 단계 S23에서 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 지속적으로 업데이트될 수 있다. 예를 들어, 적응적 망각 요소 λi(j)는 전술한 제1 실시예의 단계 S14에서 구한 식별비 φi(j), 즉 평활 크기 스펙트럼 Si,j(f)에 대한 탐색 스펙트럼 Ti,j(f)의 비를 이용하여 구할 수 있다. 이 경우에, 적응적 망각 요소 λi(j)는 상기 식별비 φi(j)에 선형적으로 또는 비선형적으로 비례하도록 설정할 수 있다. 이러한 본 발명의 실시예는 이전 프레임의 추정된 잡음 신호를 이용하여 망각 요소를 적응적으로 업데이트하는 것과도 다르다.
그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소 λi(j)는 서브 밴드 인덱스에 따라서 값이 변할 수 있다. 서브 밴드 별로 적응적 망각 요소 λi(j)의 크기를 달리하면, 일반적으로 저주파 영역에서는 음성 신호인 유성음이 대부분을 차지하고, 고주파 영역에서는 잡음 신호인 무성음이 대부분을 차지한다는 특성을 잡음 추정에 반영할 수 있다. 예를 들어, 상기 적응적 망각 요소 λi(j)는 저주파 영역에서는 그 값이 작지만 고주파 영역에서는 그 값이 점점 증가하도록 할 수 있다. 이 경우에, 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000013
을 구할 때 현재 프레임의 평활 크기 스펙트럼 Si,j(f)의 반영 비율을 저주파 영역에 비하여 고주파 영역에서 크게 하고, 반대로 이전 프레임의 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000014
의 반영 비율은 고주파 영역에 비하여 저주파 영역에서 크게 되도록 할 수 있다. 이를 위하여, 상기 적응적 망각 요소 λi(j)는 서브 밴드 인덱스에 따라서 그 값이 차등적으로 부여되도록 하는 레벨 조정자 ρ(j)를 이용하여 표현할 수 있다.
수학식 11과 수학식 12는 전술한 본 발명의 실시예에 따른 적응적 망각 요소 λi(j)와 레벨 조정자 ρ(j)의 일례를 수학적으로 표현한 것이다.
수학식 11
Figure PCTKR2009001641-appb-M000011
수학식 12
Figure PCTKR2009001641-appb-M000012
여기서, i, j는 각각 프레임 인덱스 및 서브밴드 인덱스를 가리킨다. φi(j)는 잡음 상태를 판별하기 위한 식별비로써 예컨대, 수학식 8에 정의된 값일 수 있다. 그리고 φth (0 < φth < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치로써, 0.3에서 0.7 사이의 값, 예컨대 0.5일 수 있다. 예컨대, φi(j)가 φth 보다 크면 해당 서브밴드에서는 잡음 유사 서브밴드인 것을 의미하고, 반대로 φi(j)가 φth 보다 작으면 해당 서브밴드에서는 음성 유사 서브밴드인 것을 의미한다. 그리고 bs와 be는 0 ≤ bs ≤ ρi(j) < be < 1의 관계가 성립하는 임의의 상수이다.
도 7은 수학식 12의 레벨 조정자 ρ(j)를 서브밴드 인덱스 j의 함수로 도시한 것이다. 도 7을 참조하면, 레벨 조정자 ρi(j)는 서브밴드 인덱스 j에 따라 그 값이 달라진다는 것을 알 수 있는데, 이러한 레벨 조정자 ρi(j)는 수학식 11에 따라서 망각 요소 λi(j)의 값이 서브밴드 인덱스 j에 따라 달라지도록 한다. 예를 들어, 레벨 조정자 ρi(j)는 저주파 영역에서는 그 값이 작지만, 서브밴드 인덱스가 증가할수록 ρi(j)도 증가한다. 이에 의하면, 잡음 추정(수학식 10 참조)에 있어서 저주파 영역 보다는 고주파 영역에서 입력 노이지 음성 신호가 반영되는 비율이 더 크다.
수학식 11을 참조하면, 적응적 망각 요소 λi(j)(0 < λi(j) < ρi(j))는 서브밴드에 포함된 잡음 상태의 변화, 즉 식별비 φi(j)에 따라서 가변하는 적응적 망각 요소이다. 식별비 φi(j)는, 본 발명의 제1 실시에와 같이, 서브밴드 인덱스에 따라서 값이 적응적으로 변할 수 있지만, 본 실시예가 이러한 경우로 한정되는 것은 아니다. 그리고 전술한 바와 같이, 레벨 조정자 ρi(j)는 서브밴드 인덱스에 따라서 값이 증가한다. 따라서 본 발명의 실시예에 의하면, 적응적 망각 요소 λi(j)는 잡음 상태와 서브밴드 인덱스에 따라서 적응적으로 변한다.
수학식 8과 수학식 10 내지 수학식 12에 의할 경우에, 본 발명의 제2 실시예에 따른 잡음 추정 절차는 다음과 같이 보다 구체적으로 설명될 수 있다. 단, 설명의 편의를 위하여 레벨 조정자 ρi(j)와 식별비 임계치 φth는 해당 서브밴드에서 각각 0.2 및 0.5라고 가정한다.
우선, 식별비 φi(j)가 상기 식별비 임계치 φth인 0.5보다 작거나 같은 경우에, 수학식 11에 의하면 적응적 망각 요소 λi(j)는 0이 된다. 식별비 φi(j)가 0.5 보다 작은 구간은 음성 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 음성 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 음성 유사 영역에서는 잡음 추정의 갱신을 수행하지 않는다. 즉, 현재 프레임의 잡음 스펙트럼과 이전 프레임의 잡음 스펙트럼이 동일하다(
Figure PCTKR2009001641-appb-I000015
=
Figure PCTKR2009001641-appb-I000016
).
그리고 식별비 φi(j)가 상기 식별비 임계치 φth인 0.5보다 큰 경우, 예컨대 식별비 φi(j)가 1인 경우에, 수학식 11 및 12에 의하면 적응적 망각 요소 λi(j)는 0.2이 된다. 식별비 φi(j)가 0.5 보다 큰 구간은 잡음 유사 영역이라고 할 수 있으므로, 이러한 구간에서는 노이지 음성 신호에서 잡음 성분의 비중이 상대적으로 높다. 따라서 수학식 10에 의할 경우에, 이러한 잡음 유사 영역에서는 잡음 추정의 갱신을 수행한다(
Figure PCTKR2009001641-appb-I000017
= 0.2ㅇSi,j(f) + 0.8ㅇ
Figure PCTKR2009001641-appb-I000018
).
이상에서 상세하게 설명한 바와 같이, 본 발명의 제2 실시예에 따른 잡음 추정 방법에서는 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 서브밴드에 존재하는 잡음의 상태에 따라 그 값이 변하는 적응적 망각 요소를 적용하여 잡음을 추정한다. 그리고 잡음 성분의 비중이 상대적으로 높은 잡음 유사 영역에서는 추정된 잡음의 업데이트가 지속적으로 이루어지지만, 음성 성분의 비중이 상대적으로 높은 음성 유사 영역에서는 업데이트를 하지 않는다. 따라서 본 발명의 실시예에 의하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 상기 적응적 망각 요소는 입력 노이지 음성 신호의 잡음 상태에 따라서도 그 값이 달라질 수 있다. 예컨대, 상기 적응적 망각 요소는 식별비 φi(j)의 값에 비례할 수가 있으며, 이와 같은 경우에는 잡음 성분이 더 많은 비중을 차지할수록 입력 노이지 음성 신호를 더 많이 반영함으로써, 잡음 추정의 정확도를 향상시킬 수가 있다.
또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φi(j)를 이용하여 잡음 추정을 수행할 수가 있다. 그 결과, 본 실시예에서는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
제3 실시예
다음으로 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차로써, 입력 노이지 음성 신호에 대한 음질 개선 절차에 대하여 설명한다.
도 8은 본 발명의 일 실시예에 따른 입력 노이지 음성 신호에 대한 잡음 추정 절차를 보여 주는 흐름도이다. 도 8을 참조하면, 본 발명의 제3 실시예에 따른 음질 개선 절차는 입력 노이지 음성 신호에 대한 퓨리에 변환 단계(Fourier Transform, S31), 크기 평활화 단계(Magnitude Smoothing, S32), 전방향 탐색 단계(Forward Searching, S33), 적응적 잡음 추정 단계(Adaptive Noise Estimation, S34), 상대 크기 차이(Relative Magnitude Difference, RMD) 계산 단계(RMD Measure, S35), 개선된 비선형 구조의 과중 이득 함수 계산 단계(Calculation of Modified Overweighting Gain Function with Nonlinear Structure, S36), 및 변형된 스펙트럼 차감 단계(Modified Spectral Subtraction, S37)를 포함한다.
여기서 상기 단계 S31 내지 S34는, 도 6을 참조하여 전술한 본 발명의 제2 실시예에 따른 잡음 추정 절차의 단계 S21 내지 S24와 동일한 과정이 이용될 수 있으므로, 이하에서는 전술한 제2 실시예에서 상세하게 설명하지 않은 부분을 중심으로 설명한다. 다만, 본 발명의 제3 실시예의 여러 가지 특징들 중의 하나는 추정된 잡음 스펙트럼을 이용하여 상기 단계 S35 및 S36을 수행하는 것이므로, 상기 단계 S31 내지 S34까지는 기존의 잡음 추정 절차로 대체되는 것을 배제하지는 않을 수도 있다.
도 8을 참조하면, 우선 입력 노이지 음성 신호 y(n)에 대한 퓨리에 변환(Fourier Transform)을 수행한다(S31). 퓨리에 변환의 결과, 입력 노이지 음성 신호 y(n)는 퓨리에 스펙트럼(Fourier Spectrum, FS) Y i,j (f)으로 근사화될 수 있다.
다음으로, 퓨리에 스펙트럼 Y i,j (f)에 대한 평활화(smoothing) 과정을 수행한다(S32). 평활화 단계는 전체 퓨리에 스펙트럼에 대하여 수행하거나 또는 각 서브밴드 단위로 수행할 수도 있다. 퓨리에 스펙트럼 Y i,j (f)에 대한 크기 평활화 단계의 적용 결과, 평활 크기 스펙트럼(smoothed magnitude spectrum) S i,j (f)이 출력된다.
다음으로, 출력되는 평활 크기 스펙트럼 S i,j (f)에 대한 전방향 탐색을 수행한다(S33). 전방향 탐색 절차는 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 평활 크기 스펙트럼에 존재하는 잡음의 상태를 예측하기 위한 것으로써, 예시적인 절차이다. 즉, 본 발명의 제3 실시예에서 잡음의 상태를 예측하는데 있어서, 반드시 전방향 탐색 절차가 이용될 필요는 없으며, 기존의 어떠한 방법이라도 이용될 수 있다. 이하에서는, 수학식 4, 수학식 6, 또는 수학식 7을 이용하여 구한 탐색 스펙트럼 Ti,j(f)을 이용하는 경우에 대해서만 설명한다.
다음으로, 전방향 탐색을 통해서 구한 탐색 스펙트럼 Ti,j(f)을 이용하여 잡음을 추정한다(S34). 본 실시예의 일 측면에 의하면, 서브밴드 별로 차등적 값을 갖는 적응적 망각 요소 λi(j)를 구하고 또한 상기 적응적 망각 요소가 적용된 가중 평균 기법에 따라서 적응적으로 잡음을 추정할 수 있다. 이를 위하여, 현재 프레임의 평활 크기 스펙트럼 Si,j(f)과 이전 프레임의 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000019
을 이용한 가중 평균 기법으로 현재 프레임의 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000020
을 구할 수 있다(수학식 10, 11, 및 12 참조).
다음으로 단계 S36에서의 변형된 스펙트럼 차감 절차를 수행하기 위한 예비 단계로 상대 크기 차이(RMD) γi(j)를 계산한다(S35). 상대 크기 차이 γi(j)는 서브밴드에 걸쳐서 존재하는 노이지 음성 신호와 잡음 신호 사이의 상대적 차이를 나타내기 위한 것으로써, 이를 이용하면 뮤지컬 잡음의 잔재를 억제할 수 있는 과중 이득 함수 ψi(j)를 얻기 위해서 사용된다. 프레임에서 둘 이상으로 나눈 서브밴드는 차등적 가중치를 적용하기 위하여 도입되었다.
수학식 13
Figure PCTKR2009001641-appb-M000013
수학식 13은 기존의 방법에 따른 상대 크기 차이(RMD) γi(j)를 나타내는 식으로써, SB와 j는 각각 서브밴드 사이즈와 서브밴드 인덱스를 가리킨다. 그리고 수학식 13은 단계 S32의 크기 평활화 절차가 적용되지 않은 경우를 나타낸다는 점에서, 본 발명의 실시예와 차이가 있다. 이 경우에, Yi,j(f)와 Xi,j(f)는 각각 평활화 절차 이전의 퓨리에 변환된 노이지 음성 스펙트럼과 순수 음성 스펙트럼을 나타내고, 수학식 13의
Figure PCTKR2009001641-appb-I000021
는 평활화 절차가 생략된 신호를 이용하여 구한 추정된 잡음 스펙트럼을 나타낸다.
수학식 13에서, 상대 크기 차이 γi(j)가 1에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 음성 유사 서브밴드를 나타낸다. 반대로 상대 크기 차이 γi(j)가 0에 가까우면 이 서브밴드는 개선된 음성에 뮤지컬 잡음이 상대적으로 적게 관찰되는 잡음 유사 서브밴드를 나타낸다. 또한 상대 크기 차이 γi(j)가 1이면 이 서브밴드에서는
Figure PCTKR2009001641-appb-I000022
으로 되기 때문에 완전한 잡음 서브밴드를 나타낸다. 반대로 상대 크기 차이 γi(j)가 0이면 이 서브밴드는
Figure PCTKR2009001641-appb-I000023
이기에 완전한 음성 서브밴드를 나타낸다. 그러나 종래의 방법에 의하면, 단일 채널에서 비정적인 잡음에 오염된 노이지 음성 신호의 크기
Figure PCTKR2009001641-appb-I000024
로부터 잡음 추정을 정확하게 수행하는 것은 어렵기 때문에 상대 크기 차이 γi(j)를 정확하게 구하는 것 또한 쉽지가 않다.
따라서 본 발명의 실시예에서는 보다 정확한 상대 크기 차이 γi(j)를 구하기 위하여 단계 S34에서 구한 추정된 잡음 스펙트럼
Figure PCTKR2009001641-appb-I000025
과 max (Si,j(f),
Figure PCTKR2009001641-appb-I000026
)를 사용한다. 수학식 14는 본 발명의 실시예에 따른 상대 크기 차이 γi(j)를 나타내는 식이다. 수학식 14에서 max (a, b)는 a와 b 중에서 더 큰 값을 나타내는 함수이다. 일반적으로, 잡음 신호는 이를 포함하는 노이지 음성 신호보다 클 수가 없기 때문에 잡음이 오염된 음성보다 큰 경우는 발생하지 않으며, 따라서 max (Si,j(f),
Figure PCTKR2009001641-appb-I000027
)가 사용되는 것은 타당하다.
수학식 14
Figure PCTKR2009001641-appb-M000014
다음으로, 상대 크기 차이 γi(j)를 이용하여 변형된 비선형 구조의 과중 이득 함수를 구한다(S36). 수학식 15는 본 발명의 실시예에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)를 구하기 위한 전제 단계로써 구해야 하는 기존의 비선형 구조의 과중이득 함수 ψi(j)를 보여 주는 식이다. 여기서, η는 서브밴드에 존재하는 음성의 양과 잡음의 양이 같을 경우의 상대 크기 차이 γi(j)의 값으로써, 수학식 14에 의하면 그 값은
Figure PCTKR2009001641-appb-I000028
이다(
Figure PCTKR2009001641-appb-I000029
). 그리고 ξ은 기존의 과중이득 함수 ψi(j)의 최대치를 설정하기 위한 레벨조정 상수이고, τ는 기존의 과중 이득 함수 ψi(j)의 형태를 변형하기 위한 멱지수(exponent)이다.
수학식 15
Figure PCTKR2009001641-appb-M000015
그런데, 일상에서 발생하는 대부분의 유색 잡음은 고주파 대역에 비해 저주파 대역에서 많은 에너지를 형성한다. 따라서 본 발명의 실시예에서는 유색 잡음의 특성을 고려하여 주파수 밴드별 차등적으로 적용되는 개선된 비선형 구조의 과중이득 함수 ζi(j)를 제안한다. 수학식 16은 본 발명의 실시예에 따른 변형된 과중이득 함수 ζi(j)를 나타내는 식이다. 기존의 과중이득 함수 ψi(j)는 저주파 대역에 낮은 이득을 할당하고 고주파 대역에 높은 이득을 할당하여, 무성음의 감쇠 효과를 보다 적게 줄이기 위함이다. 반대로, 수학식 16의 변형된 과중이득 함수 ζi(j)는 고주파 대역에 비해 저주파 대역에 높은 이득이 할당되도록 하기 때문에, 저주파 대역에서 잡음의 효과를 보다 많이 감쇠시킬 수가 있다.
수학식 16
Figure PCTKR2009001641-appb-M000016
여기서, ms (ms > 0)와 me (me < 0, ms > me)는 각각 개선된 과중이득 함수 ζi(j)의 레벨을 조정하기 위한 임의의 상수이다.
도 9는 상대 크기 차이 γi(j)가 η, 즉
Figure PCTKR2009001641-appb-I000030
이상이 되는 부분(즉, 크기 크기 SNR ωi(j)이 0.5 이상이 되는 부분)에 대하여, ξ를 2.5로 설정한 경우의 크기 SNR ωi(j) (
Figure PCTKR2009001641-appb-I000031
)의 변화에 따른 변형된 비선형 구조의 과중이득 함수 ζi(j)의 변화를 나타낸 것이다. 도 9에서 수직 점선은 상대 크기 차이 γi(j)가 η 보다 큰 영역에서 크기 SNR ωi(j)의 중앙 위치인 0.75를 경계로 하여 기존의 과중이득 함수 ψi(j)의 강한 잡음 영역과 약한 잡음 영역으로 구분하기 위한 기준선이다.
도 9와 수학식 16을 참조하면, 변형된 과중이득 함수 ζi(j)가 비선형 구조를 가지기에 다음과 같은 주요 두 가지 장점을 가진다는 것을 알 수 있다.
첫째, 약한 잡음 영역과 비교해서 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서 뮤지컬 잡음의 발생을 효과적으로 억제할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 강한 잡음 영역의
Figure PCTKR2009001641-appb-I000032
는 약한 잡음 영역의
Figure PCTKR2009001641-appb-I000033
보다 비선형적으로 큰 가중치가 적용되어 잡음의 양을 상대적으로 많이 감쇠시키기 때문이다.
둘째, 강한 잡음 영역과 비교해서 뮤지컬 잡음이 적게 발생하며 상대적으로 적게 인지되는 약한 잡음 영역에서 음성 명도를 신뢰적으로 제공할 수 있다. 이유는 후술하는 변형된 스펙트럼 차감 방법을 보여 주는 수학식에서 약한 잡음 영역의
Figure PCTKR2009001641-appb-I000034
는 강한 잡음 영역의
Figure PCTKR2009001641-appb-I000035
보다 비선형적으로 낮은 가중치가 적용되어 음성의 양을 상대적으로 적게 감쇠시키기 때문이다.
계속해서, 변형된 과중이득 함수 ζi(j)를 이용하여 변형된 스펙트럼 차감을 수행함으로써, 개선된 음성 신호
Figure PCTKR2009001641-appb-I000036
를 얻는다(S37). 본 발명의 실시예에 따른 변형된 스펙트럼 차감은 수학식 17 및 수학식 18을 이용하여 수행될 수 있다.
수학식 17
Figure PCTKR2009001641-appb-M000017
수학식 18
Figure PCTKR2009001641-appb-M000018
여기서, Gi,j(f) (0 ≤ Gi,j(f) ≤ 1)와 β(0 ≤ β ≤ 1)는 각각 변형된 시변(time-varying) 이득함수와 스펙트럼 평활화 요소를 가리킨다.
이상에서 상세하게 설명한 바와 같이, 본 발명의 실시예에 따른 음질 개선 방법에 의하면, 뮤지컬 잡음이 자주 발생되며 상대적으로 크게 인지되는 강한 잡음 영역에서는 뮤지컬 잡음의 발생을 효과적으로 억제하여 인공음을 효율적으로 억제할 수 있다. 뿐만 아니라, 약한 잡음 영역이나 그 이외의 부분에서는 음성 왜곡이 적게 발생하여 보다 명료한 음성을 제공할 수가 있다.
그리고 본 실시예의 일 측면에 의하면, 잡음 추정 시에 전술한 본 발명의 제2 실시예에 따른 잡음 추정 방법을 사용하면, 잡음의 변화에 따라서 잡음 추정과 업데이트를 효율적으로 수행할 수가 있고, 잡음 추정의 정확도를 향상시킬 수가 있다. 또한, 본 실시예의 다른 측면에 의하면, 기존의 VAD 기반 방법이나 MS 알고리즘이 아닌 전술한 제1 실시예에 따른 전방향 탐색으로 구한 식별비 φi(j)를 이용하여 잡음 추정을 수행할 수가 있어서, 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
다음으로 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치에 대하여 설명한다. 본 발명의 실시예에 따른 노이지 음성 신호의 처리 장치는 휴대폰, 블루투스, 보청기, 스피커폰, 음성인식 시스템 등과 같은 음성 기반 어플리케이션 장치에 내장되는 소프트웨어(Software), 음성 기반 어플리케이션의 프로세서(컴퓨터)를 실행시키도록 컴퓨터 판독 가능한 기록매체의 형태, 또는 음성 기반 어플리케이션 장치에 장착되는 칩의 형태 등과 같이 다양한 방법으로 구현될 수 있다.
제4 실시예
도 10은 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 상태의 판별 장치이다. 도 10을 참조하면, 노이지 음성 신호에 대한 잡음 상태의 판별 장치(100)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(110), 크기 평활화 유닛(120), 전방향 탐색 유닛(130), 및 식별비 계산 유닛(140)을 포함한다. 본 발명의 실시예에 따른 잡음 상태의 판별 장치(100)에 포함되는 각 구성 요소(110, 120, 130, 및 140)의 기능은 전술한 본 발명의 제1 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S11, S12, S13, 및 S14)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제4 실시예에 따른 노이지 음성 신호의 처리 장치(100)는 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제5 실시예
도 11은 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 잡음 추정 장치이다. 도 11을 참조하면, 노이지 음성 신호에 대한 잡음 추정 장치(200)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(210), 크기 평활화 유닛(220), 전방향 탐색 유닛(230), 및 잡음 추정 유닛(240)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 잡음 추정 장치(200)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 잡음 추정 장치(200)에 포함되는 각 구성 요소(210, 220, 230, 및 240)의 기능은 전술한 본 발명의 제2 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S21, S22, S23, 및 S24)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제5 실시예에 따른 노이지 음성 신호의 처리 장치(200)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제6 실시예
도 12는 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치를 보여 주는 블록도로써, 음질 개선 장치이다. 도 12를 참조하면, 노이지 음성 신호에 대한 음질 개선 장치(300)는 입력 노이지 음성 신호에 대한 퓨리에 변환 유닛(310), 크기 평활화 유닛(320), 전방향 탐색 유닛(330), 잡음 추정 유닛(340), 상대 크기 차이(RMD) 계산 유닛(350), 개선된 비선형 구조의 과중 이득 함수 계산 유닛(360), 및 변형된 스펙트럼 차감 유닛(370)을 포함한다. 또한, 도면에는 도시하지 않았지만, 상기 음질 개선 장치(300)는 식별비 계산 유닛을 더 포함할 수도 있다(제4 실시예 참조). 이러한 음질 개선 장치(300)에 포함되는 각 구성 요소(310 내지 370)의 기능은 전술한 본 발명의 제3 실시예에 따른 노이지 음성 신호의 처리 절차를 구성하는 단계(S31 내지 S37)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 제6 실시예에 따른 노이지 음성 신호의 처리 장치(300)도 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
제7 실시예
도 13은 본 발명의 제7 실시예에 따른 음성 기반 어플리케이션 장치의 구성을 보여 주는 블록도로서, 도 10, 도 10, 또는 도 12에 도시된 노이지 음성 신호의 처리 장치(300)를 포함한다. 도 13을 참조하면, 음성 기반 어플리케이션 장치(400)는 마이크(410), 노이지 음성 신호의 처리 장치(420), 및 응용 장치(Application Device, 430)을 포함한다.
마이크(410)는 노이지 음성 신호를 획득하기 음성 기반 어플리케이션 장치(400)로 입력하기 위한 입력 수단이다. 노이지 음성 신호의 처리 장치(420)는 마이크(410)를 통해 획득한 노이지 음성 신호를 처리하여 잡음 상태를 판별하거나, 잡음을 추정하거나 또는 추정된 잡음을 이용하여 개선된 음성 신호를 출력하기 위한 것으로써, 이러한 노이지 음성 신호의 처리 장치(420)는 도 10 내지 도 12에 도시된 장치(100, 200, 300) 중의 하나와 동일한 구성을 갖는 장치일 수 있다. 이 경우에 노이지 음성 신호의 처리 장치(420)는 전술한 본 발명의 제1 실시예, 제2 실시예, 또는 제3 실시예에 따른 노이지 음성 신호의 처리 절차에 따라서 노이지 음성 신호를 처리하여 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 출력한다.
또한, 음성 기반 어플리케이션 장치(400)는 상기 노이지 음성 신호의 처리 장치를 통해 생성된 식별비, 추정된 잡음 신호, 또는 개선된 음성 신호를 이용하여 다른 용도로 이용하기 위한 응용 장치(430)를 포함한다. 예를 들어, 응용 장치(430)는 개선된 음성 신호를 장치(400)의 외부로 출력하기 위한 출력 장치, 예컨대 스피커이거나 및/또는 개선된 음성 신호로부터 음성 인식을 하기 위한 음성 인식 시스템, 개선된 음성 신호를 압축하기 위한 코덱 장치, 및/또는 압축된 음성 신호를 유무선 통신 네트워크를 통해 전송하기 위한 전송 장치 등일 수 있다.
테스트 결과
본 발명의 실시예에 따른 잡음 상태의 판별 방법, 노이즈 추정 방법, 및 음질 개선 절차의 성능을 평가하기 위하여, 양적인 테스트는 물론 질적인 테스트도 함께 수행하였다. 여기서, 질적인 테스트란 비형식적이고 주관적인 듣기 테스트 및 스펙트럼 조사를 의미하고, 양적인 테스트는 개선된 세그멘탈 신호 대 잡음비(Improved Segmental Signal to Noise Ratio, Improved Seg.SNR)와 세그멘탈 가중된 스펙트럼 경사 측정(Segmental weighted Spectral Slope Measure, Seg.WSSM)을 구하는 것을 의미한다.
개선된 세그멘탈 신호 대 잡음비(Improved Seg.SNR)는 수학식 19 및 수학식 20을 이용하여 계산되었다. 그리고 세그멘탈 가중된 스펙트럼 경사 측정(Seg.WSSM)은 수학식 21 및 22를 이용하여 계산되었다.
수학식 19
Figure PCTKR2009001641-appb-M000019
수학식 20
Figure PCTKR2009001641-appb-M000020
여기서, M, F, x(n), 및
Figure PCTKR2009001641-appb-I000037
은 각각 전체 프레임 개수, 프레임 사이즈, 깨끗한 음성 신호, 및 개선된 음성 신호를 가리킨다. 그리고 Seg.SNRInput과 Seg.SNRInput는 각각 오염된 음성 신호와 개선된 음성 신호의 Seg.SNR이다.
수학식 21
Figure PCTKR2009001641-appb-M000021
수학식 22
Figure PCTKR2009001641-appb-M000022
여기서, CB는 임계 밴드의 전체 개수이며, Ω,
Figure PCTKR2009001641-appb-I000038
, ΩSPL, 및 Λ(r)은 각각 깨끗한 음성의 음압(Sound Pressure Level, SPL), 개선된 음성의 SPL, 전체 성능을 조절하기 위한 가변적 계수, 및 각 임계 밴드의 가중치이다. 또한,
Figure PCTKR2009001641-appb-I000039
Figure PCTKR2009001641-appb-I000040
는 각각 깨끗한 음성 신호와 개선된 음성 신호의 임계 밴드의 중심 주파수에서 크기 스펙트럼 경사이다.
주관적인 테스트 결과에 의하면, 본 발명의 실시예에 의할 경우에 잔류 뮤지컬 노이즈는 거의 관측이 되지 않았을 뿐만 아니라 개선된 음성 신호에서의 왜곡도 종래의 다른 방법에 비해서 상당히 줄어들었다는 것을 확인할 수 있었다. 여기서, 종래의 다른 방법이란 본 발명의 실시예에 따른 테스트 결과에 대한 성능 비교를 위하여 참조 기술로써 WA 방법(스케일링 인자 α = 0.95, 임계치 β = 2)을 이용하였다. 이하에서 설명하는 바와 같이, 양적인 테스트에서의 실험 결과는 이러한 질적인 테스트에서의 실험 결과를 뒷받침하는 것이었다.
양적인 테스트에서는 TIMIT 데이터베이스로부터 30초 길이의 음성 신호(이 중에서 15초는 남성의 음성 신호이고 나머지 15초는 여성의 음성 신호)가 선택되었는데, 그것의 지속 시간은 6초 이상이다. 그리고 가산 잡음(additive noise)으로써 네 가지 유형의 노이즈 신호가 사용되었는데, 이들은 모두 NoiseX-92 데이터베이스에서 선택된 것으로서 각각 사람 웅성 잡음(speech-like noise), F16 전투기(aircraft cockpit noise), 공장(factory noise), 및 백색 가우시안 노이즈(white gaussian noise)이다. 각 음성은 각 유형의 노이즈를 이용하여 SNR 0dB, 5dB, 및 10dB로 결합되었다. 모든 신호의 샘플링 주파수는 16kHz이고, 각 프레임은 50%의 오버랩핑을 갖는 512 샘플(32ms)로 구성되어 있다.
도 14는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 개선된 세그멘탈 SNR 그래프이다. 도 14에서 (a), (b), (c), 및 (d)는 각각 부가 잡음이 사람 웅성 잡음, F16 비행기 잡음, 공장 잡음, 및 백색 가우시안 잡음인 노이지 음성 신호를 이용하여 테스트한 경우이다(도 15 내지 도 19에서도 이와 동일함). 도 14에서 'PM'으로 표시된 것은 전술한 본 발명의 제1 실시예에 따라서 전방향 탐색을 이용한 잡음 판별 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균(WA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 14를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다. 다만, 공장 잡음이나 백색 가우시안 잡음의 경우에는 입력 SNR이 10인 경우에, 세그멘탈 SNR의 향상 효과가 거의 없는 것으로 나타났다.
도 15는 본 발명의 제1 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 15를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다. 다만, 사람 웅성 잡음의 경우에는 입력 SNR이 작은 경우에, 오히려 세그멘탈 WSSM이 약간 높아질 수 있다.
도 16은 본 발명의 제2 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 16에서 'PM'으로 표시된 것은 전술한 본 발명의 제2 실시예에 따라서 전방향 탐색 및 적응적 잡음 추정을 이용한 잡음 추정 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 가중 평균 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 16을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.
도 17은 본 발명의 제2 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 17을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.
도 18은 본 발명의 제3 실시예에 따른 잡음 추정 절차의 효과를 보여 주기 위한 일례이다. 도 18에서 'PM'으로 표시된 것은 전술한 본 발명의 제3 실시예에 따라서 전방향 탐색, 적응적 잡음 추정, 및 비선형 구조의 변형된 과중 이득 함수를 이용한 변형된 스펙트럼 차감법을 이용한 음질 개선 절차에 의해 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이고, 'WA'로 표시된 것은 기존의 개선된 최소값 제어 순환 평균(Improved Minima Controlled Recursive Average, IMCRA) 절차를 사용하여 획득한 개선된 음성 신호에서 측정된 개선된 세그멘탈 SNR이다. 도 18을 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 세그멘탈 SNR이 상당히 향상되며, 특히 입력 SNR이 낮은 경우에 세그멘탈 SNR의 향상 효과가 크다는 것을 알 수 있다.
도 19는 본 발명의 제3 실시예에 따른 노이지 음성 신호의 잡음 상태의 판별 절차의 효과를 보여 주기 위한 다른 예로써, 세그멘탈 WSSM에 대한 것이다. 도 19를 참조하면, 본 발명의 실시예에 의할 경우에, 입력 SNR에 상관없이 일반적으로 세그멘탈 WSSM이 낮아진다는 것을 알 수 있다.
이상에서 상세하게 설명한 본 발명의 실시예는 단지 본 발명의 기술 사상을 보여주기 위한 예시적인 것으로서, 상기 실시예에의 의하여 본 발명의 기술 사상이 한정되는 것으로 해석되어서는 안된다. 본 발명의 보호 범위는 후술하는 본 발명의 특허청구범위에 의하여 특정된다.

Claims (27)

  1. 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;
    상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하는 단계; 및
    상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함하는 노이지 음성 신호에 대한 잡음 추정 방법.
  2. 제1항에 있어서, 상기 탐색 스펙트럼을 구하는 단계 이후에,
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계를 더 포함하고,
    상기 적응적 망각 요소는 상기 식별비를 이용하여 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  3. 제2항에 있어서, 상기 적응적 망각 요소는, 상기 식별비가 소정의 식별비 임계치보다 작은 경우에는 '0'이 되고, 상기 식별비가 상기 식별비 임계치보다 큰 경우에는 상기 식별비에 비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  4. 제3항에 있어서, 상기 식별비에 비례하는 상기 적응적 망각 요소는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드에 따라서 그 값이 달라지는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  5. 제4항에 있어서, 상기 적응적 망각 요소는 상기 서브밴드의 인덱스에 비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  6. 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하는 단계;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하는 단계;
    직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하는 단계;
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하는 단계; 및
    상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하는 단계를 포함하는 노이지 음성 신호에 대한 잡음 추정 방법.
  7. 제6항에 있어서, 상기 평활 크기 스펙트럼은 하기 식 (E-1)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000041
    (E-1)
    여기서, i는 프레임 인덱스, f는 주파수, Si-1(f)과 Si(f)는 각각 (i-1)번째 및 i번째 프레임의 평활 크기 스펙트럼, Yi(f)는 i번째 프레임의 변환 스펙트럼, αs는 평활 인자(smoothing factor)를 가리킨다.
  8. 제7항에 있어서, 상기 탐색 프레임을 구하는 단계와 상기 잡음 상태의 판별 단계는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드 단위로 수행하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  9. 제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-2)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000042
    (E-2)
    여기서, i는 프레임 인덱스이고, j(0≤j<J<L)는 상기 소정의 주파수 범위 2L에서 서브밴드(SB) 사이즈(=2 L-J )로 나눈 서브밴드 인덱스(JL은 각각 전체 서브밴드의 개수와 상기 소정의 주파수 범위를 결정짓는 자연수)이며, T i,j (f)는 탐색 스펙트럼, S i,j (f)는 평활 크기 스펙트럼, 그리고 U i-1,j (f)는 직전 프레임의 탐색 스펙트럼과 평활 크기 스펙트럼 중에서 더 작은 값을 지시하는 가중된 스펙트럼(weighted spectrum)이고, κ(j)(0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1)는 차등적 망각 요소이다.
  10. 제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-3)을 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000043
    (E-3)
  11. 제8항에 있어서, 상기 탐색 프레임은 하기 식 (E-4)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000044
    (E-4)
  12. 제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 차등적 망각 요소의 값은 상기 서브밴드의 인덱스에 반비례하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  13. 제12항에 있어서, 상기 차등적 망각 요소는 하기 식 (E-5)로 표시되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000045
    (E-5)
    여기서, 0 < κ(J-1) ≤ κ(j) ≤ κ(0) ≤ 1이다.
  14. 제9항 내지 제11항 중 어느 하나의 항에 있어서, 상기 식별비는 하기 식 (E-6)를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000046
    (E-6)
    여기서, SB는 서브밴드 사이즈, min(a, b)는 a와 b 중에서 더 작은 값을 가리킨다.
  15. 제14항에 있어서, 상기 가중된 스펙트럼은 하기 식 (E-7)로 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000047
    (E-7)
  16. 제15항에 있어서, 상기 잡음 스펙트럼은 하기 식 (E-8)로 정의되는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
    Figure PCTKR2009001641-appb-I000048
    (E-8)
    여기서, i와 j는 각각 프레임 인덱스와 서브밴드 인덱스,
    Figure PCTKR2009001641-appb-I000049
    는 현재 프레임의 잡음 스펙트럼, |hat N_i-1,j (f)|는 이전 프레임의 잡음 스펙트럼, λi(j)는 적응적 망각 요소로써 하기 식 (E-9) 및 (E-10)으로 정의되며,
    Figure PCTKR2009001641-appb-I000050
    (E-9)
    Figure PCTKR2009001641-appb-I000051
    (E-10)
    φi(j)는 식별비, φth (0 < φth < 1)는 입력 노이즈 음성 신호의 잡음 상태에 따라 잡음 유사 서브밴드 또는 음성 유사 서브밴드로 구분하기 위한 임계치, 그리고 bs와 be는 각각 0 ≤ bs ≤ ρi(j) < be < 1의 관계가 성립하는 임의의 상수이다.
  17. 제6항에 있어서, 상기 변환 스펙트럼을 구하는 단계에서는 퓨리에 변환을 이용하는 것을 특징으로 하는 노이지 음성 신호에 대한 잡음 추정 방법.
  18. 시간 도메인의 입력 노이지 음성 신호를 처리하는 방법에 있어서,
    상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고,
    상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고,
    상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고
    상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하는 것을 포함하고,
    상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
  19. 제18항에 있어서, 인접한 프레임들 사이에서 상기 노이지 음성 신호의 크기 차이를 완화한 평활화된 신호를 구하고, 상기 탐색 신호와 상기 현재 프레임의 잡음 신호는 상기 퓨리에 신호 대신에 상기 평활화된 신호를 이용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
  20. 제19항에 있어서, 상기 탐색 신호는 상기 주파수 도메인의 전체 주파수 범위를 복수 개로 분할한 서브밴드 단위로 구하며,
    상기 크기가 작은 신호에 곱해지는 상기 망각 요소는 저주파 대역 보다는 고주파 대역에서 더 작은 차등적 망각 요소인 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
  21. 제18항에 있어서, 상기 퓨리에 변환 신호의 크기가 증가하는 구간에서, 상기 탐색 신호는 직전 프레임의 상기 탐색 신호와 같은 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
  22. 제18항에 있어서, 상기 퓨리에 변환 신호의 크기가 감소하고 또한 상기 퓨리에 변환 신호의 크기가 상기 탐색 신호의 크기보다 더 큰 구간에서, 상기 탐색 신호는 직전 프레임의 상기 탐색 신호와 같은 것을 특징으로 하는 노이지 음성 신호의 처리 방법.
  23. 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛;
    상기 평활 크기 스펙트럼의 예측된 잡음 성분을 나타내는 탐색 스펙트럼을 구하기 위한 전방향 탐색 유닛; 및
    상기 탐색 스펙트럼을 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함하는 노이지 음성 신호에 대한 잡음 추정 장치.
  24. 입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 유닛;
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 유닛;
    직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 유닛;
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태 판별 유닛; 및
    상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 유닛을 포함하는 노이지 음성 신호의 처리 장치.
  25. 시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하기 위한 노이지 음성 신호의 처리 장치에 있어서, 상기 처리 장치는
    상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하고,
    상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하고,
    상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하고, 그리고
    상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하며,
    상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 노이지 음성 신호의 처리 장치.
  26. 컴퓨터를 제어하여 입력 노이지 음성 신호의 잡음을 추정하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은
    입력되는 노이지 음성 신호를 주파수 도메인으로 변환하여 변환 스펙트럼을 구하기 위한 변환 처리와,
    인접한 프레임들 사이에서 상기 변환 스펙트럼의 크기 차이를 완화한 평활 크기 스펙트럼을 구하기 위한 평활화 처리와,
    직전 프레임의 탐색 프레임만을 이용하거나 및/또는 직전 프레임의 탐색 프레임과 직전 프레임의 평활 크기 스펙트럼 중에서 크기가 작은 스펙트럼과 현재 프레임의 평활 크기 스펙트럼을 이용하여 현재 프레임의 탐색 프레임을 구하기 위한 전방향 탐색 처리와,
    상기 평활 크기 스펙트럼과 상기 탐색 스펙트럼을 이용하여 상기 입력 노이지 음성 신호에 포함된 잡음 성분의 비율을 나타내는 식별비를 구하기 위한 잡음 상태의 판별 처리와, 그리고
    상기 식별비를 이용하여 정의되는 적응적 망각 요소를 이용한 순환 평균 기법으로 잡음 스펙트럼을 구하기 위한 잡음 추정 처리를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록매체.
  27. 컴퓨터를 제어하여 시간 도메인의 입력 노이지 음성 신호를 처리하여 상기 노이지 음성 신호의 잡음 성분을 추정하도록 고안된 프로그램을 기록한 컴퓨터 판독 가능한 기록매체로서, 상기 프로그램은
    상기 노이지 음성 신호에 대한 퓨리에 변환을 수행하여 퓨리에 변환 신호를 생성하기 위한 변환 처리와,
    상기 노이지 음성 신호의 예측된 잡음 성분을 나타내는 탐색 신호를 구하기 위한 전방향 탐색을 수행하기 위한 전방향 탐색 처리와,
    상기 퓨리에 변환 신호와 상기 탐색 신호를 이용하여 상기 노이지 음성 신호의 잡음 상태를 나타내는 식별비를 구하기 위한 잡음 상태의 판별 처리와, 그리고
    상기 식별비의 함수 또는 0으로 정의되는 적응적 망각 요소를 이용하여, 이전 프레임의 잡음 신호와 현재 프레임의 상기 퓨리에 변환 신호의 순환 평균으로 정의되는 현재 프레임의 잡음 신호를 구하기 위한 잡음 추정 처리를 수행하며,
    상기 탐색 신호는 직전 프레임의 탐색 신호와 직전 프레임의 상기 퓨리에 변환 신호 중에서 크기가 작은 신호와 현재 프레임의 상기 퓨리에 변환 신호에 망각 요소를 적용하여 구하는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.
PCT/KR2009/001641 2008-03-31 2009-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체 WO2009123412A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/935,124 US8744845B2 (en) 2008-03-31 2009-03-31 Method for processing noisy speech signal, apparatus for same and computer-readable recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2008-0030016 2008-03-31
KR1020080030016A KR101335417B1 (ko) 2008-03-31 2008-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Publications (1)

Publication Number Publication Date
WO2009123412A1 true WO2009123412A1 (ko) 2009-10-08

Family

ID=41135740

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2009/001641 WO2009123412A1 (ko) 2008-03-31 2009-03-31 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체

Country Status (3)

Country Link
US (1) US8744845B2 (ko)
KR (1) KR101335417B1 (ko)
WO (1) WO2009123412A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101295727B1 (ko) * 2010-11-30 2013-08-16 (주)트란소노 적응적 잡음추정 장치 및 방법
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US20160379661A1 (en) * 2015-06-26 2016-12-29 Intel IP Corporation Noise reduction for electronic devices
CN111970014B (zh) * 2020-08-10 2022-06-14 紫光展锐(重庆)科技有限公司 信号的噪声估计方法及相关产品
CN112634868B (zh) * 2020-12-21 2024-04-05 北京声智科技有限公司 一种语音信号处理方法、装置、介质和设备
CN116962123B (zh) * 2023-09-20 2023-11-24 大尧信息科技(湖南)有限公司 软件定义框架的升余弦成型滤波带宽估计方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6048269A (en) * 1993-01-22 2000-04-11 Mgm Grand, Inc. Coinless slot machine system and method
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
WO2001013364A1 (en) * 1999-08-16 2001-02-22 Wavemakers Research, Inc. Method for enhancement of acoustic signal in noise
WO2001033552A1 (en) * 1999-10-29 2001-05-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and means for a robust feature extraction for speech recognition

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
DE60142800D1 (de) * 2001-03-28 2010-09-23 Mitsubishi Electric Corp Rauschunterdrücker
US7970147B2 (en) 2004-04-07 2011-06-28 Sony Computer Entertainment Inc. Video game controller with noise canceling logic
EP1768108A4 (en) * 2004-06-18 2008-03-19 Matsushita Electric Ind Co Ltd NOISE SUPPRESSION DEVICE AND NOISE SUPPRESSION METHOD
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
PL1897085T3 (pl) * 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6048269A (en) * 1993-01-22 2000-04-11 Mgm Grand, Inc. Coinless slot machine system and method
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
WO2001013364A1 (en) * 1999-08-16 2001-02-22 Wavemakers Research, Inc. Method for enhancement of acoustic signal in noise
WO2001033552A1 (en) * 1999-10-29 2001-05-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and means for a robust feature extraction for speech recognition

Also Published As

Publication number Publication date
US20110029305A1 (en) 2011-02-03
KR101335417B1 (ko) 2013-12-05
KR20090104558A (ko) 2009-10-06
US8744845B2 (en) 2014-06-03

Similar Documents

Publication Publication Date Title
WO2009145449A2 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
WO2009123412A1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
WO2012157931A2 (en) Noise filling and audio decoding
WO2020231230A1 (en) Method and apparatus for performing speech recognition with wake on voice
WO2012036487A2 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
TWI392322B (zh) 基於頻譜聲學特性之雙邊發話檢測方法
US7035398B2 (en) Echo cancellation processing system
WO2013183977A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2018217059A1 (en) Method and electronic device for managing loudness of audio signal
WO2017222356A1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
WO2013058635A2 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2018164304A1 (ko) 잡음 환경의 통화 품질을 개선하는 방법 및 장치
WO2021256652A1 (en) Electronic apparatus and controlling method thereof
WO2020111676A1 (ko) 음성 인식 장치 및 방법
JP3588030B2 (ja) 音声区間判定装置及び音声区間判定方法
WO2019083055A1 (ko) 기계학습을 이용한 오디오 복원 방법 및 장치
WO2016024853A1 (ko) 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
KR20090104557A (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
WO2021225403A1 (en) Electronic device for speech recognition and method of speech recognition using thereof
WO2020226213A1 (ko) 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
WO2022158912A1 (ko) 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
WO2022158913A1 (ko) 병렬 구조의 심화신경망을 이용한 잡음 및 에코 신호 통합 제거 장치
WO2021167318A1 (en) Position detection method, apparatus, electronic device and computer readable storage medium
WO2022158914A1 (ko) 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치
WO2023177095A1 (en) Patched multi-condition training for robust speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09728220

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12935124

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09728220

Country of ref document: EP

Kind code of ref document: A1