KR100744375B1 - Apparatus and method for processing sound signal - Google Patents
Apparatus and method for processing sound signal Download PDFInfo
- Publication number
- KR100744375B1 KR100744375B1 KR1020050119625A KR20050119625A KR100744375B1 KR 100744375 B1 KR100744375 B1 KR 100744375B1 KR 1020050119625 A KR1020050119625 A KR 1020050119625A KR 20050119625 A KR20050119625 A KR 20050119625A KR 100744375 B1 KR100744375 B1 KR 100744375B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- harmonic
- signal
- equation
- frequency domain
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims description 26
- 230000005236 sound signal Effects 0.000 title description 2
- 230000001629 suppression Effects 0.000 claims abstract description 54
- 238000000926 separation method Methods 0.000 claims abstract description 35
- 238000013213 extrapolation Methods 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 14
- 230000003321 amplification Effects 0.000 claims description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 12
- 238000007689 inspection Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Noise Elimination (AREA)
Abstract
본 발명에 따른 음성 처리 장치는 음성 신호를 입력받는 음성 신호 입력부와, 입력된 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와, 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 잡음 억압 지수에 따라 하모닉-잡음 분리부에서 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함한다.The speech processing apparatus according to the present invention comprises a speech signal input unit for receiving a speech signal, a frequency domain converter for converting the input speech signal into the frequency domain, and a harmonic part and a noise part separated from the speech signal converted into the frequency domain. Signal processed by harmonic-noise separation section, noise suppression index determination section that determines the optimum noise suppression index k according to the situation and system, and suppression of the noise parts separated in the harmonic-noise separation section according to the noise suppression index It includes a noise suppressor for outputting.
하모닉, 잡음 Harmonic, noise
Description
도 1은 본 발명의 실시 예에 따른 음성 처리 장치에 대한 블록 구성도를 나타낸 도면,1 is a block diagram illustrating a speech processing apparatus according to an embodiment of the present invention;
도 2는 주파수 도메인 상의 음성 신호를 나타낸 도면,2 is a diagram illustrating a speech signal on a frequency domain;
도 3은 본 발명의 실시예에 따른 음성 처리 방법을 설명한 도면,3 is a view for explaining a voice processing method according to an embodiment of the present invention;
도 4는 본 발명의 실시 예에 따른 음성 처리 장치에서 하모닉-잡음 분리부의 내부 구성도를 나타낸 도면,4 is a diagram illustrating an internal configuration diagram of a harmonic-noise separation unit in a speech processing device according to an embodiment of the present invention;
도 5는 본 발명의 실시 예에 따른 하모닉-잡음 분리 방법을 설명한 도면,5 is a view for explaining a harmonic-noise separation method according to an embodiment of the present invention;
도 6은 본 발명의 실시 예에 따라 분리된 하모닉 구간과 잡음 구간의 신호를 나타낸 도면.6 is a diagram illustrating signals of a harmonic section and a noise section separated according to an embodiment of the present invention.
본 발명은 음성 처리 장치 및 방법에 관한 것이다.The present invention relates to a speech processing device and a method.
모든 음성 신호 처리 분야에서 잡음 처리 문제는 가장 중요하면서도 어려운 문제이다. In all speech signal processing applications, noise processing is the most important and difficult problem.
종래의 잡음 처리 알고리듬은 특정 알고리듬에 따라 정해진 방법으로 알고리듬을 적용한 이후에 잡음 제거 효과를 기대할 뿐 다양한 잡음들과 상황에 따른 유연성과 활용성이 고려되고 있지 않다. 대부분의 기존의 잡음 처리 방법들은 적용 방법과 종류가 다를 뿐 일종의 필터링(filtering) 개념의 알고리듬을 적용하였다. 또한 종래의 잡음 제거 방법들은 여러 가지의 가정에 입각하여 잡음 처리가 가능하며 그러한 가정에 맞지 않는 상황에서는 실패하는 경우가 많았다. 따라서 현실적으로 너무나 많고 다양한 실생활의 잡음에 적용할 수 있는 상품성있는 잡음 제거, 제어 알고리듬은 많지 않다.The conventional noise processing algorithm expects the noise removal effect after applying the algorithm in a predetermined method according to a specific algorithm, and does not consider the flexibility and utilization according to various noises and situations. Most of the existing noise processing methods are different from the application method, and apply a kind of filtering concept. In addition, conventional noise reduction methods can handle noise based on various assumptions, and often fail in situations that do not fit the assumptions. Therefore, there are not so many commercially available noise reduction and control algorithms that can be applied to too many and various real world noises.
따라서 본 발명은 다양한 경우에 따라 잡음을 효율적으로 제거할 수 있는 음성 처리 장치 및 방법을 제공한다.Accordingly, the present invention provides a speech processing apparatus and method capable of efficiently removing noise in various cases.
또한, 본 발명은 음성 신호의 하모닉 구간과 비하모닉 구간을 정확하게 구분하기 위한 음성 처리 장치 및 방법을 제공한다. The present invention also provides a speech processing apparatus and method for accurately distinguishing between harmonic and non-harmonic sections of a speech signal.
이를 위해 본 발명에 따른 음성 처리 장치는 음성 신호를 입력받는 음성 신호 입력부와, 상기 입력된 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와, 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 상기 잡음 억압 지수에 따라 상기 하모닉-잡음 분리부에서 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함한다. To this end, the voice processing apparatus according to the present invention includes a voice signal input unit for receiving a voice signal, a frequency domain converter for converting the input voice signal into a frequency domain, and a harmonic part and noise from the voice signal converted into the frequency domain. A harmonic-noise separation unit for separating the portions, a noise suppression index determination unit for determining an optimal noise suppression index k according to a situation and a system, and a noise portion separated from the harmonic-noise separation unit according to the noise suppression index. And a noise suppression unit for outputting a noise processed signal by suppressing the noise.
또한, 본 발명에 따른 음성 처리 방법은 음성 신호가 입력되면 입력된 음성 신호를 주파수 도메인으로 변환하는 과정과, 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 단계와, 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 단계와, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 단계를 포함함을 특징으로 한다.In addition, the voice processing method according to the present invention comprises the steps of converting the input voice signal into the frequency domain when the voice signal is input, separating the harmonic part and the noise part from the voice signal converted into the frequency domain, the situation And determining an optimal noise suppression index k according to the system, and suppressing the separated noise portion according to the noise suppression index and outputting a noise processed signal.
또한, 본 발명에 따른 음성 신호를 처리하는 장치에 있어서, 음성 신호를 입력받는 음성 신호 입력부와, 상기 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하고, 상기 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함함을 특징으로 한다.In addition, in the apparatus for processing a speech signal according to the present invention, the harmonic is input until the energy difference between the speech signal input unit for receiving the speech signal and the energy difference of two consecutive harmonic components from the input speech signal is less than or equal to a preset threshold value. A harmonic-noise separation section for separating the harmonic portion and the noise portion when the energy difference between the two consecutive harmonic components falls below a predetermined threshold value by repeatedly performing amplification of the portion and attenuation of the noise portion. The noise suppression index determination unit for determining an optimum noise suppression index k according to the noise suppression index, and the noise suppression unit for outputting a noise processed signal by suppressing the separated noise portion in accordance with the noise suppression index.
또한, 본 발명에 따른 음성 처리 방법에 있어서, 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하는 과정과, 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄 수행 후 두개의 연속된 하모닉 컴퍼넌 트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 과정과, 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 과정과, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 과정을 포함함을 특징으로 한다.In addition, in the speech processing method of the present invention, a process of repeatedly performing amplification and attenuation of a noise part of a harmonic part until a time point at which an energy difference between two consecutive harmonic components is equal to or less than a preset threshold value from an input voice signal And separating the harmonic part and the noise part when the energy difference between two consecutive harmonic components after the amplification of the harmonic part and the attenuation of the noise part is less than or equal to a preset threshold value, according to the situation and system. Determining an optimal noise suppression index k, and suppressing the separated noise portion according to the noise suppression index and outputting a noise processed signal.
본 발명은 음성 코딩, 합성, 인식을 포함한 어떠한 음성 신호 처리가 응용되는 시스템에 적용 가능하며, 상황, 신호, 잡음의 종류들에 대한 어떠한 가정도 없이 필요에 따라 유연하게 시스템에 맞는 최적의 잡음 처리가 가능한 새로운 알고리듬을 제시한다.The present invention is applicable to a system in which any speech signal processing including speech coding, synthesis, and recognition is applied, and optimal noise processing is flexibly adapted to the system as needed without any assumptions about situations, signals, and types of noise. Presents a possible new algorithm.
본 발명은 하모닉, 잡음 구간을 분리하고, 잡음 구간에 대하여 잡음 억압을 위한 최적의 변수를 사용하여 잡음을 억압시키기 위한 방법을 제시한다. 이때, 잡음 억압을 위한 최적의 변수는 시스템에 따라 미리 설정하거나 상황에 맞춰서 시스템에서 자동으로 최적의 변수 설정할 수도 있다. 실제 상황에서의 음성 신호는 다양하고 예측가능하지 않은 잡음이 대부분이며, 원하는 화자의 음성이외의 모든 소리는 잡음으로 간주된다. 그러나 기존의 잡음 처리 알고리듬이 가지고 있던 일방적인 처리 방식으로는 그 알고리듬에 맞는 상황이 아닌 경우는 많은 경우 실패하게 된다. 또한 원하는 잡음 처리 정도의 수준을 사용자가 시스템에 맞추어 임의로 결정하여 적용할 수 있는 잡음 처리 알고리듬은 없었으며, 더더욱 그러한 잡음 처리 인자(factor)를 상황에 맞추어 적응적으로(adaptive) 최적화하여 유연하게 사용할 수 있는, 원천기술이 될 수 있는 알고리듬은 존재하지 않는다. 따라서, 본 발명에서는 어떠한 음성 신호 관련 시스템에도 폭넓고 쉽게 적용할 수 있는 유연하고 적 응적인(adaptive) 방법으로, 간단하나 견고하며 또한 새로운 이론적 기반을 바탕으로 사용자가 원하는 최적의 변수를 이용하는 창의적인 접근 방식의 음성 잡음 처리 기술을 제시한다.The present invention proposes a method for separating harmonics and noise sections and suppressing noise using optimal parameters for noise suppression for the noise sections. At this time, the optimal variable for noise suppression may be set in advance according to the system or automatically set by the system in accordance with the situation. In real life voice signals are mostly varied and unpredictable noise, and all sounds other than the intended speaker's voice are considered noise. However, the unilateral processing method of the existing noise processing algorithm fails in many cases when the situation is not suitable for the algorithm. In addition, there is no noise processing algorithm that the user can arbitrarily determine the desired level of noise processing for the system, and moreover, the noise processing factor can be adaptively optimized and flexibly used. There is no algorithm that can be a source technology. Therefore, in the present invention, a flexible, adaptive method that can be widely and easily applied to any voice signal related system, a simple, yet robust, creative approach using the optimal parameters desired by the user based on a new theoretical basis. We present a speech noise processing technique.
그러면, 이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. Then, with reference to the accompanying drawings, preferred embodiments of the present invention will be described in detail. In addition, detailed descriptions of well-known functions and configurations that may unnecessarily obscure the subject matter of the present invention will be omitted.
본 발명은 음성 신호를 하모닉 구간과 잡음 구간으로 분리하고 잡음 구간을 시스템 또는 상황에 적합한 잡음 억압 지수에 따라 억압하는 구성을 개시한다. The present invention discloses a configuration in which a speech signal is divided into a harmonic section and a noise section and the noise section is suppressed according to a noise suppression index suitable for a system or a situation.
도 1은 본 발명의 실시 예에 따른 음성 처리 장치에 대한 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 음성 신호 처리 장치는 음성 신호 입력부(110), 주파수 도메인 변환부(120), 하모닉-잡음 분리부(130), 잡음 억압부(140) 및 최적의 잡음 억압 지수 결정부(150)를 포함한다. 1 is a block diagram illustrating a speech processing apparatus according to an embodiment of the present invention. Referring to FIG. 1, an apparatus for processing a speech signal according to an exemplary embodiment of the present invention may include a speech
음성 신호 입력부(110)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 신호를 입력받는다. 주파수 도메인 변환부(120)는 입력된 음성 신호를 시간 도메인에서 주파수 도메인으로 변환한다. 주파수 도메인 변환부(120)는 FFT(Fast Fourier Transform) 등을 이용하여 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성 신호로 변환한다.The voice
하모닉-잡음 분리부(130)는 주파수 도메인 상의 음성 신호를 하모닉 구간과 잡음 구간으로 분리한다. 하모닉-잡음 분리부(130)는 입력된 음성 신호를 주파수 도메인 변환부(120)에서 선형 예측(liner Prediction) 잔여 (residual) 신호의 일 정 길이 샘플 프레임을 선택하여 소정의 구간의 주파수 변환한 신호가 입력된다. 이와 같은 본 발명에 따라 하모닉 구간과 잡음 구간을 분리하는 하모닉-잡음 분리부(130)에 대해 도 4를 참조하여 상세 구성 및 구성에 따른 동작을 살펴보도록 한다. 본 발명에 따른 하모닉-잡음 분리부(130)는 하모닉 구간 판단부(400)와, 하모닉 외삽부 (harmonic extrapolation)(401), 잡음 판단부(noise Estimation)(402), 잡음 외삽부 (noise extrapolation)(404), 하모닉 판단부(harmonic Estimation)(406)를 포함하는 하모닉-잡음 분리 반복부 (iteration) (407)와, 하모닉-잡음 분리 판단부(408)와 분리된 하모닉-잡음 구간을 추출하는 하모닉-잡음 구간 추출부(409)를 포함할 수 있다.The harmonic-
먼저, 하모닉 구간 판단부(400)는 주파수 도메인 변환부(120)로부터 주파수 도메인으로 변환된 음성신호가 입력되면 켑스트럼 (cepstrum)과 피치(Pitch) 정보를 이용하여 하모닉 구간을 판단한다.First, the harmonic
그러면, 도 2를 참조하여 주파수 도메인 상의 음성 신호를 살펴보도록 한다. 도 2는 주파수 도메인 상의 음성 신호를 나타낸 도면이다. 도 2를 참조하면, 음성 신호는 잡음 구간 B(10)과 하모닉 구간 A(20)으로 분리 가능한다. 종래에는 음성 신호에서의 잡음 정도에 따라 음성 신호로부터 잡음을 필터링하였으므로, 하모닉 구간 A(20)도 억압되므로 음성 신호의 품질에 영향이 미쳤다. 그런데, 본 발명에서는 하모닉 구간을 제외한 잡음 구간에서만 잡음을 억압하도록 한다.Next, the voice signal on the frequency domain will be described with reference to FIG. 2. 2 is a diagram illustrating a voice signal on a frequency domain. Referring to FIG. 2, the speech signal may be separated into a
여기에서 음성 신호를 x(n), 하모닉 부분을 h(n), 잡음 부분을 w(n)이라고 하면 음성 신호는 다음 수학식 1과 같이 표시될 수 있다. Herein, if the voice signal is x (n), the harmonic part is h (n), and the noise part is w (n), the voice signal may be expressed as in Equation 1 below.
한편, 하모닉-잡음 분리 반복부(407)는 하모닉 구간과 잡음 구간을 보간(interpolation) 및 외삽(extrapolation)을 수행하는데, 하모닉 구간과 잡음 구간이 정확하게 구분되는 시점까지 반복하여 하모닉 구간과 잡음 구간을 보간 및 외삽을 수행한다. 이러한 하모닉-잡음 분리 반복부(407)는 하모닉 외삽부(harmonic extrapolation)(401), 잡음 판단부(noise Estimation)(402), 잡음 외삽부(noise extrapolation)(404), 하모닉 판단부(harmonic Estimation)(406)를 포함할 수 있다.On the other hand, the harmonic-
하모닉 외삽부(401)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 이외의 잡음 구간의 주파수 도메인 표현 값들 (ex. DFT 값)을 ‘0’으로 설정한다.The
잡음 판단부(402)는 하모닉 또는 정현파 구간(harmonic or sinusoidal region)들의 현재 하모닉 또는 정현파 샘플(current harmonic or sinusoidal sample)들을 잡음 구간(noise region)으로 외삽법을 행한다.(extrapolate) 초기 잡음 샘플 (initial noise sample)에서 잡음 구간들의 하모닉 샘플을 빼고(subtract), 남은 잡음 샘플 추정치들(residual noise sample estimate)을 하모닉 또는 정현파 구간 (harmonic (or sinusoidal) region)으로 외삽법을 행한다.(extrapolate) The noise determiner 402 extrapolates the current harmonic or sinusoidal samples of the harmonic or sinusoidal regions to the noise region. Subtract the harmonic samples of the noise intervals from the initial noise sample, and extrapolate the residual noise sample estimates into the harmonic or sinusoidal region (harmonic (or sinusoidal) region).
이 때, ‘초기 잡음 샘플 (initial noise sample)’은 잡음 구간(noise region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum) 을 지칭한다.In this case, the 'initial noise sample' refers to the original linear prediction residual spectrum of the noise region.
한편, 잡음 외삽부(404)는 하모닉 구간 (harmonic region)의 주파수 도메인 표현 값들 예를들어, DFT값을 0으로 설정한다.On the other hand, the
하모닉 판단부(406)는 잡음 구간 (noise region)의 현재 잡음 샘플 (current noise sample)들을 하모닉 구간 (harmonic region)으로 외삽법을 행한다. (extrapolate) 이와 같이 하모닉 구간 외삽법을 거친 초기 하모닉 샘플 (initial harmonic sample)에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치 (residual harmonic sample estimate)들을 잡음 구간으로 외삽법을 행한다. (extrapolate)The
이 때, ‘초기 하모닉 샘플 (initial harmonic sample)’은 하모닉 구간 (harmonic region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum)을 지칭한다.At this time, the 'initial harmonic sample' refers to the original linear prediction residual spectrum of the harmonic region.
이와 같이, 하모닉-잡음 분리 반복부(407)를 통해 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키는 동작을 수행한다.As described above, the harmonic signal of the harmonic section is amplified in the frequency domain through the harmonic-
이후, 상기와 같이 입력된 음성신호의 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키면, 하모닉-잡음 분리 판단부(408)는 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 미리 설정된 임계치 이하로 떨어지는지를 판단한다. 또한, , 하모닉-잡음 분리 판단부(408)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너 지 차가 임계치 이하가 될 시점까지 하모닉 외삽부(401), 잡음 판단부(402), 잡음 외삽부(404), 하모닉 판단부(406)를 계속하여 반복함으로써 하모닉 구간을 증폭시키고 잡음 구간은 감쇄시키도록 한다. 또한, 하모닉-잡음 분리 판단부(408)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 되면 하모닉 잡음 구간 추출부(409)에서 상기의 증폭 및 감쇄에 따라 구분되는 하모닉 구간과 잡음 구간을 분리하고 각각의 하모닉 잡음 구간을 다음 단인 잡음 억압부(140)로 제공한다.Subsequently, when the harmonic signal of the harmonic section is amplified in the frequency domain of the input voice signal as described above and the noise signal of the noise section is attenuated, the harmonic-noise
하모닉-잡음 구간 추출부(409)를 통해 분리된 하모닉 구간과 잡음 구간의 음성신호는 주파수 도메인에서 도 6과 같이 도시될 수 있다. 도 6을 참조하면, (a)는 하모닉 구간을 포함하는 하모닉 신호 (harmonic component) 이고, (b)는 잡음 구간을 포함하는 비하모닉 신호 (non-harmonic component)이다. 본 발명의 하모닉-잡음 분리부(130)를 통하면, 도 6의 (a), (b)와 같이 정확하게 분리할 수 있음을 알 수 있다. 이와 같이 음성 신호를 주파수 대역에서 하모닉 부분과 잡음 부분을 분리하는 본 발명의 방법은 코딩, 합성, 인식, 강화 등 모든 음성, 오디오 신호를 사용하는 시스템에서 다양하게 사용될 수 있다.The speech signal of the harmonic section and the noise section separated by the harmonic-
상기와 같은 하모닉-잡음 분리부(130)를 통해 하모닉-잡음 구간이 분리가 되면 잡음 억압부(140)는 음성 처리 장치가 구현되는 시스템이나 그 특성에 따른 잡음 억압지수를 이용하여 잡음 영역의 잡음을 억압시킨다.When the harmonic-noise section is separated by the harmonic-
상기와 같이 잡음 억압부(140)에서 잡음 구간에 대하여 최적의 억압지수를 사용하여 잡음 처리된 신호(noise reduced signal)를 라 할 때 잡음 처리된 신호 는 다음 수학식 2와 같이 표시할 수 있다.As described above, the
여기서, 는 잡음 처리된 신호이고, k는 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음을 최적으로 억압하기 위한 최적 잡음 억압 지수이고, h는 하모닉 부분, w는 잡음 부분이다.Here, k is a noise processed signal, k is an optimum noise suppression index for optimally suppressing noise according to the system in which the speech processing apparatus is implemented and its characteristics, h is a harmonic part, and w is a noise part.
최적의 잡음 억압 지수 결정부(150)는 잡음 억압 지수를 결정한다. 잡음 억압 지수는 잡음을 어느 정도로 업압할 지를 나타낸다. 잡음은 무조건 억압한다고 바람직하지 않는데, 왜냐하면 주파수 도메인 잡음 영역 (non-harmonic component)에도 음성 신호의 성분이 포함되어 있기 때문이다. 따라서, 본 발명은 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음 억압 지수를 결정한다. The optimum noise suppression
즉, 본 발명은 원래 신호 x(n)에서 k(시스템 상에서 원하는 만큼의 noise 억압(reduction) 정도)를 결정한 후 잡음 처리 후의 신호 를 구한다. 이 경우 본 발명은 아래의 두가지 필수적인 법칙(constraint)을 적용한다.That is, the present invention determines the k (degree of noise reduction as desired in the system) from the original signal x (n) and then the signal after noise processing. Obtain In this case, the present invention applies the following two essential constraints.
1. 잡음 처리 전과 후의 신호는 그 에너지가 같다. 1. The signal before and after noise processing has the same energy.
2. 잡음 처리 후의 신호는 잡음 처리 전의 신호와 가깝다.2. The signal after noise processing is close to the signal before noise processing.
첫번째 법칙은 이고, 두번째 법칙은 이다.(여기서β<1, k<1)The first law is And the second law is (Where β <1, k <1)
위의 법칙들을 각 프레임의 음성 신호에 벡터 폼으로 적용시키면 다음 수학 식 3과 같다. If the above rules are applied to the speech signal of each frame in vector form, the following equation (3) is obtained.
따라서 다음 수학식 4와 같이 정리되어 진다.Therefore, the following equation (4) is arranged.
이와 같이, 본 발명에 따라 원하는 만큼의 잡음 억압도에 따라 k(<1)를 입력시키고, 그에 따른 K가 자동적으로 구해지는 것이다. 따라서 잡음 처리 후의 신호 도 자연스럽게 구해진다. 이러한 본 발명은 음성 신호에서 하모닉 부분과 잡음 부분을 분리한 후에 아주 쉽게 적용 가능하며 당업자에 의해 유연하게 적용될 수 있다. 즉, 본 발명은 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 임의로 사용할 수 있으므로 적응적으로 적용 가능하다.Thus, according to the present invention, k (<1) is input according to the desired noise suppression degree, and K accordingly is obtained automatically. Therefore signal after noise processing Also naturally obtained. This invention is very easily applicable after separating the harmonic part and the noise part from the speech signal and can be flexibly applied by those skilled in the art. That is, the present invention can be adaptively applied because the optimum noise suppression index k can be arbitrarily used according to the situation and the system.
따라서, K와 는 다음 수학식 5와 같이 구해질 수 있다. Thus, with K May be obtained as in Equation 5 below.
이와 같이 구해진 잡음 억압 지수에 따라 잡음 억압부(140)에서 음성 신호의 잡음 구간 B(10)를 억압하여 출력한다. 이때, 상기의 하모닉-잡음 분리부(130)를 통해 하모닉 구간과 잡음 구간을 확실시 구분하기 위해 하모닉 영역과 잡음 영역을 따로 나누어서 처리하였으므로, 잡음을 억압한 상태의 음성신호는 하모닉 영역과 억압된 잡음 영역을 포함한 신호를 출력한다. According to the noise suppression index obtained as described above, the
이어서, 도 3을 참조하여 본 발명의 실시예에 따른 음성 처리 방법을 설명한다.Next, a voice processing method according to an embodiment of the present invention will be described with reference to FIG. 3.
도 3을 참조하면, 음성 처리 장치(100)의 음성신호 입력부(110)는 단계 210에서 마이크 등을 통해 음성 신호를 입력 받는다. 이후, 입력된 음성신호를 주파수 도메인 변환부(120)는 220단계에서 FFT(Fast Fourier Transform) 등을 이용하여 상기 입력된 시간 도메인 상의 음성 신호를 주파수 도메인으로 변환한다. 이어서, 하모닉-잡음 분리부(130)는 단계 230에서 주파수 도메인 상의 음성 신호으로부터 하모닉 부분과 잡음 부분을 분리한다. 단계 230에서 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 동작에 대하여는 하기의 도 5를 참조하여 더 구체적으로 살펴보도록 한다. 이후 음성 처리 장치(100)는 최적의 잡음 억압 지수 결정부(150)를 통해 단계 240에서 최적의 잡음 억압 지수를 결정한다. 전술한 바와 같이, 잡음 억압 지수는 잡음을 어느 정도로 업압할 지를 나타낸다. 잡음은 무조건 억압한다고 바람직하지 않는데, 왜냐하면 주파수 도메인 잡음 영역(non-harmonic component)에도 음성 신호의 성분이 포함되어 있기 때문이다. 따라서, 본 발명은 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음 억압 지수를 결정한다. Referring to FIG. 3, the voice
이어서 음성 처리 장치(100)는 단계 250에서 상기의 단계240에서와 같이 구한 최적의 잡음 억압 지수에 따라 음성 신호의 잡음 부분을 잡음 억압하여 잡음을 제거한 음성신호를 얻을 수 있다. Subsequently, the
그러면, 이제 상기 도 3에서 단계 230에서 하모닉-잡음 분리부(130)가 음성신호로부터 하모닉 구간과 잡음 구간을 분리하는 과정에 대하여 도 5를 참조하여 더 구체적인 살펴보도록 한다. 도 5는 본 발명의 실시 예에 따른 하모닉-잡음 분리 방법을 설명한 도면이다.Then, the process in which the harmonic-
단계 500에서 하모닉 구간 판단부(400)는 주파수 도메인 변환부(120)로부터 주파수 도메인으로 변환된 음성신호가 입력되면, 켑스트럼(cepstrum)과 피치(Pitch) 정보를 이용하여 하모닉 구간을 판단한다.In
이후, 단계 502에서 하모닉 외삽부(401)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 이외의 잡음 구간의 주파수 도메인 표현 값들을 ‘0’으로 설정한다. In
단계 502단계에서 단계 504단계로 진행하면, 잡음 판단부(402)가 하모닉 또는 정현파 구간(harmonic (or sinusoidal) region)들의 현재 하모닉 또는 정현파 샘플(current harmonic or sinusoidal sample)들을 잡음 구간(noise region)으로 외삽법을 행한다.(extrapolate)In
이후 506단계에서 잡음 판단부(402)는 잡음 구간 추정을 거친 초기 잡음 샘플(initial noise sample)에서 잡음 구간들의 하모닉 샘플을 빼고(subtract), 남은 잡음 샘플 추정치들(residual noise sample estimate) 을 하모닉 또는 정현파 구간 (harmonic or sinusoidal region)으로 외삽법을 행한다.(extrapolate). In
이 때, ‘초기 잡음 샘플 (initial noise sample)’은 잡음 구간(noise region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum) 을 지칭한다.In this case, the 'initial noise sample' refers to the original linear prediction residual spectrum of the noise region.
즉, 음성 처리 장치(100)는 단계 502 내지 단계 506을 통해 하모닉 구간의 음성신호를 증폭시키는 동작을 수행한다.That is, the
이후, 단계 508에서 잡음 외삽부(404)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 (harmonic region)의 주파수 도메인 표현값 예를들어, DFT 값을 ‘0’ 으로 설정하고, 단계 510에서 하모닉 판단부(406)는 잡음 구간 (noise region)의 현재 잡음 샘플 (current noise sample)들을 하모닉 구간 (harmonic region)으로 외삽(보외)법을 행한다. (extrapolate) 이후, 단계 512에서 하모닉 판단부(406)는 초기 하모닉 샘플 (initial harmonic sample)에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치 (residual harmonic sample estimate)들을 잡음 구간으로 외삽(보외)법을 행한다. (extrapolate). 이 때, ‘초기 하모닉 샘플 (initial harmonic) sample)’은 각각 하모닉 구간(harmonic region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum)을 지칭한다.In
즉, 음성 처리 장치(100)는 단계 508 내지 단계 512를 통해 잡음 구간의 음성 신호를 감쇄시키는 동작을 수행한다.That is, the
이후, 음성 처리 장치(100)은 상기의 단계 502 내지 512를 통해 입력된 음성신호의 하모닉 구간의 음성신호를 증폭시키고, 잡음 구간의 음성신호를 감쇄시킨 후 단계 514로 진행한다.Thereafter, the
단계 514에서 하모닉-잡음 분리 판단부(408)는 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 미리 설정된 임계치 이하로 떨어지는지를 판단한 다.In
만약, 상기 단계 514 판단 결과 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 되면 단계 516로 진행하여 하모닉 잡음 구간 추출부(409)에서 상기의 증폭 및 감쇄에 따라 구분되는 하모닉 구간과 잡음 구간을 분리하고 각각의 하모닉 잡음 구간을 다음 단인 잡음 억압부(140)로 제공한다.If the energy difference between the two consecutive harmonic components is less than or equal to the threshold as a result of the determination in
그러나 상기 단계 514 판단 결과 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치을 초과하면 단계 502로 진행하여 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 될 시점까지 단계 502 내지 512를 계속하여 반복함으로써 하모닉 구간을 증폭시키고 잡음 구간은 감쇄시키도록 한다. However, when the determination result of
본 발명에서 제시하는 알고리듬은 모든 음성 신호 처리 시스템에 적용 가능하며 speech enhancement 기능을 수행하는 음성 신호 처리의 원천 기술이 될 수 있다.The algorithm proposed in the present invention is applicable to all speech signal processing systems and may be a source technology of speech signal processing that performs a speech enhancement function.
예를 들어 음성 코딩, 합성, 인식 알고리듬에서 시스템의 전처리부(Front-End or Pre-processing)에 쉽게 삽입이 가능하며 뒷단의 시스템의 요구사항과 특성(specification)에 따라 원하는 최적의 잡음 억압 지수 k 를 지정하거나 자동으로 최적의 잡음 억암 지수 k 값을 적응적으로(adaptive) 입력하도록 하여, 이에 따른 잡음 처리된 신호(noise reduced signal) 를 각 음성 신호 처리 시스템이 입력 신호로 사용할 수 있다. 특히, 휴대 단말기(mobile phone)과 텔레메틱스(telematics) 등의 시스템과 같이 이동에 따른 다양한 상황의 잡음이 문제가 될 때, 종래의 잡음 처리 방식으로는 예측 불가능한 많은 상황에 맞는 최적의 잡음 처리가 불가능했으나, 본 발명의 방법은 원하는 잡음 처리 정도를 시스템이 결정할 수 있도록 함으로써 이러한 문제점을 해결하였다. 뿐만 아니라, 이 기술은 음성 신호 처리 시스템의 중간에도 쉽게 삽입하여 시스템 효율은 높일 수가 있으며, 음성 처리 시스템의 후처리부(Back-End or Post-processing)에 삽입하면 잡음 제거를 통해 음질을 향상 시킬 수 있다. 이와 같이 알고리듬 자체만이 아니라, 그 적용에 있어서도 매우 유동적(flexible)이며 활용성이 높은 기술이다.For example, in voice coding, synthesis, and recognition algorithms, it can be easily inserted into the front-end or pre-processing system and the desired noise suppression index, k, depending on the requirements and specifications of the back-end system. Or adaptively inputs the optimum noise suppression index k value, thereby reducing the noise reduced signal. Can be used as an input signal by each voice signal processing system. In particular, when noise of various situations due to movement becomes a problem, such as systems such as mobile phones and telematics, it is impossible to optimize noise for many situations that are unpredictable by conventional noise processing methods. However, the method of the present invention solves this problem by allowing the system to determine the desired degree of noise processing. In addition, this technology can be easily inserted in the middle of a voice signal processing system to increase system efficiency. When inserted into the back-end or post-processing part of a voice processing system, the sound quality can be improved by removing noise. have. Thus, not only the algorithm itself, but also its application is very flexible and highly available.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다. In the above description of the present invention, specific embodiments have been described, but various modifications may be made without departing from the scope of the present invention. Therefore, the scope of the present invention should not be defined by the described embodiments, but should be determined by the equivalent of claims and claims.
본 발명은 음성 인식을 포함한 모든 음성 신호 처리 관련 시스템에서 가장 중요하고도 힘든 문제인 잡음 처리를 원하는 만큼의 잡음 감소(noise reduction)의 수준을 사용자의 편의에 맞추어 결정하여, 시스템에 따라 최적의 성능을 구현할 수 있다. The present invention determines the level of noise reduction as much as the user desires for noise processing, which is the most important and difficult problem in all speech signal processing related systems including speech recognition. Can be implemented.
Claims (19)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/479,472 US8073148B2 (en) | 2005-07-11 | 2006-06-30 | Sound processing apparatus and method |
EP06014391A EP1744305B1 (en) | 2005-07-11 | 2006-07-11 | Method and apparatus for noise reduction in sound signals |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050062465 | 2005-07-11 | ||
KR1020050062465 | 2005-07-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070007697A KR20070007697A (en) | 2007-01-16 |
KR100744375B1 true KR100744375B1 (en) | 2007-07-30 |
Family
ID=38010238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050119625A KR100744375B1 (en) | 2005-07-11 | 2005-12-08 | Apparatus and method for processing sound signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100744375B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735343B1 (en) | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | Apparatus and method for extracting pitch information of a speech signal |
KR101444100B1 (en) * | 2007-11-15 | 2014-09-26 | 삼성전자주식회사 | Noise cancelling method and apparatus from the mixed sound |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5228088A (en) * | 1990-05-28 | 1993-07-13 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
US5490231A (en) * | 1990-05-28 | 1996-02-06 | Matsushita Electric Industrial Co., Ltd. | Noise signal prediction system |
US5619565A (en) * | 1993-04-29 | 1997-04-08 | International Business Machines Corporation | Voice activity detection method and apparatus using the same |
KR20000069831A (en) * | 1997-10-31 | 2000-11-25 | 요트.게.아. 롤페즈 | A method and apparatus for audio representation of speech that has been encoded according to the LPC principle, through adding noise to constituent signals therein |
KR20020022257A (en) * | 2000-09-19 | 2002-03-27 | 오길록 | The Harmonic-Noise Speech Coding Algorhthm Using Cepstrum Analysis Method |
WO2002045075A2 (en) | 2000-11-27 | 2002-06-06 | Conexant Systems, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
WO2005045808A1 (en) | 2003-10-30 | 2005-05-19 | Motorola, Inc., A Corporation Of The State Of Delaware | Harmonic noise weighting in digital speech coders |
-
2005
- 2005-12-08 KR KR1020050119625A patent/KR100744375B1/en active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5228088A (en) * | 1990-05-28 | 1993-07-13 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
US5490231A (en) * | 1990-05-28 | 1996-02-06 | Matsushita Electric Industrial Co., Ltd. | Noise signal prediction system |
US5619565A (en) * | 1993-04-29 | 1997-04-08 | International Business Machines Corporation | Voice activity detection method and apparatus using the same |
KR20000069831A (en) * | 1997-10-31 | 2000-11-25 | 요트.게.아. 롤페즈 | A method and apparatus for audio representation of speech that has been encoded according to the LPC principle, through adding noise to constituent signals therein |
KR20020022257A (en) * | 2000-09-19 | 2002-03-27 | 오길록 | The Harmonic-Noise Speech Coding Algorhthm Using Cepstrum Analysis Method |
WO2002045075A2 (en) | 2000-11-27 | 2002-06-06 | Conexant Systems, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
WO2005045808A1 (en) | 2003-10-30 | 2005-05-19 | Motorola, Inc., A Corporation Of The State Of Delaware | Harmonic noise weighting in digital speech coders |
Also Published As
Publication number | Publication date |
---|---|
KR20070007697A (en) | 2007-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1744305B1 (en) | Method and apparatus for noise reduction in sound signals | |
US6023674A (en) | Non-parametric voice activity detection | |
US6097820A (en) | System and method for suppressing noise in digitally represented voice signals | |
EP1801788A1 (en) | Advanced periodic signal enhancement | |
EP2352148B1 (en) | Noise gate, sound collection device, and noise removal method | |
JP2003534570A (en) | How to suppress noise in adaptive beamformers | |
JP5752324B2 (en) | Single channel suppression of impulsive interference in noisy speech signals. | |
WO2016010624A1 (en) | Wind noise reduction for audio reception | |
CN105719657A (en) | Human voice extracting method and device based on microphone | |
US7917359B2 (en) | Noise suppressor for removing irregular noise | |
JP2014513320A (en) | Method and apparatus for attenuating dominant frequencies in an audio signal | |
JP2004341339A (en) | Noise restriction device | |
CN115348507A (en) | Impulse noise suppression method, system, readable storage medium and computer equipment | |
JP2836271B2 (en) | Noise removal device | |
EP2230664B1 (en) | Method and apparatus for attenuating noise in an input signal | |
CN105869652B (en) | Psychoacoustic model calculation method and device | |
KR101557779B1 (en) | Method and apparatus for noise reduction in a communication device having two microphones | |
KR100744375B1 (en) | Apparatus and method for processing sound signal | |
EP2232703B1 (en) | Noise suppression method and apparatus | |
EP1286334A2 (en) | Method and circuit arrangement for reducing noise during voice communication in communications systems | |
KR101173980B1 (en) | System and method for suppressing noise in voice telecommunication | |
JP3310225B2 (en) | Noise level time variation calculation method and apparatus, and noise reduction method and apparatus | |
CN117280414A (en) | Noise reduction based on dynamic neural network | |
JPH113091A (en) | Detection device of aural signal rise | |
KR101741141B1 (en) | Apparatus for suppressing noise and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
FPAY | Annual fee payment |
Payment date: 20130627 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140627 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150629 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170629 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180628 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190627 Year of fee payment: 13 |