KR100744375B1 - Apparatus and method for processing sound signal - Google Patents

Apparatus and method for processing sound signal Download PDF

Info

Publication number
KR100744375B1
KR100744375B1 KR1020050119625A KR20050119625A KR100744375B1 KR 100744375 B1 KR100744375 B1 KR 100744375B1 KR 1020050119625 A KR1020050119625 A KR 1020050119625A KR 20050119625 A KR20050119625 A KR 20050119625A KR 100744375 B1 KR100744375 B1 KR 100744375B1
Authority
KR
South Korea
Prior art keywords
noise
harmonic
signal
equation
frequency domain
Prior art date
Application number
KR1020050119625A
Other languages
Korean (ko)
Other versions
KR20070007697A (en
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US11/479,472 priority Critical patent/US8073148B2/en
Priority to EP06014391A priority patent/EP1744305B1/en
Publication of KR20070007697A publication Critical patent/KR20070007697A/en
Application granted granted Critical
Publication of KR100744375B1 publication Critical patent/KR100744375B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명에 따른 음성 처리 장치는 음성 신호를 입력받는 음성 신호 입력부와, 입력된 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와, 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 잡음 억압 지수에 따라 하모닉-잡음 분리부에서 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함한다.The speech processing apparatus according to the present invention comprises a speech signal input unit for receiving a speech signal, a frequency domain converter for converting the input speech signal into the frequency domain, and a harmonic part and a noise part separated from the speech signal converted into the frequency domain. Signal processed by harmonic-noise separation section, noise suppression index determination section that determines the optimum noise suppression index k according to the situation and system, and suppression of the noise parts separated in the harmonic-noise separation section according to the noise suppression index It includes a noise suppressor for outputting.

하모닉, 잡음 Harmonic, noise

Description

음성 처리 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING SOUND SIGNAL}Speech processing device and method {APPARATUS AND METHOD FOR PROCESSING SOUND SIGNAL}

도 1은 본 발명의 실시 예에 따른 음성 처리 장치에 대한 블록 구성도를 나타낸 도면,1 is a block diagram illustrating a speech processing apparatus according to an embodiment of the present invention;

도 2는 주파수 도메인 상의 음성 신호를 나타낸 도면,2 is a diagram illustrating a speech signal on a frequency domain;

도 3은 본 발명의 실시예에 따른 음성 처리 방법을 설명한 도면,3 is a view for explaining a voice processing method according to an embodiment of the present invention;

도 4는 본 발명의 실시 예에 따른 음성 처리 장치에서 하모닉-잡음 분리부의 내부 구성도를 나타낸 도면,4 is a diagram illustrating an internal configuration diagram of a harmonic-noise separation unit in a speech processing device according to an embodiment of the present invention;

도 5는 본 발명의 실시 예에 따른 하모닉-잡음 분리 방법을 설명한 도면,5 is a view for explaining a harmonic-noise separation method according to an embodiment of the present invention;

도 6은 본 발명의 실시 예에 따라 분리된 하모닉 구간과 잡음 구간의 신호를 나타낸 도면.6 is a diagram illustrating signals of a harmonic section and a noise section separated according to an embodiment of the present invention.

본 발명은 음성 처리 장치 및 방법에 관한 것이다.The present invention relates to a speech processing device and a method.

모든 음성 신호 처리 분야에서 잡음 처리 문제는 가장 중요하면서도 어려운 문제이다. In all speech signal processing applications, noise processing is the most important and difficult problem.

종래의 잡음 처리 알고리듬은 특정 알고리듬에 따라 정해진 방법으로 알고리듬을 적용한 이후에 잡음 제거 효과를 기대할 뿐 다양한 잡음들과 상황에 따른 유연성과 활용성이 고려되고 있지 않다. 대부분의 기존의 잡음 처리 방법들은 적용 방법과 종류가 다를 뿐 일종의 필터링(filtering) 개념의 알고리듬을 적용하였다. 또한 종래의 잡음 제거 방법들은 여러 가지의 가정에 입각하여 잡음 처리가 가능하며 그러한 가정에 맞지 않는 상황에서는 실패하는 경우가 많았다. 따라서 현실적으로 너무나 많고 다양한 실생활의 잡음에 적용할 수 있는 상품성있는 잡음 제거, 제어 알고리듬은 많지 않다.The conventional noise processing algorithm expects the noise removal effect after applying the algorithm in a predetermined method according to a specific algorithm, and does not consider the flexibility and utilization according to various noises and situations. Most of the existing noise processing methods are different from the application method, and apply a kind of filtering concept. In addition, conventional noise reduction methods can handle noise based on various assumptions, and often fail in situations that do not fit the assumptions. Therefore, there are not so many commercially available noise reduction and control algorithms that can be applied to too many and various real world noises.

따라서 본 발명은 다양한 경우에 따라 잡음을 효율적으로 제거할 수 있는 음성 처리 장치 및 방법을 제공한다.Accordingly, the present invention provides a speech processing apparatus and method capable of efficiently removing noise in various cases.

또한, 본 발명은 음성 신호의 하모닉 구간과 비하모닉 구간을 정확하게 구분하기 위한 음성 처리 장치 및 방법을 제공한다. The present invention also provides a speech processing apparatus and method for accurately distinguishing between harmonic and non-harmonic sections of a speech signal.

이를 위해 본 발명에 따른 음성 처리 장치는 음성 신호를 입력받는 음성 신호 입력부와, 상기 입력된 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와, 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 상기 잡음 억압 지수에 따라 상기 하모닉-잡음 분리부에서 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함한다. To this end, the voice processing apparatus according to the present invention includes a voice signal input unit for receiving a voice signal, a frequency domain converter for converting the input voice signal into a frequency domain, and a harmonic part and noise from the voice signal converted into the frequency domain. A harmonic-noise separation unit for separating the portions, a noise suppression index determination unit for determining an optimal noise suppression index k according to a situation and a system, and a noise portion separated from the harmonic-noise separation unit according to the noise suppression index. And a noise suppression unit for outputting a noise processed signal by suppressing the noise.

또한, 본 발명에 따른 음성 처리 방법은 음성 신호가 입력되면 입력된 음성 신호를 주파수 도메인으로 변환하는 과정과, 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 단계와, 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 단계와, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 단계를 포함함을 특징으로 한다.In addition, the voice processing method according to the present invention comprises the steps of converting the input voice signal into the frequency domain when the voice signal is input, separating the harmonic part and the noise part from the voice signal converted into the frequency domain, the situation And determining an optimal noise suppression index k according to the system, and suppressing the separated noise portion according to the noise suppression index and outputting a noise processed signal.

또한, 본 발명에 따른 음성 신호를 처리하는 장치에 있어서, 음성 신호를 입력받는 음성 신호 입력부와, 상기 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하고, 상기 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와, 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함함을 특징으로 한다.In addition, in the apparatus for processing a speech signal according to the present invention, the harmonic is input until the energy difference between the speech signal input unit for receiving the speech signal and the energy difference of two consecutive harmonic components from the input speech signal is less than or equal to a preset threshold value. A harmonic-noise separation section for separating the harmonic portion and the noise portion when the energy difference between the two consecutive harmonic components falls below a predetermined threshold value by repeatedly performing amplification of the portion and attenuation of the noise portion. The noise suppression index determination unit for determining an optimum noise suppression index k according to the noise suppression index, and the noise suppression unit for outputting a noise processed signal by suppressing the separated noise portion in accordance with the noise suppression index.

또한, 본 발명에 따른 음성 처리 방법에 있어서, 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하는 과정과, 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄 수행 후 두개의 연속된 하모닉 컴퍼넌 트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 과정과, 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 과정과, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 과정을 포함함을 특징으로 한다.In addition, in the speech processing method of the present invention, a process of repeatedly performing amplification and attenuation of a noise part of a harmonic part until a time point at which an energy difference between two consecutive harmonic components is equal to or less than a preset threshold value from an input voice signal And separating the harmonic part and the noise part when the energy difference between two consecutive harmonic components after the amplification of the harmonic part and the attenuation of the noise part is less than or equal to a preset threshold value, according to the situation and system. Determining an optimal noise suppression index k, and suppressing the separated noise portion according to the noise suppression index and outputting a noise processed signal.

본 발명은 음성 코딩, 합성, 인식을 포함한 어떠한 음성 신호 처리가 응용되는 시스템에 적용 가능하며, 상황, 신호, 잡음의 종류들에 대한 어떠한 가정도 없이 필요에 따라 유연하게 시스템에 맞는 최적의 잡음 처리가 가능한 새로운 알고리듬을 제시한다.The present invention is applicable to a system in which any speech signal processing including speech coding, synthesis, and recognition is applied, and optimal noise processing is flexibly adapted to the system as needed without any assumptions about situations, signals, and types of noise. Presents a possible new algorithm.

본 발명은 하모닉, 잡음 구간을 분리하고, 잡음 구간에 대하여 잡음 억압을 위한 최적의 변수를 사용하여 잡음을 억압시키기 위한 방법을 제시한다. 이때, 잡음 억압을 위한 최적의 변수는 시스템에 따라 미리 설정하거나 상황에 맞춰서 시스템에서 자동으로 최적의 변수 설정할 수도 있다. 실제 상황에서의 음성 신호는 다양하고 예측가능하지 않은 잡음이 대부분이며, 원하는 화자의 음성이외의 모든 소리는 잡음으로 간주된다. 그러나 기존의 잡음 처리 알고리듬이 가지고 있던 일방적인 처리 방식으로는 그 알고리듬에 맞는 상황이 아닌 경우는 많은 경우 실패하게 된다. 또한 원하는 잡음 처리 정도의 수준을 사용자가 시스템에 맞추어 임의로 결정하여 적용할 수 있는 잡음 처리 알고리듬은 없었으며, 더더욱 그러한 잡음 처리 인자(factor)를 상황에 맞추어 적응적으로(adaptive) 최적화하여 유연하게 사용할 수 있는, 원천기술이 될 수 있는 알고리듬은 존재하지 않는다. 따라서, 본 발명에서는 어떠한 음성 신호 관련 시스템에도 폭넓고 쉽게 적용할 수 있는 유연하고 적 응적인(adaptive) 방법으로, 간단하나 견고하며 또한 새로운 이론적 기반을 바탕으로 사용자가 원하는 최적의 변수를 이용하는 창의적인 접근 방식의 음성 잡음 처리 기술을 제시한다.The present invention proposes a method for separating harmonics and noise sections and suppressing noise using optimal parameters for noise suppression for the noise sections. At this time, the optimal variable for noise suppression may be set in advance according to the system or automatically set by the system in accordance with the situation. In real life voice signals are mostly varied and unpredictable noise, and all sounds other than the intended speaker's voice are considered noise. However, the unilateral processing method of the existing noise processing algorithm fails in many cases when the situation is not suitable for the algorithm. In addition, there is no noise processing algorithm that the user can arbitrarily determine the desired level of noise processing for the system, and moreover, the noise processing factor can be adaptively optimized and flexibly used. There is no algorithm that can be a source technology. Therefore, in the present invention, a flexible, adaptive method that can be widely and easily applied to any voice signal related system, a simple, yet robust, creative approach using the optimal parameters desired by the user based on a new theoretical basis. We present a speech noise processing technique.

그러면, 이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. Then, with reference to the accompanying drawings, preferred embodiments of the present invention will be described in detail. In addition, detailed descriptions of well-known functions and configurations that may unnecessarily obscure the subject matter of the present invention will be omitted.

본 발명은 음성 신호를 하모닉 구간과 잡음 구간으로 분리하고 잡음 구간을 시스템 또는 상황에 적합한 잡음 억압 지수에 따라 억압하는 구성을 개시한다. The present invention discloses a configuration in which a speech signal is divided into a harmonic section and a noise section and the noise section is suppressed according to a noise suppression index suitable for a system or a situation.

도 1은 본 발명의 실시 예에 따른 음성 처리 장치에 대한 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 음성 신호 처리 장치는 음성 신호 입력부(110), 주파수 도메인 변환부(120), 하모닉-잡음 분리부(130), 잡음 억압부(140) 및 최적의 잡음 억압 지수 결정부(150)를 포함한다. 1 is a block diagram illustrating a speech processing apparatus according to an embodiment of the present invention. Referring to FIG. 1, an apparatus for processing a speech signal according to an exemplary embodiment of the present invention may include a speech signal input unit 110, a frequency domain converter 120, a harmonic-noise separator 130, a noise suppressor 140, and an optimum. Noise suppression index determination unit 150 of FIG.

음성 신호 입력부(110)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 신호를 입력받는다. 주파수 도메인 변환부(120)는 입력된 음성 신호를 시간 도메인에서 주파수 도메인으로 변환한다. 주파수 도메인 변환부(120)는 FFT(Fast Fourier Transform) 등을 이용하여 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성 신호로 변환한다.The voice signal input unit 110 may be configured as a microphone (MIC) and receives a voice signal. The frequency domain converter 120 converts the input voice signal from the time domain to the frequency domain. The frequency domain transformer 120 converts a voice signal in the time domain into a voice signal in the frequency domain by using a fast fourier transform (FFT).

하모닉-잡음 분리부(130)는 주파수 도메인 상의 음성 신호를 하모닉 구간과 잡음 구간으로 분리한다. 하모닉-잡음 분리부(130)는 입력된 음성 신호를 주파수 도메인 변환부(120)에서 선형 예측(liner Prediction) 잔여 (residual) 신호의 일 정 길이 샘플 프레임을 선택하여 소정의 구간의 주파수 변환한 신호가 입력된다. 이와 같은 본 발명에 따라 하모닉 구간과 잡음 구간을 분리하는 하모닉-잡음 분리부(130)에 대해 도 4를 참조하여 상세 구성 및 구성에 따른 동작을 살펴보도록 한다. 본 발명에 따른 하모닉-잡음 분리부(130)는 하모닉 구간 판단부(400)와, 하모닉 외삽부 (harmonic extrapolation)(401), 잡음 판단부(noise Estimation)(402), 잡음 외삽부 (noise extrapolation)(404), 하모닉 판단부(harmonic Estimation)(406)를 포함하는 하모닉-잡음 분리 반복부 (iteration) (407)와, 하모닉-잡음 분리 판단부(408)와 분리된 하모닉-잡음 구간을 추출하는 하모닉-잡음 구간 추출부(409)를 포함할 수 있다.The harmonic-noise separator 130 separates the speech signal on the frequency domain into a harmonic section and a noise section. The harmonic-noise separation unit 130 selects a predetermined length sample frame of a linear prediction residual signal from the frequency domain converter 120 and converts the input speech signal into a frequency range of a predetermined section. Is input. Referring to FIG. 4, the operation according to the detailed configuration and configuration will be described with reference to FIG. 4 for the harmonic-noise separation unit 130 for separating the harmonic section and the noise section according to the present invention. The harmonic-noise separation unit 130 according to the present invention includes a harmonic section determination unit 400, a harmonic extrapolation unit 401, a noise estimation unit 402, and a noise extrapolation unit. 404, a harmonic-noise separation iteration 407 including a harmonic estimation unit 406, and a harmonic-noise section separated from the harmonic-noise separation determination unit 408 A harmonic-noise interval extractor 409 may be included.

먼저, 하모닉 구간 판단부(400)는 주파수 도메인 변환부(120)로부터 주파수 도메인으로 변환된 음성신호가 입력되면 켑스트럼 (cepstrum)과 피치(Pitch) 정보를 이용하여 하모닉 구간을 판단한다.First, the harmonic section determination unit 400 determines a harmonic section using cepstrum and pitch information when a voice signal converted into the frequency domain is input from the frequency domain converter 120.

그러면, 도 2를 참조하여 주파수 도메인 상의 음성 신호를 살펴보도록 한다. 도 2는 주파수 도메인 상의 음성 신호를 나타낸 도면이다. 도 2를 참조하면, 음성 신호는 잡음 구간 B(10)과 하모닉 구간 A(20)으로 분리 가능한다. 종래에는 음성 신호에서의 잡음 정도에 따라 음성 신호로부터 잡음을 필터링하였으므로, 하모닉 구간 A(20)도 억압되므로 음성 신호의 품질에 영향이 미쳤다. 그런데, 본 발명에서는 하모닉 구간을 제외한 잡음 구간에서만 잡음을 억압하도록 한다.Next, the voice signal on the frequency domain will be described with reference to FIG. 2. 2 is a diagram illustrating a voice signal on a frequency domain. Referring to FIG. 2, the speech signal may be separated into a noise section B 10 and a harmonic section A 20. Conventionally, since the noise is filtered from the speech signal according to the noise level in the speech signal, the harmonic section A 20 is also suppressed, thereby affecting the quality of the speech signal. However, in the present invention, the noise is suppressed only in the noise section except the harmonic section.

여기에서 음성 신호를 x(n), 하모닉 부분을 h(n), 잡음 부분을 w(n)이라고 하면 음성 신호는 다음 수학식 1과 같이 표시될 수 있다. Herein, if the voice signal is x (n), the harmonic part is h (n), and the noise part is w (n), the voice signal may be expressed as in Equation 1 below.

Figure 112005071804515-pat00001
Figure 112005071804515-pat00001

한편, 하모닉-잡음 분리 반복부(407)는 하모닉 구간과 잡음 구간을 보간(interpolation) 및 외삽(extrapolation)을 수행하는데, 하모닉 구간과 잡음 구간이 정확하게 구분되는 시점까지 반복하여 하모닉 구간과 잡음 구간을 보간 및 외삽을 수행한다. 이러한 하모닉-잡음 분리 반복부(407)는 하모닉 외삽부(harmonic extrapolation)(401), 잡음 판단부(noise Estimation)(402), 잡음 외삽부(noise extrapolation)(404), 하모닉 판단부(harmonic Estimation)(406)를 포함할 수 있다.On the other hand, the harmonic-noise separation repeater 407 performs interpolation and extrapolation between the harmonic section and the noise section. The harmonic section and the noise section are repeated until the harmonic section and the noise section are correctly separated. Perform interpolation and extrapolation. The harmonic-noise separation repeater 407 includes a harmonic extrapolation 401, a noise estimator 402, a noise extrapolation 404, and a harmonic estimator. (406).

하모닉 외삽부(401)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 이외의 잡음 구간의 주파수 도메인 표현 값들 (ex. DFT 값)을 ‘0’으로 설정한다.The harmonic extrapolator 401 sets frequency domain expression values (eg, DFT values) of noise sections other than the harmonic section determined by the harmonic section determination unit 400 to '0'.

잡음 판단부(402)는 하모닉 또는 정현파 구간(harmonic or sinusoidal region)들의 현재 하모닉 또는 정현파 샘플(current harmonic or sinusoidal sample)들을 잡음 구간(noise region)으로 외삽법을 행한다.(extrapolate) 초기 잡음 샘플 (initial noise sample)에서 잡음 구간들의 하모닉 샘플을 빼고(subtract), 남은 잡음 샘플 추정치들(residual noise sample estimate)을 하모닉 또는 정현파 구간 (harmonic (or sinusoidal) region)으로 외삽법을 행한다.(extrapolate) The noise determiner 402 extrapolates the current harmonic or sinusoidal samples of the harmonic or sinusoidal regions to the noise region. Subtract the harmonic samples of the noise intervals from the initial noise sample, and extrapolate the residual noise sample estimates into the harmonic or sinusoidal region (harmonic (or sinusoidal) region).

이 때, ‘초기 잡음 샘플 (initial noise sample)’은 잡음 구간(noise region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum) 을 지칭한다.In this case, the 'initial noise sample' refers to the original linear prediction residual spectrum of the noise region.

한편, 잡음 외삽부(404)는 하모닉 구간 (harmonic region)의 주파수 도메인 표현 값들 예를들어, DFT값을 0으로 설정한다.On the other hand, the noise extrapolation unit 404 sets the DFT value to 0, for example, frequency domain representation values of the harmonic region.

하모닉 판단부(406)는 잡음 구간 (noise region)의 현재 잡음 샘플 (current noise sample)들을 하모닉 구간 (harmonic region)으로 외삽법을 행한다. (extrapolate) 이와 같이 하모닉 구간 외삽법을 거친 초기 하모닉 샘플 (initial harmonic sample)에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치 (residual harmonic sample estimate)들을 잡음 구간으로 외삽법을 행한다. (extrapolate)The harmonic determination unit 406 extrapolates the current noise samples of the noise region to the harmonic region. (extrapolate) The noise samples of the harmonic intervals are subtracted from the initial harmonic sample that has undergone the harmonic interval extrapolation, and the residual harmonic sample estimates are extrapolated to the noise interval. (extrapolate)

이 때, ‘초기 하모닉 샘플 (initial harmonic sample)’은 하모닉 구간 (harmonic region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum)을 지칭한다.At this time, the 'initial harmonic sample' refers to the original linear prediction residual spectrum of the harmonic region.

이와 같이, 하모닉-잡음 분리 반복부(407)를 통해 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키는 동작을 수행한다.As described above, the harmonic signal of the harmonic section is amplified in the frequency domain through the harmonic-noise separation repeater 407 and attenuates the noise signal of the noise section.

이후, 상기와 같이 입력된 음성신호의 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키면, 하모닉-잡음 분리 판단부(408)는 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 미리 설정된 임계치 이하로 떨어지는지를 판단한다. 또한, , 하모닉-잡음 분리 판단부(408)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너 지 차가 임계치 이하가 될 시점까지 하모닉 외삽부(401), 잡음 판단부(402), 잡음 외삽부(404), 하모닉 판단부(406)를 계속하여 반복함으로써 하모닉 구간을 증폭시키고 잡음 구간은 감쇄시키도록 한다. 또한, 하모닉-잡음 분리 판단부(408)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 되면 하모닉 잡음 구간 추출부(409)에서 상기의 증폭 및 감쇄에 따라 구분되는 하모닉 구간과 잡음 구간을 분리하고 각각의 하모닉 잡음 구간을 다음 단인 잡음 억압부(140)로 제공한다.Subsequently, when the harmonic signal of the harmonic section is amplified in the frequency domain of the input voice signal as described above and the noise signal of the noise section is attenuated, the harmonic-noise separation determination unit 408 performs two consecutive harmonic components. It is determined whether the energy difference of these drops below a preset threshold. Also, the harmonic-noise separation determination unit 408 may use the harmonic extrapolation unit 401 and the noise determination unit 402 until the determination result of the energy difference between two consecutive harmonic components becomes less than or equal to a threshold. By repeating the noise extrapolation unit 404 and the harmonic determination unit 406, the harmonic section is amplified and the noise section is attenuated. In addition, the harmonic-noise separation determination unit 408 classifies the harmonic noise section extraction unit 409 according to the amplification and attenuation when the energy difference between two consecutive harmonic components is equal to or less than a threshold. The harmonic section and the noise section are separated, and each harmonic noise section is provided to a next noise suppressor 140.

하모닉-잡음 구간 추출부(409)를 통해 분리된 하모닉 구간과 잡음 구간의 음성신호는 주파수 도메인에서 도 6과 같이 도시될 수 있다. 도 6을 참조하면, (a)는 하모닉 구간을 포함하는 하모닉 신호 (harmonic component) 이고, (b)는 잡음 구간을 포함하는 비하모닉 신호 (non-harmonic component)이다. 본 발명의 하모닉-잡음 분리부(130)를 통하면, 도 6의 (a), (b)와 같이 정확하게 분리할 수 있음을 알 수 있다. 이와 같이 음성 신호를 주파수 대역에서 하모닉 부분과 잡음 부분을 분리하는 본 발명의 방법은 코딩, 합성, 인식, 강화 등 모든 음성, 오디오 신호를 사용하는 시스템에서 다양하게 사용될 수 있다.The speech signal of the harmonic section and the noise section separated by the harmonic-noise section extractor 409 may be illustrated in FIG. 6 in the frequency domain. Referring to FIG. 6, (a) is a harmonic signal including a harmonic period, and (b) is a non-harmonic component including a noise period. Through the harmonic-noise separation unit 130 of the present invention, it can be seen that as shown in Figure 6 (a), (b) can be separated accurately. As described above, the method of separating the harmonic part and the noise part in the frequency band may be variously used in a system using all voice and audio signals such as coding, synthesis, recognition, and enhancement.

상기와 같은 하모닉-잡음 분리부(130)를 통해 하모닉-잡음 구간이 분리가 되면 잡음 억압부(140)는 음성 처리 장치가 구현되는 시스템이나 그 특성에 따른 잡음 억압지수를 이용하여 잡음 영역의 잡음을 억압시킨다.When the harmonic-noise section is separated by the harmonic-noise separation unit 130 as described above, the noise suppression unit 140 uses a system for implementing a speech processing device or a noise suppression index according to the characteristics of the noise region. Repress

상기와 같이 잡음 억압부(140)에서 잡음 구간에 대하여 최적의 억압지수를 사용하여 잡음 처리된 신호(noise reduced signal)를

Figure 112005071804515-pat00002
라 할 때 잡음 처리된 신호 는 다음 수학식 2와 같이 표시할 수 있다.As described above, the noise suppression unit 140 generates a noise reduced signal using an optimal suppression index for the noise section.
Figure 112005071804515-pat00002
In this case, the noise processed signal may be expressed as Equation 2 below.

Figure 112005071804515-pat00003
Figure 112005071804515-pat00003

여기서, 는 잡음 처리된 신호이고, k는 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음을 최적으로 억압하기 위한 최적 잡음 억압 지수이고, h는 하모닉 부분, w는 잡음 부분이다.Here, k is a noise processed signal, k is an optimum noise suppression index for optimally suppressing noise according to the system in which the speech processing apparatus is implemented and its characteristics, h is a harmonic part, and w is a noise part.

최적의 잡음 억압 지수 결정부(150)는 잡음 억압 지수를 결정한다. 잡음 억압 지수는 잡음을 어느 정도로 업압할 지를 나타낸다. 잡음은 무조건 억압한다고 바람직하지 않는데, 왜냐하면 주파수 도메인 잡음 영역 (non-harmonic component)에도 음성 신호의 성분이 포함되어 있기 때문이다. 따라서, 본 발명은 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음 억압 지수를 결정한다. The optimum noise suppression index determination unit 150 determines the noise suppression index. The noise suppression index indicates how much noise is to be suppressed. Noise is undesirably suppressed because the frequency domain non-harmonic component also contains components of the speech signal. Accordingly, the present invention determines the noise suppression index according to the system in which the speech processing device is implemented or its characteristics.

즉, 본 발명은 원래 신호 x(n)에서 k(시스템 상에서 원하는 만큼의 noise 억압(reduction) 정도)를 결정한 후 잡음 처리 후의 신호

Figure 112005071804515-pat00004
를 구한다. 이 경우 본 발명은 아래의 두가지 필수적인 법칙(constraint)을 적용한다.That is, the present invention determines the k (degree of noise reduction as desired in the system) from the original signal x (n) and then the signal after noise processing.
Figure 112005071804515-pat00004
Obtain In this case, the present invention applies the following two essential constraints.

1. 잡음 처리 전과 후의 신호는 그 에너지가 같다. 1. The signal before and after noise processing has the same energy.

2. 잡음 처리 후의 신호는 잡음 처리 전의 신호와 가깝다.2. The signal after noise processing is close to the signal before noise processing.

첫번째 법칙은

Figure 112005071804515-pat00005
이고, 두번째 법칙은
Figure 112005071804515-pat00006
이다.(여기서β<1, k<1)The first law is
Figure 112005071804515-pat00005
And the second law is
Figure 112005071804515-pat00006
(Where β <1, k <1)

위의 법칙들을 각 프레임의 음성 신호에 벡터 폼으로 적용시키면 다음 수학 식 3과 같다. If the above rules are applied to the speech signal of each frame in vector form, the following equation (3) is obtained.

Figure 112005071804515-pat00007
Figure 112005071804515-pat00008
,
Figure 112005071804515-pat00007
Figure 112005071804515-pat00008
,

따라서 다음 수학식 4와 같이 정리되어 진다.Therefore, the following equation (4) is arranged.

Figure 112005071804515-pat00009
Figure 112005071804515-pat00009

이와 같이, 본 발명에 따라 원하는 만큼의 잡음 억압도에 따라 k(<1)를 입력시키고, 그에 따른 K가 자동적으로 구해지는 것이다. 따라서 잡음 처리 후의 신호

Figure 112005071804515-pat00010
도 자연스럽게 구해진다. 이러한 본 발명은 음성 신호에서 하모닉 부분과 잡음 부분을 분리한 후에 아주 쉽게 적용 가능하며 당업자에 의해 유연하게 적용될 수 있다. 즉, 본 발명은 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 임의로 사용할 수 있으므로 적응적으로 적용 가능하다.Thus, according to the present invention, k (<1) is input according to the desired noise suppression degree, and K accordingly is obtained automatically. Therefore signal after noise processing
Figure 112005071804515-pat00010
Also naturally obtained. This invention is very easily applicable after separating the harmonic part and the noise part from the speech signal and can be flexibly applied by those skilled in the art. That is, the present invention can be adaptively applied because the optimum noise suppression index k can be arbitrarily used according to the situation and the system.

따라서, K와

Figure 112005071804515-pat00011
는 다음 수학식 5와 같이 구해질 수 있다. Thus, with K
Figure 112005071804515-pat00011
May be obtained as in Equation 5 below.

Figure 112005071804515-pat00012
Figure 112005071804515-pat00012

이와 같이 구해진 잡음 억압 지수에 따라 잡음 억압부(140)에서 음성 신호의 잡음 구간 B(10)를 억압하여 출력한다. 이때, 상기의 하모닉-잡음 분리부(130)를 통해 하모닉 구간과 잡음 구간을 확실시 구분하기 위해 하모닉 영역과 잡음 영역을 따로 나누어서 처리하였으므로, 잡음을 억압한 상태의 음성신호는 하모닉 영역과 억압된 잡음 영역을 포함한 신호를 출력한다. According to the noise suppression index obtained as described above, the noise suppression unit 140 suppresses and outputs the noise section B 10 of the speech signal. At this time, since the harmonic region and the noise region are processed separately by the harmonic-noise separation unit 130, the harmonic region and the noise region are processed separately, so that the speech signal in the state of suppressing the noise is the harmonic region and the suppressed noise. Outputs the signal including the area.

이어서, 도 3을 참조하여 본 발명의 실시예에 따른 음성 처리 방법을 설명한다.Next, a voice processing method according to an embodiment of the present invention will be described with reference to FIG. 3.

도 3을 참조하면, 음성 처리 장치(100)의 음성신호 입력부(110)는 단계 210에서 마이크 등을 통해 음성 신호를 입력 받는다. 이후, 입력된 음성신호를 주파수 도메인 변환부(120)는 220단계에서 FFT(Fast Fourier Transform) 등을 이용하여 상기 입력된 시간 도메인 상의 음성 신호를 주파수 도메인으로 변환한다. 이어서, 하모닉-잡음 분리부(130)는 단계 230에서 주파수 도메인 상의 음성 신호으로부터 하모닉 부분과 잡음 부분을 분리한다. 단계 230에서 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 동작에 대하여는 하기의 도 5를 참조하여 더 구체적으로 살펴보도록 한다. 이후 음성 처리 장치(100)는 최적의 잡음 억압 지수 결정부(150)를 통해 단계 240에서 최적의 잡음 억압 지수를 결정한다. 전술한 바와 같이, 잡음 억압 지수는 잡음을 어느 정도로 업압할 지를 나타낸다. 잡음은 무조건 억압한다고 바람직하지 않는데, 왜냐하면 주파수 도메인 잡음 영역(non-harmonic component)에도 음성 신호의 성분이 포함되어 있기 때문이다. 따라서, 본 발명은 음성 처리 장치가 구현되는 시스템이나 그 특성에 따라 잡음 억압 지수를 결정한다. Referring to FIG. 3, the voice signal input unit 110 of the voice processing apparatus 100 receives a voice signal through a microphone in step 210. In operation 220, the frequency domain transform unit 120 converts the input voice signal into the frequency domain using the fast fourier transform (FFT). The harmonic-noise separation unit 130 then separates the harmonic and noise portions from the speech signal on the frequency domain in step 230. An operation of separating the harmonic part and the noise part from the voice signal in step 230 will be described in more detail with reference to FIG. 5 below. Thereafter, the speech processing apparatus 100 determines the optimum noise suppression index in operation 240 through the optimal noise suppression index determination unit 150. As mentioned above, the noise suppression index indicates how much noise is to be suppressed. Noise is undesirably suppressed because the frequency domain non-harmonic component also contains components of the speech signal. Accordingly, the present invention determines the noise suppression index according to the system in which the speech processing device is implemented or its characteristics.

이어서 음성 처리 장치(100)는 단계 250에서 상기의 단계240에서와 같이 구한 최적의 잡음 억압 지수에 따라 음성 신호의 잡음 부분을 잡음 억압하여 잡음을 제거한 음성신호를 얻을 수 있다. Subsequently, the speech processing apparatus 100 may obtain the speech signal from which the noise is removed by noise suppressing the noise portion of the speech signal according to the optimal noise suppression index obtained in operation 250 in operation 250.

그러면, 이제 상기 도 3에서 단계 230에서 하모닉-잡음 분리부(130)가 음성신호로부터 하모닉 구간과 잡음 구간을 분리하는 과정에 대하여 도 5를 참조하여 더 구체적인 살펴보도록 한다. 도 5는 본 발명의 실시 예에 따른 하모닉-잡음 분리 방법을 설명한 도면이다.Then, the process in which the harmonic-noise separation unit 130 separates the harmonic section and the noise section from the speech signal in step 230 of FIG. 3 will be described in more detail with reference to FIG. 5. 5 illustrates a harmonic-noise separation method according to an embodiment of the present invention.

단계 500에서 하모닉 구간 판단부(400)는 주파수 도메인 변환부(120)로부터 주파수 도메인으로 변환된 음성신호가 입력되면, 켑스트럼(cepstrum)과 피치(Pitch) 정보를 이용하여 하모닉 구간을 판단한다.In operation 500, when the voice signal converted into the frequency domain is input from the frequency domain converter 120, the harmonic section determination unit 400 determines a harmonic section using cepstrum and pitch information. .

이후, 단계 502에서 하모닉 외삽부(401)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 이외의 잡음 구간의 주파수 도메인 표현 값들을 ‘0’으로 설정한다. In operation 502, the harmonic extrapolation unit 401 sets the frequency domain expression values of noise sections other than the harmonic section determined by the harmonic section determination unit 400 to '0'.

단계 502단계에서 단계 504단계로 진행하면, 잡음 판단부(402)가 하모닉 또는 정현파 구간(harmonic (or sinusoidal) region)들의 현재 하모닉 또는 정현파 샘플(current harmonic or sinusoidal sample)들을 잡음 구간(noise region)으로 외삽법을 행한다.(extrapolate)In operation 502, the noise determination unit 402 may generate current harmonic or sinusoidal samples of the harmonic or sinusoidal regions. Extrapolate with (extrapolate)

이후 506단계에서 잡음 판단부(402)는 잡음 구간 추정을 거친 초기 잡음 샘플(initial noise sample)에서 잡음 구간들의 하모닉 샘플을 빼고(subtract), 남은 잡음 샘플 추정치들(residual noise sample estimate) 을 하모닉 또는 정현파 구간 (harmonic or sinusoidal region)으로 외삽법을 행한다.(extrapolate). In operation 506, the noise determiner 402 subtracts the harmonic samples of the noise intervals from the initial noise sample that has undergone the noise interval estimation, and performs a harmonic or a residual noise sample estimate. Extrapolate to the sine wave region (harmonic or sinusoidal region) (extrapolate).

이 때, ‘초기 잡음 샘플 (initial noise sample)’은 잡음 구간(noise region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum) 을 지칭한다.In this case, the 'initial noise sample' refers to the original linear prediction residual spectrum of the noise region.

즉, 음성 처리 장치(100)는 단계 502 내지 단계 506을 통해 하모닉 구간의 음성신호를 증폭시키는 동작을 수행한다.That is, the voice processing apparatus 100 performs an operation of amplifying the voice signal of the harmonic section through steps 502 to 506.

이후, 단계 508에서 잡음 외삽부(404)는 하모닉 구간 판단부(400)로부터 판단된 하모닉 구간 (harmonic region)의 주파수 도메인 표현값 예를들어, DFT 값을 ‘0’ 으로 설정하고, 단계 510에서 하모닉 판단부(406)는 잡음 구간 (noise region)의 현재 잡음 샘플 (current noise sample)들을 하모닉 구간 (harmonic region)으로 외삽(보외)법을 행한다. (extrapolate) 이후, 단계 512에서 하모닉 판단부(406)는 초기 하모닉 샘플 (initial harmonic sample)에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치 (residual harmonic sample estimate)들을 잡음 구간으로 외삽(보외)법을 행한다. (extrapolate). 이 때, ‘초기 하모닉 샘플 (initial harmonic) sample)’은 각각 하모닉 구간(harmonic region)의 원래 선형 예측 잔여 스펙트럼 (Linear Prediction residual spectrum)을 지칭한다.In operation 508, the noise extrapolator 404 sets a frequency domain representation value of the harmonic region determined by the harmonic interval determination unit 400, for example, sets a DFT value to '0', and then, in operation 510. The harmonic determination unit 406 extrapolates the current noise samples of the noise region to the harmonic region. After extrapolate, the harmonic determination unit 406 subtracts the noise samples of the harmonic intervals from the initial harmonic sample in step 512, and extrapolates the remaining harmonic sample estimates to the noise interval. Do the law. (extrapolate). In this case, the 'initial harmonic sample' refers to the original linear prediction residual spectrum of each harmonic region.

즉, 음성 처리 장치(100)는 단계 508 내지 단계 512를 통해 잡음 구간의 음성 신호를 감쇄시키는 동작을 수행한다.That is, the voice processing apparatus 100 performs an operation of attenuating the voice signal in the noise section through steps 508 to 512.

이후, 음성 처리 장치(100)은 상기의 단계 502 내지 512를 통해 입력된 음성신호의 하모닉 구간의 음성신호를 증폭시키고, 잡음 구간의 음성신호를 감쇄시킨 후 단계 514로 진행한다.Thereafter, the speech processing apparatus 100 amplifies the speech signal in the harmonic section of the speech signal input through the above steps 502 to 512, attenuates the speech signal in the noise section, and proceeds to step 514.

단계 514에서 하모닉-잡음 분리 판단부(408)는 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 미리 설정된 임계치 이하로 떨어지는지를 판단한 다.In operation 514, the harmonic-noise separation determination unit 408 determines whether an energy difference between two consecutive harmonic components falls below a preset threshold.

만약, 상기 단계 514 판단 결과 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 되면 단계 516로 진행하여 하모닉 잡음 구간 추출부(409)에서 상기의 증폭 및 감쇄에 따라 구분되는 하모닉 구간과 잡음 구간을 분리하고 각각의 하모닉 잡음 구간을 다음 단인 잡음 억압부(140)로 제공한다.If the energy difference between the two consecutive harmonic components is less than or equal to the threshold as a result of the determination in step 514, the process proceeds to step 516. The harmonic noise section extractor 409 divides the harmonic section and the noise according to the amplification and attenuation. The sections are separated and each harmonic noise section is provided to the next stage, the noise suppressor 140.

그러나 상기 단계 514 판단 결과 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치을 초과하면 단계 502로 진행하여 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 될 시점까지 단계 502 내지 512를 계속하여 반복함으로써 하모닉 구간을 증폭시키고 잡음 구간은 감쇄시키도록 한다. However, when the determination result of step 514 indicates that the energy difference between two consecutive harmonic components exceeds a threshold, the flow proceeds to step 502 and the steps 502 to 512 are continued until the energy difference between two consecutive harmonic components falls below a threshold. By repeating, the harmonic section is amplified and the noise section is attenuated.

본 발명에서 제시하는 알고리듬은 모든 음성 신호 처리 시스템에 적용 가능하며 speech enhancement 기능을 수행하는 음성 신호 처리의 원천 기술이 될 수 있다.The algorithm proposed in the present invention is applicable to all speech signal processing systems and may be a source technology of speech signal processing that performs a speech enhancement function.

예를 들어 음성 코딩, 합성, 인식 알고리듬에서 시스템의 전처리부(Front-End or Pre-processing)에 쉽게 삽입이 가능하며 뒷단의 시스템의 요구사항과 특성(specification)에 따라 원하는 최적의 잡음 억압 지수 k 를 지정하거나 자동으로 최적의 잡음 억암 지수 k 값을 적응적으로(adaptive) 입력하도록 하여, 이에 따른 잡음 처리된 신호(noise reduced signal)

Figure 112005071804515-pat00013
를 각 음성 신호 처리 시스템이 입력 신호로 사용할 수 있다. 특히, 휴대 단말기(mobile phone)과 텔레메틱스(telematics) 등의 시스템과 같이 이동에 따른 다양한 상황의 잡음이 문제가 될 때, 종래의 잡음 처리 방식으로는 예측 불가능한 많은 상황에 맞는 최적의 잡음 처리가 불가능했으나, 본 발명의 방법은 원하는 잡음 처리 정도를 시스템이 결정할 수 있도록 함으로써 이러한 문제점을 해결하였다. 뿐만 아니라, 이 기술은 음성 신호 처리 시스템의 중간에도 쉽게 삽입하여 시스템 효율은 높일 수가 있으며, 음성 처리 시스템의 후처리부(Back-End or Post-processing)에 삽입하면 잡음 제거를 통해 음질을 향상 시킬 수 있다. 이와 같이 알고리듬 자체만이 아니라, 그 적용에 있어서도 매우 유동적(flexible)이며 활용성이 높은 기술이다.For example, in voice coding, synthesis, and recognition algorithms, it can be easily inserted into the front-end or pre-processing system and the desired noise suppression index, k, depending on the requirements and specifications of the back-end system. Or adaptively inputs the optimum noise suppression index k value, thereby reducing the noise reduced signal.
Figure 112005071804515-pat00013
Can be used as an input signal by each voice signal processing system. In particular, when noise of various situations due to movement becomes a problem, such as systems such as mobile phones and telematics, it is impossible to optimize noise for many situations that are unpredictable by conventional noise processing methods. However, the method of the present invention solves this problem by allowing the system to determine the desired degree of noise processing. In addition, this technology can be easily inserted in the middle of a voice signal processing system to increase system efficiency. When inserted into the back-end or post-processing part of a voice processing system, the sound quality can be improved by removing noise. have. Thus, not only the algorithm itself, but also its application is very flexible and highly available.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다. In the above description of the present invention, specific embodiments have been described, but various modifications may be made without departing from the scope of the present invention. Therefore, the scope of the present invention should not be defined by the described embodiments, but should be determined by the equivalent of claims and claims.

본 발명은 음성 인식을 포함한 모든 음성 신호 처리 관련 시스템에서 가장 중요하고도 힘든 문제인 잡음 처리를 원하는 만큼의 잡음 감소(noise reduction)의 수준을 사용자의 편의에 맞추어 결정하여, 시스템에 따라 최적의 성능을 구현할 수 있다. The present invention determines the level of noise reduction as much as the user desires for noise processing, which is the most important and difficult problem in all speech signal processing related systems including speech recognition. Can be implemented.

Claims (19)

음성 신호를 처리하는 장치에 있어서,In the apparatus for processing a voice signal, 음성 신호를 입력받는 음성 신호 입력부와,A voice signal input unit for receiving a voice signal, 상기 입력된 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와,A frequency domain converter for converting the input voice signal into a frequency domain; 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와,A harmonic-noise separator for separating the harmonic part and the noise part from the speech signal converted into the frequency domain; 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와,A noise suppression index determination unit for determining an optimal noise suppression index k according to a situation and a system; 상기 잡음 억압 지수에 따라 상기 하모닉-잡음 분리부에서 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함하는 것을 특징으로 하는 음성 처리 장치.And a noise suppressor for outputting a noise processed signal by suppressing a noise part separated by the harmonic-noise separator according to the noise suppression index. 제1항에 있어서, 상기 하모닉-잡음 분리부는 피치 정보를 이용하는 것을 특징으로 하는 음성 처리 장치.The speech processing apparatus of claim 1, wherein the harmonic-noise separation unit uses pitch information. 제1항에 있어서, 상기 주파수 도메인으로 변환된 음성 신호를 다음 수학식 1과 같이 하모닉 부분과 잡음 부분으로 표현하는 것을 특징으로 하는 음성 처리 장치.The speech processing apparatus of claim 1, wherein the speech signal converted into the frequency domain is represented by a harmonic part and a noise part as shown in Equation 1 below. [수학식 1][Equation 1]
Figure 112007022034620-pat00014
Figure 112007022034620-pat00014
제1항에 있어서, 상기 잡음 처리된 신호를 다음 수학식 2와 같이 하모닉 부분과 억압된 잡음 부분으로 표현하는 것을 특징으로 하는 음성 처리 장치.  The speech processing apparatus of claim 1, wherein the noise processed signal is represented by a harmonic part and a suppressed noise part as shown in Equation 2 below. [수학식 2][Equation 2]
Figure 112005071804515-pat00015
Figure 112005071804515-pat00015
제1항에 있어서, 상기 잡음 처리된 신호를 구하기 위해 두 가지 법칙(constraint)인 1. 잡음 처리 전과 후의 신호는 에너지가 같다와 2. 잡음 처리 후의 신호는 잡음 처리 전의 신호와 가깝다를 적용하는 것을 특징으로 하는 음성 처리 장치. 2. The method of claim 1, wherein the two laws (constraint): 1. The signal before and after the noise processing are equal in energy, and 2. The signal after the noise processing is close to the signal before the noise processing. Characterized in that the voice processing device. 제5항에 있어서, 상기 두 가지 법칙을 음성 신호에 수학식 3과 같이 벡터 폼으로 적용시키고 수학식 4와 같이 정리한 후 수학식 5와 같이 잡음 억압 지수를 구하는 것을 특징으로 하는 음성 처리 장치. 6. The speech processing apparatus of claim 5, wherein the two laws are applied to a speech signal in a vector form as in Equation 3, arranged as in Equation 4, and a noise suppression index is obtained as in Equation 5. [수학식 3] [Equation 3]
Figure 112005071804515-pat00016
,
Figure 112005071804515-pat00017
Figure 112005071804515-pat00016
,
Figure 112005071804515-pat00017
[수학식 4] [Equation 4]
Figure 112005071804515-pat00018
Figure 112005071804515-pat00018
[수학식 5][Equation 5]
Figure 112005071804515-pat00019
Figure 112005071804515-pat00019
음성 처리 방법에 있어서,In the voice processing method, 음성 신호가 입력되면 입력된 음성 신호를 주파수 도메인으로 변환하는 과정과,Converting the input voice signal into the frequency domain when the voice signal is input, 상기 주파수 도메인으로 변환된 음성 신호로부터 하모닉 부분과 잡음 부분을 분리하는 단계와,Separating a harmonic part and a noise part from the speech signal converted into the frequency domain; 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 단계와,Determining an optimum noise suppression index k according to the situation and system, 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 단계를 포함하는 것을 특징으로 하는 방법.Suppressing the separated noise portion according to the noise suppression index to output a noise processed signal. 제7항에 있어서, 상기 하모닉-잡음 분리 단계는 피치 정보를 이용하는 것을 특징으로 하는 방법.8. The method of claim 7, wherein the harmonic-noise separation step uses pitch information. 제7항에 있어서, 상기 주파수 도메인으로 변환된 음성 신호를 다음 수학식 1과 같이 하모닉 부분과 잡음 부분으로 표현하는 것을 특징으로 하는 음성 처리 방법.The speech processing method of claim 7, wherein the speech signal converted into the frequency domain is represented by a harmonic part and a noise part as shown in Equation 1 below. [수학식 1][Equation 1]
Figure 112007022034620-pat00020
Figure 112007022034620-pat00020
제7항에 있어서, 잡음 처리된 신호를 다음 수학식 2와 같이 하모닉 부분과 억압된 잡음 부분으로 표현하는 것을 특징으로 하는 음성 처리 방법. 8. The speech processing method of claim 7, wherein the noise processed signal is represented by a harmonic part and a suppressed noise part as shown in Equation 2 below. [수학식 2][Equation 2]
Figure 112005071804515-pat00021
Figure 112005071804515-pat00021
제7항에 있어서, 상기 잡음 처리된 신호를 구하기 위해 두 가지 법칙(constraint)으로서 1. 잡음 처리 전과 후의 신호는 에너지가 같다와 2. 잡음 처리 후의 신호는 잡음 처리 전의 신호와 가깝다 를 적용하는 것을 특징으로 하는 음성 처리 방법. 8. The method according to claim 7, wherein two constraints are obtained to obtain the noise processed signal: 1. The signal before and after the noise processing has the same energy, and 2. The signal after the noise processing is close to the signal before the noise processing. A voice processing method characterized by the above-mentioned. 제11항에 있어서, 상기 두 가지 법칙을 음성 신호에 수학식 3과 같이 벡터 폼으로 적용시키고 수학식 4와 같이 정리한 후 수학식 5와 같이 잡음 억압 지수를 구하는 것을 특징으로 하는 음성 처리 방법. 12. The speech processing method of claim 11, wherein the two laws are applied to a speech signal in a vector form as in Equation 3, arranged as in Equation 4, and a noise suppression index is obtained as in Equation 5. [수학식 3] [Equation 3]
Figure 112005071804515-pat00022
,
Figure 112005071804515-pat00023
Figure 112005071804515-pat00022
,
Figure 112005071804515-pat00023
[수학식 4] [Equation 4]
Figure 112005071804515-pat00024
Figure 112005071804515-pat00024
[수학식 5][Equation 5]
Figure 112005071804515-pat00025
Figure 112005071804515-pat00025
음성 신호를 처리하는 장치에 있어서,In the apparatus for processing a voice signal, 음성 신호를 입력받는 음성 신호 입력부와,A voice signal input unit for receiving a voice signal, 상기 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하고, 상기 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부와,From the input voice signal, the amplification of the harmonic part and the attenuation of the noise part are repeatedly performed until the energy difference between the two consecutive harmonic components becomes equal to or less than a preset threshold value, and the energy difference between the two consecutive harmonic components is previously set. A harmonic-noise separator for separating the harmonic part and the noise part when the threshold value is less than a predetermined threshold value; 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 잡음 억압 지수 결정부와,A noise suppression index determination unit for determining an optimal noise suppression index k according to a situation and a system; 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압함으로써 잡음 처리된 신호를 출력하는 잡음 억압부를 포함하는 것을 특징으로 하는 음성 처리 장치.And a noise suppression unit configured to output a noise processed signal by suppressing the separated noise portion according to the noise suppression index. 제 13항에 있어서, 상기 하모닉-잡음 분리부는,The method of claim 13, wherein the harmonic-noise separation unit, 켑스트럼(cepstrum) 과 피치(pitch) 정보를 추출하여 하모닉 구간을 판단하는 하모닉 구간 판단부와,A harmonic section determination unit for extracting cepstrum and pitch information to determine a harmonic section; 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하는 하모닉-잡음 분리 반복부와,A harmonic-noise separation repeater which repeatedly performs amplification of the harmonic part and attenuation of the noise part; 상기 하모닉-잡음 분리 반복부를 통과한 음성 신호에서 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 상기 하모닉-잡음 분리 반복부를 통해 상기 하모닉 부부의 증폭과 잡음 부분의 감쇄를 반복 수행하도록 하는 하모닉-잡음 분리 판단부와,The amplification and attenuation of the noise part of the harmonic couple are repeated through the harmonic-noise separation repeater until the energy difference between two consecutive harmonic components in the speech signal passing through the harmonic-noise separation repeater becomes less than or equal to a preset threshold value. Harmonic-noise separation determination unit to perform, 상기 하모닉-잡음 분리 판단부를 통과한 음성 신호에서의 상기 하모닉 부분과 잡음 부분을 분리하는 하모닉-잡음 분리부를 포함하는 것을 특징으로 하는 음성 처리 장치.And a harmonic-noise separation unit for separating the harmonic portion and the noise portion from the speech signal passing through the harmonic-noise separation determination unit. 제 14항에 있어서, 상기 하모닉-잡음 분리 반복부는,The method of claim 14, wherein the harmonic-noise separation repeater comprises: 잡음 구간의 주파수 도메인 값을 ‘0’으로 설정하고, 하모닉 구간들의 현재 하모닉 샘플들을 잡음 구간으로 외삽법을 수행하는 하모닉 외삽부와,A harmonic extrapolation unit for setting a frequency domain value of the noise section to '0' and extrapolating current harmonic samples of the harmonic sections to the noise section; 초기 잡음 샘플에서 잡음 구간들의 하모닉 샘플을 빼고, 남은 잡음 샘플 추정치들을 하모닉 구간으로 외삽법을 수행하는 잡음 판단부와,A noise judging unit which subtracts harmonic samples of the noise intervals from the initial noise sample and extrapolates the remaining noise sample estimates to the harmonic intervals; 하모닉 구간의 주파수 도메인 값을 ‘0’으로 설정하고, 잡음 구간의 현재 잡음 샘플들을 하모닉 구간으로 외삽법을 수행하는 잡음 외삽부와,A noise extrapolation unit configured to set a frequency domain value of the harmonic interval to '0' and to extrapolate the current noise samples of the noise interval to the harmonic interval; 초기 하모닉 샘플에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치들을 잡음 구간으로 외삽법을 수행하는 하모닉 판단부를 포함하는 것을 특징으로 하는 음성 처리 장치.And a harmonic determination unit which subtracts noise samples of the harmonic intervals from the initial harmonic sample and extrapolates the remaining harmonic sample estimates to the noise interval. 음성 처리 방법에 있어서,In the voice processing method, 입력된 음성 신호로부터 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 될 시점까지 하모닉 부분의 증폭과 잡음 부분의 감쇄를 반복하여 수행하는 과정과,Repeating the amplification of the harmonic part and the attenuation of the noise part until the energy difference between two consecutive harmonic components is less than a preset threshold value from the input voice signal; 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄 수행 후 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 상기 하모닉 부분과 잡음 부분을 분리하는 과정과,Separating the harmonic part and the noise part when the energy difference between two consecutive harmonic components after the amplification of the harmonic part and the attenuation of the noise part is less than or equal to a preset threshold value; 상기 상황과 시스템에 따라 최적의 잡음 억압 지수 k를 결정하는 과정과,Determining an optimal noise suppression index k according to the situation and the system; 상기 잡음 억압 지수에 따라 상기 분리된 잡음 부분을 억압하여 잡음 처리된 신호를 출력하는 과정을 포함하는 것을 특징으로 하는 음성 처리 방법.And suppressing the separated noise part according to the noise suppression index to output a noise processed signal. 제 16항에 있어서, 하모닉 부분과 잡음 부분을 분리하는 과정은,The method of claim 16, wherein the separating the harmonic portion and the noise portion comprises: 켑스트럼(cepstrum) 과 피치(pitch) 정보를 추출하여 하모닉 구간을 판단하는 하모닉 구간 판단하는 과정과,A process of judging a harmonic section that determines a harmonic section by extracting cepstrum and pitch information; 하모닉 부분의 증폭과 잡음 부분의 감쇄를 수행하는 과정과,Performing amplification of the harmonic part and attenuation of the noise part, 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄를 수행 후 음성 신호에서 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되는 지를 검사하는 과정과,After amplifying the harmonic part and attenuating the noise part, checking whether an energy difference between two consecutive harmonic components in a speech signal falls below a preset threshold value; 상기 검사 과정 수행 후 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되면 음성 신호에서의 상기 하모닉 부분과 잡음 부분을 분리과정을 포함하는 것을 특징으로 하는 음성 처리 방법.And separating the harmonic part and the noise part of the speech signal when the energy difference between two consecutive harmonic components is less than or equal to a predetermined threshold value after performing the checking process. 제 17항에 있어서, 상기 검사 과정 수행 후 두개의 연속된 하모닉 컴퍼넌트들의 에너지 차가 미리 설정된 임계치 값 이하가 되지 않으면 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄를 계속하여 수행하는 과정을 더 포함하는 것을 특징으로 하는 음성 처리 방법.18. The method of claim 17, further comprising: continuing to amplify the harmonic portion and attenuate the noise portion if the energy difference between two consecutive harmonic components does not fall below a predetermined threshold value after performing the inspection process. Voice processing method. 제 17항에 있어서, 상기 하모닉 부분의 증폭과 잡음 부분의 감쇄를 수행하는 과정은,The method of claim 17, wherein the amplification of the harmonic portion and the attenuation of the noise portion are performed. 잡음 구간의 주파수 도메인 값을 ‘0’으로 설정하고, 하모닉 구간들의 현재 하모닉 샘플들을 잡음 구간으로 외삽법을 수행하는 과정과,Setting the frequency domain value of the noise section to '0' and performing extrapolation of current harmonic samples of the harmonic sections to the noise section, 초기 잡음 샘플에서 잡음 구간들의 하모닉 샘플을 빼고, 남은 잡음 샘플 추정치들을 하모닉 구간으로 외삽법을 수행하는 과정과,Subtracting the harmonic samples of the noise intervals from the initial noise sample, and performing extrapolation of the remaining noise sample estimates into the harmonic intervals; 하모닉 구간의 주파수 도메인 값을 ‘0’으로 설정하고, 잡음 구간의 현재 잡음 샘플들을 하모닉 구간으로 외삽법을 수행하는 과정과,Setting the frequency domain value of the harmonic interval to '0' and performing extrapolation of current noise samples of the noise interval into the harmonic interval; 초기 하모닉 샘플에서 하모닉 구간들의 잡음 샘플을 빼고, 남은 하모닉 샘플 추정치들을 잡음 구간으로 외삽법을 수행하는 과정을 포함하는 것을 특징으로 하는 음성 처리 방법.And subtracting noise samples of the harmonic intervals from the initial harmonic sample and performing extrapolation of the remaining harmonic sample estimates into the noise interval.
KR1020050119625A 2005-07-11 2005-12-08 Apparatus and method for processing sound signal KR100744375B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/479,472 US8073148B2 (en) 2005-07-11 2006-06-30 Sound processing apparatus and method
EP06014391A EP1744305B1 (en) 2005-07-11 2006-07-11 Method and apparatus for noise reduction in sound signals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050062465 2005-07-11
KR1020050062465 2005-07-11

Publications (2)

Publication Number Publication Date
KR20070007697A KR20070007697A (en) 2007-01-16
KR100744375B1 true KR100744375B1 (en) 2007-07-30

Family

ID=38010238

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050119625A KR100744375B1 (en) 2005-07-11 2005-12-08 Apparatus and method for processing sound signal

Country Status (1)

Country Link
KR (1) KR100744375B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735343B1 (en) 2006-04-11 2007-07-04 삼성전자주식회사 Apparatus and method for extracting pitch information of a speech signal
KR101444100B1 (en) * 2007-11-15 2014-09-26 삼성전자주식회사 Noise cancelling method and apparatus from the mixed sound

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228088A (en) * 1990-05-28 1993-07-13 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5490231A (en) * 1990-05-28 1996-02-06 Matsushita Electric Industrial Co., Ltd. Noise signal prediction system
US5619565A (en) * 1993-04-29 1997-04-08 International Business Machines Corporation Voice activity detection method and apparatus using the same
KR20000069831A (en) * 1997-10-31 2000-11-25 요트.게.아. 롤페즈 A method and apparatus for audio representation of speech that has been encoded according to the LPC principle, through adding noise to constituent signals therein
KR20020022257A (en) * 2000-09-19 2002-03-27 오길록 The Harmonic-Noise Speech Coding Algorhthm Using Cepstrum Analysis Method
WO2002045075A2 (en) 2000-11-27 2002-06-06 Conexant Systems, Inc. Method and apparatus for improved noise reduction in a speech encoder
WO2005045808A1 (en) 2003-10-30 2005-05-19 Motorola, Inc., A Corporation Of The State Of Delaware Harmonic noise weighting in digital speech coders

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228088A (en) * 1990-05-28 1993-07-13 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5490231A (en) * 1990-05-28 1996-02-06 Matsushita Electric Industrial Co., Ltd. Noise signal prediction system
US5619565A (en) * 1993-04-29 1997-04-08 International Business Machines Corporation Voice activity detection method and apparatus using the same
KR20000069831A (en) * 1997-10-31 2000-11-25 요트.게.아. 롤페즈 A method and apparatus for audio representation of speech that has been encoded according to the LPC principle, through adding noise to constituent signals therein
KR20020022257A (en) * 2000-09-19 2002-03-27 오길록 The Harmonic-Noise Speech Coding Algorhthm Using Cepstrum Analysis Method
WO2002045075A2 (en) 2000-11-27 2002-06-06 Conexant Systems, Inc. Method and apparatus for improved noise reduction in a speech encoder
WO2005045808A1 (en) 2003-10-30 2005-05-19 Motorola, Inc., A Corporation Of The State Of Delaware Harmonic noise weighting in digital speech coders

Also Published As

Publication number Publication date
KR20070007697A (en) 2007-01-16

Similar Documents

Publication Publication Date Title
EP1744305B1 (en) Method and apparatus for noise reduction in sound signals
US6023674A (en) Non-parametric voice activity detection
US6097820A (en) System and method for suppressing noise in digitally represented voice signals
EP1801788A1 (en) Advanced periodic signal enhancement
EP2352148B1 (en) Noise gate, sound collection device, and noise removal method
JP2003534570A (en) How to suppress noise in adaptive beamformers
JP5752324B2 (en) Single channel suppression of impulsive interference in noisy speech signals.
WO2016010624A1 (en) Wind noise reduction for audio reception
CN105719657A (en) Human voice extracting method and device based on microphone
US7917359B2 (en) Noise suppressor for removing irregular noise
JP2014513320A (en) Method and apparatus for attenuating dominant frequencies in an audio signal
JP2004341339A (en) Noise restriction device
CN115348507A (en) Impulse noise suppression method, system, readable storage medium and computer equipment
JP2836271B2 (en) Noise removal device
EP2230664B1 (en) Method and apparatus for attenuating noise in an input signal
CN105869652B (en) Psychoacoustic model calculation method and device
KR101557779B1 (en) Method and apparatus for noise reduction in a communication device having two microphones
KR100744375B1 (en) Apparatus and method for processing sound signal
EP2232703B1 (en) Noise suppression method and apparatus
EP1286334A2 (en) Method and circuit arrangement for reducing noise during voice communication in communications systems
KR101173980B1 (en) System and method for suppressing noise in voice telecommunication
JP3310225B2 (en) Noise level time variation calculation method and apparatus, and noise reduction method and apparatus
CN117280414A (en) Noise reduction based on dynamic neural network
JPH113091A (en) Detection device of aural signal rise
KR101741141B1 (en) Apparatus for suppressing noise and method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130627

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140627

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190627

Year of fee payment: 13