KR101966175B1 - Apparatus and method for removing noise - Google Patents

Apparatus and method for removing noise Download PDF

Info

Publication number
KR101966175B1
KR101966175B1 KR1020120050356A KR20120050356A KR101966175B1 KR 101966175 B1 KR101966175 B1 KR 101966175B1 KR 1020120050356 A KR1020120050356 A KR 1020120050356A KR 20120050356 A KR20120050356 A KR 20120050356A KR 101966175 B1 KR101966175 B1 KR 101966175B1
Authority
KR
South Korea
Prior art keywords
signal
noise
target signal
extracting
vector
Prior art date
Application number
KR1020120050356A
Other languages
Korean (ko)
Other versions
KR20130126318A (en
Inventor
전혜정
박형민
이철민
이흥규
Original Assignee
엘지전자 주식회사
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사, 서강대학교산학협력단 filed Critical 엘지전자 주식회사
Priority to KR1020120050356A priority Critical patent/KR101966175B1/en
Publication of KR20130126318A publication Critical patent/KR20130126318A/en
Application granted granted Critical
Publication of KR101966175B1 publication Critical patent/KR101966175B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

본 발명은 잡음 제거 장치 및 방법에 관한 것으로, 특히 음성 인식을 위한 잡음 제거 장치 및 방법에 관한 것이다.
본 발명은 입력 신호의 잡음을 제거하는 장치로서, 제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 목표 신호 추출부, 제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 목표 신호 제거부, 상기 제1 목표 신호의 음성 구간 정보를 추출하는 검출부 및 상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하고, 상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 제1 잡음 제거부를 포함한다.
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a noise canceling apparatus and method, and more particularly, to a noise canceling apparatus and method for speech recognition.
An apparatus for eliminating noise in an input signal, the apparatus comprising: a target signal extractor for extracting a first target signal from the input signal using a first separation vector; A target signal removing section for extracting a target signal, a detection section for extracting audio section information of the first target signal, and a second section for calculating a weight from the first noise signal using the speech section information, And a first noise canceller for removing noise from the signal.

Figure R1020120050356
Figure R1020120050356

Description

잡음 제거 장치 및 방법{APPARATUS AND METHOD FOR REMOVING NOISE}[0001] APPARATUS AND METHOD FOR REMOVING NOISE [0002]

본 발명은 잡음 제거 장치 및 방법에 관한 것으로, 특히 음성 인식을 위한 잡음 제거 장치 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a noise canceling apparatus and method, and more particularly, to a noise canceling apparatus and method for speech recognition.

음성 인식 등을 목적으로 음성 신호가 입력되는 장치는 음성 신호에 복수의 잡음 신호가 혼합되어 입력되는 경우, 혼합 신호로부터 원하는 음성 신호를 추출함으로써 음성 인식 기능을 수행한다.When a plurality of noise signals are mixed and input to a voice signal, a device for inputting a voice signal for voice recognition or the like performs a voice recognition function by extracting a desired voice signal from the mixed signal.

예를 들면, 음성 인식을 통하여 IPTV의 동작을 제어하는 경우, 음악 소리 또는 IPTV 자체의 소리 등 다양한 종류의 잡음원이 존재하는 잡음 환경에서, 잡음과 사용자의 음성을 분리하고 음성 신호를 추출하여 음성 신호의 음질을 높임으로써, 잡음이 없는 환경과 유사한 수준의 음성 인식 성능을 보장할 수 있다.For example, when controlling the operation of IPTV through voice recognition, in a noisy environment where various kinds of noise sources exist such as music sound or IPTV sound itself, noise is separated from user's voice, The quality of speech recognition performance similar to that of a noise-free environment can be guaranteed.

이에 따라, 신호 분리 기술로서 빔포밍(beamforming) 기술이 사용된다. 대표적인 빔포밍 기술은 입력된 혼합 신호 중에서 특정 방향으로 입력된 신호를 다른 방향으로 입력된 신호보다 강화하는 방법 및 강화된 특정 방향 신호만을 제거하는 방법을 함께 사용할 수 있다. 이어서, 특정 방향 신호가 제거된 신호를 이용하여 특정 방향 신호의 잡음을 제거함으로써 신호 분리 기능을 수행할 수 있다.Accordingly, a beamforming technique is used as a signal separation technique. A typical beam-forming technique may use a method of enhancing a signal input in a specific direction from an input mixed signal over a signal input in another direction and a method of removing only an enhanced specific direction signal. Then, the signal separation function can be performed by removing the noise of the specific direction signal by using the signal from which the specific direction signal is removed.

다만, 종래의 빔포밍 기술에 의하면, 고정된 음원으로부터 발생된 음성 신호가 입력되는 경우에 한하여 적절한 신호 분리 동작을 수행할 수 있다. 따라서, 음원이 이동하는 경우, 음원의 위치 정보를 얻기 위하여 음원 추적 장치 또는 음원 추적 방법이 추가적으로 요구된다.However, according to the conventional beam forming technique, an appropriate signal separation operation can be performed only when a voice signal generated from a fixed sound source is input. Accordingly, when the sound source moves, a sound source tracking device or a sound source tracking method is additionally required to obtain position information of the sound source.

본 발명의 실시 예는 음원이 이동하는 경우에도 효과적으로 잡음을 제거하는 잡음 제거 장치를 제공한다.Embodiments of the present invention provide a noise canceling apparatus that effectively removes noise even when a sound source moves.

본 발명의 일 실시 예에 따른 입력 신호의 잡음을 제거하는 장치는 제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 목표 신호 추출부, 제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 목표 신호 제거부, 상기 제1 목표 신호의 음성 구간 정보를 추출하는 검출부 및 상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하고, 상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 제1 잡음 제거부를 포함한다.An apparatus for eliminating noise of an input signal according to an embodiment of the present invention includes a target signal extracting unit for extracting a first target signal from the input signal using a first separation vector, A target signal removing section for extracting a first noise signal from the first noise signal, a detection section for extracting speech section information of the first target signal, and a speech section for calculating a weight from the first noise signal using the speech section information, And a first noise canceller for removing noise from the first target signal.

본 발명의 일 실시 예에 따른 잡음 제거 방법은 제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 단계, 제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 단계, 상기 제1 목표 신호의 음성 구간 정보를 추출하는 단계, 상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하는 단계 및 상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 단계를 포함한다.A noise reduction method according to an embodiment of the present invention includes extracting a first target signal from the input signal using a first separation vector, extracting a first noise signal from the input signal using a second separation vector Calculating a weight from the first noise signal using the speech interval information, and removing noise from the first target signal using the weight value, .

본 발명의 실시 예에 따른 잡음 제거 장치는 음원이 이동하는 경우, 추가적인 음원 추적 장치 없이도 효과적으로 잡음을 제거한다.The noise canceller according to the embodiment of the present invention effectively removes noise without additional sound source tracking device when the sound source moves.

도 1은 본 발명의 일 실시 예와 관련된 잡음 제거 장치의 블록 다이어그램(block diagram)이다.
도 2는 본 발명의 일 실시 예와 관련된 잡음 제거 방법의 흐름도이다.
도 3 내지 도 5는 본 발명의 일 실시 예와 관련된 잡음 제거 장치의 효과를 설명하기 위한 도면이다.
1 is a block diagram of a noise canceling apparatus according to an embodiment of the present invention.
2 is a flow chart of a noise removal method in accordance with an embodiment of the present invention.
FIGS. 3 to 5 are views for explaining the effect of the noise removing apparatus according to an embodiment of the present invention.

이하, 본 발명과 관련된 잡음 제거 장치에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
Hereinafter, a noise canceling apparatus according to the present invention will be described in detail with reference to the drawings. The suffix " module " and " part " for the components used in the following description are given or mixed in consideration of ease of specification, and do not have their own meaning or role.

다음은 도 1을 참조하여 본 발명의 일 실시 예에 따른 잡음 제거 장치의 구조를 설명한다.Hereinafter, the structure of a noise canceling apparatus according to an embodiment of the present invention will be described with reference to FIG.

도 1은 본 발명의 일 실시 예와 관련된 잡음 제거 장치의 블록 다이어그램(block diagram)이다.1 is a block diagram of a noise canceling apparatus according to an embodiment of the present invention.

본 발명의 일 실시 예에 따른 잡음 제거 장치는 복수의 마이크로폰(mic1,mic2,mic3,mic4), 목표 신호 추출부(101), 목표 신호 제거부(103), 검출부(105), 제1 잡음 제거부(107)를 포함할 수 있다. 추가적으로, 제2 잡음 제거부(109)를 포함하여 보다 깨끗한 음성 신호를 추출할 수 있다. 이어서, 음성 인식부(111)는 제1 잡음 제거부(107) 또는 제2 잡음 제거부(109)로부터 추출된 음성 신호를 인식할 수 있다.The noise eliminating apparatus according to the embodiment of the present invention includes a plurality of microphones mic1, mic2, mic3 and mic4, a target signal extracting unit 101, a target signal removing unit 103, a detecting unit 105, Rejection 107. [0033] FIG. In addition, a cleaner speech signal including the second noise canceller 109 can be extracted. Then, the speech recognition unit 111 can recognize the speech signal extracted from the first noise remover 107 or the second noise remover 109.

복수의 마이크로폰(mic1,mic2,mic3,mic4)은 혼합 신호(미도시됨)를 수신한다. 혼합 신호는 복수의 음원으로부터 생성된 신호를 포함할 수 있다. 혼합 신호는 예컨대, IPTV를 제어하기 위한 음성 신호, 전자 기기 사용시 발생하는 소리와 같은 일상 생활에서 발생할 수 있는 모든 신호를 포함할 수 있다.A plurality of microphones (mic1, mic2, mic3, mic4) receive mixed signals (not shown). The mixed signal may include a signal generated from a plurality of sound sources. The mixed signal may include all signals that may occur in daily life, such as a voice signal for controlling IPTV, and a sound generated when using an electronic device.

기기 음향 제거부(미도시됨)는 혼합 신호에서 기기 음향을 제거한다. 예컨대, IPTV의 마이크로폰이 혼합 신호를 수신할 때, 혼합 신호는 IPTV 자체에서 발생하는 소리를 포함할 수 있다. 기기 음향 제거부(미도시됨)가 혼합 신호로부터 IPTV 자체에서 발생하는 소리를 제거함으로써, 혼합 신호 중 음향 크기가 가장 큰 잡음을 제거할 수 있고, 따라서 음성 인식의 성능을 향상시킬 수 있다. 결과적으로, 입력 신호(X1,X2,X3,X4)는 혼합 신호에서 기기 음향이 제거된 신호를 포함할 수 있다.The device acoustic de-rejection (not shown) removes the device sound from the mixed signal. For example, when a microphone of an IPTV receives a mixed signal, the mixed signal may include sound generated by the IPTV itself. By removing the sound generated from the IPTV itself from the mixed signal by the acoustic deactivation (not shown), it is possible to remove the noise having the largest acoustic size among the mixed signals, thereby improving the performance of the speech recognition. As a result, the input signals X1, X2, X3, and X4 may include signals from which the device sound is removed from the mixed signal.

목표 신호 추출부(101)는 복수의 입력 신호(X1,X2,X3,X4)를 입력받아, 제1 목표 신호(U)를 출력한다. 이때, 목표 신호 추출부(101)는 복수의 입력 신호(X1,X2,X3,X4)를 입력받아, 그 중 음성 인식의 대상이 되는 하나의 음성 신호를 분리하는 제1 분리 벡터(w1)를 결정하고, 제1 분리 벡터(w1)를 이용하여 제1 목표 신호(U)를 추출할 수 있다. 목표 신호 추출부(101)는 독립 벡터 분석(IVA, Independent Vector Analysis) 알고리즘을 이용하여 제1 분리 벡터(w1)를 결정할 수 있다. 독립 벡터 분석 알고리즘은 독립 성분 분석(Independent component analysis)을 주파수 영역으로 확장한 개념이다.The target signal extracting unit 101 receives a plurality of input signals X1, X2, X3, and X4 and outputs a first target signal U. At this time, the target signal extracting unit 101 receives a plurality of input signals X1, X2, X3, and X4 and selects a first separation vector w1 for separating one audio signal to be subjected to speech recognition among them And extract the first target signal U using the first separation vector w1. The target signal extracting unit 101 may determine the first separation vector w1 using an Independent Vector Analysis (IVA) algorithm. The independent vector analysis algorithm is an extension of the independent component analysis to the frequency domain.

수학식 1은 독립 성분 분석 문제를 일반적인 모델로 표현한 것이다.Equation 1 is a general model representation of the independent component analysis problem.

Figure 112012037887347-pat00001
Figure 112012037887347-pat00001

x는 입력 벡터, A는 혼합 행렬, s는 음원 벡터, y는 출력 벡터, W는 A의 의사 역행렬(Pseudo-inverse Matrix)를 의미한다. 특정 음원으로부터 발생한 신호를 추출하기 위하여 의사 역행렬(W)를 학습하는 것이 독립 성분 분석 문제가 된다. 의사 역행렬(W) 학습시, 비용 함수가 이용될 수 있다. 예컨대, 비용 함수가 최소화될수록, 음원 벡터(s)와 최대한 비슷한 출력 벡터(y)가 추출될 수 있다.x is an input vector, A is a mixing matrix, s is a sound source vector, y is an output vector, and W is a pseudo-inverse matrix of A. Learning the pseudo inverse matrix (W) to extract the signal generated from a specific sound source is an independent component analysis problem. In the pseudoinverse (W) learning, a cost function can be used. For example, as the cost function is minimized, an output vector y that is as close as possible to the sound source vector s can be extracted.

독립 벡터 분석 알고리즘은 주파수 영역으로 확장된 독립 성분 분석 알고리즘이므로, 독립 벡터 분석 문제는 제1 분리 벡터(w1)를 결정하는 것이다.Since the independent vector analysis algorithm is an independent component analysis algorithm extended to the frequency domain, the independent vector analysis problem is to determine the first separation vector w1.

목표 신호 추출부(101)는 제1 분리 벡터(w1)를 결정하기 위한 전처리로서, 입력 벡터(x)를 백색화(whitening) 연산할 수 있다. 백색화 연산을 실행함으로써 복수의 입력 신호(X1,X2,X3,X4)들의 상관 관계(correlation)를 제거할 수 있다. 수학식 5는 입력 백터(x)의 백색화 연산 과정을 표현한 것이다.The target signal extracting unit 101 may perform a whitening operation on the input vector x as a pre-processing for determining the first separation vector w1. By performing the whitening operation, the correlation of the plurality of input signals X1, X2, X3, and X4 can be eliminated. Equation (5) represents the whitening operation process of the input vector (x).

Figure 112012037887347-pat00002
Figure 112012037887347-pat00002

복수의 입력 신호(X1,X2,X3,X4)의 공분산(covariance) 행렬에서, 공분산 행렬의 고유 값들의 대각 행렬을 D라 하고, 공분산 행렬의 고유 벡터들의 모음 행렬을 E라 한다. 이때,

Figure 112012037887347-pat00003
을 의미하고,
Figure 112012037887347-pat00004
는 E 행렬의 전치 행렬을 의미한다.In the covariance matrix of the plurality of input signals X1, X2, X3 and X4, the diagonal matrix of the eigenvalues of the covariance matrix is D and the vowel matrix of the eigenvectors of the covariance matrix is E At this time,
Figure 112012037887347-pat00003
Lt; / RTI >
Figure 112012037887347-pat00004
Denotes the transpose matrix of E matrix.

수학식 11은 수학식 5의 백색화된 입력 벡터(z)를 이용한 비용 함수(Jg)를 나타낸 것이다.Equation (11) shows the cost function (J g ) using the whitened input vector (z) of Equation (5).

Figure 112012037887347-pat00005
Figure 112012037887347-pat00005

k는 주파수 인덱스, E는 기대 값(Expectation), g는 비선형 함수로서 예컨대, 첨도(kurtosis) 기반일 때 g(y)=y4로 근사화될 수 있는 비선형 함수, H은 헤르미티안 행렬(Hermitian Matrix)을 의미한다. 수학식 11은 독립 벡터 분석에서 벡터 상관도(vector correlation), 벡터 상호 정보(vector mutual information)에 따른 비용 함수를 나타낸 것이다.k is a frequency index, E is an expectation, g is a nonlinear function, for example, a nonlinear function that can be approximated by g (y) = y 4 when based on kurtosis, H is a Hermitian matrix Matrix. Equation (11) shows a cost function according to vector correlation and vector mutual information in independent vector analysis.

수학식 12는 수학식 11의 비용 함수를 미분한 결과로서, 제1 분리 벡터(w1)의 최대경사법 알고리즘에 포함되는 학습 규칙을 의미한다.Equation (12) is a result of differentiating the cost function of Equation (11), and means a learning rule included in the maximum diagonal algorithm of the first separation vector (w1).

Figure 112012037887347-pat00006
Figure 112012037887347-pat00006

*는 공액 행렬(Conjugate Matrix)을 의미한다.* Denotes a conjugate matrix.

수학식 13은 수학식 12의 1차 미분, 2차 미분을 이용한 결과로서, 뉴턴 알고리즘에 포함되는 고속 독립 벡터 분석 학습 규칙을 의미한다. Equation (13) represents the fast independent vector analysis learning rule included in the Newton algorithm as a result of using the first-order and second-order differentiations of Equation (12).

Figure 112012037887347-pat00007
Figure 112012037887347-pat00007

(w1 k)Hzk는 제1 목표 신호(U)를 의미한다. 목표 신호 추출부(101)는 수학식 13으로부터 제1 분리 벡터(w1)를 결정할 수 있고, 제1 분리 벡터(w1)를 이용하여 복수의 입력 신호(X1,X2,X3,X4)로부터 제1 목표 신호(U)를 추출할 수 있다.(w 1 k ) H z k means the first target signal (U). The target signal extracting unit 101 can determine the first separation vector w1 from Equation 13 and calculate the first separation vector w1 from the plurality of input signals X1, X2, X3, X4 using the first separation vector w1 The target signal U can be extracted.

목표 신호 제거부(103)는 복수의 입력 신호(X1,X2,X3,X4)를 입력받아, 복수의 제1 잡음 신호(B1,B2,B3)를 출력한다. 즉, 목표 신호 제거부(103)는 목표 신호 추출부(101)와 반대로, 복수의 입력 신호(X1,X2,X3,X4)를 입력받아, 그 중 하나의 음성 신호를 제외한 나머지 음향 신호를 분리하는 제2 분리 벡터(w2)를 결정하고, 제2 분리 벡터(w2)를 이용하여 제1 잡음 신호(B1,B2,B3)를 추출할 수 있다. 목표 신호 제거부(103)는 하나의 출력 신호를 제거하기 위하여 목표 신호 추출부(101)가 이용한 독립 벡터 분석 알고리즘을 이용할 수 있다. 다만, 목표 신호 제거부(103)는 복수의 입력 신호를 분리한 후, 그 중에서 하나의 출력 신호를 제거해야 하기 때문에 수학식 12에서 표현된 학습 규칙과 반대 부호를 가지는 학습 규칙을 이용한다. 따라서, 목표 신호 제거부(103)가 이용하는 최대경사법 알고리즘에 포함되는 학습 규칙은 수학식 14와 같다.The target signal removing unit 103 receives a plurality of input signals X1, X2, X3 and X4 and outputs a plurality of first noise signals B1, B2 and B3. In other words, the target signal removing unit 103 receives the plurality of input signals X1, X2, X3, and X4 and separates the remaining sound signals excluding one of the sound signals, as opposed to the target signal extracting unit 101 B2, B3 using the second separation vector w2, and the second separation vector w2 using the second separation vector w2. The target signal removing unit 103 may use an independent vector analysis algorithm used by the target signal extracting unit 101 to remove one output signal. However, the target signal removing unit 103 uses a learning rule having a sign opposite to the learning rule expressed in Equation (12) since a plurality of input signals must be separated and one output signal must be removed. Therefore, the learning rule included in the maximum-radius algorithm used by the target signal remover 103 is expressed by Equation (14).

Figure 112012037887347-pat00008
Figure 112012037887347-pat00008

z는 입력 벡터(x)의 백색화 연산 결과, (w2 k)Hzk는 제1 잡음 신호(B1,B2,B3)를 의미한다. 목표 신호 제거부(103)는 수학식 14를 이용하여 제2 분리 벡터(w2)를 결정할 수 있다. 이어서, 목표 신호 제거부(103)는 제2 분리 벡터(w2)를 이용하여 복수의 입력 신호(X1,X2,X3,X4)로부터 제1 잡음 신호(B1,B2,B3)를 추출할 수 있다.z denotes the whitening operation result of the input vector x, and (w 2 k ) H z k denotes the first noise signals B1, B2, and B3. The target signal remover 103 can determine the second separation vector w2 using Equation (14). The target signal removing unit 103 may then extract the first noise signals B1, B2, and B3 from the plurality of input signals X1, X2, X3, and X4 using the second separation vector w2 .

목표 신호 제거부(103)는 복수의 잡음으로부터 목표 신호를 제외하기 위하여 예컨대, 복수의 입력 신호 중 두 개의 입력 신호를 선택하고, 선택된 두 개의 입력 신호 중에서 목표 신호를 제외하는 방법, 복수의 입력 신호 전체에서 목표 신호를 직접 제외하는 방법 등을 이용할 수 있다.The target signal removing unit 103 may be configured to select two input signals out of a plurality of input signals to exclude a target signal from a plurality of noises and to exclude a target signal from two selected input signals, A method of excluding the target signal directly from the whole can be used.

이와 같이, 본 발명의 일 실시 예에 따라 목표 신호 추출부(101) 및 목표 신호 제거부(103)가 독립 벡터 분석 알고리즘을 이용함으로써, 음원이 이동하는 경우에도 효과적으로 음성을 인식할 수 있다.As described above, according to the embodiment of the present invention, the target signal extracting unit 101 and the target signal removing unit 103 can use the independent vector analysis algorithm to effectively recognize speech even when the sound source moves.

검출부(105)는 제1 목표 신호(U)의 각 프레임마다 음성 신호가 존재하는 확률 정보(P)를 출력한다. 목표 신호 추출부(101)가 출력한 제1 목표 신호(U)는 단일 음성 신호뿐만 아니라, 그 외의 잡음도 포함하고 있다. 검출부(105)는 제1 목표 신호(U)에 포함된 잡음을 제거하기 위한 전처리로서, 제1 목표 신호(U)의 각각의 프레임에 음성 신호 존재 여부를 검출하여 검출 결과를 확률 정보(P)로 출력할 수 있다. 검출부(105)는 제1 목표 신호(U)의 음성 존재 확률 정보(P)를 출력하기 위하여 최소 값 제어 재귀 평균(MCRA, Minima Controlled Recursive Averaging) 알고리즘을 이용할 수 있다.The detection unit 105 outputs probability information P in which a speech signal exists for each frame of the first target signal U. [ The first target signal U output from the target signal extracting unit 101 includes not only a single voice signal but also other noise. The detection unit 105 detects presence or absence of a voice signal in each frame of the first target signal U and outputs the detection result to the probability information P, . The detection unit 105 may use a Minima Controlled Recursive Averaging (MCRA) algorithm to output the voice presence probability information P of the first target signal U.

먼저, 제1 목표 신호(U)는 단구간 푸리에 변환(short-time Fourier Transform)을 통해 주파수 영역에서 표시될 수 있다. 주파수 영역의 제1 목표 신호(U(k,l))에서, k는 주파수 인덱스, l은 프레임 인덱스를 의미한다. 프레임 인덱스(l)는 신호 전체를 복수의 단 구간으로 나누어 분석하는 경우, 신호를 나누는 각각의 단 구간을 표시한 것이다. 이때, 단 구간 푸리에 변환은 목표 신호 추출부(101), 목표 신호 제거부(103) 단계에서 실행될 수 있다.First, the first target signal U may be displayed in the frequency domain through a short-time Fourier transform. In the first target signal U (k, l) in the frequency domain, k denotes a frequency index and l denotes a frame index. The frame index (1) represents the end sections of the signal when dividing the entire signal into a plurality of short sections. At this time, the short-term Fourier transform may be executed in the target signal extracting unit 101 and the target signal removing unit 103. [

수학식 23은 주파수 영역의 제1 목표 신호(U(k,l))의 에너지 스펙트럼(P(k,l))을 추출하는 연산을 나타내는 식이다.(23) is an expression that represents an operation for extracting the energy spectrum P (k, l) of the first target signal U (k, l) in the frequency domain.

Figure 112012037887347-pat00009
Figure 112012037887347-pat00009

Figure 112012037887347-pat00010
는 0보다 크고 1보다 작은 값을 가지는 스무딩 매개 변수를 의미한다. 검출부(105)는 수학식 23을 이용하여 주파수 영역의 제1 목표 신호(U(k,l))의 스무딩 연산 결과인 에너지 스펙트럼(P(k,l))을 출력할 수 있다. 수학식 23은 과거의 에너지 스펙트럼(P(k,l-1))을 입력받아 현재의 에너지 스펙트럼(P(k,l))을 출력하는 재귀 평균 연산을 나타낸다.
Figure 112012037887347-pat00010
Means a smoothing parameter having a value greater than zero and less than one. The detecting unit 105 can output the energy spectrum P (k, l) which is the smoothing operation result of the first target signal U (k, l) in the frequency domain using the equation (23). (23) represents a recursive averaging operation that receives the past energy spectrum P (k, l-1) and outputs the current energy spectrum P (k, l).

수학식 24는 수학식 23의 에너지 스펙트럼(P(k,l))을 이용하여 각각의 주파수마다 에너지 스펙트럼의 최소값을 결정하는 연산을 나타내는 식이다.(24) is an equation representing an operation for determining the minimum value of the energy spectrum for each frequency using the energy spectrum P (k, l) of the equation (23).

Figure 112012037887347-pat00011
Figure 112012037887347-pat00011

Ptmp(k,l)은 에너지 스펙트럼의 최소 값(Pmin(k,l))을 결정하기 위한 에너지 스펙트럼의 임시 값을 의미한다. 검출부(105)는 현재 에너지 스펙트럼 성분(P(k,l))과 과거 에너지 스펙트럼 성분의 최소 값(Pmin(k,l-1))을 비교한 결과를 이용하여 각각의 주파수에서 에너지 스펙트럼의 최소 값(Pmin(k,l))을 결정할 수 있다.P tmp (k, l) denotes a temporary value of the energy spectrum for determining the minimum value of the energy spectrum (P min (k, l)). The detection unit 105 uses the result of comparing the current energy spectrum component P (k, l) and the minimum value P min (k, l-1) of the past energy spectrum components to obtain the energy spectrum at each frequency The minimum value Pmin (k, l) can be determined.

수학식 25는 수학식 23 및 수학식 24의 결과를 이용하여 현재 에너지 스펙트럼의 최소 값(Pmin(k,l)) 및 임시 값(Ptmp(k,l))을 갱신하는 연산을 나타내는 식이다.(25) expresses an operation for updating the minimum value (P min (k, l)) and the temporary value (P tmp (k, l)) of the current energy spectrum using the results of Equations (23) and to be.

Figure 112012037887347-pat00012
Figure 112012037887347-pat00012

검출부(105)는 수학식 25의 연산을 이용하여 현재 에너지 스펙트럼의 최소 값(Pmin(k,l)) 및 임시 값(Ptmp(k,l))을 갱신할 수 있다.The detection unit 105 can update the minimum value P min (k, l) and the temporary value P tmp (k, l) of the current energy spectrum using the calculation of Equation (25).

수학식 26은 수학식 25의 결과를 이용하여, 에너지 스펙트럼의 최소 값(Pmin(k,l))과 현재 에너지 스펙트럼 성분(P(k,l))의 비율(Sr(k,l))을 연산하는 식이다.Equation 26 is the ratio (S r (k, l) of using the result of Equation 25, the minimum value of the energy spectrum (P min (k, l) ) and the current energy spectrum components (P (k, l)) .

Figure 112012037887347-pat00013
Figure 112012037887347-pat00013

검출부(105)는 수학식 26의 연산을 이용하여 각 주파수에서 에너지 스펙트럼의 최소 값(Pmin(k,l))과 현재 에너지 스펙트럼 성분(P(k,l))의 비율(Sr(k,l))을 구할 수 있다.The detection unit 105 calculates the ratio S r (k, l) of the energy spectrum component P (k, l) and the minimum value P min (k, l) of the energy spectrum at each frequency using the calculation of Equation , l)) can be obtained.

수학식 27은 수학식 26 및 음성 존재 확률 인덱스(I(k,l))를 이용하여 음성 존재 확률(

Figure 112012037887347-pat00014
)을 연산하는 식이다.(27) using Equation 26 and the speech presence probability index I (k, l)
Figure 112012037887347-pat00014
.

Figure 112012037887347-pat00015
Figure 112012037887347-pat00015

검출부(105)는 수학식 27의 연산을 이용하여 음성 존재 확률(

Figure 112012037887347-pat00016
)을 출력할 수 있다. 이때, 음성 존재 확률 인덱스(I(k,l))는 수학식 26의 결과인 Sr(k,l)이 특정 문턱 값(δ)보다 작은 경우 0이 되고, Sr(k,l)이 특정 문턱 값(δ)보다 큰 경우 1이 된다. 이와 같이, 검출부(105)는 수학식 23 내지 수학식 27에 표현된 연산을 포함하는 최소값 제어 재귀 평균 알고리즘을 이용하여, 제1 목표 신호(U)의 각 프레임이 음성이 존재하는 구간인지 또는 음성이 존재하지 않는 구간인지 여부를 출력할 수 있다.The detection unit 105 uses the calculation of Equation (27) to calculate the voice presence probability
Figure 112012037887347-pat00016
Can be output. In this case, the speech presence probability index (I (k, l)) is a small case 0 than S r (k, l) is a specific threshold value (δ) that is the result of Equation 26, S r (k, l) the And becomes 1 when it is larger than the specific threshold value?. In this manner, the detection unit 105 can determine whether each frame of the first target signal U is in a period in which the speech exists or in a state in which the speech is not speech, using the minimum value control recursive averaging algorithm including the operations expressed by the equations (23) It is possible to output whether or not the section is not present.

제1 잡음 제거부(107)는 제1 잡음 신호(B1,B2,B3)를 이용하여 제1 목표 신호(U)의 잔여 잡음 신호를 추가적으로 제거한 결과인 제2 목표 신호(Y)를 추출한다. 이때, 제1 목표 신호(U)에 포함된 제2 목표 신호(Y)가 왜곡 없이 출력될수록, 잔여 잡음 신호가 최소화되어 출력될수록, 보다 효과적인 음성 인식이 이루어질 수 있다. 한편, 제1 잡음 신호(B1,B2,B3)에는 제거되지 못한 잔여 음성 신호가 존재한다. 이때, 제1 잡음 신호(B1,B2,B3)에 포함된 잔여 음성 신호가 최소화될수록 제2 목표 신호(Y)가 왜곡 없이 출력될 수 있다. 제1 잡음 제거부(107)는 제1 목표 신호(U)의 잔여 잡음 신호를 제거하기 위하여, 위너 필터(Wiener Filter)를 이용할 수 있다.The first noise removing unit 107 extracts the second target signal Y which is a result of additionally removing the residual noise signal of the first target signal U using the first noise signals B1, B2, and B3. At this time, as the second target signal Y included in the first target signal U is output without distortion, and the residual noise signal is minimized and output, more effective speech recognition can be performed. On the other hand, there are residual audio signals that can not be removed in the first noise signals B1, B2, and B3. At this time, as the residual voice signal included in the first noise signals B1, B2, and B3 is minimized, the second target signal Y can be output without distortion. The first noise removing unit 107 may use a Wiener filter to remove the residual noise signal of the first target signal U. [

먼저, 제1 잡음 제거부(107)는 수학식 28에 나타난 바와 같이, 제1 잡음 신호(B1,B2,B3)의 벡터(b)를 잔여 음성 신호가 존재하는 구간 및 잔여 음성 신호가 존재하지 않는 구간으로 구분하여 정의할 수 있다.First, the first noise removing unit 107 multiplies the vector (b) of the first noise signals B1, B2, and B3 by the interval of the residual voice signal and the residual voice signal It is possible to define them separately.

Figure 112012037887347-pat00017
Figure 112012037887347-pat00017

b는 제1 잡음 신호 벡터, s는 제1 잡음 신호에 포함된 잔여 음성 신호 벡터, v는 제1 잡음 신호에 포함된 제2 잡음 신호 벡터를 의미한다.b is a first noise signal vector, s is a residual speech signal vector included in the first noise signal, and v is a second noise signal vector included in the first noise signal.

한편, 제1 잡음 제거부(107)는 수학식 29에 나타난 연산을 통해 제2 목표 신호(y)를 추출할 수 있다. 수학식 29는 제1 목표 신호(u), 제1 잡음 신호(b), 위너 필터의 가중치 파라미터(w)를 이용하여 제2 목표 신호(y)를 연산한 식을 나타낸다.On the other hand, the first noise removing unit 107 may extract the second target signal y through the calculation shown in Equation (29). Equation 29 shows an equation for calculating the second target signal y using the first target signal u, the first noise signal b, and the weight parameter w of the Wiener filter.

Figure 112012037887347-pat00018
Figure 112012037887347-pat00018

u는 제1 목표 신호, b는 제1 잡음 신호 벡터, w는 위너 필터의 가중치 파라미터, y는 제2 목표 신호, Jk는 비용 함수를 의미한다. 비용 함수(Jk)는 제1 잡음 신호(b)에 포함된 잔여 음성 신호 벡터를 최소화하기 위한 계수인 μ를 포함할 수 있다. u refers to the first target signal, b is the first noise signal vector, w is a weighting parameter of the Wiener filter, y is the second target signal, the cost function J k. The cost function (J k) may include a coefficient of μ in order to minimize the residual speech signal vector that contains the first noise signal (b).

한편, 비용 함수(Jk)가 최소가 되어야, 제2 목표 신호(y)가 최적화될 수 있다. 다시 말하면, 비용 함수(Jk)가 최소일 때, 제2 목표 신호(y)에서 음성이 존재하지 않는 부분이 최소가 될 수 있다. 비용 함수(Jk)를 최소화하기 위한 위너 필터의 가중치 파라미터(w)는 수학식 30과 같다.On the other hand, the second target signal y can be optimized only when the cost function J k is minimized. In other words, when the cost function J k is the minimum, the portion in which no speech exists in the second target signal y can be minimized. The weight parameter (w) of the Wiener filter for minimizing the cost function (J k ) is shown in Equation (30).

Figure 112012037887347-pat00019
Figure 112012037887347-pat00019

이때, 위너 필터의 가중치 파라미터(w)를 연산하기 위한 수학식 30에 수학식 31의 결과를 대입할 수 있다.At this time, the result of Equation (31) can be substituted into Equation (30) for calculating the weight parameter (w) of the Wiener filter.

Figure 112012037887347-pat00020
Figure 112012037887347-pat00020

수학식 31은 수학식 28의 정의를 이용한 결과로서, 잔여 음성 신호가 존재하는 구간의 제1 잡음 신호의 공분산과 잔여 음성 신호가 존재하지 않는 구간의 제1 잡음 신호의 공분산을 의미한다. 이와 같이, 잔여 음성 신호의 존재 여부에 따른 공분산 연산 결과를 위너 필터의 가중치 파라미터(w) 연산에 적용함으로써, 음성 부존재 구간에서 제1 목표 신호의 에너지를 최소화할 수 있다. 즉, 음성 부존재 구간에서 제1 목표 신호의 에너지가 최소화됨으로써, 제1 목표 신호의 잔여 잡음 신호가 최소화될 수 있다.Equation (31) represents the covariance of the first noise signal in the interval in which the residual speech signal exists and the covariance of the first noise signal in the interval in which the residual speech signal does not exist as a result of using the definition of Equation (28). In this manner, by applying the covariance calculation result depending on the presence or absence of the residual speech signal to the weight parameter (w) calculation of the Wiener filter, the energy of the first target signal can be minimized in the speech non-existence period. In other words, the energy of the first target signal is minimized in the non-speech region, so that the residual noise signal of the first target signal can be minimized.

제2 잡음 제거부(109)는 제2 목표 신호(Y)를 수신한 후, 제2 목표 신호(Y)에 남아 있는 잡음을 추가로 제거하여 인식 대상인 음성 신호와 가장 비슷한 제3 목표 신호(

Figure 112012037887347-pat00021
)를 출력한다. 제2 잡음 제거부(109)는 제3 목표 신호(
Figure 112012037887347-pat00022
)를 출력하기 위하여 제2 목표 신호(Y)에 최소값 제어 재귀 평균 알고리즘을 적용하여 음성 존재 확률을 출력할 수 있다. 또한, 제2 잡음 제거부(109)는 제2 목표 신호(Y)에 최소 평균 제곱 오차(Minimum-mean square error) 알고리즘을 적용하여 제2 목표 신호(Y)의 잡음을 제거할 수 있다. 또한, 제2 잡음 제거부(109)는 제2 목표 신호(Y)에 끝점 검출(end-point detection) 알고리즘을 적용하여 제2 목표 신호(Y)에 포함된 음성 신호 즉, 제3 목표 신호(
Figure 112012037887347-pat00023
)의 시작점 및 종료점을 검출할 수 있다.After receiving the second target signal Y, the second noise removing unit 109 further removes the noise remaining in the second target signal Y to generate a third target signal
Figure 112012037887347-pat00021
). The second noise removing unit 109 receives the third target signal (
Figure 112012037887347-pat00022
The second target signal Y may be output with a voice presence probability by applying a minimum value control recursive averaging algorithm to the second target signal Y. [ The second noise removing unit 109 may remove the noise of the second target signal Y by applying a minimum-mean square error algorithm to the second target signal Y. [ The second noise removing unit 109 applies an end-point detection algorithm to the second target signal Y to generate a speech signal included in the second target signal Y, that is, a third target signal
Figure 112012037887347-pat00023
Can be detected.

음성 인식부(111)는 제2 잡음 제거부(109)에서 출력된 제3 목표 신호(

Figure 112012037887347-pat00024
)를 수신하여, 사용자가 IPTV 등을 제어하기 위하여 전송한 음성 신호를 인식할 수 있다. 예컨대, 음성 인식부(111)는 제3 목표 신호(
Figure 112012037887347-pat00025
)에 HMM(Hidden Markov Model) 알고리즘을 적용함으로써, 복수의 마이크로폰(mic1,mic2,mic3,mic4)이 수신한 혼합 신호 중 IPTV 제어를 위한 음성 신호를 인식할 수 있다.
The speech recognition unit 111 receives the third target signal (the second target signal) output from the second noise removing unit 109
Figure 112012037887347-pat00024
), And can recognize a voice signal transmitted by a user to control IPTV or the like. For example, the speech recognition unit 111 receives the third target signal (
Figure 112012037887347-pat00025
), It is possible to recognize a voice signal for IPTV control among mixed signals received by a plurality of microphones (mic1, mic2, mic3, mic4) by applying an HMM (Hidden Markov Model)

다음은 도 2를 참조하여 본 발명의 일 실시 예에 따른 잡음 제거 방법을 설명한다.Next, a noise removal method according to an embodiment of the present invention will be described with reference to FIG.

도 2는 본 발명의 일 실시 예와 관련된 잡음 제거 방법의 흐름도이다.2 is a flow chart of a noise removal method in accordance with an embodiment of the present invention.

복수의 마이크로폰(mic1,mic2,mic3,mic4)은 혼합 신호를 수신한다(S201). 음성 인식을 이용한 IPTV 작동 제어를 위하여, IPTV는 음성 신호를 수신하는 마이크로폰을 포함한다. IPTV는 효과적인 음성 인식을 위하여 적어도 하나 이상의 마이크로폰을 포함할 수 있다. 혼합 신호는 IPTV 제어를 위한 음성 신호뿐만 아니라, 일상 생활에서 발생하는 모든 종류의 잡음 신호를 포함할 수 있다.The plurality of microphones (mic1, mic2, mic3, mic4) receives the mixed signal (S201). For IPTV operation control using voice recognition, IPTV includes a microphone for receiving voice signals. IPTV may include at least one microphone for effective speech recognition. The mixed signal can include all kinds of noise signals that occur in everyday life as well as voice signals for IPTV control.

기기 음향 제거부(미도시됨)는 혼합 신호에서 기기 음향을 제거하여 입력 신호(X1,X2,X3,X4)를 생성한다(S203). 예컨대, IPTV 작동 제어를 위한 음성 인식의 경우, 기기 음향은 IPTV 작동시 발생하는 소리를 의미한다.The device acoustic de-rejection (not shown) removes the device sound in the mixed signal to generate the input signals X1, X2, X3, and X4 (S203). For example, in the case of voice recognition for IPTV operation control, device sound refers to sound that occurs during IPTV operation.

목표 신호 추출부(101)는 복수의 입력 신호(X1,X2,X3,X4)를 수신하여, 입력 신호(X1,X2,X3,X4)를 백색화하는 연산을 실행한다(S205). 수학식 5를 참조하면, 목표 신호 추출부(101)는 백색화 연산을 통하여 복수의 입력 신호(X1,X2,X3,X4)들의 상관 관계를 제거함으로써, 제1 목표 신호(U)를 보다 효과적으로 복수의 입력 신호(X1,X2,X3,X4)로부터 분리할 수 있다. 제1 목표 신호(U)는 예컨대, IPTV 작동 제어를 위하여 인식되어야 하는 음성 신호를 포함할 수 있다.The target signal extracting unit 101 receives a plurality of input signals X1, X2, X3 and X4 and performs an operation of whitening the input signals X1, X2, X3 and X4 (S205). Referring to Equation (5), the target signal extracting unit 101 removes the correlation between the plurality of input signals X1, X2, X3, and X4 through the whitening operation, Can be separated from the plurality of input signals (X1, X2, X3, X4). The first target signal U may comprise, for example, a voice signal that should be recognized for IPTV operation control.

이어서, 목표 신호 추출부(101)는 독립 벡터 분석 학습 규칙을 이용하여 백색화된 입력 신호로부터 제1 분리 벡터(w1)를 결정한다(S207). 독립 벡터 분석 학습 규칙은 독립 성분 분석 문제를 주파수 영역으로 확장한 개념으로써, 목표 신호 추출부(101)는 수학식 11의 벡터 상관도 및 벡터 상호 정보에 따른 비용 함수, 수학식 12의 최대경사법 알고리즘, 수학식 13의 뉴턴 알고리즘을 이용하여, 제1 분리 벡터(w1)를 결정할 수 있다.Subsequently, the target signal extracting unit 101 determines a first separation vector w1 from the whitened input signal using the independent vector analysis learning rule (S207). The independent vector analysis learning rule is an extension of the independent component analysis problem to the frequency domain. The target signal extracting unit 101 extracts a cost function according to the vector correlation and vector mutual information of Equation (11), a maximum likelihood algorithm , The Newton algorithm of Equation (13) can be used to determine the first separation vector w1.

이어서, 목표 신호 추출부(101)는 제1 분리 벡터(w1)를 이용하여 입력 신호(X1,X2,X3,X4)로부터 제1 목표 신호(U)를 추출한다(S209). Subsequently, the target signal extracting unit 101 extracts the first target signal U from the input signals X1, X2, X3, and X4 using the first separation vector w1 (S209).

목표 신호 제거부(103)는 복수의 입력 신호(X1,X2,X3,X4)를 수신하여, 입력 신호(X1,X2,X3,X4)를 백색화하는 연산을 실행한다(S205).The target signal removing unit 103 receives a plurality of input signals X1, X2, X3 and X4 and performs an operation of whitening the input signals X1, X2, X3 and X4 (S205).

이어서, 목표 신호 제거부(103)는 독립 벡터 분석 학습 규칙을 이용하여 백색화된 입력 신호로부터 제2 분리 벡터(w2)를 결정한다(S211). 독립 벡터 분석 학습 규칙은 도면 부호 S207 단계에서 설명한 바와 동일하므로, 이하 생략한다.Next, the target signal remover 103 determines a second separation vector w2 from the whitened input signal using the independent vector analysis learning rule (S211). Since the independent vector analysis learning rule is the same as that described in step S207, it is omitted here.

이어서, 목표 신호 제거부(103)는 제2 분리 벡터(w2)를 이용하여 입력 신호(X1,X2,X3,X4)로부터 제1 잡음 신호(B1,B2,B3)를 추출한다(S213). 목표 신호 제거부(103)는 목표 신호 추출부(101)와 반대로 예컨대, IPTV 작동 제어를 위하여 인식되어야 하는 음성 신호를 제외한 나머지 잡음을 추출함으로써, 목표 신호를 제거할 수 있다. 따라서, 목표 신호 제거부(103)는 수학식 11, 목표 신호 추출부(101)에서 이용하는 수학식 12의 최대경사법 알고리즘과 부호만 반대인 수학식 14, 수학식 13을 이용하여, 제2 분리 벡터(w2)를 결정할 수 있다.Subsequently, the target signal removing unit 103 extracts the first noise signals B1, B2, and B3 from the input signals X1, X2, X3, and X4 using the second separation vector w2 (S213). The target signal removing unit 103 can remove the target signal by extracting the remaining noise except for the voice signal that should be recognized for the IPTV operation control, for example, as opposed to the target signal extracting unit 101. [ Therefore, the target signal removing unit 103 uses the equations (11) and (14) and (13), which are opposite in sign only to the maximum permutation algorithm of Equation (12) used in the target signal extracting unit (101) (w2).

검출부(105)는 최소 값 제어 재귀 평균 알고리즘을 이용하여 제1 목표 신호(U)로부터 제1 목표 신호(U)의 음성 존재 확률 정보(P)을 출력한다(S215). 검출부(105)는 수학식 23의 에너지 스펙트럼(P(k,l)) 추출 연산, 수학식 24의 최소 에너지 스펙트럼(Pmin(k,l)) 결정 연산, 수학식 25의 에너지 스펙트럼 갱신 연산, 수학식 26의 현재 에너지 스펙트럼 성분(P(k,l))에 대한 최소 에너지 스펙트럼(Pmin(k,l))의 비율 연산, 수학식 27의 음성 존재 확률(

Figure 112012037887347-pat00026
) 연산을 이용하여, 제1 목표 신호(U)의 음성 존재 확률 정보(P)을 출력할 수 있다.The detection unit 105 outputs the voice existence probability information P of the first target signal U from the first target signal U using the minimum value control recursive averaging algorithm (S215). The detection unit 105 calculates an energy spectrum (P (k, l)) extraction operation of Equation 23, a minimum energy spectrum Pmin (k, l) determination operation of Equation 24, an energy spectrum update operation of Equation (K, l) for the current energy spectrum component P (k, l) of Equation 26, the ratio of the minimum energy spectrum Pmin
Figure 112012037887347-pat00026
) Operation, the voice presence probability information P of the first target signal U can be output.

제1 잡음 제거부(107)는 제1 잡음 신호 벡터(b)를 수학식 28과 같이 잔여 음성 신호의 존재 또는 부존재 구간으로 구분하고, 수학식 31을 이용하여 잔여 음성 신호가 존재하는 구간에서 제1 잡음 신호 벡터(b)의 공분산을 계산하고(S217), 잔여 음성 신호가 존재하지 않는 구간에서 제1 잡음 신호 벡터(b)의 공분산을 계산한다(S219). The first noise canceller 107 divides the first noise signal vector b into the presence or absence of a residual voice signal as shown in Equation 28, The covariance of the first noise signal vector b is calculated in step S217, and the covariance of the first noise signal vector b is calculated in the absence of the remaining speech signal in step S219.

제1 잡음 제거부(107)는 제1 잡음 신호 벡터(b)의 공분산 연산 결과를 이용하여 음성 부존재 구간에서 제1 목표 신호(u)의 에너지가 최소가 되는 가중치 파라미터(w)를 결정한다(S221). 제1 잡음 제거부(107)는 가중치 파라미터(w)를 연산하기 위하여 수학식 30을 이용할 수 있다.The first noise eliminator 107 determines a weight parameter w that minimizes the energy of the first target signal u in the speech absence period using the covariance calculation result of the first noise signal vector b S221). The first noise removing unit 107 may use Equation (30) to calculate the weight parameter w.

제1 잡음 제거부(107)는 제1 목표 신호(u)로부터 제1 잡음 신호(b)에 가중치 파라미터(w)를 연산한 신호를 제거한 결과, 제2 목표 신호(y)를 생성한다(S223). 제1 잡음 제거부(107)는 제2 목표 신호(y)를 생성하기 위하여 수학식 29를 이용할 수 있다. 이때, 제1 목표 신호(u)에서 제1 잡음 신호(b)에 가중치 파라미터(w)를 연산한 신호가 제거되면, 제1 목표 신호(u)에 포함된 음성 신호의 왜곡은 최소화되고, 제1 목표 신호(u)에 포함된 잡음은 최소화될 수 있으므로, 음성 인식부(111)에 보다 깨끗한 음성 신호를 전송할 수 있다.The first noise removing unit 107 generates the second target signal y as a result of removing the signal obtained by calculating the weight parameter w from the first target signal u to the first noise signal b ). The first noise remover 107 may use Equation 29 to generate the second target signal y. At this time, if the signal obtained by calculating the weight parameter w from the first target signal u is removed, the distortion of the audio signal included in the first target signal u is minimized, 1 target signal u can be minimized, it is possible to transmit a cleaner voice signal to the voice recognition unit 111

참고로, 제2 목표 신호(y)에 포함된 잡음을 추가적으로 제거하기 위하여, 본 발명의 일 실시 예에 따른 잡음 제거 장치에 제2 잡음 제거부(109)가 부가될 수 있다. 제2 잡음 제거부(109)는 최소 값 제어 재귀 평균 알고리즘 및 최소 평균 제곱 오차 알고리즘을 이용하여 제2 목표 신호(y)의 잡음을 제거한 제3 목표 신호(

Figure 112012037887347-pat00027
)를 생성한다(S225).For reference, a second noise canceller 109 may be added to the noise canceller according to an embodiment of the present invention to additionally remove the noise included in the second target signal y. The second noise eliminator 109 subtracts the noise of the second target signal y from the third target signal y using the minimum value control recursive averaging algorithm and the minimum mean square error algorithm
Figure 112012037887347-pat00027
(S225).

음성 인식부(111)는 제2 목표 신호(y) 또는 제3 목표 신호(

Figure 112012037887347-pat00028
)를 수신한 후, 음성 신호를 인식한다(S227).
The speech recognition unit 111 receives the second target signal y or the third target signal y
Figure 112012037887347-pat00028
(Step S227).

다음은 도 3을 참조하여 본 발명의 일 실시 예에 따른 잡음 제거 장치의 구조를 설명한다.Next, a structure of a noise removing apparatus according to an embodiment of the present invention will be described with reference to FIG.

도 3 내지 도 5는 본 발명의 일 실시 예와 관련된 잡음 제거 장치의 효과를 설명하기 위한 도면이다.FIGS. 3 to 5 are views for explaining the effect of the noise removing apparatus according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 잡음 제거 장치의 효과를 설명하기 위하여 복수의 마이크로폰(301)이 다양한 음향 신호를 수신하는 경우를 시뮬레이션 환경으로 설정한다. 시뮬레이션 환경에서, 2 개의 IPTV 스피커(303)가 IPTV의 복수의 마이크로폰(301)으로부터 0.3m 떨어진 위치에 180°방향으로 각각 놓여 있고, 복수의 마이크로폰(301)으로부터 1.5m 떨어진 위치에 정면으로 음성 신호의 음원(S)이 있다. 다양한 종류의 잡음원(N)들이 복수의 마이크로폰(301)으로부터 1.5m 떨어진 위치에 30°간격으로 반원을 그리며 놓여 있다. 다양한 종류의 잡음원(N)들은 예컨대, 자동차 엔진 소리, 음악 소리, 음성 데이터베이스 예컨대, TIMIT 데이터베이스에 포함된 남녀 음성 신호를 포함할 수 있다.Referring to FIG. 3, in order to explain the effect of the noise canceling apparatus according to an embodiment of the present invention, a case where a plurality of microphones 301 receive various sound signals is set as a simulation environment. In the simulation environment, two IPTV speakers 303 are placed in the 180 占 direction at positions 0.3 m away from the plurality of microphones 301 of the IPTV, (S). Various types of noise sources N are placed in a semicircle at intervals of 30 degrees at a distance of 1.5 m from the plurality of microphones 301. Various types of noise sources N may include, for example, automobile engine sounds, music sounds, voice databases, e.g., male and female voice signals included in the TIMIT database.

본 발명의 일 실시 예에 따른 잡음 제거 장치는 위와 같은 시뮬레이션 환경에서 복수의 마이크로폰(301)이 수신한 혼합 신호로부터 음성 신호를 분리하여 추출한 후 인식한다. 이때, 기기 음향 제거부는 독립 성분 분석 알고리즘을 이용하여 IPTV 스피커(303)에서 발생하는 소리를 제거하고, 음성 인식부(111)는 HMM 알고리즘을 이용하여 음성을 인식한다.The noise removal apparatus according to an embodiment of the present invention separates and extracts a speech signal from a mixed signal received by a plurality of microphones 301 in the above simulation environment, and recognizes the speech signal. At this time, the device acoustics removal unit removes the sound generated in the IPTV speaker 303 using an independent component analysis algorithm, and the voice recognition unit 111 recognizes the voice using the HMM algorithm.

도 4 및 도 5를 참조하면, 시뮬레이션 적용 결과, 사용자(S)의 음성 신호 대 IPTV 스피커(303)에서 발생하는 기기 음향 간의 신호 대 잡음비(SNR, Signal to Noise Ratio)가 5dB일 때, 사용자(S)의 음성 신호 대 다양한 종류의 잡음원(N)에서 발생하는 잡음의 신호 대 잡음비(NOISE-SNR)에 따른 단어 인식률을 비교할 수 있다. 이때, 음성 신호 대 잡음비(NOISE-SNR)가 0(zero)인 경우는, 음성 신호의 크기와 잡음의 크기가 동일한 경우를 의미하고, 음성 신호 대 잡음비(NOISE-SNR)가 커질수록 음성 신호의 크기가 잡음의 크기보다 커진다.Referring to FIGS. 4 and 5, as a result of applying the simulation, when the signal-to-noise ratio (SNR) between the audio signal of the user S and the audio of the device generated by the IPTV speaker 303 is 5 dB, S) and the word recognition rate according to the noise-to-noise ratio (NOISE-SNR) of noise generated in various kinds of noise sources (N). In this case, when the voice signal-to-noise ratio (NOISE-SNR) is 0 (zero), it means that the size of the voice signal is equal to the size of the noise. When the voice signal to noise ratio (NOISE-SNR) The size is larger than the noise size.

마이크로폰(mic) 입력은 복수의 마이크로폰(mic1,mic2,mic3,mic4)이 수신한 혼합 신호, 기기 음향 제거 출력은 혼합 신호에서 기기 음향이 제거된 신호, 제1 목표 신호(U)는 목표 신호 추출부(101)가 출력한 신호, 제2 목표 신호(Y)는 제 잡음 제거부(107)가 출력한 신호, 제3 목표 신호(

Figure 112012037887347-pat00029
)는 제2 잡음 제거부(109)가 출력한 신호를 의미한다.A microphone (mic) input is a mixed signal received by a plurality of microphones (mic1, mic2, mic3, mic4), a device acoustic elimination output is a signal in which a device sound is removed from a mixed signal, a first target signal The second target signal Y is a signal output from the noise removing unit 107 and the third target signal Y
Figure 112012037887347-pat00029
) Denotes a signal output from the second noise removing unit 109.

시뮬레이션 결과, 본 발명의 일 실시 예에 따른 잡음 제거 방법의 각 단계별 출력을 비교하면, 본 발명의 일 실시 예에 따른 잡음 제거 방법이 음성 인식에 효과적이며 특히, 음성 인식 환경이 나쁜 경우 예컨대, 음성 신호 대 잡음비(NOISE-SNR)가 0(zero)인 경우에도 본 발명의 일 실시 예에 따른 잡음 제거 방법을 적용하면 음성 인식률이 점점 좋아진다
As a result of the simulation, comparing the output of each stage of the noise reduction method according to an embodiment of the present invention, the noise reduction method according to an embodiment of the present invention is effective for speech recognition. In particular, when the speech recognition environment is bad, Even when the NOISE-SNR is zero, the speech recognition rate is gradually improved by applying the noise reduction method according to an embodiment of the present invention

본 발명의 일 실시 예에 의하면, 전술한 방법은 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다.According to an embodiment of the present invention, the above-described method can be implemented as a code that can be read by a processor on a medium on which the program is recorded.

상기와 같이 설명된 잡음 제거 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수 있다.The above-described noise canceller may be applied to not only the configuration and the method of the embodiments described above but also all or some of the embodiments may be selectively combined so that various modifications may be made. .

Claims (10)

입력 신호의 잡음을 제거하는 장치에 있어서,
제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 목표 신호 추출부;
제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 목표 신호 제거부;
상기 제1 목표 신호의 음성 구간 정보를 추출하는 검출부; 및
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하고, 상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 제1 잡음 제거부를 포함하며,
상기 검출부는
최소 값 제어 재귀 평균 알고리즘을 이용하여 상기 음성 구간 정보를 추출하는
잡음 제거 장치.
1. An apparatus for eliminating noise in an input signal,
A target signal extractor for extracting a first target signal from the input signal using a first separation vector;
A target signal removing unit for extracting a first noise signal from the input signal using a second separation vector;
A detector for extracting voice interval information of the first target signal; And
And a first noise canceller for calculating a weight from the first noise signal using the speech interval information and removing noise from the first target signal using the weight,
The detection unit
Extracting the speech interval information using a minimum value control recursive averaging algorithm
Noise canceling device.
입력 신호의 잡음을 제거하는 장치에 있어서,
제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 목표 신호 추출부;
제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 목표 신호 제거부;
상기 제1 목표 신호의 음성 구간 정보를 추출하는 검출부; 및
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하고, 상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 제1 잡음 제거부를 포함하며,
상기 제1 잡음 제거부는
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호를 공분산 연산하고, 상기 제1 잡음 신호의 공분산 연산 결과를 이용하여 상기 가중치를 연산하는
잡음 제거 장치.
1. An apparatus for eliminating noise in an input signal,
A target signal extractor for extracting a first target signal from the input signal using a first separation vector;
A target signal removing unit for extracting a first noise signal from the input signal using a second separation vector;
A detector for extracting voice interval information of the first target signal; And
And a first noise canceller for calculating a weight from the first noise signal using the speech interval information and removing noise from the first target signal using the weight,
The first noise removing unit
The first noise signal is covaried using the speech interval information, and the weight value is calculated using the result of the covariance calculation of the first noise signal
Noise canceling device.
제1 항 또는 제2 항에 있어서,
상기 목표 신호 제거부는
독립 벡터 분석 알고리즘을 이용하여 상기 입력 신호로부터 상기 제2 분리 벡터를 결정하는
잡음 제거 장치.
3. The method according to claim 1 or 2,
The target signal removing unit
Determining the second separation vector from the input signal using an independent vector analysis algorithm
Noise canceling device.
제1 항 또는 제2 항에 있어서,
상기 목표 신호 추출부는
독립 벡터 분석 알고리즘을 이용하여 상기 입력 신호로부터 상기 제1 분리 벡터를 결정하는
잡음 제거 장치.
3. The method according to claim 1 or 2,
The target signal extracting unit
Determining the first separation vector from the input signal using an independent vector analysis algorithm
Noise canceling device.
삭제delete 입력 신호의 잡음을 제거하는 방법에 있어서,
제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 단계;
제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 단계;
상기 제1 목표 신호의 음성 구간 정보를 추출하는 단계;
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하는 단계; 및
상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 단계를 포함하며,
상기 음성 구간 정보를 추출하는 단계는
최소 값 제어 재귀 평균 알고리즘을 이용하여 상기 음성 구간 정보를 추출하는 단계를 포함하는
잡음 제거 방법.
A method for eliminating noise in an input signal,
Extracting a first target signal from the input signal using a first separation vector;
Extracting a first noise signal from the input signal using a second separation vector;
Extracting voice interval information of the first target signal;
Calculating a weight from the first noise signal using the speech interval information; And
And removing noise from the first target signal using the weight,
The step of extracting the voice section information
And extracting the speech interval information using a minimum value control recursive averaging algorithm
Noise canceling method.
입력 신호의 잡음을 제거하는 방법에 있어서,
제1 분리 벡터를 이용하여 상기 입력 신호로부터 제1 목표 신호를 추출하는 단계;
제2 분리 벡터를 이용하여 상기 입력 신호로부터 제1 잡음 신호를 추출하는 단계;
상기 제1 목표 신호의 음성 구간 정보를 추출하는 단계;
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호로부터 가중치를 연산하는 단계; 및
상기 가중치를 이용하여 상기 제1 목표 신호로부터 잡음을 제거하는 단계를 포함하며,
상기 가중치를 연산하는 단계는
상기 음성 구간 정보를 이용하여 상기 제1 잡음 신호를 공분산 연산하는 단계; 및
상기 공분산 연산 결과를 이용하여 상기 가중치를 연산하는 단계를 포함하는
잡음 제거 방법.
A method for eliminating noise in an input signal,
Extracting a first target signal from the input signal using a first separation vector;
Extracting a first noise signal from the input signal using a second separation vector;
Extracting voice interval information of the first target signal;
Calculating a weight from the first noise signal using the speech interval information; And
And removing noise from the first target signal using the weight,
The step of computing the weights
Covariance-calculating the first noise signal using the speech interval information; And
And calculating the weight using the result of the covariance calculation
Noise canceling method.
제6 항 또는 제7 항에 있어서,
상기 제1 잡음 신호를 추출하는 단계는
독립 벡터 분석 알고리즘을 이용하여 상기 입력 신호로부터 상기 제2 분리 벡터를 결정하는 단계를 포함하는
잡음 제거 방법.
8. The method according to claim 6 or 7,
The step of extracting the first noise signal
And determining the second separation vector from the input signal using an independent vector analysis algorithm
Noise canceling method.
제6 항 또는 제7 항에 있어서,
상기 제1 목표 신호를 추출하는 단계는
독립 벡터 분석 알고리즘을 이용하여 상기 입력 신호로부터 상기 제1 분리 벡터를 결정하는 단계를 포함하는
잡음 제거 방법.
8. The method according to claim 6 or 7,
The step of extracting the first target signal
Determining the first separation vector from the input signal using an independent vector analysis algorithm
Noise canceling method.
삭제delete
KR1020120050356A 2012-05-11 2012-05-11 Apparatus and method for removing noise KR101966175B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120050356A KR101966175B1 (en) 2012-05-11 2012-05-11 Apparatus and method for removing noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120050356A KR101966175B1 (en) 2012-05-11 2012-05-11 Apparatus and method for removing noise

Publications (2)

Publication Number Publication Date
KR20130126318A KR20130126318A (en) 2013-11-20
KR101966175B1 true KR101966175B1 (en) 2019-04-05

Family

ID=49854439

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120050356A KR101966175B1 (en) 2012-05-11 2012-05-11 Apparatus and method for removing noise

Country Status (1)

Country Link
KR (1) KR101966175B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102218151B1 (en) * 2019-05-30 2021-02-23 주식회사 위스타 Target voice signal output apparatus for improving voice recognition and method thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101650951B1 (en) * 2009-12-04 2016-08-25 엘지전자 주식회사 Methods for separating mixed sigals

Also Published As

Publication number Publication date
KR20130126318A (en) 2013-11-20

Similar Documents

Publication Publication Date Title
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
Heymann et al. Performance of mask based statistical beamforming in a smart home scenario
JP2011191759A (en) Speech recognition system and speech recognizing method
Sehr et al. Towards a better understanding of the effect of reverberation on speech recognition performance
Nakajima et al. An easily-configurable robot audition system using histogram-based recursive level estimation
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Wang et al. Distant-talking speech recognition based on spectral subtraction by multi-channel LMS algorithm
Li et al. Multichannel online dereverberation based on spectral magnitude inverse filtering
Luo A time-domain real-valued generalized wiener filter for multi-channel neural separation systems
Wang et al. Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training
Seltzer Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays
KR101811716B1 (en) Method for voice recognition and apparatus for voice recognition thereof
KR101966175B1 (en) Apparatus and method for removing noise
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
KR101610708B1 (en) Voice recognition apparatus and method
Kumatani et al. Maximum kurtosis beamforming with a subspace filter for distant speech recognition
Dietzen et al. Speech dereverberation by data-dependent beamforming with signal pre-whitening
Schwarz et al. On blocking matrix-based dereverberation for automatic speech recognition
Kavalekalam et al. Model based binaural enhancement of voiced and unvoiced speech
Haeb‐Umbach et al. Reverberant speech recognition
Giri et al. A novel target speaker dependent postfiltering approach for multichannel speech enhancement
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments
Aprilyanti et al. Optimized joint noise suppression and dereverberation based on blind signal extraction for hands-free speech recognition system
May Influence of binary mask estimation errors on robust speaker identification
Wu et al. Improved speaker-dependent separation for chime-5 challenge

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant