KR102033069B1

KR102033069B1 - 음향 반향 제거 방법 및 장치, 그리고 음향 반향 제거 장치의 적응 필터 계수 업데이트 방법

Info

Publication number: KR102033069B1
Application number: KR1020130118051A
Authority: KR
Inventors: 김현우; 김도영; 전우직
Original assignee: 한국전자통신연구원
Priority date: 2012-10-23
Filing date: 2013-10-02
Publication date: 2019-10-16
Also published as: KR20140051777A

Abstract

본 발명의 실시예에 따르면 원화자 신호에 의해 야기되는 음향 반향 신호를 제거하는 장치가 제공된다. 상기 음향 반향 제거 장치는, 근화자 신호의 제1 음성 신호의 분산과 상기 근화자 신호의 제1 잡음 신호의 분산을 추정하는 분산 추정부; 상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산을 이용해 스텝 사이즈를 결정하는 스텝 사이즈 결정부; 상기 스텝 사이즈를 이용해 적응 필터의 적응 필터 계수를 업데이트하는 적응 필터 계수 업데이트부; 및 상기 적응 필터 계수를 이용해 음향 반향 신호를 추정하고, 상기 음향 반향 신호의 추정을 통해 생성된 추정 음향 반향 신호를 이용해 마이크 입력 신호에서 상기 음향 반향 신호를 제거하는 음향 반향 제거부를 포함한다. 여기서 상기 스텝 사이즈 결정부는 제1 잔차 신호가 상기 근화자 신호와 같아지도록 상기 스텝 사이즈를 결정한다. 상기 제1 잔차 신호는 상기 추정 음향 반향 신호인 제1 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호이다.

Description

음향 반향 제거 방법 및 장치, 그리고 음향 반향 제거 장치의 적응 필터 계수 업데이트 방법{METHOD AND APPARATUS FOR CANCELLING ACOUSTIC ECHO, AND METHOD FOR UPDATING ADAPTIVE FILTER COEFFICIENT BY THE APPRATUS}

본 발명은 음향 반향(acoustic echo) 신호를 제거하는 음향 반향 제거 방법 및 장치에 관한 것이다.

음향 반향 제거 장치(AEC: Acoustic Echo Canceller)는 영상 통화, 화상 회의 등에서 스피커로부터 나온 음성 신호가 직접적으로 또는 간접적(벽이나 주변 물체와의 반사를 통해)으로 마이크로 재입력되어, 자신의 목소리가 다시 들리는 음향 반향(acoustic echo)을 제거한다. 음향 반향 제거 장치가 음향 반향을 제거함에 있어서, 음향 반향가 생성되는 경로(RIR: Room Impulse Response)를 정확히 추정하는 것이 매우 중요하다. 음향 반향 제거 장치는 일반적으로 적응 필터(Adaptive Filter)를 사용하여 음향 반향 생성 경로(RIR)를 추정하고, 추정 음향 반향 신호를 생성한다. 그리고 음향 반향 제거 장치는 실제 음향 반향 신호에서 추정 음향 반향 신호를 빼줌으로써, 음향 반향을 제거한다.

음향 반향 생성 경로(RIR)를 추정하기 위한 적응 필터의 적응 필터 계수를 업데이트하는 방법에는 RLS(Recursive Least Square) 알고리즘을 이용한 방법, LMS(Least Mean Square) 알고리즘을 이용한 방법, NLMS(Normalized Least Mean Square) 알고리즘을 이용한 방법, 인접 투사(Affine Projection) 알고리즘을 이용한 방법 등이 있다. 업데이트 방법 각각은 시간 영역에서뿐만 아니라 주파수 영역과 서브밴드(Subband) 영역에서도 구현된다. 대부분의 음향 반향 제거 장치는 적은 계산량과 구현의 용이함 때문에 NLMS 알고리즘을 많이 이용한다. 한편, NLMS 알고리즘은 적응 필터 계수를 업데이트하는 경우에 스텝 사이즈(Step Size) 파라미터를 필요로 한다. 만약 스텝 사이즈가 크면, 음향 반향 생성 경로가 더 빨리 추정될 수 있지만, 추정된 음향 반향 생성 경로와 실제 음향 반향 생성 경로 간의 오차는 더 커진다. 반대로, 만약 스텝 사이즈가 작으면, 음향 반향 생성 경로가 더욱 정확하게 추정되지만, 추정을 위한 시간이 더 많이 필요하게 된다. 따라서 추정된 음향 반향 생성 경로가 실제 음향 반향 생성 경로로 얼만큼 빨리 수렴하는지에 관한 수렴 속도와 추정된 음향 반향 신호의 정확도를 동시에 높이기 위해서는, 스텝 사이즈가 가변적으로 제어될 필요가 있다. 스텝 사이즈를 가변적으로 제어하는 방법들은 그 동안 많이 제안되어 왔다.

최근에 퀄컴은 미국 공개 특허(US 2010/0057454)를 통해, 시간 영역에서 근화자 신호의 잡음 신호와 음성 신호의 에너지를 추정함으로써 더블 토크에 강인한 스텝 사이즈 조절 방법을 제안하였다. 한편, Yin Zhou와 Xiaodong Li는 논문("A variable step-size for frequency-domain acoustic echo cancellation")을 통해, 실제 음향 반향 생성 경로와 적응 필터 계수의 오류(Adaptive Filter Mismatch Error) 증가분이 최소가 되도록, 주파수 영역에서 스텝 사이즈를 제어하는 방법을 제안하였다.

한편, 상술한 종래 기술은 실제 음향 반향 생성 경로가 시간에 따라 변하는 경우에, 주파수 영역에서 적응 필터 계수가 실제 음향 반향 생성 경로에 신속하게 따라가지 못하는 문제가 있다.

본 발명이 해결하고자 하는 과제는, 주파수 영역에서 스텝 사이즈를 제어하는 방법을 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는, 실제 음향 반향 생성 경로가 시간에 따라 변하더라도 적응 필터 계수가 신속하게 실제 음향 반향 생성 경로에 적응할 수 있는 스텝 사이즈 제어 방법을 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는, 가변 스텝 사이즈를 사용하는 음향 반향 제거 방법 및 장치를 제공하는 것이다.

상기 제1 추정 음향 반향 신호는 업데이트된 상기 적응 필터 계수를 이용해 구해진 신호이다.

상기 분산 추정부는, 상기 음향 반향 신호의 존재 확률을 이용해 상기 제1 잡음 신호의 분산과 상기 제1 음성 신호의 분산을 추정한다.

상기 분산 추정부는, 상기 원화자 신호에 제2 음성 신호가 존재할 확률을 이용해 상기 제1 잡음 신호의 분산과 상기 제1 음성 신호의 분산을 추정한다.

상기 분산 추정부는, 주파수 영역에서 상기 원화자 신호에 제2 잡음 신호만 존재할 제1 확률과 주파수 영역에서 상기 원화자 신호에 상기 제2 음성 신호와 상기 제2 잡음 신호가 존재할 제2 확률을 이용한다.

상기 분산 추정부는, 스무딩(smoothing)을 통해 상기 제1 잡음 신호의 분산과 상기 제1 음성 신호의 분산의 합인 제1 합을 추정한다.

상기 분산 추정부는, 상기 음향 반향 신호의 분산을 이용해 상기 제1 합을 계산한다.

상기 제2 음성 신호와 상기 제2 잡음 신호는 서로 통계적으로 독립이다.

상기 스텝 사이즈 결정부는, 상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산의 합을 이용해 상기 스텝 사이즈를 결정한다.

상기 적응 필터 계수 업데이트부는, 주파수 영역에서의 NLMS(Normalized Least Mean Square) 알고리즘을 사용한다.

또한, 본 발명의 다른 실시예에 따르면, 음향 반향 제거 장치가 원화자 신호에 의해 야기되는 음향 반향 신호를 제거하는 방법이 제공된다. 상기 음향 반향 제거 방법은, 근화자 신호의 제1 음성 신호의 분산과 상기 근화자 신호의 제1 잡음 신호의 분산을 추정하는 단계; 상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산을 이용해 스텝 사이즈를 결정하는 단계; 상기 스텝 사이즈를 이용해 적응 필터의 적응 필터 계수를 업데이트하는 단계; 상기 음향 반향 신호에 대응하는 추정 음향 반향 신호를 상기 적응 필터 계수를 이용해 생성하는 단계; 및 상기 추정 음향 반향 신호를 이용해 마이크 입력 신호에서 상기 음향 반향 신호를 제거하는 단계를 포함한다. 여기서 상기 결정하는 단계는 제1 잔차 신호가 상기 근화자 신호와 같아지도록 상기 스텝 사이즈를 결정한다. 상기 제1 잔차 신호는 상기 추정 음향 반향 신호인 제1 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호이다.

상기 적응 필터 계수는, 상기 음향 반향 신호가 생성되는 경로(RIR: Room Impulse Response)를 필터로 모델링하는 경우에, 상기 필터가 가지는 필터 계수에 대응한다.

또한, 본 발명의 또 다른 실시예에 따르면, 적응 필터를 포함하는 음향 반향 제거 장치가 적응 필터 계수를 업데이트하는 방법이 제공된다. 상기 적응 필터 계수 업데이트 방법은, 근화자 신호의 음성 신호의 분산과 상기 근화자 신호의 잡음 신호의 분산의합인 제1 분산 합을 추정하는 단계; 상기 제1 분산 합을 이용해 스텝 사이즈를 결정하는 단계; 및 상기 스텝 사이즈를 이용해 상기 적응 필터 계수를 업데이트하는 단계를 포함한다.

본 발명은 주파수 영역에서 NLMS 알고리즘에 기반하여 음향 반향 제거에 필요한 스텝 사이즈를 사후 잔차 신호가 현재 근화자 신호와 같아지도록 통계 모델을 사용해 가변적으로 조절한다. 이를 통해, 실제 음향 반향 생성 경로가 시간에 따라 변하더라도 적응 필터 계수가 실제 음향 반향 생성 경로에 신속하게 적응할 수 있다는 장점이 있다. 따라서 본 발명의 실시예에 따르면, 모바일과 같이 실제 음향 반향 생성 경로가 시간에 따라 자주 변하는 환경에서 효율적으로 음향 반향을 제거할 수 있다.

또한, 본 발명의 실시예에 따르면, 시간에 따라 변하는 잡음에 강인한 통계적 모델에 기반을 둠으로써, 근화자 신호의 음성/잡음의 분산과 잔차 신호의 분산을 더욱 정확하게 추정할 수 있다. 또한, 본 발명의 실시예에 따르면, 각 주파수 빈(frequency bin)에서 근화자 신호의 음성/잡음의 분산과 잔차 신호의 분산을 추정함으로써, 최적의 스텝 사이즈를 구할 수 있다.

또한, 본 발명의 실시예에 따르면, 스텝 사이즈 결정 시에 근화자 신호를 이용하기 때문에, 더블 토크 상황에서 스텝 사이즈가 작아지는 부가 효과를 얻을 수 있다. 즉, 본 발명의 실시예에 따르면, 더블 토크 상황에서 스텝 사이즈가 작아지게 되므로, 잘못된 적응 필터 계수가 업데이트되지 않게 된다. 잘못된 적응 필터 계수가 업데이트되지 않음으로써, 음질이 향상될 수 있다.

도 1은 일반적인 시간 영역에서의 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면.
도 2는 일반적인 주파수 영역에서의 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면.
도 3은 본 발명의 실시예에 따른 스텝 사이즈 결정 과정을 나타낸 도면.
도 4는 본 발명의 실시예에 따른 근화자 신호의 음성 신호와 잡음 신호의 분산을 추정하는 과정을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면.
도 6은 본 발명의 실시예에 따른 음향 반향 제거 장치를 나타낸 도면.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 일반적인 시간 영역에서의 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면이다.

시간 n에서의 근화자 신호의 음성 신호(

)와 근화자 신호의 잡음 신호(

)가 마이크로 입력된다.

한편, 스피커에서 출력된 시간 n에서의 원화자 신호(

)는 필터(10)에 입력된다. 여기서 필터(10)는 실제 음향 반향 생성 경로(RIR)를 모델링한 가상의 필터로써, 필터 계수(

)를 가진다고 가정한다. 필터(10)에 의해 시간 n에서의 실제 음향 반향 신호(

)가 생성되고, 음향 반향 신호(

)는 마이크로 입력된다. 결국, 근화자 마이크에 입력된 시간 n에서의 마이크 입력 신호(

)는

+

이다.

적응 필터(adaptive filter, 20)는 원화자 신호(

)를 이용해 실제 음향 반향 신호(

)를 추정하여, 추정 음향 반향 신호(

)를 생성한다. 여기서, 적응 필터(20)는 필터(10)에 대응하는 것으로써, 적응 필터 계수(

)를 가진다.

마이크 입력 신호(

)에서 추정 음향 반향 신호(

)를 뺌으로써, 잔차 신호(

)가 생성된다. 결국, 잔차 신호(

)는 음향 반향이 제거된 신호이다.

도 2는 일반적인 주파수 영역에서의 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면이다. 도 2에서는 오버랩 세이브(overlap-save) 방식을 이용해 음향 반향을 제거하는 경우를 예시하였다.

k번째 프레임의 원화자 신호 벡터(

)와 마이크 입력 신호 벡터(

)는 아래 수학식 1과 같이 정의된다.

여기서, N은 자연수이고 프레임 크기를 나타내고,

는 전치 행렬을 나타낸다.

그리고 원화자 신호 벡터(

)를 주파수 영역으로 변환하면(S100), 주파수 영역에서의 원화자 신호 행렬(

)는 아래 수학식 2와 같다.

수학식 2에서 F는 2N x 2N DFT(Discrete Fourier Transform) 행렬이고,

는 대각(diagonal) 행렬을 생성하는 연산자이다.

k번째 프레임의 적응 필터 계수 벡터(

)는 아래 수학식 3과 같이 정의된다. 여기서, 적응 필터 계수 벡터(

)는 시간 영역에서 추정된 음향 반향 경로를 나타낸다.

적응 필터 계수 벡터(

) 뒤에 N개의 0을 덧붙인 후 주파수 영역으로 변환하면, 주파수 영역에서의 적응 필터 계수 벡터(

)는 아래의 수학식 4와 같다.

여기서, L은

이고,

은 모든 값이 0인 N x N 행렬이고,

은 N x N 항등 행렬이다.

주파수 영역에서 추정된 음향 반향 신호 벡터(

)는 원화자 신호 행렬(

)와 적응 필터 계수 벡터(

)를 곱함(S101)으로써 생성된다. 즉, 추정 음향 반향 신호 벡터(

)는 아래의 수학식 5와 같다.

시간 영역에서 추정된 음향 반향 신호 벡터(

)는, 추정 음향 반향 신호 벡터(

)에 IDFT(Inverse Discrete Fourier Transform)를 한 후(S102), 마지막 N개의 성분만을 선택함으로써 획득된다(S103). 즉, 추정 음향 반향 신호 벡터(

)는 아래의 수학식 6과 같다.

여기서, R은

이다.

주파수 영역에서의 잔차 신호 벡터(

)는, 마이크 입력 신호 벡터(

)와 추정 음향 반향 신호 벡터(

)의 차이를 구하고(S104), N개의 0을 앞에 덧붙인 후(S105)에, 주파수 영역으로 변환(S106)함으로써 획득된다. 즉, 잔차 신호 벡터(

)는 아래의 수학식 7과 같다.

m번째 주파수 빈(frequency bin)에서의 스텝 사이즈를

로, m번째 주파수 빈의 파워를

로 정의하면, 정규화된 스텝 사이즈 행렬(

)과 원화자 신호의 파워 행렬(

)은 아래의 수학식 8과 같다.

적응 필터 계수 벡터(

)의 업데이트는 과정(S107~S116)을 통해 이루어진다. 즉, 적응 필터 계수 벡터(

)의 업데이트는 아래의 수학식 9와 같이 이루어진다

여기서, G는

이고, g는

이다. 그리고

은 업데이트된 적응 필터 계수 벡터를 나타낸다.

는 파워 계산 및 역수 연산 과정(S109)을 통해 구해진다.

는 복소 켤레 연산 과정(S107)을 통해 구해진다. 과정(S111~114)은 과정(S110)에 의해 획득된 신호를 주파수 영역->시간 영역->주파수 영역으로 변환하는 과정이다.

도 3은 본 발명의 실시예에 따른 스텝 사이즈 결정 과정을 나타낸 도면이다. 스텝 사이즈(

)는 주파수 영역에서 적응 필터 계수 벡터(

)의 업데이트를 조절하는데 이용된다.

시간 영역에서의 마이크 입력 신호 벡터(

)는 근화자 신호의 잡음 신호 벡터(

), 근화자 신호의 음성 신호 벡터(

), 및 음향 반향 신호 벡터(

)를 포함한다. 여기서, 잡음 신호 벡터(

)와 음성 신호 벡터(

)는 서로 통계적으로 독립하다. 주파수 영역에서의 근화자 신호의 잡음 신호 벡터(

)와 근화자 신호의 음성 신호 벡터(

)는 아래의 수학식 10과 같다. 수학식 10은 과정(S205, S206, S208, S209)에 대응한다.

적응 필터 계수 벡터(

)를 사용하여 구한 사전(Priori) 잔차 신호 벡터(

)는 과정(S200~S203)을 통해 구해진다. 즉, 사전 잔차 신호 벡터(

)는 아래의 수학식 11과 같다.

여기서,

는

이고,

는

이다. 그리고

는 시간 영역에서의 필터(10)의 필터 계수(

)를 주파수 영역으로 변환한 것이다.

한편, 업데이트된 적응 필터 계수 벡터(

)를 사용하여 구한 사후(posterior) 잔차 신호 벡터(

)는 아래의 수학식 12와 같다.

사전 잔차 신호 벡터(

)와 사후 잔차 신호 벡터(

)의 차이를 구하면 아래의 수학식 13과 같다.

사후 잔차 신호 벡터(

)가

와 같아지도록, 스텝 사이즈(

)를 결정한다. 수학식 13에 수학식 9를 대입하여 풀면, 아래의 수학식 14와 같다.

다른 주파수 빈은 서로 독립이라고 가정하면, 아래 수학식 15로부터 각 m번째 주파수 빈에서 스텝 사이즈(

)를 독립적으로 결정할 수 있다.

여기서,

는 m번째 요소 값만 1이고 나머지 요소 값들은 0인 1 x 2N 벡터이다.

수학식 15의 양변을 제곱하여 평균을 취하면, 아래의 수학식 16과 같다.

여기서, Re[]는 복소수의 실수부를 나타내고,

는

의 켤레 복소수를 나타낸다. 수학식 16은

으로 근사값을 취하면, 아래의 수학식 17과 같다.

여기서

는 원화자 신호 행렬(

)의 m행 m열에 있는 값을 나타낸다. 스텝 사이즈(

)에 대한 2차 방정식을 풀면 아래 수학식 18과 같다.

즉, 스텝 사이즈(

)는 근화자 신호의 잡음 신호의 분산(

)과 음성 신호의 분산(

), 그리고 잔차 신호의 분산(

)을 이용해 결정된다. 수학식 18은 과정(S204, S207, S210~S216)에 대응한다.

도 4는 본 발명의 실시예에 따른 근화자 신호의 음성 신호와 잡음 신호의 분산을 추정하는 과정을 나타낸 도면이다. 상술한 바와 같이, 잔차 신호의 분산(

), 근화자 신호의 잡음 신호의 분산(

), 그리고 음성 신호의 분산(

)은 스텝 사이즈(

)를 구하는 데 필요하다. 본 발명은 시간에 따라 변하는 잡음에 강인한 주파수 영역에서의 통계 모델에 기반을 두어, 근화자 신호의 음성 신호와 잡음 신호의 분산을 추정할 수 있다.

잔차 신호의 제곱(

)은 직접 측정될 수 있다. 따라서, 스텝 사이즈(

)를 구하는 데 필요한 잔차 신호의 분산(

)은, 아래 수학식 19와 같이 0 < β < 1 값을 갖는 인자(β)로 스무딩(smoothing)을 수행함으로써 추정될 수 있다.

한편, 잔차 신호의 분산(

)과 달리, 근화자 신호의 잡음 신호의 분산(

)과 음성 신호의 분산(

)을 직접 계산하는 것은 어렵다. 본 발명은 통계 모델에 기반을 두어 음향 반향의 존재 확률을 계산함으로써, 근화자 신호의 잡음 신호의 분산(

)과 음성 신호의 분산(

)을 추정한다. 주파수 영역에서의 마이크 입력 신호 벡터(

)에 음향 반향 신호 벡터(

)가 존재하지 않을 경우(H₀)와 존재할 경우(H₁)에 대해 가설을 세우면 아래 수학식 20과 같다.

각 주파수 빈은 서로 통계적으로 독립이라고 가정한다. 또한, 근화자 신호의 잡음 신호벡터(

), 음성 신호 벡터(

), 그리고 음향 반향 신호 벡터(

)는 서로 통계적으로 독립이고, 평균이 0인 정규 분포를 가정하면, 확률 분포는 아래 수학식 21과 같다.

여기서, exp[]는 지수 함수를 나타낸다. 그런데 근화자 신호와 음향 반향 신호는 음성에 해당하므로, 두 가설(H₀, H₁)은 비슷한 확률 분포를 갖는다. 따라서 수학식 21의 확률 분포를 이용해 두 가설(H₀, H₁)을 구분하고, 음향 반향 신호의 존재 확률을 구하는 것은 어렵다. 즉, 두 가설(H₀, H₁)을 확률 분포로 구분하기 위해서는 확률 분포의 차이가 커야 하지만, 음향 반향 신호와 근화자 신호의 음성 신호는 그 차이가 크지 않아 구분하기 어렵다.

본 발명은 마이크 입력 신호 벡터(

)에 음향 반향 신호 벡터(

)가 존재할 확률 대신에, 원화자 신호 벡터(

)에 음성 신호 벡터(

)가 존재할 확률을 사용한다. 주파수 영역에서의 원화자 신호 벡터(

)에 음성 신호 벡터(

)가 존재하지 않을 경우(

)와 존재할 경우(

)에 대해서 가설을 세우면 아래 수학식 22와 같다.

여기서,

는 원화자 신호의 잡음 신호 벡터이고,

는 원화자 신호의 음성 신호 벡터이다.

그리고 두 가설(

,

)에 대한 확률 분포는 아래 수학식 23과 같다.

원화자 신호의 잡음 신호 벡터(

)와 음성 신호 벡터(

)는 서로 통계적으로 독립이고, 평균이 0인 정규 분포를 가정하면, 마이크 입력 신호 벡터(

)에 음향 반향 신호 벡터(

)가 존재할 확률은 아래 수학식 24처럼 구할 수 있다.

여기서,

는

를 나타낸다.

스텝 사이즈(

)를 구하는데 필요한 근화자 신호의 잡음 신호와 음성 신호의 분산의 합(

)은 아래 수학식 25와 같이, 0 < α < 1 값을 갖는 인자(α)로 스무딩(smoothing)을 수행함으로써 추정될 수 있다.

여기서,

는 아래 수학식 26과 같다. 그리고

는 아래 수학식 27과 같다.

수학식 26에서,

와

는 아래 수학식 28과 같다.

그리고 수학식 27에서,

와

는 아래 수학식 29와 같다.

수학식 28과 수학식 29에서

는 아래 수학식 30과 같다.

상술한 수학식 25~30은 과정(S301~S325)에 대응한다.

한편, 지금까지 통계 모델이 정규 분포인 경우를 가정하여 본 발명을 설명하였지만, 정규 분포 이외에 라플라시안(Laplacian) 분포, 감마(Gamma) 분포 등에도 본 발명은 적용될 수 있다.

도 5는 본 발명의 실시예에 따른 음향 반향 제거 장치가 음향 반향을 제거하는 과정을 나타낸 도면이다. 도 1 내지 도 4와 함께 상술한 과정을 통해서, 음향 반향 제거 장치는 음향 반향을 제거한다.

음향 반향 제거 장치는 잔차 신호의 분산(

), 근화자 신호의 잡음 신호의 분산(

), 그리고 근화자 신호의 음성 신호의 분산(

)을 추정한다(S410). 과정(S410)은 도 4와 함께 상술한 분산 추정 과정에 해당한다.

음향 반향 제거 장치는 스텝 사이즈(

)를 결정한다(S420). 과정(S420)은 도 3과 함께 상술한 스텝 사이즈 결정 과정에 해당한다.

음향 반향 제거 장치는 적응 필터 계수(

)를 업데이트한다(S430). 과정(S430)은 도 2와 함께 상술한 과정에 해당한다.

음향 반향 제거 장치는 추정 음향 반향 신호(

)를 이용해 마이크 입력 신호(

)에서 실제 음향 반향 신호(

)를 제거한다(S440). 과정(S440)은 도 1 내지 도 2에서 상술한 과정에 해당한다.

도 6은 본 발명의 실시예에 따른 음향 반향 제거 장치(1000)를 나타낸 도면이다.

음향 반향 제거 장치(1000)는 분산 추정부(1100), 스텝 사이즈 결정부(1200), 적응 필터 계수 업데이트부(1300), 및 음향 반향 제거부(1400)를 포함한다.

분산 추정부(1100)는 잔차 신호의 분산(

), 근화자 신호의 음성 신호의 분산(

), 그리고 근화자 신호의 잡음 신호의 분산(

)을 추정한다. 분산 추정부(1100)는 도 4와 함께 상술한 분산 추정 과정을 수행한다.

스텝 사이즈 결정부(1200)는 잔차 신호의 분산(

), 근화자 신호의 음성 신호의 분산(

), 그리고 근화자 신호의 잡음 신호의 분산(

)을 이용해 스텝 사이즈(

)를 결정한다. 스텝 사이즈 결정부(1200)는 도 3과 함께 상술한 스텝 사이즈 결정 과정을 수행한다.

적응 필터 계수 업데이트부(1300)는 스텝 사이즈(

)를 이용해 적응 필터 계수(

)를 업데이트한다. 적응 필터 계수 업데이트부(1300)는 도 2와 함께 상술한 과정을 수행한다.

음향 반향 제거부(1400)는 추정 음향 반향 신호(

)를 이용해 마이크 입력 신호(

)에서 실제 음향 반향 신호(

)를 제거한다. 여기서 추정 음향 반향 신호(

)는 적응 필터 계수(

)를 이용해 실제 음향 반향 신호(

)를 추정함으로써 구해진 신호이다. 음향 반향 제거부(1400)는 도 1 내지 도 2에서 상술한 과정을 수행한다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

원화자 신호에 의해 야기되는 음향 반향(acoustic echo) 신호를 제거하는 장치로서,
상기 원화자 신호에 음성 신호가 존재할 확률을 이용하여, 근화자 신호의 제1 음성 신호의 분산과 상기 근화자 신호의 제1 잡음 신호의 분산을 추정하는 분산 추정부;
상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산을 이용해 스텝 사이즈를 결정하는 스텝 사이즈 결정부;
상기 스텝 사이즈를 이용해 적응 필터의 적응 필터 계수를 업데이트하는 적응 필터 계수 업데이트부; 및
상기 적응 필터 계수를 이용해 음향 반향 신호를 추정하고, 상기 음향 반향 신호의 추정을 통해 생성된 추정 음향 반향 신호를 이용해 마이크 입력 신호에서 상기 음향 반향 신호를 제거하는 음향 반향 제거부를 포함하고,
상기 스텝 사이즈 결정부는 제1 잔차 신호가 상기 근화자 신호와 같아지도록 상기 스텝 사이즈를 결정하고,
상기 제1 잔차 신호는 상기 추정 음향 반향 신호인 제1 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호인
음향 반향 제거 장치.
제1항에 있어서,
상기 제1 추정 음향 반향 신호는 업데이트된 상기 적응 필터 계수를 이용해 구해진 신호인,
음향 반향 제거 장치.
삭제
삭제
제1항에 있어서,
상기 분산 추정부는,
주파수 영역에서 상기 원화자 신호에 잡음 신호만 존재할 제1 확률과 주파수 영역에서 상기 원화자 신호에 상기 음성 신호 및 상기 잡음 신호가 존재할 제2 확률을 이용하는,
음향 반향 제거 장치.
제5항에 있어서,
상기 분산 추정부는,
스무딩(smoothing)을 통해 상기 제1 잡음 신호의 분산과 상기 제1 음성 신호의 분산의 합인 제1 합을 추정하는,
음향 반향 제거 장치.
제6항에 있어서,
상기 분산 추정부는,
상기 음향 반향 신호의 분산을 이용해 상기 제1 합을 계산하는,
음향 반향 제거 장치.
제5항에 있어서,
상기 음성 신호와 상기 잡음 신호는 서로 통계적으로 독립인,
음향 반향 제거 장치.
제2항에 있어서,
상기 스텝 사이즈 결정부는,
상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산의 합을 이용해 상기 스텝 사이즈를 결정하는,
음향 반향 제거 장치.
제2항에 있어서,
상기 스텝 사이즈 결정부는,
아래의 수학식을 이용해 상기 스텝 사이즈를 결정하는,
음향 반향 제거 장치.
[수학식]

(μ: 상기 스텝 사이즈, V₁: 업데이트되기 전의 상기 적응 필터 계수를 이용해 구해진 제2 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호인 제2 잔차 신호의 분산, V₂: 상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산의 합)
제2항에 있어서,
상기 스텝 사이즈 결정부는,
주파수 영역에서 상기 스텝 사이즈를 결정하는,
음향 반향 제거 장치.
제2항에 있어서,
상기 적응 필터 계수 업데이트부는,
주파수 영역에서의 NLMS(Normalized Least Mean Square) 알고리즘을 사용하는,
음향 반향 제거 장치.
음향 반향 제거 장치가 원화자 신호에 의해 야기되는 음향 반향 신호를 제거하는 방법으로서,
상기 원화자 신호에 음성 신호가 존재할 확률을 이용하여 근화자 신호의 제1 음성 신호의 분산과 상기 근화자 신호의 제1 잡음 신호의 분산을 추정하는 단계;
상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산을 이용해 스텝 사이즈를 결정하는 단계;
상기 스텝 사이즈를 이용해 적응 필터의 적응 필터 계수를 업데이트하는 단계;
상기 음향 반향 신호에 대응하는 추정 음향 반향 신호를 상기 적응 필터 계수를 이용해 생성하는 단계; 및
상기 추정 음향 반향 신호를 이용해 마이크 입력 신호에서 상기 음향 반향 신호를 제거하는 단계를 포함하고,
상기 결정하는 단계는 제1 잔차 신호가 상기 근화자 신호와 같아지도록 상기 스텝 사이즈를 결정하고,
상기 제1 잔차 신호는 상기 추정 음향 반향 신호인 제1 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호인,
음향 반향 제거 방법.
제13항에 있어서,
상기 제1 추정 음향 반향 신호는 업데이트된 상기 적응 필터 계수를 이용해 구해진 신호인,
음향 반향 제거 방법.
제14항에 있어서,
상기 적응 필터 계수는,
상기 음향 반향 신호가 생성되는 경로(RIR: Room Impulse Response)를 필터로 모델링하는 경우에, 상기 필터가 가지는 필터 계수에 대응하는,
음향 반향 제거 방법.
삭제
제13항에 있어서,
상기 추정하는 단계는,
주파수 영역에서 상기 원화자 신호에 잡음 신호만 존재할 제1 확률과 주파수 영역에서 상기 원화자 신호에 상기 음성 신호와 상기 잡음 신호가 존재할 제2 확률을 이용해, 상기 제1 잡음 신호의 분산과 상기 제1 음성 신호의 분산을 추정하는,
음향 반향 제거 방법.
제14항에 있어서,
상기 결정하는 단계는,
아래의 수학식을 이용해 상기 스텝 사이즈를 결정하는,
음향 반향 제거 방법.
[수학식]

(μ: 상기 스텝 사이즈, V₁: 업데이트되기 전의 상기 적응 필터 계수를 이용해 구해진 제2 추정 음향 반향 신호를 상기 마이크 입력 신호에서 뺀 신호인 제2 잔차 신호의 분산, V₂: 상기 제1 음성 신호의 분산과 상기 제1 잡음 신호의 분산의 합)
제14항에 있어서,
상기 업데이트하는 단계는,
주파수 영역에서의 NLMS 알고리즘을 사용하는 단계를 포함하는,
음향 반향 제거 방법.
적응 필터를 포함하는 음향 반향 제거 장치가 원화자 신호에 의해 야기되는 음향 반향(acoustic echo) 신호를 제거하기 위한 적응 필터 계수를 업데이트하는 방법으로서,
상기 원화자 신호에 음성 신호가 존재할 확률을 이용하여 근화자 신호의 잡음 신호의 분산 및 상기 근화자 신호의 음성 신호의 분산을 추정하는 단계;
상기 음성 신호의 분산과 상기 잡음 신호의 분산의 분산 합을 추정하는 단계;
상기 분산 합을 이용해 스텝 사이즈를 결정하는 단계; 및
상기 스텝 사이즈를 이용해 상기 적응 필터 계수를 업데이트하는 단계
를 포함하는 적응 필터 계수 업데이트 방법.