KR101033336B1

KR101033336B1 - 트랙킹 에코-존재 불확실성에 기초한 잔여 반향 억제 방법

Info

Publication number: KR101033336B1
Application number: KR1020090079013A
Authority: KR
Inventors: 장준혁; 박윤식
Original assignee: 인하대학교 산학협력단
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2011-05-09
Also published as: KR20110021302A

Abstract

본 발명은 Tracking Echo-Presence Uncertainty(TEPU)에 기초한 잔여 반향 억제 방법으로서, 보다 구체적으로는 (1)마이크로폰 입력신호 대 원단의 반향신호가 제거된 신호의 전력비를 구하는 단계; (2) 상기 단계 (1)에서 구해진 전력비를, 문턱 값에 의한 decision rule에 적용하여 EPU(Echo-Presence Uncertainty)를 추정하는 단계; 및 (3) 상기 단계 (2)에서 추정된 EPU를 RES 필터에 적용하여, 잔여 반향신호를 제거하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

본 발명에서 제안하고 있는, TEPU에 기초한 잔여 반향 억제 방법에 따르면, 각각의 주파수 채널에서 EPU를 도출하여 간단하면서도 효과적으로 잔여 반향신호를 제거함으로써, 주파수 영역에서 음향학적 반향 억제 성능을 개선시킬 수 있다.

반향 억제(AES), Tracking Echo-Presence Uncertainty(TEPU), 잔여 반향 억제(RES), decision rule

Description

트랙킹 에코-존재 불확실성에 기초한 잔여 반향 억제 방법{A METHOD FOR SUPPRESSING RESIDUAL ECHO BASED ON TRACKING ECHO-PRESENCE UNCERTAINTY}

본 발명은 잔여 반향 억제 방법에 관한 것으로서, 보다 구체적으로는 Tracking Echo-Presence Uncertainty(TEPU)에 기초한 잔여 반향 억제 방법에 관한 것이다.

일반적으로 핸드프리(hand-free) 통신이나 PC 메신저 시스템에서는 통화 음질을 저해하는 음향학적 반향(acoustic echo)이 발생할 수 있다. 이러한 음향학적 반향은 음향학적 반향 억제(Acoustic Echo Suppression; AES) 알고리즘을 사용함으로써 제거될 수 있는데, 실제 반향 경로와 반향 경로 추정 필터에 의해 추정된 반향 경로의 차이 및 실제 통신 환경에서 발생할 수 있는 다양한 요소로 인해 반향신호 제거 후에도 여전히 잔여 반향(residual echo) 신호가 존재하게 된다.

이를 해결하여 잔여 반향신호를 제거하기 위해 Wiener 필터나 MMSE(Minimum Mean Square Error) 기반의 잔여 반향 억제 필터를 추가로 이용하는 잔여 반향 억제(Residual Echo Suppression; RES) 알고리즘이 널리 사용되어 왔으며, 최근에는 음성의 통계적 모델에 기초한 소프트 디시전(soft decision) 방법을 AES의 이득에 적용하여 잔여 반향신호를 제거하는 이득 수정(gain modification) 기법이 제시되었다.

그러나 기존에 제안된 방법들은 그 구조가 복잡하거나 잔여 반향신호를 효과적으로 제거하지 못한다는 문제점을 여전히 가지고 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 마이크로폰 입력신호 대 원단의 반향신호가 제거된 신호의 전력 비를 문턱 값에 의한 decision rule에 적용하여 추정된 EPU를, 잔여 반향 억제 필터에 적용함으로써, 간단하면서도 효과적으로 잔여 반향신호를 제거하는 새로운 잔여 반향 억제 방법을 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 TEPU 기법에 기초한 잔여 반향 억제(Residual Echo Suppression; RES) 방법은,

(1) 마이크로폰 입력신호 대 원단의 반향신호가 제거된 신호의 전력비를 구하는 단계;

(2) 상기 단계 (1)에서 구해진 전력비를, 문턱 값에 의한 decision rule에 적용하여 에코-존재 불확실성(echo-presence uncertainty; EPU)을 추정하는 단계; 및

(3) 상기 단계 (2)에서 추정된 EPU를 RES 필터에 적용하여, 잔여 반향신호를 제거하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)에서,

a. 마이크로폰 입력신호를 구하는 단계;

b. 원단의 반향신호가 제거된 신호를 구하는 단계; 및

c. 상기 단계 a 및 b에서 구해진 신호들의 전력비를 구하는 단계를 포함할 수 있다.

바람직하게는, 상기 단계 (2)에서,

다음의 수학식을 이용하여, EPU를 추정할 수 있다.

여기서, R(i,k)은 i번째 프레임의 k번째 주파수 성분에 대한 마이크로폰 입력신호와 반향신호가 제거된 신호의 전력비, E₀, E₁은 각각 반향신호가 존재하지 않을 때와 존재할 경우의 가정, T는 문턱 값을 나타냄.

바람직하게는, 상기 단계 (3)에서,

상기 단계 (2)에서 추정된 EPU를 적용한 RES 필터는, 다음의 수학식으로 표현될 수 있다.

여기서, G_Ε(i,k) 및 G_Ε(i-1,k)는 각각 i번째 프레임의 k번째 주파수 성분 및 i-1번째 프레임의 k번째 주파수 성분에 대하여 최종적으로 EPU를 적용한 RES 필 터, α_Ε은 스무딩 파라미터, Γ_k(i,k)는 i번째 프레임의 k번째 주파수 성분에 대한 인덱스 함수로서, 상기 단계 (2)에 추정된 EPU 값이 E₀이면 Γ_k(i,k)=1, E₁이면 Γ_k(i,k)=0을 가짐.

이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 TEPU에 기초한 잔여 반향 억제 방법의 흐름도이다. 도 1에 도시된 바와 같이, 본 발명 일실시예에 따른 TEPU에 기초한 잔여 반향 억제 방법은, 마이크로폰 입력신호 대 원단의 반향신호가 제거된 신호의 전력 비를 구하는 단계(S100), 단계 S100에서 구해진 전력 비를, 문턱 값에 의한 decision rule에 적용하여 EPU를 추정하는 단계(S200), 및 단계 S200에서 추정된 EPU를 RES 필터에 적용하여, 잔여 반향신호를 제거하는 단계(S300)를 포함한다.

단계 S100은, 마이크로폰 입력신호와 원단의 반향신호가 제거된 신호의 전력 비를 구하는 단계이다. 단계 S100의 세부 단계는 도 2에 나타나 있다. 도 2에 도시된 바와 같이, 단계 S100은, 마이크로폰 입력신호를 구하는 단계(S110), 원단의 반향신호가 제거된 신호를 구하는 단계(S120), 및 단계 S110 및 단계 S120d에서 구해진 신호들의 전력 비를 구하는 단계(S130)로 구성될 수 있다.

단계 S200은, 단계 S100에서 구해진 전력비를, 문턱 값에 의한 decision rule에 적용하여 EPU를 추정하는 단계이며, 단계 S300은 단계 S200에서 추정된 EPU를 RES 필터에 적용하여, 잔여 반향신호를 제거하는 단계이다. 즉, 단계 S300은, 최종적으로 앞선 단계에서 추정된 EPU를 RES 필터에 적용하여 인덱스 함수에 의해 잔여 반향신호를 제거하는 과정이다. 이와 같이, 본 발명에서 제안하고 있는, TEPU에 기초한 잔여 반향 억제 방법은, 마이크로폰 입력신호와 원단의 반향신호가 제거된 신호의 전력비를 구하여, 이를 문턱 값에 의한 decision rule에 적용하여 EPU를 추정하고, 추정된 EPU를 RES 필터에 적용함으로써, 용이하게 잔여 반향신호를 제거할 수 있게 된다.

본 발명에서 제안하고 있는, TEPU에 기초한 잔여 반향 억제 방법에 대하여 이하에서 수학식들을 이용하여 더욱 상세하게 설명하기로 한다.

1. Soft Decision 기반의 Gain Modification

도 3은 주파수 영역에서의 RES 알고리즘이 적용된 AES 시스템 블록도를 나타낸 도면이다. 음향학적 반향 억제기에서 반향신호 d(t), 배경잡음 w(t), 근단 (near-end) 화자 신호 s(t), 원단 신호와 마이크 입력신호를 각각 x(t), y(t)라고 하면, 음성의 통계 모델에 기초한 soft decision 추정을 위해 근단 화자신호가 존재하지 않을 때와 존재할 경우 각각의 가정 H₀, H₁은 다음 수학식 1과 같이 표현할 수 있다.

여기서, Y(i,k)는 주파수 영역에서 y(t)의 i번째 프레임의 k번째 주파수 성분을 나타내며, 통계적 모델을 위해 근단 화자신호와 배경잡음은 상관관계가 없고 반향신호 D(i,k)는 근단 화자신호인 S(i,k)와 통계적으로 독립이라 가정한다.

원단신호와 근단 화자신호가 복소 가우시안 분포를 따른다는 가정에 의해, H₀과 H₁의 확률밀도함수는 다음 수학식 2와 수학식 3으로 표현될 수 있다.

여기서, λ_s(i,k), λ_d(i,k)는 각각 근단 화자신호와 추정된 반향신호의 전력을 나타내며, Bayes' rule에 의하여 각 주파수 채널별 근단 음성 부재 확률(near-end speech absence probability)을 구하면 다음 수학식 4와 같이 나타낼 수 있다.

여기서, q=p(H₁)/p(H₀)이고, soft decision의 성능 향상을 위해 근단 화자신호의 부재에 대한 가변 선행 확률(a priori probability)을 q에 적용한다. 위의 수학식 2와 수학식 3을 수학식 4에 대입하면 우도비(likelihood ratio) Λ(Y(i,k))는 다음 수학식 5와 같이 표현될 수 있다.

여기서, 파라미터로 γ(i,k), ξ(i,k)는 각각 a posteriori SER(Signal to Echo Ratio)과 a priori SER로서, 다음 수학식 6과 수학식 7과 같이 정의할 수 있다.

수학식 7에서 ξ(i,k)을 추정하기 위해 다음 수학식 8과 같이 Decision-Directed 추정 방법을 적용한다.

수학식 8에서, α_DD(0≤α_DD1)는 가중치 파라미터를 나타내고, P[x]는 P[x]=x if x≥0이고, P[x]=0 if x0을 의미하는 연산자이며, 반향신호의 전력 스펙트럼 추정치는

이다. E[]는 기대값 연산자이며, 다양한 반사 경로를 거쳐 마이크로폰으로 전달되는 원단신호의 주파수 성분 x(i,k)로부터 반사 경로를 고려한 임펄스 응답에 대한 추정된 반향신호

는 least squares 추정 방법에 기초하여 다음 수학식 9와 같이 나타낼 수 있다.

여기서, *는 complex conjugate를 의미한다. 최종적으로, 소프트 디시전(soft decision) 기반의 이득 수정(gain modification)이 적용된 AES의 이득은 근단 음성 존재 확률 p(H₁│Y(i,k)) (=1-p(H₀│y(i,k)))을 결합하여 다음 수학식 10과 같이 나타낼 수 있다.

여기서, E(i,k)는 입력신호로부터 반향신호가 제거된 신호의 주파수 성분이며, G_MMSE(i,k)는 MMSE 추정 기반의 반향 억제 이득을 의미한다.

2. 제안된 TEPU에 기초한 잔여 반향 억제 방법

일반적으로 이득 수정(gain modification) 기법이나 추가적으로 Wiener 필터나 MMSE 추정 기반의 제거 이득을 사용하는 RES 알고리즘에서는 주요 파라미터로서 a posteriori SER과 a priori SER이 사용된다. 따라서 파라미터의 추정에 의한 계산량이 증가하고, 특히,a priori SER ξ(i,k)의 추정을 위해 간단하면서 음악 잡음(musical noise) 제거에 우수한 성능을 보인다고 알려진 수학식 8의 Decision- Directed가 주로 사용되는데, 이는 음성이 급격히 변화하는 전이 구간에서 프레임 지연에 의한 음성 왜곡을 일으키는 단점이 있다.

AES의 성능 개선을 위해 TEPU 기법을 도입하여 간단하면서도 효과적으로 잔여 반향신호를 제거하는 새로운 RES 알고리즘을 제안한다. 제안된 방법은 RES를 위해 마이크로폰 입력신호 Y(i,k)와 원단의 반향신호가 제거된 신호 E(i,k)의 전력비를 문턱 값에 의한 decision rule에 적용하여 추정된 EPU를 RES 필터에 적용한다. TEPU를 위하여 반향신호가 존재하지 않을 때와 존재할 경우 각각의 가정 E₀, E₁은 다음 수학식 11과 같이 표현할 수 있다.

수학식 11에서의 반향신호 D(i,k)에 대한 존재 유무는, 다음 수학식 12와 같은 문턱 값 T에 의한 decision rule에 의해 간단하게 결정될 수 있다.

여기서, R(i,k)는 마이크로폰 입력신호와 반향신호가 제거된 신호의 전력비 로서, 다음 수학식 13 내지 수학식 15와 같다.

여기서,

,

는 스무딩 파라미터이다.

최종적으로 EPU를 적용한 RES 필터 G_E(i,k)는 다음 수학식 16과 같이 나타낼 수 있다.

여기서, α_E은 스무딩 파라미터이고, Γ_k(i,k)는 수학식 12의 결정에 의해 E₀이면 Γ_k(i,k)=1, E₁이면 Γ_k(i,k)=0을 갖는 인덱스 함수이다.

기존에 제안된 잡음 제거 방법은, 잡음 제거와 AES를 위한 이득 수정(gain modification)에서 잡음에 대한 음성신호 및 반향신호에 대한 근단 화자신호의 선 행 확률을 추정하기 위해 각각 적용되어 왔으나, 잡음, 원단의 반향신호, 동시통화 및 근단 화자신호 구간이 존재하는 AES 통계 모델에서는 RES를 위한 필터로 이용하기에 부적합하였다. 하지만 본 발명에서 제안된 방법은 수학식 13의 입력신호 대 결과신호의 전력비 R(i,k)이 반향신호가 제거된 구간에서만 상대적으로 큰 값을 가지게 되고, 수학식 12의 decision rule과 수학식 16의 인덱스 함수 Γ_k(i,k)에 의하여 결국 원단 반향신호만이 존재하는 구간에서 0에 가까운 값을 가지고 그 외 구간에서는 1에 가까운 값을 가지게 되는 RES 필터 G_E(i,k)를 도출하게 된다. 따라서 제안된 RES 알고리즘은 입력신호와 결과신호의 간단한 비를 통하여 수학식 11의 통계 모델에 적용하기 용이하며, 또한 간단하게 적용된 알고리즘에 의한 G_E(i,k)를 통하여 잔여 반향신호를 효과적으로 제거할 수 있는 이점을 가진다. 최종 결과신호의 주파수 성분

는 RES 필터가 적용된 형태로 다음 수학식 17과 같이 나타낼 수 있다.

여기서, RES 필터를 통과하기 전의 결과신호 E(i,k)는 수학식 18과 같이 MMSE 추정 기반의 AES 이득에 의해 도출된다.

본 발명에서 제안된 방법과 관련하여, 동시통화(double-talk) 구간에서의 AES 이득의 갱신에 의한 오차를 줄이기 위해 교차 상관(cross-correlation) 계수에 기초한 동시통화 검출기(Double-Talk Detector; DTD)를 주파수 영역에서 적용할 수 있다.

본 발명의 일실시예에 따른 TEPU에 기초한 잔여 반향 억제 방법의 성능을 평가하기 위하여, 다양한 잡음 환경에서 실험을 수행하였다. 성능 평가를 위해, 근단 화자신호가 없을 때 원단신호 구간에서 반향 억제 후 여전히 남아 있는 잔여 반향의 제거 정도를 측정하는 ERLE(Echo Return Loss Enhancement)와 동시통화 구간에서의 음성의 보존도를 평가하는 SA(Speech Attenuation) 테스트를 실시하였다. 음향학적 반향신호의 감쇠 정도와 음성 보존도를 측정하기 위한 ERLE(t)와 SA는, 각각 다음 수학식 19와 수학식 20과 같이 나타낼 수 있다.

수학식 20에서, N은 동시통화 구간의 샘플수이고,

는 출력신호의 e(t)에 서의 근단화자신호 성분을 의미한다.

테스트 샘플을 위해 7명의 화자로부터 얻은 8kHz로 샘플링된 20개의 문장을 수집하고 각 문장을 원단화자와 근단화자신호로 분류하여 합성하였다. 원단화자신호로 분류된 음성은 섞기 전에 반사 경로를 고려한 실제 환경을 모델링하기 위해 임펄스 응답 필터를 통과시키고 입력 마이크로폰으로 들어가는 반향신호는 근단화자신호보다 3.5dB 작게 하였다. 모델링 환경의 장소는, 5×4×3 ㎥의 크기로 설정하였고, 잡음 환경을 위해서 white, babble과 vehicular 잡음을 다양한 SNR(Signal-to-Noise Ratio)로 부가하였다. 그리고 제안된 알고리즘에 적용된 파라미터와 문턱 값은 성능 평가에 사용된 테스트 샘플에 기초하여 α_DD=0.6,

=0.9, α_E=0.3, T=1.0으로 설정하였다. 도 4는 주파수 영역에서 반향 억제에 우수한 성능을 보인다는 Wiener 필터 및 이보다 향상된 soft decision 기반의 gain modification을 적용한 AES 알고리즘과, 제안된 방법의 ERLE와 SA 수치를 비교한 도면이다. 도 4의 (a)에서 제안된 RES 알고리즘이 다양한 SNR 환경에서 기존의 기법보다 향상된 ERLE 수치를 나타냄을 확인할 수 있으며, 도 4의 (b)로부터 제안된 알고리즘이 Wiener 필터 기반의 기법보다는 향상되고 gain modification 방법과는 거의 일치하는 음성 보존도를 유지하는 것을 확인할 수 있다.

도 5는 배경 잡음으로서 babble 잡음이 SNR=20dB로 부가되고 원단신호가 섞 여 있는 입력신호에 대하여 본 발명에서 제안된 알고리즘에 의한 시간에 따른 ERLE 변화를 보여주고 있다. 도 5로부터, 본 발명에서 제안된 방법이 기존의 방법보다 반향신호를 제거함에 있어서 향상된 ERLE 변화를 나타내고 있음을 확인할 수 있다. 마지막으로, 도 6은 본 발명에서 제안된 알고리즘에 의해서 도출된 최종 음성 파형들을 보여주고 있다. 또한, 도 6으로부터, 본 발명에서 제안된 RES 방법에 의한 음성 파형이, 원단 반향신호 구간에서의 잔여 반향신호가 가장 효과적으로 제거된 것을 확인할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

도 1은 본 발명의 일실시예에 따른 TEPU에 기초한 잔여 반향 억제 방법의 흐름도.

도 2는 본 발명의 일실시예에 따른 TEPU에 기초한 잔여 반향 억제 방법에 있어서, 전력 비를 구하는 단계를 구성하는 세부 단계를 나타내는 도면.

도 3은 주파수 영역에서의 RES 알고리즘이 적용된 AES 시스템 블록도를 나타낸 도면.

도 4는 주파수 영역에서 반향 억제에 우수한 성능을 보인다는 Wiener 필터 및 이보다 향상된 soft decision 기반의 gain modification을 적용한 AES 알고리즘과, 제안된 방법의 ERLE와 SA 수치를 비교한 도면.

도 5는 배경 잡음으로서 babble 잡음이 SNR=20dB로 부가되고 원단신호가 섞여 있는 입력신호에 대하여 본 발명에서 제안된 알고리즘에 의한 시간에 따른 ERLE 변화를 보여주는 도면.

도 6은 본 발명에서 제안된 알고리즘에 의해서 도출된 최종 음성파형들을 보여주는 도면.

<도면 중 주요 부분에 대한 부호의 설명>

S100: 전력 비를 구하는 단계

S110: 마이크로폰 입력신호를 구하는 단계

S120: 원단의 반향신호가 제거된 신호를 구하는 단계

S130: 전력비를 구하는 단계

S200: EPU 추정 단계

S300: EPU를 RES 필터에 적용하여 잔여 반향신호를 제거하는 단계

Claims

주파수 영역에서 음향학적 반향 억제 성능을 개선시키기 위해, 트랙킹 에코-존재 불확실성(tracking echo-presence uncertainty; TEPU)에 기초하여 잔여 반향 억제(residual echo suppression; RES)를 수행하는 방법으로서,

(1) 마이크로폰 입력신호 대 원단의 반향신호가 제거된 신호의 전력비를 구하는 단계;

(2) 상기 단계 (1)에서 구해진 전력비를, 문턱 값에 의한 decision rule에 적용하여 에코-존재 불확실성(echo-presence uncertainty; EPU)을 추정하는 단계; 및

(3) 상기 단계 (2)에서 추정된 EPU를 RES 필터에 적용하여, 잔여 반향신호를 제거하는 단계를 포함하며,

상기 단계 (1)은,

a. 마이크로폰 입력신호를 구하는 단계;

b. 원단의 반향신호가 제거된 신호를 구하는 단계; 및

c. 상기 단계 a 및 b 에서 구해진 신호들의 전력비를 구하는 단계를 포함하는 것을 특징으로 하는, TEPU에 기초한 잔여 반향 억제 방법.
삭제
제1항에 있어서, 상기 단계 (2)에서,

다음의 수학식을 이용하여, EPU를 추정하는 것을 특징으로 하는, TEPU에 기초한 잔여 반향 억제 방법.

여기서, R(i,k)은 i번째 프레임의 k번째 주파수 성분에 대한 마이크로폰 입력신호와 반향신호가 제거된 신호의 전력비, E₀, E₁은 각각 반향신호가 존재하지 않을 때와 존재할 경우의 가정, T는 문턱 값을 나타냄.
제3항에 있어서, 상기 단계 (3)에서,

상기 단계 (2)에서 추정된 EPU를 적용한 RES 필터는, 다음의 수학식으로 표현되는 것을 특징으로 하는, TEPU에 기초한 잔여 반향 억제 방법.

여기서, G_Ε(i,k) 및 G_Ε(i-1,k)는 각각 i번째 프레임의 k번째 주파수 성분 및 i-1번째 프레임의 k번째 주파수 성분에 대하여 최종적으로 EPU를 적용한 RES 필터, α_Ε은 스무딩 파라미터, Γ_k(i,k)는 i번째 프레임의 k번째 주파수 성분에 대한 인덱스 함수로서, 상기 단계 (2)에 추정된 EPU 값이 E₀이면 Γ_k(i,k)=1, E₁이면 Γ_k(i,k)=0을 가짐.