KR102157276B1 - 비선형 음향 에코 소거 장치 및 그 방법 - Google Patents

비선형 음향 에코 소거 장치 및 그 방법 Download PDF

Info

Publication number
KR102157276B1
KR102157276B1 KR1020130088694A KR20130088694A KR102157276B1 KR 102157276 B1 KR102157276 B1 KR 102157276B1 KR 1020130088694 A KR1020130088694 A KR 1020130088694A KR 20130088694 A KR20130088694 A KR 20130088694A KR 102157276 B1 KR102157276 B1 KR 102157276B1
Authority
KR
South Korea
Prior art keywords
network
echo
linear
signal
residual echo
Prior art date
Application number
KR1020130088694A
Other languages
English (en)
Other versions
KR20150012752A (ko
Inventor
크리스티앙 호프만
아드레아스 슈바르츠
발트 켈러만
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130088694A priority Critical patent/KR102157276B1/ko
Publication of KR20150012752A publication Critical patent/KR20150012752A/ko
Application granted granted Critical
Publication of KR102157276B1 publication Critical patent/KR102157276B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

본 발명은 비선형 잔여 음향 에코 억제를 위한 잔여 에코 스펙트럼 모델링에 대한 새로운 접근이다. 저차원 피처가 원단(far-end) 신호로부터 산출되고, 선형 및 가능한 비선형 요소를 포함하는 네트워크의 입력으로 이용된다. 네트워크 파라미터는 기록된 트레이닝 데이터를 이용하여 "오프라인"으로 최적화 및/또는 실시간으로 유효하게 구현될 수 있는 다른 방법을 이용하여 "온라인"으로 적용될 수 있다.

Description

비선형 음향 에코 소거 장치 및 그 방법 { Nonlinear acoustic echo cancellation apparatus and methof thereof }
본 발명은 비선형 음향 에코 소거 장치 및 그 방법에 관한 것이다.
에코 소거는 통신 분야에서 음향 신호 처리에 있어 잘 알려진 문제이다. 전형적은 방법은 선형 필터를 갖는 LEM(loudspeaker-enclosure-microphone)을 모델링하고, 마이크로폰 신호로부터 에코 복제를 추출하는 선형 AEC(linear acoustic echo canceler)이다(C. Breining, P. Dreiseitel, E. Hansler, A. Mader, B. Nitsch, H. Puder, T. Schertler, G. Schmidt, and J. Tilp, “Acoustic echo control. an application of very-high-order adaptive filters,” IEEE Signal Processing Magazine, vol. 16(4), pp. 42-69, Jul. 1999.)
스피커에 있어, 선형 에코 소거기에 의해 모델링될 수 없는, 음향 시스템에서 발생하는 비선형 왜곡 및 진동 효과에 의해 문제가 복잡해진다(A. Birkett and R. Goubran, “Limitations of handsfree acoustic echo cancellers due to nonlinear loudspeaker distortion and enclosure vibration effects,” in Proc. WASPAA, 1995.) 이러한 문제는 매우 작은 스피커 및 많은 양의 비선형 왜곡을 만드는 enclosure dimensions 때문에 모바일 폰이 스피커 모드에 있는 경우 심각하게 발생한다.
에코 소거를 위한 다양한 방안(A. Stenger and R. Rabenstein, “Adaptive Volterra filters for nonlinear acoustic echo cancellation,” in Proc. NSIP, 1999., S. Malik and G. Enzner, “Fourier expansion of Hammerstein models for nonlinear acoustic system identification,” in Proc. ICASSP, 2011., A. Stenger, W. Kellermann, and R. Rabenstein, “Adaptation of acoustic echo cancellers incorporating a memoryless nonlinearity,” in Proc. IWAENC, 1999.)이 제안되고 있지만, 선형 에코 소거기기존의 제안들은 선형 에코 소거기보다 복잡한 계산을 요구하고, 음향 시스템의 결정적인 영향만을 모델링할 뿐, 실질적으로 발생하는 노이즈 유사 결합을 모델링하지 못한다.
이러한 제한된 모델링 성능으로 인해, AEC는 주파수 도메인 Wiener filter 또는 스펙트럼 추출로서 구현되는 RES(residual echo suppressor)와 함께 논의된다(S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony,” Signal Processing, vol. 64(1), pp. 21?32, Jan. 1998.) 이러한 접근은 일반적으로 근단 스피치 왜곡을 언급하지만, AEC 단독보다 상당히 높은 정보의 에코 소거를 허용한다. AEC 필터 길이 또는 수렴 시간이 제한된 요소인 경우, 잔여 에코 스펙트럼은 여전히 근단 신호와 강하게 연관이 있고, 이에 따라 잔여 에코 크기 스펙트럼을 추정하기 위한 선형 모델이 성공적으로 이용될 수 있다. 선형 모델은 근단 신호 및 잔여 에코 크기 스펙트럼 간의 일부 상관 관계가 존재하는 관찰에 기초하여 비선형 에코 패스에 적용되어 왔다(O. Hoshuyama and A. Sugiyama, “An acoustic echo suppressor based on a frequency-domain model of highly nonlinear residual echo,” in Proc. ICASSP, 2006., O. Hoshuyama, “An update algorithm for frequency-domain correlation.) 또한, 시간 도메인(F. Kuech and W. Kellermann, “Nonlinear residual echo suppression using a power filter model of the acoustic echo path,” in Proc. ICASSP, 2007.) 또는 주파수 도메인(D. Bendersky, J. Stokes, and H. Malvar, “Nonlinear residual acoustic echo suppression for high levels of harmonic distortion,” in Proc. ICASSP, 2008.)에서 하모닉을 위한 모델이 제안되었다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 각 서브 대역에서 잔여 에코 크기의 추정을 위해 원단 신호로부터 산출된 저차원 피처를 이용하는 비선형 음향 에코 소거 장치 및 그 방법을 제공함에 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 잔여 에코 소거 방법은, 원단(far-end) 신호로부터 저차원 피처(feature)를 산출하는 단계, 상기 산출된 저차원 피처를 이용하여 각 서브 대역에서 잔여 에코 크기를 추정하는 단계 및, 상기 추정된 잔여 에코 크기를 소거하는 단계를 포함한다.
이 경우, 상기 잔여 에코 크기를 추정하는 단계는, 각 서브 대역에서 선형 및 비선형 요소의 네트워크를 이용하여 잔여 에코 크기를 추정할 수 있다.
또한, 상기 원단 신호로부터 산출되는 동일한 서브 대역의 원단 신호 크기 및 피처들은 네트워크의 입력으로 이용될 수 있다.
또한, 트레이닝 신호를 이용하여 각 서브 대역에 대한 상기 네트워크의 파라미터의 최적화하는 단계를 더 포함할 수 있다.
또한, 상기 네트워크의 파라미터의 서브 셋만을 채용하거나, 추가적인 스칼라 가중치를 채용하는, 순수 선형 네트워크 상에서 선형 적응 방법을 이용하여 구현되는, 상기 네트워크의 실시간 적응을 수행하는 단계를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른 잔여 에코 소거 장치는 원단(far-end) 신호로부터 저차원 피처(feature)를 산출하고, 상기 산출된 저차원 피처를 이용하여 각 서브 대역에서 잔여 에코 크기를 추정하는 추정부 및, 상기 추정된 잔여 에코 크기를 소거하는 소거부를 포함한다.
이 경우, 상기 추정부는, 각 서브 대역에서 선형 및 비선형 요소의 네트워크를 이용하여 잔여 에코 크기를 추정할 수 있다.
또한, 상기 원단 신호로부터 산출되는 동일한 서브 대역의 원단 신호 크기 및 피처들은 상기 네트워크의 입력으로 이용될 수 있다.
본 발명에 따르면, 강한 비선형 요소가 존재하는 경우, 효과적인 모델링 및 잔여 에코의 억압이 가능하게 된다.
도 1은 AEC 및 AES를 포함하는 시스템 구조,
도 2는 음향 에코 억압을 위한 필터 뱅크,
도 3은 잔여 에코 크기 스펙트럼 추정을 위한 인공 뉴럴 네트워크,
도 4는 Log-sigmoid 함수,
도 5는 서로 다른 모델에 의해 달성되는 추정 잔여 에코 크기 스펙트럼의 MSE
도 6은 실제 잔여 에코 스펙트럼 및 추정 잔여 에코 스펙트럼의 비교
도 7은 서로 다른 서브대역에 대한 추정 네트워크의 응답을 도시한다.
[ 서론 ]
원단 스피커로부터 발생되는 신호의 깔끔한 캡쳐링을 위해, 기록된 마이크로폰 신호로부터, 원단 스피커로부터 발생되는 신호 즉, 에코를 소거할 필요성이 있다. 이러한 목적을 위한 AEC(acoustic echo canceler) 및 AES(acoustic echo suppressor)를 포함하는 시스템 구조가 도 1에 도시된다.
AEC는 에코 요소를 소거하기 위하여, 로컬 스피치 신호 s(t) 및 에코 신호 y(t)의 합인 마이크로 신호 d(t)로부터 추출된 에코 복제를 생성하는 디지털 시스템에서 원단 신호 x(t) 및 에코 신호 y(t) 간의 에코 패스를 모델링한다. 전형적으로 에코 패스 모델은 선형 유한 임펄스 응답 필터(finite impulse response: FIR)[Bre99, Hae04]이다. 하지만, 핸즈 프리 디바이스의 작은 기하학적 구조로 인해 에코 패스는 심각한 비선형 왜곡을 포함할 수 있다[BG95]. 비선형 왜곡은 파워 증폭기의 포화 효과 및 전기-전자 변환기 그 자체(예를 들어, 스피커 멤브레인)에 의해 주로 유발되는 것으로 추측된다. 결과적으로, 선형 AEC 하나만으로는 충분한 에코 감소 성능을 달성할 수 없게 된다. 대신, 비선형 모델의 에코 패스[D2]를 갖는 AEC 및/또는 추가적인 AES가 이용되어야만 한다.
AES의 목적은 AEC 이후의 신호의 크기 스펙트럼을 향상시키기 위한 것이다[Ave01]. 이를 위해 잔여 에코 요소의 크기 스펙트럼의 추정이 요구된다. 이러한 추정을 이용하여 Wiener filtering 또는 스펙트럼 추출로부터 좀더 복잡한 스펙트럼 향상 기술까지 다양한 스펙트럼 향상 기술이 적용될 수 있다[HS04]. 하지만, 신호 향상의 성능을 위한 결정적인 요소는 원하지 않는 신호 스펙트럼의 추정의 퀄리티이다. 이는 특히 원하지 않는 신호 요소가 매우 비정류적인 비선형 에코 억압에 중요하다. 정지 노이즈 스펙트럼의 추정이 보통 간단히 제어되는 반복 에버리징 및/또는 발화 활동 검출로 이루어질 수 있지만, 원하지 않는 신호 요소에 대한 추가적인 정보를 이용해야 한다. 원단 신호(예를 들어, 스피커 신호)가 알려져 있기 때문에 신호 및 잔여 에코 신호 간의 관계를 이용하는 것이 가능하다. 하지만, 마이크로폰 신호로부터 추출하기 위하여 에코 요소의 위상 정정 추정을 요구하는 비선형 음향 에코 소거와 다르게, 단지 잔여 에코 요소의 크기 스펙트럼을 필요로하기 때문에 에코 억압을 위해 더 간단한 모델을 이용할 수 있다.
따라서, AEC 이후의 AES 포스트필터는 특히, 비선형 효과가 존재하는 경우에 에코 패스의 페이즈(Phase) 정정 모델링이 어려운 경우, 에코의 소거에 매우 효과적일 수 있다. AES 접근의 단점은 시간 가변 필터링이 마이크로폰 신호에 적용되기 때문에 일부 스피치 왜곡이 불가피하게 발생한다는 점이다. 이에 따라 에코 소거를 완전히 대체할 수 없을 뿐 아니라 AEC와 상호 보완적인 관계로 적용되어야 한다.
[ 음향 에코 억압에 대한 시그널 모델 ]
음향 에코 억압은, 근단 스피치 s(t) 및 잔여 에코 z(t)로 구성되는 에코 소거기(canceler)의 출력 e(t)에 적용된다.
Figure 112013067835502-pat00001
제1 단계는 신호 e(t)및 (기준으로 요구되는) 원단 스피커 신호 x(t)를 분석 필터 뱅크를 이용하여 주파수 도메인으로 변환하여, 주파수 인덱스 n 및 타임 인덱스 k를 갖는 주파수 도메인 신호 E(n, k) 및 X(n, k)를 산출하는 것이다. 필터 뱅크는 길이 L, FFT 사이즈 K 및 프레임 시프트(다운 샘플링 요소) Ns를 갖는 FIR 프로토 타입 필터로 구현될 수 있다. 필터 뱅크는 출력 벡터는 NB = K/2+1의 유니크한 계수를 갖는다. 프로토 타입 필터는 계수는 [HWS99]에 따라 파라미터 L, K
및 Ns에 기초하여 산출된다. 이하에서, 경우에 따라 시간 인덱스 k를 생략하도록 한다.
스펙트럼 향상은 각 주파수 대역에서 억압 게인을 산출하기 위하여 즉, 크기 또는 전력 스펙트럼을 수정하기 위하여 주파수 도메인 신호 상에서 동작하고, (잔여) 에코 크기
Figure 112013067835502-pat00002
에 대한 추정을 이용한다(추정부)(도 2). 이러한 게인 산출에 대한 일반적인 룰에는 Wiener filter, spectral subtraction, Ephraim 및 Malah에 의해 제안된 decision-directed estimator[EM84]와 같은 복합적인 룰이 있다. Wiener filter 및 spectral subtraction approach[HS04]의 일반화 룰을 고려하도록 한다.
Figure 112013067835502-pat00003
여기서, γ=2, β=1는 Wiener filter rule을 산출하고, γ=1, β=1/2는 spectral subtraction을 산출한다. 스펙트럼 플로어 Gmin 및 노이즈 과추정 상수 μ는 에코 억압 및 근단 신호 왜곡 사이의 균형을 제어하는데 이용될 수 있다.
에코 소거기 출력 및 기준 신호의 스펙트럼 크기는 각 서브 대역에서 짧은 시간 일시적 편균에 의해 산출될 수 있다.
Figure 112013067835502-pat00004
Figure 112013067835502-pat00005
여기서, forgetting factor λ는 1에 가깝다.
에코 억압의 핵심 문제는 출력 신호, 즉 크기
Figure 112013067835502-pat00006
에서 에코 레벨의 추정이다. 이러한 추정은 항상 원단 신호 x에 기초한다. 원단 신호의 스펙트럼 크기를 직접적으로 이용하고, 또 다른 방법으로 AEC
Figure 112013067835502-pat00007
에코 추정을 이용([Hos06])하거나, 크기를 추정하기 전에 또 다른 시간 도메인 모델을 적용([KK07])할 수 있다.
억압 필터 게인을 이용하여 다음 수학식 5와 같이 주파수 도메인에서 타겟 신호에 대한 추정을 산출할 수 있다.
Figure 112013067835502-pat00008
이러한 추정은 통합 필터 뱅크를 이용하여 시간 도메인으로 다시 변환되고, 잠재적으로 왜곡된 근단 신호 sout 및 포스트 AES 잔여 에코 요소 zout로 구성되는 출력 신호
Figure 112013067835502-pat00009
를 산출한다.
Figure 112013067835502-pat00010
[ 잔여 에코 스펙트럼의 모델링을 위한 기존 방법 ]
음향 에코 억압의 핵심 문제는 잔여 에코 크기 또는 파워 스펙트럼의 모델링이다. 여기서, 시간 도메인 모델링과 기준 신호의 스펙트럼 크기로부터 시작하는 모델링의 두 클래스의 모델이 존재한다. 시간 도메인 모델링([KK07])은 에코 소거에 대해, 시간 도메인에서 비선형 동작을 모델링하기 위한 것이지만, 모델링된 신호를 스펙트럼 게인에 대한 주파수 도메인으로 변환한다. 본 발명에서는 이러한 접근 방식을 따르지 않는 대신 주파수 도메인 모델링에 직접적으로 포커싱한다.
* Scalar Model
우선, 각 서브 대역에서 잔여 에코 크기가 대응되는 기준 신호로부터 모델링되고, 서브 대역 크기는 서브 대역에 기초한 스칼라 파라미터와 곱해진다. 이를 "스칼라 모델"이라 명명한다.
Figure 112013067835502-pat00011
스칼라 모델의 가장 핵심 특징은 단지 K/2 + 1 파라미터의 적은 개수라는 점이다. 각 파라미터 a(v)의 최적화는 간단한 선형 회귀(regression) 문제로 해석되고, 효과적인 온라인 추정 절차가 Hoshuyama에 의해 제안된다([Hos06]). 모델이 각 서브 대역이 단지 기준 신호의 동일한 서브 대역에 기초하는, 에코 패스의 선형 뷰에 기초할지라도, 이러한 접근은 명백히 모바일 폰에서 비선형 에코 억압을 위해 제안되었고, 모바일 폰 산업에 이용된다([Hos12]). 하지만, 완벽한 파라미터 추정이 주어질지라도 이러한 모델은 서로 다른 서브 개역 사이의 커플링을 고려하지 않는 기본적인 한계를 갖는다.
* Full and Sparse Liner Models
스칼라 모델의 일반화로서, 전체 입력 벡터의 선형 조합으로 각 출력 빈을 모델링하는 추정기를 살펴보도록 한다.
Figure 112013067835502-pat00012
이를 "Full linear model"로 언급한다. [CSSP05]에서 몇개의 샘플의 가중치 조합을 이용하지만, 시간 축을 따르는 유사한 접근이 (비선형성을 고려하지 않고) 잔여 에코 소거를 위해 이용되었다. 본 발명에서는 에코 신호의 각 주파수 대역이 기준 신호의 대응되는 대역 뿐 아니라 다른 서브 대역에 기초하여 주파수 축을 따르는 사실을 고려하기 위하여 주파수 대역을 통한 이러한 접근을 이용한다. MMSE 기준에 따라 파라미터 벡터 a(v)의 산출이 간단한 선형 회귀 문제로서 해결될 수 있다. 하지만, NB 2 를 갖는 파라미터들의 개수는 스칼라 모델과 비교하여 제곱된다.
스칼라 모델 및 Full linear model 사이의 중간 모델은 현재 서브 대역에서 하모닉을 생성할 수 있는 서브 대역들만이 고려되고, 희소(sparse) 매트릭스로 이어지는 것이다([BSM08]). 하지만, 이러한 모델은 예상되는 하모닉의 외부 잔여량을 생성할 수 있는 복잡한 비선형 효과를 만족시키지 못한다.
[ Feature - based Modeling( 피쳐 기반 모델링 )]
상기에서 언급된 full and sparse linear models은 잔여 에코 서브 대역 크기를 기준 신호 크기의 선형 조합으로 모델링하는 것에 기초한다. 희소(sparse) 접근은 각 출력 서브 대역이 원단 신호의 동일한 서브 대역 및 원단 신호의 다른 서브 대역의 하모닉에 의해 자극된다는 가정에 기초하여 정의된다. 하지만, [D1]에 개시된 바와 같이 선형 시스템에 의한 하모닉의 생성은, 원단 신호의 비선형 왜곡이 다른 특히, 확장된 결함을 생성하기 때문에 충분한 모델은 아니다. 하모닉과 다르게, 이러한 결함을 이끄는 물리적인 처리는 자명하지 않고 쉽게 모델링 될 수 없다. full linear model은 이러한 가정을 만들지 않고 이에 따라 어느 정도로 다른 결함들을 모델링할 수 있다. 하지만, 이러한 모델은 유익한 파라미터 셋의 추정을 상이하게 만드는 많은 개수의 파라미터를 허용하고, 모바일 디바이스에서 실시간 구현에 적합하지 않다. 스칼라 모델은 서브 대역들 간의 커플링을 고려하지 않는 기본적인 한계라는 대가로 매우 낮은 복잡성을 갖는다.
물리적 처리에 대한 가정에 기초한 모델링에 대안으로, 이미지 또는 발화 인식에서 오브젝트 검출과 같은 패턴 인식 문제에 주로 이용되는, 좀더 일반적인 machine learning 기반 접근을 이용하는 것을 제안한다([Bis06]). 우선 이용가능한 관측(예를 들어, 기준 신호)으로부터 많은 저차원 피처들을 산출하고, 이러한 피처들로부터 원하는 출력 변수(예를 들어, 에코 크기)을 모델링하기 위한 회귀 방법을 이용하는 것이다. 모델링 구조는 입력 피처들의 순수한 선형 조합의 제한을 부과할 뿐 아니라, 비선형 동작까지 허용한다.
상기에서 언급한 요구를 만족시키는 모델 구조의 클래스는 인공 뉴럴(neural) 네트워크이다([Bis04]). 뉴럴 네트워크 프레임워크는 넓은 범위의 선형 및 비선형 모델 구조를 허용하는 이득을 갖고, 다른 컨텍스트에서 집중적으로 리써치될 수 있다. 이론적인 리써치 및 트레이닝 알고리즘의 구현 모두 이용될 수 있다. 다음에서, 잔여 에코 크기 스펙트럼 추정 문제에 대한 뉴럴 네트워크를 이용하는 방법을 설명하도록 한다. 신경 토폴로지, 피처 산출 및 네트워크 파라미터의 트레이닝을 설명한 후, 모바일 디바이스에서 실시간 온라인 트레이닝을 위한 방안을 설명하도록 한다.
* 잔여 에코 크기 추정을 위한 뉴럴 네트워크 토폴로지
도 3은 각 서브 대역에서 잔여 에코의 추정을 위해 제안되는 네트워크 토폴로지를 도시한다. 네트워크의 입력 피처들에 대해 모든 경우에 있어 제1 피처로서 현재 서브 대역에서 기준 신호의 크기를 이용한다. 다른 피처는 임의 개수의 피처 생성 함수 fI(Mx), fI(Mx), ...를 이용하여 원단 신호로부터 산출된다.
피처 생성 함수의 선택이 5.3에서 논의된다.
도 3에 도시된 바와 같은 타임의 네트워크는 "mutltilayer perception"으로 알려져 있다. 입력 레이어는 히든(hidden) 레이어 노드에 변화하는 입력을 분산한다. 입력 및 히든 레이어 노드 사이의 각 에지는 스칼라 가중치를 나타낸다.
일반적으로 소정 개수의 입력 값 및 입력 레이어 노드가 이용될 수 있다. 히든 노드 각각은 일반적으로 비성형 "activation function"을 나타낸다.
회귀 문제로의 뉴럴 네트워크의 어플리케이션에 대한 공통적인 선택은 log-sigmoid(도 4) 함수 또는 선형 함수이다.
함수는 각 히든 노드에서 입력의 가중치 합 및 부가적인 바이어스 값으로 적용된다. 히든 레이어 및 각 히든 레이어에서 노드들의 개수는 임의적이고, 입력 노드의 개수에 독립적이다.
출력 레이어 노드는 히든 레이어 출력의 가중치 합 및 부가 바이어스 값을 나타낸다. 네트워크 구조는 입력 피처의 개수, 히든 레이어의 개수, 각 히든 레이어의 사이즈, 히든 레이어 노드의 활성화 함수로 정의된다.
파라미터는 에지 가중치 및 히든 노드 바이어스이다. 이러한 모델이 기준 신호 크기 및 잔여 에코 크기 간의 심플한 스칼라 관계의 일반화라는 점은 자명하다.
이상적인 파라미터 선택을 가정하면, 적어도 스칼라 모델에 의해 달성되는 성능 만큼의 성능을 달성할 수 있다. 해당 모델은 입력 피처로서 다른 서브 대역의 크기를 이용함으로써 재생성될 수 있는, sparse and full linear models의 일반화로서 보여질 수 있다.
하지만, 네트워크 접근의 목적은 상당히 적은 개수의 피처들을 이용할 수 있는 것이다.
* 트레이닝
잔여 에코 크기 추정에 대해 네트워크를 적용하기 위하여 각 서브 대역에 대한 네트워크 파라미터들이 비용 함수에 관하여 최적화되어야 한다. 머신 런닝에 있어, 이는 트레이닝 또는 런닝으로 설명된다.
비용 함수는 바람직한 네트워크 출력 즉, 실제 잔여 에코 크기 스펙트럼에 관하여 네트워크 출력의 mean squareed error로서 선택될 수 있다.
비선형 요소를 포함하는 뉴럴 네트워크에 대하여 비용 함수의 최적화는 일반적으로 several local minima를 갖는 non-convex 문제이다([Bis06])
이러한 최적화 문제에 대한 효과적인 오프라인 트레이닝 방안은 Levenberg-Marquardt 알고리즘이다([Hag94]).
이러한 최적화의 결과는 일반적으로 초기화에 기초한다. 이에 따라 (예를 들어, Nguyen-Widrow initialization[NW90]를 이용하여) 각 초기화로부터 시작하는 별개의 트레이닝을 수행하는 복수의 랜덤화된 파라미터 초기화를 생성하고, 트레이닝 데이터 상에서 최고의 성능을 산출하는 결과를 얻을 이익이 있다 .
네트워크의 효과적인 트레이닝에 요구되는 트레이닝 데이터의 양은 네트워크에서 파라미터 개수(예를 들어, 노드 개수) 및 입력 피처 백터의 차수에 기초한다. 트레이닝 데이터의 양 및 파라미터의 개수 사이의 비율은 너무 낮은 경우, 오버피팅(overfitting)이라는 현상이 발생하고, 네트워크는 트레이닝에 이용되었던 샘플들에 대한 좋은 성능을 보여주지만, 다른 샘플들에 대해서는 쓸모없는 성능을 나타낸다. 따라서, 매우 간단한 구조 및 수 개의 입력 피처들을 갖는 네트워크에 포커싱하도록 한다. 이는 훈련된 시나리오들과 다른 시나리오를 위한 유용성을 나타내는, 네트워크의 일반론(generality)에 도움이 된다.
Figure 112013067835502-pat00013
표 1은 scalar and full linear models에 요구되는 파라미터와 비교하여 2 개의 입력 및 상이한 히든 레이어를 갖는 뉴럴 네트워크에 요구되는 파라미터의 개수를 나타낸다. "lin {1}"은 하나의 노드를 포함하는 하나의 히든 레이어를 갖는 네트워크 및 선형 전달 함수를 나타내고, "logsig {2,1}"는 각각 log-sigmoid 전송 함수를 갖는, 두 개의 노드를 포함하는 제1 히든 레이어 및 하나의 노드를 포함하는 제1 히든 레이어의 두개의 히든 레이어를 갖는 네트워크를 나타내고, 뉴럴 네트워크 접근은 넓은 범위의 상이한 모델 구조의 선택을 허용하고, full linear model 훨씬 아래의 파라미터 개수를 여전히 유지한다.
* 피처 추출
피처의 퀄리티, 즉 이용가능한 정보의 양은 출력 변수를 제공하고, 뉴럴 네트워크의 성능에 대단히 중요하다. 잔여 에코 스펙트럼 모델링의 컨텍스트에 있어, 추가 피처 산출 함수의 목적은 현재 서브 대역에서 잔여 에코 크기에 영향을 줄 수 있는 다른 서브 대역으로부터 네트워크에 정보를 제공하는 것이다. 본 발명에서는 현재 서브 대역의 크기에 추가로 산출된 단지 하나의 피처 또는 복수의 산출된 피처들을 이용할 수 있다.
다음에서 다양한 간단하고, 체험적인 함수들을 설명하고, 평가에 고려할 것이다.
함수 f1은 현재 서브 대역 주파수의 반까지의 주파수를 갖는 모든 서브 대역의 크기를 평균한다. 이에 대한 이유는 현재 주파수 대역에서 하모닉이 발생할 수 있는 모든 서브 대역을 대략적으로 캡쳐하기 위함이다.
Figure 112013067835502-pat00014
Figure 112013067835502-pat00015
함수 f2는 전체 주파수 범위에 걸쳐 크기를 평균한다. 이러한 피처의 흥미로운 점은 모든 서브 대역에 대해 한번 산출될 수 있다는 것이다.
Figure 112013067835502-pat00016
함수 f3는 현재 주파수를 포함하지 않는, 모든 주파수에 걸쳐 평균한다.
Figure 112013067835502-pat00017
함수 f4는 현재 서브 대역까지, 현재 및 이후 서브 대역을 포함하는 모든 주파수에 걸쳐 평균한다.
Figure 112013067835502-pat00018
함수 f5는 현재 서브 대역을 포함하지 않는, 서브 대역들의 최대 크기를 산출한다. 이는 비선형 피처 산출 함수에 대한 일 예로서, 단독으로 잘 동작하지 않는 반면 이전에 정의된 피처들 중 하나와 함께 유용하게 이용될 수 있으므로 부가 정보를 갖는 네트워크를 제공할 수 있다.
Figure 112013067835502-pat00019
많은 다른 피처 산출 함수들도 가능하며, 추가적인 후보들은 가중치 평균, 상이한 L-norms 또는 중간값(median)과 같은 비선형 함수로부터 도출될 수 있다.
* 계산의 복잡성 및 온라인 적응을 위한 방안
모바일 폰에서 구현 알고리즘을 타겟팅하기 때문에, 중요한 기준은 계산의 복잡성 및 모바일 디바이스에서 제안된 알고리즘의 실시간 구현 가능성이다.
입력 크기 스펙트럼으로부터 출력 크기 스펙트럼을 추정하기 위한 트레이닝된 모델의 어플리케이션의 계산 복잡성은 매우 낮다. 2 개의 입력 및 2 개의 히든 레이어 노드를 갖는 네트워크에 대해, 2 번의 sigmoid 함수 계산에 더하여, 단지 8 번의 곱셈 및 덧셈이 서브 대역 당 요구된다. 하지만, mediaLevenberg-Marquardt 알고리즘을 이용한 네트워크의 트레이닝은 계산적으로 매우 가치가 있지만, 모바일 디바이스의 전력 제한 내에서 온라인으로 수행될 수 없다. AEC와 비교하여, AES는 모바일 디바이스에서의 구현에 대해, 에코 패스에서 변화에 훨씬 더 강건(robust)하고, 네트워크의 오프라인 트레이닝은 충분할 수 없다. 충분한 실시간 구현을 위한 유망한 방안으로 전체 네트워크에 대해 초기 오프라인 트레이닝을 이용하고, 실시간으로 네트워크 파라미터의 서브셋만을 적용한다. 예를 들어, 네트워크의 출력 가중치가 MSE(mean squared error)의 최소화에 적합한 경우, 비용 함수는 컨벡스(convex)하고, LMS(least mean squares)와 같은 간단한 적응적 알고리즘은 연속적으로 이용될 수 있다. 또 다른 옵션은 네트워크 출력 이후에 각 서브 대역에서 적응적인 스칼라 요소를 적용하는 것이다.
[ 평가 ]
MSE 의 관점에서 상이한 모델 구조의 성능에 관하여 이전에 논의된 모델링 접근 및 이러한 모델에 기초한 음향 에코 억압기의 성능을 평가한다. 또한, 제안된 뉴럴 네트워크 모델의 동작을 더 잘 나타내기 위한 시각화를 제안한다. 알고리즘 및 평가는 MATLAB에서 구현되었다. 메인 시큘레이션 스크립트는 "aes_nlaec.m"이다. 이하에서 설명되는 모든 시뮬레이션은 디폴트 파라미터를 버리고, 해당 섹션에서 언급된 파라미터들(예를 들어, 레이어 사이즈 또는 피처 타입)을 수정함에 의해 재현될 수 있다. 뉴럴 네트워크 모델링은 MATLAB 뉴럴 네트워크 툴박스를 이용하여 구현된다([NN12]).
* 시그널 및 셋업
벤치 마크 시나리오로서 정의된, 시그널 셋 mic20dB_spk7dB(microphone gain 20 dB, loudspeaker gain 7 dB)을 이용한다. 본 발명에서 제안된 에코 억압 접근의 평가를 위해 에코 소거 신호로 시작한다. 별도의 언급이 없는 한, Legendre polynomials 및 온라인 적응을 이용하는 비선형 AEC의 출력을 이용한다([D2]). double-talk 평가를 위해, 에코 신호를 별개로 기록된 보이스와 믹싱한다. 신호는 마이크로폰에서 -2.6 dB의 에코 비율 즉, 근단 신호보다 위의 에코 레벨 2.6 dB로 근단 신호와 믹싱된다. single-talk 방안은 시간 주기 48s . . .56.5s 상에서 평가되고, double-talk 방안은 시간 주기 29.5s. . .35.8s and 62s . . .76s 상에서 평가되며, 원단 및 근단 신호는 완전히 오버랩된다.
모든 처리는 넓은 대역 오디오와 관련된 주파수 범위에 대응되는, 16kHz의 샘플링 레이트에서 수행된다. 입력 신호에서 낮은 주파수 럼블링(rumbling) 노이즈를 소거하기 위하여, 모든 입력 신호로 80 Hz 하이 패스 필터를 적용한다. 필터 뱅크에 대하여 필터 길이 L = 512, 프레임 시프트 N = 32, FFT 사이즈 K = 128을 이용하고, NB = 65 의 독립적인 서브 대역을 이용한다. 스펙트럼 향상을 위하여 Wiener 필터 구조, γ= 2, β= 1, 스펙트럼 플로어 Gmin = 0, 과추정 요소 μ=5.0를 이용한다(섹션 3 참고). 크기 스펙트럼 추정에 대한 망각 요소는 λ=0.95로 설정된다.
모델들은 double talk 없는 평가 신호의 시간 구간 5. . .29.5s 상에서 오프라인 모드로 트레이닝된다. 모든 모델들은 MSE 의 최소화와 관련하여 최적화된다. 뉴럴 네트워크 트레이닝을 위해 20 개의 트레이닝 패스가 각 서브 대역에 대해 수행되고, 트레이닝 데이터 상에서 가장 낮은 MSE를 산출하는 파라미터들이 이용된다.
* 모델링 성능
우선, 선형 및 제안된 뉴럴 네트워크 모델링 방법에 의해 달성된 모델링 성능을 평가한다. 성능 방안으로 실제 에코 크기 및 추정된 에코 크기 사이의 mean squared error를 이용한다.
Figure 112013067835502-pat00020
모델의 일반성을 증명하기 위한 방안은 신호의 구간 40s . . . 80 s에 걸쳐 평균함에 의해 평가되고, 여성 발화자 만이 발화하고, 남성 발화자 신호는 트레이닝 단계에서만 이용되었다.
도 5는 상이한 형태의 뉴럴 네트워크에 대해, scalar, full linear 및 neural network approach에 의해 달성되는 추정된 잔여 에코 크기 스펙트럼의 MSE를 비교한다. 뉴럴 네트워크의 결과에 대해, 피처 타입 축은 동일한 서브 대역에서 기준 신호의 크기에 더하여 피처들이 네트워크의 입력 신호로서 이용(도 3 참고)된다는 점을 도시한다. "-"는 추가적인 피처들이 이용되지 않는다는 것을 의미한다. 네트워크 타입 축은 상이한 히든 레이어 구조를 비교한다.
0.60의 MSE를 달성하는 스칼라 모델과 비교하여, 추가적인 피처를 갖지 않는 선형 네트워크는 베스트 케이스에서 0.41의 MSE와 함께 조금 더 나은 동작을 보여준다. 이러한 차이는 입력 서브 대역 크기의 스칼라 가중치에 더하여, 선형 네트워크가 바이어스 파라미터를 포함한다는 사실에 의해 설명될 수 있다. 0.34의 MSE에 이르는 full linear model과 비교하여, 대부분의 뉴럴 네트워크 구조는 0.13의 MSE에 최대로 도달하는 상당히 좋은 성능을 갖는다.
모든 경우에 있어, 뉴럴 네트워크 모델링 성능은 동일한 서브 대역에 추가로, 피처의 이용으로 상당히 증가한다. 하지만, 상이한 피처 생성 함수 간에 차이가 존재한다. 전체 또는 일부 크기 스펙트럼에 걸친 평균에 기초한 피처들은 유사하게 잘 수행하지만, 최대 크기 피처는 상당히 안좋게 수행한다. 흥미롭게도, 피처 f1 및 f5의 조합은 피처 f1 보다 더 안좋게 수행한다. 이론적으로, 완전한 파라미터 최적화가 주어지면, 피처의 조합은 적어도 하나의 피처 각각 만큼 수행한다. 실측 동작에 대한 설명은 이용가능한 데이터를 이용하여 충분히 잘 트레이닝될 수 없는 조합의 경우에 파라미터의 증가된 개수이다.
피처 선택과 비교하여, 상이한 모델 구조의 효과는 비교적 작다. 대부분의 경우에 순수한 선형 네트워크의 성능은 좀더 복잡한 구조와 동등하다. 이는 full neural network approach을 요구함이 없이, 피처들의 선형 조합이 전형적인 적응 방안을 이용하여 실시간으로 적용될 수 있는, 실시간 시스템에서 어플리케이션에 대해 매우 유망하다. 일부 경우에 있어, 복수의 히든 노드를 갖는 비선형 네트워크는 선형 네트워크보다 더 안좋게 동작한다. 이론적으로, 완전한 트레이닝이 주어지면, 비선형 네트워크는 선형 네트워크의 일반화이기 때문에 그런 경우가 있을 수 없다. 이는 증가된 개수의 파라미터에 기인할 수 있고, 한정된 양의 데이터로부터 트레이닝을 하는 연속적인 문제로 이어진다. 트레이닝은 단지 한 명의 발화자에 대해 짧은 25s 시그널 세그먼트 상에서 수행되기 때문에, 좀더 다양한 에코 신호를 갖는 트레이닝은 특히, 비선형 및 높은 차수의 네트워크에 대해, 전반적인 성능을 개선할 거라 기대할 수 있다.
* 선형 및 뉴럴 네트워크 모델 동작의 시각화
선형 및 뉴럴 네트워크 모델의 서로 다른 동작을 도시하기 위하여, 도 6은 평가 신호에서 하나의 포인트에서 실제 잔여 에코 크기 스펙트럼 및 모델에 의해 추정되는 크기 스펙트럼에 대한 예를 보여준다. 여기서 고려되는 뉴럴 네트워크는 logsig {1} 구조를 갖고, 피처 f3를 이용한다. 기준 신호에서 이러한 주파수 범위에 자극이 거의 없고, 구조는 하모닉을 고려할 수 없기 때문에 스칼라 모델이 3 kHz 이상의 크기 스펙트럼을 과소 평가한다는 점을 확인할 수 있다. 한편, full linear model은 스펙트럼을 과대 평가한다. 뉴럴 네트워크 추정기는 최선의 매칭을 제공하여, 또한 주파수 축을 따라 완만한 움직임을 보여주고, 가청 결함의 레벨에 유리할 수 있다.
뉴럴 네트워크 트레이닝 후에 획득되는 함수의 예로서, 도 7은 트레이닝 데이터에서 발생하는 범위를 스패닝(spanning)하는 입력 값들에 대한 상이한 주파수 인덱스의 트레이닝된 네트워크의 응답을 보여준다. 네트워크는 logsig 전달 함수를 갖는3개의 히든 노드를 포함한다. 기본적으로, 출력 변수는 각 입력 변수에 대해 단조롭게 증가한다. 또한, 연속적인 바이어스가 네 개의 예 중 세 개에 존재한다. 이 경우 모델이 13 자유도를 갖을지라도, 모델 동작의 비선형성은 중요하지 않다. 이는 순수한 선형 피처 조합 모델이 실시간 구현을 위한 시스템의 충분한 근사치가 될 수 있다는 점을 확인한다.
* 에코 억압 성능
마지막으로, 이전에 연구된 모델들, single-talk(근단 신호 무(無)) 및 double-talk(근단 신호 유(有)) 상황에 기초하여 에코 억압 성능을 연구한다. 두가지 방안 즉, ERLE(echo return loss enhancement) 및 SSDR(segmental signal to distortion ratio) 정의한다.
ERLE은 완전한 시스템(AEC 및 AES)에 의해 달성되는 에코 억압의 양을 측정하고, 수학식 15로서 정의된다.
Figure 112013067835502-pat00021
SSDR(segmental signal to distortion ratio)는 원하는 근단 신호 s 및 근단 신호 s 와 처리될 원단 신호 sout로의 차이 간의 비율이고, 기지의 세그먼트 신호를 이용하여 왜율(distortion ratio) SSNR으로 정의된다.
Figure 112013067835502-pat00022
여기서, α는 선형 스케일링에 불변하는 방안을 만들기 위한, E{(αsout - s)2}를 최소화하는 요소이다. SSNR은 신호를 256 개의 샘플 프레임으로 스플리트하고, 각 프레임에서 대수 전력률을 산출하고, 전력률이 35dB 이하인 모든 프레임에 대한 전력률을 평균함으로서 산출된다.
제안된 알고리즘이 목표하는 성능은 벤치마크 시나리오 mic20dB_spk7dB에서, single-talk 상황에서 NL-AEC 및 NL-AES의 조합을 이용하여 적어도 45 dB ERLE를 달성하고 double-talk 상황에서 세그먼트 신호를 10 dB 이상의 왜율로 만드는 것이다.
제안된 발명은 에코 억압기를 적용하기 전에 Legendre polynomials[D2]에 기초하여 비선형 에코 소거기로 신호를 처리한다. 비선형 에코 소거기는 ERLE of 17.0 dB를 산출한다.
Figure 112013067835502-pat00023
표 2는 모두 피처 f3를 이용하는 스칼라 모델, full linear 모델 및 상이한 뉴럴 네트워크 구조를 이용하여 본 발명에 따른 AES에 의해 획득된 에코 억압 성능을 보여준다.
뉴럴 네트워크 접근이 선형 접근보다 더 낮은 왜곡에서 훨씬 높은 에코 억압을 달성한다는 점을 확인할 수 있다. 비선형적으로 왜곡된 에코를 고려하면, 출력 신호에 대한 주관적인 인상은 양호하다. 일부 주파수의 꺽임이 두드러지지만, 크기 스펙트럼 추정에서 상대적으로 높은 평활 상수 λ = 0.95에 의해 달성되는, 가청대의 일시적인 결함은 존재하지 않는다. 더 낮은 평활 상수는 때때로 성능 측정을 증가시키지만, 신호 왜곡을 더 불안하게 한다. 하나의 이유는 억압의 움직임이 덜 완만하다는 점이지만, 또 다른 가능성 있는 이유는 모델 성능이 평활 효과의 감소와 함께 감소한다는 점이다.
Figure 112013067835502-pat00024
표 3은 (mic20dB_spk0dB, mic20dB_spk7dB, mic20dB_spk18dB를 시그널하는) 0 dB 및 18 dB 선택된 채팅 내용과 관련된 어플리케이션 실행 화면 사이의 상이한 값들로 설정된 모바일 폰의 스피커 게인을 기록하기 위한 성능을 비교한다. logsig {1} 뉴럴 네트워크 모델은 피처 f3와 함께 이용된다. 근단 신호의 레벨이 변경되지 않기 때문에 에코 비율까지 근단 신호는 대응되도록 더 낮아진다. 예상대로, 비선형성이 심각하지 않은 0 dB 경우에 대해 결과로 초래된 ERLE 및 SSDR은 상당히 높다. 18 dB 경우에 AEC에 의해 달성되는 ERLE는 10dB보다 더 많이 감소하고, AES의 성능은 또한 상대적으로 낮다.
Figure 112013067835502-pat00025
표 4는 Legendre polynomials, Chebyshev polynomials, 또는 Fourier basisfunctions [D2]를 이용하여, 선형 AEC 및 상이한 비성형 AEC 구조에 의해 획득된 입력 신호에 대한 logsig {1} 구조 및 피처 f3를 갖는 뉴럴 네트워크 모델을 이용하여 AES의 성능을 보여준다. 입력 신호는 7 dB로 설정된 스피커 이득을 갖는 기준 시나리오이다. 비선형 AEC의 성능 이득이 근사치의 선형 AEC를 초과하는 것을 확인할 수 있다. 8 dB는 AES이 후에 10 dB보다 많은 ERLE 향상 및 상당히 낮은 왜곡으로 나타내어질 수 있다. 제안된 비선형 AEC 구조를 이용하여 single talk 동안 적어도 45 dB ERLE의 타겟 성능 및 double talk 동안 적어도 10 dB의 SSDR이 만족될 수 있다. 복잡한 이유로 순수한 선형 AEC를 이용하는 것이 바람직한 경우, 예를 들어, 더 높은 레벨의 타겟 왜곡을 허용함으로써 시스템 파라미터로의 변화를 갖는 바람직한 성능에 도달할 가능성이 높다.
[ 요약 및 결론 ]
먼저, 비선형 잔여 에코 스펙트럼 모델링을 위한 종래의 접근 방식을 연구하였다. 머신 런닝 분야로부터 아이디어에 기초하여 원단 신호로부터 산출된 낮은 차수의 피처들을 갖는 인공 뉴럴 네트워크를 이용하는 새로운 접근 방식을 제안하였다. 에코 억압을 위해 해당 모델을 적용하여, 더 낮은 레벨의 스피치 왜곡에 있어, 종래의 모델보다 상당히 높은 에코 억압 성능을 획득할 수 있다. single talk 동안 적어도 45 dB ERLE의 타겟 성능 및 double talk 동안 적어도 10 dB의 SSDR은 많은 상이한 시스템 구조로 만족될 수 있다.
D4에 대해, 에코 제어 시스템을 구현하기 위하여, [D2]에서 연구된 알고리즘에 기초한 선형 AEC 및 본 발명에서 제안된 뉴럴 네트워크 접근에 기초한 비선형 AES를 통합한다. 시스템은 실시간 이용 가능해야 하고, 파라미터의 부분적 적응, 완전한 선형 네트워크의 가중치 적응 또는 네트워크 출력 이후에 추가적인 스칼라 가중치 적응에 의한 뉴럴 네트워크의 온라인 적응을 포함해야 한다. 실제로 마주하게 되는 시나리오에서 구현 가능성을 증명하기 위하여, 상이한 환경 및 현실적인 이용에 해당하는 레벨에서 시간 가변 에코 패스를 이용하는 좀더 많은 측정을 제안한다. 또한, 서로 다른 근단 스피커로 기록되는 데이터는 모델링 성능의 향상에 매우 유리하다.
D5에 대해, 음향 에코 억압을 위해 저 차원 피처들을 갖는 뉴럴 네트워크의 이용을 커버하는 발명을 제안한다.
또한, 추가적으로 몇가지 방안을 제안한다. 하나는 모델 성능 및 주관적 퀄리티 인상 모두에 효과가 있는 크기 스펙트럼의 일시적 스무싱이다. 스펙트럼 향상 룰 및 필터 뱅크에 대한 최적화는 에코 소거 및 왜곡 산의 더 나은 교환을 야기한다. 가장 중요한 것은 모델 그 자체에서 예를 들어, 피처 산출 또는 트레이닝 절차를 최적화함으로써, 모델 그 자체에서 추가적인 향상이 가능하다는 점이다.
장기적으로 보면, 흥미있는 리써치 주제는 에코 소거기 및 에코 억압기 간의 정보, 예를 들어 에코 패스, 에코 소거기의 수렴, double-talk 측정 에 대한 정보의 교환이다.
상술한 본 발명은 적어도 하나의 스피커 신호가 적어도 하나의 마이크로폰으로 피드백되고, 스피커 신호는 참조 신호로서 이용가능한 일종의 음향 통신 시스템으로 적용될 수 있다. 모바일 폰, 스피커 폰, 헤드셋과 같은 전자 통신 및 음성 제어와 같은 엔터테인먼트 시스템 분야에서 다양한 예들이 존재한다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 음향 에코 소거 방법은 컴퓨터로 실행가능한 프로그램 코드로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 프로세서에 의해 실행되도록 비선형 음향 에코 소거 장치에 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
[ 참고문헌 ]
[D1] A. Schwarz, W. Kellermann, “D1: Signal characteristics”, Deliverable Report for Project “Nonlinear Acoustic Echo Cancellation”, May 2012
[D2] C. Hofmann, A. Schwarz, W. Kellermann, “D2: Evolutionary Modeling for Echo Cancellation”, Deliverable Report for Project “Nonlinear Acoustic Echo Cancellation”, Oct. 2012
[HS04] E. Hansler, G. Schmidt, “Acoustic Echo and Noise Control: A Practical Approach”, John Wiley & Sons, 2004
[Bre99] C. Breining, P. Dreiseitel, E. Hansler, A. Mader, B. Nitsch, H. Puder, T. Schertler, G. Schmidt, and J. Tilp, “Acoustic echo control - an application of very-high-order adaptive filters,” IEEE Signal Processing Magazine, vol. 16, no. 4, pp. 42?69, July 1999
[HWS99] M. Harteneck, S. Weiss, R. W. Stewart, “Design of near perfect reconstruction oversampled filter banks for subband adaptive filters,” Circuits and Systems II: Analog and Digital Signal Processing, IEEE Transactions on, vol.46, no.8, pp.1081-10, 1999.
[BG95] A.N. Birkett, R.A. Goubran, “Limitations of handsfree acoustic echo cancellers due to nonlinear loudspeaker distortion and enclosure vibration effects," IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, Oct. 1995
[EM84] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error shorttime spectral amplitude estimator”, IEEE Transactions on Acoustics, Speech and Signal Processing 32 (1984), no. 6, p. 1109-1121
[Ave01] C. Avendano, “Acoustic echo suppression in the STFT domain”, WASPAA 2001
[Hos06] O. Hoshuyama, “An Acoustic Echo Suppressor Based on a Frequency-Domain Model of Highly Nonlinear Residual Echo”, ICASSP 2006
[KK07] F. Kuech, W. Kellermann, “Nonlinear Residual Echo Suppression using a Power Filter Model of the Acoustic Echo Path”, ICASSP 2007
[Hos12] O. Hoshuyama, “An Update Algorithm for Frequency-Domain Correlation Model in a Nonlinear Echo Suppressor”, IWAENC 2012
[BSM08] D. Bendersky, J. Stokes, H. S. Malvar, “Nonlinear Residual Acoustic Echo Suppression for High Levels of Harmonic Distortion”, ICASSP 2008
[CSSP05] A. Chhetri, A. C. Surendran, J.W. Stokes, J. C. Platt, “Regression-Based Residual Acoustic Echo Suppression”, IWAENC 2005
[Hag94] M.T. Hagan, “Training feedforward networks with the Marquardt algorithm”, IEEE Transactions on Neural Networks, vol. 5, no. 6, p. 989-993, 1994
[NW90] D. Nguyen, B. Widrow, “Improving the learning speed of 2-layer neural networks by choosing initial values of the adaptive weights”, International Joint Conference on Neural Networks, 1990.
[Bis06] C. M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006
[NN12] “Neural Network Toolbox User Guide”, Mathworks, 2012
-

Claims (8)

  1. 잔여 에코 소거 방법에 있어서,
    원단(far-end) 신호로부터 네트워크의 입력 피처를 산출하는 단계;
    상기 산출된 입력 피처를 바탕으로 각 서브 대역에서 선형 및 비선형 요소의 네트워크를 이용하여 잔여 에코 크기를 추정하는 단계; 및
    상기 추정된 잔여 에코 크기를 소거하는 단계;를 포함하고,
    상기 추정하는 단계는,
    상기 네트워크의 파라미터의 서브 셋만을 적용하거나, 추가적인 스칼라 가중치를 적용하여, 순수 선형 네트워크 상에서 선형 적응 방법을 이용하여 구현되는 것을 특징으로 하고,
    상기 네트워크의 실시간 적응을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 잔여 에코 소거 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 원단 신호로부터 산출되는 동일한 서브 대역의 원단 신호 크기 및 피처들은 상기 네트워크의 입력으로 이용되는 것을 특징으로 하는 잔여 에코 소거 방법.
  4. 제1항에 있어서,
    트레이닝 신호를 이용하여 각 서브 대역에 대한 상기 네트워크의 파라미터를 최적화하는 단계;를 더 포함하는 것을 특징으로 하는 잔여 에코 소거 방법.
  5. 삭제
  6. 잔여 에코 소거 장치에 있어서,
    원단(far-end) 신호로부터 네트워크의 입력 피처를 산출하고, 상기 산출된 입력 피처를 바탕으로 각 서브 대역에서 선형 및 비선형 요소의 네트워크를 이용하여 잔여 에코 크기를 추정하는 추정부; 및
    상기 추정된 잔여 에코 크기를 소거하는 소거부;를 포함하고
    상기 네트워크는 상기 네트워크의 파라미터의 서브 셋만이 적용되거나, 추가적인 스칼라 가중치가 적용되어, 순수 선형 네트워크 상에서 선형 적응 방법을 이용하여 구현되는 것을 특징으로 하고,
    상기 추정부는,
    상기 네트워크의 실시간 적응을 수행하는 것을 특징으로 하는 잔여 에코 소거 장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 원단 신호로부터 산출되는 동일한 서브 대역의 원단 신호 크기 및 피처들은 상기 네트워크의 입력으로 이용되는 것을 특징으로 하는 잔여 에코 소거 장치.
KR1020130088694A 2013-07-26 2013-07-26 비선형 음향 에코 소거 장치 및 그 방법 KR102157276B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130088694A KR102157276B1 (ko) 2013-07-26 2013-07-26 비선형 음향 에코 소거 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130088694A KR102157276B1 (ko) 2013-07-26 2013-07-26 비선형 음향 에코 소거 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20150012752A KR20150012752A (ko) 2015-02-04
KR102157276B1 true KR102157276B1 (ko) 2020-09-17

Family

ID=52488723

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130088694A KR102157276B1 (ko) 2013-07-26 2013-07-26 비선형 음향 에코 소거 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102157276B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170032603A (ko) 2015-09-15 2017-03-23 삼성전자주식회사 전자 장치, 그의 반향 신호 제거 방법 및 비일시적 컴퓨터 판독가능 기록매체
CN112466318B (zh) * 2020-10-27 2024-01-19 北京百度网讯科技有限公司 语音处理方法、装置及语音处理模型的生成方法、装置
CN112786067B (zh) * 2020-12-30 2024-04-19 西安讯飞超脑信息科技有限公司 残留回声概率预测方法、模型训练方法、设备及存储装置
CN113421579B (zh) * 2021-06-30 2024-06-07 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
US11984110B2 (en) * 2022-03-07 2024-05-14 Mediatek Singapore Pte. Ltd. Heterogeneous computing for hybrid acoustic echo cancellation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100324736B1 (ko) * 1997-12-29 2002-08-09 엘지전자주식회사 음향반향제거방법및회로

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PÁL 외 1명, ‘Hands free VoIP terminal with gain control based on neural network’, 19th IEEE International Conference and Workshops on Engineering of Computer-Based Systems, 2012. 1부.*

Also Published As

Publication number Publication date
KR20150012752A (ko) 2015-02-04

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning for acoustic echo cancellation in noisy and double-talk scenarios
KR101331388B1 (ko) 음향 에코를 제거하기 위한 컴퓨터 구현 프로세스 및 시스템
Valin et al. Low-complexity, real-time joint neural echo control and speech enhancement based on percepnet
Schwarz et al. Spectral feature-based nonlinear residual echo suppression
Lee et al. DNN-based residual echo suppression.
KR102157276B1 (ko) 비선형 음향 에코 소거 장치 및 그 방법
JP2004537219A (ja) 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
Zhang et al. Deep adaptive AEC: Hybrid of deep learning and adaptive acoustic echo cancellation
EP2930917B1 (en) Method and apparatus for updating filter coefficients of an adaptive echo canceller
Huemmer et al. The elitist particle filter based on evolutionary strategies as novel approach for nonlinear acoustic echo cancellation
Van Vaerenbergh et al. A split kernel adaptive filtering architecture for nonlinear acoustic echo cancellation
Peng et al. ICASSP 2021 acoustic echo cancellation challenge: Integrated adaptive echo cancellation with time alignment and deep learning-based residual echo plus noise suppression
Schwarz et al. Combined nonlinear echo cancellation and residual echo suppression
Comminiello et al. Functional link expansions for nonlinear modeling of audio and speech signals
Fu et al. A nonlinear acoustic echo canceller using sigmoid transform in conjunction with RLS algorithm
Bendersky et al. Nonlinear residual acoustic echo suppression for high levels of harmonic distortion
Wung et al. Robust acoustic echo cancellation in the short-time fourier transform domain using adaptive crossband filters
Schalk-Schupp et al. Approximation of a nonlinear distortion function for combined linear and nonlinear residual echo suppression
Cui et al. Multi-scale refinement network based acoustic echo cancellation
KR102374166B1 (ko) 원단 신호 정보를 이용한 반향 신호 제거 방법 및 장치
Shi et al. A residual echo suppression technique for systems with nonlinear acoustic echo paths
Tran et al. Frequency domain improved practical variable step-size for adaptive feedback cancellation using pre-filters
Helwani et al. A single-channel MVDR filter for acoustic echo suppression
Mahbub et al. Gradient based adaptive filter algorithm for single channel acoustic echo cancellation in noise
Shah et al. Nonlinear acoustic echo cancellation using feedback

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right