KR101342296B1

KR101342296B1 - 오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하기 위한신경망 필터링 기술

Info

Publication number: KR101342296B1
Application number: KR1020097004270A
Authority: KR
Inventors: 드미트리 브이 쉬뭉크
Original assignee: 디티에스, 인코포레이티드
Priority date: 2006-08-01
Filing date: 2007-07-25
Publication date: 2013-12-16
Also published as: CN101512938A; TWI451404B; EP2070228A2; JP2009545914A; WO2008016531A3; JP5269785B2; WO2008016531A2; WO2008016531A4; EP2070228A4; JP2013051727A; TW200820220A; JP5362894B2; US7593535B2; KR20090038480A; US20080037804A1

Abstract

신경망은, 스피커, 증폭형 방송 안테나 또는 아마도 마이크로폰과 같은 오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하기 위한 효율적이고, 견실하며, 정밀한 필터링 기술들을 제공한다. 이들 기술들은, 역방향 전달 함수를 계산하기 위해 오디오 트랜스듀서를 특성기술하는 방법과, 재생에 대해 이들 역방향 전달 함수를 구현하는 방법 모두를 포함한다. 이 역방향 전달 함수는 양호하게는, 종래의 주파수 영역 또는 모델링 기반의 접근법보다 오디오 신호 및 오디오 트랜스듀서의 속성을 더 정확히 표현하는, 선형 및 비선형 신경망에 의해 제공되는 것과 같은 시간 영역 계산을 이용하여 추출된다. 비록 양호한 접근법은 선형 및 비선형 왜곡 모두를 보상하기 위한 것이지만, 신경망 필터링 기술은 독립적으로 적용될 수도 있다.

신경망, 트랜스듀서, 전달 함수, 왜곡, 필터링 기술

Description

오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하기 위한 신경망 필터링 기술{NEURAL NETWORK FILTERING TECHNIQUES FOR COMPENSATING LINEAR AND NON-LINEAR DISTORTION OF AN AUDIO TRANSDUCER}

본 발명은 오디오 트랜스듀서 보상에 관한 것으로, 더 구체적으로는, 스피커, 마이크로폰 또는 파워 앰프 및 방송 안테나와 같은 오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하는 방법에 관한 것이다.

오디오 스피커들은 양호하게는 균일하고 예측가능한 입력/출력(I/O) 응답 특성을 보인다. 이상적으로, 스피커의 입력에 결합된 아날로그 오디오 신호는 청취자의 귀에 제공되는 신호이다. 실제로는, 청취자의 귀에 도달하는 오디오 신호는, 원래의 오디오 신호에, 스피커 자체(예를 들어, 스피커 구성 및 내부 컴포넌트들의 상호작용), 및 오디오 신호가 청취자의 귀에 도달하기까지 거쳐야 하는 청취 환경(예를 들어, 청취자의 위치, 룸의 음향적 특성 등)에 의해 유발된 약간의 왜곡이 더해진 신호이다. 원하는 스피커 응답을 제공하도록 스피커 자체에 의해 유발되는 왜곡을 최소화하기 위해 스피커의 제조 동안에 수행되는 기술들이 많이 있다. 또한, 왜곡을 추가로 저감시키기 위해 스피커를 기계적으로 핸드-튜닝하기 위한 기술들이 있다.

Levy에게 허여된 미국특허 제6,766,025호는, 스피커 관련 왜곡 및 청취 환경 왜곡을 보상하도록 입력 오디오 신호에 관하여 변환 기능을 디지털적으로 수행하기 위해, 메모리에 저장된 특성기술 데이터와 디지털 신호 처리(DSP)를 이용하는 프로그래머블 스피커를 기술하고 있다. 제조 환경에서, 스피커를 튜닝하기 위한 비침해적 시스템 및 방법은, 기준 신호 및 제어 신호를 프로그래머블 스피커의 입력에 인가함으로써 수행된다. 마이크로폰은, 스피커 출력에서 입력 기준 신호에 대응하는 가청 신호를 검출하고 이를 테스터에 피드백한다. 테스터는 입력 기준 신호를 스피커로부터의 가청 출력 신호와 비교함으로써 스피커의 주파수 응답을 분석한다. 비교 결과에 따라, 테스터는, 스피커 메모리에 저장되어 입력 기준 신호에 관해 변환 기능을 다시 한번 수행하는데 이용되는 새로운 특성기술 데이터를 갖는 갱신된 디지털 제어 신호를 스피커에 제공한다. 튜닝 피드백 싸이클은, 입력 기준 신호와 스피커로부터의 가청 출력 신호가 테스터에 의해 결정되는 원하는 주파수 응답을 보일때까지 계속된다. 소비자 환경에서, 마이크로폰은 선택된 청취 환경 내에 놓이고, 선택된 청취 환경 내에서 마이크로폰에 의해 검출된 왜곡 영향을 보상하기 위해 특성기술 데이터를 갱신하는데에 튜닝 장치가 다시 한번 이용된다. Levy의 특허는 스피커 및 청취 환경 왜곡을 보상하기 위해 신호 처리 분야에서 잘 알려진 역변환을 제공하기 위한 기술들에 의존하고 있다.

왜곡은 선형 및 비선형 성분 모두를 포함한다. "클리핑"과 같은 비선형 왜곡은 입력 오디오 신호의 진폭의 함수인 반면, 선형 왜곡은 그렇지 않다. 공지된 보상 기술은 문제의 선형 부분을 해결하고 비선형 성분을 무시하거나, 그 반대로 행한다. 비록 선형 왜곡이 주된 성분이긴 하지만, 비선형 왜곡은 입력 신호에 존재하지 않는 추가의 스펙트럼 성분들을 생성한다. 그 결과, 보상은 정밀하지 않고, 그에 따라 소정의 하이-엔드 오디오 응용에 대해서는 적절하지 않다.

문제의 선형 부분을 해결하기 위한 많은 접근법들이 있다. 가장 간단한 방법은 독립된 이득 제어를 갖춘 한 뱅크의 대역통과 필터를 제공하는 이퀄라이저이다. 더 정교한 기술은 위상 및 진폭 보정 모두를 포함한다. 예를 들어, Audio Engineering Society Oct 7-10 2005년판의 NorCross 등에 의한 "Adaptive Strategies for Inverse Filtering"은, 일부 주파수들에서의 에러를 바이어싱하기 위해 가중치부여 및 정규화 항을 허용하는 주파수-영역 역방향 필터링 접근법을 기술하고 있다. 이 방법은 바람직한 주파수 특성을 제공한다는 점에서 양호하지만, 반전된 응답의 시간-영역 특성에 관해 제어하지 못한다. 예를 들어, 주파수-영역 계산은 최종 (보정되고 스피커를 통해 재생되는) 신호에서 프리-에코를 저감시킬 수 없다.

비선형 왜곡을 보상하기 위한 기술들은 개발이 덜 되었다. AES Oct 7 - 10 2005년판의 Klippel 등에 의한 "Loudspeaker Nonlinearities - Causes, Parameters, Symptoms'는, 비선형 왜곡 측정과, 스피커 및 기타 트랜스듀서들에서의 신호 왜곡의 물리적 원인이 되는 비선형성간의 관계를 기술하고 있다. AES Oct 7-10, 2005년판의 Bared 등에 의한 "Compensation of nonlinearities of horn loudspeaker"는 스피커의 비선형성을 추정하기 위해 주파수-영역 Volterra 커널에 기초한 역변환을 이용한다. 이 역변환은 순방향 주파수 영역 커널로부터 반전된 Volterra 커널을 해석적으로 계산함으로써 얻어진다. 이 접근법은 정상 신호(예를 들어, 한 세트의 정현파)에 대해서는 양호하지만 오디오 신호의 과도적 비정상 영역에서 상당한 비선형성이 발생할 수 있다.

이하는 본 발명의 일부 양태들의 기본적인 이해를 제공하기 위한 본 발명의 요약이다. 이 요약은 본 발명의 핵심 또는 결정적인 요소들을 식별하거나 범위를 기술하도록 의도된 것은 아니며, 그 유일한 목적은, 이후에 제공되는 더 상세한 설명 및 결정적 특허청구범위에 대한 서두부로서 간략화된 형태로 본 발명의 일부 개념들을 제공하는 것이다.

본 발명은, 스피커와 같은 오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하기 위한 효율적이고, 견실하며, 정밀한 필터링 기술을 제공한다. 이들 기술들은, 역방향 전달 함수를 계산하기 위해 오디오 트랜스듀서를 특성기술하는 방법, 및 재생을 위해 이들 역방향 전달 함수를 구현하는 방법 모두를 포함한다. 양호한 실시예에서, 역방향 전달 함수는, 종래의 주파수 영역 또는 모델링 기반의 접근법보다 오디오 신호 및 트랜스듀서의 속성을 더 정확히 표현하는, 선형 및 비선형 신경망에 의해 제공되는 것과 같은 시간 영역 계산을 이용하여 추출된다. 비록 양호한 접근법은 선형 및 비선형 왜곡 모두를 보상하기 위한 것이지만, 신경망 필터링 기술은 독립적으로 적용될 수도 있다. 트랜스듀서 및 청취, 녹음, 또는 방송 환경의 왜곡을 보상하기 위해 동일한 기술들이 역시 적용될 수 있다.

실시예에서, 선형 테스트 신호가 오디오 트랜스듀서를 통해 재생되고 동시에 녹음된다. 순방향 선형 전달 함수를 추출하고, 양호하게는, 예를 들어, 시간, 주파수 및 시간/주파수 영역 기술들 모두를 이용하여 노이즈를 저감시키기 위해, 원래의 신호 및 녹음된 테스트 신호가 처리된다. 변환의 시간-스케일링 속성을 이용하는 순방향 변환의 '스냅샷'에 대한 웨이브릿 변환의 병렬 적용은 트랜스듀서 임펄스 응답의 속성에 꽤 적합하다. 역방향 선형 전달 함수가 계산되어 선형 필터의 계수들에 맵핑된다. 양호한 실시예에서, 선형 신경망은 선형 전달 함수를 반전시키도록 트레이닝되고, 이로써 네트워크 가중치가 필터 계수들에 직접 맵핑된다. 프리-에코 및 과증폭과 같은 문제를 해결하기 위해 에러 함수(error function)를 통해 시간 및 주파수 영역 제약 모두가 전달 함수 상에 부과될 수 있다.

비선형 테스트 신호가 오디오 트랜스듀서를 통해 인가되고 동시에 녹음된다. 녹음된 신호는 양호하게는 선형 필터를 통과하여 장치의 선형 왜곡을 제거한다. 녹음된 신호에도 역시 노이즈 저감 기술이 적용될 수 있다. 그 다음, 비선형 테스트 신호에서 녹음된 신호를 감산하여 비선형 왜곡의 추정치를 제공한다. 이 비선형 왜곡의 추정치로부터 순방향 및 역방향 비선형 전달 함수가 계산된다. 양호한 실시예에서, 순방향 비선형 전달 함수를 추정하기 위해 테스트 신호 및 비선형 왜곡에 관해 비선형 신경망이 트레이닝된다. 역 변환은, 테스트 신호를 비선형 신경망에 재귀적으로 통과시키고 테스트 신호로부터 가중치부여된 응답을 감산함으로써 발견된다. 재귀 공식의 가중치 계수들은, 예를 들어 최소 평균 제곱 에러 접근법에 의해 최적화된다. 이 접근법에서 사용되는 시간-영역 표현은 오디오 신호의 일시적 영역 내의 비선형성을 처리하는데 꽤 적합하다.

재생시, 오디오 신호는 선형 필터에 인가되는데, 이 선형 필터의 전달 함수는, 선형의 미리보상된 오디오 신호를 제공하도록 오디오 재생 장치의 역방향 선형 전달 함수의 추정치이다. 그 다음, 선형적으로 미리보상된 오디오 신호는 비선형 필터에 제공되는데, 이 비선형 필터의 전달 함수는 역방향 비선형 전달 함수의 추정치이다. 이 비선형 필터는, 트레이닝된 비선형 신경망과 최적화된 재귀 공식에 오디오 신호를 재귀적으로 통과시킴으로써 적절하게 구현된다. 효율을 향상시키기 위해, 싱글-패스 재생 신경망을 트레이닝하기 위한 모델로서 비선형 신경망과 재귀 공식이 사용될 수 있다. 스피커 또는 증폭형 방송 안테나와 같은 출력 트랜스듀서의 경우, 선형 및 비선형적으로 미리보상된 신호가 트랜스듀서에 전달된다. 마이크로폰과 같은 입력 트랜스듀서의 경우, 선형 및 비선형 보상은 트랜스듀서의 출력에 적용된다.

본 발명의 이들 및 다른 특징들과 잇점들은, 첨부된 도면들과 함께 양호한 실시예의 이하의 상세한 설명들로부터 당업자에게는 명백할 것이다.

도 1a 및 1b는, 오디오 재생 장치에서의 재생을 위한 오디오 신호를 미리보상하기 위해 역방향 선형 및 비선형 전달 함수를 계산하기 위한 블럭도 및 흐름도이다.

도 2는 선형 신경망을 이용하여 순방향 선형 전달 함수를 추출하고 노이즈를 저감시키며, 역방향 선형 전달 함수를 계산하기 위한 흐름도이다.

도 3a 및 3b는 주파수 영역 필터링과 스냅샷의 재건을 예시하는 도면이고, 도 3c는 최종 순방향 선형 전달 함수의 주파수 플롯이다.

도 4a-4d는 순방향 선형 전달 함수의 스냅샷에 대한 웨이브릿 변환의 병렬 적용을 예시하는 도면이다.

도 5a 및 5b는 노이즈 저감된 순방향 선형 전달 함수의 플롯이다.

도 6은 순방향 선형 변환을 반전시키기 위한 단일층 단일뉴런 신경망도이다.

도 7은, 비선형 신경망을 이용하여 순방향 비선형 전달 함수를 추출하고 재귀적 감산 공식을 이용하여 역방향 비선형 전달 함수를 계산하기 위한 흐름도이다.

도 8은, 비선형 신경망도이다.

도 9a 및 9b는 스피커의 선형 및 비선형 왜곡을 보상하도록 구성된 오디오 시스템의 블럭도이다.

도 10a 및 10b는 재생 동안에 선형 및 비선형 왜곡에 대해 오디오 신호를 보상하기 위한 흐름도이다.

도 11은 스피커의 원래의 주파수 응답 및 보상된 주파수 응답의 플롯이다.

도 12a 및 12b는 각각 보상 전후의 스피커의 임펄스 응답의 플롯이다.

본 발명은 스피커, 증폭형 방송 안테나 또는 아마도 마이크로폰과 같은 오디오 트랜스듀서의 선형 및 비선형 왜곡을 보상하기 위한 효율적이고, 견실하며, 정밀한 필터링 기술들을 제공한다. 이들 기술들은, 역방향 전달 함수를 계산하기 위해 오디오 트랜스듀서를 특성기술하는 방법과, 플레이백, 방송, 또는 녹음 동안의 재생에 대해 이들 역방향 전달 함수를 구현하는 방법 모두를 포함한다. 양호한 실 시예에서, 역방향 전달 함수는, 종래의 주파수 영역 또는 모델링 기반의 접근법보다 오디오 신호 및 오디오 트랜스듀서의 속성을 더 정확히 표현하는, 선형 및 비선형 신경망에 의해 제공되는 것과 같은 시간 영역 계산을 이용하여 추출된다. 비록 양호한 접근법은 선형 및 비선형 왜곡 모두를 보상하기 위한 것이지만, 신경망 필터링 기술은 독립적으로 적용될 수도 있다. 스피커 및 청취, 방송 또는 녹음 환경의 왜곡을 보상하기 위해 동일한 기술들이 역시 채택될 수 있다.

본 명세서에서 사용될 때, 용어 "오디오 트랜스듀서"는 한 시스템으로부터의 전력에 의해 가동되어 또 다른 형태의 전력을 오디오 신호를 재생하는 또 다른 시스템에 제공하는 임의의 장치를 말한다. 여기서, 한 형태의 전력은 전기적인 것이고, 또 다른 형태의 전력은 음향적인 것 또는 전기적인 것이다. 트랜스듀서는, 스피커 또는 증폭형 안테나와 같은 출력 트랜스듀서이거나, 마이크로폰과 같은 입력 트랜스듀서일 수 있다. 전기적 입력 오디오 신호를 가청 음향 신호로 변환하는 확성기에 대한 본 발명의 실시예가 이제 기술될 것이다.

스피커의 왜곡 속성을 특성기술하기 위한 테스트 셋업, 및 역방향 전달 함수를 계산하는 방법이 도 1a 및 1b에 예시되어 있다. 테스트 셋업은 적절하게는 컴퓨터(10), 사운드 카드(12), 테스트 대상 스피커(14), 마이크로폰(16)을 포함한다. 컴퓨터는 오디오 테스트 신호(18)를 생성하여 사운드 카드(12)에 전달하고, 이어서 사운드 카드(12)는 스피커를 구동한다. 마이크로폰(16)은 가청 신호를 픽업하여 이것을 전기 신호로 되변환한다. 사운드 카드는 녹음된 오디오 신호(20)를, 분석을 위해 컴퓨터에 다시 보낸다. 풀 듀플렉스 사운드 카드는, 테스트 신호의 재생 및 녹음이 공유된 클럭 신호를 참조하여 수행되어 신호들이 하나의 샘플 주기 내에서 시간적으로 정렬되고, 그에 따라 완전히 동기화되도록, 적절하게 사용된다.

본 발명의 기술은 재생으로부터 녹음까지의 신호 경로에서 임의의 왜곡 소스를 특성기술하고 보상할 것이다. 따라서, 마이크로폰에 의해 도입된 임의의 왜곡이 무시될 수 있도록 고품질 마이크로폰이 사용된다. 주목할 점은, 만일 테스트 대상 트랜스듀서가 마이크로폰이라면, 원치않는 왜곡 소스를 무효화하기 위해 고품질 스피커가 사용될 것이다. 단지 스피커만을 특성기술하기 위해, "청취 환경"은 임의의 반사 또는 기타 왜곡 소스를 최소화하도록 구성되어야 한다. 대안으로서, 예를 들어, 소비자의 홈 씨어터의 스피커를 특성기술하기 위해 동일한 기술이 이용될 수 있다. 후자의 경우, 소비자의 수신기 또는 스피커 시스템은 테스트를 수행하고 데이터를 분석하며 재생을 위해 스피커를 구성하도록 구성되어야 할 것이다.

스피커의 선형 및 비선형 왜곡 속성 모두를 특성기술하기 위해 동일한 셋업이 이용된다. 컴퓨터는 상이한 오디오 테스트 신호(18)를 발생하고, 녹음된 오디오 신호(20)에 관하여 상이한 분석을 수행한다. 선형 테스트 신호의 스펙트럼 내용은, 스피커에 대하여 분석된 전체 주파수 범위 및 전체 진폭 범위를 커버해야 한다. 예시적 테스트 신호는 2개 시리즈의 선형, 전체 주파수 처프(chirp)로 구성된다: (a) 0 Hz로부터 24kHz까지 주파수에서 700ms 선형 증가, 0Hz까지 하향으로 주파수에서 700ms 선형 감소, 그 다음, 반복. (b) 0 Hz로부터 24kHz까지 주파수에서 300ms 선형 증가, 0Hz까지 하향으로 주파수에서 300ms 선형 감소, 그 다음, 반복. 양자 모두의 처프 종류가 신호 내에 존재하며, 동시에 신호의 전체 지속기간 동안에 걸쳐 있다. 처프는 시간 영역에서 날카로운 첫 발성(attack)과 느린 감쇠를 생성하는 방식으로 진폭에 의해 변조된다. 진폭 변조의 각 기간의 길이는 임의적이며 대략 0ms로부터 150ms의 범위이다. 비선형 테스트 신호는 양호하게는 다양한 진폭의 음조와 노이즈, 및 묵음 기간을 포함해야 한다. 신경망의 성공적 트레이닝을 위해 신호에는 충분한 가변성이 존재해야 한다. 예시적 비선형 테스트 신호는 비슷한 방식으로 구성되지만 다양한 시간 파라미터들을 가진다: (a) 0 Hz로부터 24kHz까지 주파수에서 4sec 선형 증가, 주파수에서 감소 없음, 다음 처프 기간은 다시 0Hz에서 시작. (b) 0 Hz로부터 24kHz까지 주파수에서 250ms 선형 증가, 0Hz까지 하향으로 주파수에서 250ms 선형 감소. 이 신호에서의 처프는 임의의 진폭 변화에 의해 변조된다. 진폭의 레이트는 8ms의 풀 스케일에 대해 0정도로 빠를 수 있다. 선형 및 비선형 테스트 신호 양자 모두는 양호하게는, 동기화 목적을 위해 사용될 수 있는 소정 종류의 마커(예를 들어, 단일의 풀스케일 피크)를 포함하지만, 이것은 강제사항은 아니다.

도 1b에 기술된 바와 같이, 역방향 전달 함수를 추출하기 위해, 컴퓨터는 선형 테스트 신호의 동기화된 재생 및 녹음을 실행한다(단계 30). 컴퓨터는 테스트 신호 및 녹음된 신호 모두를 처리하여 선형 전달 함수를 추출한다(단계 32). "임펄스 응답"이라고도 알려진 선형 전달 함수는, 델타 함수 또는 임펄스의 인가에 대한 스피커의 응답을 특성기술한다. 컴퓨터는 역방향 선형 전달 함수를 계산하고 그 계수들을 FIR 필터와 같은 선형 필터의 계수들에 맵핑한다(단계 34). 역방향 선형 전달 함수는 다양한 방식으로 획득될 수 있으나, 이하에서 상세히 기술되는 바와 같이, 선형 신경망에 의해 제공되는 것과 같은 시간 영역 계산의 사용은 오디오 신호 및 스피커의 속성을 가장 정확하게 나타낸다.

컴퓨터는 비선형 테스트 신호의 동기화된 재생과 녹음을 실행한다(단계 36). 이 단계는 선형 전달 함수가 추출된 이후에 수행되거나, 선형 테스트 신호의 녹음과 동시에 오프라인으로 수행될 수 있다. 양호한 실시예에서, FIR 필터가 녹음된 신호에 적용되어 선형 왜곡 성분을 제거한다(단계 38). 비록 항상 필요한 것은 아니지만, 선형 왜곡의 제거는 특성기술을 대단히 향상시키고, 그에 따라, 비선형 왜곡의 역방향 전달 함수를 대단히 향상시킨다는 것이 광범위한 테스트를 통해 드러났다. 컴퓨터는 필터링된 신호로부터 테스트 신호를 감산하여 비선형 왜곡 성분 단독의 추정치를 제공한다(단계 40). 그 다음, 컴퓨터는 비선형 왜곡 신호를 처리하여 비선형 전달 함수를 추출하고(단계 42), 역방향 비선형 전달 함수를 계산하기 위해(단계 44) 비선형 왜곡 신호를 처리한다. 양자 모두의 전달 함수들은 양호하게는 시간 영역 계산을 이용하여 계산된다.

선형 및 비선형 왜곡 성분 모두에 대한 역방향 전달 함수의 추출은 스피커의 특성기술과 그 왜곡 보상을 향상시킨다는 것을 우리의 시뮬레이션과 테스팅을 통해 설명하였다. 나아가, 솔루션의 비선형 부분의 성능은, 특성기술 이전에 전형적 주된 선형 왜곡을 제거함으로써 대단히 향상된다. 마지막으로, 역방향 전달 함수를 계산하기 위해 시간 영역 계산을 이용하는 것도 또한 성능을 향상시킨다.

선형 왜곡 특성기술

순방향 및 역방향 선형 전달 함수를 추출하기 위한 실시예가 도 2 내지 6에 예시되어 있다. 문제의 첫 부분은 순방향 선형 전달 함수의 양호한 추정치를 제공하는 것이다. 이것은, 단순히 스피커에 임펄스를 인가하고 그 응답을 측정하거나 녹음된 신호와 테스트 신호 스펙트럼의 비율의 역변환을 취하는 것을 포함한 많은 방식으로 달성될 수 있다. 그러나, 우리는, 시간, 주파수, 및/또는 시간/주파수 노이즈 저감 기술의 조합을 이용하여 후자의 접근법을 수정하는 편이 훨씬 더 깨끗한 순방향 선형 전달 함수를 제공한다는 것을 알아냈다. 실시예에서, 3개 모두의 노이즈 저감 기술이 채택되었으나, 소정의 응용에 대하여 이들 중 임의의 하나 또는 2개가 이용될 수도 있다.

컴퓨터는 랜덤 소스로부터의 노이즈를 저감하기 위해 복수개 기간의 녹음된 테스트 신호를 평균화한다(단계 50). 그 다음, 컴퓨터는 테스트 신호 및 녹음된 신호의 기간을 가능한 많은 세그먼트들 M으로 분할하되, 각각의 세그먼트는 스피커의 임펄스 응답의 지속기간을 초과해야 한다는 제약을 조건부로 한다(단계 52). 만일 이 제약이 만족되지 않으면, 스피커의 임펄스 응답의 부분들은 중첩하고 이들을 분리하는 것은 불가능할 것이다. 컴퓨터는 예를 들어 FFT를 수행함으로써 테스트 세그먼트 및 녹음된 세그먼트들의 스펙트럼을 계산하고(단계 54), 대응하는 테스트 스펙트럼에 대한 녹음된 스펙트럼의 비율을 형성하여 스피커 임펄스 응답의 주파수 영역에서 M개의 '스냅샷'을 형성한다(단계 56). 컴퓨터는 M개보다 작은 N개의 스냅샷들의 서브셋을 선택하기 위해 M개 스냅샷들에 걸쳐 각각의 스펙트럼 라인을 필터링한다(단계 58). 이들 스냅샷들 모두는 그 스펙트럼 라인에 대하여 비슷 한 진폭 응답을 갖는다. 이러한 "최상-N 평균화"는, 노이즈가 많은 환경의 전형적인 오디오 신호에서, 해당 스펙트럼 라인이 '음조' 노이즈에 의해 거의 영향받지 않는 한세트의 스냅샷이 대개는 존재한다는 우리의 지식에 기초하고 있다. 결과적으로 이 프로세스는, 노이즈를 단지 저감시키는 것이 아니라 실제로 노이즈를 회피한다. 실시예에서, (각각의 스펙트럼 라인에 대한) 최상-N 평균화 알고리즘은 :

1. 가용 스냅샷들에 걸쳐 스펙트럼 라인에 대한 평균을 계산한다.

2. 만일 단 N개의 스냅샷이 존재한다면 - 중단.

3. N개보다 많은 스냅샷이 존재한다면, 계산된 평균으로부터 스펙트럼 라인의 값이 가장 먼 스냅샷을 발견하고, 그 스냅샷을 이후의 계산으로부터 제거.

4. 스텝 1로부터 계속.

각각의 스펙트럼 라인에 대한 프로세스의 출력은, 최상의 스펙트럼 라인값을 갖는 N개 '스냅샷'의 서브세트이다. 그 다음, 컴퓨터는 각각의 서브세트 내에 열거된 스냅샷들로부터 스펙트럼 라인을 맵핑하여 N개 스냅샷을 재건한다(단계 60).

최상-N개 평균화 및 스냅샷 재건의 단계들을 예시하기 위한 간단한 예가 도 3a 및 3b에 제공되어 있다. 도면의 좌편에는 M=10 세그먼트들에 대응하는 10개의 '스냅샷'(70)이 있다. 이 예에서, 각각의 스냅샷에 대한 스펙트럼(72)은, 평균화 알고리즘에 대하여 N=4와 5개의 스펙트럼 라인(74)에 의해 표현된다. 최상-4 평균화의 출력은 각각의 라인(라인 1, 라인 2, ...라인 5)에 대한 스냅샷들의 서브셋이다(단계 76). 제1 스냅 샷 '스냅1'(78)은 라인1, 라인2, ..., 라인5 각각에서 첫번째 엔트리인 스냅샷들에 대하여 스펙트럼 라인을 부가함으로써 재건된다. 제2 스냅샷 '스냅2'는 각각의 라인에서 두번째 엔트리인 스냅샷들에 대하여 스펙트럼 라인들을 부가함으로써 재건되는 등의 방식이다(단계 80).

이 프로세스는 다음과 같은 알고리즘으로 표현될 수 있다:

S(i, j) = FFT(녹음된 세그먼트(i, j))/FFT(테스트 세그먼트(i, j)) 여기서 S()는 스냅샷(70)이고, I=1-M 세그먼트이며 j=1-P 스펙트럼 라인이다.

라인(j, k) = F(S(i, j)), 여기서 F()는 최상-4 평균화 알고리즘이고, k=1 내지 N이다.

RS(k, j) = 라인(j, k)이고, 여기서 RS()는 재건된 스냅샷이다.

최상-4 평균화의 결과가 도 3c에 도시되어 있다. 도시된 바와 같이, 각각의 스펙트럼 라인에 대한 모든 스냅샷들의 단순 평균화로부터 생성된 스펙트럼(82)은 노이즈가 매우 많다. '음조' 노이즈는 스냅샷들 중 일부에서 매우 강하다. 대조적으로, 최상-4 평균화에 의해 생성된 스펙트럼(84)은 노이즈가 매우 적다. 이 평활한 주파수 응답은, 기저 전달 함수를 모호하게 하고 비생산적인, 더 많은 스냅샷들을 단순히 평균화한 결과가 아니라는 점에 주목하는 것이 중요하다. 오히려, 평활한 주파수 응답은 주파수 영역에서 노이즈의 소스를 지능적으로 회피하여, 기저 정보를 유지하면서 노이즈 레벨을 저감시킨 결과이다.

컴퓨터는 N개의 주파수 영역 스냅샷들 각각에 역 FFT를 수행하여 N개의 시간 영역 스냅샷을 제공한다(단계 90). 이 시점에서, N개 시간 영역 스냅샷들은 단순히 함께 평균화되어 순방향 선형 전달 함수를 출력한다. 그러나, 실시예에서, N개 스냅샷 상에 추가의 웨이브릿 필터링 프로세스가 수행되어(단계 92), 웨이브릿 변 환의 시간/주파수 표현에서 복수의 시간-스케일로 '국부화될'수 있는 노이즈를 제거한다. 웨이브릿 필터링은 또한 필터링된 결과에서 최소량의 '링잉'을 초래한다.

한 접근법은 평균화된 시간-영역 스냅샷에 대해 한번의 웨이브릿 변환을 수행하고, 근사화 계수들을 전달하고 미리결정된 에너지 레벨에 대하여 '상세' 계수들을 0으로 임계치설정하고, 그 다음 역 변환을 수행하여 순방향 선형 전달 함수를 추출하는 것이다. 이 접근법은 웨이브릿 변환의 상이한 분해 레벨들에서의 '상세' 계수들에서 흔히 발견되는 노이즈를 정말로 제거한다.

도 4a-4d에 도시된 더 나은 접근법은, N개의 스냅샷(94) 각각을 이용하여 각각의 스냅샷에 대하여 2D 계수 맵(96)을 형성하는 '병렬' 웨이브릿 변환을 구현하고, 출력 맵(98)에서 어느 계수가 0으로 설정될 것인지를 결정하기 위해 각각의 변환된 스냅샷 계수의 통계치를 활용하는 것이다. 만일 계수가 N개 스냅샷들에 걸쳐 비교적 균일하다면, 노이즈 레벨은 아마도 낮을 것이고 그 계수는 평균화되어 전달되어야 할 것이다. 역으로, 만일 계수들의 편이 또는 편차가 상당하다면, 그것은 노이즈에 대한 훌륭한 표시자인 것이다. 따라서, 한 접근법은 편차의 측정치를 임계치와 비교하는 것이다. 만일 편차가 임계치를 초과한다면, 계수는 0으로 설정된다. 이 기본 원리는 모든 계수들에 대해 적용될 수 있다. 이 경우, 노이즈가 많은 것으로 간주되어 0으로 설정되었을 일부 '상세' 계수들은 유지되고, 그렇지 않고 전달되었을 일부 '근사화' 계수들은 0으로 설정되어 최종 순방향 선형 전달 함수(100)에서 노이즈를 저감시킬 것이다. 대안으로서, '상세' 계수들 모두는 0으로 설정되고 통계치들은 노이즈 많은 근사화 계수들을 포착하는데 사용될 수 있다. 또 다른 실시예에서, 통계치는 각 계수 부근 이웃들의 편차의 측정치가 될 수 있다.

노이즈 저감 기술들의 유효성은 도 5a 및 5b에 예시되어 있다. 이들 도면은 전형적인 스피커에 대하여 최종 순방향 선형 전달 함수(100)의 주파수 응답(102)을 도시한다. 도시된 바와 같이, 주파수 응답은 대단히 상세하고 깨끗하다.

순방향 선형 전달 함수의 정확성을 유지하기 위해, 스피커의 시간 및 주파수 영역 속성들과 그 임펄스 응답에 융통성있게 적합화될 수 있는 FIR 필터를 합성하기 위해 전달 함수를 반전시키는 방법이 필요하다. 이를 달성하기 위해, 우리는 신경망을 선택했다. 선형 활성화 함수의 이용은 신경망 아키텍쳐의 선택이 선형적일 것으로 제약한다. 선형 신경망의 가중치들은, 스피커의 역방향 선형 전달 함수 A()의 추정치를 제공하기 위해 입력으로서 순방향 선형 전달 함수(100)를 이용하고 타겟으로서 타겟 임펄스 응답을 이용하여 트레이닝된다(단계 104). 에러 함수는 원하는 시간 영역 제약 또는 주파수 영역 특성을 제공하도록 제약될 수 있다. 일단 트레이닝되고 나면, 노드들로부터의 가중치들은 선형 FIR 필터의 계수들에 맵핑된다(단계 106).

많은 공지된 타입의 신경망들이 적합하다. 신경망 아키텍쳐 및 트레이닝 알고리즘의 현재 상태의 기술은 피드포워드 네트워크(각각의 층이 이전 층들로부터의 입력을 수신하기만 하는 계층화된 네트워크)를 양호한 후보로 만들고 있다. 기존의 트레이닝 알고리즘들은 안정적인 결과와 양호한 일반화를 제공한다.

도 6에 도시된 바와 같이, 단일층 단일뉴런 신경망(117)은 역방향 선형 전달 함수를 결정하기에 충분하다. 시간 영역 순방향 선형 전달 함수(100)가 지연 라 인(118)을 통해 뉴런에 적용된다. 층은 N개 탭을 갖는 FIR 필터를 합성하기 위해 N개 지연 요소들을 가질 것이다. 각각의 뉴런(120)은, 지연된 입력을 단순히 전달하는 지연 요소들의 가중치부여된 합계를 계산한다. 활성화 함수(122)는 가중치부여된 합계가 신경망의 출력으로서 전달되도록 선형적이다. 실시예에서, 512-포인트 시간 영역 순방향 전달 함수와 1024-탭 FIR 필터에 대해 1024-1 피드포워드 네트워크 아키텍쳐(1024개의 지연 요소들과 1개의 뉴런)가 잘 작동했다. 하나 이상의 은닉층을 포함하는 더 정교한 네트워크들이 사용될 수 있다. 이것은 어느 정도의 융통성을 더해 주지만, 가중치들을 FIR 계수들에 맵핑하기 위하여 은닉층(들)로부터 입력층으로의 가중치들의 역전파와 트레이닝 알고리즘에 대한 수정을 요구할 것이다.

오프라인 감독형 탄력적 역전파 트레이닝 알고리즘(offline supervised resilient back propagation algorithm)은, 시간 영역 순방향 선형 전달 함수와 함께 뉴런에 전달되는 가중치들을 튜닝한다. 감독형 학습에서, 트레이닝 프로세스에서의 신경망 성능을 측정하기 위해, 뉴런의 출력은 타겟값과 비교된다. 순방향 전달 함수를 반전시키기 위해, 타겟 시퀀스는 단일의 "임펄스"를 포함하며, 여기서 모든 타겟값들 T_i는, 하나만 1(단위 이득)로 설정되고 모두 0이다. 비교는, 평균 제곱 에러(MSE)와 같은 수학적 메트릭을 이용하여 수행된다. 표준 MSE 공식은 :

여기서, N은 출력 뉴런의 갯수이고, O_i는 뉴런 출력 값이며, T_i는 타겟값들의 시퀀스이다. 트레이닝 알고리즘은 모든 가중치들을 조절하기 위해 네트워크를 통해 에러들을 "역전파"시킨다. 이 프로세스는 MSE가 최소화될 때까지 반복되고 가중치들은 해(solution)에 수렴했다. 그 다음, 이들 가중치들은 FIR 필터에 맵핑된다.

신경망은 시간 영역 계산을 수행하기 때문에, 즉, 출력 및 타겟 값들은 시간 영역에 있기 때문에, 역방향 전달 함수의 속성을 개선시키기 위해 에러 함수에 시간 영역 제약들이 적용될 수 있다. 예를 들어, 프리-에코는, 시간적으로 역방향으로 번진 시간영역 과도현상들의 에너지로부터의 음향 기록물에서 현저하게 두드러진 아티팩트가 청취되는 음향심리학적 현상이다. 그 지속기간과 진폭을 제어함으로써 우리는 그 가청도를 저하시키거나, '순방향 임시 마스킹'의 존재로 인해 완전히 들을 수 없게 만들 수 있다.

프리-에코를 보상하는 한 방법은, 시간의 함수로서의 에러 함수를 가중치부여하는 것이다. 예를 들어, 제약된 MSE는,

에 의해 주어진다. 우리는, t < 0 인 시간들은 프리-에코에 대응하고 t < 0에서의 에러는 더욱 강하게 가중치부여되어야 한다고 가정할 수 있다. 예를 들어, D(-inf:-1) = 100이고 D(0:inf) = 1이다. 그 다음, 역전파 알고리즘은 이 가중치부여된 MSEw 함수를 최소화하기 위해 뉴런 가중치 W_i를 최적화할 것이다. 가중치들은 임시 마스킹 곡선을 따르도록 튜닝될 수 있으며, 개별적인 에러 가중치부여외에도 에러 측정 함수에 대 해 제약을 부과할 다른 방법들(예를 들어, 선택된 범위에서 결합된 에러의 제약)이 있다.

선택된 범위 A:B에서 결합된 에러를 제약하는 대안적 예는 다음과 같다:

여기서,

SSE_AB - 소정 범위 A:B에서 제곱 에러의 합계.

O_i - 네트워크 출력값.

T_i - 타겟 값.

Lim - 소정의 미리정의된 한계.

Err - 최종 에러(또는 메트릭) 값.

비록 신경망은 시간 영역 계산이지만, 원하는 주파수 특성을 보장하기 위해 네트워크에 주파수 영역 제약이 부과될 수 있다. 예를 들어, 스피커 응답이 깊은 노치(notch)를 갖는 주파수들에서 역방향 전달 함수에는 "과증폭"이 발생할 수 있다. 과증폭은 시간 영역 응답에서 링잉을 유발할 것이다. 과증폭을 방지하기 위해, 모든 주파수에 대하여 원래는 1인 타겟 임펄스의 주파수 엔빌로프는, 원본과 타겟간의 최대 진폭 차이가 소정 db 한계치 아래가 되도록, 원래의 스피커 응답이 깊은 노치를 갖는 주파수들에서 감쇠된다. 제약된 MSE는 다음과 같이 주어진다:

여기서,

T' - 제약된 타겟 벡터;

T - 원래의 타겟 벡터;

O - 네트워크 출력 벡터;

F() - 푸리에 변환을 나타냄;

F^-1() - 푸리에 역변환을 나타냄;

A_f - 타겟 감쇠 계수;

N - 타겟 벡터 내의 샘플들의 갯수

이것은, 과증폭과, 그 결과로서의 시간 영역에서의 링잉을 피할 것이다.

대안으로서, 에러 함수에 대한 에러들의 기여도는 스펙트럼적으로 가중치부여될 수 있다. 이와 같은 제약을 부과하는 한 방법은 개개의 에러들을 계산하고, 이들 개개의 에러들에 관하여 FFT를 수행하고, 그 다음, 그 결과를, 고주파 성분에 더 많은 가중치를 부여하는 것과 같은 소정의 메트릭을 이용하여, 0과 비교하는 것이다. 예를 들어, 제약된 에러 함수는 다음과 같다:

여기서,

S_f - 스펙트럼 가중치;

O - 네트워크 출력 벡터;

T - 원래의 타겟 벡터;

F() - 푸리에 변환을 나타냄;

Err - 최종 에러(또는 메트릭) 값;

N - 스펙트럼 라인들의 갯수

시간 및 주파수 영역 제약들은, 양쪽 제약들 모두를 포함하도록 에러 함수를 수정하거나, 또는 에러 함수들을 함께 단순히 가산하고 그 총계를 최소화함으로써, 동시에 적용될 수 있다.

순방향 선형 전달 함수를 추출하기 위한 노이즈 저감 기술들과, 시간 및 주파수 영역 제약들 모두를 지원하는 시간 영역 선형 신경망과의 조합은, 재생 동안에 스피커의 선형 왜곡을 미리보상하기 위해 역방향 선형 전달 함수를 수행하도록 FIR 필터를 합성하기 위한 견실하고 정확한 기술을 제공한다.

비선형 왜곡 특성기술

순방향 및 역방향 비선형 전달 함수를 추출하기 위한 실시예가 도 7에 도시 되어 있다. 전술된 바와 같이, FIR 필터는 양호하게는 선형 왜곡 성분을 효과적으로 제거하기 위해 녹음된 비선형 테스트 신호에 적용된다. 비록 이것은 엄격하게 필요한 것은 아니지만, 역방향 비선형 필터링의 성능을 상당히 개선한다는 것을 발견했다. 노이즈의 무작위 및 기타 소스들을 저감하기 위해 종래의 노이즈 저감 기술들(단계 130)이 적용될 수 있지만 종종 불필요하다.

문제의 비선형 부분을 해결하기 위하여, 우리는 비선형 순방향 전달 함수를 추정하기 위해 신경망을 이용한다(단계 132). 도 8에 도시된 바와 같이, 피드포워드 네트워크(110)는 일반적으로 입력층(112), 하나 이상의 은닉층(114), 및 출력층(116)을 포함한다. 활성화 함수는 적절하게는 표준 비선형 tanh() 함수이다. 비선형 신경망의 가중치는, 순방향 비선형 전달 함수 F()의 추정치를 제공하기 위해, 지연 라인(118)에 대한 입력으로서 원래의 비선형 테스트 신호 I(115)와 출력층 내의 타겟으로서 비선형 왜곡 신호를 이용하여 트레이닝된다. 시간 및/또는 주파수 영역 제약들은 또한, 특정한 타입의 트랜스듀서에 의해 요구되는 에러 함수에 적용될 수 있다. 실시예에서, 8초의 테스트 신호 상에서 64-16-1 피드포워드 네트워크가 트레이닝되었다. 시간 영역 신경망 계산은, 오디오 신호의 과도 영역(transient region)에서 발생할 수 있는 현저한 비선형성을 나타내는데 있어서, 주파수 영역 Volterra 커널보다 훨씬 더 잘 해낸다.

비선형 전달 함수를 반전시키기 위해, 우리는 비선형 신경망을 이용하여 테스트 신호 I에 순방향 비선형 전달 함수 F()를 재귀적으로 적용하고 테스트 신호 I로부터 1계 근사치 Cj*F(I)(여기서, Cj는 j번째 재귀적 반복에 대한 가중치 계수이 다)를 감산하여, 스피커에 대한 역방향 비선형 전달 함수 RF()를 추정한다(단계 134). 가중치 계수 Cj는 예를 들어 종래의 최소 제곱 최소화 알고리즘을 이용하여 최적화된다.

1회 반복(재귀 없음)의 경우, 역방향 전달 함수에 대한 공식은 단순히 Y = I - C1*F(I)이다. 즉, 선형 왜곡이 적절히 제거된 입력 오디오 신호 I를 순방향 변환 F()에 통과시키고, 오디오 신호 I로부터 그 통과시킨 신호를 감산함으로써, 스피커의 비선형 왜곡에 대해 "미리보상된" 신호 Y를 생성한다. 오디오 신호 Y는 스피커를 통과할 때, 그 효과는 상쇄된다. 불행하게도 그 효과는 정확하게 상쇄되지는 않고 전형적으로 비선형 잔여 신호가 남는다. 2회 이상 재귀적으로 반복하고, 그에 따라 더 많은 가중치 계수들을 최적화함으로써, 공식은 비선형 잔여 신호를 0에 더욱 더 가깝게 만든다. 성능을 개선하기 위해 단 2회 또는 3회의 반복만이 도시되어 있다.

예를 들어, 3회의 반복 공식이 다음과 같이 주어진다:

Y = I - C3 * F(I - C2 * F(I - C1 * F(I))).

선형 왜곡에 대하여 I가 미리 보상되었다고 가정하면, 실제 스피커 출력은 Y + F(Y)이다. 비선형 왜곡을 효과적으로 제거하기 위해, 우리는 Y + F(Y) - I = 0의 해를 구하고, 계수들 C1, C2, 및 C3에 대한 해를 구해야 한다.

재생의 경우 2개의 옵션이 있다. 트레이닝된 신경망의 가중치와 재귀 공식의 가중치 계수들 Ci는, 비선형 신경망과 재귀 공식을 간단히 복제하기 위해 스피커 또는 수신기에 제공될 수 있다. 계산적으로 더 효율적인 접근법은, 역방향 비 선형 전달 함수를 직접 계산하는 "재생 신경망(PNN)"을 트레이닝하도록 상기 트레이닝된 신경망과 재귀 공식을 이용하는 것이다(단계 136). PNN은 또한 적절하게는 피드포워드 네트워크이고 원래의 네트워크와 동일한 아키텍쳐(예를 들어, 층 및 뉴런)를 가질 수도 있다. PNN은 원래의 네트워크를 트레이닝하는데 이용된 신호와 동일한 입력 신호 및 타겟으로서 재귀적 공식의 출력을 이용하여 트레이닝될 수 있다. 대안으로서, 상이한 입력 신호가 네트워크 및 재귀 공식을 통과할 수 있으며, 그 입력 신호 및 결과 출력은 PNN을 트레이닝하는데 사용된다. 구별되는 잇점은, 역방향 전달 함수가, 네트워크를 복수회(예를 들어, 3회) 통과할 것을 요구하는 것 대신에 한번의 신경망 통과로 수행될 수 있다는 것이다.

왜곡 보상 및 재생

스피커의 선형 및 비선형 왜곡 특성을 보상하기 위해, 스피커를 통한 재생에 앞서 오디오 신호에 대하여 역방향 선형 및 비선형 전달 함수가 반드시 실제로 적용되어야 한다. 이것은 복수의 상이한 하드웨어 구성과 역방향 전달 함수의 상이한 적용으로 달성될 수 있다. 이들 중 2개가 도 9a-9b 및 10a-10b에 예시되어 있다.

도 9a에 도시된 바와 같이, 베이스, 중간 범위, 및 고주파에 대하여 3개의 증폭기(152)와 트랜스듀서(154) 어셈블리를 갖는 스피커(150)에는, 스피커 왜곡을 상쇄시키거나 적어도 저감시키기 위해 입력 오디오 신호를 미리보상하도록 처리 기능(156)과 메모리(158)가 역시 제공된다. 표준 스피커에서, 오디오 신호는, 오디 오 신호를 베이스, 중간 범위, 및 고주파 출력 트랜스듀서에 맵핑하는 크로스오버 네트워크에 인가된다. 이 실시예에서, 스피커의 베이스, 중간 범위, 및 고주파수 성분들 각각은 그들의 선형 및 비선형 왜곡 속성에 대해 개별적으로 특성기술되었다. 필터 계수들(160) 및 신경망 가중치들(162)은 각각의 스피커 컴포넌트에 대하여 메모리(158)에 저장된다. 이들 계수들 및 가중치들은, 특정 스피커를 특성기술하기 위해 수행되는 서비스로서 제조시에 메모리에 저장되거나, 또는 엔드-유저가 웹싸이트로부터 이들을 다운로드하여 메모리에 포팅(port)함으로써 저장될 수 있다. 프로세서(들)(156)은 필터 계수들을 FIR 필터(164)에 로딩하고 가중치들을 PNN(166)에 로딩한다. 도 10a에 도시된 바와 같이, 프로세서는 FIR 필터를 오디오 인에 적용하여 선형 왜곡에 대하여 미리보상한다(단계 168). 그 다음, 그 신호를 PNN에 인가하여 비선형 왜곡에 대하여 미리보상한다(단계 170). 대안으로서, 네트워크 가중치들 및 재귀 공식 계수들은 저장되어 프로세서 내에 로딩될 수 있다. 도 10b에 도시된 바와 같이, 프로세서는 FIR 필터를 오디오 인에 적용하여 선형 왜곡에 대하여 미리 보상하고(단계 172), 그 다음, 그 신호를 NN과(단계 174) 재귀 공식에(단계 176)에 적용하여 비선형 왜곡에 대하여 미리보상한다.

도 9b에 도시된 바와 같이, 오디오 수신기(180)는 베이스, 중간 범위 및 고주파에 대하여 크로스오버 네트워크(184)와 앰프/트랜스듀서 컴포넌트(186)를 갖는 종래의 스피커(182)에 대하여 미리보상하도록 구성될 수 있다. 비록 필터 계수들(190)과 네트워크 가중치들(192)을 저장하기 위한 메모리(188)와, FIR 필터(196) 및 PNN(198)을 구현하기 위한 프로세서(194)가 오디오 디코더(200)에 대하여 별개 의 또는 추가의 컴포넌트로서 도시되어 있지만, 이 기능이 오디오 디코더 내에 설계되도록 하는 것도 가능하다. 오디오 디코더는 TV 방송 또는 DVD로부터 인코딩된 오디오 신호를 수신하고, 이를 디코딩하여, 각각의 스피커로 향하는 스테레오(L, R) 또는 다채널(L, R, C, Ls, Rs, LFE) 채널들로 분리시킨다. 도시된 바와 같이, 각각의 채널에 대하여, 프로세서는 오디오 신호에 FIR 필터 및 PNN을 적용하여 미리보상된 신호를 각각의 스피커(182)에 보낸다.

앞서 언급된 바와 같이, 스피커 자체 또는 오디오 수신기에는, 스피커를 특성기술하고 재생을 위해 요구되는 계수들과 가중치들을 제공하도록 신경망을 트레이닝하기 위한 프로세싱 및 알고리즘 기능과 마이크로폰 입력이 제공될 수 있다. 이것은 그 스피커의 왜곡 속성외에도 각각의 개개 스피커의 특정한 청취 환경의 선형 및 비선형 왜곡을 보상하는 잇점을 제공할 것이다.

역방향 전달 함수를 이용한 사전보상은 전술된 스피커나 증폭형 안테나와 같은 임의의 출력 오디오 트랜스듀서에 대해 작동할 것이다. 그러나, 마이크로폰과 같은 임의의 입력 트랜스듀서의 경우, 임의의 보상은 가청 신호로부터, 예를 들어, 전기 신호로의 트랜스듀싱에 "이후에" 수행되어야 한다. 신경망등을 트레이닝하기 위한 분석은 변하지 않는다. 재현 또는 재생을 위한 합성은 트랜스듀싱 이후에 발생한다는 점만 제외하고는 매우 유사하다.

테스팅 및 결과

선형 및 비선형 왜곡 성분들을 특성기술하고 별도로 보상하기 위해 개시된 일반적 접근법과, 시간 영역 신경망 기반의 해결책의 효과는, 전형적인 스피커에 대해 측정된 주파수 및 시간 영역 임펄스 응답에 의해 확인된다. 임펄스는 보정과 함께 및 보정없이 스피커에 인가되고 임펄스 응답이 기록된다. 도 11에 도시된 바와 같이, 보정되지 않은 임펄스 응답의 스펙트럼(210)은 0Hz로부터 약 22 kHz까지의 오디오 대역폭에 걸쳐 매우 불균일하다. 대조적으로, 보정된 임펄스 응답의 스펙트럼(212)은 전체 대역폭에 걸쳐 매우 평탄하다. 도 12a에 도시된 바와 같이, 보정되지 않은 시간 영역 임펄스 응답(220)은 상당한 링잉을 포함한다. 만일 링잉이 시간적으로 길거나 진폭에 있어서 높다면, 이것은 인간의 귀에 의해 신호에 추가된 반향 또는 신호의 특색(스펙트럼 특성에서의 변화)으로서 인지될 수 있다. 도 12b에 도시된 바와 같이, 보정된 시간 영역 임펄스 응답(222)은 매우 깨끗하다. 깨끗한 임펄스는, 시스템의 주파수 특성이 도 10에 도시된 바와 같은 단일 이득과 가깝다는 것을 나타낸다. 이것은 어떠한 특색, 반향, 또는 기타의 왜곡을 신호에 추가하지 않기 때문에 바람직하다.

본 발명의 몇개 실시예들이 도시되고 기술되었지만, 다양한 변형과 대안적 실시예가 당업자에 의해 이루어질 수 있다. 첨부된 특허청구범위에 정의된 본 발명의 사상과 범위로부터 벗어나지 않고 이와 같은 변형 및 대안적 실시예도 고려될 수 있으며 시행될 수 있다.

Claims

트랜스듀서에서의 재생을 위한 오디오 신호를 미리보상하기 위해 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수를 결정하는 방법에 있어서,

a) 상기 오디오 트랜스듀서를 통한 선형 테스트 신호의 동기화된 재생 및 녹음 단계;

b) 상기 선형 테스트 신호와 그 녹음된 버전으로부터 상기 오디오 트랜스듀서에 대한 순방향 선형 전달 함수를 추출하는 단계;

c) 상기 트랜스듀서에 대한 역방향 선형 전달 함수 A()의 추정치를 제공하기 위해 상기 순방향 선형 전달 함수를 반전(invert)시키는 단계;

d) 상기 역방향 선형 전달 함수를 선형 필터의 대응하는 계수들에 맵핑하는 단계;

e) 상기 트랜스듀서를 통한 비선형 테스트 신호 I의 동기화된 재생 및 녹음 단계;

f) 상기 트랜스듀서의 비선형 왜곡을 추정하기 위해, 상기 선형 필터를 상기 녹음된 비선형 테스트 신호에 적용하고, 상기 적용의 결과를 원래의 비선형 테스트 신호에서 감산하는 단계;

g) 상기 비선형 왜곡으로부터 순방향 비선형 전달 함수 F()를 추출하는 단계;

h) 상기 트랜스듀서에 대한 역방향 비선형 전달 함수 RF()의 추정치를 제공하기 위해 상기 순방향 비선형 전달 함수를 반전시키는 단계

를 포함하는, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제1항에 있어서, 상기 선형 테스트 신호의 재생 및 녹음은, 신호들이 하나의 샘플 기간 내에서 시간정렬되도록, 공유된 클럭 신호를 참조하여 수행되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제1항에 있어서, 상기 테스트 신호는 주기적이고, 상기 순방향 선형 전달 함수는,

복수 기간의 상기 녹음된 신호를 평균화하여 평균화된 녹음된 신호를 생성하는 단계;

상기 평균화된 녹음된 신호 및 상기 선형 테스트 신호를 비슷한 복수의 M개의 시간 세그먼트들로 분할하는 단계;

각각이 복수의 스펙트럼 라인을 갖는 비슷한 복수개의 스냅샷을 형성하기 위해, 녹음된 세그먼트 및 테스트 세그먼트들을 주파수 변환하고 비슷하게 비연산(ratioing)하는 단계;

N(N은 M보다 작음)개의 스냅샷들의 서브셋을 선택하기 위해 각각의 스펙트럼 라인을 필터링하는 단계로서, 상기 스냅샷들은 그 스펙트럼 라인에 대해 모두가 유사한 진폭 응답을 갖는 것인, 상기 각각의 스펙트럼 라인을 필터링하는 단계;

N개의 스냅샷들을 재건하기 위해 각각의 서브셋에 열거된 스냅샷들로부터 상기 스펙트럼 라인들을 맵핑하는 단계;

상기 순방향 선형 전달 함수의 N개 시간 영역 스냅샷들을 제공하기 위해 상기 재건된 스냅샷들을 역변환하는 단계; 및

상기 순방향 선형 전달 함수를 추출하기 위해 상기 N개 시간 영역 스냅샷들을 웨이브릿 필터링하는 단계

에 의해 추출되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제3항에 있어서, 상기 평균화된 녹음된 신호는, 각각의 세그먼트는 상기 트랜스듀서 임펄스 응답의 지속기간을 초과해야 한다는 제약을 조건부로, 복수의 세그먼트들로 분할되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제3항에 있어서, 상기 웨이브릿 필터는,

각각의 시간 영역 스냅샷을 2D 계수 맵으로 웨이브릿 변환하고,

상기 맵 전체에 걸쳐 상기 계수들의 통계치를 계산하고,

상기 통계치에 기초하여 상기 2D 계수 맵에서 계수들을 선택적으로 0으로 설정하며,

상기 2D 계수 맵을 평균화하여 평균화된 맵을 생성하고,

상기 평균화된 맵을 역방향 웨이브릿 변환하여 상기 순방향 선형 전달 함수를 형성함

으로써 병렬로 적용되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제5항에 있어서, 상기 통계치는 상이한 맵들로부터 동일한 위치의 계수들간의 편차를 측정하고, 상기 편차가 임계치를 초과하면 상기 계수들은 0으로 설정되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제1항에 있어서, 상기 순방향 선형 변환은, 역방향 선형 전달 함수 A()를 추정하기 위해 입력으로서 순방향 선형 전달 함수를 이용하고 타겟으로서 타겟 임펄스 신호를 이용하여 선형 신경망의 가중치들을 트레이닝함으로써 반전되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제7항에 있어서, 상기 가중치들은 에러 함수에 따라 트레이닝되고, 시간 영역 제약을 상기 에러 함수에 부과하는 단계를 더 포함하는, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제8항에 있어서, 상기 시간 영역 제약은 프리에코 부분의 에러들에 더 강하게 가중치를 부여하는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함 수의 결정 방법.
제7항에 있어서, 상기 가중치들은 에러 함수에 따라 트레이닝되고, 주파수 영역 제약을 상기 에러 함수에 부과하는 단계를 더 포함하는, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제10항에 있어서, 상기 주파수 영역 제약은, 상기 타겟 임펄스 신호와 원래의 임펄스 응답간의 최대 차이가 소정의 프리셋 한계치에서 클리핑되도록, 상기 타겟 임펄스 신호의 엔빌로프를 감쇠시키는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제10항에 있어서, 상기 주파수 영역 제약은 상기 에러 함수의 스펙트럼 성분들에게 상이하게 가중치를 부여하는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제7항에 있어서, 상기 선형 신경망은, 입력을 통과시키는 N개의 지연 요소, 상기 지연된 입력들 각각 상의 N개의 가중치, 및 출력으로서 상기 지연된 입력들의 가중치 합계를 계산하는 단일 뉴런을 포함하는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제1항에 있어서, 상기 순방향 비선형 전달 함수 F()는, 입력으로서 원래의 비선형 테스트 신호 I와 타겟으로서 비선형 왜곡을 이용하여 비선형 신경망의 가중치들을 트레이닝함으로써 추출되는 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
제1항에 있어서, 상기 순방향 비선형 전달 함수 F()가 상기 테스트 신호 I에 재귀적으로 적용되고, 테스트 신호 I로부터 Cj*F(I)를 감산하여 상기 역방향 비선형 전달 함수 RF()를 추정하며, 여기서 Cj는 j번째 재귀적 반복에 대한 가중치 계수이고, j는 1보다 큰 것인, 오디오 트랜스듀서의 역방향 선형 및 비선형 전달 함수의 결정 방법.
트랜스듀서에서의 재생을 위한 오디오 신호를 미리보상하기 위해 상기 트랜스듀서의 역방향 선형 전달 함수 A()를 결정하는 방법에 있어서,

a) 상기 트랜스듀서를 통한 선형 테스트 신호의 동기화된 재생 및 녹음 단계;

b) 상기 선형 테스트 신호와 그 녹음된 버전으로부터 상기 트랜스듀서에 대한 순방향 선형 전달 함수를 추출하는 단계;

c) 상기 트랜스듀서에 대한 역방향 선형 전달 함수 A()의 추정치를 제공하기 위해 입력으로서 순방향 선형 전달 함수와 타겟으로서 타겟 임펄스 신호를 이용하여 선형 신경망의 가중치들을 트레이닝하는 단계; 및

d) 상기 신경망(NN)으로부터의 트레이닝된 가중치들을 선형 필터의 대응하는 계수들에 맵핑하는 단계

를 포함하는, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제16항에 있어서, 상기 테스트 신호는 주기적이고, 상기 순방향 선형 전달 함수는,

복수 기간의 상기 녹음된 신호를 평균화하여 평균화된 녹음된 신호를 생성하는 단계;

상기 평균화된 녹음된 신호 및 상기 선형 테스트 신호를 비슷한 복수의 M개의 시간 세그먼트들로 분할하는 단계;

각각이 복수의 스펙트럼 라인을 갖는 비슷한 복수개의 스냅샷을 형성하기 위해, 녹음된 세그먼트 및 테스트 세그먼트들을 주파수 변환하고 비슷하게 비연산(ratioing)하는 단계;

N(N은 M보다 작음)개의 스냅샷들의 서브셋을 선택하기 위해 각각의 스펙트럼 라인을 필터링하는 단계로서, 상기 스냅샷들 모두는 그 스펙트럼 라인에 대해 유사한 진폭 응답을 갖는 것인, 상기 스펙트럼 라인을 필터링하는 단계 ;

N개의 스냅샷들을 재건하기 위해 각각의 서브셋에 열거된 스냅샷들로부터 상기 스펙트럼 라인들을 맵핑하는 단계;

상기 순방향 선형 전달 함수의 N개 시간 영역 스냅샷들을 제공하기 위해 상기 재건된 스냅샷들을 역변환하는 단계; 및

상기 순방향 선형 전달 함수를 추출하기 위해 상기 N개 시간 영역 스냅샷들을 필터링하는 단계

에 의해 추출되는 것인, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제17항에 있어서, 상기 시간 영역 스냅샷들은,

각각의 시간 영역 스냅샷을 2D 계수 맵으로 웨이브릿 변환하고,

상기 맵 전체에 걸쳐 상기 계수들의 통계치를 계산하고,

상기 통계치에 기초하여 상기 2D 계수 맵에서 계수들을 선택적으로 0으로 설정하며,

상기 2D 계수 맵을 평균화하여 평균화된 맵을 생성하고,

상기 평균화된 맵을 역방향 웨이브릿 변환하여 상기 순방향 선형 전달 함수를 생성함

으로써 병렬로 필터링되는 것인, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제16항에 있어서, 상기 순방향 선형 전달 함수는,

상기 순방향 선형 전달 함수의 N개 시간 영역 스냅샷을 제공하기 위해 상기 테스트 신호 및 녹음된 신호들을 처리하고,

각각의 시간 영역 스냅샷을 웨이브릿 변환하여 2D 계수 맵을 생성하고,

상기 맵 전체에 걸쳐 상기 계수들의 통계치를 계산하고,

상기 통계치에 기초하여 상기 2D 계수 맵에서 계수들을 선택적으로 0으로 설정하며,

상기 2D 계수 맵을 평균화하여 평균화된 맵을 생성하고,

상기 평균화된 맵을 역방향 웨이브릿 변환하여 상기 순방향 선형 전달 함수를 생성함

으로써 추출되는 것인, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제19항에 있어서, 상기 통계치는 상이한 맵들로부터 동일한 위치의 계수들간의 편차를 측정하고, 상기 편차가 임계치를 초과하면 상기 계수들은 0으로 설정되는 것인, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제16항에 있어서, 상기 선형 신경망은, 입력을 통과시키는 N개의 지연 요소, 상기 지연된 입력들 각각 상의 N개의 가중치, 및 출력으로서 상기 지연된 입력들의 가중치 합계를 계산하는 단일 뉴런을 포함하는 것인, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제16항에 있어서, 상기 가중치들은 에러 함수에 따라 트레이닝되고, 시간 영역 제약을 상기 에러 함수에 부과하는 단계를 더 포함하는, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
제16항에 있어서, 상기 가중치들은 에러 함수에 따라 트레이닝되고, 주파수 영역 제약을 상기 에러 함수에 부과하는 단계를 더 포함하는, 트랜스듀서의 역방향 선형 전달 함수 결정 방법.
트랜스듀서에서의 재생을 위한 오디오 신호를 미리보상하기 위해 상기 트랜스듀서의 역방향 비선형 전달 함수를 결정하는 방법에 있어서,

a) 상기 트랜스듀서를 통한 비선형 테스트 신호 I의 동기화된 재생 및 녹음 단계;

b) 상기 녹음된 비선형 테스트 신호로부터 상기 트랜스듀서의 비선형 왜곡을 추정하는 단계;

c) 순방향 비선형 전달 함수 F()의 추정치를 제공하기 위해, 입력으로서 원래의 비선형 테스트 신호 I와 타겟으로서 비선형 왜곡을 이용하여 비선형 신경망의 가중치를 트레이닝하는 단계;

d) 상기 트랜스듀서에 대한 역방향 비선형 전달 함수 RF()를 추정하기 위해, 상기 비선형 신경망을 이용하여 상기 순방향 비선형 전달 함수 F()를 상기 테스트 신호 I에 재귀적으로 적용하고, 테스트 신호 I로부터 Cj*F(I)를 감산―(여기서, Cj는 j번째 재귀적 반복에 대한 가중치 계수임)―하는 단계; 및

e) 상기 가중치 계수 Cj를 최적화하는 단계

를 포함하는, 오디오 트랜스듀서의 역방향 비선형 전달 함수 결정 방법.
제24항에 있어서, 상기 비선형 왜곡은, 상기 녹음된 비선형 테스트 신호로부터 선형 왜곡을 제거하고 그 결과를 원래의 비선형 테스트 신호에서 감산함으로써 추정되는 것인, 오디오 트랜스듀서의 역방향 비선형 전달 함수 결정 방법.
제24항에 있어서, 재생 신경망(PNN)이 상기 역방향 비선형 전달 함수 RF()를 직접 추정하도록, 입력으로서 상기 비선형 신경망에 인가되는 비선형 입력 테스트 신호와 타겟으로서 재귀적 적용의 출력을 이용하여 비선형 재생 신경망(PNN)을 트레이닝하는 단계를 더 포함하는, 오디오 트랜스듀서의 역방향 비선형 전달 함수 결정 방법.
오디오 트랜스듀서에서의 재생을 위한 오디오 신호 X를 미리보상하는 방법에 있어서,

a) 선형의 미리보상된 오디오 신호 X' = A(X)를 제공하도록, 상기 트랜스듀서의 역방향 선형 전달 함수 A()의 추정치에 해당하는 전달 함수를 갖는 선형 필터에 상기 오디오 신호 X를 인가하는 단계;

b) 미리보상된 오디오 신호 Y = RF(X')를 제공하도록, 상기 트랜스듀서의 역방향 비선형 전달 함수 RF()의 추정치에 해당하는 전달 함수를 갖는 비선형 필터에 상기 선형의 미리보상된 오디오 신호 X'를 인가하는 단계; 및

c) 상기 미리보상된 오디오 신호 Y를 상기 트랜스듀서에 보내는 단계

를 포함하는, 오디오 트랜스듀서에서의 오디오 신호를 미리보상하는 방법.
제27항에 있어서, 상기 선형 필터는 FIR 필터를 포함하고, 상기 FIR 필터의 계수들은, 상기 트랜스듀서의 역방향 선형 전달 함수의 추정치를 나타내는 전달 함수를 갖는 선형 신경망의 가중치로부터 맵핑되는 것인, 오디오 트랜스듀서에서의 오디오 신호를 미리보상하는 방법.
제27항에 있어서, 상기 비선형 필터는,

상기 트랜스듀서에 의해 생성된 비선형 왜곡의 추정치 F(X')를 출력하도록, 상기 트랜스듀서의 순방향 비선형 전달 함수를 나타내는 전달 함수 F()를 갖는 신경망에 대한 입력으로서 X'를 인가하는 단계; 및

미리보상된 오디오 신호 Y=RF(X')를 발생하도록, 오디오 신호 I로부터 가중치부여된 비선형 왜곡 Cj*F(X')―여기서, Cj는 j번째 재귀적 반복에 대한 가중치 계수임―을 재귀적으로 감산하는 단계

에 의해 구현되는 것인, 오디오 트랜스듀서에서의 오디오 신호를 미리보상하는 방법.
제27항에 있어서, 상기 비선형 필터는, 미리보상된 오디오 신호 Y = RF(X')를 발생하도록, 상기 역방향 비선형 전달 함수의 추정치에 해당하는 전달 함수 RF()를 갖는 비선형 재생 신경망에 X'를 통과시킴으로써 구현되며,

상기 전달 함수 RF()는 오디오 신호 I로부터 Cj*F(I)의 재귀적 감산을 에뮬 레이트하도록 트레이닝되고, F()는 상기 트랜스듀서의 순방향 비선형 전달 함수이며, Cj는 j번째 재귀적 반복에 대한 가중치 계수인 것인, 오디오 트랜스듀서에서의 오디오 신호를 미리보상하는 방법.
오디오 트랜스듀서에 대하여 오디오 신호 I를 보상하는 방법에 있어서,

a) 오디오 신호 I에 대하여 상기 트랜스듀서에 의해 생성된 비선형 왜곡의 추정치 F(I)를 출력하도록, 상기 트랜스듀서의 순방향 비선형 전달 함수를 나타내는 전달 함수 F()를 갖는 신경망에 대한 입력으로서 상기 오디오 신호를 제공하는 단계; 및

b) 보상된 오디오 신호 Y를 발생하도록, 가중치부여된 비선형 왜곡 Cj*F(I)―여기서, Cj는 j번째 재귀적 반복에 대한 가중치 계수임―를 오디오 신호 I로부터 재귀적으로 감산하는 단계

를 포함하는, 오디오 신호를 보상하는 방법.
오디오 트랜스듀서에 대하여 오디오 신호 I를 보상하는 방법에 있어서,

미리보상된 오디오 신호 Y를 발생하도록, 상기 트랜스듀서의 역방향 비선형 전달 함수의 추정치에 해당하는 전달 함수 RF()를 갖는 비선형 재생 신경망에 상기 오디오 신호 I를 통과시키는 단계를 포함하고,

상기 전달 함수 RF()는 오디오 신호 I로부터 Cj*F(I)의 재귀적 감산을 에뮬레이트하도록 트레이닝되며, F()는 상기 트랜스듀서의 순방향 비선형 전달 함수이 고, Cj는 j번째 재귀적 반복에 대한 가중치 계수인 것인, 오디오 신호를 보상하는 방법.