원격 통신(telecommunications) 및 다른 애플리케이션들(applications)에 있어서, 음을 방사하는 확성기(loudspeaker)와, 동일한 음향 환경(acoustic environment)으로부터 동시에 집음하도록 활성화되는 마이크로폰(microphone) 간의 음향 혼선(acoustic crosstalk)의 문제점이 잘 알려져 있다. 솔루션(solution)으로서, 싱글 음 채널의 재생("싱글 채널 AEC(singla-channel AEC)") 및 두 개의 오디오 채널들의 재생("스테레오 AEC(stereo AEC)") 모두를 위한, 음향 에코 제거(AEC)를 위한 기술이 과거에 제안되었다.
싱글 채널 AEC에 관하여는 다음의 문헌들이 참조되는데, 그 상세 목록은 본 출원의 부록에 포함되어 있다: [Hae92], [Bre99], [Kel84]. 스테레오 AEC에 관하 여는 다음의 문헌들이 참조된다: [Shi95], [Gae00], [Buc01], [Sug01].
도 9는 AEC 애플리케이션의 포괄적인 블록도를 나타낸다. 도 9는 스테레오 AEC에 대한 전형적인 시나리오를 도시한다. 도 9의 시스템은 그 전체를 900으로 표시한다. 전송실(transmitting room, 910)로부터 음원(sound source), 예를 들어 화자(speaker, 912)가 두개의 마이크로폰(920, 922)를 통해 포착된다. 화자(912)에 의해 전송된 음과 두 개의 마이크로폰(920, 922)에 의해 수신된 음 간의 관계는 전달 함수(transfer fucntion) g1(k), g2(k)에 의해서 기술된다. 다시 말하면, 전달함수 g1(k), g2(k)는, 예를 들면 전송실(910)의 음향 특성(acoustic characteristics)(예를 들면, 반사들(reflections))과 화자(912)와 두 마이크로폰(920, 922) 간의 거리에 의해 영향을 받는다. 마이크로폰 신호들 xl(k), xp(k)은 수신실(930)로 전송되고, 두 개의 확성기(932, 934)를 통해 재생된다.
동시에, 수신실(930)의 마이크로폰(940)은 수신실에 있는 또 다른 사용자(942)로부터 언어(speech)를 포착하도록 설정된다. 제1 스피커(932)에 의해 방사되는 음 신호들은 마이크로폰(940)에 연결되는데, 여기서 제1 스피커(932)와 마이크로폰(940) 간의 전송 특성(transmission characteristic)은 h1(k)로 나타낸다. 또한, 제2 스피커(934)에 의해 생성된 음향 신호는 마이크로폰(940)에 연결되는데, 여기서 제2 스피커(934)와 마이크로폰(940) 간의 전달 특성(transfer characteristic)은 hp(k)로 표시된다.
출력 마이크로폰 신호(이 마이크로폰 신호는, 예를 들어 제일 말단 청취자로, 예를 들어 사람 및/또는 기계로, 보내진다.)로 연결되는 두 스피커(932, 934)로부터 방사되는 음을 막기 위해서, AEC(950)는, 출력 신호(예를 들면, 마이크로폰(940)의 마이크로폰 신호 y(k))로부터 필터링된 버전의 입력 신호들 xl(k), xp(k)을 차감함으로써, 출력 신호 e(k)로부터의 입력되는 신호들 xl(k), xp(k)의 임의의 기여분들을 제거하려는 시도를 한다.
다시 말하면, 수신된 신호 x
l(k)는 필터 함수
를 이용하여 필터링되고 필터링의 결과는 마이크로폰 신호 y(k)로부터 차감된다. 또한, 신호 x
p(k)는 필터 함수
로 필터링된다. 이러한 필터링의 결과는 마이크로폰 신호 y(k)로부터 추가적으로 차감되고, 이로 인해 정정된 마이크로폰 신호 e(k)가 마이크로폰 신호 y(k)로부터 필터링된 버전의 신호들 x
l(k), x
p(k)를 차감함으로써 생성된다. 출력 신호 e(k)로부터 입력 신호들 x
l(k), x
p(k)의 기여분들을 제거(또는 최소한 감소)하는 것은 일반적으로 제거 필터(cancellation filters, 952, 954)들이 최소한의 오류 신호 e(k) 및 이로 인한 최적의 제거(optimum cancellation)를 얻기 위한 적용 알고리즘(adaptation algorithm)에 의해 동적으로 조정된다.
이는 상기 적용된 제거 필터(952, 954)들은 방사하는 스피커(932, 934)와 마이크로폰(940) 간의 전달 특성들(전달 함수
,
, 또는 임펄스 응답)의 정확한 모델이 되는 경우인 것으로 알려져 있다.
AEC를 위한 애플리케이션의 두 중요한 영역들은 핸즈 프리 전화 통신(hands-free telephony)(여기서, 말단 청취자는 전화의 리모트 단(remote end)에 위치하는 또 다른 사람이다.) 또는 자동 언어 인식(automatic speech recognition, ASR)을 위한 마이크로폰 신호 개선이다. 후자의 경우에는, 낮은 인식 오류율들(error rates)을 가지는 자동 언어 인식기(automatic speech recognizer)의 동작을 가능하도록 하기 위해, 마이크로폰 신호로부터 방에서 재생된 다른 음들의 영향을 제거하는 것이 목적이다. 일 예로서, 말로 하는 사용자 명령들(user commands)에 의한 어떤 기능들의 신뢰할만한 제어를 허용하기 위해서는, 하이파이 구조(HiFi setup)에서 나온 음악은 음성 명령 모듈(voice command module)의 입력으로부터 제거될 수 있다.
스테레오 AEC, 소위 "비특이성 문제(non-uniqueness problem)"가 존재하는 경우에 대한 것이 추가적으로 도시되는데 [Son95]: 두 확성기 신호들 모두가 강하게 상관(correlated)된다면, 적응성 있는 필터들은 일반적으로 스피커들(932, 934)과 마이크로폰(940) 간의 전달 함수
,
를 정확하게 모델링하지 않고, 단지 주어진 특별한 확성기 신호들의 에코 제거(echo cancellation)를 최적화하는 하나의 해결책(
,
)으로 모아진다. 결과적으로, 확성기 신호 x
1(k), x
p(k)의 특징에 있어서의 변화(예를 들면, 전송실(910)에 있는 음원(912)의 기하학적인 위치의 변화 때문임)는 에코 제거 수행이 고장(breakdown)나는 결과를 가져오고, 제거 필터들의 새로운 적용을 요구한다.
이러한 비특이성 문제의 솔루션의 하나로서, 그것들을 '역상관(decorrelation)"하기 위해, 수신실(930)에서 재생되기 전에 전송실(910)로부터의 신호들을 전처리하고, 이러한 방식으로 이미 논의된 모호성을 회피하기 위한 다양한 기술들이 제안되고 있다.
그러한 전처리 방식들에 대한 요구 사항들이 다음과 같이 요약될 수 있다:
* 수렴 개선: 전처리는 매우 상관된/모노포닉(correlated/monophonic) (입력) 신호들에 대해서도 빠르고 정확한 AEC 필터 수렴을 보장하기 위해 효율적으로 입력 신호들을 역상관할 수 있어야 한다.
* 주관적인 음질: 다음으로 전처리된 신호들이 확성기들을 통해 재생되고, 수신실(930) 내의 사용자들(942)에 의해 들려지기 때문에, 전처리는 이용된 오디오 신호들의 타입에 대해 이의를 제기할 만한 아티팩츠(artefacts)를 생성하지 않아야 한다. 오디오 신호들의 타입은 예를 들어 핸즈 프리 원격 통신 애플리케이션들에 대해 언어만(speech-only)이 될 수 있으며, 또는 음악을 포함하는 오디오 자료(audio material)의 어떠한 타입도 ASR 입력 개선에 이용된다.
* 구현 복잡도: 저렴한 소비자 장비에서 전처리의 경제적인 이용이 가능하도록 하기 위해, 매우 낮은 계산 및 메모리 복잡도가 바람직하다.
전처리 기술의 추가적인 구별 특징은 멀티 채널 동작, 즉 오디오의 둘 이상의 재생된 채널들을 다루는 것으로 종합되는 능력이다.
이하에서는, 음향 에코 제거(AEC)에 대한 종래 기술의 전처리 개념들을 설명 한다.
스테레오 AEC에 대한 첫번째 간단한 전처리 방법은 베네스티 외(Benesty et al.)([Ben98], [Mor01] 참조)에 의해 제안되었으며, 이 전처리 방법은 비선형 왜곡들을 신호들에 부가함으로써 신호들의 역상관을 한다. 비선형 왜곡들은, 예를 들면 반파 정류(half-way rectification), 전파 정류(full-way rectification) 또는 제곱근을 형성함으로써, 생성된다.
도 10은 비선형성에 의한 전처리의 개괄적인 블록도와 전달 함수들을 나타낸다. 도 10의 그래프 표현은 그 전체를 1000으로 표시한다. 제1 그래프 표현(1010)은 반파 정류 구성들(half-way rectification units, 1020, 1022)을 이용하는 전처리 구성(preprocessing unit)의 개괄적인 블록도를 나타낸다. 다시 말하면, 도 10은 일반적인 경우의 반파 정류를 위한, 신호들 x1(k), x2(k)의 역상관을 나타낸다.
제2 그래프 표현(1050)은 입력 신호들 x1, x2와 출력 신호들 x1', x2'간의 전달 특성을 나타낸다. 횡-좌표축(abscissa, 1060)은 입력 값들 x1, x2를 기술한다. 종-좌표축(ordinate, 1062)은 출력 값들 x1', x2'을 기술한다. x1, x1' 좌표 시스템의 원점(origin)에서 날카로운 꺽임(sharp bend)을 포함하는 제1 곡선(1070)은 입력 값 x1과 해당하는 출력 값 x1'간의 관계를 반영한다. x2, x2' 좌표 시스템의 원점에서 날카로운 꺽임을 포함하는 제2 곡선(1072)은 입력 신호 x2와 해당하는 출력 신 호 x2'간의 전달 특성을 기술한다.
다시 말하면, 도 10은 일반적인 경우의 반파 정류에 대하여 출력 신호들 x1', x2'을 형성하기 위하여 입력 신호들 x1, x2에 비선형 왜곡을 부가하는 것을 나타낸다.
상기 설명한 (비선형 왜곡들을 부가하는)방식이 매우 낮은 복잡도를 가지는 반면에, 상기 발생한 왜곡 생성물들(distortion products)은, 처리된 오디오 신호의 타입에 따라, 상당히 들릴 정도이며 거슬릴 수 있다. 전형적으로, 음질의 저하는 언어 또는 통신 애플리케이션들에 대해서는 수용할 만한 것으로 여겨지나, 음악 신호들을 위한 고품질의 애플리케이션들에 대해서는 수용할 만한 것으로 여겨지지 않는다.
두번째 종래 기술의 접근은 신호들(예를 들면, 두 입력 신호들 x1, x2)에 상관되지 않은(uncorrelated) 노이즈(noise)를 부가하는 것으로 구성된다. [Gae98]에서는, 상기 구성이 신호의 지각 오디오 코딩/디코딩(perceptual audio coding/decoding)에 의해 이루어지며, 지각 오디오 코딩/디코딩은 상관되지 않은 양자화 왜곡(quantization distortion)을 각 신호에 발생시키며, 각 신호는 심리 음향 모델(psycho-acoustic model)에 따라 지각 오디오 코더(perceptual audio coder) 내부에서 수행되는 노이즈 셰이핑(noise shaping) 때문에 마스킹된다. 상관되지 않은 노이즈를 양 채널들에 발생시키기 위해서, 결합 스테레오 코딩(joint stereo coding)이 이용되어서는 안된다.
예를 들어 스펙트럼 확산 변조(spread spectrum modulation, [Neu98] 참조)에 기반한, 지각 제어되는 워터마킹((perceptually controlled watermarking) 방식을 이용함으로써, 이와 유사한 효과가 얻어진다. 이러한 경우에는, 상관되지 않은 스펙트럼 확산(spread spectrum) 데이터 신호들이 양자화 노이즈(quantization noise) 대신에 원래(original) 신호에 끼워 넣어진다.
앞서 설명한 양 접근들 모두에 대해서, 분석/합성 필터뱅크들(analysis/synthesis filterbanks)과 함께 명백한(explicit) 심리 음향 모델의 이용이 임의의 형태의 오디오 신호들에 대한 가청 왜곡들을 방지할 수 있다. 그러나, 이와 관련된 구현 복잡도와 발생되는 지연이 이러한 접근을 대부분의 애플리케이션들에 대해 경제적으로는 매력이 없게 만든다.
AEC 전처리에 대한 세번째의 문헌상 접근은 두 출력 신호들에 대한 상보적인 코움 필터링(comb filtering)을 이용하는 것인데, 코움 필터링은 신호들 내에서 상보적인 스펙트럴 파트들(spectral parts)을 억누르고, 이러한 방식으로 그것들 간의 상관관계(correlation)를 붕괴시킨다([Ben98] 참조). 그러나, 이러한 타입의 처리는 일반적으로 인간 청취자들에 의해 지각되는 스테레오 이미지의 수용할 수 없는 저하를 가져오고, 이러한 저하는 앞서 설명한 처리를 고품질 애플리케이션들에는 적합하지 않게 만든다.
여전히 다른 접근들은, 온(on) 또는 오프(off)로 스위칭되는 ([Sug98], [Sug99] 참조) 시간 변화 또는 시간 지연 필터링(time-varying or time-delays filtering) 또는 스테레오 AEC의 양 신호들 간의 시간 변화 위상 시프트/신호 지 연(time-varying phase shift/signal delay)을 생성하기 위한 시간 변화 전역 통과 필터링(time-varying all-pass filtering)([Ali05] 참조)을 이용한다.
미국 출원 US 6,700,977 B2 및 US 6,577,731 B1([Sug98] 및 [Sug99]로도 표시됨)는 출력 신호가 원래 신호와 그 시간 지연된/필터링된 버전의 신호 간에 스위칭되는 전처리 시스템들을 설명한다. 단점으로서는, 이 스위칭 동작이 오디오 신호에 의도되지 않은 아티팩츠를 생성할 수 있다는 것이다.
US 6,895,093 B1([Ali05]로도 표시됨)는 전역 통과 전처리기(all-pass preprocessor)가 전역 통과 필터 변수 내에서 무작위로 변조되는 전처리 시스템을 설명한다.
이러한 타입들의 전처리 동작이, 일반적으로 다른 방법들과 비교해서 오디오 신호에 대한 그들의 효과에 있어서는 다소 두드러지지 않는 반면, 좌측 및 우측 채널 간의 (변동하는) 시간/위상(time/phase) 차의 발생이 지각된 스테레오 이미지의 지각된 시프트/변경(shift/alteration)이라는 결과를 가져오지 않는다는 것을 보증하면서, 최대의 역상관을 달성하기는 어렵다.
그래서, 본 발명의 목적은, 제한된 계산 복잡도를 가지면서 지각된 스테레오 이미지의 변경(alteration)을 최소화하는, 오디오 신호들의 역상관을 위한 개념을 생성하는 것이다.
이 목적은 청구항 1에 따른 오디오 신호 역상관기, 청구항 15에 따른 멀티 채널 신호 처리기(multi channel signal processor), 청구항 22에 따른 오디오 신호 프로세서(audio signal processor), 청구항 27, 28 또는 29에 따른 방법 또는 청구항 30에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명은 입력 오디오 신호로부터 출력 오디오 신호를 도출하기 위한 오디오 신호 역상관기를 창출한다. 상기 오디오 신호 역상관기는 입력 오디오 신호로부터 제1 부분 신호 및 제2 부분 신호를 추출하고, 상기 제1 부분 신호는 제1 오디오 주파수 범위 내의 오디오 컨텐트를 기술하되, 상기 제2 부분 신호는 제2 오디오 주파수 범위 내의 오디오 컨텐트를 기술하는 주파수 분석기(frequency analyzer)를 포함한다. 상기 제1 오디오 주파수 범위는 상기 제2 오디오 주파수 범위와 비교하여 더 높은 주파수들을 갖는다.
상기 오디오 신호 역상관기는 상기 제1 부분 신호에 적용되는 시간 변화 위상 시프트(time variant phase shift) 또는 시간 변화 지연(time variant delay)의 변조 크기(modulation amplitude)가 상기 제2 부분 신호에 적용된 시간 변화 위상 시프트 또는 시간 변화 지연의 변조 크기보다 더 높게 되도록 하여, 제1 처리된 부분 신호를 생성하기 위해 상기 제1 부분 신호를 변경하고 제2 처리된 부분 신호를 생성하기 위해 제2 부분 신호를 변경하거나, 또는 시간 변화 위상 시프트 또는 시간 변화 지연이 상기 제1 부분 신호에 적용되도록 상기 제1 부분 신호만을 (시변적으로) 변경하는 부분 신호 변경기(partial signal modifier)를 추가적으로 포함한다. 상기 오디오 신호 역상관기는 출력 오디오 신호를 생성하기 위해, 상기 제1 처리된 부분 신호 및 상기 제2 처리된 부분 신호를 결합하거나 또는 상기 제1 처리된 부분 신호 및 상기 제2 부분 신호를 결합하는 신호 결합기(signal combiner)를 더 포함한다.
본 발명의 오디오 신호 역상관기는, 상기 오디오 신호 역상관이 상기 출력 오디오 신호의 청취감이 상기 입력 오디오 신호의 청취감에 대하여 심하게 저하되지 않도록 수행된다는 점에서, 인간 청취 지각(human auditory perception)에 적용되는 오디오 신호의 역상관을 허용한다. 게다가, 본 발명의 오디오 신호 역상관기는 유사한 수행을 하는 다른 오디오 신호 역상관기들에 비교할 때 더 낮은 계산 복잡도를 포함한다.
본 발명의 주요한 아이디어는, 인간 청취 지각이 더 높은 주파수들의 오디오 주파수 범위에 비교할 때 더 낮은 주파수들의 오디오 주파수 범위 내 위상 시프트들에 더 민감하다는 것이 발견됨에 따라, 더 낮은 주파수들만을 포함하는 제2 오디오 주파수 범위에 비교할 때 더 높은 주파수들을 포함하는 제1 오디오 주파수 범위에 더 큰 지연 변조 또는 위상 시프트 변조를 발생시키는 것이 유리하다는 것이다.
본 발명의 추가적인 주요 발견은, 인간의 청취(human hearing)에 적용되는 오디오 신호 역상관은 입력 오디오 신호를 분석하여, 상기 입력 오디오 신호로부터 최소한 제1 부분 신호 및 제2 부분 신호를 추출하고 상기 제1 부분 신호 및 상기 제2 부분 신호에 서로 다른 시간 변화 지연들 또는 위상 시프트 변조들을 적용함으로써 이루어질 수 있다는 것이다.
본 출원을 통해서 "두 개(two)"라는 용어는 "적어도 두 개(at least two)"라는 의미에서 이용된다. 나아가, "멀티 채널(multi channel)"이라는 용어는 스테레오 신호(또는 2-채널 신호) 또는 두 개 이상의 채널을 포함하는 신호를 지칭하는 데 이용된다.
제1 구현에서, 제1 시간 변화 위상 시프트 또는 제1 시간 변화 지연은 상기 제1 부분 신호에 적용되고, 제2 시간 변화 위상 시프트 또는 제2 시간 변화 지연은 상기 제2 부분 신호에 적용되는데, 여기서 상기 제1 시간 변화 위상 시프트 또는 시간 변화 지연의 최대 변조 크기는 그 변조 크기에 있어서 상기 제2 위상 시프트 또는 지연보다 크다. 결과적으로 상기 제1 부분 신호는 상기 제2 부분 신호보다 더 큰 시간 변화 위상 시프트 또는 지연의 변조 크기를 포함하는데, 이는 상기 제1 부분 신호 및 상기 제2 부분 신호를 결합함으로써 형성되는 출력 오디오 신호에 반영된다. 그래서, 상기 출력 오디오 신호는, 변조 크기에 대해서 상기 제2 주파수 범위에 비교할 때, 상기 제1 주파수 범위 내에서 더 큰 시간 변화 위상 시프트들을 포함한다. 따라서 출력 오디오 신호는, 제1 오디오 주파수 범위에서와 같이, 인간 청취 지각의 임계치들을 초과하지 않으면서 최대 역상관 임팩트(maximum decorrelation impact)를 나타내는데, 상기 제1 오디오 주파수 범위는 상기 제2 오디오 주파수 범위보다 더 높은 주파수들을 포함하고 상기 인간 지각은 상기 제2 오디오 주파수 범위(여기서 제2 오디오 주파수 범위는 제1 오디오 주파수 범위보다 더 낮은 주파수들을 포함하는 것을 가정함)에서보다 위상 변화들(phase variations)에 덜 민감하다. 그래서, 본 발명은, 상기 시간 변화 위상 시프트 또는 시간 변화 지연들이 상기 입력 오디오 신호의 서로 다른 오디오 주파수 범위들에서의 오디오 컨텐트를 나타내는 복수의 부분 신호들에 적용됨에 따라, 상기 시간 변화 위상 시프트 또는 상기 시간 변화 지연의 주파수 의존적인(또는 주파수-범위 선택적인) 조정을 허용한다.
제2 실시예에서, 상기 제2 부분 신호가 단지 시간 불변 처리 만되는(또는 전혀 처리되지 않는) 반면, 시간 변화 위상 시프트 또는 시간 변화 지연은 상기 제1 부분 신호에만 적용된다. 이러한 방식으로, 상기 제1 오디오 주파수 범위에서는, 상기 제2 오디오 주파수 범위(여기서 시간 변화 지연의 시간 변화 위상 시프트가 상기 제2 주파수 범위 내에 발생되지 않음)에 비교할 때, 더 큰 시간 변화 위상 시프트 또는 시간 변화 지연이 발생된다. 상기 제2 오디오 주파수 범위가 일정한 주파수 임계치(예를 들어 400 Hz 또는 1 kHz의 순서(order)) 이하의 주파수들을 포함한다면, 이러한 실시예가 특히 유리한데, 여기서 그러한 특별히 낮은 주파수들에 대해서는 위상 시프트의 발생이 인간 청취 지각에 대해서 특히 강한 영향을 미친다.
다시 말하면, 본 발명은, 상기 제2 오디오 주파수 범위에 비교할 때, 상기 제1 오디오 주파수 범위에 더 큰 시간 변화 위상 시프트 또는 시간 변화 지연을 선택적으로 발생시키는 것을 허용하며, 그래서 상기 인간 청취 지각의 특성에 따라서 더 나아가 최대 역상관을 이루기 위한 요구사항에 따른 주파수의 함수로서 상기 시간 변화 위상 시프트 또는 시간 변화 지연의 크기(amplitude)를 설정하게 한다.
상기 시간 변화 위상 시프트 또는 지연의 주파수 의존적인 크기(amplitude)를 허용함에 의해서, 상기 지각적으로 허용 가능한 시간 변화 위상 시프트 또는 시간 변화 지연의 전체적인 퍼텐셜(potential)이 이용될 수 있다. 따라서 인간의 위상차에 대한 감각은 낮은 주파수들에서는 매우 높고 주파수들이 증가하는 동안 서서히 낮아지는데, 이 감각이 약 4 kHz 이상의 주파수들에 대해서 완전히 사라질 때까지 매우 주파수 의존적이라는 사실은 본 발명의 오디오 신호 역상관기의 설계에서 쉽게 고려될 수 있다.
바람직한 일 실시예에서, 상기 주파수 분석기는 상기 입력 오디오 신호를 적어도 두 개의 스펙트럴 계수들로 분해하는 분석 필터뱅크를 포함하고, 제1 스펙트럴 계수는 상기 제1 오디오 주파수 범위 내 오디오 컨텐트를 기술하고, 상기 제1 스펙트럴 계수는 제1 부분 신호를 형성하고, 제2 스펙트럴 계수는 상기 제2 오디오 주파수 범위 내 오디오 컨텐트를 기술하고, 상기 제2 스펙트럴 계수는 상기 제2 부분 신호를 형성한다. 상기 부분 신호 변경기는 상기 제1 처리된 부분 신호를 생성하기 위해 적어도 상기 제1 처리된 부분 신호의 위상을 시변적으로 변조한다. 대안적으로는, 상기 제1 처리된 부분 신호를 생성하기 위해 상기 제1 스펙트럴 계수의 위상을, 제2 처리된 부분 신호를 생성하기 위해 상기 제2 스펙트럴 계수의 위상을 시변적으로 변조한다.
상기 신호 결합기는 시간 영역 신호로서 상기 출력 오디오 신호를 생성하기 위해 상기 처리된 제1 부분 신호 및 상기 제2 부분 신호를 변환(및/또는 결합)하거나, 또는 상기 시간 입력 신호로서 상기 출력 오디오 신호를 생성하기 위해 상기 처리된 제1 부분 신호 및 상기 처리된 제2 부분 신호를 변환(및/또는 결합)한다.
다시 말하면, 바람직한 일 실시예에서 상기 입력 오디오 신호는 적어도 제1 스펙트럴 계수 및 제2 스펙트럴 계수를 포함하는 주파수 영역 표현으로 분해되는데, 상기 제1 스펙트럴 계수 및 상기 제2 스펙트럴 계수는 서로 다른 오디오 주파수 범위들을 기술한다. 그래서, 상기 스펙트럴 계수들은 상기 제1 오디오 주파수 범위 및 상기 제2 오디오 주파수 범위에서 오디오 신호 컨텐츠의 크기(magnitude) 및 위상을 기술한다. 이에, 상기 서로 다른 스펙트럴 계수들은 시간 변화 위상 시프트의 발생에 대해 특별히 잘 맞춰진 중간 양(intermediate quantity)으로 구성된다. 임의의 위상 시프트는 조정 가능한 지연 동작을 제공할 필요는 없고(시간 영역에서는 위상 시프트를 달성할 필요가 있을 수 있지만), 단지 상기 스펙트럴 계수들을 변경함에 의해 발생될 수 있다.
또 다른 바람직한 일 실시예에서는, 상기 주파수 분석기는 복소 값들로서 상기 스펙트럴 계수들을 제공한다. 이러한 경우에, 상기 부분 신호 변경기는 상기 제1 스펙트럴 계수 또는 상기 제1 스펙트럴 계수들을 미리 정해진, 동일한 시간 불변 크기 및 시간 변화 위상을 갖는 제1 복수의 시간 변화 복수 값들로 곱함으로써(또는 나눔으로써) 상기 제1 스펙트럴 계수의 위상을 시변적으로 변조한다. 다시 말하면, 서로 다른 오디오 주파수 범위들 내 상기 오디오 신호 컨텐트를 나타내기 위해, 복소 값들(즉, 복소수 스펙트럴 계수들)을 이용함으로써, 상기 시간 변화 위상 시프트의 발생은 단지 곱셈 또는 나눗셈 연산을 수행함으로써 이루어질 수 있다. 그래서, 필요한 하드웨어 또는 소프트웨어 노력은 특별히 낮다.
또 다른 바람직한 일 실시예에서, 상기 오디오 신호 역상관기는 변조 함수 생성기를 포함하는데, 상기 변조 함수 생성기는 시간 변화 변조 함수를 생성한다. 상기 오디오 신호 역상관기는 이러한 경우에 시간의 서로 다른 순간들에 상기 변조 함수의 값들로부터 상기 제1 복수의 시간 변화 복소 값들의 복소 값들의 시간 변화 위상을 도출한다. 그래서, 상기 제1 오디오 주파수 범위에 발생된 상기 시간 변화 위상 시프트가 상기 변조 함수에 의해 결정된다.
또 다른 바람직한 일 실시예에서, 상기 변조 함수 생성기는 매끄러운(smooth) 변조 함수를 생성한다. 이것은, 상기 제1 부분 신호 또는 상기 제2 부분 신호에 발생된 상기 위상 시프트의 급작스런 변화가 예를 들어 강한 주파수 변조 또는 가청 클릭(audible clicks)과 같은 가청 아티팩츠(audible artifacts)의 결과를 가져온다는 사실이 발견됨에 따라, 특히 유리하게 된다.
또 다른 바람직한 일 실시예에서, 상기 부분 신호 변경기는 상기 제2 스펙트럴 계수 또는 상기 제2 스펙트럴 계수들을 미리 정해진, 동일한 시간 불변 크기 및 시간 변화 위상을 갖는 제2 복수의 시간 변화 복소 값들로 곱하거나 나눔으로써 상기 제2 부분 신호의 스펙트럴 계수들의 위상을 시변적으로 변경한다. 상기 오디오 신호 역상관기는 시간의 서로 다른 순간들에 상기 변조 함수의 값들로부터 상기 제2 복수의 시간 변화 복소 값들의 복소 값들의 시간 변화 위상들을 도출한다. 다시 말하면, 상기 동일한 변조 함수에 의해 상기 제1 스펙트럴 계수의 위상의 시간 변화 및 상기 제2 스펙트럴 계수들의 위상의 시간 변화를 결정하는 것이 바람직하다.
추가적으로는, 앞서 논의한 바와 같이, 상기 제1 스펙트럴 계수들의 상기 시간 변화 위상 변화는 상기 제2 스펙트럴 계수들의 위상의 시간 변화보다 커야 한다. 그래서, 상기 제2 스펙트럴 계수(또는 상기 제1 스펙트럴 계수들)에 적용된 상기 시간 변화 위상 시프트(또는 위상-시프트 값)은, 상기 제1 스펙트럴 계수(또는 상기 제1 스펙트럴 계수들)에 적용된 위상 시프트(또는 위상 시프트 값들)에 비교할 때, 전형적으로 상기 변조 함수와는 다른 방식으로 도출된다.
그래서, 바람직한 일 실시예에서 상기 오디오 신호 역상관기는, 상기 제1 복수의 시간 변화 복소 값들의 복소 값들의 시간 변화 위상을 생성하기 위해, 제1 시간 불변 스칼라 값을 이용하여 상기 주기적 변조 함수(이는 시간의 함수이고, 그래서 "시간 함수(time function)"로도 표시됨)를 스케일한다. 게다가, 상기 스케일러(scaler)는 상기 제2의 복수의 시간 변화 복소 값들의 복소 값들의 시간 변화 위상을 생성하기 위해, 상기 주기적 변조 (시간) 함수를 제2 시간 불변 스칼라 값으로 스케일한다. 상기 제1 스칼라 값의 절대값 또는 크기(magnitude)는, 상기 제1 부분 신호에 적용된 위상 시프트가 상기 제2 부분 신호에 적용된 위상 시프트 보다 더 크도록 하기 위해, 상기 제2 스칼라 값의 절대값 또는 크기(magnitude)보다 더 크다. 그래서, (상기 제1 부분 신호 및 상기 제2 부분 신호의) 각 시간 변화 위상 시프트는 단지 상기 변조 시간 함수의 값들과 상기 제1 스칼라 값 및 상기 제2 스칼라 값을 스케일링(scaling, 또는 곱)함으로써 효율적으로 달성될 수 있다. 결과적으로, 상기 제1 오디오 주파수 범위에 발생된 위상 시프트는 상기 제2 오디오 주파수 범위에 발생된 위상 시프트에 비례한다(그러나 더 크다). 이는 상기 출력 오디오 신호의 특별히 좋은 지각력(perception impression) 및 더 나아가 특별히 효율적인 구현 구조의 결과를 가져온다.
본 발명은 두 개의 역상관된 오디오 신호들을 생성하기 위해, 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 역상관하기 위한 멀티 채널 오디오 신호 프로세서를 추가적으로 포함한다. 상기 멀티 채널 오디오 신호 프로세서는 앞서 설명한 제1 오디오 신호 역상관기를 포함한다. 상기 제1 오디오 신호 역상관기는 그 입력 오디오 신호로서 상기 제1 채널 오디오 신호를 수신한다. 상기 멀티 채널 오디오 신호 프로세서 및 상기 제1 오디오 신호 역상관기는, 만약 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호가 상기 제1 오디오 주파수 범위 및 상기 제2 오디오 주파수 범위 내 시상수(time constant) 또는 소멸되는 위상(vanishing phase)을 포함한다면, 상기 제1 오디오 신호 역상관기의 출력 오디오 신호 및 상기 제2 채널 오디오 신호(또는 상기 제2 채널 오디오 신호로부터 도출된 신호)의 제1 오디오 주파수 범위 내 오디오 컨텐츠가 상기 제1 오디오 신호 역상관기 및 상기 제2 채널 오디오 신호(또는 상기 제2 채널 오디오 신호로부터 도출된 신호)의 제2 오디오 주파수 범위 내 오디오 컨텐츠보다 서로에 대해 더 큰 시간 변화 위상 시프트 변조를 포함하도록 한다.
즉, 본 발명의 멀티 채널 오디오 신호 프로세서, 예를 들어 스테레오 오디오 신호 프로세서는 본 발명의 오디오 신호 역상관기를 포함하며, 그래서 서로 다른 주파수 밴드들(예를 들어 상기 제1 오디오 주파수 범위 및 상기 제2 오디오 주파수 범위) 내 시간 변화 위상 시프트 변조의 주파수 선택적 발생을 허용한다. 게다가, 인간 청취 지각에 적용되기 위해서는, 상기 멀티 채널 오디오 신호 프로세서는 상기 제1 오디오 주파수 범위 내 상기 멀티 채널 오디오 신호 프로세서의 출력 신호들간의 시간 변화 위상 시프트 또는 지연의 변조 크기가 상기 제2 오디오 주파수 범위 내 상기 멀티 채널 오디오 신호 프로세서의 출력 신호들간의 시간 변화 위상 시프트 또는 지연의 변조 크기보다 더 크도록 한다.
그래서, 상기 제1 채널 오디오 신호(그리고 가능하게는 또한 상기 제2 채널 오디오 신호)를 복수의 오디오 주파수 범위들로 분해함으로써, 주파수 선택적 처리가 달성되는데, 이는 상기 멀티 채널 오디오 신호의 두 출력 신호들간의 위상 시프트들이 상기 제2 오디오 주파수 범위 내에서보다 제2 오디오 주파수 범위 내에서 더 크게 되도록 한다.
그래서, 상기 멀티 채널 오디오 신호 프로세서는, 상기 두 스테레오 채널들 간에 발생된 시간 또는 위상 시프트의 변조 크기가 더 낮은 주파수들에 대해서 보다 더 높은 주파수들에 대해서 더 커지도록 하는, 예를 들어 스테레오 신호(제1 채널 오디오 신호 및 제2 채널 오디오 신호)의 역상관을 허용한다. 상기 스테레오 신호들(예를 들어 상기 제1 채널 오디오 신호) 중 적어도 하나를 서로 다른 오디오 주파수 범위들로의 분리로 인해, 서로 다른 오디오 주파수 범위들에서의 위상 시프트의 크기의 유연한 조정이 가능하며, 상기 멀티 채널 오디오 신호 프로세서의 효율적인 구현이 달성될 수 있다.
또 다른 바람직한 실시예에서, 상기 멀티 채널 오디오 신호 프로세서는 상기 제2 채널 오디오 신호를 수신하고 제2 역상관된 오디오 신호를 출력하는 제2 오디오 신호 역상관기를 포함한다. 그래서, 상기 제1 채널 오디오 신호는 상기 제1 역상관된 출력 오디오 신호를 생성하기 위해 상기 제1 오디오 신호 역상관기에 의해 처리되고, 상기 제2 채널 오디오 신호는 상기 제2 역상관된 출력 오디오 신호를 생성하기 위해 상기 제2 오디오 신호 역상관기에 의해 처리된다. 상기 제1 오디오 신호 역상관기 및 상기 제2 오디오 신호 역상관기는 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 대해 병렬적으로 동작하며, 여기서, 만약 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호가 상기 제1 오디오 주파수 범위 및 상기 제2 오디오 주파수 범위(예를 들어 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호는 동일) 내 시상수 또는 소멸되는 위상 시프트(vanishing phase shift)을 나타낸다면, 상기 제1 역상관된 출력 오디오 신호 및 상기 제2 역상관된 출력 오디오 신호의 제1 오디오 주파수 범위 내 오디오 컨텐트간의 시간 변화 위상 시프트의 변조 크기가 상기 제1 역상관된 출력 오디오 신호 및 상기 제2 역상관된 출력 오디오 신호의 제2 오디오 주파수 범위 내 오디오 신호 컨텐트간의 시간 변화 위상 시프트의 변조 크기보다 더 크다는 것이 보장될 수 있다. 다시 말하면, 본 발명의 멀티 채널 신호 프로세서는, 상기 두 채널들 내 더 높은 주파수 오디오 컨텐트간의 시간 변화 위상 시프트의 변조 크기가 상기 두 채널들의 더 낮은 주파수 오디오 컨텐트간의 시간 변화 위상 시프트들의 변조 크기보다 크다는 것을 보장한다.
또 다른 바람직한 일 실시예에서, 상기 제1 오디오 신호 역상관기는 제1 위상 시프트 값에 기초하여 그 제1 오디오 주파수 범위 내 시간 변화 지연 또는 시간 변화 위상 시프트를 조정하고, 제2 위상 시프트 값에 기초하여 그 제2 오디오 주파수 범위 내 시간 변화 지연 또는 시간 변화 위상 시프트를 조정한다. 상기 제2 오디오 신호 역상관기는 제3 위상 시프트 값에 기초하여 그 제1 오디오 주파수 범위 내 시간 변화 위상 시프트 또는 시간 변화 지연을 조정하고, 제4 위상 시프트 값에 기초하여 그 제2 오디오 주파수 범위 내 시간 변화 위상 시프트 또는 시간 변화 지연을 조정한다. 상기 멀티 채널 신호 프로세서는 상기 변조 시간 함수를 스케일링함으로써 공용 변조 함수(common modulation function)로부터 상기 제1 위상 시프트 값, 상기 제2 위상 시프트 값, 상기 제3 위상 시프트 값 및 상기 제4 위상 시프트 값을 도출하는 스케일러를 추가적으로 포함한다. 다시 말하면, 바람직한 일 실시예에서, 상기 두 오디오 신호 역상관기들에 발생된 시간 변화 지연 또는 시간 변화 위상 시프트는 하나의 공용 변조 시간 함수로부터 도출된다. 그래서, 시간적으로 대등한(time-coordinated) 또는 대칭인(또는 반대칭인(anti-symmetrical)) 위상 시프트들이 상기 멀티 채널 오디오 신호 프로세서의 두 채널들에 발생되고, 이러한 위상 시프트들은 특히 잘 균형이 유지된(well-balanced) 또는 대칭인(또는 반대칭인) 출력 신호의 결과를 가져온다. 서로 다른 주파수 범위들에 있어서의 위상 변화들은 상기 두 오디오 채널들간에 동기화된다. 이것은 위상 변화들이 상기 신호들의 주파수 변조로서 지각될 수 있기 때문에 특히 중요하다. 그러나, 대등하지 않은(uncoordinated) 주파수 변조는 상기 두 오디오 채널들에서 서로 다른데(예를 들어 좌측 스테레오 채널 및 우측 스테레오 채널), 상기 주파수 변조는 특별히 강하게 지각될 수 있는 왜곡들(distortions)의 결과를 가져온다. 게다가, 인간 지각(human perception)이 특히 주파수 관계들(frequency relations)에 민감하므로, 싱글 오디오 채널의 서로 다른 오디오 주파수 범위들에 있어서의 대등하지 않은(uncoordinated) 주파수 변조는 또한 꽤 가청인 아티팩츠(artifacts)의 결과를 가져올 수 있다. 그래서, 싱글 변조 시간 함수에 의해 대등하게 된(coordinated), 서로 다른 오디오 주파수 밴드들 내 동기화된 위상 시프트는 가청 아티팩츠를 회피하기 위한 중요한 조치이다.
본 발명은 오디오 컨퍼런스 시스템을 추가적으로 포함한다. 상기 오디오 컨퍼런스 시스템은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 수신하는 오디오 입력을 포함한다. 상기 오디오 컨퍼런스 시스템은 앞서 설명한 바와 같이, 멀티 채널 신호 프로세서를 더 포함한다. 게다가, 상기 오디오 컨퍼런스 시스템은 상기 제1 오디오 신호 역상관기의 출력 오디오 신호를 출력하는 제1 전자음향 트랜스듀서, 상기 제2 채널 오디오 신호 또는 상기 제2 채널 오디오 신호로부터 도출된 신호를 출력하는 제2 전자음향 트랜스듀서, 그리고 상기 제1 전자음향 트랜스듀서 및 상기 제2 전자음향 트랜스듀서와 음향적으로 결합된 마이크로폰을 포함하는데, 상기 마이크로폰은 상기 수신된 음향 신호를 기술하는 마이크로폰 신호를 제공한다. 상기 오디오 컨퍼런스 시스템은 상기 마이크로폰 신호로부터 상기 제1 전자음향 트랜스듀서에 의한 오디오 컨텐트 출력을 감소 또는 제거하고 상기 마이크로폰 신호로부터 상기 제2 전자음향 트랜스듀서에 의한 오디오 컨텐트 출력을 감소 또는 제거하는 에코 제거 유닛(echo cancellation unit)을 포함한다. 상기 에코 제어 유닛은 상기 마이크로폰 신호의 비교에 기초하여 에코 제거 파라미터들을 조정하는데, 상기 신호는 상기 제1 전자음향 트랜스듀서에 의해 출력되고 상기 신호는 상기 제2 전자음향 트랜스듀서에 의해 출력된다.
본 발명에 따르면, 상기 제1 전자음향 트랜스듀서에 의해 출력된 제1 역상관된 출력 오디오 신호 및 상기 제2 전자음향 트랜스듀서에 의해 출력된 제2 역상관된 출력 오디오 신호가 본 발명의 멀티 채널 오디오 신호 프로세서를 이용하기 때문에 특히 더 좋은 전자음향 특성을 포함하는 것과 같이, 상기 에코 제거 유닛은 특히 좋은 제거 특성을 가지고 동작한다. 게다가, 본 발명의 오디오 컨퍼런스 시스템이 본 발명의 멀티 채널 오디오 신호 프로세서를 이용함에 따라, 상기 제1 전자음향 트랜스듀서 및 상기 제2 전자음향 트랜스듀서에 의해 출력된 오디오 신호들은 상기 역상관 처리에 기인한 강한 가청 아티팩츠들을 포함하지 않는다. 또한, 본 발명의 멀티 채널 오디오 신호 프로세서에서 상기 위상 시프트가 주파수 선택적 방식으로 발생되는 것과 같이, 더 낮은 오디오 주파수 범위에서의 위상 시프트들(또는 위상 시프트들의 변조 크기)은 더 높은 오디오 주파수 범위에서의 위상 시프트들(또는 위상 시프트들의 변조 크기)보다 더 작다. 그래서, 상기 제1 전자음향 트랜스듀서 및 상기 제2 전자음향 트랜스듀서에 의해 출력된 신호의 스테레오 지각(stereo perception)은 상기 제1 역상관된 출력 오디오 신호 및 상기 제2 역상관된 출력 오디오 신호의 역상관에도 불구하고 청각적으로 저하되지 않는다. 그래서, 인간 가청 지각에 적용되는 방식으로 위상 시프트가 발생되므로, 상기 제1 전자음향 트랜스듀서 및 상기 제2 전자음향 트랜스듀서에 의해 생성된 신호를 지각하는 사용자는 상기 신호들에 발생된 위상 시프트에 의해 심하게 영향받지는 않을 것이다. 게다가, 본 발명의 멀티 채널 신호 프로세서가 비교될 만한 성과를 제공하는 다른 솔루션들에 비교적 덜 노력하여 구현될 수 있는 바와 같이, 본 발명의 오디오 컨퍼런스 시스템은 특히나 단순한 구조를 포함한다.
본 발명은 입력 오디오 신호로부터 출력 오디오 신호를 도출하는 방법을 추가적으로 포함한다. 상기 방법은 상기 입력 오디오 신호로부터 제1 부분 신호 및 제2 부분 신호를 추출하는 단계로서, 상기 제1 부분 신호는 제1 오디오 주파수 범위 내 오디오 컨텐트를 기술하고, 상기 제2 부분 신호는 제2 오디오 주파수 범위 내 오디오 컨텐트를 기술하는, 단계를 포함한다. 상기 제1 오디오 주파수 범위는 상기 제2 오디오 주파수 범위와 비교하여 더 높은 주파수들을 포함한다. 상기 방법은 상기 제1 부분 신호에 적용된 시간 변화 위상 변화 또는 시간 변화 지연의 변조 크기가 상기 제2 부분 신호에 적용된 시간 변화 위상 시프트 또는 시간 변화 지연의 변조 크기보다 더 높도록 하여, 제1 처리된 부분 신호를 생성하기 위해 상기 제1 부분 신호를 변경하고, 제2 처리된 부분 신호를 생성하기 위해 상기 제2 부분 신호를 변경하는, 단계를 더 포함한다. 본 발명의 방법은 상기 제1 처리된 부분 신호 및 상기 제2 처리된 부분 신호를 결합하는 단계를 더 포함한다.
대안적으로는, 상기 방법은 시간 변화 위상 시프트 또는 시간 변화 지연이 상기 제1 부분 신호에 적용되도록, 단지 상기 제1 부분 신호만을 변경하는 단계를 포함한다. 상기 방법은 출력 오디오 신호를 생성하기 위해 상기 제1 처리된 부분 신호 및 상기 제2 부분 신호를 결합하는 단계를 포함한다. 본 발명의 방법은 본 발명의 장치와 동일한 특성 및 장점을 포함한다.
게다가, 본 발명은 두 개의 역상관된 추력 오디오 신호들을 생성하기 위해 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 역상관하는 방법을 포함한다. 상기 방법은, 만약 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호가 상기 제1 오디오 주파수 범위 또는 상기 제2 오디오 주파수 범위 내 시상수 또는 소멸되는 위상 시프트를 포함한다면, 상기 제1 역상관된 출력 오디오 신호 및 상기 제2 채널 오디오 신호(또는 상기 제2 채널 오디오 신호로부터 도출된 신호)의 제1 오디오 주파수 범위 내 오디오 컨텐츠가 상기 제1 역상관된 출력 오디오 신호 및 상기 제2 채널 오디오 신호(또는 상기 제2 채널 오디오 신호로부터 도출된 신호)의 제2 오디오 주파수 범위 내 오디오 컨텐츠보다 서로에 관해 더 큰 시간 변화 위상 시프트를 포함하도록, 상기 제1 채널 오디오 신호로부터 상기 제1 역상관된 신호를 도출하는 단계를 포함한다.
게다가, 본 발명은 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 발명의 방법들을 수행하기 위한 컴퓨터 프로그램을 포함한다.
도 1은 본 발명의 제1 실시예에 따른 본 발명의 오디오 신호 역상관기의 개략적인 블록도를 나타낸다. 도 1의 오디오 신호 역상관기는 그 전체를 100으로 지시한다. 오디오 신호 역상관기(100)는 입력 오디오 신호(112)를 수신하는 주파수 분석기(110)를 포함한다. 주파수 분석기(110)는 입력 오디오 신호(112)를 분석하고 제1 부분 신호(first partial signal, 120) 및 제2 부분 신호(second partial signal, 122)를 생성한다. 제1 부분 신호(120)는 제1 오디오 주파수 범위에서 오 디오 컨텐트를 기술하고, 제2 부분 신호(122)는 제2 오디오 주파수 범위에서 오디오 컨텐트를 기술한다.
제1 오디오 주파수 범위는 제2 오디오 주파수 범위와 비교하여 더 높은 주파수들을 포함한다. 예를 들면, 제1 오디오 주파수 범위와 제2 오디오 주파수 범위는 약 10 Hz 내지 30 kHz의 오디오 주파수 범위 내의 인접하는 주파수 범위들이 될 수 있다.
예를 들면, 제1 오디오 주파수 범위는 제1 주파수 f1과 제2 주파수 f2 사이의 오디오 주파수들을 포함(cover)할 수 있다. 또한, 제2 오디오 주파수 범위는 제3 주파수 f3와 제4 주파수 f4 사이의 오디오 주파수들을 포함(cover)할 수 있다. 여기서, f1은 제1 오디오 주파수 범위의 하단 주파수 경계(lower frequency border)를 나타내고, 여기서 제1 주파수 범위의 하단 주파수 경계는 바람직하게는 1.1 kHz 보다 더 크거나 같도록 선택된다. 좀 더 바람직하게는, 제1 주파수 경계의 하단 주파수 경계는 2 kHz보다 더 크도록 선택된다. 또 다른 바람직한 실시예에서는, 제1 오디오 주파수 범위의 하단 주파수 경계는 4 kHz보다 더 크다. 즉, 하단 주파수 경계 f1은 전형적으로 제1 오디오 주파수 범위가 1.1 kHz 아래(또는 2 kHz 아래)의 낮은 주파수 범위-이 범위에서 사람(a human)은 위상 시프트들(phase shifts)에 특히 민감함-를 포함하지 않도록 선택된다.
제1 오디오 주파수 범위와 제2 오디오 주파수 범위는 예를 들어 오버래 핑(overlapping)이 될 수 있다. 이런 경우에는, 제1 주파수 f1이 제2 주파수 f2보다 더 작고, 제3 주파수 f3는 제4 주파수 f4보다 더 작다. 게다가, 제3 주파수 f3는 제1 주파수 f1보다 더 작고, 제4 주파수 f4는 제1 주파수 f1과 제2 주파수 f2 사이에 있다. 각 주파수 범위 구성(configuration)은 도 1에서 130으로 지시되는 그래프 표현에 나타난다.
다른 방식으로는, 제1 오디오 주파수 범위 및 제2 오디오 주파수 범위가 인접한(adjacent) 오디오 주파수 범위들이 될 수 있다. 제1 오디오 주파수 범위는 제1 주파수 f1과 제2 주파수 f2간에 펼쳐지고, 제2 오디오 주파수 범위는 제3 주파수 f3 및 제4 주파수 f4간에 펼쳐진다. 인접한 오디오 주파수 범위들의 경우에는, 제1 주파수 f1이 제2 주파수 f2보다 작고, 제3 주파수 f3는 제4 주파수 f4보다 작다. 게다가, 도 1의 그래표 표현(132)에 나타난 바와 같이, 제4 주파수 f4는 제1 주파수 f1과 동일하다.
다른 방식으로는, 도 1의 그래프 표현(134)에 도시된 바와 같이, 제1 오디오 주파수 범위와 제2 오디오 주파수 범위는 인접하지 않을 수 있다. 인접하지 않는(non-adjacent) 오디오 주파수 범위들의 경우에는, 주파수 관계들(frequency relationships)이 인접한 오디오 주파수 범위들의 경우에 관한 것과 같이 유사하며, 제4 주파수 f4가 제1 주파수 f1보다 더 작다는 차이점을 가진다.
오디오 신호 역상관기(100)는, 제1 처리된 부분 신호(150)를 생성하기 위해 제1 부분 신호(120)을 변경(modifying)하고 제2 처리된 부분 신호(152)를 생성하기 위해 제2 부분 신호(122)를 변경하기 위한 부분 신호 변경기(partial signal modifier, 140)를 더 포함하여, 제1 부분 신호(120)에 적용된 시간 변화 위상 시프트(time variant phase shift) 또는 시간 변화 지연의 변조 크기가 제2 부분 신호(122)에 적용된 시간 변화 위상 시프트 또는 시간 변화 지연의 변조 크기보다 더 높다. 즉, 부분 신호 변경기(140)는 제2 부분 신호(122)보다 제1 부분 신호(120)에 더 큰 시간 변화 위상 시프트(또는 위상 시프트 변조(phase shift modulation)) 또는 시간 변화 지연(또는 지연 변조(delay modulation))을 적용한다. 그래서, 제1 오디오 주파수 범위의 주파수들은, 제2 오디오 주파수 범위의 주파수들과 비교할 때, 시간 변화 위상 시프트(또는 위상 시프트 변조) 또는 부분 신호 변경기(140)에서 발생된 지연(또는 지연 변조)에 의해 더 강한 영향을 받는다. 서로 다른 부분 신호들(120, 122)에 적용된 위상 시프트 또는 지연의 크기(magnitude) 또는 변조 크기는 분리되어 조정될 수 있다.
부분 신호 변경기(140)는, 부분 신호 변경기(140)에서 제1 부분 신호(120)의 신호 값들이 제2 처리된 부분 신호(152)의 신호 값들로부터 분리되고(또는 신호 값들에 아무 영향을 미치지 않고), 제2 부분 신호(122)의 신호 값들이 제1 처리된 부분 신호(150)의 신호 값들로부터 분리되도록(또는 신호 값들에 아무 영향을 미치지 않도록), 제1 부분 신호(120)와 제2 부분 신호(122)를 분리하여 또는 독립적으로 처리한다는 것에 주목해야 한다. 다시 말하면, 부분 신호 변경기(140)는 입력 오 디오 신호의 두 개의 서로 다른 표현들에 대한, 즉 제1 부분 신호(120) 및 제2 부분 신호(122)에 대한 시간 변화 위상 시프트들(또는 시간 변화 위상 시프트 변조(time variant phase shift modulation)) 또는 시간 변화 지연들(또는 지연 변조)을 독립적으로 적용한다.
오디오 신호 역상관기(100)는 신호 결합기(signal combiner, 160)를 추가적으로 포함한다. 신호 결합기(160)는 제1 처리된 부분 신호(150)와 제2 처리된 부분 신호(152)를 수신하고, 출력 오디오 신호(170)를 형성하기 위해, 제1 처리된 부분 신호(150) 및 제2 처리된 부분 신호(152)를 결합한다.
그래서, 시간 변화 위상 시프트들 또는 시간 변화 지연들(또는 시간 변화 위상 시프트 변조, 또는 시간 변화 지연 변조)을 제1 부분 신호(120) 및 제2 부분 신호(122)로 개별적으로 적용한 이후에, 처리된 제1 부분 신호(150) 및 처리된 제2 부분 신호(152)는 출력 오디오 신호(170)을 형성하기 위해 재결합되거나(united) 결합된다(combined).
또 다른 실시예에서는, 부분 신호 변경기는 제1 부분 신호(120)에 따라서만 동작하고, 시간 변화 위상 시프트 또는 시간 변화 지연(또는 시간 변화 위상 시프트 변조, 또는 시간 변화 지연 변조)를 제2 부분 신호(122)에는 발생시키지 않는다. 이러한 경우에, 제2 처리된 부분 신호(152)는 제2 부분 신호(122)와 동일하거나, 또는 (단지) 시간 불변 위상 시프트(time invariant phase shift) 또는 시간 불변 지연(time invariant delay)에 의한 제2 부분 신호(122)와는 다를 것이다. 이러한 경우에, 신호 결합기(160)는 전형적으로, 제1 처리된 부분 신호(150)(제1 처리된 부분 신호(150)는, 제1 부분 신호(120)과 비교할 때, 시간 변화 위상 시프트 또는 시간 변화 지연 또는 시간 변화 위상 시프트 변조 또는 시간 변화 지연 변조를 더 포함함)를 제2 부분 신호(122) 또는 시간 변화 위상 시프트 또는 지연 또는 위상 시프트 변조 또는 지연 변조없이(예를 들면, 시간 불변 지연 또는 필터링 동작에 의해서) 제2 부분 신호(122)로부터 도출된 신호와 결합한다.
도 2는 본 발명의 제2 실시예에 따른 멀티 채널 오디오 신호 프로세서의 개략적인 블록도를 나타낸다. 도 2의 멀티 채널 오디오 신호 프로세서(multi channel audio signal processor)는 그 전체가 200으로 표시된다. 오디오 신호 프로세서(200)은 멀티 채널 오디오 신호, 예를 들어 두 개의 채널 오디오 신호를 수신한다. 예를 들면, 멀티 채널 오디오 신호 프로세서(200)는 제1 채널 오디오 신호(210) 및 제2 채널 오디오 신호(212)를 수신한다. 멀티 채널 오디오 신호 프로세서(200)는 제1 오디오 신호 역상관기(first audio signal decorrelator, 220)를 추가적으로 포함한다. 제1 오디오 신호 역상관기(220)는 예컨대 도 1을 참조하여 설명된 오디오 신호 역상관기(100)과 동일하다.
제1 오디오 신호 역상관기(220)는 그 출력에서 제1 역상관된 출력 오디오 신호(230)를 제공한다. 멀티 채널 오디오 신호 프로세서(200)는 그 출력에서 제2 역상관된 출력 오디오 신호(232)를 추가적으로 제공하는데, 여기서 제2 역상관된 출력 오디오 신호(232)는 제2 채널 오디오 신호(212)와 동일하거나 또는 제2 채널 오디오 신호로부터 도출된다.
멀티 채널 신호 프로세서(200)는, 제1 역상관된 출력 오디오 신호(230) 및 제2 역상관된 출력 오디오 신호(232)의 제1 오디오 주파수 범위(앞서 정의됨) 내의 오디오 컨텐츠가 제1 역상관된 출력 오디오 신호 및 제2 역상관된 출력 오디오 신호의 제2 오디오 주파수 범위(앞서 정의됨) 내 오디오 컨텐츠보다 서로에 관한 시간 변화 위상 시프트(또는 시간 변화 지연)의 더 큰 변조 크기를 포함하는데, 이는 제1 채널 오디오 신호(210) 및 제2 채널 오디오 신호(212)가 제1 오디오 주파수 범위 및 제2 오디오 주파수 범위에서 시상수(time constant) 또는 (서로에 관한) 소멸되는 위상 시프트를 포함하는 경우에 그러하다.
다시 말하면, 멀티 채널 오디오 신호 프로세서는 제2 오디오 주파수 범위내보다 제1 오디오 주파수 범위에서 더 큰 시간 변화 위상 시프트 또는 지연이 발생되도록 한다. 다시 말하면, 제1 오디오 주파수 범위에 발생된 시간 변화 위상 시프트의 변조 크기는 제2 오디오 주파수 범위에서보다 더 크다. 이는 멀티 채널 신호 프로세서(200) 내에서의 제1 오디오 신호 역상관기(220) 및 선택적 추가 처리 수단들의 적절한 설치에 의해 이루어진다.
선택적으로는, 멀티 채널 오디오 신호 프로세서(200)는 제2 오디오 신호 역상관기를 포함하는데, 제2 오디오 신호 역상관기는 제2 채널 오디오 신호를 수신하고 제2 역상관된 출력 오디오 신호(232)를 출력한다.
선택적으로는, 제1 오디오 신호 역상관기(220) 및 제2 오디오 신호 역상관기(250)는 시간 동기화(time synchronization)되어 연결되는데, 제1 채널 오디오 신호(210) 및 제2 채널 오디오 신호(212)에 발생된 시간 변화 위상 시프트들 또는 시간 변화 지연들은 시간적으로 대등하게된다(time coordinated).
도 3은 본 발명의 제3 실시예에 따른 본 발명의 오디오 신호 역상관기의 개략적인 블록도를 나타낸다. 도 3의 오디오 신호 역상관기는 그 전체가 300으로 표시된다. 오디오 신호 역상관기(300)는 입력 오디오 신호(310)를 수신한다. 분석 필터뱅크(312)는 입력 오디오 신호(310)를 수신하고 적어도 두 개의(바람직하게는: 두 개 이상)부분 신호들(314, 316, 318)을 제공한다. 부분 신호들(314, 316, 318)은 서로 다른 오디오 주파수 범위들 내의 입력 오디오 신호의 오디오 컨텐츠를 기술하는데, 여기서 오디오 주파수 범위들은, 도 1과 관련하여 설명한 바와 같이, 오버래핑(overlapping), 근접 또는 분리될 수 있다. 분석 필터뱅크(312)는 오디오 신호(310)를 서로 다른(그러나 가능하게는 오버래핑되는) 오디오 주파수 범위들을 커버하는 복수의 부분 신호들로 분리시킨다. 부분 신호들(314, 316, 318)은 예를 들어, 입력 오디오 신호(310)의 서로 다른 오디오 주파수 범위들로부터 추출된 밴드패스 시간 신호들(bandpass time signals)을 포함할 수 있다. 대안적으로는, 부분 신호들(314, 316, 318)은 입력 오디오 신호(310)의 스펙트럴 구성(spectral composition)을 기술하는 스펙트럴 계수들(spectral coefficients) 또는 일련의 스펙트럴 계수들(series of spectral coefficients)을 포함할 수도 있다.
예를 들면, 분석 필터뱅크(312)는 부분 신호들(314, 316, 318)을 제공할 수 있는데, 싱글 부분 신호는 주어진 오디오 주파수 범위에서 입력 오디오 신호의 변환(예를 들어 이산 푸리에 변환)에 기초한다. 그래서 서로 다른 부분 신호들은 서로 다른 주파수 범위들에 대한 각 정보를 포함한다. 또한, 분석 필터뱅크(312)는 입력 오디오 신호(310)를 시간 세그먼트들(또는 시간 프레임들, 또는 시간 슬롯들) 로 분리시키고, 복수의 시간 세그먼트들(하나의 시간 세그먼트에 해당하는 스펙트럴 계수들의 한 세트)에 대한 스펙트럴 계수들의 세트들을 제공하도록 구성될 수 있다. 이러한 경우에는, 부분 신호들(314, 316, 318) 각각은 이어지는 시간 간격들 또는 시간 세그먼트들에 대한 스펙트럴 계수들의 시퀀스(sequence)를 포함한다.
다시 말하면, 제1 부분 신호(312)는 제1 주파수 범위에 대한 제1 스펙트럴 계수들의 시퀀스, 제1 시간 간격에 대한 제1 스펙트럴 계수, 제1 주파수 범위 및 제2 시간 간격에 대한 제2 스펙트럴 계수 및 제1 주파수 범위 및 제3 시간 간격에 대한 제3 스펙트럴 계수를 포함할 수 있다. 유사하게는, 제2 부분 신호(316)는 제1 시간 간격 내 제2 오디오 주파수 범위에 대한 제1 스펙트럴 계수의 시퀀스, 제2 시간 간격 내 제2 오디오 주파수 범위에 대한 제2 스펙트럴 계수 및 제3 시간 간격 내 제2 오디오 주파수 범위에 대한 제3 스펙트럴 계수를 포함할 수 있다.
오디오 신호 역상관기(300)는 부분 신호들(314, 316, 318)을 수신하는 위상 변경 유닛(phase modification unit, 330)를 추가적으로 포함한다. 위상 변경 유닛(330)은 세 개의 개개의 부분 신호 변경기들(332, 334, 336)을 포함한다. 제1 부분 신호 변경기(332)는 제1 부분 신호(314)와 제1 위상 시프트 값
을 수신한다. 제1 부분 신호 변경기는 제1 부분 신호에 시간 변화 위상 시프트(또는 시간 변화 지연)을 적용함에 의해서 제1 처리된 부분 신호(342)를 생성하는데, 상기 위상 시프트의 크기(magnitude)는 제1 위상 시프트 값
에 의해 정의된다. 제2 부분 신호 변경기(334)는 제2 위상 시프트 값
에 의해 기술되는 시간 변화 위 상 시프트(또는 시간 변화 지연)을 제2 부분 신호(316)에 적용함으로써, 제2 처리된 부분 신호(344)를 생성한다. 제3 부분 신호 변경기(336)는 제3 위상 시프트 신호
에 의해 기술되는 시간 변화 위상 시프트(또는 시간 변화 지연)을 제3 부분 신호(318)에 적용함으로써 제3 처리된 부분 신호(346)를 생성한다. 그래서, 제1 부분 신호 변경기(332), 제2 부분 신호 변경기(334) 및 제3 부분 신호 변경기(336)는, 제1 처리된 부분 신호(342), 제2 처리된 부분 신호(344) 및 제3 처리된 부분 신호(346)를 생성하기 위해 제1 부분 신호(314), 제2 부분 신호(316) 및 제3 부분 신호(318)를 독립적으로 처리한다.
오디오 신호 역상관기(300)는 제1 처리된 부분 신호(342), 제2 처리된 부분 신호(344) 및 제3 처리된 부분 신호(346)를 하나의 싱글 출력 오디오 신호(352)로 결합(combining)하기 위한 합성 필터뱅크(synthesis filterbank, 350)을 추가적으로 포함한다. 예를 들어, 상기 합성 필터뱅크는, 상기 처리된 부분 신호들이 시간 신호들이라면, 제1 처리된 부분 신호(342), 제2 처리된 부분 신호(344) 및 제3 처리된 부분 신호(346)의 선형 결합(linear combination)에 의해 출력 오디오 신호(352)를 생성한다. 그러나, 처리된 부분 신호들이 예를 들어 스펙트럴 계수들의 시퀀스들이라면, 합성 필터뱅크(350)는 스펙트럴 계수들의 시퀀스들을 기초하여(예를 들면 역시간 이산 푸리에 변환(inverse time discrete Fourier Transform)을 적용함으로써) 시간 신호로서 출력 오디오 신호(352)를 합성한다.
오디오 신호 역상관기(300)는 변조 함수 생성기(modulation function generator, 360)를 추가적으로 포함한다. 상기 나타난 실시예에서, 변조 함수 생성기(360)는 세 개의 변조 함수들(또한 변조 시간 함수들(modulation time functions)로 명시됨)을 생성하는데, 이 변조 함수들은 시간 변화 값들(time-varying values)을 취한다. 제1 변조 시간 함수(362)는 제1 위상 시프트 값
을 제공(또는 표현, 또는 결정)하고, 제2 변조 시간 함수는 제2 위상 시프트 값
을 제공(또는 표현, 또는 결정)하고, 제3 변조 시간 함수는 제3 위상 시프트 값
을 제공(또는 표현, 또는 결정)한다. 변조 시간 함수들(362, 364, 366)은 서로서로 독립적이거나 동기화될 수 있다. 바람직하게는, 제1 부분 신호(314)에 발생된 위상 시프트 변조 크기 또는 지연 변조 크기는, 제2 부분 신호(316)에 발생된 위상 시프트 변조 크기 또는 지연 변조 크기보다 크다. 또한, 바람직하게는 제2 부분 신호(316)에 발생된 위상 시프트 변조 크기 또는 지연 변조 크기는 제3 부분 신호(318)에 발생된 위상 시프트 변조 크기 또는 지연 변조 크기보다 크다.
바람직한 일 실시예에서, 세 개의 변조 시간 함수들(362, 364, 366)은 서로에 대해 비례하고, 모두 스케일링(scaling)에 의해 싱글 변조 함수로부터 도출된다.
도 4는 본 발명의 제4 실시예에 따른 멀티 채널 오디오 신호 프로세서의 개략적인 블록도를 나타낸다. 도 4의 멀티 채널 오디오 신호 프로세서는 그 전체를 400으로 표시한다. 멀티 채널 오디오 신호 프로세서(400)는 제1 채널 오디오 신호(410) 및 제2 채널 오디오 신호(412)를 수신한다. 예를 들면, 제1 채널 오디오 신호는 스테레오 오디오 신호의 좌측 채널을 나타내고, 제2 채널 오디오 신호는 스테레오 오디오 신호의 우측 채널을 나타낸다. 멀티 채널 오디오 신호 프로세서는, 제1 채널 (입력) 오디오 신호(410)를 기초로 하여 제1 역상관된 출력 오디오 신호(420)를 제공하기 위하여, 제1 채널 오디오 신호를 처리하기 위한 제1 브랜치(first branch, 420); 및 제2 채널 (입력) 오디오 신호(412)를 기초로 하여 제2 역상관된 출력 오디오 신호(426)를 제공하기 위한 제2 브랜치(426)를 포함한다. 제1 브랜치(420)는 도 3에 관하여 설명된 분석 필터뱅크와 유사한 제1 분석 필터뱅크(430)를 포함한다. 제1 분석 필터뱅크(430)는 제1 채널 입력 오디오 신호(410)를 수신하고, 상기 제1 채널 입력 오디오 신호(410)에 기초하여 제1 부분 신호(432)를 생성한다. 도 4에서는 단순화를 위해 분석 필터뱅크(430)의 단지 하나의 출력 신호만이 나타난다는 것을 주목해야 한다. 그러나, 분석 필터뱅크(430)는 복수의 두 개, 또는 바람직하게는 두 개 이상의 부분 신호들을 출력할 수 있다.
제1 부분 신호(432)는 바람직하게는 스펙트럴 계수들의 시퀀스를 포함하는데, 이는 바람직하게는 복소수이다. 제1 부분 신호(432)는 변조 함수 생성기(438)에 의해 생성되며 바람직하게는 크기(magnitude) 1인 복소수 위상 시프트 값들(436, 또는)로 곱셈기(multiplier, 434)에서 곱해진다. 곱셈의 결과 즉, 곱셈기(434)의 출력 신호는 처리된 부분 신호(440)를 형성하며, 처리된 부분 신호(440)는 합성 필터뱅크(442)로 입력된다. 처리된 부분 신호(440)는 전형적으로 스펙트럴 계수들의 시간 시퀀스이다.
합성 필터뱅크(442)는 전형적으로 복수의 두 개 또는 바람직하게는 두 개 이 상의 처리된 또는 처리되지 않은 부분 신호들을 수신한다. 그래서, 합성 필터뱅크(442)는, 제1 역상관된 출력 오디오 신호(422)를 형성하기 위해, 처리된 부분 신호(440)와 도 4에는 도시되지 않은 부가적인 처리된 또는 처리되지 않은 부분 신호들을 결합(combininig)한다.
제2 브랜치(424)는 제2 분석 필터뱅크(450)을 포함한다. 제2 분석 필터뱅크는 입력 신호로서 제2 채널 입력 오디오 신호(412)를 수신한다. 그러한 기초에서, 제2 분석 필터뱅크(450)는 제2 부분 신호(452)를 생성한다. 제1 분석 필터뱅크(430)와 유사하게, 제2 분석 필터뱅크(450)는 단순화를 위해 도 4에는 도시되지 않은 추가적인 부분 신호들을 생성할 수 있다. 분할기(divider, 454)는 제2 부분 신호(452)와 복소수 위상 시프트 값(436)을 수신한다. 분할기(454)는 제2 처리된 부분 신호(460)를 생성하기 위해, 제2 부분 신호(452)를 위상 시프트 값(436)으로 나눈다. 제2 합성 필터뱅크(462)는, 제2 역상관된 출력 오디오 신호(426)를 생성하기 위해, 제2 처리된 부분 신호(460)를 수신하고, 제2 처리된 부분 신호(460)를 부가적으로 처리된 또는 처리되지 않은 부분 신호들과 결합(combining)한다. 제2 합성 필터뱅크(462)의 기능성은 제1 합성 필터뱅크(442)의 기능성에 필적할만 하다.
게다가, 바람직하게는 제1 분석 필터뱅크(430)와 제2 분석 필터뱅크(450)는 동일하다는 것을 주목해야 한다. 또한, 바람직한 일 실시예에서, 제1 합성 필터뱅크(442)와 제2 합성 필터뱅크(462)는 동일한 구조들과 파라미터들을 가진다.
이하에서는, 도 4의 멀티 채널 오디오 신호 프로세서(400)의 기능성을 설명 한다. 먼저, 제1 채널 입력 오디오 신호(410)와 제2 채널 입력 오디오 신호(412)가 역상관된다면, 제1 역상관된 출력 오디오 신호(422)와 제2 역상관된 출력 오디오 신호(426)는 자동적으로 역상관된다는 것을 주목해야 한다.
그러나, 이하에서는, 제1 채널 오디오 신호(410)와 제2 채널 입력 오디오 신호(412)가 동일한 경우에 대해 분석한다. 제1 부분 신호(432) 및 제2 부분 신호(452)가 동일한 오디오 주파수 범위 내의 오디오 컨텐츠를 기술한다면, 분석 필터뱅크들(430, 450)이, 제1 부분 신호(432)와 제2 부분 신호(452)도 동일하도록 하기 위해 서로 동일하다고 가정한다. 제1 부분 신호(432) 및 제2 부분 신호(452)는 고려중인 오디오 주파수 범위(예를 들어 제1 오디오 주파수 범위)에 대한 일련의 스펙트럴 계수들로서 표현되는 것으로 추가적으로 가정하는데, 여기서, 분석 필터뱅크들(430, 450)은 제1 채널 입력 오디오 신호(410)과 제2 채널 입력 오디오 신호(412)를 이산(및/또는 가능하게는 오버래핑) 시간 간격들로 분석한다. 제1 주파구 범위내의 오디오 신호 컨텐츠가 해당하는 스펙트럴 계수들에 의해 각 시간 간격내에서 기술된다. 다시 말하면, 곱셈기(434)와 분할기(452)는 각각 스펙트럴 계수들의 시간-이산 시퀀스(time-discrete sequence) 즉, 제1 부분 신호(432)를 형성하는 스펙트럴 계수들의 제1 시퀀스 및 제2 부분 신호(452)를 형성하는 스펙트럴 계수들의 제2 시퀀스를 수신한다.
또한, 앞서 언급한 가정들과 함께, 스펙트럴 계수들의 제1 시퀀스는 스펙트럴 계수들의 제2 시퀀스와 동일하다. 곱셈기(434)는 또한 복소수 z
1(또는 시간 변 화하는 복소 값들(436)의 시간 시리즈)을 수신하고, 복소 값 z
1은 다음 수학식에 따라 위상 시프트 값
으로부터 도출된다:
상기 수학식에서,
는 복소 지수 함수를 나타내며, j는 허수 단위 즉, -1의 제곱근을 나타낸다.
다시 말하면, (복소수) 곱셈기(434)는 스펙트럴 계수들과 크기(magnitude) 1의 복소수 z
1을 곱한다. 결과적으로, 각 스펙트럴 계수의 위상은 각
만큼 시계 반대 방향으로 변한다.
대조적으로, 복소수 분할기(452)는 스펙트럴 계수들을 수신하고, 수신된 스펙트럴 계수들을 z
1(또는 복소 값들(436)의 시간 시리즈)으로 나눈다. 이러한 방식으로, 각 스펙트럴 계수의 위상이 각
만큼 시계 방향으로 회전한다.
다시 말하면, 처리된 부분 신호(440)는, 제1 부분 신호(432)의 값들에 관하여 시계 반대 방향으로 회전하는 위상들을 가지는 일련의 복소수 스펙트럴 계수들이다. 대조적으로, 제2 처리된 부분 신호(460)의 값들의 위상은, 제2 부분 신호(452)의 값들과 비교할 때, 각
만큼 시계 방향으로 회전한다. 다시 말하면, 주어진 시간 간격동안, 제1 부분 신호(432)의 스펙트럴 계수의 위상은, 제2 부분 신호 내 해당 스펙트럴 계수와 비교할 때, 반대 방향으로 회전한다. 위상 회 전(phase rotation)의 절대값은, 주어진 시간 간격동안, 바람직하게는 제1 부분 신호 및 제2 부분 신호 내 스펙트럴 계수들에 대해 동일하다.
이하에서는, 수학식들의 관점에서 관련된 관계들을 설명한다. 다음의 설명부분에서는, p
l,i(k)는 인덱스 k에 의해 표시되는 시간 위치(temporal position)에서 i 번째 오디오 주파수 범위에 대한, 제1 채널 또는 좌측 채널(좌측 채널은 고정된 인덱스 l로 표시함)에 대한 부분 값(예를 들어 스펙트럴 계수)을 나타낸다. p
r,i(k)는 인덱스 k에 의해 표시되는 시간 위치에서 i 번째 오디오 주파수 범위에 대한, 제2 채널 또는 우측 채널(우측 채널은 고정된 인덱스 r로 표시함)에 대한 부분 값(예를 들어 스펙트럴 계수)을 나타낸다.
는 인덱스 i에 의해 표시되는 오디오 주파수 범위동안, 인덱스 k에 의해 표시되는 시간적 위치들에서 위상 시프트 값을 나타낸다. z
i(k)는 위상
을 가지는 크기 1의 복소수를 나타낸다.
상기 정의의 관점에서, 다음 수학식들이 성립된다:
는 제1 채널(좌측 채널)과 인덱스 k로 표시되는 시간 위치에서의 i 번째 오디오 주파수 범위에 대한 제1 처리된 부분 신호(440)의 처리된 스펙트럴 계수이다.
는 제2 채널(우측 채널)과 인덱스 k로 표시되는 시간 위치 에서의 i 번째 오디오 주파수 범위에 대한 제1 처리된 부분 신호(460)의 처리된 스펙트럴 계수이다.
인덱스 i는 처리될 어떤 주파수 범위들도 커버하며, 분석 필터뱅크들(430, 450) 및 합성 필터뱅크들(442, 462)에 의해 이용되는 주파수 범위들의 수보다 작거나 같다(여기서, i>=1을 유지함)
는 처리될 각 오디오 주파수 범위 i에 대해 변조 함수 생성기(438)에 의해 생성된 시간 변화 위상 시프트 파라미터라는 것을 추가적으로 주목해야 한다.
분석 필터뱅크들(430)은 예를 들어, 인덱스 k를 갖는 각 시간 간격에 대해서 일련의 I 부분 신호 값들 pl,i(k), pr,i(k), i=1, ..., I를 제공한다는 것도 추가적으로 주목해야 한다. 다시 말하면, 분석 필터뱅크들(430, 450)은 제1 채널 입력 오디오 신호(410, 또는 제2 채널 입력 오디오 신호(412))를 I개 스펙트럴 계수들의 세트로 변환하는데, 상기 스펙트럴 계수들은 I개의 서로 다른, 오버래핑 또는 비-오버래핑(non-overlapping) 오디오 주파수 범위 범위들에 대해 제1 채널 입력 오디오 신호(410, 또는 제2 채널 입력 오디오 신호(412))를 기술한다.
유사하게는, 합성 필터뱅크들(442, 462)은, 해당하는 처리된 스펙트럴 계수들 pl,i'(k)(또는 pr,i'(k)), i=1, ..., I를 기초로 하여 적어도 어떤 시간 간격 내에서 제1 역상관된 출력 오디오 신호(422, 또는 제2 역상관된 출력 오디오 신호(426))를 생성한다. 그러나, 합성 필터뱅크들은, 요구되어진다면, 무한의 또는 임시적이지 않은(non-casual) 응답을 갖는다.
다시 말하면, 합성 필터뱅크(442, 462)는 주어진 시간 간격동안 복수의 I 스펙트럴 계수들을 수신하고, 스펙트럴 계수들로부터 시간 영역 신호(즉, 제1 역상관된 오디오 출력 신호(422) 또는 제2 역상관된 오디오 출력 신호(426))를 생성하는 장치이다.
도 5는 본 발명의 제5 실시예에 따라 본 발명의 멀티 채널 오디오 신호 프로세서의 또 다른 개략적인 블록도를 나타낸다. 도 5의 오디오 신호 프로세서는 그 전체를 500으로 표시한다. 도 5의 멀티 채널 오디오 신호 프로세서(500)는 도 4의 멀티 채널 오디오 신호 프로세서(400)와 유사한데, 동일한 수단들과 신호들이 도 4 및 도 5에서 동일한 참조 숫자들로 표시된다. 또한, 도 4에 도시된 싱글 유닛이 도 5에서 다중 대응 유닛들(multiple equivalent units)에 의해 대체된다면, 동일한 구성의 서로 다른 예들을 구별하기 위해 문자들(a, b, c, ...)이 상기 참조 숫자들에 부가된다.
제1 채널, 제2 스펙트럴 계수 p1,l(k)는, 처리된 스펙트럴 계수 p1,l'(k)를 형성하기 위해서, 해당하는 곱셈기(434a)에서 제1 위상 시프트 값 z1,l(k)와 곱해진다는 것을 주목해야 한다. 제2 스펙트럴 계수 p1,2(k)는, 제2 처리된 스펙트럴 계수 p1,2'(k)를 생성하기 위해서, 제2 곱셈기(434b)에서 제2 위상 시프트 값 z1,2(k)와 곱해진다. I 번째 스펙트럴 계수 p1,I(k)는, I 번째 처리된 스펙트럴 계수 p1,I'(k)를 생성하기 위해서, 제3 곱셈기(434c)에서 제3 위상 시프트 값 z1,I(k)와 곱해진다.
게다가, 제2 역상관된 출력 오디오 신호(426)을 생성하기 위해서 제2 채널 오디오 입력 신호(412)에 대해 유사 동작들이 수행된다. 수학식들에서:
다시 말하면, 모든 위상 시프트 값들 z
1,i(k), z
,i(k)는 변조 (시간) 함수 생성기에 의해 제공된 싱글 시간-의존 각도 값
로 부터 도출된다. 각도 값
는 위상 시프트 각을 결정하고, (서로 다른 오디오 주파수 범위들에 대한) 서로 다른 부분 신호들, 좌측 채널(410) 및 우측 채널(412) 양자 모두에 적용된다. 그러나, 바람직한 일 실시예에 따르면, 위상 시프트 크기 파라미터들(phase shift magnitude parameters) 그러나, 바람직한 일 실시예에 따르면, 주파수 밴드들(또 는 오디오 주파수 범위들) i에 대한 위상 시프트 크기 파라미터들(phase shift magnitude parameters) c
l,i, c
r,i는 주어진 제2 오디오 주파수 범위보다 높은 주파수를 가지는 주어진 제1 오디오 주파수 범위에 적용된 위상 시프트의 크기가 주어진 제2 오디오 주파수 범위에 발생된 위상 시프트보다 크거나 같도록 선택된다. 다시 말하면, 바람직한 일 실시예에서는, 다음의 수학식들이 유지된다:
상기 수학식들에서, 주파수 인덱스 i=k에 해당하는 오디오 주파수 범위는, 주파수 인덱스 i=k+1을 갖는 부분 신호에 해당하는 오디오 주파수 범위보다 더 높은 주파수들을 포함하는 것으로 가정된다.
바람직한 일 실시예에서는, 주어진 오디오 주파수 범위 m에 해당하는 스펙트럴 계수들 pl,m'(k), pr,m'(k)간의 시간 변화 위상 시프트(time-varying phase shift)에 비교할 때, 주어진 오디오 주파수 범위 j에 해당하는, 처리된 스펙트럴 계수들 pl,j'(k), pr,j'(k)은 서로에 관해 더 큰 시간 변화 위상 시프트를 포함하는데, 여기서 주어진 오디오 주파수 범위 j는 주어진 오디오 주파수 범위 m보다 더 높은 주파수들을 포함한다.
수학식들에서:
바람직한 일 실시예에서는, 주어진 오디오 주파수 범위에 발생된 위상 시프트 또는 지연은 제1 채널 오디오 신호 및 제2 채널 오디오 신호의 처리에서 동일한 크기(magnitude) 및 반대 방향을 포함한다. 도 5에 관하여, 제1 채널 오디오 입력 신호(410)의 i 번째 오디오 주파수 범위의 오디오 컨텐트를 기술하는 스펙트럴 계수 pl,I는, 제2 채널 입력 오디오 신호(412)의 동일한 오디오 주파수 범위 i의 오디오 컨텐트를 기술하는 스펙트럴 계수 pr,i(k)와 곱해지는 값의 공액 복소수와 곱해진다.
수학식에서:
게다가, 여기서 상수 cl,i, cr,i는 바람직하게는 실수 값들로 가정되는 것을 주목해야 한다.
위상 시프트 값들 zl,i(k), zr,i(k)가 다른 방식들로 생성될 수 있다는 것을 추가적으로 주목해야 한다. 또한, 단순화들이, 예를 들면 공액 복소수 값들을 생성하기 위해, 적용될 수 있다. 게다가, 수학에서 알 수 있는 바와 같이, 크기(magnitude) 1의 복소수 값과의 곱셈이 공액 복소수에 의해 나눗셈에 의해 대체될 수 있다.
도 6은 본 발명의 5-채널 오디오 신호 프로세서의 개략적인 블록도를 나타낸다. 도 6의 5-채널 오디오 신호 프로세서는 그 전체를 600으로 나타낸다. 5-채널 오디오 신호 프로세서(600)는 제1 채널 입력 오디오 신호(610), 제2 채널 입력 오디오 신호(612), 제3 채널 입력 오디오 신호(614), 제4 채널 입력 오디오 신호(616), 제5 채널 입력 오디오 신호(618)를 수신한다. 5-채널 오디오 신호 프로세서(600)는 제1 2-채널 오디오 신호 프로세서(620)을 포함하는데, 제1 2-채널 오디오 신호 프로세서(620)의 구조는 도 2, 도 4 및 도 5의 오디오 신호 프로세서들(200, 400, 500)의 구조와 동일하다. 게다가, 5-채널 오디오 신호 프로세서(600)는 제2 2-채널 오디오 신호 프로세서(630)를 포함하는데, 제2 2-채널 오디오 신호 프로세서(630)의 구조는 도 2, 도 4 및 도 5의 2-채널 오디오 신호 프로세서들(200, 400, 500)의 구조와 동일하다. 게다가, 5-채널 오디오 신호 프로세서(600)는 오디오 신호 역상관기(640)를 포함하는데, 오디오 신호 역상관기(640)의 구조는 도 1 및 도 3의 오디오 신호 역상관기(100, 300)의 구조와 동일한다.
제1 2-채널 오디오 신호 프로세서(620)는 제1 채널 입력 오디오 신호(610) 및 제2 채널 입력 오디오 신호(612)를 수신한다. 바람직한 일 실시예에서, 제1 채널 입력 오디오 신호(610)는 5-채널 돌비 서라운드 오디오 신호(5-channel Dolby Surround audio signal)의 좌측 전방 채널(또는 좌측 전방 스피커) 오디오 신호와 동일하다. 바람직한 일 실시예에서, 제2 채널 오디오 신호(612)는 5-채널 돌비 서라운드 오디오 신호의 우측 전방 채널(또는 우측 전방 스피커) 오디오 신호와 동일하다. 제2 2-채널 오디오 신호 프로세서(630)는 그 입력 신호들로서 제3 채널 입 력 오디오 신호(614) 및 제4 채널 입력 오디오 신호(616)를 수신한다. 바람직한 일 실시예에서, 제3 채널 입력 오디오 신호(614)는 5-채널 돌비 서라운드 오디오 신호의 좌측 후방 채널(또는 좌측 후방 스피커) 오디오 신호와 동일하고, 바람직한 일 실시예에서, 제4 채널 오디오 신호(616)는 5-채널 돌비 서라운드 오디오 신호의 우측 후방 채널(또는 우측 후방 스피커)와 동일하다. 오디오 신호 역상관기(640)는 그 입력 신호로서, 제5 채널 오디오 입력 신호(618)를 수신하는데, 바람직한 일 실시예에서 제5 채널 오디오 입력 신호(618)는 5-채널 돌비 서라운드 오디오 신호의 중앙 채널(또는 중앙 스피커) 신호와 동일하다.
바람직한 일 실시예에서, 제1 2-채널 오디오 신호 프로세서(620)의 제1 역상관된 출력 오디오 신호는 돌비 서라운드 시스템에서 좌측 전방 스피커 오디오 신호로서 동작한다. 제1 2-채널 오디오 신호 프로세서(620)의 제2 역상관된 출력 오디오 신호는 바람직한 일 실시예에서 우측 전방 스피커 오디오 신호로서 동작한다. 제2 2-채널 오디오 신호 프로세서(630)의 제1 역상관된 출력 오디오 신호는 바람직한 일 실시예에서 좌측 후방 스피커 오디오 신호로서 동작한다. 제2 2-채널 오디오 신호 프로세서의 제2 역상관된 출력 오디오 신호는 바람직한 일 실시예에서 우측 후방 스피커 오디오 신호로서 동작한다. 오디오 신호 역상관기의 역상관된 오디오 출력 신호는 바람직한 일 실시예에서 중앙 스피커 오디오 신호로서 동작한다.
2-채널 오디오 신호 프로세서들(620, 630)의 구조가 동일함에도 불구하고, 오디오 신호 프로세서들(620, 630)은 충분한 전체적 역상관을 달성하기 위해서 서로 다른 파라미터들과 함께 동작한다. 도 5의 멀티 채널 오디오 신호 프로세 서(500)에서 모든 부분 신호들에 적용된 위상 시프트는 싱글 시간 변화 변조 함수(time-varying modulation function), 즉 시간 변화 각
,으로부터 도출된다는 것을 설명한다(여기서, k는 시간-이산 또는 시간-연속 시간 파라미터임). 전형적으로, 시간 변화 변조 함수
는 반복 주파수(repetition frequency) f를 갖는 반복 시간 함수(repetitive time function)이다. 그러나, 2-채널 오디오 신호 프로세서들(620, 630)에서, 서로 다른 주파수들을 갖는 상관 함수 생성기들(correlation function generators, 660, 662)가 적용된다. 다시 말하면, 제1 2-채널 오디오 신호 프로세서(620)에서, 부분 신호들에 발생된 위상 시프트는 주파수 f
per,1로 주기적이다. 제2 2-채널 오디오 신호 프로세서에서, 부분 신호들에 발생된 위상 시프트는 제2 주파수 f
per,2로 주기적이다. 게다가, 제1 주파수 f
per,1은 제2 주파수 f
per,2와 다르다. 더불어, 오디오 신호 역상관기(640)에서, 부분 신호들에 발생된 위상 시프트는 제3 주파수 f
per,3로 주기적이다. 주파수 f
per,3은 제1 주파수 fper,1 및 제2 주파수 f
per,2와 다르다. 대안적으로 또는 부가적으로는, 제1 2-채널 오디오 신호 프로세서(620), 제2 오디오 신호프로세서(640) 및 오디오 신호 역상관기(630)에서 부분 신호들에 발생된 위상 시프트의 시간 함수(temporal function)의 형태들(또는 파형들)은 서로 다를 수 있다. 예를 들면, 변조 신호 생성기(660)는 사인파형(sinusoidal waveform)을 생성할 수 있고, 여기서 시간의 서로 다른 순간들에서 상기 사인파형의 값들은 시간의 해당 순간들에서 부분 신호들 에 발생된 위상 시프트를 결정한다. 대조적으로, 변조 신호 생성기(662)는 삼각파(triangular waveform)를 생성할 수 있다. 도 6의 5-채널 오디오 신호 프로세서는 추가적인 채널들을 부가함으로써 확장될 수 있다는 것을 주목해야 한다. 예를 들면, 7-채널 오디오 신호 프로세서는 또 다른 채널쌍을 부가함으로써 생성될 수 있는데, 상기 부가적인 채널쌍은 예를 들어 부가적인 2-채널 오디오 신호 프로세서에 의해 처리된다.
도 7은 본 발명의 오디오 컨퍼런스 시스템(audio conference system)의 개략적인 블록도이다. 도 7의 오디오 컨퍼런스 시스템은 그 전체를 700으로 표시한다. 도 9의 종래 기술의 오디오 컨퍼런스 시스템(900)에 관한여 이미 설명한 특징들은 도 7에서와 동일한 참조 숫자들로 표시되며, 여기서 다시 설명되지 않을 것임을 주목해야 한다. 도 9의 오디오 컨퍼런스 시스템(900)과 비교할 때, 오디오 컨퍼런스 시스템(700)은 2-채널 오디오 신호 프로세서(710)을 부가적으로 포함한다. 오디오 신호 프로세서(710)는 도 2, 4 및 5의 오디오 신호 프로세서(200, 400, 500)와 동일하고, 제1 입력 신호로서 제1 마이크로폰 신호 xl(k), 제2 입력 신호로서 제2 마이크로폰 신호 xp(k)를 수신한다. 2-채널 오디오 신호 프로세서(710)의 제1 입력은 예를 들어, 도 4의 오디오 신호 프로세서(400)의 제1 채널 오디오 신호 입력(410)과 동일하고, 2-채널 오디오 신호 프로세서(710)의 제2 오디오 신호 입력은 예를 들어, 오디오 신호 프로세서(400)의 제2 채널 오디오 신호 입력(412)와 동일하다. 오디오 신호 프로세서(710)는 제1 출력 오디오 신호로서(또는 제1 역상관된 출력 오디오 신호로서) 신호 x1'(k)를 출력한다. 2-채널 오디오 신호 프로세서(710)은 제2 출력 오디오 신호로서(또는 제2 역상관된 출력 오디오 신호로서) 신호 xp'(k)를 추가적으로 출력한다. 2-채널 오디오 신호 프로세서(710)의 제1 오디오 신호 출력은 예를 들어, 오디오 신호 프로세서(400)의 제1 역상관된 오디오 신호 출력(422)와 동일하고, 2-채널 오디오 신호 프로세서(710)의 제2 오디오 신호 출력은 예를 들어, 오디오 신호 프로세서(400)의 제2 역상관된 오디오 신호 출력(426)과 동일하다.
게다가, 오디오 신호 x1(k)로부터 역상관된 오디오 신호 x1'(k)는 스피커(932)에 의해 출력되고, 추가적으로는 채널 추정기(channel estimator, 954)로 입력된다. 게다가, 오디오 신호 xp(k)로부터 역상관된 오디오 신호 xp'(k)는 제2 스피커(934)로부터 출력되고, 채널 추정기(952)로 추가적으로 입력된다.
오디오 신호 프로세서(710)의 기능 때문에, 마이크로폰 신호들 x1(k), xp(k)가 강하게 상관되거나 또는 동일할지라도, 오디오 신호들 x1'(k), xp'(k)는, 역상관된다. 이러한 이유로, 채널 추정기(952, 954)는, 마이크로폰 신호들 x1(k), xp(k)가 동일할지라도, 스피커들(932, 934)와 마이크로폰(940) 각각 사이에 개개의 채널 전달 함수들 hp(k), h1(k)를 추정할 수 있다. 그래서, 채널 추정기들(952, 954)이 수렴하자마자, 양 채널 전달 함수들 hp(k), h1(k)는 마이크로폰 신호들 x1(k), xp(k) 와는 독립적으로, 충분한 정확도로 추정된다.
게다가, 선택적으로, 오디오 컨퍼런스 시스템(700)은 마이크로폰 신호들 x1(k), xp(k)가 상관되는지 여부를 결정하는 상관 검출기(correlation detector)를 포함할 수 있다. 마이크로폰 신호들 x1(k) xp(k)간의 상관 관계는 미리 정해진 임계치 이하인 한 오디오 신호 프로세서(710)가 동작하지 않는 반면, 두 마이크로폰 신호들간의 상관관계가 미리 정해진 임계치를 초과한다면, 상관 검출기는 오디오 신호 프로세서(710)을 동작시킬 수 있다. 그런 까닭에, 마이크로폰 신호들 x1(k), xp(k) 자체가 충분히 역상관될 때마다, 적절한, 처리되지 않은 오디오 신호들은 스피커들(932, 934)에 의해 출력된다. 오디오 신호들 xm(k), xp(k)가 강하게 상관되기만 한다면, 상기 오디오 신호들에 약간의 왜곡을 발생시키는 오디오 신호 프로세서(710)가 동작된다. 그래서, 오디오 신호 프로세서(710)는 마이크로폰 신호들 x1(k), xp(k)를 역상관할 필요가 있을 때에만 동작된다.
이하에서는, 본 발명의 개념들을 요약한다. 종래 기술의 방법들에 따르면, 좌측 채널과 우측 채널간의 변화하는 시간/위상차를 발생시키는 것이 지각된 스테레오 이미지의 지각된 시프트 및/또는 변경의 결과를 가져오지 않는 것을 보장하면서 (적어도 두 개의 오디오 채널들 간의) 최대 역상관을 얻는 것은 어렵다는 것을 주목해야 한다. 이는 여러 가지 면들에서 발생한다:
* 인터오럴 위상차(interaural phase difference) 및/또는 시간차(time difference)는 음 단계(sound stage)의 주관적인 지각을 위한 관련 지각 파라미터(perceptual parameter)이고(예를 들어 [Bla97] 참조), 스테레오 이미지들의 합성에 있어서 광범위하게 이용되고 있다(예를 들어 [Bau03] 및 [Fal03]에서 설명한 바와 같이, 인터오럴 시간차 IDT 참조). 결과적으로, 확성기들을 통해서 재생되는 오디오 신호들에 대해 시간차 및/또는 위상차가 발생하므로, 지각된 스테레오 이미지에서의 변화는 발생된 시간차 및/또는 위상차가 지각 임계치 이하에 머무르기만 한다면 회피될 수 있다.
* 전처리가 지각 임계치에서 시간차들 및/또는 위상차들을 발생시킨다면 즉, 허용가능한 (시간 또는 위상) 변화의 최대 양을 적용한다면, 적절한 AEC 수렴 개선(AEC convergence enhancement)이 이루어질 수 있다.
* 음향 심리학(psychoacoustics) 및 음향학(acoustics)으로부터 알려진 바와 같이, 위상차의 감도는 낮은 주파수들에서 매우 높고, 약 4 kHz 이상의 주파수들에 대해 완전히 사라지기까지 주파수가 증가하는 동안 서서히 줄어든다.
* 시간 지연 변조뿐만 아니라 시간 변화 전역 통과 필터링 어느 것도 주파수의 함수로서, 지각적으로 허용 가능한 변화의 모든 퍼텐셜이 이용될 수 있도록 시간 시프트 및/또는 위상 시프트의 양을 맞게하는 유연성을 제공하지는 않는다.
상기 설명한 고찰에 기반하여, 오디오 신호 역상관 멀티 채널 처리에 대한 본 발명의 개념이 개발되어 왔다. 이하에서는, 본 발명의 새로운 방법을 설명할 것이다. 상기 제안된 방법의 목적은 AEC 수렴을 위한 좋은 상관관계 특성들 및 지각된 스테레오 이미지의 최소한의 변경 모두를 제공하는 것이라는 것을 여기서 주 목해야 한다.
AEC 처리(AEC 처리는 멀티 채널 오디오 신호 처리에서 두 개의 오디오 신호들의 역상관을 포함함)의 수렴 개선을 위한 새로운 개념은 다음의 고찰에 기초한다:
* 오디오 신호의 위상의 시간 변화 변조는, 계산적으로 고비용의 마스킹(masking) 모델을 요구하지 않는 반면, 인간 청취자들에 대해 최소한의 지각된 왜곡을 생성하는 효과적인 방법이다.
* 강제적인 방식으로 인간 청취 지각의 임계치들을 초과하지 않는 반면 최대 역상관 임팩트(maximum decorrelation impact)을 달성하기 위해서는, 위상차들에 대한 인간 지각 감도(human perceptual sensitivity)를 고려하는 것이 중요하며, 인간 지각 감도는 낮은 주파수들에서 가장 높고 주파수가 증가하면서 줄어든다. 4 kHz 이상에서, 절대적인 위상은 인간 청취 시스템(human auditory system)에 실제적으로 무관한 것으로서 고려될 수 있다.
* 전처리 유닛은 분석 필터뱅크 및 합성 필터뱅크(일반적으로, 주파수 분석기 및 결합기)를 이용함으로써 위상 변조 파라미터들(변조 주파수, 변조 크기, 그리고 변조 파형(modulation waveform))의 주파수 선택적 선정을 허용한다.
오디오 채널(310)의 전처리에 대한 기본적인 방식은 도 3에 도시되어 있다. 다시 말하면, 도 3은 싱글 오디오 채널에 대한 기본적인 전처리 방식의 그래프 표현을 나타낸다.
입력 오디오 신호(310)는 분석 필터뱅크(312)에 의해 스펙트럴 계수들 또는 서브밴드 신호들(314, 316, 318)로 분해된다. (부분 신호 변경기들(332, 334, 336)에서 수행되는) 이어지는 처리 단계에서, 스펙트럴 계수들 또는 서브밴드 신호들(314, 316, 318)은 변조기 입력 신호(modulator input signal,
)에 기초하여 그들의 위상에서 변경된다. 일반적인 경우에, 서로 다른 변조기 신호
는 그것의 해당 주파수 범위에 따라 각 스펙트럴 계수 또는 서브밴드 신호(314, 316, 318)에 대해 이용될 수 있다.
일 예로서, 4 kHz 이상의 주파수들에 해당하는 스펙트럴 계수들이 크게 변조될 수 있는 반면에, 오디오 신호의 낮은 주파수 파트에 속하는 스펙트럴 계수들은 원래대로일 수 있다. 다시 말하면, 예를 들어 제3 오디오 주파수 범위 내 오디오 컨텐트를 표현하는 제3 부분 신호(318)는, 합성 필터뱅크(350)가 처리되지 않은 제3 부분 신호를 수신하도록, 처리되지 않은 채로 남을 수 있다. 대조적으로, 제1 및 제2 부분 신호들(314, 316)은 합성 필터뱅크가 제1 처리된 부분 신호 및 제2 처리된 부분 신호를 수신하도록 처리될 수 있는데, 즉, 시간 변화 위상 시프트 또는 시간 지연 동작에 노출될 수 있다. 이 예에서는, 제1 부분 신호에 해당하는 제1 오디오 주파수 범위는 제2 부분 신호에 해당하는 제2 오디오 주파수 범위보다 더 높은 주파수들을 포함하고, 제2 오디오 주파수 범위는 제3 부분 신호에 해당하는 제3 오디오 주파수 범위보다 더 높은 주파수들을 포함한다.
마지막으로, (적어도 부분적으로) 변경된 스펙트럴 계수들 또는 서브밴드 신호들(342, 344, 346)은 합성 필터뱅크(350)를 이용함으로써 시간 영역 표현으로 역 변환될 수 있다.
필터뱅크라는 용어는 이산 푸리에 변환(discrete fourier transform, DFT), 복소 랩트 변환(complex lapped transform) 및 다른 변환들과 같은 알려진 변환들 뿐만 아니라, 슈도-QMF(pseudo-QMF) 필터뱅크들, 폴리페이즈(polyphase) 필터뱅크들 및 다른 필터뱅크들과 같은 알려진 필터뱅크들을 포함한다. 신호 위상의 쉬운 변경을 허용하기 위해서는, 분석 필터뱅크(312) 및/또는 합성 필터뱅크(350)에 대해 복소수 표현을 갖는 필터뱅크 타입(또는 필터뱅크 타입들)을 이용하는 것이 바람직하다. 이러한 경우에, 단순한 위상 변경은
값을 갖는 (부분 신호들(314, 316, 318)에 포함된) 스펙트럴 계수의 복소(또는 복소수) 곱을 포함하는데, 여기서
는 라디안(radian) 단위의 의도된 위상 시프트를 나타낸다.
변조 처리를 단순화하기 위해서, 실제적인 선정은 다른 스케일링(예를 들면, 낮은 주파수 서브밴드들에서 낮은 크기(amplitude), 높은 주파수 서브밴드들에서 높은 변조 크기)을 갖는 모든 서브밴드들에 대해 동일한 변조 파형을 이용하는 것이다. 다시 말하면, 동일한 변조 파형이 위상 시프트될 모든 부분 신호들의 변조에서 적용되는데, 여기서 그렇게 높지는 않은 주파수들을 갖는 오디오 주파수 범위와 비교할 때, 위상 시프트의 더 큰 크기(amplitude)(즉, 더 큰 최대 위상 시프트)가 더 높은 주파수들을 갖는 오디오 주파수 범위를 기술하는 부분 신호들에 적용된다. 다시 말하면, 높은 주파수 서브밴드는 낮은 주파수 서브밴드와 비교할 때 더 높은 주파수들을 포함하는 입력 오디오 신호의 서브밴드이다.
통신 이론으로부터 알려진 바와 같이, 주파수 변조는 위상 변조의 시간 도함수(time derivative)에 비례하는 주파수 시프트를 갖는 위상 변조 처리의 결과로서 발생된다. 그래서, 출력 오디오 신호의 지각 주파수 변조를 회피하기 위해서는, 사인파(sine wave)와 같은 매끄러운(smooth) 변조 함수와 너무 높지 않은 변조 주파수(예를 들면 5 Hz 이하)를 선택하는 것이 바람직하다. 그러나, 변조 함수는 주기적일 필요는 없으며, 또한 대안적으로는 시간의 랜덤 함수(random function)가 될 수 있다([Ali05] 참조).
도 4는 스테레오 오디오 신호의 두 개의 채널들(410, 412)에 대한 적용을 위한 전처리 시스템의 예를 도시한다. 다시 말하면, 도 4는 오디오 채널들의 스테레오쌍에 대한 전처리의 예를 나타낸다. 공용 변조기 함수(common modulator function, 438)는 양 채널들(410, 412)과 모든 서브밴드들(또는 부분 신호들 432, 452)에 대해 이용된다. 도 4의 그래표 표현을 단순화하기 위하여, 서로 다른 스펙트럴 서브밴드들(또는 서로 다른 부분 신호들 432, 452)에 대한 변조의 크기(amplitude) 스케일링은 도 4에 생략되어 있다. 출력 신호들 간의 시간 변화 위상차를 생성하기 위하여, 도 4의 예시적 회로가 공액 복소수의 방법으로 공용 변조기 함수를 양 채널들(410, 412)에 적용한다. 다시 말하면, 우측 채널 신호(412)에 발생된 위상 오프셋(phase offset)에 비교할 때, 좌측 채널(410)에 발생된 위상 오프셋은 반대 부호를 갖는다.
도 6은 대중적인 5-채널 서라운드 음과 같은 멀티 채널 오디오 신호들에 대한 AEC 수렴 개선으로서 상기 제안된 기술과 개념들이 어떻게 적용될지를 나타낸 다. 다시 말하면, 도 6은 5-채널 서라운드 음에 대한 전처리의 예를 나타낸다. 서라운드 셋업은 대개 좌측 전방 (L) 스피커, 우측 전방 (R) 스피커, 중앙 (C) 스피커, 좌측 서라운드 (Ls) 스피커, 그리고 우측 서라운드 (Rs) 스피커를 포함한다. 도 6의 예시적 구성에서, L/R 채널쌍, Ls/Rs 채널쌍 및 C 채널을 각각 변조하는 세 개의 독립적인 변조기들(620, 630, 640)이 이용된다. 다시 말하면, 제1 변조기 또는 듀얼 채널 오디오 신호 프로세서(dual channel audio signal processor, 620)는 역상관된 좌측 전방 채널 신호 Lout과 역상관된 우측 전방 채널 신호 Rout을 생성하기 위해 좌측 전방 채널(610) 및 우측 전방 채널(612)를 변조한다. 상기 제2 변조기 또는 듀얼 채널 오디오 신호 프로세서(630)는 좌측 서라운드 채널 신호(614) 및 우측 서라운드 채널 신호(616)을 수신하고, 그것들로부터 역상관된 좌측 서라운드 채널 신호 Lsout 및 역상관된 우측 서라운드 채널 신호 Rsout을 도출한다. 오디오 신호 역상관기 또는 변조기(640)는 중앙 스피커 신호 Cin을 수신하고, 그것으로부터 역상관된 중앙 신호 Cout을 도출한다.
도 4의 구성과 유사하게, 채널쌍들의 변조가 공액 복소수의 형태로 수행된다. 다시 말하면, 좌측 전방 채널 신호(610)에 관하여 역상관된 좌측 전방 채널 신호 Lout에 발생된 위상 시프트는, 우측 전방 채널 오디오 신호(612)에 관하여 역상관된 우측 전방 채널 신호 Rout에 발생된 위상 시프트와 비교할 때, 동일한 크기(magnitude)와 반대 방향을 가진다.
게다가, 좌측 서라운드 채널 오디오 신호(614)에 관하여 상기 처리된 좌측 서라운드 채널 오디오 신호 Lsout에 발생된 위상 시프트는, 우측 서라운드 채널 오디오 신호(616)에 관하여 상기 처리된 우측 서라운드 채널 오디오 신호 Rsout에 발생된 위상 시프트와 비교할 때, 동일한 크기(magnitude)와 반대 부호를 가진다.
세 변조기들(660, 662, 664, 세 변조기들은 제1 2-채널 오디오 신호 프로세서(620), 제2 2-채널 오디오 신호 프로세서(630) 및 오디오 신호 역상관기(640)에서의 위상 시프트의 크기를 나타내는 신호들을 생성함)의 변조 주파수들은, 지각할 수 있는 주파수 변조를 회피하기 위하여, 상기 변조 주파수들이 너무 높지 않게 즉, 5 Hz보다 작게 되도록 선택된다. 게다가, 변조 주파수들은 변조 주파수들이 서로 같지 않도록 하고(not commensurate), 서로 다른 변조기들에 걸쳐 "직교(orthogonal)" 변조를 제공하도록 선택된다. 다시 말하면, 변조 주파수들은 임의의 두 변조 주파수들의 비율(quotient)이 정수 값이 되지 않도록 선택된다.
일 예로서, 1.3 초의 변조 주기는 (제1 듀얼 채널 오디오 신호 프로세서(620)에서의) L/R 처리를 위해 이용될 수 있고, 3 초의 변조 주기는 (오디오 신호 역상관기(640)에서의) C 처리를 위해 이용될 수 있으며, 1.1 초의 변조 주기는 (제2 2-채널 오디오 신호 프로세서(630)에서의) Ls/Rs 처리를 위해 이용될 수 있다. 다시, 도 6의 도면을 단순화하기 위해, 서로 다른 스펙트럴 서브밴드들에 대한 변조 신호의 주파수 의존적 크기(amplitude) 스케일링은 상기 도면에서 생략되어 있으나, 실제의 구현에서는 존재할 수 있다(도 5 참조).
도 8a는 다양한 타입의 전처리 알고리즘들에 대한 전처리된 5-채널 서라운드 음 자료(material)의 음질을 평가하는 주관적인 청취 테스트의 결과들이다. 다시 말하면, 도 8a는 서라운드 음에 대한 다양한 전처리 방법들의 주관적인 음질을 기술한다. 음질은 6 개의 음 발췌들(excerpts)(항목들은 "fount", "glock", "indie", "pops", "poule", "spmg"임)과 모든 항목들에 대한 평균은, 0(매우 나쁜 품질)에서 100(원래(original)와 구별할 수 없음)까지의 스케일에 대해 정량화된다. 서로 다른 전처리 방법들은 원래의 레퍼런스와 그것의 3.5 kHz 밴드-제한 버전(규준화된 테스트 방법의 이유들만에 대해서만 양자 모두 포함됨), 채널당 48 kbit/s("mp3 48")의 속도로 실행되는 mp3 부호화/복호화에 의한 각 개개 채널의 코딩, 앞서 언급한 바와 같은 본 발명의 위상 변조 방법("phase"), mp3 부호화/복호화(encoding/decoding)와 본 발명의 위상 변조 방법("mp3 48 위상") 그리고 종래 기술의 비선형 처리의 상태("NL"; [Mor01] 참조)의 조합(combination)이다. 위상 변조 방법이 음질의 면에서는 명백한 승자로 나타난다는 것은 도 8a의 그래프로부터 가시화된다. 게다가, 상기 위상 변조 방법은 음질의 주지할만한 추가적 저하없이 다른 전처리 방법들과 결합될 수 있다.
다시 말하면, 본 발명의 개념을 이용하여 처리된 신호의 주관적인 청취감(listening impression)은 거의 지속적으로 매우 좋음(excellent 즉, 80 평가단위와 100 평가단위의 사이의 범위 내)으로 평가됨을 도 8a로부터 알 수 있다. 그래서, 본 발명의 방법에 의해 생성된 신호의 주관적인 청취감은 거의 레퍼런스 신호에 의해 생성된 청취감만큼이나 좋다. 대조적으로, 다른 방법들을 이용하여 역 상관된 신호들은 전형적으로 더 나쁜 청취감을 생성하는 것으로 평가된다.
도 8b는 입력 오디오 신호로부터 출력 오디오 신호를 도출하고, 입력 오디오 신호로부터 역상관된 출력 오디오 신호를 도출하는 본 발명의 방법의 흐름도를 나타낸다. 도 9의 방법은 그 전체가 850으로 나타난다. 상기 방법(850)은 입력 오디오 신호로부터 제1 부분 신호 및 제2 부분 신호를 추출하는 제1 단계(860)를 포함한다. 제1 부분 신호는 제1 오디오 주파수 범위에서 오디오 컨텐트를 기술하고, 제2 부분 신호는 제2 오디오 주파수 범위에서 오디오 컨텐트를 기술한다. 제1 오디오 주파수 범위는 제2 오디오 주파수 범위와 비교할 때 더 높은 주파수들을 포함한다.
제2 단계(870)는 제1 시간 변화 위상 시프트 또는 제1 시간 변화 지연을 적용함으로써 상기 부분 신호를 변경하는 단계를 포함한다.
제3 선택적 단계(880)는 제2 시간 변화 지연 또는 제2 시간 변화 위상 시프트를 제2 부분 신호에 적용함으로써 제2 부분 신호를 변경하는 단계를 포함한다. 제1 처리된 부분 신호를 생성하기 위한, 제1 부분 신호 및 제2 처리된 부분 신호를 획득하기 위한 제2 부분 신호 변경 단계는, 제1 부분 신호에 적용된 시간 변화 위상 시프트 또는 시간 변화 지연의 변조 크기가 제2 부분 신호에 적용된 시간 변화 위상 시프트 또는 시간 변화 지연의 변조 크기보다 더 높도록 실행된다.
본 발명의 방법은 제4 단계(890)에서, 제1 처리된 부분 신호 및 제2 처리된 부분 신호를 결합하는 것을 포함한다.
제2 부분 신호를 변경하는 제3 단계(880)는 선택적으로는 생략될 수 있다. 이러한 경우에, 시간 변화 위상 시프트 또는 시간 변화 지연이 제1 부분 신호에 적용되도록(시간 변화 위상 시프트 또는 시간 변화 지연이 제2 부분 신호에 적용되지 않는 반면) 제1 부분 신호만이 변경된다. 이러한 경우에, 상기 단계(940)는, 출력 오디오 신호를 생성하기 위해 제1 처리된 부분 신호 및 제2 부분 신호를 결합하는 것을 포함한다.
본 발명의 방법은 본 발명의 오디오 신호 역상관기에 의해 수행되는 어떤 단계들 또는 기능들에 의해 보충될 수 있다는 것을 주목해야 한다.
게다가, 본 발명의 방법은 본 발명의 듀얼 채널 오디오 신호 프로세서, 멀티 채널 오디오 신호 프로세서 또는 5-채널 오디오 신호 프로세서에서 실행되는 어떤 기능성에 의해 보충될 수 있다.
상기 설명을 요약하면, 본 발명은 분석 필터뱅크와 합성 필터뱅크 및 오디오 채널 당 변경 단계를 위한 방법을 생성한다. 본 발명의 일면에 따라서, 변경 단계는 싱글 위상을 변조하기만 한다. 본 발명의 또 다른 면에 따르면, 상기 필터뱅크는 복소수이다. 본 발명의 추가적인 면에 따르면, 서로 다른 변조 함수들이 서로 다른 주파수 범위들에 대해 이용된다.
본 발명의 일면에 따르면, 변조 신호는 서브밴드 주파수에 걸쳐 스케일링된 크기(amplitude)를 포함하는데, 여기서 더 많은 변조가 더 높은 주파수들에서 발생된다. 본 발명의 또 다른 면에 따르면, 동일한 변조기 함수가 주파수에 걸쳐 스케일링 방식으로 공유된다. 본 발명의 추가적인 면에 따르면, 변조 신호(또는 변조 함수)는 예를 들어 사인과 같이 매끄럽고(smooth) 너무 빨리 변하지는 않는다. 본 발명의 추가적인 면에 따르면, 채널쌍들의 공액 복소 변조가 수행된다.
본 발명의 방법들의 일정한 구현 요구사항(implementation requirements)에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 상기 구현은 전자적으로 읽을 수 있는 제어 신호들이 저장되어 있으며, 본 발명의 방법들이 수행될 수 있도록 프로그래밍될 수 있는 컴퓨터 시스템과 함께 동작하는, 디지털 저장 매체(digital storage medium), 특히 디스크(disk), 디브이디(DVD), 시디(CD), 롬(ROM), 피롬(PROM), 이피롬(EPROM), 이이피롬(EEPROM) 또는 플래시(FLASH) 메모리를 이용하여 수행될 수 있다. 일반적으로, 본 발명은 그래서, 기계적으로 읽을 수 있는 매체(carrier)에 저장되는 프로그램 코드(program code)-여기서 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 동작될 때 본 발명의 방법들을 수행하도록 동작됨-를 가지는 컴퓨터 프로그램 제품이다. 다시 말하면, 본 발명의 방법들은 그러므로, 컴퓨터 프로그램이 컴퓨터에서 동작될 때, 본 발명의 방법들의 적어도 하나를 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.
상기 설명을 요약하면, 본 발명은, 이런 변화들(variations)을 위한 인간 지각 임계치(human perception threshold)을 효율적으로 이용하는, 오디오 신호 또는 복수의 오디오 신호들을 역상관하기 위한 개념을 생성한다. 본 발명에 따르면, 위상 시프트들이, 서로 다른 오디오 주파수 범위들에서 인간 지각 임계치(human perception threshold)에 적용되는 서로 다른 크기(magnitude)의 시간 변화 위상 시프트가 생성되도록, 주파수와 독립적으로 생성될 수 있다. 게다가, 본 발명의 개념은 자원 소모(resource consumption)에 관하여는 적절한 요구사항들을 포함하는 것으로 한다.
참고자료:
[Hae92] E. Hansler, "핸즈 프리 전화기 문제점 - 주석 목록(The hands-free telephone problem - An annotated bibliography)," Single Processing, vol. 27, no. 3, pp. 259-271, 1992.
[Bre99] C. Breining, P. Dreiseitel, E. Hansler, A. Mader, B. Nitsch, H. Puder, Th. Schertler, G. Schmidt. J. Tilp, "음향 에코 제어(Aucustic echo control)," IEEE Signal Processing Magazine, vol. 16, no. 4 pp. 42-69, Jul. 1999.
[Kel84] W. Kellermann, "Kompensation akustischer Echos in Frequenzteilbandern," in Proc. Aachener Kolloquium, pp. 322-325, 1984.
[Shi95] S. Shimauchi and S. Makino, "트루 에코 경로 평가를 하는 스테레오 프로젝션 에코 제거기(Stereo projection echo canceller with true echo path estimation)," Proc. IEEE Int. Conf. On Acuoustics, Speech, and Signal Processing, pp. 3059-3062, May 1995.
[Gae00] T. Gansler and J. Benesty, "모노포닉 음향 에코 제거와 2-채널 적용 필터링: 개요(Stereophonic acoustic echo cancellation and two-channel adaptive filtering: an overview)," Int. Journal of Adaptive Control and Signal Processing, vol. 14, pp. 565-586, 2000.
[Buc01] H. Buchner and W. Kellermann, "2 이상 재생 채널들을 위한 음향 에코 제거(Acoustic echo cancellation for two and more reproduction channels)", Proc. Int. Workshop on Acoustic Echo and Noise Control, pp. 99-102, Sept. 2001.
[Sug01] A. Sugiyama, Y. Joncour, and A. Hirano, "입력-슬라이딩 기술에 기초한 정확한 에코 경로 식별을 갖는 스테레오 에코 제거기(A stereo echo canceller with correct echo path identification based on input-sliding technique)", IEEE Trans. Signal Processing, 49(1), pp. 2577-2587, 2001.
[Son95] M. M. Sondhi, D. R. Morgan, and J. L. Hall, "모노포닉 음향 에코 제거 - 기본적 문제에 대한 개요(Stereophonic acoustic echo cancellation - An overview of the fundamental problem)," IEEE Signal Processing Left., vol.2, pp. 148-151, Aug. 1995
[Ben98] J. Benesty, D. R. Morgan, and M. M. Sondhi, "모노포닉 음향 에코 제거에 대한 능숙한 이해 및 개선된 솔루션(A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation)," IEEE Trans. Speech Audio Processing, vol. 6, pp. 156-165, Mar. 1998
[Mor01] D. R. Morgan, J. L. Hall, and J. Benesty, "스테레오 음향 에코 제거에 있어서 여러 가지 타입의 비선형성들에 대한 조사(Investigation of Several Types of Nonlinerities for Use in Stereo Acoustic Echo Cancellation)," IEEE Trans. Speech Audio Processing, vol. 5, no. 6, pp. 686-696, Sept. 2001
[Gae98] T. Gansler and P. Eneroth, "모노포닉 음향 에코 제거에 대한 오디오 코딩의 영향(Influence of audio coding on stereophonic acoustic echo Cancellation)," Proc. IEEE Int. Conf. On Acoustics, Speech, and Signal Processing, pp. 3649-3652, 1998
[Beb98] J. Benesty, D. R. Morgan, J. L. Hall, and M. M. Sondhi, "비선형 변환 및 코움 필터링을 이용한 모노포닉 음향 에코 제거(Stereophonic acoustic echo cancellation using nonlinear transformations and comb filtering)," Proc. IEEE Int. Conf. On Acoustic, Speech, and Signal Processing, pp. 3673-3676, 1998
[Ali05] US Patent Application US06895093B1, 음향 에코 제거 시스템(Acoustic Echo-Cancellation System)
[Sug99] US Patent Application US06577731B1, 멀티 채널 에코 제거 방법 및 장치(Method and Apparatus of Cancelling Multi-Channel Echoes)
[Sug98] US Patent Application US06700977B2, 멀티 채널 에코 제거 방법 및 장치(Method and Apparatus of Cancellation Multi-Channel Echo)
[Neu98] C. Neubauer, J. Herre: "오디오 품질에 대한 디지털 워터마킹 및 그 영향(Digital Watermarking and Its Influence on Audio Quality)", 105th AES Convention, San Francisco 1998, Preprint 4823
[Bla97] J. Blauert, "공간 청취: 인간 음 한정화의 정신 물리학(Spatial Hearing: The Psychophysics of Human Sound Localizaion)", revised edition, MIT Press, 1997
[Bau03] F. Baumgarte and C. Faller: "바이노럴 큐 코딩 - 파트 I: 음향심리학 기본과 설계 원리(Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles)," IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, November 2003
[Fal03] C. Faller and F Baumgarte, "바이노럴 큐 코딩 - 파트 II: 방식과 응용(Binaural Cue Coding - Part II: Schemes and applications)," IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, November 2003
[Hoy99] T. Hoya, J. A. Chambers, P. A. Naylor, "모노포닉 음향 에코 제거를 위한 낮은 복잡도의 ε-NLMS 알고리즘과 서브밴드 구조(Low Complexity ε-NLMS Algorithms and Subbnad Structues for Stereophonic Acoustic Echo Cancellation)", International Workshop in Acoustic Echo and Noise Control (IWAENC) 1999, Pocono Manor, USA, Conference Proceedings, pp. 36-39