KR101540911B1

KR101540911B1 - 헤드폰 재생 방법, 헤드폰 재생 시스템, 컴퓨터 프로그램 제품

Info

Publication number: KR101540911B1
Application number: KR1020107009676A
Authority: KR
Inventors: 더크 제이. 브레바르트
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2007-10-03
Filing date: 2008-10-01
Publication date: 2015-07-31
Also published as: EP2206364B1; KR20100081999A; US9191763B2; WO2009044347A1; JP2010541449A; JP5769967B2; CN101816192B; TW200926873A; EP2206364A1; US20100215199A1; CN101816192A

Abstract

적어도 2개의 입력 채널 신호들의 헤드폰 재생 방법이 제안된다. 상기 방법은 상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해서 다음의 단계들을 포함한다. 첫째, 공통 컴포넌트, 상기 공통 컴포넌트에 대응하는 추정되는 바람직한 위치, 및 입력 채널 신호들의 상기 쌍의 2개의 입력 채널 신호들에 대응하는 2개의 잔여 컴포넌트들이 결정된다. 상기 결정은 상기 입력 채널 신호들의 상기 쌍에 기초한다. 상기 잔여 컴포넌트들 각각은 공통 컴포넌트의 기여(contribution)를 차감함으로써 그 대응하는 입력 채널 신호로부터 유도된다 상기 기여는 공통 컴포넌트의 추정되는 바람직한 위치와 관련된다. 둘째, 추정되는 바람직한 위치에서 상기 공통 컴포넌트를 포함하는 주 가상 소스 및 각각의 미리 결정된 위치들에서 상기 잔여 컴포넌트들의 각 컴포넌트를 각각 포함하는 2개의 추가의 가상 소스들이 합성된다.

Description

헤드폰 재생 방법, 헤드폰 재생 시스템, 컴퓨터 프로그램 제품{A METHOD FOR HEADPHONE REPRODUCTION, A HEADPHONE REPRODUCTION SYSTEM, A COMPUTER PROGRAM PRODUCT}

본 발명은 적어도 2개의 입력 채널 신호들의 헤드폰 재생 방법에 관한 것이다. 또한, 본 발명은 적어도 2개의 입력 채널 신호들의 재생을 위한 헤드폰 재생 시스템, 및 헤드폰 재생 방법을 실행하는 컴퓨터 프로그램 제품에 관한 것이다.

가장 인기있는 확성기 재생 시스템은 미리 결정된 위치들에서 2개의 확성기들을 이용한 적어도 2-채널 입체 음향(two-channel stereophony)에 기초한다. 사용자가 스위트 스폿(sweet spot)에 위치하는 경우, 기술은 진폭 패닝 위치들(amplitude panning positions)로서 2개의 확성기들간의 팬텀 사운드 소스가 참조된다. 그러나, 적합한 팬텀 소스의 영역은 상당히 제한적이다. 기본적으로, 팬텀 소스는 2개의 확성기들 사이의 회선에만 위치될 수 있다. 2개의 확성기들간의 각은 S.P.Lipshitz의 "Stereo microphone techniques: are the purists wrong?", J.Audio Eng.Soc.,34:716-744, 1986.에서 지적한 바와 같이 약 60도의 상한을 갖는다. 그러므로, 결과적인 정면의 이미지는 폭의 견지에서 제한된다. 또한, 진폭 패닝이 정확하게 작동하기 위해서, 청취자의 위치는 매우 한정된다. 스위트 스폿은 보통 매우 작은데, 특히 좌-우 방향으로 작다. 청취자가 스위트 스폿 외부로 움직이면, 패닝 기술은 실패하고, 오디오 소스들은 가장 근접한 확성기의 위치에서 인지되는데, H.A.M.Clark, G.F.Dutton, 및 P.B.Vanderlyn의 "The 'Stereosonic' recording and reproduction system: A two-channel systems for domestic tape records", J.Audio Engineering Society, 6:102-117, 1958을 참조하라. 또한, 상기 재생 시스템들은 청취자의 방위를 제약한다. 머리 또는 몸의 회전으로 인해, 두 스피커들이 정중면의 양측들에 대칭적으로 위치되지 않는 경우, 팬텀 소스들의 인지되는 위치는 틀리게 되거나 모호하게 되는데, G.Theile 및 G.Plenge의 "Localization of lateral phantom sources", J.Audio Engineering Society, 25:196-200, 1977을 참조하라. 알려진 확성기 재생 시스템의 또 다른 단점은 진폭 패닝에 의해 야기되는 분광색(spectral coloration)이 야기된다는 것이다. 두 귀들에 대한 상이한 경로-길이 차이들 및 결과적인 코움-필터 효과들(comb-filter effects)로 인해, 팬텀 소스들은 V.Pulkki 및 V.Karjalainen, M. 및 Valimaki의 "Coloration, and Enhancement of Amplitude-Panned Virtual Sources",in Proc. 16^th AES Conference, 1999에서 논의한 바와 같이, 바람직한 위치에서 실제 사운드 소스에 비해 유성음의 스펙트럼 변형들을 경험할 수 있다. 진폭 패닝의 또 다른 단점은 팬텀 사운드 소스로부터 발생하는 사운드 소스 로컬리제이션 큐들(sound source localization cues)이 단지 바람직한 위치, 특히 중간 및 고 주파수 영역에서 사운드 소스에 대응하는 로컬리제이션 큐들의 대략적인 근사치라는 사실이다.

확성기 재생에 비해, 헤드폰들을 통해 재생된 스테레오 오디오 콘텐트는 머리 내부에서 인지된다. 특정 사운드 소스로부터 귀들로의 음향 경로의 효과의 부재는 사운드에 대한 공간적인 이미지를 부자연스럽게 한다. 음향 경로의 부재를 극복하기 위해 고정된 가상 스피커들의 세트를 사용하는 헤드폰 오디오 재생은 상술한 확성기 재생 시스템에서와 같이 고정된 확성기들의 세트에 의해 본질적으로 도입되는 결함들을 경험한다. 결함들 중 하나는 로컬리제이션 큐들이 바람직한 위치에서 사운드 소스의 실제 로컬리제이션 큐들의 대략적인 근사치라는 것이며, 이는 열화된 공간적 이미지를 발생시킨다. 다른 결함은 진폭 패닝이 좌-우 방향에서만 작동하고, 임의의 다른 방향에선 작동하지 않는다는 것이다.

본 발명의 목적은 가상 스피커들의 고정된 세트에 관련된 단점들을 완화시키는 헤드폰 재생을 위한 개선된 방법을 제공하는 것이다.

이 목적은 적어도 2개의 입력 채널 신호들의 헤드폰 재생 방법에 의해 달성되는데, 상기 방법은 상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해서 다음의 단계들을 포함한다. 첫째, 공통 컴포넌트, 상기 공통 컴포넌트에 대응하는 추정된 바람직한 위치, 및 입력 채널 신호들의 상기 쌍의 2개의 입력 채널 신호들에 대응하는 2개의 잔여 컴포넌트들이 결정된다. 상기 결정은 상기 입력 채널 신호들의 상기 쌍에 기초한다. 상기 잔여 컴포넌트들 각각은 공통 컴포넌트의 기여(contribution)를 차감함으로써 그 대응하는 입력 채널 신호로부터 유도된다. 상기 기여는 공통 컴포넌트의 추정된 바람직한 위치와 관련된다. 둘째, 추정된 바람직한 위치에서 상기 공통 컴포넌트를 포함하는 주 가상 소스 및 각각의 미리 결정된 위치들에서 상기 잔여 컴포넌트들의 각 컴포넌트를 각각 포함하는 2개의 추가의 가상 소스들이 합성된다.

이는 예를 들어, 모든 가능한 쌍 조합들에 대한 5개의 입력 채널 신호들에 대해, 공통 컴포넌트 및 2개의 잔여 컴포넌트들의 상기 합성이 수행된다는 것을 의미한다. 상기 5개의 입력 채널 신호들에 대해, 입력 채널 신호들의 10개의 가능한 쌍들을 발생시킨다. 그러면, 상기 5개의 입력 채널 신호들에 대응하는 이 결과적인 전체 사운드 장면은 상기 5개의 입력 채널 신호들로부터 형성된 입력 채널 신호들의 모든 쌍들로부터 기인한 공통 및 잔여 컴포넌트들의 모든 기여들의 중첩에 의해 획득된다.

본 발명에 의해 제안된 방법을 이용하여, 표준 스테레오 확성기 설정에 따라 예를 들어, +/- 30도 방위와 같이 고정된 위치들에서 2개의 가상 확성기들에 의해 생성된 팬텀 소스(phantom source)는 바람직한 위치에서 가상 소스에 의해 대체된다. 헤드폰 재생을 위해 제안된 방법의 이점은, 머리 회전들이 결합되거나 또는 전방/주변 패닝이 사용되는 경우조차도 공간적인 심상(spatial imagery)이 개선된다는 것이다. 보다 구체적으로, 제안된 방법은 청취자가 청각 장면 "내"에서 가상으로 위치하는 몰입형 경험을 제공한다. 또한, 헤드-트랙킹(head-tracking)이 3D 오디오 경험을 강제하는데 필요조건이라는 것이 잘 알려져 있다. 제안된 해결책에 있어서, 머리 회전들은 가상 스피커들이 위치를 변경하게 하지 않고 이에 따라 공간적인 이미징이 정확하게 남아있게 된다.

실시예에서, 상기 쌍의 입력 채널 신호들에 대한 공통 컴포넌트의 상기 기여는 좌측(left)으로서 인식되는 입력 채널 신호에 대해 추정된 바람직한 위치의 코사인의 견지로 표현되고, 우측(right)으로서 인지되는 입력 채널에 대해 추정된 바람직한 위치의 사인으로서 표현된다. 이에 기초하여, 쌍에 속하며 상기 쌍에서 좌측 및 우측 입력 채널들로서 인지되는 입력 채널 신호들은 다음과 같이 분해된다.

여기서, L[k] 및 R[k]는 각각 상기 쌍에서 좌측으로서 인지되고 우측으로서 인지되는 입력 채널 신호들이고, S[k]는 좌측으로서 인지되고 우측으로서 인지되는 입력 채널 신호들에 대한 공통 컴포넌트이고, D_L[k]는 좌측 입력 채널 신호로서 인지되는 것에 대응하는 잔여 컴포넌트이고, D_R[k]는 우측 입력 채널 신호로서 인지되는 것에 대응하는 잔여 컴포넌트이고, υ는 공통 컴포넌트에 대응하는 추정된 바람직한 위치이다.

용어 "좌측으로서 인지되는" 및 "우측으로서 인지되는"은 단순성을 위해 명세서의 나머지 부분에서 "좌측" 및 "우측"으로 대체된다. 이 문맥에서 용어 "좌측" 및 "우측"은 상기 적어도 2개의 입력 채널 신호들로부터의 쌍에 속하는 2개의 입력 채널 신호들을 지칭하고, 헤드폰 재생 방법에 의해 재생되는 입력 채널 신호들의 수를 임의의 방식으로도 제한하지 않는다는 점에 주의해야 한다.

상기 분해는 종래의 확성기 시스템의 진폭 패닝 기술들로 획득될 수 있는 팬텀 소스의 추정인 공통 컴포넌트를 제공한다. 코사인 및 사인 팩터들은 단일의 각에 의해 좌측 및 우측 입력 채널 신호들 둘 모두에 대한 공통 컴포넌트의 기여를 기술하기 위한 수단을 제공한다. 상기 각은 공통 소스의 인지된 위치에 밀접하게 관련된다. 진폭 패닝은 대부분의 경우들에서, 좌측 및 우측 입력 채널의 공통 신호의 비가 무엇이든지 간에, 공통 컴포넌트의 총 파워는 변경되지 않은 채로 남아있어야 한다는 것을 의미하는 이른바 3dB 규칙에 기초한다. 이 특성은 동일한 각의 사인 및 코사인의 제곱들의 합이 항상 1을 제공하기 때문에, 코사인 및 사인 용어들을 이용함으로써 자동으로 보장된다.

다른 실시예에서, 공통 컴포넌트 및 대응하는 잔여 컴포넌트는 상기 공통 컴포넌트가 결정되는 입력 채널 신호들간의 상관에 의존한다. 공통 컴포넌트의 추정시에, 추정 프로세스의 매우 중요한 변수는 좌측 및 우측 채널들간의 상관이다. 상관은 공통 컴포넌트의 세기(따라서 파워)에 직접 결합된다. 상관이 낮으면, 공통 컴포넌트의 파워 역시 낮다. 상관이 높으면, 잔여 컴포넌트들에 비해 공통 컴포넌트의 파워도 높다. 즉, 상관은 좌측 및 우측 입력 채널 신호 쌍에서 공통 컴포넌트의 기여에 대한 표시자이다. 공통 컴포넌트 및 잔여 컴포넌트가 추정되어야 하는 경우, 공통 컴포넌트 또는 잔여 컴포넌트가 입력 채널 신호에서 우세한지를 아는 것이 유리하다.

다른 실시예에서, 공통 컴포넌트 및 대응하는 잔여 컴포넌트는 대응하는 입력 채널 신호의 파워 파라미터들에 의존한다. 추정 프로세스에 대한 측정으로서 파워의 선택은 공통 컴포넌트 및 잔여 컴포넌트들의 보다 정확하고 신뢰할 수 있는 추정들을 허용한다. 예를 들어, 좌측 입력 채널 신호와 같이 입력 채널 신호들 중 하나의 파워가 0인 경우, 이는 상기 신호에 있어서, 잔여 및 공통 컴포넌트들이 0이라는 것을 자동으로 의미한다. 또한, 이는 공통 컴포넌트가 다른 입력 채널 신호에서만 존재하고, 따라서, 우측 입력 채널 신호가 상당한 파워를 가진다는 것을 의미한다. 또한, 파워면에서 동일한 좌측 잔여 컴포넌트 및 우측 잔여 컴포넌트에 대해서(예를 들어, 부호는 다르지만 동일한 신호들인 경우), 0인 좌측 입력 채널 신호의 파워는, 좌측 잔여 컴포넌트 및 우측 잔여 컴포넌트의 파워가 모두 0이라는 것을 의미한다. 이는 우측 입력 채널 신호가 실제로 공통 컴포넌트라는 것을 의미한다.

다른 실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치는 상기 공통 컴포넌트가 결정된 입력 채널 신호들간의 상관에 의존한다. 상관이 높으면, 공통 컴포넌트의 기여 또한 높다. 또한, 이는 좌측 및 우측 입력 채널 신호들의 파워들, 및 공통 컴포넌트의 위치 사이에 밀접한 관계가 존재한다는 것을 의미한다. 한편, 상관이 낮은 경우는 공통 컴포넌트가 상대적으로 약하다(즉, 저 파워)는 것을 의미한다. 또한, 좌측 및 우측 입력 채널 신호들의 파워들이 공통 컴포넌트의 파워에 의해서가 아니라 잔여 컴포넌트의 파워에 의해 주도적으로 결정된다는 것을 의미한다. 그러므로, 공통 컴포넌트의 위치를 추정하기 위해, 공통 컴포넌트가 우세한지 안 한지 여부를 아는 것이 유리하고, 이는 상관에 의해 영향을 받는다.

다른 실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치는 대응하는 입력 채널 신호의 파워 파라미터들에 의존한다. 0인 잔여 컴포넌트들 대해, 좌측 및 우측 입력 채널 신호들의 상대적인 파워는 공통 컴포넌트에 대응하는 주 가상 소스의 각에 직접 결합된다. 따라서, 주 가상 소스의 위치는 좌측 및 우측 입력 채널 신호의 (상대적) 파워에 강한 의존성을 갖는다. 한편, 공통 컴포넌트가 잔여 컴포넌트들에 비해 매우 작은 경우, 좌측 및 우측 입력 채널 신호들의 파워들은 잔여 신호들에 의해 우세하게 되고, 이 경우, 좌측 및 우측 입력 채널 신호로부터 공통 컴포넌트의 바람직한 위치를 추정하는 것은 그리 간단하지 않다.

다른 실시예에서, 입력 채널 신호들의 쌍에 대해, 상기 파워 파라미터들은 좌측 채널 파워(P_l), 우측 채널 파워(P_r), 및 크로스-파워(P_x)를 포함한다.

다른 실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치(υ)는 다음과 같이 유도된다:

여기서,

이 유도는 공통 컴포넌트에 대응하는 추정된 신호의 파워의 최대화에 대응한다는 것을 알 수 있다. 공통 컴포넌트의 추정 프로세스에 관한 보다 많은 정보, 및 공통 컴포넌트의 파워의 최대화(이는 잔여 컴포넌트들의 파워의 최소화를 또한 의미함)는 Breebaart,J,Faller,C."Spatial audio processing:MPEG Surroung and other applications", Wiley, 2007에서 제공된다. 공통 컴포넌트에 대응하는 추정된 신호의 파워의 최대화는 대응하는 신호들에 대해 정확한 로컬리제이션 정보가 이용가능하므로 바람직하다. 극단적인 경우, 공통 컴포넌트가 0이면, 잔여 컴포넌트들은 원 입력 신호들과 동일하고, 처리는 어떠한 효과도 가지지 않을 것이다. 그러므로, 기술된 프로세스의 최대 효과를 얻기 위해 공통 컴포넌트의 파워를 최대화하고, 잔여 컴포넌트들의 파워를 최소화하는 것이 유익하다.

다른 실시예에서, 추정된 바람직한 위치는 2개의 가상 스피커 위치들에 대응하는 2개의 미리 결정된 위치들간의 공간적 위치를 나타내고, 여기서, 영역(υ=0...90도)은 인지된 위치 각에 대해 범위(r=-30...30도)에 맵핑한다. 이전의 실시예들에서 표시된 바와 같이 추정된 바람직한 위치(υ)는 0 내지 90도 사이에서 변하고, 여기서 0 과 90 도에 대응하는 위치들은 좌측 및 우측 스피커 위치들과 각각 동일하다. 헤드폰 재생 시스템에 의한 실제적인 사운드 재생을 위해, 추정된 바람직한 위치의 상기 범위를, 오디오 콘텐츠를 생성하는데 실질적으로 사용되는 범위에 대응하는 범위로 맵핑하는 것이 바람직하다. 그러나, 오디오 콘텐츠를 생성하는데 사용된 정밀한 스피커 위치들은 이용가능하지 않다. 대부분의 오디오 콘텐츠는 ITU 표준(ITU-R 추천. BS.775-1)에 의해 기술된 것과 같은 확성기 설정 즉, +30 및 -30도 각도들의 스피커들로 재생하기 위해 생성된다. 그러므로, 가상 소스들의 원 위치들의 최적의 추정은 오디오가 ITU 표준에 순응하는 확성기 시스템을 통해 재생된다는 가정하의 인지되는 위치이다. 상기 맵핑은 이런 목적, 즉 추정된 바람직한 위치가 ITU-순응 범위내에 있게 하는 역할을 한다.

다른 실시예에서, 추정된 바람직한 위치(υ)에 대응하는 인지된 위치각(r)은 다음에 따라 유도된다:

이 맵핑의 이점은 인터벌[0...90]도로부터[-30...30]도로의 단순한 선형 맵핑이라는 것이다. [-30...30]도의 범위로의 상기 맵핑은 가상 소스의 의도된 위치의 최적의 추정을 제공하고, 이는 선호되는 ITU 확성기 설정을 제공한다.

다른 실시예에서, 파워 파라미터들은 주파수 도메인으로 변환된 입력 채널 신호로부터 유도된다. 많은 경우들에서, 오디오 콘텐츠는 다수의 동시성 사운드 소스들을 포함한다. 상기 다수의 자원들은 상이한 주파수들에 대응한다. 그러므로, 보다 양호한 사운드 이미징을 위해 보다 많은 타겟팅된 방식으로 사운드 소스들을 처리하는 것이 유리한데, 이는 주파수 도메인에서만 가능하다. 오디오 콘텐츠의 공간적 특성들을 보다 정밀하게 재생하고 이에 따라 전체적인 공간적 사운드 재생 품질을 개선하기 위해, 제안된 발명을 보다 적은 주파수 대역들에 적용하는 것이 바람직하다. 이는 많은 경우들에서, 단일의 사운드 소스가 특정 주파수 대역에서 우세하기 때문에 양호하게 작동한다. 하나의 소스가 주파수 대역에서 우세한 경우, 공통 컴포넌트 및 그 위치의 추정은 우세한 신호만을 밀접하게 닮고, 다른 신호들(상기 다른 신호들은 잔여 컴포넌트들로 결론지어짐)은 폐기된다. 다른 주파수 대역들에서, 그들 자신의 대응하는 위치들을 갖는 다른 소스들이 우세하다. 따라서, 주파수 도메인에서 가능한 다양한 대역들의 처리에 의해, 사운드 소스들의 재생에 관한 보다 양호한 제어가 달성될 수 있다.

다른 실시예에서, 입력 채널 신호는 푸리에-기반 변형을 이용하여 주파수 도메인으로 변환된다. 이런 변형의 형태는 잘 알려져 있고, 하나 이상의 주파수 대역들을 생성하는데 복잡도가 낮은 방법을 제공한다.

다른 실시예에서, 입력 채널 신호는 필터 뱅크를 이용하여 주파수 도메인으로 변환된다. 적절한 필터뱅크 방법들은 Breebaart,J.,Faller,C.의"Spatial audio processing: MPEG Surround and other applications", Wiley, 2007에 기술된다. 이 방법들은 서브-대역 주파수 도메인으로의 변환을 제안한다.

다른 실시예에서, 파워 파라미터들은 시간 도메인으로 표현된 입력 채널 신호로부터 유도된다. 오디오 콘텐츠에 존재하는 소스들의 수가 적으면, 푸리에-기반 변형 또는 필터뱅크들이 적용될 때 계산 노력은 커진다. 그러므로, 이후 시간 도메인에서 파워 파라미터들의 유도는 주파수 도메인에서 파워 파라미터들의 유도에 비해 계산 노력들을 절감한다.

다른 실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치(r)는, 사운드 스테이지의 좁히기, 넓히기 또는 회전 중 하나를 발생시키도록 수정된다. 확성기들의 -30...+30도 위치로 인해 확성기 설정의 60-도 제한을 극복하기 때문에 넓히기는 특히 관심을 끈다. 따라서, 이는 60-도의 개구각에 의한 한정된 좁은 사운드 스테이지를 청취자에게 제공하는게 아니라, 청취자를 둘러싸는 몰입형 사운드 스테이지를 생성하는데 도움을 준다. 또한, 사운드 스테이지의 회전은, 헤드폰 재생 시스템의 사용자가 사용자의 머리 회전에 독립적인 고정된(안정되고 일정한) 위치들에서 사운드 소스들을 듣는 것을 가능하게 하기 때문에 관심을 끈다.

다른 실시예들에서, 추정된 바람직한 위치 r에 대응하는 인지된 위치(r)는 다음과 같이 표현된 수정된 인지된 위치 r'를 발생시키도록 변형된다:

여기서, h는 사운드 스테이지의 회전에 대응하는 오프셋이다.

소스 위치의 각도 표현은 헤드 이동, 구체적으로 청취자의 머리의 방위의 매우 쉬운 적분을 용이하게 하며, 이는 사운드 소스들이 머리 방위에 독립적으로 안정되고 일정한 위치들을 갖도록 사운드 위치들에 대응하는 각들에 오프셋을 적용함으로써 구현된다. 이러한 오프셋의 결과로서, 다음의 이익들 즉, 보다 많은 아웃 오브 헤드(out of head) 사운드 소스 로컬리제이션, 개선된 사운드 소스 로컬리제이션 정확도, 전방/후방 혼란들의 감소, 및 보다 몰입적이고 자연스러운 청취 경험이 달성된다.

다른 실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 다음과 같이 표현된 수정된 인지된 위치를 발생하도록 수정된다:

r'=cr

여기서, c는 사운드 스테이지의 넓히기 또는 좁히기에 대응하는 스케일 팩터이다.

스케일링의 이용은 매우 간단하고, 사운드 스테이지를 넓히는 매우 효율적인 방식이다.

다른 실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 사용자 선호도에 응답하여 수정된다. 이는, 한 사용자(예를 들어, 사용자는 뮤지션 밴드들의 일원임)가 청취자 주위에 위치한 소스들로 완전한 몰입형 경험을 원하고, 다른 사람들은 단지 전방으로부터 오는것으로서(예를 들어, 객석에 앉아서 거리를 두고 청취함) 사운드 스테이지를 인지하고자 하는 것이 발생할 수 있다.

다른 실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 헤드-트랙커 데이터에 응답하여 수정된다.

다른 실시예에서, 입력 채널 신호는 시간/주파수 타일들로 분해된다. 주파수 대역들의 이용은 다수의 사운드 소스들이 보다 양호한 사운드 이미징을 발생시키는 보다 많은 타겟팅된 방식으로 처리되기 때문에 유리하다. 시간 단편화의 부가적인 이점은, 사운드 소스들의 우세는 보통, 예를 들어, 일부 소스들이 일부 시간동안 조용(quiet)한 것과 같이 시간 의존적이라는 것이다. 주파수 대역들 외에 시간 세그먼트들의 사용은 입력 채널 신호들에 존재하는 개별적인 소스들의 보다 나은 제어를 제공한다.

다른 실시예에서, 가상 소스의 합성은 머리-관련 전달 함수들(HRTF들)을 이용하여 수행된다. HRTF들을 이용한 합성은 가상 공간에서 소스를 위치시키는 잘 알려진 방법이다. HRTF들로의 파라메트릭 방식들은 처리를 보다 단순화할 수 있다. HRTF 처리에 대한 이러한 파라메트릭 방식들은 Breebaart,J.,Faller,C.의"Spatial audio processing: MPEG Surround and other applications", Wiley, 2007에서 기술된다.

다른 실시예에서, 가상 소스의 합성은 각 주파수 대역에 대해 독립적으로 수행된다. 주파수 대역들의 이용은 다수의 사운드 소스들이 보다 양호한 사운드 이미징을 발생시키는 보다 많이 타겟팅된 방식으로 처리되기 때문에 유리하다. 대역들의 처리의 다른 이점은 다수의 경우들에서(예를 들어, 푸리에-기반 변형들이 이용될 때) 대역에 존재하는 오디오 샘플들의 수가 입력 채널 신호들의 오디오 샘플들의 총 수보다 작다는 관찰에 기초한다. 각 대역이 다른 주파수 대역들에 독립적으로 처리되기 때문에, 총 필요로 되는 처리 파워는 낮아진다.

본 발명은 또한 시스템 청구항 및 프로그래밍 가능한 디바이스가 본 발명에 따른 방법을 수행 가능하게 하는 컴퓨터 프로그램 제품을 제공한다.

본 발명의 상기 및 다른 양태들은 도면들에서 도시된 실시예들을 참조하여 명확하고 명료하게 될 것이다.

본 발명은 적어도 2개의 입력 채널 신호들의 헤드폰 재생 방법을 제공한다. 또한, 본 발명은 적어도 2개의 입력 채널 신호들의 재생을 위한 헤드폰 재생 시스템, 및 헤드폰 재생 방법을 실행하는 컴퓨터 프로그램 제품을 제공한다.

도 1은 공통 컴포넌트에 대응하는 주 가상 소스는 추정된 바람직한 위치에서 합성되고, 잔여 컴포넌트들에 대응하는 추가의 가상 소스들은 미리 결정된 위치들에서 합성되는 적어도 2개의 입력 채널 신호들의 헤드폰 재생을 개략적으로 도시하는 도면.
도 2는 대응하는 추정된 바람직한 위치를 갖는 공통 컴포넌트, 및 잔여 컴포넌트들을 유도하는 처리 수단, 및 추정된 바람직한 위치에서 공통 컴포넌트에 대응하는 주 가상 소스 및 미리 결정된 위치들에서 잔여 컴포넌트에 대응하는 추가의 가상 소스들을 합성하는 합성 수단을 포함하는 헤드폰 재생 시스템의 예를 개략적으로 도시하는 도면.
도 3은 추정된 바람직한 위치에 대응하는 인지된 위치를 수정하는 수정 수단을 추가로 포함하는 헤드폰 재생 시스템의 예를 도시하는 도면. 상기 수정 수단은 상기 처리 수단 및 상기 합성 수단에 동작 가능하게 결합된다.
도 4는 입력 채널 신호가 처리 수단에 공급되기 이전에 주파수 도메인으로 변형되고, 합성 수단의 출력이 역 동작에 의해 시간 도메인으로 변환되는 헤드폰 재생 시스템의 예를 도시하는 도면.

도면들 전반에 걸쳐서, 동일한 참조 번호들은 유사하거나 동일한 특징들을 표시한다. 도면들에서 표시된 특징들 중 일부는 통상적으로 소프트웨어로 구현되고, 이러한 것으로서 소프트웨어 모듈들 또는 객체들과 같은 소프트웨어 엔티티들을 나타낸다.

도 1은 공통 컴포넌트에 대응하는 주 가상 소스(120)는 추정된 바람직한 위치에서 합성되고, 잔여 컴포넌트들에 대응하는 추가의 가상 소스들(131,132)은 미리 결정된 위치들에서 합성되는 적어도 2개의 입력 채널 신호들(101)의 헤드폰 재생을 개략적으로 도시한다. 사용자(200)는 주 가상 소스(120) 및 추가의 가상 소스들(131 및 132)을 포함하는 사운드 장면을 재생하는 헤드폰들을 착용한다.

적어도 2개의 입력 채널 신호들(101)의 헤드폰 재생을 위해 제안된 방법은 상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해 다음의 단계들을 포함한다. 첫째, 공통 컴포넌트, 상기 공통 컴포넌트에 대응하는 추정된 바람직한 위치, 및 입력 채널 신호들의 상기 쌍에서 2개의 입력 채널 신호들에 대응하는 2개의 잔여 컴포넌트들이 결정된다. 상기 결정은 상기 입력 채널 신호들의 상기 쌍에 기초한다. 상기 잔여 컴포넌트들 각각은 공통 컴포넌트의 기여(contribution)를 차감함으로써 그의 대응하는 입력 채널 신호로부터 유도된다. 상기 기여는 상기 공통 컴포넌트의 추정된 바람직한 위치에 관련된다. 둘째, 추정된 바람직한 위치에서 상기 공통의 컴포넌트를 포함하는 주 가상 소스(120) 및 각각의 미리 결정된 위치들에서 상기 잔여 컴포넌트들의 각각의 컴포넌트를 각각 포함하는 2개의 추가의 가상 소스들(131 및 132)이 합성된다.

도 1에서, 단지 2개의 입력 채널 신호들만이 도시되었지만, 예를 들어, 5개와 같이 보다 많은 입력 채널 신호들이 재생될 수 있다는 것이 명백하다. 이는 모든 가능한 쌍 조합들에 대한 상기 5개의 입력 채널 신호들에 있어서, 공통 컴포넌트 및 2개의 잔여 컴포넌트들의 상기 합성이 수행된다는 것을 의미한다. 상기 5개의 입력 채널 신호들에 대해, 10개의 가능한 입력 채널 신호들의 쌍이 발생한다. 상기 5개의 입력 채널 신호들에 대응하는 결과적인 전체 사운드 장면들은 상기 5개의 입력 채널 신호들로부터 형성된 입력 채널 신호들의 모든 쌍들로부터 발생하는 공통 및 잔여 컴포넌트들의 모든 기여들의 중첩에 의해 획득된다.

실선들(104 및 105)은 가상선들이라는 것에 주의해야 하고, 이들은 잔여 컴포넌트들(131 및 132)이 미리 결정된 위치들에서 합성된다는 것을 표시한다. 실선(102)에 대해서도 마찬가지이며, 이는 공통 컴포넌트가 추정된 바람직한 위치에서 합성된다는 것을 표시한다.

본 발명에 의해 제안된 방법을 이용하여, 표준 스테레오 확성기 설정에 따라 예를 들어, +/- 30도 방위와 같이 고정된 위치들에서 2개의 가상 확성기들에 의해 생성된 팬텀 소스는 바람직한 위치에서 가상 소스(120)에 의해 대체된다. 헤드폰 재생을 위해 제안된 방법의 이점은, 머리가 회전되거나 또는 전방/주변 패닝이 사용되는 경우 조차도 공간적인 심상(spatial imagery)이 개선된다는 것이다. 보다 구체적으로, 제안된 방법은 청취자가 청각 장면 "내"에서 가상으로 위치하는 몰입형 경험을 제공한다. 또한, 헤드-트랙킹(head-tracking)이 3D 오디오 경험을 강제하는데 필요조건이라는 것이 잘 알려져 있다. 제안된 해결책에 있어서, 머리 회전들은 가상 스피커들이 위치를 변경하게 하지 않고 이에 따라 공간적인 이미징이 정확하게 남아있게 된다.

실시예에서, 상기 쌍의 입력 채널 신호들에 대한 공통 컴포넌트의 기여는 좌측으로서 인지되는 입력 채널 신호에 대해 추정된 바람직한 위치의 코사인에 의해 표현되고, 우측으로서 인지되는 입력 채널에 대해 추정된 바람직한 위치의 사인에 의해 표현된다. 이에 기초하여, 쌍에 속하며 상기 쌍에서 좌측 및 우측 입력 채널들로서 인지되는 입력 채널 신호들(101)은 다음과 같이 분해된다.

여기서, L[k] 및 R[k]는 각각 좌측 및 우측 입력 채널 신호들(101)이고, S[k]는 좌측 및 우측 입력 채널 신호들에 대한 공통 컴포넌트이고, D_L[k]는 좌측 입력 채널 신호에 대응하는 잔여 컴포넌트이고, D_R[k]는 우측 입력 채널 신호에 대응하는 잔여 컴포넌트이고, υ는 공통 컴포넌트에 대응하는 추정된 바람직한 위치이고, cos(υ) 및 sin(υ)는 상기 쌍에 속하는 입력 채널 신호들에 대한 기여들이다.

상기 분해는 종래의 확성기 시스템의 진폭 패닝 기술들로 획득될 수 있는 팬텀 소스의 추정인 공통 컴포넌트를 제공한다. 코사인 및 사인 팩터들은 단일의 각에 의해 좌측 및 우측 입력 채널 신호들 둘 모두에 대한 공통 컴포넌트의 기여를 기술하기 위한 수단을 제공한다. 상기 각은 공통 소스의 인지된 위치에 밀접하게 관련된다. 진폭 패닝은 대부분의 경우들에서, 좌측 및 우측 입력 채널의 공통 신호의 비가 무엇이든지 간에, 공통 컴포넌트의 총 파워는 변경되지 않은 채로 남아있어야 한다는 것을 의미하는 이른바 3dB 규칙에 기초한다. 이 특성은 동일한 각의 사인 및 코사인의 제곱들의 합이 항상 1을 제공하기 때문에, 코사인 및 사인 항들을 이용함으로써 자동으로 보장된다.

잔여 컴포넌트들(D_L[k] 및 D_R[k])인, 이들이 상이한 값들을 가질 수 있으므로 상이하게 라벨링되지만, 상기 잔여 컴포넌트들은 동일한 값을 갖도록 또한 선택될 수도 있다. 이는 계산을 단순화하고, 이 잔여 컴포넌트들과 연관된 환경(ambiance)을 개선한다.

상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해, 대응하는 추정된 바람직한 위치를 갖는 공통 컴포넌트 및 잔여 컴포넌트들이 결정된다. 그 후, 상기 적어도 2개의 입력 채널 신호들에 대응하는 전체 사운드 장면이 입력 채널 신호들의 상기 쌍들에 대해 유도된 개별적인 공통 및 잔여 컴포넌트들의 모든 기여들의 중첩에 의해 획득된다.

실시예에서, 공통 컴포넌트 및 대응하는 잔여 컴포넌트는 상기 공통 컴포넌트가 결정되는 입력 채널 신호들간의 상관에 의존한다. 공통 컴포넌트의 추정시에, 추정 프로세스의 매우 중요한 변수는 좌측 및 우측 채널들간의 상관이다. 상관은 공통 컴포넌트의 세기(따라서 파워)에 직접 결합된다. 상관이 낮으면, 공통 컴포넌트의 파워 역시 낮다. 상관이 높으면, 잔여 컴포넌트들에 비해 공통 컴포넌트의 파워도 높다. 즉, 상관은 좌측 및 우측 입력 채널 신호 쌍에서 공통 컴포넌트의 기여에 대한 표시자이다. 공통 컴포넌트 및 잔여 컴포넌트가 추정되어야 하는 경우, 공통 컴포넌트 또는 잔여 컴포넌트가 입력 채널 신호에서 우세한지를 아는 것이 유리하다.

실시예들에서, 공통 컴포넌트 및 대응하는 잔여 컴포넌트는 대응하는 입력 채널 신호의 파워 파라미터들에 의존한다. 추정 프로세스에 대한 측정으로서 파워의 선택은 공통 컴포넌트 및 잔여 컴포넌트들의 보다 정확하고 신뢰할 수 있는 추정들을 허용한다. 예를 들어, 좌측 입력 채널 신호와 같이 입력 채널 신호들 중 하나의 파워가 0인 경우, 이는 상기 신호에 있어서, 잔여 및 공통 컴포넌트들이 0이라는 것을 자동으로 의미한다. 또한, 이는 공통 컴포넌트가 다른 입력 채널 신호에서만 존재하고, 따라서, 우측 입력 채널 신호가 상당한 파워를 가진다는 것을 의미한다. 또한, 파워면에서 동일한 좌측 잔여 컴포넌트 및 우측 잔여 컴포넌트에 대해서(예를 들어, 부호는 다르지만 동일한 신호들인 경우), 0인 좌측 입력 채널 신호의 파워는, 좌측 잔여 컴포넌트 및 우측 잔여 컴포넌트의 파워가 모두 0이라는 것을 의미한다. 이는 우측 입력 채널 신호가 실제로 공통 컴포넌트라는 것을 의미한다.

실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치는 상기 공통 컴포넌트가 결정된 입력 채널 신호들간의 상관에 의존한다. 상관이 높으면, 공통 컴포넌트의 기여 또한 높다. 또한, 이는 좌측 및 우측 입력 채널 신호들의 파워들, 및 공통 컴포넌트의 위치 사이에 밀접한 관계가 존재한다는 것을 의미한다. 한편, 상관이 낮은 경우는 공통 컴포넌트가 상대적으로 약하다(즉, 저 파워)는 것을 의미한다. 또한, 좌측 및 우측 입력 채널 신호들의 파워들이 공통 컴포넌트의 파워에 의해서가 아니라 잔여 컴포넌트의 파워에 의해 주도적으로 결정된다는 것을 의미한다. 그러므로, 공통 컴포넌트의 위치를 추정하기 위해, 공통 컴포넌트가 우세한지 안한지 여부를 아는 것이 유리하고, 이는 상관에 의해 영향을 받는다.

실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치는 대응하는 입력 채널 신호의 파워 파라미터들에 의존한다. 0인 잔여 컴포넌트들 대해, 좌측 및 우측 입력 채널 신호들의 상대적인 파워는 공통 컴포넌트에 대응하는 주 가상 소스의 각에 직접 결합된다. 따라서, 주 가상 소스의 위치는 좌측 및 우측 입력 채널 신호의 (상대적) 파워에 강한 의존성을 갖는다. 한편, 공통 컴포넌트가 잔여 컴포넌트들에 비해 매우 작은 경우, 좌측 및 우측 입력 채널 신호들의 파워들은 잔여 신호들에 의해 우세하게 되고, 이 경우, 좌측 및 우측 입력 채널 신호로부터 공통 컴포넌트의 바람직한 위치를 추정하는 것은 그리 간단하지 않다.

실시예에서, 입력 채널 신호들의 쌍에 대해, 상기 파워 파라미터들은 좌측 채널 파워(P_l), 우측 채널 파워(P_r), 및 크로스-파워(P_x)를 포함한다.

실시예에서, 공통 컴포넌트에 대응하는 추정된 바람직한 위치(υ)는 다음과 같이 유도된다:

여기서,

정의에 의해, 정규화된 크로스-상관(ρ)은 다음에 의해 제공된다:

따라서, 각(α) 및 이에 따라 추정된 바람직한 위치(υ)는 크로스-상관(ρ)에 의존한다.

이 유도는 공통 컴포넌트에 대응하는 추정된 신호의 파워의 최대화에 대응한다는 것을 알 수 있다. 공통 컴포넌트의 추정 프로세스에 관한 보다 많은 정보, 및 공통 컴포넌트의 파워의 최대화(이는 잔여 컴포넌트들의 파워의 최소화를 또한 의미함)는 Breebaart,J.,Faller,C."Spatial audio processing:MPEG Surround and other applications", Wiley, 2007에서 제공된다. 공통 컴포넌트에 대응하는 추정된 신호의 파워의 최대화는 대응하는 신호들에 대해 정확한 로컬리제이션 정보가 이용가능하므로 바람직하다. 극단적인 경우, 공통 컴포넌트가 0이면, 잔여 컴포넌트들은 원 입력 신호들과 동일하고, 처리는 어떠한 효과도 가지지 않을 것이다. 그러므로, 기술된 프로세스의 최대 효과를 얻기 위해 공통 컴포넌트의 파워를 최대화하고, 잔여 컴포넌트들의 파워를 최소화하는 것이 유익하다. 따라서, 정확한 위치도 본 발명에서 사용된 바와 같이 공통 컴포넌트에 대해 이용 가능하다.

실시예에서, 추정된 바람직한 위치는 2개의 가상 스피커 위치들에 대응하는 2개의 미리 결정된 위치들간의 공간적 위치를 나타내고, 여기서, 범위(υ=0...90도)은 인지된 위치 각에 대해 범위(r=-30...30도)에 맵핑한다. 이전의 실시예들에서 표시된 바와 같이 추정된 바람직한 위치(υ)는 0 내지 90도 사이에서 변하고, 이에 의해 0 과 90 도에 대응하는 위치들은 좌측 및 우측 스피커 위치들과 각각 동일하다. 헤드폰 재생 시스템에 의한 실제적인 사운드 재생을 위해, 추정된 바람직한 위치의 상기 범위를, 오디오 콘텐츠를 생성하는데 실질적으로 사용되는 범위에 대응하는 범위로 맵핑하는 것이 바람직하다. 그러나, 오디오 콘텐츠를 생성하는데 사용된 정밀한 스피커 위치들은 이용가능하지 않다. 대부분의 오디오 콘텐츠는 ITU 표준(ITU-R 추천. BS.775-1)에 의해 기술된 것과 같은 확성기 설정 즉, +30 및 -30도 각도들의 스피커들로 재생하기 위해 생성된다. 그러므로, 가상 소스들의 원 위치들의 최적의 추정은 오디오가 ITU 표준에 순응하는 확성기 시스템을 통해 재생된다는 가정하의 인지되는 위치이다. 상기 맵핑은 이런 목적, 즉 추정된 바람직한 위치가 ITU-순응 영역내에 있게 하는 역할을 한다.

실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치 각은 다음에 따라 유도된다:

이 맵핑의 이점은 인터벌[0...90]도로부터 [-30...30]도로의 단순한 선형 맵핑이라는 것이다. [-30...30]도의 범위로의 상기 맵핑은 가상 소스의 의도된 위치의 최적의 추정을 제공하고, 이는 선호되는 ITU 확성기 설정을 제공한다.

실시예에서, 파워 파라미터들은 주파수 도메인으로 변환된 입력 채널 신호로부터 유도된다.

스테레오 입력 신호는 좌측 및 우측 채널에 각각 대응하는 2개의 입력 채널 신호들(l[n]) 및 r[n])을 포함하고, n은 시간 도메인에서의 샘플 번호이다. 파워 파라미터들이 주파수 도메인으로 변환된 입력 채널 신호들로부터 어떻게 유도되는지를 설명하기 위해, 시간/주파수 타일들에서 좌측 및 우측 입력 채널 신호들의 분해가 사용된다. 상기 분해는 강제적이지는 않지만, 설명 목적을 위해서는 편리하다. 상기 분해는 윈도우잉(windowing) 및 예를 들어, 푸리에-기반 변형을 이용함으로써 실현된다. 푸리에-기반 변환의 예는, 예를 들어 FFT이다. 푸리에-기반 변환에 대한 대안으로서, 필터뱅크들(filterbanks)이 사용될 수 있다. 길이(N)의 윈도우 함수(w[n])는 하나의 프레임(m)을 얻기 위해 입력 채널 신호들과 중첩된다.:

그 후, 프레임된 좌측 및 우측 입력 채널 신호들은 FFT들을 이용하여 주파수 도메인으로 변환된다:

결과적인 FFT 빈들(bins)(인덱스 k를 가짐)은 파라미터 대역들(b)로 그룹핑된다. 통상적으로, FET 인덱스들(k)의 양이 고 파라미터 대역들에 대해서보다 저 파라미터 대역들에 대해 보다 적은(즉, 주파수 해상도는 파라미터대역 인덱스(b)에 따라 감소함) 20 내지 40 파라미터 대역들이 형성된다.

그 후, 각 파라미터 대역(b)의 파워들(P_l[b], P_r[b] 및 P_x[b])이 다음과 같이 산출된다:

비록, 파워 파라미터들이 각 주파수 대역들에 대해 개별적으로 유도되지만, 이것으로 제한되는 것은 아니다. 단지 하나의 대역(전체 주파수 범위를 포함함)을 이용하는 것은, 실제로 어떠한 분해도 대역들에서 사용되지 않는다는 것을 의미한다. 또한, Parseval의 이론에 따르면, 시간 또는 주파수 -도메인 표현으로부터 발생한 파워 및 크로스-파워 추정들은 상기 경우에서 동일하다. 또한, 윈도우 길이를 무한대로 고정시키는 것은 실제로 어떠한 시간 분해 또는 단편화(segmentation)도 사용되지 않는다는 것을 의미한다.

많은 경우들에서, 오디오 콘텐츠는 다수의 동시성 사운드 소스들을 포함한다. 상기 다수의 자원들은 상이한 주파수들에 대응한다. 그러므로, 보다 양호한 사운드 이미징을 위해 보다 많은 타겟팅된 방식으로 사운드 소스들을 처리하는 것이 유리한데, 이는 주파수 도메인에서만 가능하다. 오디오 콘텐츠의 공간적 특성들을 보다 정밀하게 재생하고 이에 따라 전체적인 공간적 재생 품질을 개선하기 위해, 제안된 발명을 보다 적은 주파수 대역들에 적용하는 것이 바람직하다. 이는 많은 경우들에서, 단일의 사운드 소스가 특정 주파수 대역에서 우세하기 때문에 양호하게 작동한다. 하나의 소스가 주파수 대역에서 우세한 경우, 공통 컴포넌트 및 그 위치의 추정은 우세한 신호만을 밀접하게 닮고, 다른 신호들(상기 다른 신호들은 잔여 컴포넌트들로 마무리지어짐)은 폐기된다. 다른 주파수 대역들에서, 그들 자신의 대응하는 위치들을 갖는 다른 소스들이 우세하다. 따라서, 주파수 도메인에서 가능한 다양한 대역들의 처리에 의해, 사운드 소스들의 재생에 관한 보다 양호한 제어가 달성될 수 있다.

실시예에서, 입력 채널 신호는 푸리에-기반 변환을 이용하여 주파수 도메인으로 변환된다. 이런 변형의 형태는 잘 알려져 있고, 하나 이상의 주파수 대역들을 생성하는데 복잡도가 낮은 방법을 제공한다.

실시예에서, 입력 채널 신호는 필터 뱅크를 이용하여 주파수 도메인으로 변환된다. 적절한 필터뱅크 방법들은 Breebaart,J.,Faller,C.의"Spatial audio processing: MPEG Surround and other applications", Wiley, 2007에 기술된다. 이 방법들은 서브-대역 주파수 도메인으로의 변환을 제안한다.

실시예에서, 파워 파라미터들은 시간 도메인에서 나타낸 입력 채널 신호로부터 유도된다. 그 후, 입력 신호들(n=0...N)의 특정 세그먼트에 대한 파워들(P_l,P_r,및 P_x)은 다음으로서 표현된다:

시간 도메인에서 파워 계산의 수행의 이점은, 오디오 콘텐츠에 존재하는 소스들의 수가 적으면, 푸리에-기반 변환 또는 필터뱅크들에 비해 계산 노력이 상대적으로 낮다는 것이다. 그러면, 시간 도메인에서 파워 파라미터들의 유도는 계산 노력을 절약한다.

실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치(r)는, 사운드 스테이지의 좁히기, 넓히기 또는 회전 중 하나를 발생시키도록 수정된다. 확성기들의 -30...+30도 위치로 인한 확성기 설정의 60-도 제한을 극복하기 때문에 넓히기는 특히 관심을 끈다. 따라서, 이는, 60-도의 개구각에 의한 한정된 좁은 사운드 스테이지를 청취자에게 제공하는게 아니라, 청취자를 둘러싸는 몰입형 사운드 스테이지를 생성하는데 도움을 준다. 또한, 사운드 스테이지의 회전은, 헤드폰 재생 시스템의 사용자가 사용자의 머리 회전에 독립적인 고정된(안정되고 일정한) 위치들에서 사운드 소스들을 듣는 것을 가능하게 하기 때문에 관심을 끈다.

실시예들에서, 추정된 바람직한 위치에 대응하는 인지된 위치(r)는 다음과 같이 표현된 수정된 인지된 위치를 발생시키도록 변형될 수 있다:

여기서, h는 사운드 스테이지의 회전에 대응하는 오프셋이다. 소스 위치의 각도 표현은 헤드 이동, 구체적으로 청취자의 머리의 방위의 매우 쉬운 적분을 용이하게 하며, 이는 사운드 소스들이 머리 방위에 독립적으로 안정되고 일정한 위치들을 갖도록 사운드 위치들에 대응하는 각들에 오프셋을 적용함으로써 구현된다. 이러한 오프셋들의 결과로서, 다음의 이익들 즉, 보다 많은 머리를 벗어난(out of head) 사운드 소스 로컬리제이션, 개선된 사운드 소스 로컬리제이션 정확도, 전방/후방 혼란들의 감소, 보다 몰입적이고 자연스러운 청취 경험이 달성된다.

실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 다음과 같이 r'로 표현된 수정된 인지된 위치를 발생하도록 수정된다:

r'=cr

여기서, c는 사운드 스테이지의 넓히기 또는 좁히기에 대응하는 스케일 팩터이다. 스케일링의 이용은 매우 간단하고, 사운드 스테이지를 넓히는 매우 효율적인 방식이다.

실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 사용자 선호도에 응답하여 수정된다. 이는, 한 사용자(예를 들어, 사용자는 뮤지션 밴드들의 일원임)가 청취자 주위에 위치한 소스들로 완전한 몰입형 경험을 원하고, 다른 사람들은 전방으로부터 오는것으로서(예를 들어, 객석에 앉아서 거리를 두고 청취함) 사운드 스테이지를 인지하고자 하는 것일 발생할 수 있다.

실시예에서, 추정된 바람직한 위치에 대응하는 인지된 위치는 헤드-트랙킹 데이터에 응답하여 수정된다.

실시예에서, 입력 채널 신호는 시간/주파수 타일들로 분해된다. 주파수 대역들의 이용은 다수의 사운드 소스들이 보다 양호한 사운드 이미징을 발생시키는 보다 많은 타겟팅된 방식으로 처리되기 때문에 유리하다. 시간 단편화의 부가적인 이점은, 사운드 소스들의 우세는 보통, 예를 들어, 일부 소스들이 일부 시간동안 조용(quiet)하고 재차 활성이 되는 것과 같이 시간 의존적이라는 것이다. 주파수 대역들 외에 시간 세그먼트들의 사용은 입력 채널 신호들에 존재하는 개별적인 소스들의 보다 나은 제어를 제공한다.

실시예에서, 가상 소스의 합성은 머리-관련 전달 함수들, 또는 HRTFs(F.L. Wightman 및 D.J.Kistler의 Headphone simulation of free-field listening.I.Stimulus synthesis.J.Acoust.Soc.Am.,85:858-867,1989)를 이용하여 수행된다. 공간적 합성 단계는 바람직한 사운드 소스 위치(r'[b])(주파수 도메인에서의 산출이 가정됨)의 가상 사운드 소스로서 공통 컴포넌트(S[k])의 생성을 포함한다. r'[b]의 주파수-의존성에 주어지면, 이는 각 주파수 대역에 대해 독립적으로 수행된다. 따라서, 주파수 대역(b)에 대한 출력 신호(L'[k],R'[k])는 다음에 의해 제공된다.

H_L[k,ξ]는 공간적 위치(ξ)에서 좌측 귀에 대한 HRTF의 FFT 인덱스(k)이고, 인덱스들(L 및 R)은 좌측 및 우측 귀를 각각 어드레싱한다. 각(γ)(예를 들어, + 및 -90도일 수 있음)는 환경의 바람직한 공간적 위치를 나타내고, 헤드-트랙킹 정보에 또한 의존할 수 있다. 바람직하게는, HRTF들은 각 주파수 대역(b)내의 각 귀에 대한 일정한 복소수값으로서 파라메트릭 형태(parametric form)로 표현된다:

여기서, p_l[b]는 파라미터 대역(b)에서 좌측-귀 HRTF의 평균 크기값이고, p_r[b]는 파라미터 대역(b)에서 우측-귀 HRTF의 평균 크기값이고, Φ[b]는 주파수 대역(b)에서 p_l[b]과 p_l[b]간의 평균 위상차이다. 파라메트릭 도메인에서 HRTF 처리의 상세한 설명은 Breebaart.J.,Faller,C.의 "Spatial audio porcessing:MPEG Surround and other application", Wiley, 2007로부터 알려진다.

상기 합성 단계가 주파수 도메인의 신호들에 대해 설명되었지만, 합성은 머리-관련 임펄스 응답들의 콘볼루션(convolution)에 의해 시간 도메인에서 발생할 수도 있다. 마지막으로, 주파수-도메인 출력 신호들(L'[k],R'[k])은 예를 들어, 역 FFE들 또는 역 필터뱅크를 이용하여 시간 도메인으로 변환되고, 바이노럴 출력 신호들(binaural output signal)을 발생시키도록 오버랩-부가(overlap-add)에 의해 처리된다. 분석 윈도우(w[n])에 의존하여, 대응하는 합성 윈도우가 필요로 될 수 있다.

실시예에서, 가상 소스의 합성은 각 주파수 대역에 대해 독립적으로 수행된다. 주파수 대역들의 이용은 다수의 사운드 소스들이 보다 양호한 사운드 이미징을 발생시키는 보다 많은 타겟팅된 방식으로 처리되기 때문에 유리하다. 대역들의 처리의 다른 이점은 다수의 경우들에서(예를 들어, 푸리에-기반 변환들이 이용될 때) 대역에 존재하는 오디오 샘플들의 수가 입력 채널 신호들의 오디오 샘플들의 총 수보다 작다는 관찰에 기초한다. 각 대역이 다른 주파수 대역들에 독립적으로 처리되기 때문에, 총 필요로 되는 처리 파워는 낮아진다.

도 2는 대응하는 추정된 바람직한 위치를 갖는 공통 컴포넌트, 및 잔여 컴포넌트들을 유도하는 처리 수단(310), 및 추정된 바람직한 위치에서 공통 컴포넌트에 대응하는 주 가상 소스 및 미리 결정된 위치들에서 잔여 컴포넌트에 대응하는 추가의 가상 소스들을 합성하는 합성 수단(400)을 포함하는 헤드폰 재생 시스템(500)의 예를 개략적으로 도시한다.

처리 수단(310)은 상기 적어도 2개의 입력 채널 신호들(101)로부터의 입력 채널 신호들의 쌍에 대한 공통 컴포넌트 및 상기 공통 컴포넌트에 대응하는 추정된 바람직한 위치를 유도한다. 상기 공통 컴포넌트는 상기 적어도 2개의 입력 채널 신호들(101)의 상기 쌍의 공통 부분이다. 상기 처리 수단(310)은 상기 쌍에서 입력 채널 신호들의 각각에 대해 잔여 컴포넌트를 추가로 유도하고, 이에 의해, 상기 잔여 컴포넌트들 각각은 공통 컴포넌트의 기여를 차감함으로써 그 대응하는 입력 채널 신호로부터 유도된다. 상기 기여는 추정된 바람직한 위치에 관련된다. 301로 표시된 유도된 공통 컴포넌트, 및 잔여 컴포넌트들 및 302로 표시된 추정된 바람직한 위치는 합성 수단(400)에 통신된다.

합성 수단(400)은 상기 적어도 2개의 입력 채널 신호들로부터 입력 채널 신호들의 각 쌍에 대해, 추정된 바람직한 위치의 상기 공통 컴포넌트를 포함하는 주 가상 소스, 및 각각의 미리 결정된 위치들의 상기 잔여 컴포넌트들의 각각의 컴포넌트를 각각 포함하는 2개의 다른 가상 소스들을 합성한다. 상기 합성 수단은 머리-관련 전달 함수(=HRTF) 데이터베이스(420)를 포함하고, 이는 추정된 바람직한 위치(302)에 기초하여 처리 수단(310)으로부터 획득된 공통 컴포넌트, 및 잔여 컴포넌트들(301)로부터의 바이노럴 출력을 생성하기 위해, HRTF들을 적용하는 처리 유닛(410)에 추정된 바람직한 위치에 대응하는 HRTF들 및 미리 결정된 위치들에 대한 HRTF들에 의해 적절한 입력을 제공한다.

도 3은 추정된 바람직한 위치에 대응하는 인지된 위치를 수정하는 수정 수단(430)을 더 포함하는 헤드폰 재생 시스템의 예를 도시하고, 상기 수정 수단은 상기 처리 수단(310) 및 상기 합성 수단(400)에 동작 가능하게 결합된다. 상기 수단(430)은 공통 컴포넌트에 대응하는 추정된 바람직한 위치, 및 바람직한 변형에 관한 입력을 수신한다. 상기 바람직한 수정은, 예를 들어, 청취자의 위치 또는 그 머리 위치에 관련된다. 대안으로, 상기 수정은 바람직한 사운드 스테이지 수정에 관련된다. 상기 수정들의 효과는 사운드 장면의 회전 또는 넓히기(또는 좁히기)이다.

실시예에서, 수정 수단은 헤드-트랙커에 동작 가능하게 결합되어 헤드-트랙커 데이터를 획득하고, 이에 따라 추정된 바람직한 위치에 대응하는 인지된 위치의 수정이 수행된다. 이는 수정 수단(430)이 머리 움직임에 관한 정확한 데이터를 수신 가능하게 하고, 이에 따라 상기 움직임에 관한 정밀한 적응이 가능하다.

도 4는 입력 채널 신호가 처리 수단(310)에 공급되기 이전에 주파수 도메인으로 변환되고, 합성 수단(400)의 출력이 역 동작에 의해 시간 도메인으로 변환되는 헤드폰 재생 시스템의 예를 도시한다. 이 결과는, 가상 소스들의 합성이 각 주파수 대역들에 대해 독립적으로 수행된다는 것이다. 도 3에 도시된 재생 시스템은 처리 수단(310)에 앞선 유닛(320), 및 처리 유닛(400)에 후속하는 유닛(440)에 의해 확장된다. 상기 유닛(320)은 입력 채널 신호를 주파수 도메인의 변환을 수행한다. 상기 변환은 예를 들어, 필터뱅크들, 또는 FFT를 사용하여 실현된다. 다른 시간/주파수 변환들도 사용될 수 있다. 유닛(440)은 유닛(310)에 의해 수행된 것에 대한 역 동작을 수행한다.

상술한 실시예들은 본 발명을 제한하는 것이 아니라 예시하는 것이고, 당업자는 첨부된 청구범위의 범위로부터 벗어남 없이 다수의 대안 실시예들을 설계할 수 있을 것이란 점에 주의한다.

첨부된 청구범위에서, 괄호 사이에 위치한 임의의 도면 부호들은 청구범위를 제한하는 것으로서 해석되어선 안 된다. 단어'포함하는'은 청구범위에 나열된 것 이외의 소자들 또는 단계들의 존재를 배제하지 않는다. 구성요소의 단수 표현은 이러한 소자들의 복수의 존재를 배제하지 않는다. 본 발명은 몇 개의 독특한 소자들을 포함하는 하드웨어, 및 적절히 프로그래밍된 컴퓨터에 의해 구현될 수 있다.

101 : 입력 채널 신호들 120 : 주 가상 소스
131, 132 : 가상 소스들 310 : 처리 수단
400 : 합성 수단 500 : 헤드폰 재생 시스템
420 : 머리-관련 전달 함수(=HRTF) 데이터베이스

Claims

적어도 2개의 입력 채널 신호들의 헤드폰 재생 방법에 있어서,
상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해서:
공통 컴포넌트, 상기 공통 컴포넌트에 대응하는 추정되는 바람직한 위치, 및 입력 채널 신호들의 상기 쌍의 2개의 입력 채널 신호들에 대응하는 2개의 잔여 컴포넌트들을 결정하는 단계로서, 상기 입력 채널 신호들의 상기 쌍에 기초하고, 상기 잔여 컴포넌트들 각각은 상기 공통 컴포넌트의 기여(contribution)를 차감함으로써 그 대응하는 입력 채널 신호로부터 유도되고, 상기 기여는 상기 공통 컴포넌트의 상기 추정되는 바람직한 위치와 관련되는, 상기 결정 단계;
상기 추정되는 바람직한 위치에서 상기 공통 컴포넌트를 포함하는 주 가상 소스를 합성하는 단계; 및
각각의 미리 결정된 위치들에서 상기 잔여 컴포넌트들의 각 컴포넌트를 각각 포함하는 2개의 추가의 가상 소스들을 합성하는 단계를 포함하고,
상기 결정 단계는 상기 공통 컴포넌트에 대응하는 상기 추정되는 바람직한 위치를 추정하는 단계를 더 포함하는, 헤드폰 재생 방법.
제 1 항에 있어서,
상기 쌍의 입력 채널 신호들에 대한 상기 공통 컴포넌트의 상기 기여는 좌측으로서 인지된 입력 채널 신호에 대해 상기 추정되는 바람직한 위치의 코사인(cosine) 및 우측으로서 인지된 입력 채널 신호에 대해 상기 추정되는 바람직한 위치의 사인(sine)에 의해 표현되는, 헤드폰 재생 방법.
제 1 항 또는 제 2 항에 있어서,
상기 공통 컴포넌트 및 상기 대응하는 잔여 컴포넌트는 상기 공통 컴포넌트가 결정되는 입력 채널 신호들 간의 상관에 의존하는, 헤드폰 재생 방법.
제 1 항 또는 제 2 항에 있어서,
상기 공통 컴포넌트 및 상기 대응하는 잔여 컴포넌트는 상기 대응하는 입력 채널 신호의 파워 파라미터들에 의존하는, 헤드폰 재생 방법.
제 1 항 또는 제 2 항에 있어서,
상기 공통 컴포넌트에 대응하는 상기 추정되는 바람직한 위치는 상기 공통 컴포넌트가 결정되는 입력 채널 신호들간의 상관에 의존하는, 헤드폰 재생 방법.
제 1 항 또는 제 2 항에 있어서,
상기 공통 컴포넌트에 대응하는 상기 추정되는 바람직한 위치는 상기 대응하는 입력 채널 신호의 파워 파라미터들에 의존하는, 헤드폰 재생 방법.
제 4 항에 있어서,
입력 채널 신호의 쌍에 대해, 상기 파워 파라미터들은 좌측 채널 파워(P_l), 우측 채널 파워(P_r), 및 크로스-파워(P_x)를 포함하는, 헤드폰 재생 방법.
제 7 항에 있어서,
상기 공통 컴포넌트에 대응하는 상기 추정되는 바람직한 위치(υ)는:

이고,

,헤드폰 재생 방법.
제 8 항에 있어서,
상기 추정되는 바람직한 위치는 2개의 가상 스피커 위치들에 대응하는 2개의 미리 결정된 위치들 사이에 공간적 위치를 나타내고, 범위 υ=0...90은 인지된 위치각에 대해 범위 r=-30...30에 매핑하는, 헤드폰 재생 방법.
제 9 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치각은
에 따라 유도되는, 헤드폰 재생 방법.
제 7 항에 있어서,
상기 파워 파라미터들은 주파수 도메인으로 변환된 상기 입력 채널 신호로부터 유도되는, 헤드폰 재생 방법.
제 11 항에 있어서,
상기 입력 채널 신호는 푸리에-기반 변환을 이용하여 상기 주파수 도메인으로 변환되는, 헤드폰 재생 방법.
제 11 항에 있어서,
상기 입력 채널 신호는 필터 뱅크(filter bank)를 이용하여 상기 주파수 도메인으로 변환되는, 헤드폰 재생 방법.
제 7 항에 있어서,
상기 파워 파라미터들은 시간 도메인으로 표현된 상기 입력 채널 신호로부터 유도되는, 헤드폰 재생 방법.
제 1 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 인지된 위치(r)는 사운드 스테이지의 좁히기(narrowing), 넓히기(widening), 또는 회전 중 하나를 발생시키도록 수정되는, 헤드폰 재생 방법.
제 15 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치(r)는
로서 표현된 수정된 인지된 위치를 발생시키도록 수정되고, h는 상기 사운드 스테이지의 회전에 대응하는 오프셋인, 헤드폰 재생 방법.
제 15 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치는 r'=cr로서 표현된 수정된 인지된 위치(r')를 발생시키도록 수정되고, c는 상기 사운드 스테이지의 넓히기 또는 좁히기에 대응하는 스케일 팩터인, 헤드폰 재생 방법.
제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치는 사용자 선호도들에 응답하여 수정되는, 헤드폰 재생 방법.
제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치는 헤드-트랙커 데이터(head-tracker data)에 응답하여 수정되는, 헤드폰 재생 방법.
제 1 항에 있어서,
상기 입력 채널 신호는 시간/주파수 타일들로 분해되는, 헤드폰 재생 방법.
제 1 항에 있어서,
가상 소스의 합성은 머리-관련 전달 함수들을 이용하여 수행되는, 헤드폰 재생 방법.
제 21 항에 있어서,
상기 가상 소스의 합성은 각 주파수 대역에 대해 독립적으로 수행되는, 헤드폰 재생 방법.
적어도 2개의 입력 채널 신호들의 재생을 위한 헤드폰 재생 시스템에 있어서,
상기 적어도 2개의 입력 채널 신호들로부터의 입력 채널 신호들의 각 쌍에 대해, 공통 컴포넌트, 상기 공통 컴포넌트에 대응하는 추정되는 바람직한 위치, 및 상기 입력 채널 신호들의 쌍의 2개의 입력 채널 신호들에 대응하는 2개의 잔여 컴포넌트들을 결정하는 처리 수단으로서, 상기 결정은 상기 입력 채널 신호들의 상기 쌍에 기초하고, 상기 잔여 컴포넌트들 각각은 상기 공통 컴포넌트의 기여를 차감함으로써 그 대응하는 입력 채널 신호로부터 유도되고, 상기 기여는 상기 공통 컴포넌트의 상기 추정되는 바람직한 위치와 관련되는, 상기 처리 수단; 및
상기 추정되는 바람직한 위치에서 상기 공통 컴포넌트를 포함하는 주 가상 소스, 및 각각의 미리 결정된 위치들에서 상기 잔여 컴포넌트들의 각 컴포넌트를 각각 포함하는 2개의 추가의 가상 소스들을 합성하는 합성 수단을 포함하고,
상기 처리 수단은 상기 공통 컴포넌트에 대응하는 상기 추정되는 바람직한 위치를 추정하는, 헤드폰 재생 시스템.
제 23 항에 있어서,
상기 헤드폰 재생 시스템은 상기 추정되는 바람직한 위치에 대응하는 인지된 위치를 수정하는 수정 수단을 추가로 포함하고, 상기 수정 수단은 상기 처리 수단 및 상기 합성 수단에 동작 가능하게 결합되는, 헤드폰 재생 시스템.
제 24 항에 있어서,
상기 수정 수단은 헤드-트랙커에 동작 가능하게 결합되어 헤드-트랙커 데이터를 획득하고, 이에 따라 상기 추정되는 바람직한 위치에 대응하는 상기 인지된 위치의 수정이 수행되는, 헤드폰 재생 시스템.
제 23 항에 있어서,
상기 입력 채널 신호는 상기 처리 수단에 공급되기 이전에 주파수 도메인으로 변환되고, 상기 합성 수단의 출력이 역 동작(inverse operation)에 의해 시간 도메인으로 변환되는, 헤드폰 재생 시스템.
제 1 항, 제 2 항, 제 15 항 내지 제 17 항, 제 20 항, 제 21 항, 또는 제 22 항 중 어느 한 항에 따른 방법을 실행하는 컴퓨터 프로그램을 기록한 컴퓨터-판독가능 기록 매체.