KR101828138B1

KR101828138B1 - 상이한 재생 라우드스피커 셋업에 대한 공간 오디오 신호의 세그먼트-와이즈 조정

Info

Publication number: KR101828138B1
Application number: KR1020157015637A
Authority: KR
Inventors: 알렌산더 아다미; 위르겐 헤레; 아킴 컨츠; 지오반니 델 갈도; 파비앙 쿠츠
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.; 테크니쉐 유니베르시타트 일메나우
Priority date: 2012-11-15
Filing date: 2013-11-11
Publication date: 2018-02-09
Also published as: BR112015010995B1; JP2016501472A; US20150248891A1; BR112015010995A2; EP2920982A1; CN104919822B; EP2733964A1; MX346013B; CA2891739C; EP2920982B1; ES2659179T3; CN104919822A; RU2625953C2; WO2014076030A1; US9805726B2; RU2015122676A; KR20150100656A; US20170069330A9; JP6047240B2; CA2891739A1

Abstract

본래의 라우드스피커 셋업에 대한 공간 오디오 신호(2)를, 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 적응시키기 위한 장치(100)가 설명된다. 장치는, 본래의 라우드스피커 셋업의 세그먼트 내의 채널 신호들을 다이렉트 사운드(D) 및 앰비언스 컴포넌트들(A)로 분해하고, 다이렉트 사운드 컴포넌트들의 도달 방향을 결정하도록 구성된 다이렉트-앰비언스 분해기(130)를 포함한다. 다이렉트 사운드 렌더러(150)는, 재생 라우드스피커 셋업 정보를 수신하며, 재생 라우드스피커 셋업 내의 다이렉트 사운드 컴포넌트들의 인지된 도달 방향이 다이렉트 사운드 컴포넌트들의 도달 방향과 실질적으로 동일하도록 재생 라우드스피커 셋업 정보를 사용하여 다이렉트 사운드 컴포넌트들(D)을 조정한다. 결합기(180)는, 재생 라우드스피커 셋업의 라우드스피커들에 대한 라우드스피커 신호들을 획득하기 위해, 조정된 다이렉트 사운드 컴포넌트들 및 가급적 변경된 앰비언스 컴포넌트들을 결합한다.

Description

상이한 재생 라우드스피커 셋업에 대한 공간 오디오 신호의 세그먼트-와이즈 조정{Segment-wise Adjustment of Spatial Audio Signal to Different Playback Loudspeaker Setup}

본 발명은 일반적으로 공간 오디오 신호 프로세싱에 관한 것으로, 더 상세하게는, 본래의 재생 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 본래의 라우드스피커 셋업에 대해 의도된 공간 오디오 신호를 적응시키기 위한 장치 및 방법에 관한 것이다. 본 발명의 추가적인 실시예들은, 플렉시블(flexible) 고품질 멀티-채널 사운드 장면(scene) 변환에 관한 것이다.

현대의 오디오 재생 시스템의 요건들은 수년 동안 변해왔다. 단일 채널(모노)로부터 듀얼 채널(스테레오)로 5.1- 및 7.1 서라운드 또는 심지어 음장 합성(wave field synthesis)과 같은 멀티-채널 시스템들까지, 사용된 라우드스피커 채널들의 수가 증가되어 왔다. 심지어 고가의(elevated) 스피커들을 갖는 시스템들이 현대의 영화관들에서도 관측될 것이다. 이것은, 가능한 실제 오디오 장면과 근접하게 도래하는 현실감, 몰입 및 엔빌로프먼트(envelopment)에 대해, 레코딩된 또는 인공적으로 생성된 오디오 장면의 오디오 경험을 청취자에게 제공하는 것을 목적으로 하거나, 대안적으로는 사운드 엔지니어의 의도들을 최상으로 반영한다(예를 들어, M. Morimoto, "The Role of Rear Loudspeakers in Spatial Impression", in 103rd Convention of the AES, 1997; D. Griesinger, "Spaciousness and Envelopment in Musical Acoustics", in 101st Convention of the AES, 1996; K. Hamasaki, K. Hiyama, and R. Okumura, "The 22.2 Multichannel Sound System and Its Application", in 118th Con-vention of the AES, 2005 참조). 그러나, 복수의 이용가능한 사운드 시스템들로 인하여, 사용된 스피커들의 수 및 그들의 권장된 포지셔닝에 대한 적어도 2개의 결점들이 존재하며, 이들 모든 시스템들 사이에 어떠한 일반적인 호환성도 존재하지 않는다. 또한, 권장된 라우드스피커 포지셔닝으로부터의 임의의 편차는, 손상된 오디오 장면을 초래하며, 따라서, 청취자의 공간 오디오 경험을 감소시키고, 그에 따라 공간 품질을 감소시킨다.

실제 세계의 애플케이션에서, 멀티-채널 재생 시스템들은 종종, 라우드스피커 포지셔닝에 대해 정확하게 구성되지는 않는다. 잘못된 포지셔닝으로부터 초래할 오디오 장면의 본래의 공간 이미지를 왜곡시키지 않기 위해, 이들 셋업 미스매치들을 보상할 수 있는 플렉시블 고품질 시스템이 필요하다. 최신의 접근법들은 종종, 예를 들어, 주파수 대역 및 시간 인스턴트(instant) 당 1개 초과의 다이렉트 소스(direct source)가 나타나는 복합체(complex) 및 아마도 인공적으로-생성된 사운드 장면을 설명하기 위한 능력이 부족하다.

따라서, 본래의 라우드스피커 셋업, 즉, 공간 오디오 신호의 오디오 콘텐츠가 본래 생성되었던 라우드스피커 셋업으로부터 재생 라우드스피커 셋업이 벗어나더라도, 오디오 장면의 공간 이미지가 실질적으로 동일하게 유지되도록, 공간 오디오 신호를 적응시키기 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.

이러한 목적은, 청구항 제 1 항에 따른 장치, 청구항 제 14 항에 따른 방법, 또는 청구항 제 15 항에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명의 일 실시예에 따르면, 본래의 라우드스피커 셋업에 대한 공간 오디오 신호를 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 적응시키기 위한 장치가 제공된다. 공간 오디오 신호는 복수의 채널 신호들을 포함한다. 장치는, 적어도 2개의 채널 신호들을 세그먼트로 그룹화하도록 구성된 그룹화기를 포함한다. 장치는 또한, 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트 및 적어도 하나의 앰비언스 컴포넌트로 분해하도록 구성된 다이렉트-앰비언스(direct-ambience) 분해기(decomposer)를 포함한다. 다이렉트-앰비언스 분해기는, 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향을 결정하도록 추가적으로 구성될 수도 있다. 장치는 또한, 세그먼트와 연관된 적어도 하나의 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 수신하며, 어떠한 조정도 발생하지 않는 상황과 비교하여, 재생 라우드스피커 셋업 내의 적어도 하나의 다이렉트 사운드 컴포넌트의 인지된 도달 방향이 세그먼트의 도달 방향과 동일하거나, 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하도록, 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 적어도 하나의 다이렉트 사운드 컴포넌트를 조정하도록 구성된 다이렉트 사운드 렌더러를 포함한다. 또한, 장치는, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들을 획득하기 위해, 조정된 다이렉트 사운드 컴포넌트들과 앰비언스 컴포넌트들 또는 변경된 앰비언스 컴포넌트들을 결합시키도록 구성된 결합기를 포함한다.

본 발명의 기반이 되는 기본적인 아이디어는, 이웃한 라우드스피커 채널들을 세그먼트들(예를 들어, 원형 섹터들, 실린더형 섹터들, 또는 구형(spherical) 섹터들)로 그룹화하고, 각각의 세그먼트 신호를 대응하는 다이렉트 및 앰비언스 신호 부분들로 분해시키는 것이다. 다이렉트 신호들은 각각의 세그먼트 내에 팬텀(phantom) 소스 포지션(또는 수 개의 팬텀 소스 포지션들)을 유도하지만, 앰비언스 신호들은 산란(diffuse) 사운드에 대응하고 청취자의 엔빌로프먼트를 담당한다. 렌더링 프로세스 동안, 다이렉트 컴포넌트들은, 실제 재생 라우드스피커 셋업에 피트(fit)하고 소스들의 본래의 로컬화를 보존하기 위하여 팬텀 소스 포지션들에 의해 리매핑(remap), 가중 및 조정된다. 앰비언스 컴포넌트들은, 변경된 청취 셋업에서 동일한 양의 엔빌로프먼트를 생성하기 위해 리매핑 및 가중된다. 프로세싱의 적어도 몇몇은 시간-주파수 빈 기반으로 수행될 수도 있다. 이러한 방법을 이용하면, 심지어 출력 셋업에서의 증가된 또는 감소된 수의 라우드스피커들도 핸들링될 수 있다.

본래의 라우드스피커 셋업의 세그먼트는 또한, 다음의 설명에서의 더 용이한 참조를 위해 "본래의 세그먼트"로 지칭될 수도 있다. 유사하게, 재생 라우드스피커 셋업의 세그먼트는 또한, "재생 세그먼트"로 지칭될 수도 있다. 세그먼트는 통상적으로, 2개 또는 그 초과의 라우드스피커들 및 청취자의 포지션에 의해 퍼져있거나 경계가 정해지며(delimit), 즉 세그먼트는 통상적으로, 2개 또는 그 초과의 라우드스피커들 및 청취자에 의해 경계가 정해지는 공간에 대응한다. 주어진 라우드스피커는 2개 또는 그 초과의 세그먼트들에 할당될 수도 있다. 2차원 라우드스피커 셋업에서, 특정한 라우드스피커는 통상적으로, "좌측" 세그먼트 및 "우측" 세그먼트에 할당되며, 즉 라우드스피커는, 좌측 및 우측 세그먼트들로 사운드를 주로 방출한다. 그룹화기(또는 그룹화 엘리먼트)는 주어진 세그먼트와 연관되는 그들 채널 신호들을 수집하도록 구성된다. 각각의 채널 신호가 2개 또는 그 초과의 채널들에 할당될 수도 있으므로, 그 신호는 그룹화기 또는 수 개의 그룹화기들에 의해 이들 2개 또는 그 초과의 세그먼트들로 분배될 수도 있다.

다이렉트-앰비언스 분해기는, 각각의 채널에 대한 다이렉트 사운드 컴포넌트들 및 앰비언스 컴포넌트들을 결정하도록 구성될 수도 있다. 대안적으로, 다이렉트-앰비언스 분해기는, 세그먼트 당 단일 다이렉트 사운드 컴포넌트 및 단일 앰비언스 컴포넌트를 결정하도록 구성될 수도 있다. 도달 방향(들)은 적어도 2개의 채널 신호들을 분석(예를 들어, 교차-상관(cross-correlating))함으로써 결정될 수도 있다. 대안으로서, 도달 방향(들)은, 장치의 추가적인 컴포넌트 또는 외부 엔티티로부터 다이렉트-앰비언스 분해기로 제공되는 정보에 기초하여 결정될 수도 있다.

다이렉트 사운드 렌더러는 통상적으로, 본래의 라우드스피커 셋업과 재생 라우드스피커 셋업 사이의 차이가 본래의 라우드스피커 셋업의 현재 고려된 세그먼트에 얼마나 영향을 주는지, 그리고 상기 세그먼트 내에서 다이렉트 사운드 컴포넌트들의 인식을 유지하기 위해 어떤 방책(measure)들이 취해져야 하는지를 고려할 수도 있다. 이들 방책들은 다음(비-포괄적인 리스트)을 포함할 수도 있다:

- 상기 세그먼트의 라우드스피커들 중에서 다이렉트 사운드 컴포넌트의 진폭 가중을 변경시키는 것;

- 상기 세그먼트의 라우드스피커들에 대한 라우드스피커-특정 다이렉트 사운드 컴포넌트들 사이의 위상 관계 및/또는 지연 관계를 변경시키는 것;

- 재생 라우드스피커 셋업 내의 더 양호하게 적합한 라우드스피커의 이용가능성으로 인해 특정한 라우드스피커로부터 상기 세그먼트에 대한 다이렉트 사운드 컴포넌트를 제거하는 것;

- 현재의 고려된 세그먼트의 라우드스피커가 본래의 라우드스피커 셋업 내의 이웃한 세그먼트에 대한 다이렉트 사운드 컴포넌트를 재생하기에 더 양호하게 적합하기 때문에(예를 들어, 본래의 라우드스피커 셋업으로부터 재생 라우드스피커 셋업으로 전달하는 경우, 팬텀 소스에 대한 도달 방향을 교차하는 세그먼트 경계로 인해), 상기 다이렉트 사운드 컴포넌트를 상기 라우드스피커에 적용하는 것;

- 재생 라우드스피커 셋업에서는 이용가능하지만 본래의 라우드스피커 셋업에서는 이용가능하지 않은 부가된 라우드스피커(부가적인 라우드스피커)에 다이렉트 사운드 컴포넌트를 적용하는 것;

- 후술되는 바와 같은 가능한 추가적인 방책들.

다이렉트-사운드 렌더러는 복수의 세그먼트 렌더러들을 포함할 수도 있으며, 각각의 세그먼트 렌더러는 하나의 세그먼트의 채널 신호들의 프로세싱을 수행한다.

결합기는, 현재 고려된 세그먼트에 대하여 하나 또는 그 초과의 이웃한 세그먼트들에 대한 다이렉트 사운드 렌더러(또는 추가적인 다이렉트 사운드 렌더러)에 의해 생성되는 조정된 다이렉트 사운드 컴포넌트들, 앰비언스 컴포넌트들, 및/또는 변경된 앰비언스 컴포넌트들을 결합시킬 수도 있다. 몇몇 실시예들에 따르면, 앰비언스 컴포넌트들은, 다이렉트-앰비언스 분해기에 의해 결정된 적어도 하나의 앰비언스 컴포넌트와 실질적으로 동일할 수도 있다. 대안적인 실시예들에 따르면, 변경된 앰비언스 컴포넌트들은, 본래의 세그먼트와 재생 세그먼트 사이의 차이를 고려하여 다이렉트-앰비언스 분해기에 의해 결정된 앰비언스 컴포넌트들을 기반으로 결정될 수도 있다.

추가적인 실시예에 따르면, 재생 라우드스피커 셋업은 세그먼트 내에 부가적인 라우드스피커를 포함할 수도 있다. 따라서, 본래의 라우드스피커 셋업의 세그먼트는, 재생 라우드스피커 세그먼트의 2개 또는 그 초과의 세그먼트들에 대응하며, 즉, 본래의 라우드스피커 셋업 내의 본래의 세그먼트는 재생 라우드스피커 셋업 내의 2개 또는 그 초과의 재생 세그먼트들로 분할된다. 다이렉트 사운드 렌더러는, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들 및 부가적인 라우드스피커에 대한 조정된 다이렉트 사운드 컴포넌트들을 생성하도록 구성될 수도 있다.

반대의 경우가 또한 가능하며, 추가적인 실시예에 따르면, 재생 라우드스피커 셋업은 본래의 라우드스피커 셋업과 비교하여 라우드스피커가 부족할 수도 있어서, 본래의 라우드스피커 셋업의 세그먼트 및 이웃한 세그먼트는 재생 라우드스피커 셋업의 하나의 병합된 세그먼트로 병합된다. 그 후, 다이렉트 사운드 렌더러는, 재생 라우드스피커 셋업의 병합된 세그먼트의 적어도 2개의 나머지 라우드스피커들에, 재생 라우드스피커 셋업에서 부족한 라우드스피커에 대응하는 채널 신호의 조정된 다이렉트 사운드 컴포넌트들을 분배하도록 구성될 수도 있다. 본래의 라우드스피커 셋업에는 존재하지만 재생 라우드스피커 셋업에는 존재하지 않는 라우드스피커는 또한 "부족한 라우드스피커"로 지칭될 수도 있다.

추가적인 실시예들에 따르면, 다이렉트 사운드 렌더러는, 본래의 라우드스피커 셋업으로부터 재생 라우드스피커 셋업으로 전달되는 경우, 세그먼트와 이웃한 세그먼트 사이의 경계가 결정된 도달 방향을 벗어나거나 교차하면, 본래의 라우드스피커 셋업 내의 세그먼트로부터 재생 라우드스피커 셋업 내의 이웃한 세그먼트로의 결정된 도달 방향을 갖는 다이렉트 사운드 컴포넌트를 재할당하도록 구성될 수도 있다.

추가적인 실시예들에 따르면, 다이렉트 사운드 렌더러는, 적어도 하나의 제 1 라우드스피커로부터 적어도 하나의 제 2 라우드스피커로의 결정된 도달 방향을 갖는 다이렉트 사운드 컴포넌트를 재할당하도록 추가적으로 구성될 수도 있으며, 적어도 하나의 제 1 라우드스피커는 재생 라우드스피커 셋업 내의 이웃한 세그먼트가 아니라 본래의 라우드스피커 셋업 내의 세그먼트에 할당되고, 적어도 하나의 제 2 라우드스피커는 재생 라우드스피커 셋업 내의 이웃한 세그먼트에 할당된다.

추가적인 실시예들에 따르면, 다이렉트 사운드 렌더러는, 재생 라우드스피커 셋업의 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들에 대한 라우드스피커-세그먼트-특정 다이렉트 사운드 컴포넌트들을 생성하도록 구성될 수도 있으며, 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들은 재생 라우드스피커 셋업 내의 동일한 라우드스피커 및 2개의 이웃한 세그먼트들을 지칭한다. 결합기는, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들 중 하나를 획득하기 위해, 동일한 라우드스피커를 지칭하는 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들에 대한 라우드스피커-세그먼트-특정 다이렉트 사운드 컴포넌트들을 결합시키도록 구성될 수도 있다. 유효한 라우드스피커-세그먼트 쌍들은, 라우드스피커 및 이러한 라우드스피커가 할당되는 세그먼트들 중 하나를 지칭한다. (통상적으로 그 경우인 것과 같이) 라우드스피커가 추가적인 세그먼트들에 할당되면, 라우드스피커는 추가적인 유효한 라우드스피커-세그먼트 쌍들의 일부일 수도 있다. 유사하게, 세그먼트는 추가적인 유효한 라우드스피커-세그먼트 쌍들의 일부일 수도 있다(그리고 통상적으로는 일부이다). 다이렉트 사운드 렌더러는, 각각의 라우드스피커의 이러한 양면성(ambivalence)을 고려하며, 라우드스피커에 대한 세그먼트-특정 다이렉트 사운드 컴포넌트들을 제공하도록 구성될 수도 있다. 결합기는, 재생 라우드스피커 셋업의 특정한 라우드스피커가 할당되는 다양한 세그먼트들로부터의 이러한 특정한 라우드스피커에 대해 의도된 상이한 세그먼트-특정 다이렉트 사운드 컴포넌트들(그리고 가급적, 경우에 따라서는 또한 세그먼트-특정 앰비언스 컴포넌트들)을 수집하도록 구성될 수도 있다. 재생 라우드스피커 셋업 내의 라우드스피커의 부가 또는 제거가 유효한 라우드스피커-세그먼트 쌍들에 영향을 줄 수도 있음을 유의한다. 라우드스피커의 부가는 통상적으로, 영향받은 라우드스피커들이 재생 라우드스피커 셋업 내의 새로운 세그먼트들에 할당되도록, 본래의 세그먼트를 적어도 2개의 재생 세그먼트들로 분할한다. 라우드스피커의 제거는, 하나의 재생 세그먼트에 병합되는 2개 또는 그 초과의 본래의 세그먼트들, 및 유효한 라우드스피커-세그먼트 쌍들에 대한 대응하는 영향을 초래할 수도 있다.

본 발명의 추가적인 실시예들은, 본래의 라우드스피커 셋업에 대해 의도된 공간 오디오 신호를 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 적응시키기 위한 방법을 제공한다. 공간 오디오 신호는 복수의 채널들을 포함한다. 방법은, 적어도 2개의 채널 신호들을 세그먼트로 그룹화하는 단계, 및 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트 및 적어도 하나의 앰비언스 컴포넌트로 분해하는 단계를 포함한다. 방법은, 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향을 결정하는 단계를 더 포함한다. 방법은 또한, 재생 라우드스피커 셋업 내의 다이렉트 사운드 컴포넌트의 인지된 도달 방향이 세그먼트의 도달 방향과 실질적으로 동일하도록, 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 적어도 하나의 다이렉트 사운드 컴포넌트를 조정하는 단계를 포함한다. 적어도, 적어도 하나의 다이렉트 사운드 컴포넌트의 인지된 도달 방향은, 어떠한 조정도 발생하지 않는 상황과 비교하여 세그먼트의 도달 방향에 더 근접하다. 방법은, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들을 획득하기 위해, 조정된 다이렉트 사운드 컴포넌트들 및 앰비언스 컴포넌트들 또는 변경된 앰비언스 컴포넌트들을 결합시키는 단계를 더 포함한다.

다음으로, 본 발명의 실시예들은 첨부한 도면들을 참조하여 설명될 것이다.

도 1은 가능한 애플리케이션 시나리오의 개략적인 블록도를 도시한다.
도 2는 공간 오디오 신호를 조정하기 위한 장치 및 방법의 시스템 개관의 개략적인 블록도를 도시한다.
도 3은, 이동/변위(displace)된 하나의 라우드스피커를 갖는 변경된 라우드스피커 셋업에 대한 일 예의 개략적인 도면을 도시한다.
도 4는 증가된 수의 라우드스피커들을 갖는 다른 변경된 라우드스피커 셋업에 대한 일 예의 개략적인 도면을 도시한다.
도 5는 감소된 수의 라우드스피커들을 갖는 다른 변경된 라우드스피커 셋업에 대한 일 예의 개략적인 도면을 도시한다.
도 6a 및 도 6b는 변위된 라우드스피커들을 갖는 추가적인 변경된 라우드스피커 셋업들에 대한 예들의 개략적인 도면들을 도시한다.
도 7은 공간 오디오 신호를 조정하기 위한 장치의 개략적인 블록도를 도시한다.
도 8은 공간 오디오 신호를 조정하기 위한 방법의 개략적인 흐름도를 도시한다.

도면들을 사용하여 본 발명을 더 상세히 설명하기 전에, 도면들에서, 동일한 엘리먼트들, 즉 동일한 기능 또는 동일한 효과를 갖는 엘리먼트들이 동일한 또는 유사한 참조 부호들을 제공받아서, 상이한 실시예들에 도시된 이들 엘리먼트들 및 그들의 기능의 설명이 상호 교환가능하거나 상이한 실시예들에서 서로 적용될 수도 있다는 것이 지적된다.

공간 오디오 신호를 조정하기 위한 몇몇 방법들은, 복합 사운드 장면, 특히 글로벌 물리적인 가정들에 기초하거나(예를 들어, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007 and V. Pulkki and J. Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats", 미국 특허 출원 공개공보 제 US 2008/0232616 A1 참조), 전체 오디오 장면에서 주파수 대역 당 하나의 로케이팅가능한(다이렉트) 컴포넌트로 제한되는(예를 들어, M. Goodwin and J.-M. Jot, "Spatial Audio Scene Coding", in 125th Convention of the AES, 2008 and J. Thompson, B. Smith, A. Warner, and J.-M .Jot, "Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations", in 133rd Convention of the AES 2012, October 2012 참조) 것들을 핸들링하기에 충분히 플렉시블하지 않다. 하나의 평면파 또는 다이렉트 컴포넌트 가정은 몇몇 특수한 시나리오들에서는 충분할 수도 있지만, 일반적으로, 수 개의 활성 소스들을 갖는 복합 오디오 장면을 한번에 캡쳐하는 것은 가능하지 않다. 이것은 재생 동안 공간 왜곡 및 불안정한 소스 또는 심지어 소스를 점프하는 것을 초래한다.

가상 스피커들로서 출력 셋업과 매칭하지 않는 입력-셋업 라우드스피커들을 모델링하는 시스템들이 존재한다(전체 라우드스피커 신호는 이웃한 스피커들에 의해 라우드스피커의 의도된 포지션으로 패닝(pan)된다)(A. Ando, "Conversion of Multichannel Sound Sig-nal Maintaining Physical Properties of Sound in Reproduced Sound Field", IEEE Transac-tions on Audio, Speech, and Language Processing, vol. 19, no. 6, pp. 1467-1475, 2011). 이것은 또한, 그 스피커 채널들이 기여하는 팬텀 소스들의 공간 왜곡을 초래할 수도 있다. A. Laborie, R. Bruno, and S. Montoya in "Re-producing Multichannel Sound on any Speaker Layout", 118th Convention of the AES, 2005에 의해 언급된 접근법은, 사용자가 먼저 자신의 라우드스피커들을 교정하고 그 후, 계산 집약적인 신호 변환으로부터 그 셋업에 대한 신호들을 렌더링하게 할 필요가 있다.

또한, 고품질 시스템은 파형-보존적이어야 한다. 입력 채널들이 입력 셋업과 동일한 라우드스피커 셋업으로 렌더링되는 경우, 파형은 현저하게 변하지 않아야 하며, 그렇지 않으면, 정보는 손실되게 되고, 이는 가청 아티팩트들을 초래할 수 있고, 공간 및 오디오 품질을 감소시킨다. 여기서, 오브젝트-기반 방법들은, 오브젝트 추출 동안 도입되는 부가적인 혼선(crosstalk)으로부터 어려움을 겪을 수도 있다(F.Melchior, "Vor-richtung zum Verandern einer Audio-Szene und Vorrichtung zum Erzeugen einer Rich-tungsfunktion", 독일 특허 출원 제 DE 10 2010 030 534 A1, 2011). 글로벌 물리적인 가정들은 또한 상이한 파형들을 초래한다(예를 들어, M. Goodwin and J.-M. Jot, "Spatial Audio Scene Coding", in 125th Convention of the AES, 2008; V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007; 및 V. Pulkki and J. Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats", 미국 특허 출원 공개공보 제 US 2008/0232616 A1 참조).

멀티 채널 패너(panner)는 오디오 장면 내의 몇몇 장소에 팬텀 소스를 배치시키는데 사용될 수도 있다. Eppolito, Pulkki, 및 Blauert에 의해 언급된 알고리즘들은, 소스가 패닝되었고 소스가 인지되는 공간 위치에서 심각한 부정확도들을 야기할 수도 있는 비교적 간단한 가정들에 기초한다(A. Eppolito, "Multi-Channel Sound Panner", 미국 특허 출원 공개공보 제 US 2012/0170758 A1; V.Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997; 및 J. Blauert, "Spatial hearing: The psychophysics of human sound localization", 3rd ed. Cambridge and Mass: MIT Press, 2001, section 2.2.2).

앰비언스 추출 업믹스(upmix) 방법들은, 특정한 양의 엔빌로프먼트를 생성하기 위해, 앰비언트 신호 부분들을 추출하고, 부가적인 스피커들 중에 그들을 분배시키도록 설계된다(J. S. Usher and J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverbera-tion-Extraction Audio Upmixer", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 7, pp. 2141-2150, 2007; C. Faller, "Multiple-Loudspeaker Play-back of Stereo Signals", J. Audio Eng. Soc, vol. 54, no. 11, pp. 1051-1064, 2006; C. Avendano and J.-M. Jot, "Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix", in Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, vol. 2, 2002, pp. II-1957 - II 1960; 및 R. Irwan and R. M. Aarts, "Two-to-Five Channel Sound Processing", J. Audio Eng. Soc, vol. 50, no. 11, pp. 914-926, 2002). 추출은 단지 하나 또는 2개의 채널들만에 기초하며, 이것은, 결과적인 오디오 장면이 더 이상 본래의 장면의 정확한 이미지가 아니라는 이유, 및 이들이 본 발명의 목적들에 유용한 접근법들이 아니라는 이유이다. 이것은 또한, Dressler in "Dolby Surround Pro Logic II Decoder Principles of Operation"(온라인으로 입수가능하며, 어드레스는 아래에 표시됨)에 의해 설명된 바와 같은 매트릭싱(matrixing) 접근법들에 참이다. Vickers in 미국 특허 출원 공개공보 제 US 2010/0296672 A1 "Two-to-Three Channel Upmix for Center Channel Derivation"에 의해 언급된 2-투-3 업믹스 접근법은, 제 3 스피커의 포지션 및 다른 2개의 스피커들 중에서의 결과적인 신호 분배에 대한 몇몇 종래의 정보를 이용하며, 따라서, 삽입된 스피커의 임의의 포지션에 대한 정확한 신호들을 생성하기 위한 능력이 부족하다.

본 발명의 실시예들은, 적절한 스피커들을 세그먼트들로 그룹화하고 업믹스, 다운믹스 및/또는 변위 조정 프로세싱을 적용함으로써, 라우드스피커 셋업이 본래의 셋업을 벗어나는 재생 환경에서 본래의 오디오 장면을 보존할 수 있는 시스템을 제공하는 것을 목적으로 한다. 일반적인 오디오 코덱에 대한 포스트 프로세싱 스테이지가 가능한 애플리케이션 시나리오일 수 있다. 그러한 경우가 도 1에 도시되며, 여기서,

및

은 각각, 본래의 및 변경된/변위된 라우드스피커 셋업에서 라우드스피커들의 수 및 극좌표들에서의 그들의 대응하는 포지션들이다. 그러나, 일반적으로, 제안된 방법은 포스트 프로세싱 툴로서 임의의 오디오 신호 체인에 적용가능하지 않다. 실시예들에서, 라우드스피커 셋업(본래의 및/또는 재생 라우드스피커 셋업)의 세그먼트들 각각은, 2차원(2D) 평면 또는 3차원(3D) 공간 내의 방향들의 서브세트를 표현한다. 실시예들에 따르면, 평면의 2차원(2D) 라우드스피커 셋업에 대해, 관심있는 전체 방위각 범위는, 감소된 범위의 방위각들을 커버하는 다수의 세그먼트들(섹터들)로 분할될 수 있다. 유사하게, 3D 경우에서, 풀(full) 입체각(solid angle) 범위(방위 및 고도)는 더 작은 각도 범위를 커버하는 세그먼트들로 분할될 수 있다.

각각의 세그먼트는, 대응하는 세그먼트를 특정하거나 지칭하는데 사용될 수 있는 연관된 방향 측정을 특징으로 할 수도 있다. 방향 측정은, 예를 들어, 세그먼트의 중심을 포인팅하는 벡터, 또는 2D의 경우에서는 방위각, 또는 3D 경우에서는 방위 및 고도각의 세트일 수 있다. 세그먼트는, 2D 평면 또는 3D 공간 내의 방향들의 서브세트 둘 모두로 지칭될 수 있다. 표현의 간략화를 위해, 다음의 예들은 2D 경우에 대해 예시적으로 설명되지만, 3D 구성들로의 확장이 수월하다.

도 1은, 공간 오디오 신호를 조정하기 위한 장치 및/또는 방법에 대한 상술된 가능한 애플리케이션 시나리오의 개략적인 블록도를 도시한다. 인코더측 공간 오디오 신호(1)는 인코더(10)에 의해 인코딩된다. 인코더측 공간 오디오 신호는 N개의 채널들을 가지며, 본래의 라우드스피커 셋업, 예를 들어, 청취자의 배향에 대해 0도, ±30도, 및 ±110도의 라우드스피커 포지션들을 갖는 5.0 라우드스피커 셋업 또는 5.1 라우드스피커 셋업에 대해 생성된다. 인코더(10)는, 송신되거나 저장될 수도 있는 인코딩된 오디오 신호를 생성한다. 통상적으로, 인코딩된 오디오 신호는, 저장 및/또는 송신을 위한 요건들을 완화시키기 위해 인코더측 공간 오디오 신호(1)에 비해 압축된다. 인코딩된 공간 오디오 신호를 디코딩하고 특히 압축해제하기 위해 디코더(20)가 제공된다. 디코더(20)는, 인코더측 공간 오디오 신호(1)와 매우 유사하거나 심지어 동일한 디코딩된 공간 오디오 신호(2)를 생성한다. 공간 오디오 신호의 프로세싱에서의 이러한 포인트에서, 공간 오디오 신호를 조정하기 위한 방법 또는 장치(100)가 이용될 수도 있다. 방법 또는 장치(100)의 목적은, 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 공간 오디오 신호(2)를 조정하는 것이다. 방법 또는 장치는, 재생 라우드스피커 셋업에 가깝게(at hand) 맞춤화된 조정된 공간 오디오 신호(3 또는 4)를 제공한다.

제안된 방법의 시스템 개관이 도 2에 도시된다. 입력 채널들의 짧은 시간 주파수 도메인 표현은, 그룹화기(110)(그룹화 엘리먼트)에 의해 K개의 세그먼트들로 그룹화되고, 다이렉트/앰비언스-분해(130) 및 DOA-추정 스테이지(140)로 공급되며, 여기서, 매 스피커 및 세그먼트 당 A는 앰비언스이고 D는 다이렉트 신호들이며,

는 매 세그먼트 당 추정된 DOA들이다. 이들 신호들은 앰비언스 렌더러(170) 또는 다이렉트 사운드 렌더러(150)에 각각 공급되며, 출력 셋업에 대해 스피커 및 세그먼트 당 새로이-렌더링된 다이렉트 및 앰비언스 신호들

및

을 초래한다. 세그먼트 신호들은, 각도적으로 정정된 출력 신호들로 결합기(180)에 의해 결합된다. 거리에 대한 출력 셋업에서의 변위들을 보상하기 위해, 채널들은 거리 조정 스테이지(190)에서 스캐일링(scale) 및 지연되어, 최종적으로, 재생 셋업의 스피커 채널들을 초래한다. 상기 방법은 또한, 증가된 수의 라우드스피커들 뿐만 아니라 감소된 수의 라우드스피커들에 대한 재생 셋업들을 핸들링하도록 확장될 수 있고, 이는 후술된다.

제 1 단계에서, 방법 또는 장치는 적절한 이웃한 라우드스피커 신호들을 K개의 세그먼트들로 그룹화하지만, 각각의 스피커 신호는 수 개의 세그먼트들에 기여할 수 있고, 각각의 세그먼트는 적어도 2개의 스피커 신호들로 구성된다. 도 3에 도시된 것과 같은 라우드스피커 셋업에서, 입력 셋업 세그먼트들은, 예를 들어, 스피커 쌍들 Seg_in＝[{L₁,L₂}, {L₂,L₃}, {L₃,L₄}, {L₄,L₅}, {L₅,L₁}]에 의해 형성될 것이고, 출력 세그먼트들은 Seg_out＝[{L₁,L'₂}, {L'₂,L₃}, {L₃,L₄}, {L₄,L₅}, {L₅,L₁}]일 것이다. 본래의 라우드스피커 셋업 내의 라우드 스피커 L₂(파선으로 도시된 라우드스피커)는, 재생 라우드스피커 셋업에서 이동된 또는 변위된 라우드스피커 L'₂로 변경되었다.

분석 동안, 매 세그먼트 당의 정규화된 교차-상관 기반 다이렉트/앰비언스-분해가 수행되며, 각각의 고려된 세그먼트에 대해 각각의 라우드스피커에 대한(각각의 채널에 대한) 다이렉트 신호 컴포넌트들 D 및 앰비언스 신호 컴포넌트들 A를 초래한다. 이것은, 제안된 방법/장치가 각각의 세그먼트 내의 상이한 소스에 대한 다이렉트 및 앰비언스 신호들을 추정할 수 있다는 것을 의미한다. 다이렉트/앰비언스-분해는, 언급된 정규화된 교차-상관 기반 접근법으로 제한되는 것이 아니라, 임의의 적절한 분해 알고리즘을 이용하여 수행될 수 있다. 매 세그먼트 당 생성된 다이렉트 및 앰비언스 신호들의 수는, 적어도 하나로부터, 라우드스피커들을 고려된 세그먼트에 기여한 수까지이다. 예를 들어, 도 3에 주어진 입력 셋업에 대해, 세그먼트 당 적어도 하나의 다이렉트 및 하나의 앰비언스 신호 또는 최대로는 2개의 다이렉트 및 2개의 앰비언스 신호들이 존재한다.

또한, 하나의 특정한 스피커 신호가 다이렉트/-앰비언스-분해 동안 수 개의 세그먼트들에 기여하므로, 신호들은, 다이렉트/-앰비언스-분해에 진입하기 전에 스캐일링 다운되거나 분할될 수도 있다. 이를 행하는 가장 용이한 방식은, 그 특정한 스피커가 기여하는 세그먼트들의 수에 의한 각각의 세그먼트 내의 모든 각각의 스피커 신호의 다운스캐일링일 것이다. 예를 들어, 도 3의 경우에 대해, 모든 각각의 스피커 채널은 2개의 세그먼트들에 기여하므로, 다운스캐일링 팩터는 모든 각각의 스피커 채널들에 대해 1/2일 것이다. 그러나 일반적으로, 더 복잡하고 언밸런싱된 분할이 또한 가능하다.

도달 방향 추정 스테이지(DOA-추정 스테이지)(140)는 다이렉트/앰비언스-분해(130)에 부착될 수도 있다. 방위각

및 가급적 고도각

으로 구성되는 DOA들은, 세그먼트 및 주파수 대역 당 그리고 선택된 다이렉트/앰비언스-분해 방법에 따라 추정된다. 예를 들어, 정규화된 교차-상관 분해 방법이 사용되면, DOA-추정은 추정을 위해 입력 및 추출된 다이렉트 사운드 신호들의 에너지 고려사항들을 이용한다. 그러나, 일반적으로, 그것은 수 개의 다이렉트/앰비언스-분해들과 포지션 검출 알고리즘들 사이에서 선택될 수 있다.

렌더링 스테이지(170, 150(앰비언스 및 다이렉트 사운드 렌더러))에서, 입력 및 출력 스피커 셋업 사이의 실제 변환이 발생하며, 다이렉트 및 앰비언스 신호들은 별개로 및 상이하게 처리된다. 입력 셋업에 대한 임의의 변경은 3개의 기본적인 경우들, 즉 라우드스피커들의 삽입, 제거, 및 변위의 결합으로서 설명될 수 있다. 간략화의 이유들 때문에, 이들 경우들은 개별적으로 설명되지만, 실제 세계 시나리오에서, 그들은 동시에 발생하며, 따라서, 또한 동시에 처리된다. 이것은, 기본적인 경우들을 중첩함으로써 수행된다. 스피커들의 삽입 및 제거는 고려된 세그먼트들에만 영향을 주며, 세그먼트 기반 업- 및 다운믹스 기술로서 관측될 것이다. 렌더링 동안, 다이렉트 신호들은, 출력 셋업에서 팬텀 소스들의 정확한 로컬화를 보장하는 리패닝(repan) 기능부에 공급될 수도 있다. 이를 행하기 위해, 신호들은, 입력 셋업에 대해 "역 패밍"될 수도 있고, 출력 셋업에 대해 다시 패닝될 수도 있다. 이것은, 리패닝 계수들을 세그먼트 내의 다이렉트 신호들에 적용함으로써 달성될 수 있다. 예를 들어, 변위의 경우에 대해, 리패닝 계수 c^s _D,k의 가능한 구현은 다음과 같을 수 있으며:

여기서, g^s _k는 (추정된 DOA들로부터 도출된) 입력 셋업에서의 패닝 이득들이고, h^s _k는 출력 셋업에 대한 패닝 이득들이다. k=1...K는 고려된 세그먼트를 표시하고, s=1...S는 세그먼트 내의 고려된 스피커를 표시한다. ε는 작은 정식화(regularization) 상수이다. 이것은 다음과 같이, 리패닝된 다이렉트 신호들에 대해 산술된다.

기여한 라우드스피커들이 입력 및 출력 셋업에서 매칭하는 임의의 세그먼트에서, 이것은 1과의 곱셈을 초래하며, 추출된 다이렉트 컴포넌트들을 변경되지 않게 유지한다.

상관 계수는 또한, 얼마나 많은 세그먼트 사이즈들이 변하는지에 일반적으로 의존하는 앰비언스 신호들에 적용된다. 상관 계수는 다음과 같이 구현될 수 있다.

여기서,

및

는, 입력 셋업(본래의 라우드스피커 셋업) 또는 출력 셋업(재생 라우드스피커 셋업)의 세그먼트 k 내의 라우드스피커 포지션들 사이의 각도를 각각 표시한다. 이것은 다음과 같이, 정정된 앰비언스 신호들에 대해 산출된다:

다이렉트 신호들과 같이, 기여한 스피커들이 입력 및 출력 셋업에서 매칭하는 임의의 세그먼트에서, 앰비언스 신호들은 1과 곱셉되며, 변경되지 않게 유지된다. 다이렉트 및 앰비언스 렌더링의 이러한 거동(behavior)은스피커 채널이 기여하는 세그먼트들 중 어떠한 세그먼트도 변화들을 겪지 않으면, 스피커 채널이 기여하는 세그먼트들 중 어떠한 세그먼트도 변화들을 겪지 않으면, 특정한 스피커 채널의 파형-보존 프로세싱을 보장한다. 또한, 세그먼트들의 스피커 포지션들이 입력 셋업의 포지션들을 향해 점진적으로 이동되면, 프로세싱은 파형 보존 솔루션으로 부드럽게 수렴된다.

도 4는, 스피커(L₆)가 표준 5.1 라우드스피커 구성에 부가되었던 시나리오, 즉 증가된 수의 라우드스피커들을 시각화한다. 라우드스피커를 부가하는 것은, 다음의 효과들 중 하나 또는 그 초과를 초래할 수도 있으며, 즉 청취자가 이상적인 청취 포인트(소위 스위트-스팟)로부터 이동하더라도, 오디오 장면의 오프-스위트-스팟(off-sweet-spot) 안정성이 개선될 수도 있다(즉, 인지된 공간 오디오 장면의 향상된 안정성). 예를 들어, 팬텀 소스가 실제 라우드스피커로 교체되면, 청취자의 엔빌로프먼트가 개선될 수도 있고 그리고/또는 공간 로컬화가 개선될 수도 있다. 도 4에서, S는 스피커들 L₂ 및 L₃에 의해 형성된 세그먼트 내의 추정된 팬텀 소스 포지션을 표시한다. 추정된 팬텀 소스 포지션은, 다이렉트/앰비언스 분해기(130)에 의해 수행된 다이렉트/앰비언스 분해 및 세그먼트 내의 하나 또는 그 초과의 팬텀 소스들에 대한 도달 방향 추정을 기반으로 결정될 수도 있다. 부가된 스피커에 대해, 적절한 방향 및 앰비언스 신호가 생성되어야 하고, 이웃한 스피커들의 다이렉트 및 앰비언스 신호들이 조정되어야 한다. 이것은 다음과 같이, 신호를 갖는 현재의 세그먼트에 대한 업믹스를 효율적으로 초래한다:

다이렉트 신호들: 부가적인 스피커 L₆를 갖는 재생 라우드스피커 셋업(출력 셋업)에서, 팬텀 소스 S는 재생 라우드스피커 셋업 내의 세그먼트 {L₂,L₆}에 할당된다. 따라서, 본래의 라우드스피커 또는 채널 L₃ 내의 S에 대응하는 다이렉트 신호 부분들은, 부가적인 라우드스피커 L₆에 재할당 및 재배당되어야 하고, 리패닝 기능부에 의해 프로세싱되어야 하며, 이는 S의 인지된 포지션이 재생 라우드스피커 셋업에서 동일하게 유지된다는 것을 보장한다. 재배당은, L₃로부터 재배당된 신호들을 제거하는 것을 포함한다. L₂ 내의 S의 다이렉트 부분들은 또한, 리패닝에 의해 프로세싱되어야 한다.

앰비언스 신호들: L6에 대한 앰비언스 신호는, 생성된 신호들의 앰비언스 인지를 보장하기 위해 L₂ 및 L₃의 앰비언스 신호 부분들로부터 생성되고, 역상관기(decorrelator)에 전달된다. L₂, L₆ 및 L₃(새로이 형성된 출력 셋업 세그먼트들 {L₂,L₆} 및 {L₆,L₃}의 모든 각각의 스피커)의 앰비언스 신호들의 에너지들은, 아래에서 AERS로 지칭되는 선택가능한 앰비언스 에너지 리패밍 방식에 따라 조정된다. 이들 방식들의 일부는 CAE(Constant Ambience Energy) 방식 － 여기서, 전체 앰비언스 에너지는 일정하게 유지됨 － 및 CAD(Constant Ambience Density) － 여기서, 세그먼트 내의 앰비언스 에너지 밀도는 일정하게 유지됨 － (예를 들어, 새로운 세그먼트들 {L₂,L₆} 및 {L₆,L₃} 내의 앰비언스 에너지 밀도는 본래의 세그먼트 {L₂,L₃}에서와 같이 동일해야 한다)이다. 이들 방식들은 각각, 아래에서 CAE 및 CAD로 약술된다.

S가 재생 세그먼트 {L₆,L₃}에 포지셔닝되면, 다이렉트 및 앰비언스 신호들의 프로세싱은 동일한 법칙들을 따르며, 유사하게 수행된다.

도 4에 도시된 바와 같이, 재생 라우드스피커 셋업은, 본래의 라우드스피커 셋업의 본래의 세그먼트가 재생 라우드스피커 셋업의 2개의 세그먼트들 {L₂,L₆} 및 {L₆,L₃}에 대응하도록, 본래의 세그먼트 {L₂,L₃} 내에 부가적인 라우드스피커 L₆를 포함한다. 일반적으로, 본래의 세그먼트는 재생 세그먼트들의 2개 또는 그 초과의 세그먼트들에 대응할 수도 있으며, 즉, 부가적인 라우드스피커는 2개 또는 그 초과의 세그먼트들로 본래의 세그먼트를 세분한다. 이러한 시나리오에서, 다이렉트 사운드 렌더러(150)는, 적어도 2개의 라우드스피커들 L₂, L₃ 및 재생 라우드 스피커 셋업의 부가적인 라우드스피커 L₆에 대한 조정된 다이렉트 사운드 컴포넌트들을 생성하도록 구성된다.

도 5는, 본래의 라우드스피커 셋업과 비교하여 재생 라우드스피커 셋업에서 감소된 수의 라우드스피커들의 상황을 개략적으로 도시한다. 도 5에서, 스피커(L₂)가 표준 5.1 라우드스피커 셋업으로부터 제거되었던 시나리오가 도시된다. S1 및 S2는 각각, 입력 셋업 세그먼트들 {L₁,L₂} 및 {L₂,L₃}에서 주파수 대역 당 추정된 팬텀 소스 포지션들을 표현한다. 후술되는 신호 핸들링은, 2개의 세그먼트들 {L₁,L₂} 및 {L₂,L₃}의 새로운 세그먼트 {L₁,L₃}로의 다운믹스를 효율적으로 초래한다.

다이렉트 신호들: 인지된 팬텀 소스 포지션들 S1 및 S2가 변하지 않도록, L₂의 다이렉트 신호 부분들은 L₁ 및 L₃에 재배당되고 병합되어야 한다. 이것은, L₂ 내의 S₁의 다이렉트 부분들을 L₃로 그리고 L₂ 내의 S₂의 다이렉트 부분들을 L₁으로 재배당함으로써 행해진다. L₁ 및 L₃의 S₁ 및 S₂의 대응하는 신호들은 리패닝 기능부에 의해 프로세싱되며, 이는 재생 라우드스피커 셋업에서 팬텀 소스 포지션들의 정확한 인지를 보장한다. 병합은, 대응하는 신호들의 중첩에 의해 수행된다.

앰비언스 신호들: L₂에 둘 모두가 로케이팅되는 세그먼트들 {L₁,L₂} 및 {L₂,L₃}에 대응하는 앰비언스 신호들은 L₁ 및 L₃에 각각 재배당된다. 또한, 재배당된 신호들은 도입된 AERS(Ambience Energy Remapping Scheme)들 중 하나에 따라 스캐일링되며, L₁ 및 L₃ 내의 본래의 앰비언스 신호들과 병합된다.

도 5에 도시된 바와 같이, 세그먼트 {L₁,L₂} 및 이웃한 세그먼트 {L₂,L₃}가 재생 라우드스피커 셋업의 하나의 병합된 세그먼트로 병합되므로, 재생 라우드스피커 셋업은 본래의 라우드스피커 셋업과 비교하여 라우드스피커 L₂가 부족하다. 일반적으로 및 3차원 라우드스피커 셋업에서 특히, 라우드스피커의 제거는 수 개의 본래의 세그먼트들이 하나의 재생 세그먼트로 병합되는 것을 초래할 수도 있다.

도 6a 및 도 6b는 변위된 라우드스피커들의 2개의 상황들을 개략적으로 도시한다. 특히, 본래의 라우드스피커 셋업 내의 라우드스피커 L₂는 새로운 포지션으로 이동되었으며, 재생 라우드스피커 셋업에서 라우드스피커 L'₂로 지칭된다. 변위된 라우드스피커의 경우에 대한 제안된 프로세싱은 다음과 같다.

가능한 라우드스피커 변위 시나리오들에 대한 2개의 예들은 도 6a 및 도 6b에 도시되며, 여기서, 도 6a에서는, 세그먼트 리사이징(resizing)만이 발생하고 팬텀 소스의 어떠한 재배당도 필요하지 않게 되지만, 도 6b에서는, 변위된 스피커 L'₂가 팬텀 소스 S2의 추정된 포지션(방향)을 넘어서 이동하며, 따라서, 소스는 출력 세그먼트 {L₁,L'₂}로 재배당 및 병합될 필요가 있다. 본래의 라우드스피커 L₂ 및 청취자의 관점으로부터의 그의 방향은, 도 6a 및 도 6b에 파선들로 도시된다.

도 6a에 개략적으로 도시된 경우에서, 다이렉트 신호들은 다음과 같이 프로세싱된다. 앞서 나타낸 바와 같이, 재배당이 필요하지 않다. 따라서, 프로세싱은, 스피커들 L₁, L₂ 및 L₃의 S₁ 및 S₂의 다이렉트 신호 컴포넌트를 리패닝 기능부로 각각 전달하는 것에 한정되며, 리패닝 기능부는, 팬텀 소스들이 변위된 라우드스피커 L'₂에 대한 그들의 본래의 포지션에서 인지되도록 신호들을 조정한다.

도 6a에 도시된 경우에서 앰비언스 신호들은 다음과 같이 프로세싱된다. 신호 재배당들을 위한 어떠한 필요성도 존재하지 않으므로, 대응하는 세그먼트들 및 스피커들 내의 앰비언스 신호들은 AERS들 중 하나에 따라 간단히 조정된다.

도 6b에 관해, 다이렉트 신호들의 프로세싱이 이제 설명된다. 스피커가 팬텀 소스 포지션을 넘어 이동되면, 그 스피커는 이러한 소스를 상이한 출력 세그먼트에 재배당할 필요가 있게 된다. 여기서, 그에 따라, S₂의 소스 신호는, 동일한 소스 포지션 인지를 보장하기 위해 출력 세그먼트 {L₁, L'₂}에 재배당되고 리패닝 기능부에 의해 프로세싱되어야 한다. 부가적으로, {L₁,L₂} 내의 S₂의 대응하는 소스 신호들은 새로운 출력 세그먼트 {L₁, L'₂}를 매칭하도록 리패닝되어야 하며, 각각의 스피커 L₁ 및 L'₂ 내의 새로운 소스 신호 부분들 둘 모두는 병합될 것이다.

따라서, 세그먼트와 이웃한 세그먼트 사이의 경계가 S₂의 결정된 도달 방향을 벗어나면, 본래의 라우드스피커 셋업으로부터 재생 라우드스피커 셋업으로 전달되는 경우, 다이렉트 사운드 렌더러는, 본래의 라우드스피커 셋업 내의 세그먼트 {L₂,L₃}로부터 S₂의 결정된 도달 방향을 갖는 다이렉트 사운드 컴포넌트를 재생 라우드스피커 셋업 내의 이웃한 세그먼트 {L₁,L'₂}에 재배당하도록 구성된다. 추가적으로, 다이렉트 사운드 렌더러는, 본래의 세그먼트 {L₂,L₃}의 적어도 하나의 라우드스피커로부터의 결정된 도달 방향을 갖는 다이렉트 사운드 컴포넌트를 출력 셋업 내의 이웃한 세그먼트 {L₁, L'₂} 내의 적어도 하나의 라우드스피커로 재배당하도록 구성될 수도 있다. 특히, 다이렉트 렌더러는, 입력 셋업 내의 세그먼트 {L₂,L₃}에 할당된 L₃의 S₂의 다이렉트 컴포넌트를, 재생 셋업 내의 세그먼트 {L₁,L'₂}에 할당된 변위된 라우드스피커 L'₂에 재배당하고, 입력 셋업 내의 세그먼트 {L₂,L₃}에 할당된 L₂의 S₂의 다이렉트 컴포넌트를, 재생 셋업 내의 세그먼트 {L₁,L'₂}에 할당된 L₁에 재배당하도록 구성될 수도 있다. 재배당의 동작이 또한, 예를 들어, 라우드스피커 신호들의 상대적인 진폭 및/또는 상대적인 지연에 대해 리패닝을 수행하는 것에 의한 다이렉트 사운드 컴포넌트의 조정을 수반할 수도 있음을 유의한다.

도 6b의 앰비언스 신호들에 대해, 유사한 프로세싱이 수행될 수도 있으며, 즉 세그먼트 {L₂,L₃} 내의 앰비언스 신호들은 AERS들 중 하나를 사용함으로써 조정된다. 부가적으로, 큰 변위들에 대해, 이들 앰비언스 신호들의 일부는 세그먼트 {L₁,L'₂}에 부가되고, AERS에 의해 조정될 수 있다.

결합 스테이지(180)(도 2) 내에서, 재생 라우드스피커 셋업(출력 셋업)에 대한 실제 스피커 신호들이 형성된다. 이것은, 좌측 및 우측 세그먼트 사이의 스피커에 대해 각각의 그 좌측 및 그 우측 세그먼트의 대응하는 리매핑 및 리-렌더링된 다이렉트 및 앰비언스 신호들을 부가함으로써 행해진다(용어들 "좌측" 및 "우측" 라우드스피커는 2차원 경우에 대해 유지되며, 즉 모든 스피커들은 동일한 평면, 통상적으로는 수평 평면에 존재함). 결합 스테이지(180)의 출력에서, 본래의 오디오 장면에 대한 것이지만, 포지션들

및

의 M개의 라우드스피커들을 갖는 새로운 라우드스피커 셋업(재생 라우드스피커 셋업)에 대해 이제 렌더링된 신호들이 방출된다.

이러한 포인트에서, 즉 결합기 또는 결합 스테이지(180)의 출력에서, 신규한 시스템은, 출력 셋업 내의 스피커들의 방위 및 고도각에 대한 모든 변경들이 정정되는 라우드스피커 신호들을 제공한다. 청취 포인트에 대한 그의 거리가 새로운 거리

로 변하도록 출력 셋업 내의 라우드스피커가 이동되었다면, 선택적인 거리 조정 스테이지(190)는, 거리의 변화를 보상하기 위해 정정 팩터 및 지연을 그 채널에 적용할 수도 있다. 이러한 스테이지의 출력(4)은 실제 재생 셋업의 라우드스피커 채널들을 초래한다.

다른 실시예는 재생 라우드스피커 셋업의 이동 스위트 스팟을 구현하기 위해 본 발명을 사용할 수도 있다. 이를 위해, 제 1 단계에서, 알고리즘 또는 장치는 청취자의 포지션을 결정해야 한다. 이것은, 청취자의 현재 포지션을 결정하기 위해 추적 기술/디바이스를 사용함으로써 용이하게 행해질 수 있다. 그 후, 장치는, 청취자에 대해 라우드스피커들의 포지션들을 재계산하며, 이는, 원점(origin)에서 청취자에 대한 새로운 좌표 시스템을 의미한다. 이것은, 고정된 청취자 및 이동중인 라우드스피커들을 갖는 것과 등가이다. 그 후, 알고리즘은, 이러한 새로운 셋업에 대해 최적인 신호들을 계산한다.

도 7은 적어도 하나의 실시예에 따른, 공간 오디오 신호(2)를 재생 라우드스피커 셋업으로 조정하기 위한 장치(100)의 개략적인 블록도를 도시한다. 장치(100)는, 적어도 2개의 채널 신호들(702)을 세그먼트로 그룹화하도록 구성된 그룹화기(110)를 포함한다. 장치(100)는, 세그먼트 내의 적어도 2개의 채널 신호들(702)을 적어도 하나의 다이렉트 사운드 컴포넌트(732) 및 적어도 하나의 앰비언스 컴포넌트(734)로 분해하도록 구성된 다이렉트-앰비언스 분해기(130)를 더 포함한다. 다이렉트-앰비언스 분해기(130)는 선택적으로, 적어도 하나의 다이렉트 사운드 컴포넌트(732)의 DOA(들)를 추정하도록 구성된 도달 방향 추정기(140)를 포함할 수도 있다. 대안으로서, DAO(들)는, 외부 DOA 추정으로부터 제공되거나 공간 오디오 신호(2)를 수반하는 메타 정보/사이드 정보로서 제공될 수도 있다.

다이렉트 사운드 렌더러(150)는, 세그먼트와 연관된 적어도 하나의 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 수신하며, 재생 라우드스피커 셋업 내의 적어도 하나의 다이렉트 사운드 컴포넌트의 인지된 도달 방향이 세그먼트의 도달 방향과 실질적으로 동일하도록, 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 적어도 하나의 다이렉트 사운드 컴포넌트(732)를 조정하도록 구성된다. 적어도, 다이렉트 사운드 렌더러(150)에 의해 수행된 렌더링은, 어떠한 조정도 발생하지 않는 상황과 비교하여, 인지된 도달 방향이 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하다는 것을 초래한다. 도 7의 삽입물(inset)에서, 본래의 라우드스피커 셋업의 본래의 세그먼트 및 재생 라우드스피커 셋업의 대응하는 재생 세그먼트가 개략적으로 도시된다. 통상적으로, 본래의 라우드스피커 셋업에 대한 정보가 다이렉트 사운드 렌더러(150)에 반드시 제공되어야 할 필요가 없지만, 다이렉트 사운드 렌더러가 이용가능한 이러한 정보를 이미 갖도록, 본래의 라우드스피커 셋업은 알려지거나 표준화되어 있다. 그럼에도, 다이렉트 사운드 렌더러는 본래의 라우드스피커 셋업 정보를 수신하도록 구성될 수도 있다. 이러한 방식으로, 다이렉트 사운드 렌더러(150)는, 5.1, 7.1, 10.2 또는 심지어 22.2의 셋업들과 같은 상이한 본래의 라우드스피커 셋업들에 대해 레코딩되거나 생성되는 입력으로서 공간 오디오 신호들을 지원하도록 구성될 수도 있다.

장치(100)는, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들을 획득하기 위하여 조정된 다이렉트 사운드 컴포넌트(752) 및 앰비언스 컴포넌트들(734) 또는 변경된 앰비언스 컴포넌트들을 결합시키도록 구성된 결합기(180)를 더 포함한다. 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들은, 장치(100)에 의해 출력될 수도 있는 조정된 공간 오디오 신호(3)의 일부이다. 상술된 바와 같이, DOA-및-거리-조정된 공간 오디오 신호(4)(도 2 참조)를 획득하기 위해 거리 조정이 DOA-조정된 공간 오디오 신호에 대해 수행될 수도 있다. 결합기(180)는 또한, 고려된 세그먼트를 갖는 라우드스피커를 공유하는 하나 또는 그 초과의 이웃한 세그먼트(들)로부터의 다이렉트 사운드 및/또는 앰비언스 컴포넌트들과 조정된 다이렉트 사운드 컴포넌트(752) 및 앰비언스 컴포넌트(734)를 결합시키도록 구성될 수도 있다.

도 8은, 공간 오디오 신호에 의해 운반된 오디오 콘텐츠를 제시하기 위해 의도된 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 공간 오디오 신호를 조정하기 위한 방법의 개략적인 흐름도를 도시한다. 방법은, 적어도 2개의 채널 신호들을 세그먼트로 그룹화하는 단계(802)를 포함한다. 세그먼트는 통상적으로, 본래의 라우드스피커 셋업의 세그먼트들 중 하나이다. 세그먼트 내의 적어도 2개의 채널 신호들은 단계(804) 동안 다이렉트 사운드 컴포넌트들 및 앰비언스 컴포넌트들로 분해된다. 방법은, 다이렉트 사운드 컴포넌트들의 도달 방향을 결정하기 위한 단계(806)를 더 포함한다. 다이렉트 사운드 컴포넌트들은, 어떠한 조정도 발생하지 않는 상황과 비교하여, 재생 라우드스피커 셋업 내의 다이렉트 사운드 컴포넌트들의 인지된 도달 방향이 세그먼트의 도달 방향과 동일하거나 세그먼트의 도달 방향에 더 근접하도록, 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 단계(808)에서 조정된다. 방법은 또한, 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들을 획득하기 위해 조정된 다이렉트 사운드 컴포넌트들 및 앰비언스 컴포넌트들 또는 변경된 앰비언스 컴포넌트들을 결합하기 위한 단계(809)를 포함한다.

직면된 재생 라우드스피커 셋업으로의 공간 오디오 신호의 제안된 조정은 다음의 양상들 중 하나 또는 그 초과에 관련될 수도 있다:

- 본래의 셋업의 이웃한 라우드스피커 채널들의 세그먼트들로의 그룹화

- 세그먼트-기반 다이렉트/앰비언스-분해

- 선택가능한 수 개의 상이한 다이렉트/앰비언스-분해 및 포지션 추출 알고리즘

- 인지된 방향이 실질적으로 동일하게 유지되도록 하는 다이렉트 컴포넌트들의 리매핑

- 인지된 엔빌로프먼트가 실질적으로 동일하게 유지되도록 하는 앰비언스 컴포넌트들의 리매핑

- 스캐일링 팩터 및/또는 지연을 적용하는 것에 의한 스피커 거리 정정

- 선택가능한 수 개의 패닝 알고리즘들

- 다이렉트 및 앰비언스 컴포넌트들의 독립적인 리매핑

- 시간 및 주파수 선택적인 프로세싱

- 출력 셋업이 입력 셋업과 매칭하는 경우의 모든 라우드스피커 채널들에 대한 전체 파형-보존 프로세싱

- 스피커가 기여하는 세그먼트들이 입력 및 출력 셋업에 대해 변경되지 않는 각각의 라우드스피커에 대한 채널-와이즈 파형-보존

● 특수한 경우들:

- 상이한 패닝 알고리즘을 이용한 주어진 입력 장면의 "역 패닝" 및 패닝

- 세그먼트 당, 적어도 하나의 다이렉트 및 앰비언스 신호.

2개의 스피커들로 구성된 세그먼트들에서, 최대 2개의 다이렉트 및 2개의 앰비언스 신호들이 존재한다. 사용된 다이렉트 및 앰비언스 신호들의 수는 서로 독립적이지만, 렌더링된 다이렉트 및 앰비언스 신호들의 의도된 공간 타겟 품질에 의존한다.

- 세그먼트-기반 다운/업믹스

- 앰비언스 리매핑은 다음을 포함하는 AERS(Ambience Energy Remapping Scheme)들에 따라 수행된다.

○ 일정한 앰비언스 에너지

○ 일정한 앰비언스(각도) 밀도

본 발명의 적어도 몇몇 실시예들은, 모든 각각의 이전에 구축된 세그먼트 내의 그리고 그 세그먼트에 따라 (팬텀) 소스의 다이렉트 및 앰비언스 신호 부분들로의 본래의 스피커 채널들의 분해를 포함하는 채널-기반 플렉시블 사운드 장면 변환을 수행하도록 구성된다. 모든 각각의 다이렉트 소스의 도달 방향(DOA)들이 추정되며, 다이렉트 및 앰비언스 신호들과 함께 렌더러 및 거리 조정기에 공급되고, 여기서, (재생 라우드스피커 셋업 및 DOA들에 따라) 본래의 스피커 신호들은 실제 오디오 장면을 보존하도록 변경된다. 제안된 방법 및 장치는, 파형-보존을 수행하며, 심지어, 입력 셋업에서 이용가능한 것보다 증가된 또는 감소된 수의 라우드스피커 채널들을 갖는 출력 셋업들을 핸들링할 수 있다.

블록들이 실제 또는 로직 하드웨어 컴포넌트들을 표현하는 블록도들의 맥락에서 본 발명이 설명되었지만, 본 발명은 또한, 컴퓨터-구현된 방법에 의해 구현될 수 있다. 후자의 경우에서, 블록들은 대응하는 방법 단계들을 표현하며, 여기서, 이들 단계들은 대응하는 로직 또는 물리적 하드웨어 블록들에 의해 수행되는 기능들을 나타낸다.

설명된 실시예들은 본 발명의 원리들에 대해 단지 예시적일 뿐이다. 본 명세서에 설명된 어레인지먼트(arrangement)들 및 세부사항들의 변경들 및 변화들이 당업자들에게 명백할 것임을 이해한다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시되는 특정한 세부사항들이 아니라 첨부한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도된다.

몇몇 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 대응하는 방법의 설명을 또한 표현함이 명백하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특성에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특성의 설명을 또한 표현한다. 방법 단계들 중 몇몇 또는 모두는, 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 그들을 사용하여) 실행될 수도 있다. 몇몇 실시예들에서, 가장 중요한 방법 단계들 중 몇몇의 하나 또는 그 초과는 그러한 장치에 의해 실행될 수도 있다.

특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은, 전자적으로 판독가능한 제어 신호가 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루-레이, CD, ROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있으며, 이들은 각각의 방법이 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터 판독가능할 수도 있다.

본 발명에 따른 몇몇 실시예들에서, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함하며, 그 데이터 캐리어는, 본 명세서에 설명된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있다.

일반적으로, 본 발명의 실시예들은 프로그램 코들르 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동하는 경우, 방법들 중 하나를 수행하도록 동작가능하다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수도 있다.

일 실시예들은, 머신 판독가능 캐리어 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램 물건이 포함되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로, 유형이고(tangible) 그리고/또는 비-일시적이다.

따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 예를 들어, 데이터 스트림 또는 신호들의 시퀀스는 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수도 있다.

추가적인 실시예는 프로세싱 수단, 예를 들어, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성되거나 적응되는 컴퓨터 또는 프로그래밍가능 로직 디바이스를 포함한다.

추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 내부에 인스톨된 컴퓨터를 포함한다.

본 발명에 따른 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전달하도록 구성된 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수도 있다.

몇몇 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수도 있다. 몇몇 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 함께 동작할 수도 있다. 일반적으로, 바람직하게, 방법들은 임의의 하드웨어 장치에 의해 수행된다.

본 발명의 실시예들은, 다이렉트-앰비언스 분해를 위한 기술들에 기초할 수도 있다. 다이렉트-앰비언스 분해는, 신호 모델 또는 물리적 모델에 기초하여 수행될 수 있다.

신호 모델에 기초한 다이렉트-앰비언스 분해 이면의 아이디어는, 다이렉트 인지된 및 로케이팅가능한 사운드가 단일 또는 그 초과의 코히런트 또는 상관된 신호들 중 어느 하나로 구성된다는 가정이다. 따라서, 앰비언트와는 달리, 로케이팅가능하지 않은 사운드는 상관되지 않은 신호 부분들에 대응한다. 다이렉트와 앰비언스 사이의 트랜지션(transition)은 심리스(seamless)하며, 신호들 사이의 상관에 의존한다. 다이렉트-앰비언스 분해에 대한 추가적인 정보는, C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", J. Audio Eng. Soc, vol. 54, no. 11, pp. 1051-1064, 2006; J. S. Usher and J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmix-er", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 7, pp. 2141-2150, 2007; 및 M. Goodwin and J.-M. Jot, "Primary-Ambient Signal Decompo-sition and Vector-Based Localization for Spatial Audio Coding and Enhancement", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 1, 2007, pp. I-9 - I-12에서 발견될 수 있다.

방향성 오디오 코딩(DirAC)은, 물리적 모델에 기초하여, 신호들을 다이렉트로 분해하고, 신호 에너지들을 산란시키기 위한 하나의 가능한 방법이다. 여기서, 청취 포인트에서의 사운드 압력 및 사운드(입자) 속도에 대한 사운드 필드 속성들은 실제 또는 가상 B-포맷 레코딩에 의해 캡쳐된다. 그 후, 사운드 필드가 하나의 단일 평면파로만 구성되고 나머지는 산란 에너지라는 가정을 이용하여, 신호는 다이렉트 및 산란 신호 부분들로 분해될 수 있다. 다이렉트 부분들로부터, 소위 도달 방향(DOA)들이 계산될 수 있다. 실제 라우드스피커 포지션들의 정보를 이용하여, 다이렉트 신호 부분들은, 렌더링 스테이지에서 그들의 글로벌 포지션을 보존하기 위해, 전용 패닝 법칙들을 사용함으로써 리패닝될 수 있다(예를 들어, V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997 참조). 최종적으로, (예를 들어, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007; 또는 V. Pulkki and J. Herre, "Method and Apparatus for Conversion Between Multi-Channel Audio Formats". 미국 특허 출원 공개공보 제 US 2008/0232616 A1, 2008에서 설명된 바와 같이) 역상관된 앰비언트 및 패닝된 다이렉트 신호 부분들이 다시 결합되어, 라우드스피커 신호들을 초래한다.

다른 접근법은, (133rd Convention of the AES 2012, October 2012에서 제시된) J. Thompson, B. Smith, A. Warner, and J.-M. Jot in "Di-rect-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correla-tions" 에 의해 설명되며, 여기서, 멀티-채널 신호의 다이렉트 및 산란 에너지들이 페어와이즈(pairwise) 상관들의 시스템에 의해 추정된다. 여기서 사용된 신호 모델은, 채널들에 걸친 다이렉트 신호의 위상 시프트를 포함하여 각각의 채널에서 하나의 다이렉트 및 산란 신호를 검출하도록 허용한다. 이러한 접근법의 하나의 가정은, 모든 채널들에 걸친 다이렉트 신호들이 상관된다는 것, 즉 그들 모두가 동일한 소스 신호를 표현한다는 것이다. 프로세싱은, 주파수 도메인에서 그리고 각각의 주파수 대역에 대해 수행된다.

다이렉트-산란 분해(또는 다이렉트-앰비언스 분해)의 가능한 구현은, 일 예로서 스테레오 신호들과 관련하여 이제 설명된다. 다이렉트-산란 분해를 위한 다른 기술들이 또한 가능하며, 또한, 스테레오 신호들 이외의 신호들이 다이렉트-산란 분해를 겪을 수도 있다. 통상적으로, 스테레오 신호들은, 각각의 소스에 대해, 특정한 방향성 단서(cue)들(레벨 차이, 시간 차이)을 이용하여 좌측 및 우측 신호 채널로 신호가 코히런트하게 되며, 가청 오브젝트 폭 및 청취자 엔빌로프먼트 단서들을 결정하여 반사된/반향된 독립적인 신호들을 채널들로 되도록 레코딩되거나 믹싱된다. 단일 소스 스테레오 신호들은, 팩터 a에 의해 결정된 방향으로부터의 다이렉트 사운드를 미믹(mimic)하는 신호 s에 의해, 그리고 측면 반사들에 대응하는 독립적인 신호들 n₁ 및 n₂에 의해 모델링될 수도 있다. 스테레오 신호 쌍 x₁, x₂는 다음의 수학식들에 의해 이들 신호들 s, n₁, 및 n₂에 관련되며,

여기서, k는 시간 인덱스이다. 따라서, 다이렉트 사운드 신호 s는 스테레오 신호들 x₁ 및 x₂ 둘 모두에서 나타나지만, 통상적으로 상이한 진폭을 갖는다. 설명된 분해는, 하나의 가청 오브젝트 시나리오에서 뿐만 아니라 다수의 동시적인 활성 소스들을 갖는 비정적인(nonstationary) 사운드 장면들에 대해서도 유효한 분해를 획득하기 위해, 다수의 주파수 대역들에서 그리고 시간에서 적응적으로 수행될 수도 있다. 따라서, 상기 수학식들은 다음과 같이 특정한 시간 인덱스 k 및 특정한 주파수 서브-대역 m에 대해 기입될 수도 있으며,

여기서, m은 서브-대역 인덱스이고, k는 시간 인덱스이고, A_b는, 서브-대역 신호들의 하나 또는 그 초과의 서브-대역들을 포함할 수도 있는 특정한 파라미터 대역 b에 대한 신호 s_m에 대한 진폭 팩터이다. 인덱스들 m 및 k를 갖는 각각의 시간-주파수 타일에서, 신호들 s_m, n_1,m, n_2,m 및 팩터 A_b는 독립적으로 추정된다. 인지적으로 유발된(motivated) 서브-대역 분해가 사용될 수도 있다. 이러한 분해는, 고속 퓨리에 변환, 직교위상 미러 필터뱅크, 또는 다른 필터뱅크에 기초할 수도 있다. 각각의 파라미터 대역 b에 대해, 신호들 s_m, n_1,m, n_2,m 및 A_b는 특정한 시간 길이(예를 들어, 대략 20ms)를 갖는 세그먼트들에 기초하여 추정된다. 스테레오 서브-대역 신호 쌍 x_1,m 및 x_2,m이 주어지면, 목적은, 각각의 파라미터 대역에서 s_m, n_1,m, n_2,m 및 A_b를 추정하는 것이다. 스테레오 신호 쌍의 전력들 및 교차-상관의 분석은 이러한 목적을 위해 수행될 수도 있다. 변수 p_x1,b는 파라미터 대역 b에서의 x_1,m의 거듭제곱(power)의 짧은-시간 추정을 나타낸다. n_1,m 및 n_2,m의 거듭제곱들은 동일한 것으로 가정될 수도 있으며, 즉, 측면 독립적인 사운드의 양이 좌측 및 우측 신호들에 대해 동일한 것으로 가정되고, p_n1,b＝p_n1,b＝p_n,b이다.

파라미터 대역 b에 대한 거듭제곱(p_x1,b, p_x2,b) 및 정규화된 교차-상관 p_x1 _x2,b는, 스테레오 신호의 서브-대역 표현을 사용하여 계산될 수도 있다. 변수들 A_b, p_s,b, 및 p_n,b는, 추정된 p_x1,b, p_x2,b, 및 p_x1 _x2,b의 함수로서 후속하여 추정된다. 알려진 및 알려지지 않은 변수들에 관한 3개의 수학식들은 다음과 같다.

A_b, p_s,b, 및 p_n,b에 대해 풀어진 이들 수학식들은, 다음을 이용하여,

다음을 산출한다.

다음으로, s_m, n_1,m 및 n_2,m의 최소 제곱 추정들은A_b, p_s,b, 및 p_n,b 의 함수로서 계산된다. 각각의 파라미터 대역 b 및 각각의 독립적인 신호 프레임에 대해, 신호 s_m은,

와 같이 추정되며, 여기서, w_1,b 및 w_2,b은 실수값 가중들이다. 가중들 w_1,b 및 w_2,b은, 에러 신호 E가 파라미터 대역 b에서 x_1,m 및 x_2,m에 직교할 경우, 최소 평균-제곱 관점에서 최적이다. 신호들 n_1,m 및 n_2,m은 유사한 방식으로 추정될 수도 있다. 예를 들어, n_1,m은 다음으로서 주청될 수도 있다.

그 후, 포스트-스캐일링은, 각각의 파라미터 대역 내의 추정들의 거듭제곱을 p_s,b 및 p_n,b에 매칭시키기 위해, 초기-최소-제곱 추정들

,

, 및

에 대해 수행될 수도 있다. 최소 평균-제곱 방법의 더 상세한 설명은, 본 명세서에 인용에 의해 포함되는 텍스트북 "Spatial Audio Processing" by J. Breebart and C. Faller의 챕터 10.3에서 발견될 수도 있다. 이들 양상들 중 하나 또는 그 초과는, 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

본 발명의 실시예들은 하나 또는 그 초과의 멀티-채널 패너들에 관련되거나 그들을 이용할 수도 있다. 멀티-채널 패너들은, 사운드 엔지니어가 가상 또는 팬텀 소스를 인공적인 오디오 장면 내에 배치시킬 수 있게 하는 툴들이다. 이것은 수 개의 방식들로 달성될 수 있다. 전용 이득 함수 또는 패닝 법칙에 따르면, 팬텀 소스는, 진폭 가중 또는 지연 또는 둘 모두를 소스 신호에 적용함으로써 오디오 장면 내에 배치될 수 있다. 멀티-채널 패너들에 대한 추가적인 정보는, 미국 특허 출원 공개공보 제 US 2012/0170758 A1 "Multi-Channel Sound Panner" by A. Eppolito; V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997; 및 J. Blauert, "Spatial hearing: The psychophysics of human sound localization", section 2.2.2, 3rd ed. Cambridge and Mass: MIT Press, 2001에서 발견될 수 있다. 예를 들어, 임의의 수의 입력 채널들, 및 출력 사운드 공간으로의 구성들에 대한 변경들을 지원할 수 있는 패너가 이용될 수 있다. 예를 들어, 패너는, 입력 채널들의 수에서의 변화들을 심리스하게 핸들링할 수도 있다. 또한, 패너는, 출력 공간에서의 스피커들의 수 및 포지션들에 대한 변화들을 지원할 수도 있다. 패너는, 감쇠 및 붕괴(collapsing)의 연속적인 제어를 허용할 수도 있다. 패너는, 채널들을 붕괴시킬 경우 사운드 공간의 주변 상에서 소스 채널들을 유지시킬 수도 있다. 패너는, 소스들이 붕괴시키는 경로에 대한 제어를 허용할 수도 있다. 이들 양상들은, 복수의 스피커들을 갖는 사운드 공간에서 소스 오디오의 복수의 채널들의 리-밸런싱을 요청하는 입력을 수신하는 단계를 포함하는 방법에 의해 달성될 수도 있으며, 여기서, 소스 오디오의 복수의 채널들은 사운드 공간 내의 초기 포지션 및 초기 진폭에 의해 초기에 설명되고, 채널들의 포지션들 및 진폭들은 사운드 공간에서 채널들의 밸런스를 정의한다. 입력에 기초하여, 사운드 공간 내의 새로운 포지션은, 소스 채널들 중 적어도 하나에 대해 결정된다. 입력에 기초하여, 소스 채널들 중 적어도 하나의 진폭에 대한 변경이 결정되며, 여기서, 새로운 포지션, 및 진폭에 대한 변경은 리-밸런싱을 달성한다. 복수의 스피커들 중 특정한 스피커가 디스에이블될 것이라는 것을 입력이 표시한다고 결정하는 것에 응답하여, 특정한 스피커로부터 발신할 것이었던 사운드는 특정한 스피커에 인접한 다른 스피커들에 자동적으로 전달될 수도 있다. 방법은 하나 또는 그 초과의 컴퓨팅 디바이스들에 의해 수행된다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 연관하여 또는 그 조정의 맥락에서 이용될 수도 있다.

본 발명의 몇몇 실시예들은 기존의 오디오 장면들을 변경시키기 위한 개념들에 관련되거나 그 개념들을 이용할 수도 있다. 기존의 오디오 장면을 구성하거나 심지어 변경시키기 위한 시스템은, (독일 특허 출원 제 DE 10 2010 030 534 A1, "Vorrichtung zum Verandern einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion"에서 설명된 바와 같이) IOSONO에 의해 도입되었다. 그것은, 오디오 장면 내에 소스를 포지셔닝시키기 위해 방향성 함수와 결합되는 오브젝트-기반 소스 표현 플러스 부가적인 메타 데이터를 사용한다. 오디오 오브젝트 및 메타 데이터 없이 기존의 오디오 장면이 이러한 시스템에 이미 공급되면, 방향들 및 방향성 함수들은 먼저 그 오디오 장면으로부터 결정되어야 한다. 이들 양상들 중 하나 또는 그 초과는, 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

본 발명의 몇몇 실시예들은, 채널 변환 및 포지셔닝 조정에 관련되거나 그것을 이용할 수도 있다. 잘못된 라우드스피커 포지셔닝 또는 재생 채널들에서의 편차를 정정하는 것을 목적으로 하는 대부분의 시스템들은, 사운드 필드의 물리적 속성들을 보전하기를 시도한다. 다운믹스 시나리오에 대해, 가능한 접근법은, (A. Ando, "Conversion of Multi-channel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field", IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 6, pp. 1467-1475, 2011에서 설명된 바와 같이) 패닝에 의해 그리고 청취 포인트에서 사운드 압력 및 입자 속도를 보존함으로써, 생략된 라우드스피커들을 가상 스피커들로서 모델링하는 것일 수 있다. 다른 방법은, 본래의 사운드 필드를 복원하기 위해, 타겟 셋업에서 라우드스피커 신호들을 계산하는 것일 것이다. 이것은, (A. Laborie, R. Bruno, and S. Montoya, "Reproducing Multichannel Sound on any Speaker Layout", in 118th Convention of the AES, 2005에서 설명된 바와 같이) 본래의 라우드스피커 신호들을 사운드 필드 표현으로 트랜지션하고, 그 표현으로부터 새로운 라우드스피커 신호들을 렌더링함으로써 행해진다.

Ando에 따르면, 재생된 사운드 필드의 청취 포인트에서 사운드의 물리적 속성들을 유지하면서, 본래의 멀티채널 사운드 시스템의 신호를 상이한 수의 채널들을 갖는 대안적인 시스템의 신호로 변환함으로써 멀티채널 사운드 신호의 변환이 가능하다. 그러한 변환 문제는 불충분하게 결정된(underdetermine) 선형 수학식에 의해 설명될 수 있다. 수학식에 대한 분석적인 솔루션을 획득하기 위해, 방법은, 3개의 라우드스피커들의 포지션들을 기반으로 대안적인 시스템의 사운드 필드를 분할하며, 각각의 서브필드에서 "로컬 솔루션"을 해결한다. 결과로서, 대안적인 시스템은, 대응하는 라우드스피커 포지션에서 본래의 사운드 시스템의 각각의 채널 신호를 팬텀 소스로서 로컬화한다. 로컬 솔루션들의 구성은 "글로벌 솔루션", 즉 변환 문제에 대한 분석적인 솔루션을 도입한다. 방법에 의해 10-, 8-, 및 6-채널 신호들로 변환된 2개의 저주파수 효과 채널들 없이 22.2 멀티채널 사운드 시스템의 22-채널 신호들에 대해 실험들이 수행되었다. 주관적인 평가들은, 제안된 방법이 8개의 라우드스피커들을 이용하여 본래의 22-채널 사운드의 공간적인 인상(impression)을 재생할 수 있다는 것을 나타내었다. 이들 양상들 중 하나 또는 그 초과는, 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

공간 오디오 장면 코딩(SASC)은, 비-물리적인 유발 시스템에 대한 일 예이다(M. Goodwin and J.-M. Jot, "Spatial Audio Scene Coding", in 125th Convention of the AES, 2008). 그것은, 몇몇 인터-채널 상관 제약들(M. Goodwin and J.-M. Jot, "Primary-Ambient Signal De-composition and Vector-Based Localization for Spatial Audio Coding and Enhancement", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 1, 2007, pp. I-9 - I-12) 하에서 그들의 1차 및 앰비언스 컴포넌트들로 멀티채널 입력 신호들을 분해시키기 위해 PCA(Principal Component Analysis)를 수행한다. 1차 컴포넌트는, 가장 큰 고유값(eigenvalue)을 갖는 입력 채널 상관 매트릭스의 고유벡터로서 여기서 식별된다. 그 후, 1차 및 앰비언스 로컬화 분석이 수행되며, 여기서, 다이렉트 및 앰비언트 로컬화 벡터가 결정된다. 출력 신호들의 렌더링은, 출력 채널들의 공간 방향을 포인팅하는 단위 벡터들을 포함한 포맷 매트릭스를 생성함으로써 행해진다. 포맷 매트릭스에 기초하여, 널(null) 가중들의 세트가 도출되므로, 가중 벡터는 포맷 매트릭스의 널 공간에 존재한다. 방향성 컴포넌트들은 이들 벡터들 사이의 페어와이즈 패닝에 의해 생성되고, 비-방향성 컴포넌트들은 포맷 매트릭스 내의 벡터들의 전체 세트를 사용함으로써 생성된다. 최종 출력 신호들은, 방향성 및 비-방향성 패닝된 신호 부분들 사이에서 보간함으로써 생성된다. 이러한 SASC(Spatial Audio Scene Coding) 프레임워크에서, 주요한 아이디어는, 임의의 가정된 또는 의도된 재생 포맷과는 독립적인 방식으로 입력 오디오 장면을 표현하는 것이다. 이러한 포맷-인지불능(format-agnostic) 파라미터화는, 임의의 주어진 재생 시스템에 대한 최적의 재생 뿐만 아니라 플렉시블 장면 변경을 가능하게 한다. SASC에 대해 필요한 신호 분석 및 합성 툴들이 멀티채널 1차-앰비언트 분해를 위한 새로운 접근법들의 제시를 포함하여 설명된다. 공간 오디오 코딩, 업믹스, 위상-진폭 매트릭스 디코딩, 멀티채널 포맷 변환, 및 입체음향(binaural) 재생으로의 SASC의 적용은, 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

본 발명의 몇몇 실시예들은 업믹스-기술들에 관련되거나 그 기술들을 이용할 수도 있다. 일반적으로, 업믹스-기술은 2개의 주요 카테고리들로 분류될 수 있으며, 즉 기존의 입력 채널들로부터의 합성된 또는 추출된 앰비언스를 서라운드 채널들에 공급하는 방법들의 종류(예를 들어, J. S. Usher and J. Benesty, "Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmixer", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 7, pp. 2141-2150, 2007; C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", J. Audio Eng. Soc, vol. 54, no. 11, pp. 1051-1064, 2006; C. Avendano and J.-M. Jot, "Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix", in Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, vol. 2, 2002, pp. II-1957 - II-1960; 및 R. Irwan and R. M. Aarts, "Two-to-Five Channel Sound Processing", J. Audio Eng. Soc, vol. 50, no. 11, pp. 914-926, 2002 참조), 및 기존의 채널들을 매트릭스화함으로써 부가적인 채널들에 대한 구동 신호들을 생성하는 방법들의 종류(예를 들어, R. Dressler. (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. [Online]. Available: http://www.dolby.com/uploadedFiles/Assets/US/Doc/Professional/209_Dolby_Surround_Pro_Logic_II_Decoder_Principles_of_Operation.pdf 참조). 특수한 경우는, 미국 특허 출원 공개공보 제 US2010/0296672 A1 "Two-to-Three Channel Upmix For Center Channel Derivation" by E. Vickers에서 제안된 방법이며, 여기서, 앰비언스 추출 대신 공간 분해가 수행된다. 다른 것들 중에서, 앰비언스 생성 방법들은, 인공적인 반향을 적용하는 단계, 좌측 및 우측 신호들의 차이를 계산하는 단계, 서라운드 채널들 및 상관 기반 신호 분석들을 위해 작은 지연들을 적용하는 단계를 포함할 수 있다. 매트릭스화 기술들에 대한 예들은 선형 매트릭스 변환기들 및 매트릭스 스티어링 방법들이다. 이들 방법들의 간단한 개관은, C. Avendano and J.-M. Jot in "Frequency Domain Techniques for Stereo to Multichannel Upmix", in 22nd International Conference of the AES on Virtual, Synthetic and Entertain-ment Audio, 2002 및 the same authors in "Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix" in Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, vol. 2, 2002, pp. II-1957 - II-1960에 의해 주어진다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

멀티-채널 오디오 업-믹스에 대한 스테레오 신호들로부터의 앰비언스 추출 및 합성은, 스테레오 오디오 신호들에서 앰비언스 정보를 식별 및 추출하기 위한 주파수-도메인 기술에 의해 달성될 수 있다. 방법은, 당업자들이 2채널 신호에서 주로 앰비언스 컴포넌트들로 구성되는 시간-주파수 영역들을 결정하게 하는 인터-채널 코히런스 인덱스 및 비-선형 매핑 기능의 계산에 기초한다. 그 후, 앰비언스 신호들은, 멀티채널 재생 시스템의 서라운드 채널들을 공급하기 위해 합성 및 사용된다. 시뮬레이션 결과들은 앰비언스 정보를 추출할 시에 기술의 효율성을 시연하며, 실제 오디오에 대한 업-믹스 테스트들은 이전의 업-믹스 방식들과 비교하여 시스템의 다양한 이점들 및 단점들을 노출한다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

스테레오 투 멀티채널 업믹스를 위한 주파수 도메인 기술들은 또한, 공간 오디오 신호를 재생 라우드스피커 셋업으로 조정하는 것과 관련하여 또는 그의 맥락에서 이용될 수도 있다. 스테레오 레코딩들로부터 멀티채널 오디오를 생성하기 위한 수 개의 업믹싱 기술들이 이용가능하다. 기술들은, 좌측 및 우측 스테레오 신호들의 짧은-시간 퓨리에 변환들 사이의 비교에 기초하여 공통 분석 프레임워크를 사용한다. 인터-채널 코히런트 측정은, 앰비언스 컴포넌트들로 주로 구성되는 시간-주파수 영역들을 식별하는데 사용되며, 그 후, 그 컴포넌트들은 비-선형 매핑 기능을 통해 가중될 수 있고, 앰비언스 신호들을 합성하기 위해 추출될 수 있다. 유사성 측정은, 시간-주파수 평면에서 믹스 내의 다양한 소스들의 패닝 계수들을 식별하는데 사용되며, 상이한 매핑 기능들이 하나 또는 그 초과의 소스들을 언믹싱(unmix)(추출)하고 그리고/또는 임의의 수의 채널들로 신호들을 리-패닝하기 위해 적용된다. 다양한 기술들 중 하나의 가능한 애플리케이션은 2-투-5 채널 업믹스 시스템의 설계에 관련된다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

서라운드 디코더는, 속성상 설득력있는 방식으로 종래의 뮤직 레코딩들에서 숨겨진 공간 단서들을 나타내는 것에 숙달되어 있을 수도 있다. 청취자는, 평평한 2차원 제시를 듣기보다는 3차원 공간으로 끌여지게 된다(draw into). 이것은, 더 많이 관계된 사운드필드를 전개하는 것을 도울 뿐만 아니라, 종래의 스테레오 재생의 협소한 "스위트 스팟" 문제를 해결한다. 몇몇 로직 디코더들에서, 제어 회로는, 입력 신호들 사이의 상대적인 레벨 및 위상을 관측한다. 이러한 정보는 역위상(antiphase) 신호들의 레벨을 제어하는 VCA들을 조정하기 위해 가변 출력 매트릭스 스테이지로 전송된다. 역위상 신호들은 원치않는 혼선 신호들을 소거시켜서, 개선된 채널 분리도를 초래한다. 이것은 피드포워드(feedforward) 설계로 지칭된다. 이러한 개념은, 동일한 입력 신호들을 관측하고 폐쇄 루프 제어를 수행함으로써 확장될 수도 있어서, 그 신호들이 그들의 레벨들과 매칭하게 한다. 이들 매칭된 오디오 신호들은, 다양한 출력 채널들을 도출하기 위해 매트릭스 스테이지들로 직접 전송된다. 출력 매트릭스를 공급하는 동일한 오디오 신호들 그 자체가 서보(servo) 루프를 제어하는데 사용되기 때문에, 그것은 피드백 로직 설계로 지칭된다. 피드백 제어의 개념은 정확도를 개선시킬 수도 있고, 동적 특성들을 최적화시킬 수도 있다. 로직 스티어링 프로세스 주변에 글로벌 피드백을 포함시키는 것은, 스티어링 정확도 및 동적 거동에서 유사한 이점들을 가져온다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

다수의 라우드스피커 재생과 관련하여, 가상 사운드 스테이지에 대한 정보를 캡쳐하는 2-채널 스테레오 오디오 신호들에 대한 지각적으로 유발된 공간 분해가 사용될 수도 있다. 공간 분해는, 2-채널 스테레오 이외의 사운드 시스템들에 걸친 재생을 위해 오디오 신호들을 합성하는 것을 허용한다. 더 많은 전면 라우드스피커들의 사용으로, 가상 사운드 스테이지의 폭은 ±30°를 초과하여 증가될 수 있으며, 스위트-스팟 영역이 확장된다. 선택적으로, 측면 독립적인 사운드 컴포넌트들은, 청취자 엔빌로프먼트를 증가시키기 위해 청취자 측들 상에서 라우드스피커들을 통해 별개로 재생될 수 있다. 공간 분해는, 서라운드 사운드 및 웨이브필드(wavefield) 합성-기반 오디오 시스템들과 함께 사용될 수 있다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

공간 오디오 코딩 및 향상을 위한 1차-앰비언스 신호 분해 및 벡터-기반 로컬화는, 멀티채널 오디오를 저장 및 분배하고, 임의의 재생 시스템들 상에 콘텐츠를 최적으로 렌더링하기 위한 증가하는 상업적인 필요성을 해결한다. 공간 분석-합성 방식은, 본래의 오디오를 1차 및 앰비언스 컴포넌트들로 분리시키기 위해 본래의 오디오의 STFT-도메인(짧은 시간 주파수 변환 도메인) 표현에 주요한 컴포넌트 분석을 적용할 수도 있으며, 그 후, 그 컴포넌트들은, 타일 기반으로 오디오 장면의 공간 지각대상(percept)을 설명하는 단서들에 대해 각각 분석되고; 이들 단서들은, 이용가능한 재생 시스템 상에 오디오를 적절히 렌더링하도록 합성기에 의해 사용될 수도 있다. 이러한 프레임워크는, 강인한 공간 오디오 코딩을 위해 맞춤화될 수 있거나, 그 프레임워크는, 중간 공간 데이터 및 오디오 표현에 대한 어떠한 레이트 제한들도 존재하지 않는 향상 시나리오들에 직접 적용될 수 있다.

뮤직 음향들에서의 넓음(spaciousness) 및 엔빌로프먼트에 대해, 종래의 지식은, 넓음 및 엔빌로프먼트가 룸(room)들 내의 측면 사운드 에너지에 의해 야기된다고 간주(hold)하며, 주로 일찍 도달한 측면 에너지가 가장 책임이 있다. 그러나, 정의에 의해, 작은 룸들은 넓지 않지만, 그 룸들은 이른 측면 반사들로 로딩될 수 있다. 따라서, 넓음 및 엔빌로프먼트에 대한 지각적 메커니즘들은 공간 오디오 신호의 조정에 대한 영향을 가질 수도 있다. 지각들은, 음색(note)들이 유지되는 경우, 음색들(배경 반향)의 말단들에서 홀(hall)들에서의 측면(산란) 에너지에 가장 일반적으로 그리고 덜 빈번하지만 중요하게는 사운드 필드의 속성들에 관련되는 것으로 발견된다. LEDT(lateral early decay time)로 지칭되는 넓음에 대한 측정이 제안된다. 이들 양상들 중 하나 또는 그 초과는 공간 오디오 신호의 제안된 조정과 관련하여 또는 그 조정의 맥락에서 이용될 수도 있다.

Claims

본래의 라우드스피커 셋업에 대한 공간 오디오 신호(2)를, 상기 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 적응시키기 위한 장치(100)로서,
상기 공간 오디오 신호(2)는 복수의 채널 신호들을 포함하되, 각 채널 신호는 상기 본래의 라우드스피커 셋업의 라우드스피커에 대응하는 라우드스피커 채널 신호이고,
상기 장치는,
상기 복수의 채널 신호들을 복수의 본래의 세그먼트들로 그룹화하도록 구성된 그룹화기(110) ― 적어도 2개의 이웃한 채널 신호들은 본래의 세그먼트로 그룹화되고, 라우드스피커는 좌측 본래의 세그먼트 및 우측 본래의 세그먼트로 할당됨 ―;
상기 좌측 본래의 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트(D; 732) 및 적어도 하나의 앰비언스(ambience) 컴포넌트(A; 734)로 분해하고, 상기 좌측 본래의 세그먼트에 대하여 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S, S₁, S₂)의 도달 방향을 결정하도록 구성하고, 그리고 상기 우측 본래의 세그먼트에 대하여 상기 우측 본래의 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트 및 적어도 하나의 앰비언스 컴포넌트로 분해하고, 상기 우측 본래의 세그먼트에 대하여 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향을 결정하도록 구성된 다이렉트-앰비언스 분해기(130);
상기 좌측 본래의 세그먼트와 연관된 제1 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 수신하며, 적어도 하나의 조정된 다이렉트 사운드 컴포넌트를 획득하기 위하여 상기 제1 재생 세그먼트에 대한 상기 재생 라우드스피커 셋업 정보를 사용하여 상기 좌측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트(D; 732)를 조정하도록 구성되어, 상기 재생 라우드스피커 셋업 내의 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S, S₁, S₂)의 인지된 도달 방향이 상기 좌측 본래의 세그먼트의 도달 방향과 동일하거나 상기 적어도 하나의 다이렉트 사운드 컴포넌트에 어떠한 조정도 발생하지 않는 상황과 비교하여 상기 좌측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하게 하고, 그리고 상기 우측 본래의 세그먼트와 연관된 제2 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 수신하며, 적어도 하나의 추가 조정된 다이렉트 사운드 컴포넌트를 획득하기 위하여 상기 제2 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 상기 우측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트를 조정하도록 구성하여, 상기 재생 라우드스피커 셋업 내의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 인지된 도달 방향이 상기 우측 본래의 세그먼트의 도달 방향과 동일하거나 상기 적어도 하나의 다이렉트 사운드 컴포넌트에 어떠한 조정도 발생하지 않는 상황과 비교하여 상기 우측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하게 하는 다이렉트 사운드 렌더러(150); 및
상기 적어도 하나의 조정된 다이렉트 사운드 컴포넌트(752)를 상기 제1 재생 세그먼트의 상기 앰비언스 컴포넌트들(734) 또는 변경된 앰비언스 컴포넌트들에 결합하도록 구성되고, 그리고 상기 적어도 하나의 추가 조정된 다이렉트 사운드 컴포넌트를 상기 제2 재생 세그먼트의 상기 앰비언스 컴포넌트들 또는 변경된 앰비언스 컴포넌트들에 결합하도록 구성된 결합기(180)를 포함하는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 재생 라우드스피커 셋업은, 상기 좌측 또는 우측 본래의 세그먼트가 상기 재생 라우드스피커 세그먼트의 2개 또는 그 초과의 세그먼트들에 대응하도록 상기 좌측 또는 우측 본래의 세그먼트 내에 부가적인 라우드스피커(L₆)를 포함하며,
상기 다이렉트 사운드 렌더러(150)는, 상기 재생 라우드스피커 셋업의 상기 적어도 2개의 라우드스피커들 및 상기 부가적인 라우드스피커에 대한 조정된 다이렉트 사운드 컴포넌트들(752)을 생성하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 재생 라우드스피커 셋업은 상기 본래의 라우드스피커 셋업과 비교하여 라우드스피커가 부족하여, 상기 좌측 또는 우측 본래의 세그먼트 및 이웃한 좌측 또는 우측 본래의 세그먼트가 상기 재생 라우드스피커 셋업의 하나의 병합된 세그먼트로 병합되며,
상기 다이렉트 사운드 렌더러(150)는, 상기 재생 라우드스피커 셋업에서 부족한 라우드스피커에 대응하는 채널의 조정된 다이렉트 사운드 컴포넌트들(752)을 상기 재생 라우드스피커 셋업의 병합된 세그먼트의 적어도 2개의 나머지 라우드스피커들(L₁, L₃)에 분배하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 상기 본래의 라우드스피커 셋업으로부터 상기 재생 라우드스피커 셋업으로 전달하는 경우, 상기 좌측 또는 우측 본래의 세그먼트({L₂, L₃})와 이웃한 세그먼트({L₁, L'₂}) 사이의 경계가 결정된 도달 방향을 벗어나면, 상기 좌측 또는 우측 본래의 세그먼트({L₂, L₃})로부터의 결정된 도달 방향을 갖는 다이렉트 사운드 컴포넌트(S₂)를 상기 이웃한 세그먼트({L₁, L'₂})에 재배당하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 4 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 적어도 하나의 제 1 라우드스피커(L₃)로부터의 결정된 도달 방향을 갖는 상기 다이렉트 사운드 컴포넌트(S₂)를 적어도 하나의 제 2 라우드스피커(L'₂)에 재배당하도록 추가적으로 구성되며,
상기 적어도 하나의 제 1 라우드스피커(L₃)는, 상기 재생 라우드스피커 셋업 내의 상기 이웃한 세그먼트({L₁, L'₂})가 아니라 상기 좌측 또는 우측 본래의 세그먼트({L₂, L₃})에 할당되고, 상기 적어도 하나의 제 2 라우드스피커(L'₂)는 상기 재생 라우드스피커 셋업 내의 상기 이웃한 세그먼트({L₁, L'₂})에 할당되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 상기 재생 라우드스피커 셋업 정보 및 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향을 사용하여, 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S, S₁, S₂)의 리패닝(repan)을 수행하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 6 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 상기 좌측 또는 우측 본래의 세그먼트({L₁, L₂}) 내의 라우드스피커들(L₁, L₂) 중 적어도 하나가 결정된 도달 방향을 벗어나지 않으면서 상기 재생 라우드스피커 셋업의 대응하는 변경된 세그먼트{L₁, L'₂}에서 변위(displace)되면, 상기 재생 라우드스피커 셋업의 대응하는 변경된 세그먼트{L₁, L'₂} 내의 라우드스피커들(L₁, L'₂)에 대한 조정된 라우드스피커 신호들을 획득하기 위해, 상기 좌측 또는 우측 본래의 세그먼트({L₁, L₂}) 내의 라우드스피커들(L₁, L₂)에 대한 라우드스피커 신호들을 조정함으로써, 상기 결정된 도달 방향을 갖는 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S₁)의 리패닝을 수행하도록 추가적으로 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 상기 재생 라우드스피커 셋업의 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들에 대한 라우드스피커-세그먼트-특정 다이렉트 사운드 컴포넌트들을 생성하도록 구성되고,
상기 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들은 상기 재생 라우드스피커 셋업 내의 동일한 라우드스피커 및 2개의 이웃한 세그먼트들을 지칭하며,
상기 결합기(180)는, 상기 재생 라우드스피커 셋업의 상기 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들 중 하나를 획득하기 위해, 상기 동일한 라우드스피커를 지칭하는 상기 적어도 2개의 유효한 라우드스피커-세그먼트 쌍들에 대한 라우드스피커-세그먼트-특정 다이렉트 사운드 컴포넌트들을 결합하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 다이렉트 사운드 렌더러(150)는, 상기 재생 라우드스피커 셋업의 주어진 세그먼트에 대한 적어도 하나의 다이렉트 사운드 컴포넌트(D; 732)를 프로세싱하여, 상기 주어진 세그먼트에 할당된 각각의 라우드스피커에 대한 조정된 다이렉트 사운드 컴포넌트들을 생성하도록 추가적으로 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 좌측 또는 우측 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 수신하며, 상기 적어도 하나의 앰비언스 컴포넌트의 어떠한 조정도 발생하지 않는 상황과 비교하여, 상기 재생 라우드스피커 셋업 내의 상기 적어도 하나의 앰비언스 컴포넌트의 인지된 엔빌로프먼트(envelopment)가 상기 좌측 또는 우측 본래의 세그먼트의 상기 적어도 하나의 앰비언스 컴포넌트의 엔빌로프먼트와 동일하거나 상기 좌측 또는 우측 본래의 세그먼트의 상기 적어도 하나의 앰비언스 컴포넌트의 엔빌로프먼트에 더 근접하도록, 상기 좌측 또는 우측 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 상기 적어도 하나의 앰비언스 컴포넌트를 조정하도록 구성된 앰비언스 렌더러(170)를 더 포함하는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 그룹화기(110)는, 적어도 2개의 채널들 중 일 채널이 얼마나 많은 본래의 세그먼트들에 할당되는지의 함수로서 상기 적어도 2개의 채널들을 스캐일링(scale)하도록 추가적으로 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 재생 라우드스피커 셋업 내의 라우드스피커와 청취자 사이의 거리에 대한 거리 정보를 사용하여 상기 재생 라우드스피커 셋업의 적어도 2개의 라우드스피커들에 대한 라우드스피커 신호들 중 적어도 하나의 진폭 및 지연 중 적어도 하나를 조정하도록 구성된 거리 조정기(190)를 더 포함하는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
상기 재생 라우드스피커 셋업에 대한 청취자의 현재 포지션을 결정하고, 상기 청취자의 현재 포지션을 사용하여 상기 재생 라우드스피커 셋업 정보를 결정하도록 구성된 청취자 추적기를 더 포함하는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
제 1 항에 있어서,
시간 도메인 표현으로부터 주파수 도메인 표현 또는 시간-주파수 도메인 표현으로 상기 공간 오디오 신호를 변환하도록 구성된 시간-주파수 변환기를 더 포함하며,
상기 다이렉트-앰비언스 분해기 및 상기 다이렉트 사운드 렌더러는, 상기 주파수 도메인 표현 또는 상기 시간-주파수 도메인 표현을 프로세싱하도록 구성되는, 재생 라우드스피커 셋업으로 적응시키기 위한 장치.
본래의 라우드스피커 셋업에 대한 공간 오디오 신호(2)를, 상기 본래의 라우드스피커 셋업과는 상이한 재생 라우드스피커 셋업으로 적응시키기 위한 방법으로서,
상기 공간 오디오 신호(2)는 복수의 채널 신호들을 포함하되 각 채널 신호는 상기 본래의 라우드스피커 셋업의 라우드스피커에 대응하는 라우드스피커 채널 신호이고,
상기 방법은,
상기 복수의 채널 신호들을 복수의 본래의 세그먼트들로 그룹화하는 단계(802) ― 적어도 2개의 이웃한 채널 신호들은 본래의 세그먼트로 그룹화되고, 라우드스피커는 좌측 본래의 세그먼트 및 우측 본래의 세그먼트로 할당됨 ―;
상기 좌측 본래의 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트(D; 732) 및 적어도 하나의 앰비언스 컴포넌트(A; 734)로 분해(804)하고 상기 좌측 본래의 세그먼트에 대하여 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S, S₁, S₂)의 도달 방향을 결정하고, 그리고 상기 우측 본래의 세그먼트에 대하여 상기 우측 본래의 세그먼트 내의 적어도 2개의 채널 신호들을 적어도 하나의 다이렉트 사운드 컴포넌트 및 적어도 하나의 앰비언스 컴포넌트로 분해하고, 상기 우측 본래의 세그먼트에 대하여 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향을 결정하는 단계;
적어도 하나의 조정된 다이렉트 사운드 컴포넌트를 획득하기 위하여 제1 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 상기 좌측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트(D; 732)를 조정(808)하여, 상기 재생 라우드스피커 셋업 내의 상기 적어도 하나의 다이렉트 사운드 컴포넌트(S, S₁, S₂)의 인지된 도달 방향이 상기 좌측 본래의 세그먼트의 도달 방향과 동일하거나 상기 적어도 하나의 다이렉트 사운드 컴포넌트에 어떠한 조정도 발생하지 않는 상황과 비교하여 상기 좌측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하도록 하고, 그리고 적어도 하나의 추가 조정된 다이렉트 사운드 컴포넌트를 획득하기 위하여 제2 재생 세그먼트에 대한 재생 라우드스피커 셋업 정보를 사용하여 상기 우측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트를 조정하여, 상기 재생 라우드스피커 셋업 내의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 인지된 도달 방향이 상기 우측 본래의 세그먼트의 도달 방향과 동일하거나 상기 적어도 하나의 다이렉트 사운드 컴포넌트에 어떠한 조정도 발생하지 않는 상황과 비교하여 상기 우측 본래의 세그먼트의 상기 적어도 하나의 다이렉트 사운드 컴포넌트의 도달 방향에 더 근접하도록 하는 단계; 및
상기 적어도 하나의 조정된 다이렉트 사운드 컴포넌트(752)를 상기 제1 재생 세그먼트의 상기 앰비언스 컴포넌트들(734) 또는 변경된 앰비언스 컴포넌트들에 결합(809)하고, 그리고 상기 적어도 하나의 추가 조정된 다이렉트 사운드 컴포넌트를 상기 제2 재생 세그먼트의 상기 앰비언스 컴포넌트들 또는 변경된 앰비언스 컴포넌트들에 결합하는 단계를 포함하는, 재생 라우드스피커 셋업으로 적응시키기 위한 방법.
컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 청구항 제 15 항에 기재된 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 매체.