KR102332632B1

KR102332632B1 - 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링

Info

Publication number: KR102332632B1
Application number: KR1020207027124A
Authority: KR
Inventors: 안토니오 마테오스 소울; 니콜라스 알. 칭고스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2013-03-28
Filing date: 2014-03-10
Publication date: 2021-12-02
Also published as: US11564051B2; IL245897B; KR20160046924A; BR122022005121B1; KR102160406B1; IL287080B; CN107396278A; CN107396278B; EP3282716B1; US20200336855A1; HK1245557B; KR20210149191A; HK1246553A1; US11019447B2; AU2018202867B2; JP6877510B2; RU2017130902A3; IL266096B; AU2021261862A1; JP6607904B2

Abstract

다수의 가상 소스 위치들이 오디오 오브젝트들이 이동할 수 있는 볼륨에 대해 정의될 수 있다. 오디오 데이터를 렌더링하기 위한 셋-업 프로세스는 재생 스피커 위치 데이터를 수신하는 단계 및 상기 재생 스피커 위치 데이터 및 각각의 가상 소스 위치에 따라 가상 소스들의 각각에 대한 이득 값들을 사전-계산하는 단계를 수반할 수 있다. 이득 값들은 "런 타임" 동안 저장되고 사용될 수 있으며, 그동안 오디오 재생 데이터는 재생 환경의 스피커들에 대해 렌더링된다. 런 타임 동안, 각각의 오디오 오브젝트에 대해, 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터에 의해 정의된 볼륨 또는 영역 내에서의 가상 소스 위치들로부터의 기여들이 계산될 수 있다. 재생 환경의 각각의 출력 채널에 대한 이득 값들의 세트는 적어도 부분적으로, 계산된 기여들에 기초하여 계산될 수 있다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다.

Description

임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링{RENDERING OF AUDIO OBJECTS WITH APPARENT SIZE TO ARBITRARY LOUDSPEAKER LAYOUTS}

관련 출원들에 대한 상호 참조

본 출원은 2013년 3월 28일에 출원된, 스페인 특허 출원 번호 제P201330461호 및 2013년 6월 11일에 출원된, 미국 가 특허 출원 번호 제61/833,581호에 대한 우선권을 주장하며, 그 각각은 여기에 전체적으로 참조로서 통합된다.

본 개시는 오디오 재생 데이터의 저작(authoring) 및 렌더링에 관한 것이다. 특히, 본 개시는 시네마 사운드 재생 시스템들과 같은 재생 환경들을 위한 오디오 재생 데이터를 저작하며 렌더링하는 것에 관한 것이다.

1927년에 영화에서 사운드가 도입된 이래, 모션 픽쳐 사운드 트랙의 예술적 의도를 포착하여 이를 시네마 환경에서 재생하기 위해 사용된 기술의 안정된 발전이 있어 왔다. 1930년대에, 디스크 상에서의 동기화된 사운드는 영화상에서 가변적인 영역 사운드에 길을 열었으며, 이러한 것은 1940년대에 들어 다중-트랙 레코딩 및 조종 가능한 재생(사운드들을 이동하기 위해 제어 톤들을 사용하여)의 조기 도입과 함께, 극장 음향을 고려하고 개선된 라우드스피커 디자인에 있어 더욱 개선되었다. 1950년대 및 1960년대에는, 영화의 자기 스트라이핑(magnetic striping)이 극장에서 다-채널 재생을 가능하게 했으며, 프리미엄 극장들에서 서라운드 채널들 및 5개까지의 스크린 채널들을 도입하였다.

1970년대에, 돌비(Dolby)는 3개의 스크린 채널들 및 모노 서라운드 채널을 갖는 믹스들(mixes)을 인코딩하고 분배하는 비용-효과적 수단들과 함께, 후반-제작(post-production)에서와 영화상의 양쪽 모두에 잡음 감소를 도입하였다. 시네마 사운드의 품질은 THX와 같은 돌비 스펙트럴 레코딩(SR) 잡음 감소 및 증명 프로그램들로 1980년대에 더욱 개선되었다. 돌비는 별개의 좌측, 중심, 및 우측 스크린 채널들, 좌측 및 우측 서라운드 어레이들 및 저-주파수 효과들을 위한 서브우퍼 채널을 제공하는 5.1 채널 포맷으로, 1990년대 동안 디지털 사운드를 시네마로 가져왔다. 2010년에 도입된 돌비 서라운드 7.1은 기존의 좌측 및 우측 서라운드 채널들을 4개의 "구역들"로 분리함으로써 서라운드 채널들의 수를 증가시켰다.

채널들의 수가 증가하고 라우드스피커 배치(layout)가 평면 2-차원(2D) 어레이에서 고도를 포함한 3-차원(3D) 어레이로 전이됨에 따라, 사운드들을 저작하며 렌더링하는 작업들은 점점 더 복잡해지고 있다.

종래 기술들에 대해 더 개선된 방법들 및 디바이스들이 바람직할 것이다.

본 개시에 설명된 주제의 몇몇 양상들은 임의의 특정한 재생 환경에 대한 참조 없이 생성된 오디오 오브젝트들을 포함하는 오디오 재생 데이터를 렌더링하기 위한 툴들(tools)에서 구현될 수 있다. 여기에 사용된 바의, 용어 "오디오 오브젝트"는 오디오 신호들의 스트림 및 연관된 메타데이터를 나타낼 수 있다. 상기 메타데이터는 적어도 상기 오디오 오브젝트의 위치 및 겉보기 크기를 표시할 수 있다. 그러나, 상기 메타데이터는 또한 렌더링 제약 데이터, 콘텐트 유형 데이터(예로서, 다이얼로그, 효과들 등), 이득 데이터, 궤적 데이터 등을 표시할 수 있다. 몇몇 오디오 오브젝트들은 정적일 수 있는 반면, 다른 것들은 시변 메타데이터를 가질 수 있으며: 이러한 오디오 오브젝트들은 이동할 수 있고, 크기를 변경할 수 있으며 및/또는 시간에 걸쳐 변화하는 다른 속성들을 가질 수 있다.

오디오 오브젝트들이 재생 환경에서 모니터링되거나 또는 재생될 때, 상기 오디오 오브젝트들은 적어도 상기 위치 및 크기 메타데이터에 따라 렌더링될 수 있다. 상기 렌더링 프로세스는 출력 채널들의 세트의 각각의 채널에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 것을 수반할 수 있다. 각각의 출력 채널은 상기 재생 환경의 하나 이상의 재생 스피커들에 대응할 수 있다.

여기에 설명된 몇몇 구현들은 임의의 특정한 오디오 오브젝트들을 렌더링하기 전에 발생할 수 있는 "셋-업" 프로세스를 수반한다. 또한, 여기에서 제 1 스테이지 또는 스테이지 1로서 불릴 수 있는, 상기 셋-업 프로세스는 상기 오디오 오브젝트들이 이동할 수 있는 볼륨에서 다수의 가상 소스 위치들을 정의하는 것을 수반할 수 있다. 여기에 사용된 바의, "가상 소스 위치"는 정적 포인트 소스의 위치이다. 이러한 구현들에 따르면, 상기 셋-업 프로세스는 재생 스피커 위치 데이터를 수신하고, 상기 재생 스피커 위치 데이터 및 상기 가상 소스 위치에 따라 상기 가상 소스들의 각각에 대한 가상 소스 이득 값들을 사전-계산하는 것을 수반할 수 있다. 여기에 사용된 바와 같은, 용어 "스피커 위치 데이터" 는 상기 재생 환경의 스피커들의 일부 또는 모두의 위치들을 표시하는 위치 데이터를 포함할 수 있다. 상기 위치 데이터는 상기 재생 스피커 위치들의 절대 좌표들, 예를 들면, 데카르트 좌표들, 구 좌표들 등으로서 제공될 수 있다. 대안적으로, 또는 부가적으로, 위치 데이터는 재생 환경의 음향 "스윗 스팟들(sweet spots)"과 같은, 다른 재생 환경 위치들에 대한 좌표들(예로서, 예를 들면 데카르트 좌표들 또는 각도 좌표들)로서 제공될 수 있다.

몇몇 구현들에서, 상기 가상 소스 이득 값들은 "런 타임" 동안 저장되고 사용될 수 있으며, 그동안 오디오 재생 데이터는 상기 재생 환경의 스피커들에 대해 렌더링된다. 런 타임 동안, 각각의 오디오 오브젝트에 대해, 오디오 오브젝트 위치 데이터 및 상기 오디오 오브젝트 크기 데이터에 의해 정의된 영역 또는 볼륨 내에서의 가상 소스 위치들로부터의 기여들이 계산될 수 있다. 가상 소스 위치들로부터의 기여들을 계산하는 프로세스는 상기 오디오 오브젝트의 크기 및 위치에 의해 정의된 오디오 오브젝트 영역 또는 볼륨 내에 있는 가상 소스 위치들에 대해, 셋-업 프로세스 동안 결정된, 다수의 사전-계산된 가상 소스 이득 값들의 가중 평균을 계산하는 것을 수반할 수 있다. 재생 환경의 각각의 출력 채널에 대한 오디오 오브젝트 이득 값들의 세트는 적어도 부분적으로, 상기 계산된 가상 소스 기여들에 기초하여 계산될 수 있다. 각각의 출력 채널은 상기 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다.

따라서, 여기에 설명된 몇몇 방법들은 하나 이상의 오디오 오브젝트들을 포함하는 오디오 재생 데이터를 수신하는 것을 수반한다. 상기 오디오 오브젝트들은 오디오 신호들 및 연관된 메타데이터를 포함할 수 있다. 상기 메타데이터는 적어도 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함할 수 있다. 상기 방법들은 상기 오디오 오브젝트 위치 데이터 및 상기 오디오 오브젝트 크기 데이터에 의해 정의된 오디오 오브젝트 영역 또는 볼륨 내에서의 가상 소스들로부터의 기여들을 계산하는 것을 수반할 수 있다. 상기 방법들은 적어도 부분적으로, 상기 계산된 기여들에 기초하여 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 것을 수반할 수 있다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다. 예를 들면, 상기 재생 환경은 시네마 사운드 시스템 환경일 수 있다.

가상 소스들로부터의 기여들을 계산하는 프로세스는 상기 오디오 오브젝트 영역 또는 볼륨 내에서의 가상 소스들로부터의 가상 소스 이득 값들의 가중 평균을 계산하는 것을 수반할 수 있다. 상기 가중 평균에 대한 가중들은 상기 오디오 오브젝트 영역 또는 볼륨 내에서의 상기 오디오 오브젝트의 위치, 상기 오디오 오브젝트의 크기, 및/또는 각각의 가상 소스 위치에 의존할 수 있다.

상기 방법들은 또한 재생 스피커 위치 데이터를 포함한 재생 환경 데이터를 수신하는 것을 수반할 수 있다. 상기 방법들은 또한 상기 재생 환경 데이터에 따라 복수의 가상 소스 위치들을 정의하고, 상기 가상 소스 위치들의 각각에 대해, 상기 복수의 출력 채널들의 각각에 대한 가상 소스 이득 값을 계산하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 가상 소스 위치들의 각각은 상기 재생 환경 내에서의 위치에 대응할 수 있다. 그러나, 몇몇 구현들에서, 상기 가상 소스 위치들의 적어도 일부는 상기 재생 환경 밖에 있는 위치들에 대응할 수 있다.

몇몇 구현들에서, 상기 가상 소스 위치들은 x, y, 및 z 축들에 따라 균일하게 이격될 수 있다. 그러나, 몇몇 구현들에서, 상기 간격은 모든 방향들에서 동일하지 않을 수 있다. 예를 들면, 상기 가상 소스 위치들은 x 및 y 축들을 따라 제 1 균일 간격 및 z 축을 따라 제 2 균일 간격을 가질 수 있다. 상기 복수의 출력 채널들의 각각에 대한 상기 오디오 오브젝트 이득 값들의 세트를 계산하는 프로세스는 상기 x, y 및 z 축들을 따라 가상 소스들로부터의 기여들의 독립적인 계산들을 수반할 수 있다. 대안적인 구현들에서, 상기 가상 소스 위치들은 균일하지 않게 이격될 수 있다.

몇몇 구현들에서, 상기 복수의 출력 채널들의 각각에 대한 상기 오디오 오브젝트 이득 값을 계산하는 프로세스는 위치(x_o, y_o, z_o)에서 렌더링될 크기(s)의 오디오 오브젝트에 대한 이득 값(g_l(x_o, y_o, z_o; s))을 결정하는 것을 수반할 수 있다. 예를 들면, 상기 오디오 오브젝트 이득 값(g_l(x_o, y_o, z_o; s))은 다음과 같이 표현될 수 있다:

,

여기에서 (x_vs, y_vs, z_vs)는 가상 소스 위치를 나타내고, g_ι(x_vs, y_vs, z_vs)는 가상 소스 위치(x_vs, y_vs, z_vs)에 대한 채널(l)에 대한 이득 값을 나타내며 w(x_vs, y_vs, z_vs; x_o, y_o, z_o;s)는 적어도 부분적으로, 오디오 오브젝트의 위치(x_o, y_o, z_o), 오디오 오브젝트의 크기(s) 및 가상 소스 위치(x_vs, y_vs, z_vs)에 기초하여 결정된, g_l(x_vs, y_vs, z_vs)에 대한 하나 이상의 가중 함수들을 나타낸다.

몇몇 이러한 구현들에 따르면, g_l(x_vs, y_vs, z_vs) = g_l(x_vs)g_l(y_vs)g_l(z_vs)이며, 여기에서 g_l(x_vs), g_l(y_vs) 및 g_l(z_vs)는 x, y, 및 z의 독립적인 이득 함수들을 나타낸다. 몇몇 이러한 구현들에서, 가중 함수들은 다음과 같은 인자로 된다:

w(x_vs, y_vs, z_vs; x_o, y_o, z_o; s) = w_x(x_vs; x_o; s)w_y(y_vs; y_o; s)w_z(z_vs; z_o; s),

여기에서 w_x(x_vs; x_o; s), w_y(y_vs; y_o; s) 및 w_z(z_vs; z_o; s)는 x_vs, y_vs 및 z_vs의 독립적인 가중 함수들을 나타낸다. 몇몇 이러한 구현들에 따르면, p는 오디오 오브젝트 크기(s)의 함수일 수 있다.

몇몇 이러한 방법들은 메모리 시스템에 계산된 가상 소스 이득 값들을 저장하는 것을 수반할 수 있다. 오디오 오브젝트 영역 또는 볼륨 내에서 가상 소스들로부터의 기여들을 계산하는 프로세스는 상기 메모리 시스템으로부터, 오디오 오브젝트 위치 및 크기에 대응하는 계산된 가상 소스 이득 값들을 검색하고, 상기 계산된 가상 소스 이득 값들 사이에서 보간하는 것을 수반할 수 있다. 상기 계산된 가상 소스 이득 값들 사이에서 보간하는 프로세스는: 상기 오디오 오브젝트 위치의 가까이에 있는 복수의 이웃하는 가상 소스 위치들을 결정하고; 상기 이웃하는 가상 소스 위치들의 각각에 대해 계산된 가상 소스 이득 값들을 결정하고; 상기 오디오 오브젝트 위치 및 상기 이웃하는 가상 소스 위치들의 각각 사이에서의 복수의 거리들을 결정하고; 상기 복수의 거리들에 따라 상기 계산된 가상 소스 이득 값들 사이에서 보간하는 것을 수반할 수 있다.

몇몇 구현들에서, 상기 재생 환경 데이터는 재생 환경 경계(boundary) 데이터를 포함할 수 있다. 상기 방법은 오디오 오브젝트 영역 또는 볼륨이 재생 환경 경계 외부의 바깥 영역 또는 볼륨을 포함한다는 것을 결정하고, 적어도 부분적으로 상기 바깥 영역 또는 볼륨에 기초하여 페이드-아웃 인자(fade-out factor)를 적용하는 것을 수반할 수 있다. 몇몇 방법들은 오디오 오브젝트가 재생 환경 경계로부터 임계 거리 내에 있을 수 있음을 결정하고, 상기 재생 환경의 반대 경계(opposing boundary)상에서의 재생 스피커들에 어떠한 스피커 공급 신호들도 제공하지 않는 것을 수반할 수 있다. 몇몇 구현들에서, 오디오 오브젝트 영역 또는 볼륨은 직사각형, 직사각형 프리즘, 원, 구, 타원 및/또는 타원체일 수 있다.

몇몇 방법들은 상기 오디오 재생 데이터의 적어도 일부를 역상관하는(decorrelating) 것을 수반할 수 있다. 예를 들면, 상기 방법들은 임계값을 초과하는 오디오 오브젝트 크기를 갖는 오디오 오브젝트들에 대한 오디오 재생 데이터를 역상관하는 것을 수반할 수 있다.

대안적인 방법들이 여기에 설명된다. 몇몇 이러한 방법들은 재생 스피커 위치 데이터 및 재생 환경 경계 데이터를 포함한 재생 환경 데이터를 수신하고, 하나 이상의 오디오 오브젝트들 및 연관된 메타데이터를 포함한 오디오 재생 데이터를 수신하는 것을 수반한다. 상기 메타데이터는 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함할 수 있다. 상기 방법들은 상기 오디오 오브젝트 위치 데이터 및 상기 오디오 오브젝트 크기 데이터에 의해 정의된, 오디오 오브젝트 영역 또는 볼륨이 재생 환경 경계 외부의 바깥 영역 또는 볼륨을 포함한다는 것을 결정하고, 적어도 부분적으로 상기 바깥 영역 또는 볼륨에 기초하여 페이드-아웃 인자를 결정하는 것을 수반할 수 있다. 상기 방법들은 적어도 부분적으로 상기 연관된 메타데이터 및 상기 페이드-아웃 인자에 기초하여 복수의 출력 채널들의 각각에 대한 이득 값들의 세트를 계산하는 것을 수반할 수 있다. 각각의 출력 채널은 상기 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다. 상기 페이드-아웃 인자는 상기 바깥 영역에 비례할 수 있다.

상기 방법들은 또한 오디오 오브젝트가 재생 환경 경계로부터의 임계 거리 내에 있을 수 있음을 결정하고, 상기 재생 환경의 반대 경계상에서의 재생 스피커들에 어떠한 스피커 공급 신호들도 제공하지 않는 것을 수반할 수 있다.

상기 방법들은 또한 상기 오디오 오브젝트 영역 또는 볼륨 내에서 가상 소스들로부터의 기여들을 계산하는 것을 수반할 수 있다. 상기 방법들은 상기 재생 환경 데이터에 따라 복수의 가상 소스 위치들을 정의하고, 상기 가상 소스 위치들의 각각에 대해, 복수의 출력 채널들의 각각에 대한 가상 소스 이득을 계산하는 것을 수반할 수 있다. 상기 가상 소스 위치들은 상기 특정한 구현에 의존하여, 균일하게 이격되거나 또는 이격되지 않을 수 있다.

몇몇 구현들은 소프트웨어를 저장한 하나 이상의 비-일시적 미디어에서 나타내어질 수 있다. 상기 소프트웨어는 하나 이상의 오디오 오브젝트들을 포함한 오디오 재생 데이터를 수신하기 위한 하나 이상의 디바이스들을 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 오브젝트들은 오디오 신호들 및 연관된 메타데이터를 포함할 수 있다. 상기 메타데이터는 적어도 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함할 수 있다. 상기 소프트웨어는 상기 하나 이상의 오디오 오브젝트들로부터의 오디오 오브젝트에 대해, 상기 오디오 오브젝트 위치 데이터 및 상기 오디오 오브젝트 크기 데이터에 의해 정의된 영역 또는 볼륨 내에서 가상 소스들로부터의 기여들을 계산하고, 적어도 부분적으로, 상기 계산된 기여들에 기초하여 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 것을 포함할 수 있다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다.

몇몇 구현들에서, 가상 소스들로부터의 기여들을 계산하는 프로세스는 상기 오디오 오브젝트 영역 또는 볼륨 내에서 상기 가상 소스들로부터 가상 소스 이득 값들의 가중 평균을 계산하는 것을 수반할 수 있다. 상기 가중 평균에 대한 가중들은 상기 오디오 오브젝트 영역 또는 볼륨 내에서의 상기 오디오 오브젝트의 위치, 상기 오디오 오브젝트의 크기 및/또는 각각의 가상 소스 위치에 의존할 수 있다.

상기 소프트웨어는 재생 스피커 위치 데이터를 포함한 재생 환경 데이터를 수신하기 위한 지시들을 포함할 수 있다. 상기 소프트웨어는 상기 재생 환경 데이터에 따라 복수의 가상 소스 위치들을 정의하며 상기 가상 소스 위치들의 각각에 대해, 상기 복수의 출력 채널들의 각각에 대한 가상 소스 이득 값을 계산하기 위한 지시들을 포함할 수 있다. 상기 가상 소스 위치들의 각각은 상기 재생 환경 내에서의 위치에 대응할 수 있다. 몇몇 구현들에서, 상기 가상 소스 위치들의 적어도 일부는 상기 재생 환경 외부의 위치들에 대응할 수 있다.

몇몇 구현들에 따르면, 상기 가상 소스 위치들은 균일하게 이격될 수 있다. 몇몇 구현들에서, 상기 가상 소스 위치들은 x 및 y 축들을 따라 제 1 균일 간격 및 z 축을 따라 제 2 균일 간격을 가질 수 있다. 상기 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 프로세스는 x, y, 및 z 축들을 따라 가상 소스들로부터의 기여들의 독립적인 계산들을 수반할 수 있다.

다양한 디바이스들 및 장치가 여기에 설명된다. 몇몇 이러한 장치는 인터페이스 시스템 및 로직 시스템을 포함할 수 있다. 상기 인터페이스 시스템은 네트워크 인터페이스를 포함할 수 있다. 몇몇 구현들에서, 상기 장치는 메모리 디바이스를 포함할 수 있다. 상기 인터페이스 시스템은 상기 로직 시스템과 상기 메모리 디바이스 사이에서의 인터페이스를 포함할 수 있다.

상기 로직 시스템은 상기 인터페이스 시스템으로부터, 하나 이상의 오디오 오브젝트들을 포함한 오디오 재생 데이터를 수신하기 위해 적응될 수 있다. 상기 오디오 오브젝트들은 오디오 신호들 및 연관된 메타데이터를 포함할 수 있다. 상기 메타데이터는 적어도 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함할 수 있다. 상기 로직 시스템은 상기 하나 이상의 오디오 오브젝트들로부터의 오디오 오브젝트에 대해, 상기 오디오 오브젝트 위치 데이터 및 상기 오디오 오브젝트 크기 데이터에 의해 정의된 오디오 오브젝트 영역 또는 볼륨 내에서의 가상 소스들로부터의 기여들을 계산하기 위해 적응될 수 있다. 상기 로직 시스템은 적어도 부분적으로, 상기 계산된 기여들에 기초하여 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하기 위해 적응될 수 있다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다.

가상 소스들로부터의 기여들을 계산하는 프로세스는 상기 오디오 오브젝트 영역 또는 볼륨 내에서 상기 가상 소스들로부터의 가상 소스 이득 값들의 가중 평균을 계산하는 것을 수반할 수 있다. 상기 가중 평균의 가중들은 상기 오디오 오브젝트 영역 또는 볼륨 내에서의 상기 오디오 오브젝트의 위치, 상기 오디오 오브젝트 크기 및 각각의 가상 소스 위치에 의존할 수 있다. 상기 로직 시스템은 상기 인터페이스 시스템으로부터, 재생 스피커 위치 데이터를 포함한 재생 환경 데이터를 수신하기 위해 적응될 수 있다.

상기 로직 시스템은 상기 재생 환경 데이터에 따라 복수의 가상 소스 위치들을 정의하며 상기 가상 소스 위치들의 각각에 대해, 상기 복수의 출력 채널들의 각각에 대한 가상 소스 이득 값을 계산하기 위해 적응될 수 있다. 상기 가상 소스 위치들의 각각은 상기 재생 환경 내에서의 위치에 대응할 수 있다. 그러나, 몇몇 구현들에서, 상기 가상 소스 위치들의 적어도 일부는 상기 재생 환경 외부의 위치들에 대응할 수 있다. 상기 가상 소스 위치들은 상기 구현에 의존하여, 균일하게 이격되거나 또는 이격되지 않을 수 있다. 몇몇 구현들에서, 상기 가상 소스 위치들은 x 및 y 축들을 따라 제 1 균일 간격 및 z 축을 따라 제 2 균일 간격을 가질 수 있다. 상기 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 프로세스는 상기 x, y, 및 z 축들을 따라 가상 소스들로부터의 기여들의 독립적인 계산들을 수반할 수 있다.

상기 장치는 또한 사용자 인터페이스를 포함할 수 있다. 상기 로직 시스템은 상기 사용자 인터페이스를 통해, 오디오 오브젝트 크기 데이터와 같은, 사용자 입력을 수신하기 위해 적응될 수 있다. 몇몇 구현에서, 상기 로직 시스템은 상기 입력 오디오 오브젝트 크기 데이터를 스케일링하기 위해 적응될 수 있다.

본 명세서에 설명된 주제의 하나 이상의 구현들의 세부사항들이 이하의 첨부한 도면들 및 설명에 제시된다. 다른 특징들, 양상들, 및 이점들이 설명, 도면들 및 청구항들로부터 명백해질 것이다. 다음의 도면들의 상대적인 치수들은 일정한 비율로 그려지지 않을 수 있다는 것을 주의하자.

본 발명에 따라 시네마 사운드 재생 시스템들과 같은 재생 환경들을 위한 오디오 재생 데이터를 저작하며 렌더링할 수 있다.

도 1은 돌비 서라운드 5.1 구성을 갖는 재생 환경의 예를 도시한다.
도 2는 돌비 서라운드 7.1 구성을 갖는 재생 환경의 예를 도시한다.
도 3은 하마사키 22.2 서라운드 사운드 구성을 갖는 재생 환경의 예를 도시한다.
도 4A는 가상 재생 환경에서 가변적인 고도들(varying elevations)에서 스피커 구역들을 나타내는 그래픽 사용자 인터페이스(GUI)의 예를 도시한다.
도 4B는 또 다른 재생 환경의 예를 도시한다.
도 5A는 오디오 프로세싱 방법의 개요를 제공하는 흐름도이다.
도 5B는 셋-업 프로세스의 예를 제공하는 흐름도이다.
도 5C는 가상 소스 위치들에 대한 사전-계산된 이득 값들에 따라 수신된 오디오 오브젝트들에 대한 이득 값들을 계산하는 런-타임 프로세스의 예를 제공하는 흐름도이다.
도 6A는 재생 환경에 대한 가상 소스 위치들의 예를 도시한다.
도 6B는 재생 환경에 대한 가상 소스 위치들의 대안적인 예를 도시한다.
도 6C 내지 도 6F는 상이한 위치들에서 오디오 오브젝트들에 근거리장(near-field) 및 원거리장(far-field) 패닝 기술들을 적용하는 예들을 도시한다.
도 6G는 1과 같은 에지 길이를 갖는 정사각형의 각각의 코너에서 하나의 스피커를 갖는 재생 환경의 예를 예시한다.
도 7은 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터에 의해 정의된 영역 내에서 가상 소스들로부터의 기여들의 예를 도시한다.
도 8A 및 도 8B는 재생 환경 내에서의 두 개의 위치들에서 오디오 오브젝트를 도시한다.
도 9는 적어도 부분적으로 오디오 오브젝트의 영역 또는 볼륨 중에서 얼마나 많은 영역 또는 볼륨이 재생 환경의 경계 밖으로 연장되는지에 기초하여 페이드-아웃 인자를 결정하는 방법을 개괄하는 흐름도이다.
도 10은 저작 및/또는 렌더링 장치의 구성요소들의 예들을 제공하는 블록도이다.
도 11A는 오디오 콘텐트 생성을 위해 사용될 수 있는 몇몇 구성요소들을 나타내는 블록도이다.
도 11B는 재생 환경에서 오디오 재생을 위해 사용될 수 있는 몇몇 구성요소들을 나타내는 블록도이다.
다양한 도면들에서 유사한 참조 번호들 및 명칭들은 유사한 요소들을 표시한다.

다음의 설명은 본 개시의 몇몇 혁신적인 양상들, 뿐만 아니라 이들 혁신적인 양상들이 구현될 수 있는 콘텍스트들의 예들을 설명하는 목적들을 위한 특정한 구현들에 관한 것이다. 그러나, 여기에서의 교시들은 다양한 상이한 방식들로 적용될 수 있다. 예를 들면, 다양한 구현들이 특정한 재생 환경들에 대하여 설명되었지만, 여기에서의 교시들은 다른 알려진 재생 환경들, 뿐만 아니라 미래에 도입될 수 있는 재생 환경들에 광범위하게 적용 가능하다. 게다가, 설명된 구현들은 다양한 저작 및/또는 렌더링 툴들에서 구현될 수 있으며, 이것은 다양한 하드웨어, 소프트웨어, 펌웨어 등에서 구현될 수 있다. 따라서, 본 개시의 교시들은 도면들에 도시되고 및/또는 여기에 설명된 구현들에 제한되도록 의도되지 않지만, 대신에 광범위한 적용 가능성을 갖는다.

도 1은 돌비 서라운드 5.1 구성을 갖는 재생 환경의 예를 도시한다. 돌비 서라운드 5.1은 1990년대에 개발되었지만, 이러한 구성은 시네마 사운드 시스템 환경들에서 여전히 광범위하게 배치된다. 프로젝터(105)는 스크린(150) 상에서, 예로서 영화를 위한, 비디오 이미지들을 투사하도록 구성될 수 있다. 오디오 재생 데이터는 비디오 이미지들과 동기화되며 사운드 프로세서(110)에 의해 프로세싱될 수 있다. 전력 증폭기들(115)은 재생 환경(100)의 스피커들에 스피커 공급 신호들을 제공할 수 있다.

돌비 서라운드 5.1 구성은 좌측 서라운드 어레이(120) 및 우측 서라운드 어레이(125)를 포함하며, 그 각각은 단일 채널에 의해 갱-구동되는(gang-driven) 스피커들의 그룹을 포함한다. 돌비 서라운드 5.1 구성은 또한 좌측 스크린 채널(130), 중심 스크린 채널(135) 및 우측 스크린 채널(140)을 위한 별개의 채널들을 포함한다. 서브우퍼(145)를 위한 별개의 채널이 저-주파수 효과들(LFE)을 위해 제공된다.

2010년에, 돌비는 돌비 서라운드 7.1을 도입함으로써 디지털 시네마 사운드에 대한 강화들을 제공하였다. 도 2는 돌비 서라운드 7.1 구성을 갖는 재생 환경의 예를 도시한다. 디지털 프로젝터(205)는 디지털 비디오 데이터를 수신하도록 및 비디오 이미지들을 스크린(150) 상에 투사하도록 구성될 수 있다. 오디오 재생 데이터는 사운드 프로세서(210)에 의해 프로세싱될 수 있다. 전력 증폭기들(215)은 재생 환경(200)의 스피커들에 스피커 공급 신호들을 제공할 수 있다.

돌비 서라운드 7.1 구성은 좌 측면 서라운드 어레이(220) 및 우 측면 서라운드 어레이(225)를 포함하며, 그 각각은 단일 채널에 의해 구동될 수 있다. 돌비 서라운드 5.1과 같이, 돌비 서라운드 7.1 구성은 좌측 스크린 채널(230), 중심 스크린 채널(235), 우측 스크린 채널(240) 및 서브우퍼(245)를 위한 별개의 채널들을 포함한다. 그러나, 돌비 서라운드 7.1은 돌비 서라운드 5.1의 좌측 및 우측 서라운드 채널들을 4개의 구역들로 분리함으로써 서라운드 채널들의 수를 증가시킨다: 좌 측면 서라운드 어레이(220) 및 우 측면 서라운드 어레이(225) 외에, 좌측 후방 서라운드 스피커들(224) 및 우측 후방 서라운드 스피커들(226)을 위한 별개의 채널들이 포함된다. 재생 환경(200) 내에서 서라운드 구역들의 수를 증가시키는 것은 사운드의 국소화(localization)를 상당히 개선할 수 있다.

보다 몰입적인(immersive) 환경을 발생시키기 위한 노력으로, 몇몇 재생 환경들은 증가된 수들의 채널들에 의해 구동된, 증가된 수들의 스피커들을 갖고 구성될 수 있다. 게다가, 몇몇 재생 환경들은 그 일부가 재생 환경의 좌석 영역 위에 있을 수 있는, 다양한 고도들에서 배치된 스피커들을 포함할 수 있다.

도 3은 하마사키(Hamasaki) 22.2 서라운드 사운드 구성을 갖는 재생 환경의 예를 도시한다. 하마사키 22.2는 초고선명 텔레비전의 서라운드 사운드 구성요소로서 일본에서의 NHK Science & Techonology Research Laboratories에서 개발되었다. 하마사키 22.2는 3개의 층들에 배열된 스피커들을 구동하기 위해 사용될 수 있는, 24개의 스피커 채널들을 제공한다. 재생 환경(300)의 상부 스피커 층(310)은 9개의 채널들에 의해 구동될 수 있다. 중간 스피커 층(320)은 10개의 채널들에 의해 구동될 수 있다. 하부 스피커 층(330)은 5개의 채널들에 의해 구동될 수 있으며, 그 중 두 개는 서브우퍼들(345a 및 345b)을 위한 것이다.

따라서, 현재의 동향은 보다 많은 스피커들 및 보다 많은 채널들을 포함할 뿐만 아니라, 또한 상이한 높이들에서의 스피커들을 포함하는 것이다. 채널들의 수가 증가하고 스피커 배치가 2D 어레이에서 3D 어레이로 전이됨에 따라, 사운드들을 포지셔닝하고 렌더링하는 작업들은 점점 더 어려워지고 있다. 따라서, 본 양수인은 다양한 툴들 뿐만 아니라 관련된 사용자 인터페이스들을 개발하고 있으며, 이것은 3D 오디오 사운드 시스템을 위한 기능을 증가시키고 및/또는 저작 복잡도를 감소시킨다. 이들 툴들 중 일부는 여기에 참조로서 통합된, 2012년 4월 20일에 출원되며 "강화된 3D 오디오 저작 및 렌더링을 위한 시스템 및 툴들"("저작 및 렌더링 출원")이라는 제목의 미국 가 특허 출원 번호 제61/636,102호의 도 5A 내지 도 19D를 참조하여 상세히 설명된다.

도 4A는 가상 재생 환경에서 가변적인 고도들에서의 스피커 구역들을 나타내는 그래픽 사용자 인터페이스(GUI)의 예를 도시한다. GUI(400)는 예를 들면, 사용자 입력 디바이스들 등으로부터 수신된 신호들에 따라, 로직 시스템으로부터의 지시들에 따라 디스플레이 디바이스 상에 디스플레이될 수 있다. 몇몇 이러한 디바이스들은 도 10을 참조하여 이하에 설명된다.

가상 재생 환경(404)과 같은 가상 재생 환경들을 참조하여 여기에 사용된 바와 같이, 용어 "스피커 구역(speaker zone)" 는 일반적으로 실제 재생 환경의 재생 스피커와 1-대-1 대응을 갖거나 또는 갖지 않을 수 있는 논리 구성을 나타낸다. 예를 들면, "스피커 구역 위치"는 시네마 재생 환경의 특정한 재생 스피커 위치에 대응하거나 또는 대응하지 않을 수 있다. 대신에, 용어 "스피커 구역 위치" 는 일반적으로 가상 재생 환경의 구역을 나타낼 수도 있다. 몇몇 구현들에서, 가상 재생 환경의 스피커 구역은 예를 들면, 2-채널 스테레오 헤드폰들의 세트를 사용하여 실시간으로 가상 서라운드 사운드 환경을 생성하는, 돌비 헤드폰™(때때로 모바일 서라운드™로서 불림)과 같은 가상화 기술의 사용을 통해, 가상 스피커에 대응할 수 있다. GUI(400)에서, 제 1 고도에서의 7개의 스피커 구역들(402a) 및 제 2 고도에서의 두 개의 스피커 구역들(402b)이 있으며, 가상 재생 환경(404)에서 총 9개의 스피커 구역들을 만든다. 이 예에서, 스피커 구역들(1 내지 3)은 가상 재생 환경(404)의 전방 영역(405)에 있다. 전방 영역(405)은 예를 들면, 텔레비전 스크린이 위치되는 것과 같은 가정의 영역에 스크린(150)이 위치되는 시네마 재생 환경의 영역에 대응할 수 있다.

여기에서, 스피커 구역(4)은 일반적으로 좌측 영역(410)에서의 스피커들에 대응하며 스피커 구역(5)은 가상 재생 환경(404)의 우측 영역(415)에서의 스피커들에 대응한다. 스피커 구역(6)은 좌측 후방 영역(412)에 대응하며 스피커 구역(7)은 가상 재생 환경(404)의 우측 후방 영역(414)에 대응한다. 스피커 구역(8)은 상부 영역(420a)에서의 스피커들에 대응하며 스피커 구역(9)은 가상 천장 영역이 될 수도 있는 상부 영역(420b)에서의 스피커들에 대응한다. 따라서, 저작 및 렌더링 애플리케이션에서 보다 상세히 설명되는 바와 같이, 도 4A에 도시되는 스피커 구역들(1 내지 9)의 위치들은 실제 재생 환경의 재생 스피커들의 위치들에 대응하거나 또는 대응하지 않을 수 있다. 게다가, 다른 구현들은 보다 많거나 또는 보다 적은 스피커 구역들 및/또는 고도들을 포함할 수 있다.

저작 및 렌더링 애플리케이션에서 설명된 다양한 구현들에서, GUI(400)와 같은 사용자 인터페이스는 저작 툴 및/또는 렌더링 툴의 일부로서 사용될 수 있다. 몇몇 구현들에서, 저작 툴 및/또는 렌더링 툴은 하나 이상의 비-일시적 미디어 상에 저장된 소프트웨어를 통해 구현될 수 있다. 저작 툴 및/또는 렌더링 툴은 도 10을 참조하여 이하에 설명되는 로직 시스템 및 다른 디바이스들과 같은, 하드웨어, 펌웨어 등에 의해 (적어도 부분적으로) 구현될 수 있다. 몇몇 저작 구현들에서, 연관된 저작 툴이 연관된 오디오 데이터를 위한 메타데이터를 생성하기 위해 사용될 수 있다. 상기 메타데이터는 예를 들면, 3-차원 공간에서 오디오 오브젝트의 위치 및/또는 궤적을 표시한 데이터, 스피커 구역 제약 데이터 등을 포함할 수 있다. 상기 메타데이터는 실제 재생 환경의 특정한 스피커 배치에 대하여보다는, 가상 재생 환경(404)의 스피커 구역들(402)에 대하여 생성될 수 있다. 렌더링 툴은 오디오 데이터 및 연관된 메타데이터를 수신할 수 있으며, 재생 환경을 위한 오디오 이득들 및 스피커 공급 신호들을 계산할 수 있다. 이러한 오디오 이득들 및 스피커 공급 신호들은 진폭 패닝 프로세스에 따라 계산될 수 있으며, 이것은 사운드가 재생 환경에서 위치(P)로부터 온다는 지각을 생성할 수 있다. 예를 들면, 스피커 공급 신호들은 다음의 식에 따라 재생 환경의 재생 스피커들(1 내지 N)에 제공될 수 있다:

x_i(t) = g_ix(t), i = 1, ...N (식 1)

식 1에서, x_i(t)는 스피커(i)에 인가될 스피커 공급 신호를 나타내고, g_i는 대응하는 채널의 이득 인자를 나타내고, x(t)는 오디오 신호를 나타내며, t는 시간을 나타낸다. 이득 인자들은 예를 들면, 진폭-패닝된 가상 소스들의 변위를 보상하는 방법(Compensating Displacement of Amplitude-Panned Vitual Sources)(가상, 합성 및 엔터테인먼트 오디오에 대한 오디오 엔지니어링 협회(AES) 국제 컨퍼런스), V. Pulkki의 페이지들 3-4, 섹션 2에 설명된 진폭 패닝 방법들에 따라 결정될 수 있으며, 이것은 여기에 참조로서 통합된다. 몇몇 구현들에서, 이득들은 주파수 종속적일 수 있다. 몇몇 구현들에서, 시간 지연은 x(t)를 x(t-△t)로 교체함으로써 도입될 수 있다.

몇몇 렌더링 구현들에서, 스피커 구역들(402)을 참조하여 생성된 오디오 재생 데이터는 돌비 서라운드 5.1 구성, 돌비 서라운드 7.1 구성, 하마사키 22.2 구성, 또는 또 다른 구성에 있을 수 있는, 광범위한 재생 환경들의 스피커 위치들에 매핑될 수 있다. 예를 들면, 도 2를 참조하면, 렌더링 툴은 스피커 구역들(4 및 5)을 위한 오디오 재생 데이터를 돌비 서라운드 7.1 구성을 갖는 재생 환경의 좌측면 서라운드 어레이(220) 및 우측면 서라운드 어레이(225)에 매핑시킬 수 있다. 스피커 구역들(1, 2 및 3)을 위한 오디오 재생 데이터는 좌측 스크린 채널(230), 우측 스크린 채널(240) 및 중심 스크린 채널(235)에 각각 매핑될 수 있다. 스피커 구역들(6 및 7)을 위한 오디오 재생 데이터는 좌측 후방 서라운드 스피커들(224) 및 우측 후방 서라운드 스피커들(226)에 매핑될 수 있다.

도 4B는 또 다른 재생 환경의 예를 도시한다. 몇몇 구현들에서, 렌더링 툴은 스피커 구역들(1, 2 및 3)을 위한 오디오 재생 데이터를 재생 환경(450)의 대응하는 스크린 스피커들(455)에 매핑시킬 수 있다. 렌더링 툴은 스피커 구역들(4 및 5)을 위한 오디오 재생 데이터를 좌측면 서라운드 어레이(460) 및 우측면 서라운드 어레이(465)에 매핑시킬 수 있으며 스피커 구역들(8 및 9)을 위한 오디오 재생 데이터를 좌측 오버헤드 스피커들(470a) 및 우측 오버헤드 스피커들(470b)에 매핑시킬 수 있다. 스피커 구역들(6 및 7)을 위한 오디오 재생 데이터는 좌측 후방 서라운드 스피커들(480a) 및 우측 후방 서라운드 스피커들(480b)에 매핑될 수 있다.

몇몇 저작 구현들에서, 저작 툴은 오디오 오브젝트들에 대한 메타데이터를 생성하기 위해 사용될 수 있다. 상기 주지한 바와 같이, 용어 "오디오 오브젝트" 는 오디오 데이터 신호들의 스트림 및 연관된 메타데이터를 나타낼 수 있다. 메타데이터는 오디오 오브젝트의 3D 위치, 오디오 오브젝트의 겉보기 크기, 렌더링 제약들뿐만 아니라 콘텐트 유형(예로서, 다이얼로그, 효과들) 등을 표시할 수 있다. 구현에 따라서, 메타데이터는 이득 데이터, 궤적 데이터 등과 같은, 다른 유형들의 데이터를 포함할 수 있다. 몇몇 오디오 오브젝트들은 정적일 수 있는 반면, 다른 것들은 이동할 수 있다. 오디오 오브젝트 세부사항들은, 무엇보다도, 주어진 시간 포인트에서 3-차원 공간에서의 오디오 오브젝트의 위치를 표시할 수 있는 연관된 메타데이터에 따라 저작되거나 또는 렌더링될 수 있다. 오디오 오브젝트들이 재생 환경에서 모니터링되거나 또는 재생될 때, 오디오 오브젝트들은 재생 환경의 재생 스피커 배치에 따라서 그것들의 위치 및 크기 메타데이터에 따라 렌더링될 수 있다.

도 5A는 오디오 프로세싱 방법의 개요를 제공하는 흐름도이다. 보다 상세한 예들이 도 5B 이하를 참조하여 이하에 설명된다. 이들 방법들은 여기에 도시되고 설명된 것보다 많거나 또는 적은 블록들을 포함할 수 있으며 여기에 도시된 순서로 반드시 수행되는 것은 아니다. 이들 방법들은 적어도 부분적으로, 도 10 내지 도 11b에 도시되며 이하에 설명된 것들과 같은 장치에 의해 수행될 수 있다. 몇몇 실시예들에서, 이들 방법들은, 적어도 부분적으로 하나 이상의 비-일시적 미디어에 저장된 소프트웨어에 의해 구현될 수 있다. 소프트웨어는 여기에 설명된 방법들을 수행하도록 하나 이상의 디바이스들을 제어하기 위한 지시들을 포함할 수 있다.

도 5A에 도시된 예에서, 방법(500)은 특정한 재생 환경에 대하여 가상 소스 위치들에 대한 가상 소스 이득 값들을 결정하는 셋-업 프로세스로 시작한다(블록 505). 도 6A는 재생 환경에 대하여 가상 소스 위치들의 예를 도시한다. 예를 들면, 블록(505)은 재생 환경(600a)의 재생 스피커 위치들(625)에 대하여 가상 소스 위치들(605)의 가상 소스 이득 값들을 결정하는 것을 수반할 수 있다. 상기 가상 소스 위치들(605) 및 재생 스피커 위치들(625)은 단지 예들이다. 도 6A에 도시된 예에서, 가상 소스 위치들(605)은 x, y 및 z 축들을 따라 균일하게 이격된다. 그러나, 대안적인 구현들에서, 가상 소스 위치들(605)은 상이하게 이격될 수도 있다. 예를 들면, 몇몇 구현들에서, 가상 소스 위치들(605)은 x 및 y 축들을 따라 제 1 균일 간격 및 z 축을 따라 제 2 균일 간격을 가질 수 있다. 다른 구현들에서, 가상 소스 위치들(605)은 균일하지 않게 이격될 수 있다.

도 6A에 도시된 예에서, 재생 환경(600a) 및 가상 소스 볼륨(602a)은 동연적(co-extensive)이며, 따라서 가상 소스 위치들(605)의 각각은 재생 환경(600a) 내에서의 위치에 대응한다. 그러나, 대안적인 구현들에서, 재생 환경(600) 및 가상 소스 볼륨(602)은 동연적이지 않을 수 있다. 예를 들면, 가상 소스 위치들(605) 중 적어도 일부는 재생 환경(600)의 외부에 있는 위치들에 대응할 수 있다.

도 6B는 재생 환경에 대하여 가상 소스 위치들의 대안적인 예를 도시한다. 이 예에서, 가상 소스 볼륨(602b)은 재생 환경(600b)의 밖으로 연장된다.

도 5A를 다시 참조하면, 이 예에서, 블록(505)의 셋-업 프로세스는 어떠한 특정한 오디오 오브젝트들도 렌더링하기 전에 발생한다. 몇몇 구현들에서, 블록(505)에서 결정된 가상 소스 이득 값들은 저장 시스템에 저장될 수 있다. 상기 저장된 가상 소스 이득 값들은 가상 소스 이득 값들 중 적어도 일부에 따라 수신된 오디오 오브젝트들에 대한 오디오 오브젝트 이득 값들을 계산하는 "런 타임" 프로세스 동안 사용될 수도 있다(블록 510). 예를 들면, 블록(510)은 적어도 부분적으로, 오디오 오브젝트 영역 또는 볼륨 내에 있는 가상 소스 위치들에 대응하는 가상 소스 이득 값들에 기초하여 오디오 오브젝트 이득 값들을 계산하는 것을 수반할 수 있다.

*몇몇 구현들에서, 방법(500)은 오디오 데이터를 역상관하는(decorrelating) 것을 수반하는, 선택적 블록(515)을 포함할 수 있다. 블록(515)은 런-타임 프로세스의 일부일 수 있다. 몇몇 이러한 구현들에서, 블록(515)은 주파수 도메인에서 콘볼루션(convolution)을 수반할 수 있다. 예를 들면, 블록(515)은 각각의 스피커 공급 신호를 위한 유한 임펄스 응답("FIR") 필터를 적용하는 것을 수반할 수 있다.

몇몇 구현들에서, 블록(515)의 프로세스들은 오디오 오브젝트 크기 및/또는 저자의 예술적 의도에 의존하여 수행되거나 또는 수행되지 않을 수 있다. 몇몇 이러한 구현들에 따르면, 저작 툴은 오디오 오브젝트 크기가 크기 임계값보다 크거나 또는 같을 때 역상관이 턴 온되어야 하며 상기 오디오 오브젝트 크기가 크기 임계값 아래에 있다면 역상관이 턴 오프되어야 함을 표시함으로써(예로서, 연관된 메타데이터에 포함된 역상관 플래그를 통해) 역상관과 오디오 오브젝트 크기를 관련시킬 수 있다. 몇몇 구현들에서, 역상관은 크기 임계값 및/또는 다른 입력 값들에 관한 사용자 입력에 따라 제어될 수 있다(예로서, 증가되고, 감소되거나 또는 디스에이블됨).

도 5B는 셋-업 프로세스의 예를 제공하는 흐름도이다. 따라서, 도 5B에 도시된 블록들의 모두는 도 5A의 블록(505)에서 수행될 수 있는 프로세스들의 예들이다. 여기에서, 셋-업 프로세스는 재생 환경 데이터의 수신으로 시작한다(블록 520). 재생 환경 데이터는 재생 스피커 위치 데이터를 포함할 수 있다. 상기 재생 환경 데이터는 또한 벽들, 천장 등과 같은, 재생 환경의 경계들을 나타내는 데이터를 포함할 수 있다. 재생 환경이 시네마이면, 재생 환경 데이터는 또한 영화 스크린 위치의 표시를 포함할 수 있다.

재생 환경 데이터는 또한 재생 환경의 재생 스피커들과 출력 채널들의 상관을 표시한 데이터를 포함할 수 있다. 예를 들면, 재생 환경은 도 2에 도시되며 상기 설명된 것과 같은 돌비 서라운드 7.1 구성을 가질 수 있다. 따라서, 재생 환경 데이터는 또한 Lss 채널과 좌측면 서라운드 스피커들(220) 사이, Lrs 채널과 좌측 후방 서라운드 스피커들(224) 사이 등에서의 상관을 표시하는 데이터를 포함할 수 있다.

이 예에서, 블록(525)은 재생 환경 데이터에 따라 가상 소스 위치들(605)을 정의하는 것을 수반한다. 상기 가상 소스 위치들(605)은 가상 소스 볼륨 내에 정의될 수 있다. 몇몇 구현들에서, 가상 소스 볼륨은 오디오 오브젝트들이 이동할 수 있는 볼륨과 부합할 수 있다. 도 6A 및 도 6B에 도시된 바와 같이, 몇몇 구현들에서, 가상 소스 볼륨(602)은 재생 환경(600)의 볼륨과 동연적일 수 있는 반면, 다른 구현들에서, 가상 소스 위치들(605) 중 적어도 일부는 재생 환경(600)의 밖에 있는 위치들에 대응할 수 있다.

게다가, 가상 소스 위치들(605)은 특정한 구현에 의존하여, 가상 소스 볼륨(602) 내에서 균일하게 이격되거나 또는 이격되지 않을 수 있다. 몇몇 구현들에서, 상기 가상 소스 위치들(605)은 모든 방향들에서 균일하게 이격될 수 있다. 예를 들면, 가상 소스 위치들(605)은 N_x×N_y×N_z 가상 소스 위치들(605)의 직사각형 그리드를 형성할 수 있다. 몇몇 구현들에서, N의 값은 5 내지 100의 범위에 있을 수 있다. N의 값은 적어도 부분적으로, 재생 환경에서의 재생 스피커들의 수에 의존할 수 있다: 각각의 재생 스피커 위치 사이에서 둘 이상의 가상 소스 위치들(605)을 포함하는 것이 바람직할 수 있다.

다른 구현들에서, 가상 소스 위치들(605)은 x 및 y 축들을 따라 제 1 균일 간격 및 z 축을 따라 제 2 균일 간격을 가질 수 있다. 가상 소스 위치들(605)은 N_x×N_y×M_z 가상 소스 위치들(605)의 직사각형 그리드를 형성할 수 있다. 예를 들면, 몇몇 구현들에서, x 또는 y 축들보다 z 축을 따르는 보다 적은 가상 소스 위치들(605)이 있을 수 있다. 몇몇 이러한 구현들에서, N의 값은 10 내지 100의 범위에 있을 수 있는 반면, M의 값은 5 내지 10의 범위에 있을 수 있다.

이 예에서, 블록(530)은 가상 소스 위치들(605)의 각각에 대한 가상 소스 이득 값들을 계산하는 것을 수반한다. 몇몇 구현들에서, 블록(530)은 가상 소스 위치들(605)의 각각에 대해, 재생 환경의 복수의 출력 채널들의 각각의 채널에 대한 가상 소스 이득 값들을 계산하는 것을 수반한다. 몇몇 구현들에서, 블록(530)은 가상 소스 위치들(605)의 각각에 위치된 포인트 소스들에 대한 이득 값들을 계산하기 위해 벡터-기반 진폭 패닝("VBAP') 알고리즘, 쌍별 패닝(pairwise panning) 알고리즘 또는 유사한 알고리즘을 적용하는 것을 수반할 수 있다. 다른 구현들에서, 블록(530)은 가상 소스 위치들(605)의 각각에 위치된 포인트 소스들에 대한 이득 값들을 계산하기 위해, 분리 가능한 알고리즘을 적용하는 것을 수반할 수 있다. 여기에 사용된 바와 같이, "분리 가능한" 알고리즘은 주어진 스피커의 이득이 가상 소스 위치의 좌표들의 각각에 대해 개별적으로 계산될 수 있는 둘 이상의 인자들의 곱으로서 표현될 수 있는 것이다. 예들로서는 이에 제한되지는 않지만, AMS Neve에 의해 제공된 디지털 필름 콘솔들에서 구현된 Pro Tools™ 소프트웨어 및 패너들을 포함하여, 다양한 기존의 믹싱 콘솔 패너들에서 구현된 알고리즘들을 포함한다. 몇몇 2-차원 예들이 이하에 제공된다.

도 6C 내지 도 6F는 상이한 위치들에서 오디오 오브젝트들에 근거리장 및 원거리장 패닝 기술들을 적용하는 예들을 도시한다. 먼저 도 6C를 참조하면, 오디오 오브젝트는 실질적으로 가상 재생 환경(400a)의 밖에 있다. 그러므로, 하나 이상의 원거리장 패닝 방법들은 이 인스턴스에서 적용될 것이다. 몇몇 구현들에서, 원거리장 패닝 방법들은 이 기술분야의 숙련자들에 의해 알려져 있는 벡터-기반 진폭 패닝(VBAP) 등식들에 기초할 수 있다. 예를 들면, 원거리장 패닝 방법들은 여기에 참조로서 통합되는, 진폭-패닝된 가상 소스들의 변위를 보상하는 방법(가상, 합성 및 엔터테인먼트 오디오에 대한 AES 국제 컨퍼런스), V. Pulkki의 페이지 4, 섹션 2.3에 설명된 VBAP 식들에 기초할 수 있다. 대안적인 구현들에서, 다른 방법들, 예로서, 대응하는 음향 평면들 또는 구면 파의 합성을 수반하는 방법들이 원거리장 및 근거리장 오디오 오브젝트들을 패닝하기 위해 사용될 수 있다. 여기에 참조로서 통합되는 D. dE Vreis, 파동 장 합성(AES 모노그래피 1999)이 관련 방법들을 설명한다.

이제 도 6D를 참조하면, 오디오 오브젝트(610)는 가상 재생 환경(400a)의 내부에 있다. 그러므로, 하나 이상의 근거리장 패닝 방법들이 이 인스턴스에서 적용될 것이다. 몇몇 이러한 근거리장 패닝 방법들은 가상 재생 환경(400a)에서 오디오 오브젝트(610)를 에워싸는 다수의 스피커 구역들을 사용할 것이다.

도 6G는 1과 같은 에지 길이를 갖는 정사각형의 각각의 코너에서 하나의 스피커를 갖는 재생 환경의 예를 예시한다. 이 예에서, x-y 축의 원점(0,0)은 좌측(L) 스크린 스피커(130)와 일치한다. 따라서, 우측(R) 스크린 스피커(140)는 좌표들(1,0)을 갖고, 좌측 서라운드(Ls) 스피커(120)는 좌표들(0, 1)을 가지며 우측 서라운드(Rs) 스피커(125)는 좌표들(1,1)을 갖는다. 오디오 오브젝트 위치(615)(x, y)는 L 스피커의 우측으로의 x 단위들 및 스크린(150)으로부터의 y 단위들이다. 이 예에서, 4개의 스피커들의 각각은 x 축 및 y 축을 따라 그것들의 거리에 비례하는 인자 cos/sin을 수신한다. 몇몇 구현들에 따르면, 이득들은 다음과 같이 계산될 수 있다:

1=L,Ls이면 G_1(x) = cos(pi/2* x)

1=R,Rs이면 G_1(x) = sin(pi/2* x)

1=L,R이면 G_1(y) = cos(pi/2* y)

1=Ls,Rs이면 G_1(y) = sin(pi/2* y).

전체 이득은 곱: G_1(x,y) = G_1(x)G_1(y)이다. 일반적으로, 이들 함수들은 모든 스피커들의 좌표들 모두에 의존한다. 그러나, G_1(x)는 소스의 y-위치에 의존하지 않으며, G_1(y)는 그것의 x-위치에 의존하지 않는다. 간단한 산출을 예시하기 위해, 오디오 오브젝트 위치(615)가, L 스피커의 위치인 (0,0)이라고 가정하자. G_L(x) = cos(0) = 1. G_L(y) = cos(0) = 1. 전체 이득은 곱: G_L(x,y) = G_L(x)G_L(y)=1이다. 유사한 산출들이 G_Ls = G_Rs = G_R = 0을 이끈다.

오디오 오브젝트가 가상 재생 환경(400a)에 들어가거나 또는 이를 떠날 때 상이한 패닝 모드들 사이에서 블렌딩(blend)하는 것이 바람직할 수 있다. 예를 들면, 근거리장 패닝 방법들 및 원거리장 패닝 방법들에 따라 계산된 이득들의 블렌딩은 오디오 오브젝트(610)가 도 6C에 도시된 오디오 오브젝트 위치(615)로부터 도 6D에 도시된 오디오 오브젝트 위치(615)로 또는 그 역으로 이동할 때 적용될 수 있다. 몇몇 구현들에서, 쌍-별 패닝 법칙(예로서, 에너지-보존 사인 또는 전력 법칙)이 근거리장 패닝 방법들 및 원거리장 패닝 방법들에 따라 계산된 이득들 사이에서 블렌딩하기 위해 사용될 수 있다. 대안적인 구현들에서, 쌍-별 패닝 법칙은 에너지-보존보다는 진폭-보존일 수 있으며, 따라서 합계는 1과 같은 제곱들의 합 대신에 1과 같다. 예를 들면, 양쪽의 패닝 방법들을 독립적으로 사용하여 오디오 신호를 프로세싱하기 위해 및 두 개의 결과적인 오디오 신호들을 교차-페이딩(cross-fade)하기 위해 결과적인 프로세싱된 신호들을 블렌딩하는 것이 또한 가능하다.

이제 도 5B로 가면, 블록(530)에서 사용된 알고리즘과 상관없이, 결과적인 이득 값들은 런-타임 동작들 동안 사용하기 위해, 메모리 시스템에 저장될 수 있다(블록 535).

도 5C는 가상 소스 위치들에 대한 사전-계산된 이득 값들에 따라 수신된 오디오 오브젝트들에 대한 이득 값들을 계산하는 런-타임 프로세스의 예를 제공하는 흐름도이다. 도 5C에 도시된 블록들의 모두는 도 5A의 블록(510)에서 수행될 수 있는 프로세스들의 예들이다.

이 예에서, 런-타임 프로세스는 하나 이상의 오디오 오브젝트들을 포함하는 오디오 재생 데이터의 수신으로 시작한다(블록 540). 상기 오디오 오브젝트들은 오디오 신호들 및 이 예에서 적어도 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함하는 연관된 메타데이터를 포함한다. 도 6A를 참조하면, 예를 들면, 오디오 오브젝트(610)는 적어도 부분적으로, 오디오 오브젝트 위치(615) 및 오디오 오브젝트 볼륨(620a)에 의해 정의된다. 이 예에서, 수신된 오디오 오브젝트 크기 데이터는 오디오 오브젝트 볼륨(620a)이 직사각형 프리즘의 것에 대응함을 표시한다. 그러나, 도 6B에 도시된 예에서, 수신된 오디오 오브젝트 크기 데이터는 오디오 오브젝트 볼륨(620b)이 구의 것에 대응함을 표시한다. 이들 크기들 및 형태들은 단지 예들이며; 대안적인 구현들에서, 오디오 오브젝트들은 다양한 다른 크기들 및/또는 형태들을 가질 수 있다. 몇몇 대안적인 예들에서, 오디오 오브젝트의 영역 또는 볼륨은 직사각형, 원, 타원, 타원체, 또는 구체 섹터일 수 있다.

이러한 구현에서, 블록(545)은 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터에 의해 정의된 영역 또는 볼륨 내에서의 가상 소스들로부터의 기여들을 계산하는 것을 수반한다. 도 6A 및 도 6B에 도시된 예들에서, 블록(545)은 오디오 오브젝트 볼륨(620a) 또는 오디오 오브젝트 볼륨(620b) 내에 있는 가상 소스 위치들(605)에서 가상 소스들로부터의 기여들을 계산하는 것을 수반할 수 있다. 오디오 오브젝트의 메타데이터가 시간에 걸쳐 변한다면, 블록(545)은 새로운 메타데이터 값들에 따라 다시 수행될 수 있다. 예를 들면, 오디오 오브젝트 크기 및/또는 오디오 오브젝트 위치가 변한다면, 상이한 가상 소스 위치들(605)이 오디오 오브젝트 볼륨(620) 내에 포함될 수 있으며 및/또는 이전 계산에서 사용된 가상 소스 위치들(605)은 오디오 오브젝트 위치(615)로부터 상이한 거리일 수 있다. 블록(545)에서, 대응하는 가상 소스 기여들이 새로운 오디오 오브젝트 크기 및/또는 위치에 따라 계산될 것이다.

몇몇 예들에서, 블록(545)은 메모리 시스템으로부터, 오디오 오브젝트 위치 및 크기에 대응하는 가상 소스 위치들에 대해 계산된 가상 소스 이득 값들을 검색하는 것, 및 상기 계산된 가상 소스 이득 값들 사이에서 보간하는 것을 수반할 수 있다. 계산된 가상 소스 이득 값들 사이에서 보간하는 프로세스는 오디오 오브젝트 위치에 가까이 있는 복수의 이웃하는 가상 소스 위치들을 결정하는 것, 상기 이웃하는 가상 소스 위치들의 각각에 대해 계산된 가상 소스 이득 값들을 결정하는 것, 상기 오디오 오브젝트 위치와 상기 이웃하는 가상 소스 위치들의 각각 사이에서 복수의 거리들을 결정하는 것 및 상기 복수의 거리들에 따라 상기 계산된 가상 소스 이득 값들 사이에서 보간하는 것을 수반할 수 있다.

가상 소스들로부터의 기여들을 계산하는 프로세스는 오디오 오브젝트의 크기에 의해 정의된 영역 또는 볼륨 내에서의 가상 소스 위치들에 대한 계산된 가상 소스 이득 값들의 가중 평균을 계산하는 것을 수반할 수 있다. 가중 평균에 대한 가중들은 예를 들면, 상기 영역 또는 볼륨 내에서의 오디오 오브젝트의 위치, 오디오 오브젝트의 크기 및 각각의 가상 소스 위치에 의존할 수 있다.

도 7은 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터에 의해 정의된 영역 내에서의 가상 소스들로부터의 기여들의 예를 도시한다. 도 7은 z 축에 수직하여 취해진, 오디오 환경(200a)의 단면을 묘사한다. 따라서, 도 7은 z 축을 따라, 오디오 환경(200a)으로 아래쪽으로 보는 시청자의 관점으로부터 그려진다. 이 예에서, 오디오 환경(200a)은 도 2에 도시되며 상기 설명된 것과 같은 돌비 서라운드 7.1 구성을 갖는 시네마 사운드 시스템 환경이다. 따라서, 재생 환경(200a)은 좌측면 서라운드 스피커들(220), 좌측 후방 서라운드 스피커들(224), 우측면 서라운드 스피커들(225), 우측 후방 서라운드 스피커들(226), 좌측 스크린 채널(230), 중심 스크린 채널(235), 우측 스크린 채널(240) 및 서브우퍼(245)를 포함한다.

오디오 오브젝트(610)는 그것의 직사각형 단영역이 도 7에 도시되는, 오디오 오브젝트 볼륨(620b)에 의해 표시된 크기를 갖는다. 도 7에 묘사된 시간의 인스턴트에서 오디오 오브젝트 위치(615)를 고려해볼 때, 12개의 가상 소스 위치들(605)은 x-y 평면에서 오디오 오브젝트 볼륨(620b)에 의해 포함된 영역에 포함된다. z 방향에서의 오디오 오브젝트 볼륨(620b)의 정도 및 z 축을 따라 가상 소스 위치들(605)의 간격에 의존하여, 부가적인 가상 소스 위치들(605s)이 오디오 오브젝트 볼륨(620b) 내에 포함되거나 또는 포함되지 않을 수 있다.

도 7은 오디오 오브젝트(610)의 크기에 의해 정의된 영역 또는 볼륨 내에서의 가상 소스 위치들(605)로부터의 기여들을 표시한다. 이 예에서, 가상 소스 위치들(605)의 각각을 묘사하기 위해 사용된 원의 직경은 대응하는 가상 소스 위치(605)로부터의 기여와 부합한다. 상기 가상 소스 위치들(605a)은 가장 큰 것으로 도시된 오디오 오브젝트 위치(615)에 가장 가까우며, 대응하는 가상 소스들로부터의 가장 큰 기여를 표시한다. 두 번째로 큰 기여들은 가상 소스 위치들(605b)에서의 가상 소스들로부터 이며, 이것은 오디오 오브젝트 위치(615)에 두 번째로 가깝다. 보다 작은 기여들은 가상 소스 위치들(605c)에 의해 이루어지며, 이것은 오디오 오브젝트 위치(615)로부터 더 멀지만 여전히 오디오 오브젝트 볼륨(620b) 내에 있다. 오디오 오브젝트 볼륨(620b)의 밖에 있는 가상 소스 위치들(605d)은 가장 작은 것으로 도시되며, 이것은 이 예에서 대응하는 가상 소스들이 어떤 기여도 이루지 않음을 표시한다.

도 5C로 가면, 이 예에서 블록(550)은 적어도 부분적으로, 계산된 기여들에 기초하여 복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값들의 세트를 계산하는 것을 수반한다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다. 블록(550)은 결과적인 오디오 오브젝트 이득 값들을 정규화하는 것을 수반할 수 있다. 도 7에 도시된 구현에 대해, 예를 들면, 각각의 출력 채널은 단일 스피커 또는 스피커들의 그룹에 대응할 수 있다.

복수의 출력 채널들의 각각에 대한 오디오 오브젝트 이득 값을 계산하는 프로세스는 위치(x_o, y_o, z_o)에서 렌더링될 크기(s)의 오디오 오브젝트에 대한 이득 값(g_l ^size(x_o, y_o, z_o; s))을 결정하는 것을 수반할 수 있다. 이러한 오디오 오브젝트 이득 값은 때때로 여기에서 "오디오 오브젝트 크기 기여"로서 불릴 수 있다. 몇몇 구현들에 따르면, 오디오 오브젝트 이득 값(g_l ^size(x_o, y_o, z_o; s))은 다음으로서 표현될 수 있다:

. (식 2)

식 2에서, (x_vs, y_vs, z_vs)는 가상 소스 위치를 나타내고, g_l(x_vs, y_vs, z_vs)는 가상 소스 위치(x_vs, y_vs, z_vs)에 대한 채널(l)을 위한 이득 값을 나타내며 w(x_vs, yv_s, z_vs; x_o, y_o, z_o;s)은 적어도 부분적으로, 오디오 오브젝트의 위치(x_o, y_o, z_o), 오디오 오브젝트의 크기(s) 및 가상 소스 위치(x_vs, y_vs, z_vs)에 기초하여 결정되는 g_l(x_vs, y_vs, z_vs)에 대한 가중을 나타낸다.

몇몇 예들에서, 지수(p)는 1 및 10 사이에서의 값을 가질 수 있다. 몇몇 구현들에서, p는 오디오 오브젝트 크기(s)의 함수일 수 있다. 예를 들면, s가 비교적 크다면, 몇몇 구현들에서, p는 비교적 더 작을 수 있다. 몇몇 이러한 구현들에 따르면, p는 다음과 같이 결정될 수 있다:

s≤0.5이면, p = 6

s>0.5이면, p = 6+(-4)(s-0.5)/(s_max-0.5)

여기에서 s_max는 내부 스케일-업 크기(s_internal)(이하에 설명됨)의 최대 값에 대응하며 오디오 오브젝트 크기(s) = 1은 재생 환경의 경계들 중 하나의 길이와 같은(예로서, 재생 환경의 하나의 벽의 길이와 같은) 크기(예로서, 직경)를 갖는 오디오 오브젝트와 부합할 수 있다.

가상 소스 이득 값들을 계산하기 위해 사용된 알고리즘(들)에 부분적으로 의존하여, 예로서, 상기 설명된 바와 같이, 가상 소스 위치들이 축을 따라 균일하게 분포된다면 및 가중 함수들 및 이득 함수들이 분리 가능하다면 식 2를 간소화하는 것이 가능할 수 있다. 이들 조건들이 만족된다면, g_l(x_vs, y_vs, z_vs)는 g_lx(x_vs)g_ly(y_vs)g_lz(z_vs)로서 표현될 수 있으며, 여기에서 g_lx(x_vs), g_lx(y_vs) 및 g_lz(z_vs)는 가상 소스의 위치에 대한 x, y 및 z 좌표들의 독립적인 이득 함수들을 나타낸다.

유사하게, w(x_vs, y_vs, z_vs; x_o, y_o, z_o;s)는 w_x(x_vs;x_o;s)w_y(y_vs;y_o;s)w_z(z_vs;z_o;s)로서 고려할 수 있으며, 여기에서 w_x(x_vs;x_o;s), w_y(y_vs;y_o;s) 및 w_z(z_vs;z_o;s)는 가상 소스의 위치에 대한 x, y 및 z 좌표들의 독립적인 가중 함수들을 나타낸다. 하나의 이러한 예가 도 7에 도시된다. 이 예에서, w_x(x_vs;x_o;s)로 표현된, 가중 함수(710)는 w_y(y_vs;x_o;s)로 표현된 가중 함수(720)로부터 독립적으로 계산될 수 있다. 몇몇 구현들에서, 가중 함수들(710 및 720)은 가우스 함수들일 수 있는 반면, 가중 함수(w_z(z_vs;z_o;s))는 코사인 및 가우스 함수들의 곱일 수 있다.

w(x_vs, y_vs, z_vs; x_o, y_o, z_o;s)가 w_x(x_vs;x_o;s)w_y(y_vs;y_o;s)w_z(z_vs;z_o;s)와 같은 인자가 될 수 있다면, 식 2는,

로 간소화하며, 여기에서

함수들(f)은 가상 소스들에 관한 요구 정보 모두를 포함할 수 있다. 가능한 오브젝트 위치들이 각각의 축을 따라 이산화(discretized)된다면, 그것은 각각의 함수(f)를 행렬로서 표현할 수 있다. 각각의 함수(f)는 블록(505)의 셋-업 프로세스 동안 사전-계산될 수 있으며(도 5A 참조) 메모리 시스템에, 예로서 행렬로서 또는 룩-업 테이블로서 저장될 수 있다. 런-타임(블록 510)시, 룩-업 테이블들 또는 행렬들은 메모리 시스템으로부터 검색될 수 있다. 런-타임 프로세스는 오디오 오브젝트 위치 및 크기를 고려해볼 때, 이들 행렬들의 가장 가까운 대응하는 값들 사이에서 보간하는 것을 수반할 수 있다. 몇몇 구현들에서, 보간은 선형일 수 있다.

몇몇 구현들에서, 오디오 오브젝트 크기 기여(g_l ^size)는 오디오 오브젝트 위치에 대한 "오디오 오브젝트 근거리이득(neargain)" 결과와 결합될 수 있다. 여기에 사용된 바와 같이, "오디오 오브젝트 근거리이득"은 오디오 오브젝트 위치(615)에 기초하는 계산된 이득이다. 상기 이득 계산은 가상 소스 이득 값들의 각각을 계산하기 위해 사용된 동일한 알고리즘을 사용하여 이루어질 수 있다. 몇몇 이러한 구현들에 따르면, 교차-페이딩 산출이 오디오 오브젝트 크기 기여 및 오디오 오브젝트 근거리이득 결과 사이에서, 예로서 오디오 오브젝트 크기의 함수로서 수행될 수 있다. 이러한 구현들은 오디오 오브젝트들의 평활한 패닝(smooth panning) 및 평활한 성장(smooth growth)을 제공할 수 있으며, 최소 및 최대 오디오 오브젝트 크기들 사이에서 평활한 전이를 허용할 수 있다. 하나의 이러한 구현에서,

, 여기에서

여기에서

은 이전 계산된

의 정규화 버전을 나타낸다. 몇몇 이러한 구현들에서, s_xfade = 0.2이다. 그러나, 대안적인 구현들에서, s_xfade는 다른 값들을 가질 수 있다.

몇몇 구현들에 따르면, 오디오 오브젝트 크기 값은 가능한 값들의 그것의 범위의 보다 큰 부분에서 스케일 업될 수 있다. 몇몇 저작 구현들에서, 예를 들면, 사용자는 보다 큰 범위, 예로서 범위([0, s_max])까지 알고리즘에 의해 사용된 실제 크기로 매핑되는 오디오 오브젝트 크기 값들(s_user∈[0.1])에 노출될 수 있으며, 여기에서 s_max>1이다. 이러한 매핑은 크기가 사용자에 의해 최대로 설정될 때, 이득들이 진정으로 오브젝트의 위치에 독립적이게 됨을 보장할 수 있다. 몇몇 이러한 구현들에 따르면, 이러한 매핑들은 포인트들의 쌍들(s_user, s_internal)을 연결하는 구간 선형 함수(piece-wise linear function)에 따라 이루어질 수 있으며, 여기에서 s_user는 사용자-선택된 오디오 오브젝트 크기를 나타내고 s_internal은 알고리즘에 의해 결정되는 대응하는 오디오 오브젝트 크기를 나타낸다. 몇몇 이러한 구현들에 따르면, 매핑은 포인트들의 쌍들((0,0), (0.2, 0.3), (0.5, 0.9), (0.75, 1.5) 및 (1, s_max))을 연결하는 구간 선형 함수에 따라 이루어질 수 있다. 하나의 이러한 구현에서, s_max = 2.8이다.

도 8A 및 도 8B는 재생 환경 내에서 2개의 위치들에서의 오디오 오브젝트를 도시한다. 이들 예들에서, 오디오 오브젝트 볼륨(620b)은 재생 환경(200a)의 길이 또는 폭의 절반 미만의 반경을 갖는 구이다. 재생 환경(200a)은 돌비 7.1에 따라 구성된다. 도 8A에 묘사된 시간의 인스턴트에서, 오디오 오브젝트 위치(615)는 재생 환경(200a)의 중간에 비교적 더 가깝다. 도 8B에 묘사된 시간에서, 오디오 오브젝트 위치(615)는 재생 환경(200a)의 경계에 가깝게 이동한다. 이 예에서, 경계는 시네마의 좌측 벽이며 좌측면 서라운드 스피커들(220)의 위치들과 일치한다.

심미적 이유들로, 재생 환경의 경계에 도달하는 오디오 오브젝트들에 대한 오디오 오브젝트 이득 산출들을 변경하는 것이 바람직할 수도 있다. 도 8A 및 도 8B에서, 예를 들면, 어떠한 스피커 공급 신호들도 오디오 오브젝트 위치(615)가 재생 환경의 좌측 경계(805)로부터의 임계 거리 내에 있을 때 재생 환경의 반대 경계상에서의 스피커들(여기에서, 우측면 서라운드 스피커들(225))에 제공되지 않는다. 도 8B에 도시된 예에서, 어떠한 스피커 공급 신호들도, 오디오 오브젝트 위치(615)가 또한 스크린으로부터의 임계 거리 이상이면, 오디오 오브젝트 위치(615)가 재생 환경의 좌측 경계(805)로부터의 임계 거리(상이한 임계 거리일 수 있음) 내에 있을 때 좌측 스크린 채널(230), 중심 스크린 채널(235), 우측 스크린 채널(240) 또는 서브우퍼(245)에 대응하는 스피커들에 제공되지 않는다.

도 8B에 도시된 예에서, 오디오 오브젝트 볼륨(620b)은 좌측 경계(805)의 밖에 있는 영역 또는 볼륨을 포함한다. 몇몇 구현들에 따르면, 이득 산출들을 위한 페이드-아웃 인자는 적어도 부분적으로, 좌측 경계(805) 중 얼마나 많은 좌측 경계가 오디오 오브젝트 볼륨(620b) 내에 있는지 및/또는 오디오 오브젝트의 영역 또는 볼륨 중 얼마나 많은 영역 또는 볼륨이 이러한 경계의 밖으로 연장되는지에 기초할 수 있다.

도 9는 적어도 부분적으로, 오디오 오브젝트의 영역 또는 볼륨 중 얼마나 많은 영역 또는 볼륨이 재생 환경의 경계의 밖으로 연장되는지에 기초하여 페이드-아웃 인자를 결정하는 방법을 개괄하는 흐름도이다. 블록(905)에서, 재생 환경 데이터가 수신된다. 이 예에서, 재생 환경 데이터는 재생 스피커 위치 데이터 및 재생 환경 경계 데이터를 포함한다. 블록(910)은 하나 이상의 오디오 오브젝트들 및 연관된 메타데이터를 포함한 오디오 재생 데이터를 수신하는 것을 수반한다. 상기 메타데이터는 이 예에서 적어도 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터를 포함한다.

이러한 구현에서, 블록(915)은 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터에 의해 정의된, 오디오 오브젝트 영역 또는 볼륨이 재생 환경 경계의 외부에 있는 바깥 영역 또는 볼륨을 포함하는 것을 결정하는 것을 수반한다. 블록(915)은 또한 오디오 오브젝트 영역 또는 볼륨의 어떤 비율이 재생 환경 경계의 외부에 있는지를 결정하는 것을 수반할 수 있다.

블록(920)에서, 페이드-아웃 인자가 결정된다. 이 예에서, 페이드-아웃 인자는 적어도 부분적으로, 바깥 영역에 기초할 수 있다. 예를 들면, 페이드-아웃 인자는 바깥 영역에 비례할 수 있다.

블록(925)에서, 오디오 오브젝트 이득 값들의 세트가 적어도 부분적으로, 상기 연관된 메타데이터(이 예에서, 오디오 오브젝트 위치 데이터 및 오디오 오브젝트 크기 데이터) 및 페이드-아웃 인자에 기초하여 복수의 출력 채널들의 각각에 대해 계산될 수 있다. 각각의 출력 채널은 재생 환경의 적어도 하나의 재생 스피커에 대응할 수 있다.

몇몇 구현들에서, 오디오 오브젝트 이득 계산들은 오디오 오브젝트 영역 또는 볼륨 내에서의 가상 소스들로부터의 기여들을 계산하는 것을 수반할 수 있다. 가상 소스들은 재생 환경 데이터를 참조하여 정의될 수 있는 복수의 가상 소스 위치들과 부합할 수 있다. 가상 소스 위치들은 균일하게 이격되거나 또는 이격되지 않을 수 있다. 가상 소스 위치들의 각각에 대해, 가상 소스 이득 값은 복수의 출력 채널들의 각각에 대해 계산될 수 있다. 상기 설명된 바와 같이, 몇몇 구현들에서, 이들 가상 소스 이득 값들은 셋-업 프로세스 동안 계산되고 저장될 수 있으며, 그 후 런-타임 동작들 동안 사용을 위해 검색될 수 있다.

몇몇 구현들에서, 페이드-아웃 인자는 재생 환경 내에서의 가상 소스 위치들에 대응하는 모든 가상 소스 이득 값들에 적용될 수 있다. 몇몇 구현들에서,

는 다음과 같이 수정될 수 있다:

, 여기에서

d_bound ≥ s이면, 페이드-아웃 인자 = 1.

d_bound < s이면, 페이드-아웃 인자 = d_bound/s

d_bound는 재생 환경의 경계와 오디오 오브젝트 위치 사이에서의 최소 거리를 나타내며

는 경계를 따라 가상 소스들의 기여를 나타낸다. 예를 들면, 도 8B를 참조하면,

는 오디오 오브젝트 볼륨(620b) 내에서 및 경계(805)에 인접한 가상 소스들의 기여를 나타낼 수 있다. 이 예에서, 도 6A의 것과 같이, 재생 환경의 밖에 위치된 가상 소스들은 없다.

대안적인 구현들에서,

는 다음과 같이 변경될 수 있다:

,

여기에서

는 재생 환경의 밖에 있지만 오디오 오브젝트 영역 또는 보륨 내에 위치된 가상 소스들에 기초하여 오디오 오브젝트 이득들을 나타낸다. 예를 들면, 도 8B를 참조하면,

는 오디오 오브젝트 볼륨(620b) 내에 있으며 경계(805)의 밖에 있는 가상 소스들의 기여를 나타낼 수 있다. 이 예에서, 도 6B의 것과 같이, 재생 환경의 안쪽 및 바깥쪽 양쪽 모두에 가상 소스들이 있다.

도 10은 저작 및/또는 렌더링 장치의 구성요소들의 예들을 제공하는 블록도이다. 이 예에서, 디바이스(1000)는 인터페이스 시스템(1005)을 포함한다. 인터페이스 시스템(1005)은 무선 네트워크 인터페이스와 같은, 네트워크 인터페이스를 포함할 수 있다. 대안적으로, 또는 부가적으로, 인터페이스 시스템(1005)은 범용 직렬 버스(USB) 인터페이스 또는 또 다른 이러한 인터페이스를 포함할 수 있다.

디바이스(1000)는 로직 시스템(1010)을 포함한다. 상기 로직 시스템(1010)은 범용 단일- 또는 다중-칩 프로세서와 같은, 프로세서를 포함할 수 있다. 상기 로직 시스템(1010)은 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 또는 이산 하드웨어 구성요소들, 또는 그것의 조합들을 포함할 수 있다. 로직 시스템(1010)은 디바이스(1000)의 다른 구성요소들을 제어하도록 구성될 수 있다. 디바이스(1000)의 구성요소들 사이에 어떤 인터페이스들도 도 10에 도시되지 않지만, 로직 시스템(1010)은 다른 구성요소들과의 통신을 위해 인터페이스들을 갖도록 구성될 수 있다. 다른 구성요소들은 적절하게, 서로와의 통신을 위해 구성되거나 또는 구성되지 않을 수 있다.

상기 로직 시스템(1010)은 이에 제한되지 않지만 여기에 설명된 오디오 저작 및/또는 렌더링 기능의 유형들을 포함하여, 오디오 저작 및/또는 렌더링 기능을 수행하도록 구성될 수 있다. 몇몇 이러한 구현들에서, 로직 시스템(1010)은 하나 이상의 비-일시적 미디어에 저장된 소프트웨어에 따라 (적어도 부분적으로) 동작하도록 구성될 수 있다. 비-일시적 미디어는 랜덤 액세스 메모리(RAM) 및/또는 판독-전용 메모리(ROM)와 같은, 로직 시스템(1010)과 연관된 메모리를 포함할 수 있다. 비-일시적 미디어는 메모리 시스템(1015)의 메모리를 포함할 수 있다. 메모리 시스템(1015)은 플래시 메모리, 하드 드라이브 등과 같은, 하나 이상의 적절한 유형들의 비-일시적 저장 미디어를 포함할 수 있다.

디스플레이 시스템(1030)은 디바이스(1000)의 표시에 의존하여, 하나 이상의 적절한 유형들의 디스플레이를 포함할 수 있다. 예를 들면, 디스플레이 시스템(1030)은 액정 디스플레이, 플라즈마 디스플레이, 쌍안정 디스플레이 등을 포함할 수 있다.

사용자 입력 시스템(1035)은 사용자로부터 입력을 수용하도록 구성된 하나 이상의 디바이스들을 포함할 수 있다. 몇몇 구현들에서, 사용자 입력 시스템(1035)은 디스플레이 시스템(1030)의 디스플레이 위에 놓인 터치 스크린을 포함할 수 있다. 사용자 입력 시스템(1035)은 마우스, 트랙 볼, 제스처 검출 시스템, 조이스틱, 디스플레이 시스템(1030) 상에 제공된 하나 이상의 GUI들 및/또는 메뉴들, 버튼들, 키보드, 스위치들 등을 포함할 수 있다. 몇몇 구현들에서, 사용자 입력 시스템(1035)은 마이크로폰(1025)을 포함할 수 있으며: 사용자는 마이크로폰(1025)을 통해 디바이스(1000)에 대한 음성 명령어들을 제공할 수 있다. 로직 시스템은 이러한 음성 명령어들에 따라 디바이스(1000)의 적어도 몇몇 동작들을 제어하기 위해 및 스피치 인식을 위해 구성될 수 있다.

전력 시스템(1040)은 니켈-카드뮴 배터리 또는 리튬-이온 배터리와 같은, 하나 이상의 적절한 에너지 저장 디바이스들을 포함할 수 있다. 전력 시스템(1040)은 전기 아웃렛으로부터 전력을 수신하도록 구성될 수 있다.

도 11A는 오디오 콘텐트 생성을 위해 사용될 수 있는 몇몇 구성요소들을 나타내는 블록도이다. 시스템(1100)은 예를 들면, 믹싱 스튜디오들 및/또는 더빙 스테이지들에서 오디오 콘텐트 생성을 위해 사용될 수 있다. 이 예에서, 시스템(1100)은 오디오 및 메타데이터 저작 툴(1105) 및 렌더링 툴(1110)을 포함한다. 이러한 구현에서, 오디오 및 메타데이터 저작 툴(1105) 및 렌더링 툴(1110)은 오디오 연결 인터페이스들(1107 및 1112)을 각각 포함하며, 이것은 AES/EBU, MADI, 아날로그 등을 통한 통신을 위해 구성될 수 있다. 오디오 및 메타데이터 저작 툴(1105) 및 렌더링 툴(1110)은 네트워크 인터페이스들(1109 및 1117)을 각각 포함하며, 이것은 TCP/IP 또는 임의의 다른 적절한 프로토콜을 통해 메타데이터를 전송 및 수신하도록 구성될 수 있다. 인터페이스(1120)는 스피커들에 오디오 데이터를 출력하도록 구성된다.

시스템(1100)은 예를 들면, 플러그인으로서 메타데이터 생성 툴(즉, 여기에 설명된 바와 같이 패너(panner))을 구동하는, Pro Tools™와 같은, 기존의 저작 시스템을 포함할 수 있다. 상기 패너는 또한 렌더링 툴(1110)에 연결된 독립형 시스템(예로서, PC 또는 믹싱 콘솔) 상에서 구동될 수 있거나, 또는 렌더링 툴(1110)과 동일한 물리적 디바이스 상에서 구동될 수 있다. 후자의 경우에, 패너 및 렌더러는 예로서 공유 메모리를 통해, 로컬 연결을 사용할 수 있다. 패너 GUI는 또한 태블릿 디바이스, 랩탑 등 상에서 제공될 수 있다. 렌더링 툴(1110)은 도 5A 내지 도 5C 및 도 9에 설명된 것들과 같이 렌더링 방법들을 실행하기 위해 구성되는 사운드 프로세서를 포함하는 렌더링 시스템을 포함할 수 있다. 렌더링 시스템은 예를 들면, 오디오 입력/출력을 위한 인터페이스들 및 적절한 로직 시스템을 포함하는 개인용 컴퓨터, 랩탑 등을 포함할 수 있다.

도 11B는 재생 환경(예로서, 영화 극장)에서 오디오 재생을 위해 사용될 수 있는 몇몇 구성요소들을 나타내는 블록도이다. 시스템(1150)은 이 예에서 시네마 서버(1155) 및 렌더링 시스템(1160)을 포함한다. 시네마 서버(1155) 및 렌더링 시스템(1160)은 네트워크 인터페이스들(1157 및 1162)을 각각 포함하며, 이것은 TCP/IP 또는 임의의 다른 적절한 프로토콜을 통해 오디오 오브젝트들을 전송 및 수신하도록 구성될 수 있다. 인터페이스(1164)는 스피커들에 오디오 데이터를 출력하도록 구성된다.

본 개시에 설명된 구현들에 대한 다양한 변경들이 이 기술분야의 숙련자들에게 쉽게 명백할 수 있다. 여기에 정의된 일반적인 원리들은 본 개시의 사상 또는 범위로부터 벗어나지 않고 다른 구현들에 적용될 수 있다. 따라서, 청구항들은 여기에 도시된 구현들에 제한되도록 의도되지 않지만, 여기에 개시된 본 개시, 원리들 및 신규 특징들과 일치하는 가장 넓은 범위에 부합될 것이다.

100: 재생 환경 105: 프로젝터
110: 사운드 프로세서 115: 전력 증폭기
120: 좌측 서라운드 어레이 125: 우측 서라운드 어레이
130: 좌측 스크린 채널 135: 중심 스크린 채널
140: 우측 스크린 채널 145: 서브우퍼
150: 스크린 200: 재생 환경
205: 디지털 프로젝터 210: 사운드 프로세서
215: 전력 증폭기 220: 좌측면 서라운드 어레이
224: 좌측 후방 서라운드 스피커 225: 우측면 서라운드 어레이
226: 우측 후방 서라운드 스피커 230: 좌측 스크린 채널
235: 중심 스크린 채널 240: 우측 스크린 채널
245: 서브우퍼 300: 재생 환경
310: 상부 스피커 층 320: 중간 스피커 층
330: 하부 스피커 층 345a, 345b: 서브우퍼
400: GUI 402: 스피커 구역
404: 가상 재생 환경 405: 전방 영역
450: 재생 환경 455: 스크린 스피커
460: 좌측면 서라운드 어레이 465: 우측면 서라운드 어레이
610: 오디오 오브젝트 1000: 디바이스
1005: 인터페이스 시스템 1010: 로직 시스템
1015: 메모리 시스템 1025: 마이크로폰
1030: 디스플레이 시스템 1035: 사용자 입력 시스템
1040: 전력 시스템 1100: 시스템
1105: 오디오 및 메타데이터 저작 툴 1110: 렌더링 툴
1109, 1117: 네트워크 인터페이스 1120: 인터페이스
1150: 시스템 1155: 시네마 서버
1160: 렌더링 시스템 1157, 1162: 네트워크 인터페이스
1164: 인터페이스

Claims

적어도 하나의 오디오 오브젝트 및 연관된 메타데이터를 포함하는 입력 오디오를 렌더링하는 방법으로서, 메타데이터는 적어도 하나의 오디오 오브젝트에 대응하는 오디오 오브젝트 크기 메타데이터 및 오디오 오브젝트 위치 메타데이터를 포함하는, 상기 입력 오디오를 렌더링하는 방법에 있어서,
적어도 하나의 오디오 오브젝트에 대응하는 오디오 오브젝트 크기 메타데이터 및 오디오 오브젝트 위치 메타데이터에 기초하여 복수의 가상 오디오 오브젝트들을 결정하는 단계;
복수의 가상 오디오 오브젝트들의 가상 오디오 오브젝트 각각에 대하여, 그 대응하는 가상 오디오 오브젝트의 위치를 결정하는 단계;
복수의 가상 오디오 오브젝트들의 가상 오디오 오브젝트 각각에 대하여, 그 대응하는 가상 오디오 오브젝트의 적어도 하나의 이득을 결정하는 단계로서, 대응하는 가상 오디오 오브젝트의 각각의 이득은 적어도 하나의 오디오 오브젝트에 대응하는 오브젝트 오디오 메타데이터 이득에 기초하는, 상기 적어도 하나의 이득을 결정하는 단계;
하나 이상의 스피커 공급들에 오디오 오브젝트를 렌더링하는 단계로서, 오디오 오브젝트는 복수의 가상의 오디오 오브젝트들의 적어도 일부의 그 대응하는 위치 및 이득에 기초하여 렌더링되는, 상기 렌더링하는 단계를 포함하는, 입력 오디오를 렌더링하는 방법.
적어도 하나의 오디오 오브젝트 및 연관된 메타데이터를 포함하는 입력 오디오를 렌더링하는 장치로서, 메타데이터는 적어도 하나의 오디오 오브젝트에 대응하는 오디오 오브젝트 크기 메타데이터 및 오디오 오브젝트 위치 메타데이터를 포함하는, 상기 입력 오디오를 렌더링하는 장치에 있어서,
적어도 하나의 오디오 오브젝트에 대응하는 오디오 오브젝트 크기 메타데이터 및 오디오 오브젝트 위치 메타데이터에 기초하여 복수의 가상 오디오 오브젝트들을 결정하도록 구성된 프로세서를 포함하고; 상기 프로세서는 또한,
복수의 가상 오디오 오브젝트들의 가상 오디오 오브젝트 각각에 대하여, 그 대응하는 가상 오디오 오브젝트의 위치를 결정하고;
복수의 가상 오디오 오브젝트들의 가상 오디오 오브젝트 각각에 대하여, 그 대응하는 가상 오디오 오브젝트의 적어도 하나의 이득을 결정하고, 대응하는 가상 오디오 오브젝트의 각각의 이득은 적어도 하나의 오디오 오브젝트에 대응하는 오브젝트 오디오 메타데이터 이득에 기초하며;
하나 이상의 스피커 공급들에 오디오 오브젝트를 렌더링하도록 구성되고, 상기 프로세서는 오디오 오브젝트가 복수의 가상의 오디오 오브젝트들의 적어도 일부의 그 대응하는 위치 및 이득에 기초하여 렌더링하도록 구성되는, 입력 오디오를 렌더링하는 장치.
소프트웨어를 저장한 비-일시적 매체로서, 상기 소프트웨어는 제 1 항에 따른 방법을 수행하기 위한 지시들을 포함하는, 비-일시적 매체.