KR20150123925A

KR20150123925A - 오브젝트 기반 오디오의 상호 작용적 렌더링을 위한 방법들 및 시스템들

Info

Publication number: KR20150123925A
Application number: KR1020157027301A
Authority: KR
Inventors: 로버트 앤드류 프란스; 토마스 찌글러; 스리펄 에스. 메타; 앤드류 조나단 도웰; 프린야 상웅쏨분; 마이클 데이비드 드위어; 파르하드 파라하니; 니콜라스 알. 칭고스; 프레디 산체스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2013-04-03
Filing date: 2014-03-19
Publication date: 2015-11-04
Also published as: JP6149152B2; US20200126568A1; US9805727B2; US10748547B2; US20220059103A1; US10832690B2; CN114157978A; CN114613373A; CN108134978A; US11769514B2; HK1253941A1; CN105103570A; EP3930351A1; CN113766413B; CN105103571B; CN114157979A; US20190341061A1; US10515644B2; US10553225B2; CN114157979B

Abstract

예로서, 프로그램의 오디오 콘텐트의 몰입감 있는, 지각을 제공하기 위해, 개인화 가능한 방식으로 렌더링 가능한 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법. 다른 실시예들은 이러한 프로그램을 전달(예로서, 방송)하고, 디코딩하며, 및/또는 렌더링하는 단계들을 포함한다. 프로그램에 의해 표시된 오디오 오브젝트들의 렌더링은 몰입감 있는 경험을 제공할 수 있다. 프로그램의 오디오 콘텐트는 다수의 오브젝트 채널들(예로서, 사용자-선택 가능하며 사용자-구성 가능한 오브젝트들, 및 통상적으로 또한 사용자에 의한 선택이 없을 때 렌더링될 오브젝트들의 디폴트 세트를 나타내는 오브젝트 채널들) 및 스피커 채널들의 베드를 나타낼 수 있다. 또 다른 양상은 방법의 임의의 실시예를 수행하도록 구성되거나 또는, 그에 따라 생성된 오브젝트 기반 오디오 프로그램(또는 그것의 비트스트림)의 적어도 하나의 프레임(또는 다른 세그먼트)을 저장하는 버퍼 메모리를 포함하는 오디오 프로세싱 유닛(예로서, 인코더 또는 디코더)이다.

Description

오브젝트 기반 오디오의 상호 작용적 렌더링을 위한 방법들 및 시스템들{METHODS AND SYSTEMS FOR INTERACTIVE RENDERING OF OBJECT BASED AUDIO}

관련 출원들에 대한 상호-참조

본 출원은 여기에 참조로서 통합된, 2013년 4월 3일에 출원된, 미국 가 특허 출원 번호 제61/807,922호 및 2013년 6월 7일에 출원된 미국 가 특허 출원 번호 제61/832,397호의 출원일의 이득을 주장한다.

본 발명은 오디오 신호 프로세싱과 관련되며, 보다 특히 오디오 콘텐트(통상적으로 스피커 채널들 및 적어도 하나의 선택 가능한 오디오 오브젝트 채널을 나타냄), 및 오디오 콘텐트의 상호 작용적 렌더링을 지원하는 메타데이터를 포함하는 오디오 데이터 비트스트림들의 인코딩, 디코딩, 및 상호 작용적 렌더링과 관련된다. 본 발명의 일부 실시예들은 돌비 디지털(AC-3), 돌비 디지털 플러스(강화된 AC-3 또는 E-AC-3) 또는 돌비 E로서 알려진 포맷들 중 하나에서 오디오 데이터를 생성하고, 디코딩하며, 및/또는 렌더링한다.

돌비, 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E는 돌비 래버러토리스 라이센싱 코포레이션(Dolby Laboratories Licensing Corporation)의 상표들이다. 돌비 래버러토리스는 각각 돌비 디지털 및 돌비 디지털 플러스로서 알려진 AC-3 및 E-AC-E의 독점적 실행들을 제공한다.

오디오 데이터의 통상적인 스트림은 오디오 콘텐트(예로서, 오디오 콘텐트의 하나 이상의 채널들) 및 오디오 콘텐트의 적어도 하나의 특성을 나타내는 메타데이터 양쪽 모두를 포함한다. 예를 들면, AC-3 비트스트림에서, 구체적으로 청취 환경으로 전달되는 프로그램의 사운드를 변경할 때 사용하도록 의도되는 여러 개의 오디오 메타데이터 파라미터들이 있다. 메타데이터 파라미터들 중 하나는 DIALNORM 파라미터이며, 이것은 오디오 프로그램에서 발생한 다이얼로그의 평균 레벨을 나타내도록 의도되며, 오디오 재생 신호 레벨을 결정하기 위해 사용된다.

본 발명은 AC-3 비트스트림, E-AC-3 비트스트림, 또는 돌비 E 비트스트림과 함께 사용하는 것으로 제한되지는 않지만, 편리함을 위해 라우드니스 프로세싱 상태 메타데이터를 포함하는 그러한 비트스트림을 생성하고, 디코딩하거나, 또는 프로세싱하는 실시예들이 설명될 것이다.

AC-3 인코딩된 비트스트림은 메타데이터 및 오디오 콘텐트의 1 내지 6개의 채널들을 포함한다. 오디오 콘텐트는 지각적 오디오 코딩을 사용하여 압축된 오디오 데이터이다. 메타데이터는 청취 환경으로 전달되는 프로그램의 사운드를 변경할 때 사용하도록 의도되는 여러 개의 오디오 메타데이터 파라미터들을 포함한다.

AC-3(또한 돌비 디지털로 알려진) 코딩의 상세들은 잘 알려져 있으며 2001년 8월 20일, 개선된 텔레비전 시스템 위원회, 개정 A, ATSC 표준 A52/A: 디지털 오디오 압축 표준(AC-3)에 포함한 많은 공개된 참조 문헌들에 제시된다.

돌비 디지털 플러스(E-AC-3) 코딩의 상세들은 2004년 10월 28일, 제117회 AES 협의회, AES 협의회 논문 6196, "돌비 디지털 플러스로의 도입, 돌비 디지털 코딩 시스템으로의 강화"에 제시된다.

돌비 E 코딩의 상세들은 1999년 8월, 제107회 AES 컨퍼런스, AES 프리프린트 5068, "오디오 분배 시스템에서 효율적인 비트 할당, 양자화, 및 코딩" 및 1999년 8월 제107회 AES 컨퍼런스 AES 프리프린트 5033, "비디오와 함께 사용하기 위해 최적화된 전문 오디오 코더"에 제시된다.

AC-3 인코딩된 오디오 비트스트림의 각각의 프레임은 디지털 오디오의 1536개의 샘플들에 대한 오디오 콘텐트 및 메타데이터를 포함한다. 48 kHz의 샘플링 레이트에 대해, 이것은 32 밀리초들의 디지털 오디오 또는 오디오의 초당 31.25 프레임들의 레이트에 해당한다.

E-AC-3 인코딩된 오디오 비트스트림의 각각의 프레임은 프레임이 각각 1, 2, 3 또는 6개의 블록들의 오디오 데이터를 포함하는지에 의존하여, 디지털 오디오의 256, 512, 768 또는 1536개의 샘플들에 대한 오디오 콘텐트 및 메타데이터를 포함한다. 48 kHz의 샘플링 레이트에 대해, 이것은 각각 5.333, 10.667, 16 또는 32 밀리초들의 디지털 오디오 또는 각각 오디오의 초당 189.9, 93.75, 62.5 또는 31.25 프레임들의 레이트에 해당한다.

도 1에 나타낸 바와 같이, 각각의 AC-3 프레임은 (도 2에 도시된 바와 같이) 동기화 워드(SW) 및 두 개의 에러 정정 워드들 중 제 1(CRC1)을 포함하는 동기화 정보(SI) 섹션; 메타데이터의 대부분을 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축 오디오 콘텐트를 포함하는(및 또한 메타데이터를 포함할 수 있음) 6개의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후 남겨진 임의의 사용되지 않은 비트들을 포함하는 웨이스트 비트들(waste bits)(W); 보다 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 두 개의 에러 정정 워드들 중 제 2(CRC2)를 포함한, 섹션들(세그먼트들)로 분할된다.

도 4에 나타낸 바와 같이, 각각의 E-AC-3 프레임은, 동기화 워드들(SW)을 포함하는(도 2에 도시된 바와 같이) 동기화 정보(SI) 섹션; 메타데이터의 대부분을 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축 오디오 콘텐트를 포함하는(및 또한 메타데이터를 포함할 수 있는) 1 및 6 사이에서의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후 남겨진 임의의 사용되지 않은 비트들을 포함하는 웨이스트 비트들(W); 보다 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 에러 정정 워드(CRC)을 포함한, 섹션들(세그먼트들)로 분할된다.

AC-3(또는 E-AC-3) 비트스트림에서, 구체적으로 청취 환경으로 전달되는 프로그램의 사운드를 변경할 때 사용하도록 의도되는 여러 개의 오디오 메타데이터 파라미터들이 있다. 메타데이터 파라미터들 중 하나는 DIALNORM 파라미터이며, 이것은 BSI 세그먼트에 포함된다.

도 3에 도시된 바와 같이, AC-3 프레임(또는 E-AC-3 프레임)의 BSI 세그먼트는 프로그램에 대한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM")를 포함한다. 동일한 AC-3 프레임에 운반된 제 2 오디오 프로그램에 대한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM2")는 AC-3 프레임의 오디오 코딩 코드("acmod")가 듀얼-모노 또는 "1+1" 채널 구성이 사용 중임을 나타내는 "0"인 경우 포함된다.

BSI 세그먼트는 또한 "addbsie" 비트를 따르는 부가적인 비트 스트림 정보의 존재(또는 부재)를 나타내는 플래그("addbsie"), "addbsil" 값을 따르는 임의의 부가적인 비트 스트림 정보의 길이를 나타내는 파라미터("addbsil"), 및 "addbsil" 값을 따르는 64 비트들까지의 부가적인 비트 스트림 정보("addbsi")를 포함한다.

BSI 세그먼트는 도 3에 구체적으로 도시되지 않은 다른 메타데이터 값들을 포함한다.

오디오 비트스트림들에서 다른 유형들의 메타데이터를 포함하는 것이 제안되어 왔다. 예를 들면, 오디오 콘텐트의 프로세싱 상태(예로서, 라우드니스 프로세싱 상태) 및 특성들(예로서, 라우드니스)을 나타내는 메타데이터를 포함한 오디오 비트스트림들을 생성하고, 디코딩하며, 프로세싱하기 위한 방법들 및 시스템들이 2011년 12월 1의 국제 출원일을 가지며, 본 출원의 양수인에게 양도된, PCT 국제 출원 공개 번호 WO 2012/075246 A2호에 설명된다. 이러한 참조 문헌은 또한 메타데이터를 사용한 비트스트림들의 오디오 콘텐트의 적응적 프로세싱 및 메타데이터를 사용한 비트스트림의 오디오 콘텐트의 라우드니스 프로세싱 상태 및 라우드니스의 유효성의 검증을 설명한다.

오브젝트 기반 오디오 프로그램들을 생성하며 렌더링하기 위한 방법들이 또한 알려져 있다. 이러한 프로그램들의 생성 동안, 그것은 통상적으로 렌더링을 위해 이용될 라우드스피커들이 재생 환경에서 임의의 위치들에 위치되며; 반드시 (명목상) 수평 평면에 또는 프로그램 생성 시 알려진 임의의 다른 미리 결정된 배열들에 위치되는 것은 아님이 가정된다. 통상적으로, 프로그램에 포함된 메타데이터는 예로서, 스피커들의 3-차원 어레이를 사용하여, 분명한 공간 위치에서 또는 궤적(3-차원 볼륨에서)을 따라 프로그램의 적어도 하나의 오브젝트를 렌더링하기 위한 렌더링 파라미터들을 나타낸다. 예를 들면, 프로그램의 오브젝트 채널은 오브젝트(오브젝트 채널에 의해 표시된)가 렌더링될 분명한 공간 위치들의 3-차원 궤적을 나타내는 대응하는 메타데이터를 가질 수 있다. 궤적은 "플로어" 위치들의 시퀀스(재생 환경의, 플로어 상에, 또는 또 다른 수평 평면에 위치되는 것으로 가정되는 스피커들의 서브세트의 평면에서), 및 "플로어-위" 위치들의 시퀀스(각각이 재생 환경의 적어도 하나의 다른 수평 평면에 위치되는 것으로 가정되는 스피커들의 서브세트를 구동함으로써 결정되는)를 포함할 수 있다. 오브젝트 기반 오디오 프로그램들의 예들은, 예를 들면, 2011년 9월 29일에 국적 공개 번호 WO 2011/119401 A2 하에 공개되며, 본 출원의 양수인에게 양도된, PCT 국제 출원 번호 PCT/US2001/028783에 설명된다.

본 발명은 오디오 콘텐트, 및 오디오 콘텐트의 상호 작용적 렌더링을 지원하는 메타데이터를 포함하는 오디오 데이터 비트스트림들의 인코딩, 디코딩, 및 상호 작용적 렌더링과 관련된다.

본 발명의 일부 실시예들에 따르면, 오브젝트 기반 오디오 프로그램(본 발명에 따라 생성된)은 프로그램의 오디오 콘텐트의 몰입감 있는(immersive), 개인화 가능한 지각을 제공하도록 렌더링된다. 통상적으로, 콘텐트는 관중 이벤트(예로서, 축구 또는 럭비 경기, 자동차 또는 오토바이 경주, 또는 또 다른 스포츠 경기)에서의 분위기(즉, 그에서 발생하는 사운드), 및/또는 그에 대한 해설을 나타낸다. 일부 실시예들에서, 콘텐트는 관중 이벤트에서의 분위기 또는 그에 대한 해설을 나타내지 않는다(예로서, 일부 실시예들에서, 콘텐트는 다이얼로그 및/또는 다른 오디오 콘텐트의 다수의 선택 가능한 버전들을 가진 대본 또는 영화적 프로그램을 나타낸다). 일부 실시예들에서, 프로그램의 오디오 콘텐트는 다수의 오디오 오브젝트 채널들(예로서, 사용자-선택 가능한 오브젝트들 또는 오브젝트 세트들, 및 통상적으로 또한 사용자에 의해 오브젝트 선택의 부재 시 렌더링될 오브젝트들의 디폴트 세트를 나타냄) 및 스피커 채널들의 적어도 하나의 세트(때때로 여기에서 "베드(bed)"로서 불림)에 해당한다. 상기 스피커 채널들의 베드는 오브젝트 채널을 포함하지 않는 종래의 방송 프로그램에 포함될 수 있는 유형의 스피커 채널들의 종래의 믹스(예로서, 5.1 채널 믹스)일 수 있다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램에 의해 표시된(즉, 그 일부로서 전달된) 오브젝트 관련 메타데이터는 단지 사전-믹싱된(pre-mixed) 사운드 필드의 재생을 허용하는 대신에, 최종 사용자가 렌더링을 위한 프로그램의 오디오 콘텐트의 믹스를 선택하도록 허용하는 것을 포함하여, 재생 측 상에서 믹싱 상호 작용성(예로서, 큰 정도의 믹싱 상호 작용성)을 제공한다. 예를 들면, 사용자는 렌더링을 위한 이용 가능한 오브젝트 채널들의 서브세트, 및 선택적으로 또한 렌더링될 오브젝트 채널(들)에 의해 표시된 적어도 하나의 오디오 오브젝트(사운드 소스)의 재생 레벨을 선택하기 위해 본 발명의 프로그램의 통상적인 실시예의 메타데이터에 의해 제공된 렌더링 옵션들 중에서 선택할 수 있다. 각각의 선택된 사운드 소스가 렌더링되는 공간 위치는 프로그램에 포함된 메타데이터에 의해 미리 결정될 수 있지만, 일부 실시예들에서 사용자(예로서, 미리 결정된 규칙들 또는 제약들의 대상이 되는)에 의해 선택될 수 있다. 일부 실시예들에서, 프로그램에 포함된 메타데이터는 렌더링 옵션들(예로서, 작은 수의 렌더링 옵션들, 예를 들면, "홈 팀 군중 소리" 오브젝트, "홈 팀 군중 소리" 및 "홈 팀 해설" 오브젝트 세트 "원정 팀 군중 소리" 오브젝트 및 "원정 팀 군중 소리" 및 "원정 팀 해설" 오브젝트 세트) 중에서 사용자 선택을 허용한다. 메뉴는 제어기의 사용자 인터페이스에 의해 사용자에게 제공될 수 있다. 제어기는 통상적으로 (적어도 부분적으로) 오브젝트 기반 프로그램을 디코딩하며 렌더링하도록 구성되는 셋 탑 디바이스(또는 다른 디바이스, 예로서, TV, AVR, 태블릿, 또는 전화)에 결합된다(예로서, 무선 링크에 의해). 일부 다른 실시예들에서, 프로그램에 포함된 메타데이터는 그 외 오브젝트 채널들에 의해 표시된 어떤 오브젝트(들)가 렌더링되어야 하는지에 대해, 및 렌더링될 오브젝트(들)가 어떻게 구성되어야 하는지에 대해 옵션들의 세트 중에서 사용자 선택을 허용한다.

실시예들의 클래스에서, 본 발명은 프로그램이 프로그램의 오디오 콘텐트의 몰입감 있는, 지각을 제공하기 위해 개인화 가능한 방식으로 렌더링 가능하도록 오브젝트 기반 오디오 프로그램(예로서, 프로그램을 생성하기 위해 오디오 콘텐트를 인코딩하는 것을 포함)을 생성하는 방법이다. 다른 실시예들은 이러한 프로그램을 전달하고(예로서, 방송하고), 디코딩하며, 및/또는 렌더링하는 단계들을 포함한다. 프로그램에 의해 표시된(에 포함된) 오디오 오브젝트들의 렌더링은 (예로서, 재생 시스템이 스피커들의 3-차원 어레이를 포함할 때, 또는 재생 시스템이 스피커들의 공칭 2-차원 어레이를 포함할 때조차) 몰입감 있는 경험을 제공할 수 있다.

통상적으로, 프로그램의 오디오 콘텐트는 다수의 오디오 오브젝트들(예로서, 사용자-선택 가능한 오브젝트들, 및 통상적으로 또한 사용자에 의한 선택의 부재 시 렌더링될 오브젝트들의 디폴트 세트) 및 스피커 채널들의 세트("베드")를 나타낸다. 일부 실시예들에서, 소비자는 프로그램의 오브젝트 채널 콘텐트(및 대응하는 렌더링 파라미터들)을 선택하기 위해 제어기(사용자 인터페이스를 실행한)를 사용하지만, 제어기는 프로그램의 스피커 채널 콘텐트(즉, 베드의 개개의 스피커 채널들)를 선택하기 위해 사용자에 대한 옵션을 제공하지 않는다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램은 프로그램의 오디오 콘텐트(예로서, 스피커 채널들의 베드 및 프로그램의 오브젝트 채널들 중 적어도 일부) 및 오브젝트 관련 메타데이터의 적어도 일부(즉, 적어도 일 부분)를 나타내는 인코딩된(예로서, 압축된) 오디오 비트스트림(때때로 여기에서 "메인 믹스"로서 불림), 및 선택적으로 또한 프로그램의 오디오 콘텐트(예로서, 오브젝트 채널들의 적어도 일부) 및/또는 오브젝트 관련 메타데이터를 나타내는 적어도 하나의 부가적인 비트스트림 또는 파일(때때로 여기에서 "사이드 믹스"로서 불림)이다.

일부 실시예들에서, 프로그램의 오브젝트 관련 메타데이터는 지속적 메타데이터(예로서, 지속적 메타데이터 및 비-지속적 메타데이터)를 포함한다. 예를 들면, 오브젝트 관련 메타데이터는 방송 체인(콘텐트 생성 설비로부터 소비자의 사용자 인터페이스로)에서의 적어도 하나의 포인트에서 변경될 수 있는 비-지속적 메타데이터(예로서, 사용자-선택 가능한 오브젝트에 대한, 디폴트 레벨 및/또는 렌더링 위치 또는 궤적) 및 프로그램의 초기 생성 후(통상적으로, 콘텐트 생성 설비에서) 변경 가능하도록 의도되지 않은(또는 변경될 수 없는) 지속적 메타데이터를 포함할 수 있다. 지속적 메타데이터의 예들은 프로그램의 각각의 사용자-선택 가능한 오브젝트 또는 다른 오브젝트 또는 오브젝트들의 세트에 대한 오브젝트 ID, 및 프로그램의 스피커 채널들의 베드의 오디오 콘텐트 또는 다른 요소들에 대하여, 각각의 사용자-선택 가능한 오브젝트, 또는 다른 오브젝트의 타이밍을 나타내는 동기화 워드들(예로서, 시간 코드들)을 포함한다. 지속적 메타데이터는 통상적으로 콘텐트 생성 설비로부터 사용자 인터페이스로의 전체 방송 체인 전체에 걸쳐, 프로그램의 방송의 전체 지속 기간 전체에 걸쳐 또는 심지어 또한 프로그램의 재-방송들 동안 보존된다. 일부 실시예들에서, 적어도 하나의 사용자-선택 가능한 오브젝트의 오디오 콘텐트(및 연관된 메타데이터)는 오브젝트 기반 오디오 프로그램의 메인 믹스(main mix)에서 전송되며, 적어도 일부 지속적 메타데이터(예로서, 시간 코드들) 및 선택적으로 또한 적어도 하나의 다른 오브젝트의 오디오 콘텐트(및 연관된 메타데이터)는 프로그램의 사이드 믹스(side mix)에서 전송된다.

본 발명의 오브젝트 기반 오디오 프로그램의 일부 실시예들에서의 지속적 메타데이터(durable metadata)는 오브젝트 콘텐트 및 베드(스피커 채널) 콘텐트의 사용자 선택된 믹스를 보존(예로서, 프로그램의 방송 후조차)하기 위해 이용된다. 예를 들면, 이것은 사용자가 그/그녀의 선택을 변경할 때까지, 사용자가 특정 유형(예로서, 임의의 축구 경기)의 프로그램마다 또는 사용자가 임의의 프로그램(임의의 유형)을 볼 때마다 디폴트 믹스(default mix)로서 선택된 믹스를 제공할 수 있다. 예를 들면, 제 1 프로그램의 방송 동안, 사용자는 지속적 ID(예로서, "홈 팀 군중 소리" 오브젝트로서 식별된 오브젝트)를 가진 오브젝트를 포함한 믹스를 선택할 수 있으며, 그 후 사용자가 믹스 선택을 변경할 때까지, 사용자가 또 다른 프로그램(동일한 지속적 ID를 가진 오브젝트를 포함)을 볼 때마다(및 청취할 때마다), 재생 시스템은 동일한 믹스를 가진 프로그램을 자동으로 렌더링할 것이다. 본 발명의 오브젝트 기반 오디오 프로그램의 일부 실시예들에서의 지속적, 오브젝트 관련 메타데이터는 (예로서, 이러한 렌더링을 무산시키기 위한 사용자의 바람에도 불구하고) 전체 프로그램 동안 일부 오브젝트들의 렌더링이 의무적이게 할 수 있다.

일부 실시예들에서, 오브젝트 관련 메타데이터는, 디폴트 렌더링 파라미터들(예로서, 렌더링된 오브젝트들의 디폴트 공간 위치들)을 갖고, 오브젝트 콘텐트 및 베드(스피커 채널) 콘텐트의 디폴트 믹스를 제공한다.

일부 실시예들에서, 오브젝트 관련 메타데이터는 오브젝트들 및 "베드(bed)" 스피커 채널 콘텐트의 선택 가능한 "프리셋(preset)" 믹스의 세트를 제공하며, 각각의 프리셋 믹스는 미리 결정된 세트의 렌더링 파라미터들(예로서, 렌더링된 오브젝트들의 공간 위치들)을 가진다. 이들은 이용 가능한 믹스들의 제한된 메뉴 또는 팔레트로서 재생 시스템의 사용자 인터페이스에 의해 제공될 수 있다. 각각의 프리셋 믹스(및/또는 각각의 선택 가능한 오브젝트)는 지속적 ID(예로서, 이름, 라벨 또는 로고)를 가질 수 있으며, 이러한 ID의 표시는 통상적으로 재생 시스템의 사용자 인터페이스에 의해 (예로서, iPad 또는 다른 제어기의 스크린상에) 디스플레이 가능하다. 예를 들면, 프리셋 믹스의 각각의 오브젝트의 비지속적 메타데이터 또는 오디오 콘텐트의 상세들에 대한 (예로서, 방송사에 의해 만들어진) 변화들에 관계없이, 지속적인 ID(예로서, 팀 로고)로 선택 가능한 "홈 팀" 믹스가 있을 수 있다.

일부 실시예들에서, 프로그램의 오브젝트 관련 메타데이터(또는 프로그램으로 전달된 메타데이터에 의해 나타나지 않는, 재생 또는 렌더링 시스템의 사전 구성)는 오브젝트들 및 베드(스피커 채널) 콘텐트의 선택 가능한 믹스들에 대한 제약들 또는 조건들을 제공한다. 예를 들면, 디지털 권한 관리(DRM)가 이용된다면, DRM 계층은 고객들이 오브젝트 기반 오디오 프로그램에 포함된 오디오 오브젝트들의 세트로의 "티어드(tiered)" 액세스를 갖도록 허용하기 위해 실행될 수 있다. 고객이 (예로서, 방송사에) 보다 많은 돈을 지불한다면, 고객은 프로그램의 보다 많은 오디오 오브젝트들을 디코딩하며 선택(및 청취)하도록 인가될 수 있다. 또 다른 예에 대해, 오브젝트 관련 메타데이터는 오브젝트들의 사용자 선택에 대한 제약들을 제공할 수 있다(예로서, "홈 팀 군중 소리" 오브젝트 및 "홈 팀 아나운서" 오브젝트 양쪽 모두가 선택된다면, 메타데이터는 이들 두 개의 오브젝트들이 미리 결정된 상대적 공간 위치들을 갖고 렌더링됨을 보장한다). 제약들은 (적어도 부분적으로) 재생 시스템에 관한 데이터(예로서, 사용자-입력 데이터)에 의해 결정될 수 있다. 예를 들면, 재생 시스템이 (단지 두 개의 스피커들만을 포함한) 스테레오 시스템이면, 시스템의 오브젝트 프로세싱 서브시스템은 단지 두 개의 스피커들에 의해 적절한 공간 분해능을 갖고 렌더링될 수 없는 (오브젝트 관련 메타데이터에 의해 식별된) 믹스들의 사용자 선택을 방지하도록 구성될 수 있다. 또 다른 예에 대해, 일부 전달된 오브젝트들은 오브젝트 관련 메타데이터(및/또는 재생 시스템에 입력된 다른 데이터)에 의해 표시된 법적(예로서, DRM) 이유들 또는 (예로서, 전달 채널의 대역폭에 기초한) 다른 이유들로 선택 가능한 오브젝트들의 카테고리로부터 제거될 수 있다. 사용자는 보다 많은 대역폭에 대해 콘텐트 생성기 또는 방송사에 지불할 수 있으며 결과로서 선택 가능한 오브젝트들 및/또는 베드/오브젝트 믹스들의 보다 큰 메뉴로부터 선택하도록 허용될 수 있다.

일부 실시예들에서, 본 발명은 규칙 기반 오브젝트 채널 선택을 실행하며, 여기에서 적어도 하나의 미리 결정된 규칙은 오브젝트 기반 오디오 프로그램의 어떤 오브젝트 채널(들)이 (예로서, 스피커 채널들의 베드로) 렌더링되는지를 결정한다. 통상적으로, 사용자는 오브젝트 채널 선택에 대한 적어도 하나의 규칙을 특정하며(예로서, 재생 시스템 제어기의 사용자 인터페이스에 의해 제공된 이용 가능한 규칙들의 메뉴로부터 선택함으로써), 재생 시스템은 오브젝트 기반 오디오 프로그램의 어떤 오브젝트 채널(들)이 렌더링될 채널들의 믹스에 포함되어야 하는지를 결정하기 위해 각각의 이러한 규칙을 사용한다. 재생 시스템은 프로그램의 어떤 오브젝트 채널(들)이 미리 결정된 규칙(들)을 만족하는지를 프로그램에서 오브젝트 관련 메타데이터로부터 결정할 수 있다.

일부 실시예들에서, 본 발명의 오브젝트 기반 오디오 프로그램은 동시에 생성되며 송신되는 비트스트림들의 세트("서브스트림들"로서 불릴 수도 있는, 다수의 비트스트림들)를 포함한다. 통상적으로, 다수의 디코더들은 그들을 디코딩하기 위해 이용된다(예로서, 프로그램은 다수의 E-AC-3 서브스트림들을 포함하며 재생 시스템은 서브스트림들을 디코딩하기 위해 다수의 E-AC-3 디코더들을 이용한다). 통상적으로, 각각의 서브스트림은 오브젝트 채널들의 전체 세트의 상이한 서브세트 및 대응하는 오브젝트 관련 메타데이터를 포함하며, 적어도 하나의 서브스트림은 스피커 채널들의 베드를 포함한다. 각각의 서브스트림은 바람직하게는 서브스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하는 동기화 워드들(예로서, 시간 코드들)을 포함한다. 예를 들면, 각각의 서브스트림에서, 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터를 포함하는 각각의 컨테이너는 고유 ID 또는 시간 스탬프를 포함한다.

또 다른 예에 대해, N개의 본 발명의 돌비 E 비트스트림들의 세트는 동시에 생성되며 송신된다. 각각의 이러한 돌비 E 비트스트림은 버스트들(bursts)의 시퀀스를 포함한다. 각각의 버스트는 스피커 채널 오디오 콘텐트(스피커 채널들의 "베드") 및 본 발명의 오브젝트 채널들의 (큰 세트일 수 있는) 전체 오브젝트 채널 세트의 서브세트 및 오브젝트 관련 메타데이터(즉, 각각의 버스트는 전체 오브젝트 채널 세트의 일부 오브젝트 채널들 및 대응하는 오브젝트 관련 메타데이터를 나타낼 수 있다)를 운반할 수 있다. 상기 세트에서의 각각의 비트스트림은 상기 세트에서의 비트스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하기 위해 동기화 워드들(예로서, 시간 코드들)을 포함한다. 예를 들면, 각각의 비트스트림에서, 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터를 포함한 각각의 컨테이너는 상기 세트에서의 비트스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하기 위해 고유 ID 또는 시간 스탬프를 포함할 수 있다.

본 발명의 일부 실시예들(예로서, 본 발명의 재생 시스템의 일부 실시예들)은 분배된 렌더링을 실행한다. 예를 들면, 프로그램의 선택된 오브젝트 채널들(및 대응하는 오브젝트 관련 메타데이터)은 (스피커 채널들의 디코딩된 베드로) 셋 탑 박스(STB)로부터 오브젝트 채널들 및 스피커 채널들의 베드의 믹스를 렌더링하도록 구성된 다운스트림 디바이스(예로서, AVR 또는 사운드바)로 전달된다. 상기 STB는 오디오를 부분적으로 렌더링할 수 있으며 상기 다운스트림 디바이스는 렌더링을 완료할 수 있다(예로서, 특정 분명한 소스 위치에 오디오 오브젝트를 위치시키기 위해 스피커들(예로서, 천장 스피커들)의 특정 최상부 티어(tier)를 구동하기 위한 스피커 피드들을 생성함으로써, 여기에서 상기 STB의 출력은 단지 오브젝트가 스피커들의 일부 특정되지 않은 최상부 티어에서 일부 특정되지 않은 방식으로 렌더링될 수 있음을 나타낸다). 예를 들면, STB는 재생 시스템의 스피커들의 특정 조직화에 대한 지식을 갖지 않을 수 있지만, 다운스트림 디바이스(예로서, AVR 또는 사운드바)는 이러한 지식을 가질 수 있다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램은 적어도 하나의 AC-3(또는 E-AC-3) 비트스트림이거나 또는 이를 포함하며, 오브젝트 채널 콘텐트(및/또는 오브젝트 관련 메타데이터)를 포함하는 프로그램의 각각의 컨테이너는 비트스트림의 프레임의 끝에서의 보조데이터 필드(예로서, 도 1 또는 도 4에 도시된 AUX 세그먼트)에 또는 비트스트림의 "스킵 필드들" 세그먼트에 포함된다. 일부 이러한 실시예들에서, AC-3 또는 E-AC-3 비트스트림의 각각의 프레임은 하나 또는 두 개의 메타데이터 컨테이너들을 포함한다. 하나의 컨테이너는 프레임의 Aux 필드에 포함될 수 있으며, 또 다른 컨테이너는 프레임의 addbsi 필드에 포함될 수 있다. 각각의 컨테이너는 코어 헤드를 가지며 하나 이상의 페이로드들을 포함한다(또는 그것과 연관된다). (Aux 필드에 포함된 컨테이너의 또는 그것과 연관된) 하나의 이러한 페이로드는 (또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 본 발명의 오브젝트 채널들 중 하나 이상의 각각의 오디오 샘플들의 세트 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터일 수 있다. 각각의 컨테이너의 코어 헤더는 통상적으로 컨테이너에 포함되거나 또는 그것과 연관된 페이로드(들)의 유형을 나타내는 적어도 하나의 ID 값; (코어 헤더가 어떤 서브스트림들과 연관되는지를 나타내는) 서브스트림 연관 표시들(substream association indications); 및 보호 비트들을 포함한다. 통상적으로, 각각의 페이로드는 그 자신의 헤더(또는 "페이로드 식별자")를 가진다. 오브젝트 레벨 메타데이터는 오브젝트 채널인 각각의 서브스트림에서 운반될 수 있다.

다른 실시예들에서, 오브젝트 기반 오디오 프로그램은 AC-3 비트스트림 또는 E-AC-3 비트스트림이 아닌 비트스트림이거나 또는 이를 포함한다. 일부 실시예들에서, 오브젝트 기반 오디오 프로그램은 적어도 하나의 돌비 E 비트스트림이거나 또는 이를 포함하며, 프로그램(예로서, 오브젝트 채널 콘텐트 및/또는 오브젝트 관련 메타데이터를 포함하는 프로그램의 각각의 컨테이너)의 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터는 종래에 유용한 정보를 운반하지 않은 돌비 E 비트스트림의 비트 위치들에 포함된다. 돌비 E 비트스트림의 각각의 버스트는 대응하는 비디오 프레임의 것과 같은 시간 기간을 차지한다. 오브젝트 채널들(및 오브젝트 관련 메타데이터)은 돌비 E 버스트들 사이의 보호 대역들(guard bands)에 및/또는 각각의 돌비 E 버스트들 내에서의 데이터 구조들(각각은 AES3 프레임의 포맷을 가진다)의 각각 내에서의 사용되지 않은 비트 위치들에 포함될 수 있다. 예를 들면, 각각의 보호 대역은 세그먼트들(예로서, 100개의 세그먼트들)의 시퀀스로 이루어지며, 각각의 보호 대역의 제 1 X 세그먼트들(예로서, X=20)의 각각은 오브젝트 채널들 및 오브젝트 관련 메타데이터를 포함하며 상기 각각의 보호 대역의 나머지 세그먼트들의 각각은 보호 대역 심볼을 포함할 수 있다. 일부 실시예들에서, 돌비 E 비트스트림들의 오브젝트 채널들 및 오브젝트 관련 메타데이터는 메타데이터 컨테이너들에 포함된다. 각각의 컨테이너는 코어 헤더를 가지며 하나 이상의 페이로드들을 포함한다(또는 그것과 연관된다). (Aux 필드에 포함된 컨테이너의 또는 그것과 연관된) 하나의 이러한 페이로드는 (또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 본 발명의 오브젝트 채널들 중 하나 이상의 각각의 오디오 샘플들의 세트 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터일 수 있다. 각각의 컨테이너의 코어 헤더는 통상적으로 컨테이너에 포함되거나 또는 그것과 연관된 페이로드(들)의 유형을 나타내는 적어도 하나의 ID 값; (코어 헤더가 어떤 서브스트림들과 연관되는지를 나타내는) 서브스트림 연관 표시들; 및 보호 비트들을 포함한다. 통상적으로, 각각의 페이로드는 그 자신의 헤더(또는 "페이로드 식별자")를 가진다. 오브젝트 레벨 메타데이터는 오브젝트 채널인 각각의 서브스트림에서 운반될 수 있다.

일부 실시예들에서, 방송 설비(예로서, 이러한 설비에서의 인코딩 시스템)는 캡처된 사운드(예로서, 5.1 평탄화된 믹스, 국제 믹스, 국내 믹스)에 기초하여 다수의 오디오 표현들(오브젝트 기반 오디오 프로그램들)을 생성한다. 예를 들면, 스피커 채널들의 베드, 및/또는 프로그램들의 선택 가능한 오브젝트들(또는 렌더링 및 믹싱 오브젝트들에 대한 선택 가능한 또는 비선택 가능한 렌더링 파라미터들)의 메뉴는 프로그램에서 프로그램으로 상이할 수 있다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램은 디코딩 가능하며 그것의 스피커 채널 콘텐트는 레거시 디코더 및 레거시 렌더링 시스템(본 발명의 오브젝트 채널들 및 오브젝트 관련 메타데이터를 파싱하도록 구성되지 않은)에 의해 렌더링 가능하다. 동일한 프로그램은 본 발명의 오브젝트 채널들 및 오브젝트 관련 메타데이터를 파싱하며 프로그램에 의해 표시된 스피커 채널 및 오브젝트 채널 콘텐트의 믹스를 렌더링하도록 구성되는(본 발명의 실시예에 따라) 셋 탑 디바이스(또는 다른 디코딩 및 렌더링 시스템, 예로서 TV, AVR, 태블릿, 또는 전화)에 의해 본 발명의 일부 실시예들에 따라 렌더링될 수 있다.

본 발명의 일부 실시예들에 따라 생성된(또는 송신되고, 저장되고, 버퍼링되고, 디코딩되고, 렌더링되거나, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 (때때로 계층화된 "믹스 그래프"로서 불리는) 계층화된 그래프를 나타내는 메타데이터를 포함한다. 예를 들면, 믹스 그래프는 스피커 및 오브젝트 채널들의 서브세트들의 선택에 적용 가능한 각각의 규칙을 나타낸다. 통상적으로, 인코딩된 오디오 비트스트림은 프로그램의 오디오 콘텐트의 적어도 일부(예로서, 스피커 채널들의 베드 및 프로그램의 오브젝트 채널들의 적어도 일부) 및 (믹스 그래프를 나타내는 메타데이터를 포함한) 오브젝트 관련 메타데이터를 나타내며, 선택적으로 또한 적어도 하나의 부가적인 인코딩된 오디오 비트스트림 또는 파일은 프로그램의 오디오 콘텐트 및/또는 오브젝트 관련 메타데이터 중 일부를 나타낸다.

계층화된 믹스 그래프는 노드들(그 각각은 선택 가능한 채널 또는 채널들의 세트, 또는 선택 가능한 채널들 또는 채널들의 세트의 카테고리) 및 노드들 사이에서의 연결들(예로서, 채널들을 선택하기 위한 규칙들 및/또는 노드들에 대한 제어 인터페이스들)을 나타내며, 필수 데이터("기본" 층) 및 선택적(즉, 선택적으로 생략된) 데이터(적어도 하나의 "확장" 층)를 포함한다. 통상적으로, 계층화된 믹스 그래프는 프로그램을 나타내는 인코딩된 오디오 비트스트림(들) 중 하나에 포함되며, 채널들의 디폴트 믹스 및 디폴트 믹스를 변경하기 위한 옵션들을 결정하기 위해 (예로서, 재생 시스템에 의해 실행된) 그래프 탐색(graph traversal)에 의해 평가될 수 있다.

믹스 그래프가 트리 그래프(tree graph)로서 표현 가능한 경우에, 기본 층은 트리 그래프의 브랜치(또는 둘 이상의 브랜치들)일 수 있으며, 각각의 확장 층은 트리 그래프의 또 다른 브랜치(또는 둘 이상의 브랜치들의 또 다른 세트)일 수 있다. 예를 들면, (기본 층에 의해 표시된) 트리 그래프의 하나의 브랜치는 선택 가능한 채널들 및 모든 최종 사용자들에게 이용 가능한 채널들의 세트를 나타낼 수 있으며, 트리 그래프의 또 다른 브랜치(확장 층에 의해 표시된)는 부가적인 선택 가능한 채널들 및/또는 단지 일부 최종 사용자들에게만 이용 가능한 채널들의 세트들을 나타낼 수 있다(예로서, 이러한 확장 층은 그것을 사용하도록 인가된 최종 사용자들에게만 제공될 수 있다).

통상적으로, 기본 층은 그래프 구조 및 그래프의 노드들에 대한 제어 인터페이스들(예로서, 패닝, 및 이득 제어 인터페이스들)을 포함한다(나타낸다). 기본 층은 디코딩/렌더링 프로세스에 임의의 사용자 상호작용을 매핑시키기 위해 필요하다.

각각의 확장 층은 기본 층에 대한 확장을 포함한다(나타낸다). 확장들은 디코딩 프로세스에 사용자 상호 작용을 매핑시키기 위해 즉시 필요한 것은 아니며 그러므로 보다 느린 레이트로 송신되고 및/또는 지연되거나, 또는 생략될 수 있다.

본 발명의 일부 실시예들에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 (계층화된 믹스 그래프이거나 또는 아닐 수 있는) 믹스 그래프를 나타내는 메타데이터를 포함한다. 인코딩된 오디오 비트스트림(예로서, 돌비 E 또는 E-AC-3 비트스트림)은 프로그램의 적어도 일 부분을 포함하며, 믹스 그래프를 나타내는 메타데이터(및 통상적으로 또한 선택 가능한 오브젝트 및/또는 스피커 채널들)는 비트스트림의 모든 프레임에(또는 비트스트림의 프레임들의 서브세트의 각각의 프레임에) 포함된다. 예를 들면, 각각의 프레임은 적어도 하나의 메타데이터 세그먼트 및 적어도 하나의 오디오 데이터 세그먼트를 포함할 수 있으며, 믹스 그래프는 각각의 프레임의 적어도 하나의 메타데이터 세그먼트에 포함될 수 있다. ("컨테이너"로서 불릴 수 있는) 각각의 메타데이터 세그먼트는 메타데이터 세그먼트 헤더(및 선택적으로 또한 다른 요소들), 및 메타데이터 세그먼트 헤더에 이어 하나 이상의 메타데이터 페이로드들을 포함하는 포맷을 가질 수 있다. 각각의 메타데이터 페이로드는 페이로드 헤더에 의해 자체 식별된다. 믹스 그래프는, 메타데이터 세그먼트에 존재한다면, 메타데이터 세그먼트의 메타데이터 페이로드들 중 하나에 포함된다.

본 발명의 일부 실시예들에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 두 개의 베드들, 적어도 하나의 오브젝트 채널, 및 (계층화된 믹스 그래프이거나 또는 아닐 수 있는) 믹스 그래프를 나타내는 메타데이터를 포함한다. 상기 믹스 그래프는 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내며, 적어도 하나의 "베드 믹스" 노드를 포함한다. 각각의 "베드 믹스" 노드는 스피커 채널 베드들의 미리 결정된 믹스를 정의하며, 따라서 프로그램의 둘 이상의 스피커 베드들의 스피커 채널들을 믹싱하기 위해 (선택적으로 사용자-선택 가능한 파라미터들을 갖는) 미리 결정된 세트의 믹싱 규칙들을 표시하거나 또는 이를 실행한다.

실시예들의 또 다른 클래스에서, 본 발명에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 서브스트림들을 포함하며, 상기 서브스트림들은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 오브젝트 관련 메타데이터를 나타낸다. 상기 오브젝트 관련 메타데이터는 (서브스트림들이 디코딩되어야 하는 방식 및/또는 프로그램의 서브스트림 구조를 나타내는) "서브스트림" 메타데이터 및 통상적으로 또한 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 믹스 그래프를 포함한다. 서브스트림 메타데이터는 프로그램의 어떤 서브스트림들이 프로그램의 다른 서브스트림들에 독립적으로 디코딩되어야 하는지, 및 프로그램의 어떤 서브스트림들이 프로그램의 적어도 하나의 다른 서브스트림에 관련하여 디코딩되어야 하는지를 나타낼 수 있다.

예시적인 실시예에서, 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 메타데이터를 포함한다. 상기 메타데이터는 (프로그램의 오디오 콘텐트의 서브스트림 구조 및/또는 프로그램의 오디오 콘텐트의 서브스트림들이 디코딩되어야 하는 방식을 나타내는) "서브스트림" 메타데이터 및 통상적으로 또한 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들을 나타내는 믹스 그래프를 포함한다. 상기 오디오 프로그램은 축구 경기와 연관된다. 인코딩된 오디오 비트스트림(예로서, E-AC-3 비트스트림)은 프로그램의 오디오 콘텐트 및 메타데이터를 나타낸다. 상기 프로그램의(및 따라서 비트스트림의) 오디오 콘텐트는 적어도 두 개의 독립적인 서브스트림들을 포함한다. 하나의 독립적인 서브스트림은 축구 경기에서 중립 군중 소리를 나타내는 5.1 스피커 채널 베드를 나타낸다. 또 다른 독립적인 서브스트림은 하나의 팀("팀 A")을 향해 편향된 경기 군중의 부분으로부터의 사운드를 나타내는 2.0 채널 "팀 A" 베드, 다른 팀("팀 B")을 향해 편향된 경기 군중의 부분으로부터의 사운드를 나타내는 2.0 채널 "팀 B" 베드, 및 경기에 대한 해설을 나타내는 모노포닉 오브젝트 채널을 나타낸다. 비트스트림의 서브스트림 메타데이터는 (각각의 독립적인 서브스트림이 다른 독립적인 서브스트림들에 독립적으로 디코딩되도록) 디코딩 동안, 결합이 독립적인 서브스트림들의 각각의 쌍 사이에서 "오프"이어야 함을 나타내며, 비트스트림의 서브스트림 메타데이터는 결합이 (이들 채널들이 서로에 독립적으로 디코딩되지 않도록) "온" 또는 (이들 채널들이 서로에 독립적으로 디코딩되도록) "오프"이어야 하는 각각의 서브스트림 내에서의 프로그램 채널들을 나타낸다. 예를 들면, 서브스트림 메타데이터는 결합이 제 2 서브스트림의 두 개의 스테레오 스피커 채널 베드들(2.0 채널 "팀 A" 베드 및 2.0 채널 "팀 B" 베드)의 각각의 내부에서 "온"이어야 하지만 (모노포닉 오브젝트 채널 및 스피커 채널 베드들이 서로에 독립적으로 디코딩되게 하기 위해) 제 2 서브스트림의 스피커 채널 베드들에 걸쳐 및 모노포닉 오브젝트 채널과 제 2 서브스트림의 스피커 채널 베드들의 각각 사이에서 불능(disable)되어야 함을 나타낸다. 유사하게, 서브스트림 메타데이터는 결합이 제 1 서브스트림(IO)의 5.1 스피커 채널 베드의 내부에서 "온"이어야 함을 나타낸다.

본 발명의 또 다른 양상은 본 발명의 방법의 임의의 실시예를 수행하도록 구성된 오디오 프로세싱 유닛(APU)이다. 실시예들의 또 다른 클래스에서, 본 발명은 본 발명의 방법의 임의의 실시예에 의해 생성된 오브젝트 기반 오디오 프로그램의 적어도 하나의 프레임 또는 다른 세그먼트(스피커 채널들의 베드의 및 오브젝트 채널들의 오디오 콘텐트, 및 오브젝트 관련 메타데이터를 포함)를 저장하는(예로서, 비-일시적 방식으로) 버퍼 메모리(버퍼)를 포함한 APU이다. APU들의 예들은, 이에 제한되지 않지만, 인코더들(예로서, 트랜스코더들), 디코더들, 코덱들, 전-처리 시스템들(전-처리기들), 후-처리 시스템들(후-처리기들), 오디오 비트스트림 프로세싱 시스템들, 및 이러한 요소들의 조합들을 포함한다.

본 발명의 양상들은 본 발명의 방법의 임의의 실시예를 수행하도록 구성된(예로서, 프로그램된) 시스템 또는 디바이스, 및 본 발명의 방법 또는 그것의 단계들의 임의의 실시예를 실행하기 위한 코드를 저장하는(예로서, 비-일시적 방식으로) 컴퓨터 판독 가능한 매체(예로서, 디스크)를 포함한다. 예를 들면, 본 발명의 시스템은, 본 발명의 방법 또는 그것의 단계들의 실시예를 포함하여, 소프트웨어 또는 펌웨어로 프로그램되고 및/또는 그 외 데이터에 대한 다양한 동작들 중 임의의 것을 수행하도록 구성된, 프로그램 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서일 수 있거나 또는 이를 포함할 수 있다. 이러한 범용 프로세서는 그것으로 어서팅된 데이터에 응답하여 본 발명의 방법(또는 그것의 단계들)의 실시예를 수행하도록 프로그램된(및/또는 그 외 구성된) 입력 디바이스, 메모리, 및 프로세싱 회로를 포함한 컴퓨터 시스템일 수 있거나 또는 이를 포함할 수 있다.

본 발명에 따른 개인화 가능한 방식으로 렌더링 가능한 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법은 프로그램의 오디오 콘텐트의 몰입감 있는, 지각을 제공할 수 있다.

도 1은 분할된 세그먼트들을 포함하는 AC-3 프레임의 다이어그램.
도 2는 분할된 세그먼트들을 포함하는 AC-3 프레임의 동기화 정보(SI) 세그먼트의 다이어그램.
도 3은 분할된 세그먼트들을 포함하는 AC-3 프레임의 비트스트림 정보(BSI) 세그먼트의 다이어그램.
도 4는 분할된 세그먼트들을 포함하는 E-AC-3 프레임의 다이어그램.
도 5는 본 발명의 방법의 실시예를 수행하도록 구성될 수 있는 시스템의 실시예의 블록도.
도 6은 본 발명의 실시예에 따라 구성된 재생 시스템의 블록도.
도 7은 본 발명의 또 다른 실시예에 따라 구성된 재생 시스템의 블록도.
도 8은 본 발명의 실시예에 따라 오브젝트 기반 오디오 프로그램(및 대응하는 비디오 프로그램)을 생성하도록 구성된 방송 시스템의 블록도.
도 9는 오브젝트 채널들의 어떤 서브세트들이 사용자에 의해 선택 가능한지를 나타내는, 본 발명의 프로그램의 실시예의 오브젝트 채널들 사이에서의 관계들의 다이어그램.
도 10은 본 발명의 실시예를 실행하는 시스템의 블록도.
도 11은 본 발명의 실시예에 따라 생성된 오브젝트 기반 오디오 프로그램의 콘텐트의 다이어그램.

표기법 및 명명법

청구항들을 포함하여, 본 개시 전체에 걸쳐, (예로서, 신호 또는 데이터를 필터링하고, 스케일링하고, 변환하거나 또는 그에 이득을 적용하는) 신호 또는 데이터에 "대한" 동작을 수행하는 표현은 신호 또는 데이터에 대해 직접, 또는 신호 또는 데이터의 프로세싱된 버전에 대한(예로서, 그에 대한 동작의 수행 이전에 예비 필터링 또는 전-처리를 겪은 신호의 버전에 대한) 동작을 수행하는 것을 표시하기 위해 넓은 의미로 사용된다.

청구항들에서 포함한 본 개시에 전체에 걸쳐, 표현 "시스템"은 디바이스, 시스템, 또는 서브시스템을 나타내기 위해 넓은 의미로 사용된다. 예를 들면, 디코더를 실행하는 서브시스템은 디코더 시스템으로 불릴 수 있으며, 이러한 서브시스템을 포함한 시스템(예로서, 다수의 입력들에 응답하여 X개의 출력 신호들을 생성하는 시스템, 여기에서 서브시스템은 M의 입력들을 생성하며 다른 X-M 입력들은 외부 소스로부터 수신된다)은 또한 디코더 시스템으로서 불릴 수 있다.

청구항들에 포함한 본 개시 전체에 걸쳐, 용어 "프로세서"는 데이터(예로서, 오디오, 또는 비디오 또는 다른 이미지 데이터)에 대한 동작들을 수행하도록 프로그램 가능하거나 또는 그 외 (예로서, 소프트웨어 또는 펌웨어로) 구성 가능한 시스템 또는 디바이스를 나타내기 위해 넓은 의미로 사용된다. 프로세서들의 예들은 필드-프로그램 가능한 게이트 어레이(또는 다른 구성 가능한 집적 회로 또는 칩 셋), 오디오 또는 다른 사운드 데이터에 대한 파이프라인 프로세싱을 수행하도록 프로그램되고 및/또는 그 외 구성된 디지털 신호 프로세서, 프로그램 가능한 범용 프로세서 또는 컴퓨터, 및 프로그램 가능한 마이크로프로세서 칩 또는 칩 셋을 포함한다.

청구항들에 포함한 본 개시 전체에 걸쳐, 표현 "오디오 비디오 수신기"(또는 "AVR")은 예를 들면, 홈 시어터에서, 오디오 및 비디오 콘텐트의 재생을 제어하기 위해 사용된 소비자 전자 기기의 클래스에서의 수신기에 해당한다.

청구항들을 포함한 본 개시 전체에 걸쳐, 표현 "사운드바"는 (통상적으로 홈 시어터 시스템에 설치된) 소비자 전자 기기의 유형이며, 적어도 하나의 스피커(통상적으로, 적어도 두 개의 스피커들) 및 각각의 포함된 스피커에 의한 재생을 위한(또는 각각의 포함된 스피커 및 사운드 바의 외부에 있는 적어도 하나의 부가적인 스피커에 의한 재생을 위한) 오디오를 렌더링하기 위한 서브시스템을 포함하는 디바이스에 해당한다.

청구항들에 포함한 본 개시 전체에 걸쳐, 표현들 "오디오 프로세서" 및 "오디오 프로세싱 유닛"은 상호 교환 가능하게, 및 넓은 의미로, 오디오 데이터를 프로세싱하도록 구성된 시스템을 나타내기 위해 사용된다. 오디오 프로세싱 유닛들의 예들은 이에 제한되지 않지만, 인코더들(예로서, 트랜스코더들), 디코더들, 코덱들, 전-처리 시스템들, 후-처리 시스템들, 및 비트스트림 프로세싱 시스템들(때때로 비트스트림 프로세싱 툴들로서 불리는)을 포함한다.

청구항들에 포함한 본 개시 전체에 걸쳐, 표현 "메타데이터"(예로서, 표현 "프로세싱 상태 메타데이터"에서처럼)는 대응하는 오디오 데이터(또한 메타데이터를 포함하는 비트스트림의 오디오 콘텐트)로부터 별개의 및 상이한 데이터에 해당한다. 메타데이터는 오디오 데이터와 연관되며, 오디오 데이터의 적어도 하나의 특징 또는 특성(예로서, 어떤 유형(들)의 프로세싱이 오디오 데이터, 또는 오디오 데이터에 의해 표시된 오브젝트의 궤적에 대해 이미 수행되었는지, 또는 수행되어야 하는지)을 나타낸다. 오디오 데이터와 메타데이터의 연관은 시간-동기식이다. 따라서, 현재(가장 최근에 수신된 또는 업데이트된) 메타데이터는 대응하는 오디오 데이터가 동시 발생적으로 나타낸 특징을 가지며 및/또는 나타낸 유형의 오디오 데이터 프로세싱의 결과들을 포함함을 나타낼 수 있다.

청구항들에 포함한 본 개시 전체에 걸쳐, 용어 "결합하다" 또는 "결합된"은 직접 또는 간접 연결을 의미하기 위해 사용된다. 따라서, 제 1 디바이스가 제 2 디바이스에 결합한다면, 상기 연결은 직접 연결을 통해, 또는 다른 디바이스들 및 연결들을 경유하여 간접 연결을 통한 것일 수 있다.

청구항들에 포함한 본 개시 전체에 걸쳐, 다음의 표현들은 다음의 정의들을 가진다: 스피커 및 라우드스피커는 임의의 사운드-방출 트랜듀서를 나타내기 위해 동의어로 사용된다. 이러한 정의는 다수의 트랜듀서들(예로서, 우퍼 및 트위터)로서 실행된 라우드스피커들을 포함한다.

스피커 피드: 라우드 스피커에 직접 인가될 오디오 신호, 또는 직렬로 증폭기 및 라우드스피커에 인가되는 오디오 신호;

채널(또는 "오디오 채널"): 모노포닉 오디오 신호. 이러한 신호는 통상적으로 원하는 또는 공칭 위치에서 라우드스피커로 직접 신호의 인가와 같도록 하는 방식으로 렌더링될 수 있다. 원하는 위치는, 통상적으로 물리적 라우드스피커들이 가진 경우와 같이 정적이거나 또는 동적일 수 있다;

오디오 프로그램: 하나 이상의 오디오 채널들의 세트(적어도 하나의 스피커 채널 및/또는 적어도 하나의 오브젝트 채널) 및 선택적으로 또한 연관된 메타데이터(예로서, 원하는 공간 오디오 프리젠테이션을 설명하는 메타데이터);

스피커 채널(또는 "스피커-피드 채널"): (원하는 또는 공칭 위치에서의) 명명된 라우드스피커, 또는 정의된 스피커 구성 내에서의 명명된 스피커 구역과 연관되는 오디오 채널. 스피커 채널은 (원하는 또는 공칭 위치에서의) 명명된 라우드스피커에 또는 명명된 스피커 구역에서의 스피커에 직접 오디오 신호의 인가와 같도록 하는 방식으로 렌더링된다;

오브젝트 채널: (때때로 오디오 "오브젝트"로서 불리는) 오디오 소스에 의해 방출된 사운드를 나타내는 오디오 채널. 통상적으로, 오브젝트 채널은 파라메트릭 오디오 소스 디스크립션을 결정한다(예로서, 파라메트릭 오디오 소스 디스크립션을 나타내는 메타데이터는 오브젝트 채널에 포함되거나 또는 그것을 제공받는다). 소스 디스크립션은 (시간의 함수로서) 소스에 의해 방출된 사운드, 시간의 함수로서 소스의 겉보기 위치(예로서, 3D 공간 좌표들), 및 선택적으로 소스를 특성화한 적어도 하나의 부가적인 파라미터(예로서, 겉보기 소스 크기 또는 폭)를 결정할 수 있다.

오브젝트 기반 오디오 프로그램: 하나 이상의 오브젝트 채널들의 세트(및 적어도 하나의 스피커 채널을 선택적으로 또한 포함한) 및 선택적으로 또한 연관된 메타데이터(예로서, 오브젝트 채널에 의해 표시된 사운드를 방출하는 오디오 오브젝트의 궤적을 나타내는 메타데이터, 또는 그 외 오브젝트 채널에 의해 표시된 사운드의 원하는 공간 오디오 프리젠테이션을 나타내는 메타데이터, 또는 오브젝트 채널에 의해 표시된 사운드의 소스인 적어도 하나의 오디오 오브젝트의 식별을 나타내는 메타데이터)를 포함한 오디오 프로그램; 및

렌더(render): 오디오 프로그램을 하나 이상의 스피커 피드들로 변환하는 프로세스, 또는 오디오 프로그램을 하나 이상의 스피커 피드들로 변환하며 스피커 피드(들)를 하나 이상의 라우드스피커들을 사용한 사운드로 변환하는 프로세스(후자의 경우에, 렌더링은 때때로 라우드스피커(들)에 "의한" 렌더링으로서 불린다). 오디오 채널은 원하는 위치에서 물리적 라우드스피커에 직접 신호를 인가함으로써 (원하는 위치"에서") 평범하게 렌더링될 수 있거나, 또는 하나 이상의 오디오 채널들은 이러한 사소한 렌더링과 실질적으로 같도록(청취자에 대해) 설계된 다양한 가상화 기술들 중 하나를 사용하여 렌더링될 수 있다. 이러한 후자의 경우에, 각각의 오디오 채널은 일반적으로 원하는 위치와 상이한, 알려진 위치들에서 라우드스피커(들)에 인가될 하나 이상의 스피커 피드들로 변환될 수 있으며, 따라서 피드(들)에 응답하여 라우드스피커(들)에 방출된 사운드는 원하는 위치로부터 방출한 것으로 지각될 것이다. 이러한 가상화 기술들의 예들은 (예로서, 헤드폰 착용자에 대해 7.1 채널들까지의 서라운드 사운드를 시뮬레이션하는 돌비 헤드폰 프로세싱을 사용하는) 헤드폰들 및 파동 장 합성을 통한 쌍이(binaural) 렌더링을 포함한다.

본 발명의 실시예들에 대한 상세한 설명

일부 실시예들에서, 본 발명은 개선된 렌더링 프로세스(소비자가 렌더링된 프로그램의 양상들을 상호 작용 가능하게 제어할 수 있는), 및 통상적으로 또한 개선된 라이브 방송 작업 흐름 및/또는 개선된 후 제작 작업 흐름을 포함하는, 방송을 위한 오브젝트 기반 오디오를 전달하기 위한 방법 및 시스템이다.

도 5는 오디오 프로세싱 체인(오디오 데이터 프로세싱 시스템)의 예의 블록도이다. 여기에서 시스템의 요소들 중 하나 이상은 본 발명의 실시예에 따라 구성될 수 있다. 시스템은 도시된 바와 같이 함께 결합된, 다음의 요소들을 포함한다: 캡처 유닛(1), (인코딩 서브시스템을 포함하는) 제작 유닛(3), 전달 서브시스템(5), 디코더(7), 오브젝트 프로세싱 서브시스템(9), 제어기(10), 및 렌더링 서브시스템(11). 도시된 시스템에 대한 변형들에서, 요소들 중 하나 이상이 생략되거나, 또는 부가적인 오디오 데이터 프로세싱 유닛들이 포함된다. 통상적으로, 요소들(7, 9, 10, 및 11)은 재생 시스템(예로서, 최종 사용자의 홈 시어터 시스템)에 포함된다.

캡처 유닛(1)은 통상적으로 오디오 콘텐트를 포함한 PCM(시간-도메인) 샘플들을 생성하도록, 및 PCM 샘플들을 출력하도록 구성된다. 샘플들은 마이크로폰들에 의해 캡처된 오디오의 다수의 스트림들을 나타낼 수 있다(예로서, 스포츠 경기 또는 다른 관중 이벤트에서). 통상적으로, 방송사에 의해 동작된, 제작 유닛(3)은 입력으로서 PCM 샘플들을 수용하도록 및 오디오 콘텐트를 나타내는 오브젝트 기반 오디오 프로그램을 출력하도록 구성된다. 상기 프로그램은 통상적으로 오디오 콘텐트의 적어도 일부를 나타내는 인코딩된(예로서, 압축된) 오디오 비트스트림(때때로 여기에서 "메인 믹스"로서 불림), 및 선택적으로 또한 오디오 콘텐트의 일부를 나타내는 적어도 하나의 부가적인 비트스트림 또는 파일(때때로 여기에서 "사이드 믹스"로서 불림)이거나 또는 이를 포함한다. 오디오 콘텐트를 나타내는 인코딩된 비트스트림의 (및 임의의 것이 생성된다면, 각각의 생성된 사이드 믹스의) 데이터는 때때로 여기에서 "오디오 데이터"로서 불린다. 제작 유닛(3)의 인코딩 서브시스템이 본 발명의 통상적인 실시예에 따라 구성된다면, 유닛(3)으로부터 출력된 오브젝트 기반 오디오 프로그램은 오디오 데이터의 다수의 스피커 채널들(스피커 채널들의 "베드), 오디오 데이터의 다수의 오브젝트 채널들, 및 오브젝트 관련 메타데이터에 해당한다(즉, 포함한다). 프로그램은 결과적으로 스피커 채널들의 베드를 나타내는 오디오 콘텐트, 적어도 하나의 사용자-선택 가능한 오브젝트 채널(및 선택적인 적어도 하나의 다른 오브젝트 채널)을 나타내는 오디오 콘텐트, 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터를 포함하는 메인 믹스를 포함한다. 상기 프로그램은 또한 적어도 하나의 다른 오브젝트 채널(예로서, 적어도 하나의 사용자-선택 가능한 오브젝트 채널) 및/또는 오브젝트 관련 메타데이터를 나타내는 오디오 콘텐트를 포함하는 적어도 하나의 사이드 믹스를 포함한다. 상기 프로그램의 오브젝트 관련 메타데이터는 지속적 메타데이터(이하에 설명)를 포함할 수 있다. 상기 프로그램(예로서, 그것의 메인 믹스)은 스피커 채널들의 하나 이상의 베드들을 나타내거나 또는 베드가 없음을 나타낼 수 있다. 예를 들면, 메인 믹스는 (오브젝트 채널 콘텐트 또는 구성의 사용자 선택을 위해 이용된 동일한 사용자 인터페이스를 사용하여 선택될 수 있는) 적어도 하나의 사용자-선택 가능한 베드 및 (또 다른 베드의 사용자 선택의 부재시 렌더링될) 디폴트 베드를 포함하여, 스피커 채널들의 둘 이상의 베드들(예로서, 5.1 채널 중립적 군중 소리 베드, 2.0 채널 홈 팀 군중 소리 베드, 및 2.0 원정 팀 군중 소리 베드)을 나타낼 수 있다. 디폴트 베드는 재생 시스템의 스피커 세트의 구성(예로서, 초기 구성)을 나타낸 데이터에 의해 결정될 수 있으며, 선택적으로 사용자는 디폴트 베드를 대신하여 렌더링될 또 다른 베드를 선택할 수 있다.

도 5의 전달 서브시스템(5)은 유닛(3)(예로서, 임의의 사이드 믹스가 생성된다면, 메인 믹스 및 그것의 각각의 사이드 믹스)에 의해 생성된 프로그램을 저장 및/또는 송신(예로서, 방송)하도록 구성된다.

일부 실시예들에서, 서브시스템(5)은 오브젝트 기반 오디오 프로그램의 전달을 실행하며, 여기에서 오디오 오브젝트들(및 적어도 일부 대응하는 오브젝트 관련 메타데이터)은 방송 시스템을 통해 전송되며(방송되는 오디오 비트스트림에 의해 표시된, 프로그램의 메인 믹스에서), 적어도 일부 오브젝트 관련 메타데이터(예로서, 프로그램의 오브젝트 채널들의 믹싱 또는 렌더링에 대한 제약들을 나타낸 메타데이터) 및/또는 프로그램의 적어도 하나의 오브젝트 채널이 또 다른 방식으로(메인 믹스의 "사이드 믹스"로서) 전달된다(예로서, 사이드 믹스는 인터넷 프로토콜 또는 "IP" 네트워크에 의해 특정 최종 사용자에게 전송된다). 대안적으로, 최종 사용자의 디코딩 및/또는 렌더링 시스템은 적어도 일부 오브젝트 관련 메타데이터(예로서, 본 발명의 오브젝트 기반 오디오 프로그램의 실시예의 오디오 오브젝트들의 렌더링 또는 믹싱에 대한 제약들을 나타낸 메타데이터)를 갖고 사전 구성되며, 이러한 오브젝트 관련 메타데이터는 방송되지 않거나, 그렇지 않으면 대응하는 오브젝트 채널들(오브젝트 기반 오디오 프로그램의 메인 믹스 또는 사이드 믹스에서)로 (서브시스템(5)에 의해) 전달된다.

일부 실시예들에서, 별개의 경로들을 통해 전달되는 오브젝트 기반 오디오 프로그램의 부분들 또는 요소들(예로서, 방송 시스템을 통해 방송되는 메인 믹스, 및 IP 네트워크를 통해 사이드 믹스로서 전송되는 관련 메타데이터)의 타이밍 및 동기화는 모든 전달 경로들(예로서, 메인 믹스 및 각각의 대응하는 사이드 믹스에서)을 통해 전송되는 동기화 워드들(예로서, 시간 코드들)에 의해 제공된다.

다시 도 5를 참조하면, 디코더(7)는 전달 서브시스템(5)에 의해 전달된 프로그램(또는 프로그램의 적어도 하나의 비트스트림 또는 다른 요소)을 수용하며(수신하거나 또는 판독하고) 프로그램(또는 그것의 각각의 수용된 요소)을 디코딩한다. 본 발명의 일부 실시예들에서, 프로그램은 메인 믹스(인코딩된 비트스트림, 예로서 AC-3 또는 E-AC-3 인코딩된 비트스트림) 및 메인 믹스의 적어도 하나의 사이드 믹스를 포함하며, 디코더(7)는 메인 믹스(및 선택적으로 또한 적어도 하나의 사이드 믹스)를 수신하며 디코딩한다. 선택적으로, 디코딩될 필요가 없는 프로그램(예로서, 오브젝트 채널)의 적어도 하나의 사이드 믹스는 서브시스템(5)에 의해 오브젝트 프로세싱 서브시스템(9)으로 직접 전달된다. 디코더(7)가 본 발명의 통상적인 실시예에 따라 구성된다면, 통상적인 동작에서 디코더(7)의 출력은 다음을 포함한다:

스피커 채널들의 프로그램의 베드를 나타내는 오디오 샘플들의 스트림들; 및

프로그램의 오브젝트 채널들(예로서, 사용자-선택 가능한 오디오 오브젝트 채널들) 및 오브젝트 관련 메타데이터의 대응하는 스트림들을 나타내는 오디오 샘플들의 스트림들.

오브젝트 프로세싱 서브시스템(9)은 전달된 프로그램의 디코딩된 스피커 채널들, 오브젝트 채널들, 및 오브젝트 관련 메타데이터, 및 선택적으로 또한 프로그램의 적어도 하나의 사이드 믹스(적어도 하나의 다른 오브젝트 채널을 나타내는)를 (디코더(7)로부터) 수신하도록 결합된다. 예를 들면, 서브시스템(9)은 프로그램의 스피커 채널들의 및 프로그램의 적어도 하나의 오브젝트 채널의 오디오 샘플들, 및 프로그램의 오브젝트 관련 메타데이터를 수신할 수 있으며(디코더(7)로부터), 또한 프로그램(디코더(7)에서 디코딩을 겪지 않은)의 적어도 하나의 다른 오브젝트 채널의 오디오 샘플들을 수신할 수 있다(전달 서브시스템(5))으로부터).

서브시스템(9)은 프로그램에 의해 표시된 오브젝트 채널들의 전체 세트의 선택된 서브세트, 및 대응하는 오브젝트 관련 메타데이터를 렌더링 서브시스템(11)에 출력하기 위해 결합되며 구성된다. 서브시스템(9)은 통상적으로 또한 디코더(7)로부터 변경되지 않은(서브시스템(11)에 대해) 디코딩된 스피커 채널들을 통과하도록 구성되며, 그것이 서브시스템(11)에 어서팅한 오브젝트 채널들 및 메타데이터를 생성하기 위해 그에 어서팅된 오브젝트 채널들(및/또는 메타데이터) 중 적어도 일부를 프로세싱하도록 구성될 수 있다.

서브시스템(9)에 의해 수행된 오브젝트 채널 선택은 통상적으로 서브시스템(9)이 실행하도록 프로그램되거나 또는 그 외 구성되는 사용자 선택(들)(제어기(10)로부터 서브시스템(9)에 어서팅된 제어 데이터에 의해 표시된 바와 같이) 및/또는 규칙들(예로서, 상태들 및/또는 제약들을 나타내는)에 의해 결정된다. 이러한 규칙들은 프로그램의 오브젝트 관련 메타데이터에 의해 및/또는 서브시스템(9)에 어서팅된(예로서, 제어기(10) 또는 또 다른 외부 소스로부터) 다른 데이터(예로서, 재생 시스템의 스피커 어레이의 능력들 및 조직화를 나타내는 데이터)에 의해 및/또는 서브시스템(9)을 사전 구성함으로써(예로서, 프로그램함으로써) 결정될 수 있다. 일부 실시예들에서, 제어기(10)(제어기(10)에 의해 실행된 사용자 인터페이스를 통해)는 오브젝트들 및 "베드" 스피커 채널 콘텐트의 선택 가능한 "프리셋" 믹스들의 메뉴 또는 팔레트를 사용자에게 제공한다(예로서, 터치 스크린상에 디스플레이한다). 선택 가능한 프리셋 믹스들은 프로그램의 오브젝트 관련 메타데이터에 의해 및 통상적으로 또한 서브시스템(0)에 의해 실행된 규칙들(예로서, 서브시스템(9)이 실행하기 위해 사전 구성된 규칙들)에 의해 결정될 수 있다. 사용자는 제어기(10)에 명령어들을 입력함으로써(예로서, 그것의 터치 스크린을 작동함으로써) 선택 가능한 믹스들 중에서 선택하며, 이에 응답하여, 제어기(10)는 대응하는 제어 데이터를 서브시스템(9)에 어서팅한다.

도 5의 렌더링 서브시스템(11)은 재생 시스템의 스피커들(도시되지 않음)에 의한 재생을 위해, 서브시스템(9)의 출력에 의해 결정된 오디오 콘텐트를 렌더링하도록 구성된다. 서브시스템(11)은 각각의 선택된 오브젝트와 연관되는 서브시스템(9)로부터 출력된 렌더링 파라미터들(예로서, 공간 위치 및 레벨의 사용자-선택된 및/또는 디폴트 값들)을 사용하여, 오브젝트 프로세싱 서브시스템(9)에 의해 선택된 오브젝트 채널들에 의해 결정된 오디오 오브젝트들(예로서, 디폴트 오브젝트들, 및/또는 제어기(10)를 사용하여 사용자 상호작용의 결과로서 선택된 사용자-선택된 오브젝트들)을, 이용 가능한 스피커 채널들에 매핑하도록 구성된다. 렌더링 파라미터들 중 적어도 일부는 서브시스템(9)으로부터 출력된 오브젝트 관련 메타데이터에 의해 결정된다. 렌더링 시스템(11)은 또한 서브시스템(9)에 의해 통과된 스피커 채널들의 베드를 수신한다. 통상적으로, 서브시스템(11)은 지능형 믹서이며, 다수의 개개의 스피커 채널들의 각각에 하나 이상의 선택된(예로서, 디폴트-선택된) 오브젝트들을 매핑시키며, 프로그램의 스피커 채널 베드의 각각의 대응하는 스피커 채널에 의해 표시된 "베드" 오디오 콘텐트와 오브젝트들을 믹싱하는 것을 포함하여, 이용 가능한 스피커들에 대한 스피커 피드들을 결정하도록 구성된다.

도 6은 도시된 바와 같이 결합된, 디코더(20), 오브젝트 프로세싱 서브시스템(22), 공간 렌더링 서브시스템(25), 제어기(23)(사용자 인터페이스를 실행하는), 및 선택적으로 또한 디지털 오디오 프로세싱 서브시스템들(25, 26, 및 27)을 포함하는 본 발명의 재생 시스템의 실시예의 블록도이다. 일부 실행들에서, 도 6 시스템의 요소들(20, 22, 24, 25, 26, 27, 29, 31)은 셋 탑 디바이스로서 실행된다.

도 6의 시스템에서, 디코더(20)는 오브젝트 기반 오디오 프로그램(또는 오브젝트 기반 오디오 프로그램의 메인 믹스의)을 나타내는 인코딩 신호를 수신 및 디코딩하도록 구성된다. 프로그램(예로서, 프로그램의 메인 믹스)은 적어도 두 개의 스피커 채널들(즉, 적어도 두 개의 스피커 채널들의 "베드")을 포함한 오디오 콘텐트를 나타낸다. 프로그램은 또한 적어도 하나의 사용자-선택 가능한 오브젝트 채널(및 선택적으로 적어도 하나의 다른 오브젝트 채널) 및 각각의 오브젝트 채널에 대응하는 오브젝트 관련 메타데이터를 나타낸다. 각각의 오브젝트 채널은 오디오 오브젝트를 나타내며, 따라서 오브젝트 채널들은 때때로 편리함을 위해 여기에서 "오브젝트들"로서 불린다. 실시예에서, 프로그램은 오디오 오브젝트들, 오브젝트-관련 메타데이터, 및 스피커 채널들의 베드를 나타내는, AC-3 또는 E-AC-3 비트스트림이다(또는 AC-3 또는 E-AC-3 비트스트림인 메인 믹스를 포함한다). 통상적으로, 개개의 오디오 오브젝트들은 모노 또는 스테레오 코딩되고(즉, 각각의 오브젝트 채널은 오브젝트의 좌측 또는 우측 채널을 표시하거나 또는 오브젝트를 나타내는 모노포닉 채널이다), 베드는 종래의 5.1 믹스이며, 디코더(20)는 오디오 콘텐트의 16개까지의 채널들(베드의 6개의 스피커 채널들, 및 10개까지의 오브젝트 채널들을 포함한)을 동시에 디코딩하도록 구성될 수 있다. 인입하는 E-AC-3(또는 AC-3) 비트스트림은, 그것들 모두가 특정 믹스를 달성하기 위해 디코딩될 필요가 없기 때문에, 10개 이상의 오디오 오브젝트들을 나타낼 수 있다.

본 발명의 재생 시스템의 일부 실시예들에서, 인입하는 E-AC-3(또는 AC-3) 인코딩된 비트스트림의 각각의 프레임은 하나 또는 두 개의 메타데이터 "컨테이너들"을 포함한다. 인입하는 비트스트림은 오브젝트 기반 오디오 프로그램, 또는 이러한 프로그램의 메인 믹스를 나타내며, 프로그램의 스피커 채널들은 종래의 E-AC-3(또는 AC-3) 비트스트림의 오디오 콘텐트인 것처럼 조직화된다. 하나의 컨테이너는 프레임의 Aux 필드에 포함될 수 있으며, 또 다른 컨테이너는 프레임의 addbsi 필드에 포함될 수 있다. 각각의 컨테이너는 코어 헤더를 가지며 하나 이상의 페이로드들을 포함한다(또는 그것과 연관된다). 하나의 이러한 페이로드(Aux 필드에 포함된 컨테이너의 또는 그것과 연관된)는 본 발명의 오브젝트 채널들(또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터 중 하나 이상의 각각의 오디오 샘플들의 세트일 수 있다. 이러한 페이로드에서, 오브젝트 채널들(및 연관된 메타데이터) 중 일부 또는 모두의 샘프들은 표준 E-AC-3(또는 AC-3) 프레임들로서 조직화될 수 있거나, 또는 그 외 조직화될 수 있다(예로서, 그것들은 E-AC-3 또는 AC-3 비트스트림과 별개의 사이드 믹스에 포함될 수 있다). 또 다른 이러한 페이로드(addbsi 필드 또는 Aux 필드 중 하나에 포함된 컨테이너의 또는 그것과 연관된)의 예는 프레임의 오디오 콘텐트와 연관된 라우드니스 프로세싱 상태 메타데이터의 세트이다.

일부 이러한 실시예들에서, 디코더(예로서, 도 6의 디코더(20))는 Aux 필드에서의 컨테이너의 코어 헤더를 파싱(parse)할 것이며, 컨테이너로부터(예로서, AC-3 또는 E-AC-3 프레임의 Aux 필드로부터) 및/또는 코어 헤더에 의해 표시된 위치(예로서, 사이드 믹스)로부터 본 발명의 오브젝트 채널들 및 연관된 메타데이터를 추출할 것이다. 페이로드(오브젝트 채널들 및 연관된 메타데이터)를 추출한 후, 디코더는 추출된 페이로드에 대한 임의의 필요한 디코딩을 수행할 것이다.

각각의 컨테이너의 코어 헤더는 통상적으로: 컨테이너에 포함되거나 또는 그것과 연관된 페이로드(들)의 유형을 나타내는 적어도 하나의 ID 값; 서브스트림 연관 표시들(코어 헤더가 어떤 서브스트림들과 연관되는지를 나타내는); 및 보호 비트들을 포함한다. 이러한 보호 비트들(해시-기반 메시지 인증 코드 또는 "HMAC"로 이루어지거나 또는 이를 포함할 수 있는)은 통상적으로 컨테이너에 포함되거나 또는 그것과 연관된 적어도 하나의 페이로드에 포함된 오브젝트 관련 메타데이터 및/또는 라우드니스 프로세싱 상태 메타데이터(및 선택적으로 또한 다른 메타데이터), 및/또는 프레임에 포함된 대응하는 오디오 데이터의 복호화, 인증, 또는 검증 중 적어도 하나에 유용할 것이다. 서브스트림들은 "대역 내"(E-AC-3 또는 AC-3 비트스트림) 또는 "대역 외"(예로서, E-AC-3 또는 AC-3 비트스트림으로부터 별개의 사이드 믹스 비트스트림에) 위치될 수 있다. 일 유형의 이러한 페이로드는 본 발명의 오브젝트 채널들(또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터 중 하나 이상의 각각의 오디오 샘플들의 세트이다. 각각의 오브젝트 채널은 별개의 서브스트림이며, 통상적으로 코어 헤더에서 식별될 것이다. 또 다른 유형의 페이로드는 라우드니스 프로세싱 상태 메타데이터이다.

통상적으로, 각각의 페이로드는 그 자신의 헤더(또는 "페이로드 식별자")를 가진다. 오브젝트 레벨 메타데이터는 오브젝트 채널인 각각의 서브스트림에서 운반될 수 있다. 프로그램 레벨 메타데이터는 컨테이너의 코어 헤더에 및/또는 본 발명의 오브젝트 채널들(및 각각의 오브젝트 채널과 연관된 메타데이터) 중 하나 이상의 오디오 샘플들의 세트인 페이로드에 대한 헤더에 포함될 수 있다.

일부 실시예들에서, 프레임의 보조데이터(또는 addbsi) 필드에서의 컨테이너들의 각각은 3개의 레벨들의 구조를 가진다:

보조데이터(또는 addbsi) 필드가 메타데이터(이 문맥에서 "메타데이터"는 본 발명의 오브젝트 채널들, 본 발명의 오브젝트 관련 메타데이터, 및 비트스트림에 의해 운반되지만 종래에 설명되는 유형의 임의의 컨테이너가 부족한 종래의 E-AC-3 또는 AC-3 비트스트림에서 운반되지 않는 임의의 다른 오디오 콘텐트 또는 메타데이터에 해당한다), 어떤 유형(들)의 메타데이터가 존재하는지를 나타내는 적어도 하나의 ID 값, 및 통상적으로 또한 메타데이터의(예로서, 각각의 유형의) 얼마나 많은 비트들이 존재하는지(메타데이터가 존재한다면)를 나타내는 값을 포함하는지를 나타내는 플래그를 포함한, 고 레벨 구조. 이러한 맥락에서, 하나의 이러한 "유형"의 메타데이터의 예는 본 발명의 오브젝트 채널 데이터 및 연관된 오브젝트 관련 메타데이터를 나타낸다(즉, 하나 이상의 오브젝트 채널들(또한 프로그램에 의해 표시된 스피커 채널들의 베드에 관련된)의 각각의 오디오 샘플들의 세트) 및 각각의 오브젝트 채널과 연관된 메타데이터);

각각의 식별된 유형의 메타데이터에 대한 코어 요소(예로서, 각각의 식별된 유형의 메타데이터에 대한, 예로서, 상기 언급된 유형의, 코어 헤더, 보호 값들, 및 페이로드 ID 및 페이로드 크기 값들)을 포함한, 중간 레벨 구조; 및

적어도 하나의 이러한 페이로드가 존재하는 것처럼 코어 요소에 의해 식별된다면 하나의 코어 요소에 대한 각각의 페이로드를 포함한, 저 레벨 구조. 이러한 페이로드의 예는 하나 이상의 오브젝트 채널들(또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 및 각각의 오브젝트 채널과 연관된 메타데이터의 각각의 오디오 샘플들의 세트이다. 이러한 페이로드의 또 다른 예는 때때로, LPSM 페이로드로서 불리는, 라우드니스 프로세싱 상태 메타데이터("LPSM")를 포함한 페이로드이다.

이러한 3 레벨 구조에 데이터 값들이 내포될 수 있다. 예를 들면, 코어 요소에 의해 식별된 페이로드(예로서, LPSM 페이로드)에 대한 보호 값(들)은 코어 요소에 의해 식별된 각각의 페이로드 후(및 따라서 코어 요소의 코어 헤더 후) 포함될 수 있다. 일 예에서, 코어 헤더는 제 1 페이로드(예로서, LPSM 페이로드) 및 또 다른 페이로드를 식별할 수 있고, 제 1 페이로드에 대한 페이로드 ID 및 페이로드 크기 값들은 코어 헤더를 따를 수 있고, 제 1 페이로드 자체는 ID 및 크기 값들을 따를 수 있고, 제 2 페이로드에 대한 페이로드 ID 및 페이로드 크기 값은 제 1 페이로드를 따를 수 있고, 제 2 페이로드 자체는 이들 ID 및 크기 값들을 따를 수 있으며, 페이로드들 중 하나 또는 양쪽 모두에 대한(또는 코어 요소 값들 및 페이로드들 중 하나 또는 양쪽 모두에 대한) 보호 값(들)은 마지막 페이로드를 따를 수 있다.

다시 도 6을 참조하면, 사용자는 렌더링될 오브젝트들(오브젝트 기반 오디오 프로그램에 의해 표시된)을 선택하기 위해 제어기(23)를 이용한다. 제어기(23)는 도 6 시스템의 다른 요소들과 호환 가능한 사용자 인터페이스(예로서, iPad App)를 실행하도록 프로그램되는 핸드헬드 프로세싱 디바이스(예로서, iPad)일 수 있다. 사용자 인터페이스는 오브젝트들 및 "베드" 스피커 채널 콘텐트의 선택 가능한 "프리셋" 믹스들의 메뉴 또는 팔레트를 사용자에게 제공할 수 있다(예로서, 터치 스크린 상에 디스플레이할 수 있다). 선택 가능한 프리셋 믹스들은 프로그램의 오브젝트 관련 메타데이터에 의해 및 통상적으로 또한 서브시스템(22)에 의해 실행된 규칙들(예로서, 서브시스템(22)이 실행하기 위해 사전 구성되는 규칙들)에 의해 결정될 수 있다. 사용자는 제어기(23)에 명령어들을 입력함으로써(예로서, 그것의 터치 스크린을 작동시킴으로써) 선택 가능한 믹스들 중에서 선택할 것이며, 이에 응답하여, 제어기(23)는 서브시스템(22)에 대응하는 제어 데이터를 어서팅할 것이다.

디코더(20)는 스피커 채널들의 프로그램의 베드의 스피커 채널들을 디코딩하며, 디코딩된 스피커 채널들을 서브시스템(22)에 출력한다. 오브젝트 기반 오디오 프로그램에 응답하여, 및 렌더링될 오브젝트 채널들의 프로그램의 전체 세트의 선택된 서브세트를 나타내는 제어기(23)로부터의 제어 데이터에 응답하여, 디코더(20)는 선택된 오브젝트 채널들을 디코딩하며(필요하다면), 선택된(예로서, 디코딩된) 오브젝트 채널들(그 각각은 펄스 코드 변조되거나 또는 "PCM" 비트스트림일 수 있는), 및 선택된 오브젝트 채널들에 대응하는 오브젝트 관련 메타데이터를 서브시스템(22)에 출력한다.

디코딩된 오브젝트 채널들에 의해 표시된 오브젝트들은 통상적으로 사용자 선택 가능한 오디오 오브젝트들이거나 또는 이를 포함한다. 예를 들면, 도 6에 나타낸 바와 같이, 디코더는 5.1 스피커 채널 베드, 홈 팀의 도시로부터 아나운서에 의한 해설을 나타내는 오브젝트 채널("코멘트-1 모노"), 원정 팀의 도시로부터 아나운서의 해설을 나타내는 오브젝트 채널("코멘트-2 모노"), 스포츠 경기에 존재하는 홈 팀의 팬들로부터의 군중 소리를 나타내는 오브젝트 채널("팬들(홈)"), 그것이 스포츠 경기 참가자들에 의해 쳐짐에 따라 경기 볼에 의해 생성된 사운드를 나타내는 좌측 및 우측 오브젝트 채널들("볼 사운드 스테레오"), 및 특수 효과들을 나타내는 4개의 오브젝트 채널들("효과들 4x 모노")을 추출할 수 있다. "코멘트-1 모노", "코멘트-2 모노", "팬들(홈)", "볼 사운드 스테레오", 및 "효과들 4x 모노" 오브젝트 채널들 중 임의의 것이 선택될 수 있으며(디코더(20)에서 임의의 필요한 디코딩을 겪은 후), 그것들 중 선택된 각각의 것은 서브시스템(22)으로부터 렌더링 서브시스템(24)으로 전달될 것이다.

디코더(20)로부터의 디코딩된 스피커 채널들, 디코딩된 오브젝트 채널들, 및 디코딩된 오브젝트-관련 메타데이터뿐만 아니라, 오브젝트 프로세싱 서브시스템(22)으로의 입력들은 선택적으로 시스템에 어서팅된(예로서, 그 메인 믹스가 디코더(20)에 어서팅되는 프로그램의 하나 이상의 사이드 믹스들로서) 외부 오디오 오브젝트 채널들을 포함한다. 이러한 외부 오디오 오브젝트 채널들에 의해 표시된 오브젝트들의 예들은 지역 논평자(예로서, 라디오 채널에 의해 전달된 모노포닉 오디오 콘텐트), 인입하는 스카이프(Skype) 호출, 인입하는 트위터 연결(텍스트-대-스피치 시스템을 통해 변환된, 도 6에 도시되지 않음), 및 시스템 사운드들을 포함한다.

서브시스템(22)은 프로그램에 의해 표시된 오브젝트 채널들의 전체 세트의 선택된 서브세트, 및 프로그램의 대응하는 오브젝트 관련 메타데이터를 출력하도록 구성된다. 오브젝트 선택은 서브시스템(22)이 실행하도록 프로그램되거나 또는 그 외 구성되는 사용자 선택들(제어기(23)로부터 서브시스템(22)에 어서팅된 제어 데이터에 의해 표시된 바와 같이) 및/또는 규칙들(예로서, 조건들 및/또는 제약들을 나타내는)에 의해 결정될 수 있다. 이러한 규칙들은 프로그램의 오브젝트 관련 메타데이터에 의해 및/또는 서브시스템(22)에 어서팅된(예로서, 제어기(23) 또는 또 다른 외부 소스로부터) 다른 데이터(예로서, 재생 시스템의 스피커 어레이의 능력들 및 조직화를 나타내는 데이터)에 의해 및/또는 서브시스템(22)을 사전 구성(예로서, 프로그래밍)함으로써 결정될 수 있다. 일부 실시예들에서, 오브젝트 관련 메타데이터는 오브젝트들 및 "베드" 스피커 채널 콘텐트들의 선택 가능한 "프리셋" 믹스들의 세트를 제공한다. 서브시스템(22)은 통상적으로 디코더(20)로부터 변경되지 않은(서브시스템(24)에 대해) 디코딩된 스피커 채널들을 통과하며, 그에 어서팅된 오브젝트 채널들 중 선택된 것들을 프로세싱한다.

서브시스템(22)에 의해 수행된 오브젝트 프로세싱(오브젝트 선택을 포함한)은 통상적으로 제어기(23)로부터의 제어 데이터 및 디코더(20)로부터의 오브젝트 관련 메타데이터(및 선택적으로 또한 디코더(20)로부터가 아닌 서브시스템(22)에 어서팅된 사이드 믹스들의 오브젝트 관련 메타데이터)에 의해 제어되며, 통상적으로 각각의 선택된 오브젝트에 대한 공간 위치 및 레벨의 결정을 포함한다(오브젝트 선택이 사용자 선택에 의한 것인지 또는 규칙 애플리케이션에 의한 선택에 의한 것인지에 관계없이). 통상적으로, 오브젝트를 렌더링하기 위한 디폴트 공간 위치들 및 디폴트 레벨들, 및 선택적으로 또한 오브젝트들 및 그것들의 공간 위치들 및 레벨들에 대한 제한들이 서브시스템(22)에 어서팅된(예로서, 디코더(20)로부터) 오브젝트 관련 메타데이터에 포함된다. 이러한 제한들은 선택된 오브젝트들이 렌더링될 수 있는 오브젝트들의 금지된 조합들 또는 금지된 공간 위치들을 나타낼 수 있다(예로서, 선택된 오브젝트들이 서로에 너무 가깝게 렌더링되는 것을 방지하기 위해). 또한, 개개의 선택된 오브젝트들의 라우드니스는 통상적으로 제어기(23)를 사용하여 입력된 제어 데이터, 및/또는 오브젝트 관련 메타데이터에 의해 표시된 디폴트 레벨들(예로서, 디코더(20)로부터)에 응답하여, 및/또는 서브시스템(22)의 사전 구성에 의해 오브젝트 프로세싱 서브시스템(22)에 의해 제어된다.

통상적으로, 디코더(20)에 의해 수행된 디코딩은 프로그램에 의해 표시된 각각의 오브젝트의 오디오 콘텐트의 유형(예로서, 프로그램의 오디오 콘텐트에 의해 표시된 스포츠 경기의 유형, 및 프로그램에 의해 표시된 선택 가능한 및 디폴트 오브젝트들의 명칭들 또는 다른 식별 지표들(예로서, 팀 로고들))을 나타내는 메타데이터의 추출(입력 프로그램으로부터)을 포함한다. 제어기(23) 및 오브젝트 프로세싱 서브시스템(22)은 이러한 메타데이터 또는 메타데이터에 의해 표시된 관련 정보를 수신한다. 통상적으로 또한, 제어기(23)는 사용자의 오디오 시스템의 재생 능력들에 대한 정보(예로서, 스피커들의 수 및 스피커들의 가정된 위치 또는 다른 가정된 조직)를 수신한다(예로서, 그에 의해 프로그램된다).

도 6의 공간 렌더링 서브시스템(24)(또는 적어도 하나의 다운스트림 디바이스 또는 시스템을 가진 서브시스템(24))은 사용자의 재생 시스템의 스피커들에 의한 재생을 위해 서브시스템(22)으로부터 출력된 오디오 콘텐트를 렌더링하도록 구성된다. 선택적으로 포함된 디지털 오디오 프로세싱 서브시스템들(25, 26, 및 27) 중 하나 이상은 서브시스템(24)의 출력에 대한 후처리를 실행할 수 있다.

공간 렌더링 서브시스템(24)은 각각의 선택된 오브젝트와 연관되는 서브시스템(22)으로부터 출력된 렌더링 파라미터들(예로서, 공간 위치 및 레벨의 사용자-선택된 및/또는 디폴트 값들)을 사용하여, 오브젝트 프로세싱 서브시스템(22)에 의해 선택된 오디오 오브젝트 채널들(예로서, 디폴트-선택된 오브젝트들, 및/또는 제어기(23)를 사용하여 사용자 상호작용의 결과로서 선택된 사용자-선택된 오브젝트들)을 이용 가능한 스피커 채널들에 매핑시키도록 구성된다. 공간 렌더링 시스템(24)은 또한 서브시스템(22)에 의해 통과된 스피커 채널들의 디코딩된 베드를 수신한다. 통상적으로, 서브시스템(24)은 지능형 믹서이며, 다수의 개개의 스피커 채널의 각각에 1, 2 또는 2 이상의 선택된 오브젝트 채널들을 매핑시키며, 프로그램의 스피커 채널 베드의 각각의 대응하는 스피커 채널에 의해 표시된 "베드" 오디오 콘텐트와 선택된 오브젝트 채널(들)을 믹싱함으로써 포함한 이용 가능한 스피커들에 대한 스피커 피드들을 결정하도록 구성된다.

출력 스피커 채널들의 수는 2.0 및 7.1 사이에서 달라질 수 있으며, 선택된 오디오 오브젝트 채널들("베드" 오디오 콘텐트와의 믹스에서)을 렌더링하기 위해 구동될 스피커는 재생 환경에서 (공칭) 수평 평면에 위치되는 것으로 가정될 수 있다. 이러한 경우들에서, 렌더링은 스피커들이 "베드" 오디오 콘텐트에 의해 결정된 사운드와 믹싱된, 스피커들의 평면에서의 개별적인 오브젝트 위치들(즉, 각각의 선택된 또는 디폴트 오브젝트에 대해, 하나의 오브젝트 위치, 또는 궤적을 따라 오브젝트 위치들의 하나의 시퀀스)로부터 방출하는 것으로서 지각될 사운드를 방출하기 위해 구동될 수 있다.

일부 실시예들에서, 오디오를 렌더링하도록 구동될 전체 범위 스피커들의 수는 넓은 범위(그것은 반드시 2에서 7까지의 범위에 있는 것으로 제한되지 않는다)에서의 임의의 수가 될 수 있으며, 따라서 출력 스피커 채널들의 수는 2.0 및 7.1로부터의 범위에 있는 것으로 제한되지 않는다.

일부 실시예들에서, 오디오를 렌더링하도록 구동될 스피커들은 단지 (공칭) 수평 평면에서만이 아닌, 재생 환경에서 임의의 위치들에 위치되는 것으로 가정된다. 일부 이러한 경우들에서, 프로그램에 포함된 메타데이터는 스피커들의 3-차원 어레이를 사용하여 임의의 겉보기 공간 위치에서(3차원 볼륨에서) 프로그램의 적어도 하나의 오브젝트를 렌더링하기 위한 렌더링 파라미터들을 나타낸다. 예를 들면, 오브젝트 채널은 오브젝트(오브젝트 채널에 의해 표시된)이 렌더링될 겉보기 공간 위치들의 3-차원 궤적을 나타내는 대응하는 메타데이터를 가질 수 있다. 궤적은 "플로어" 위치들(재생 환경의, 플로어 상에 위치되는 것으로 가정되는 스피커들의 서브세트의 평면에서, 또는 또 다른 수평 평면에서)의 시퀀스, 및 "플로어-위" 위치들(각각은 재생 환경의 적어도 하나의 다른 수평 평면에 위치되는 것으로 가정되는 스피커들의 서브세트를 구동함으로써 결정되는)의 시퀀스를 포함할 수 있다. 이러한 경우들에서, 렌더링은 스피커들이 "베드" 오디오 콘텐트에 의해 결정된 사운드와 믹싱된, 궤적을 포함하는 3-차원 공간에서의 오브젝트 위치들의 시퀀스로부터 방출하는 것으로서 지각될 사운드(관련 오브젝트 채널에 의해 결정된)를 방출하도록 구성될 수 있게 본 발명에 따라 수행될 수 있다. 서브시스템(24)은 이러한 렌더링, 또는 그것의 단계들을 실행하도록 구성될 수 있으며, 렌더링의 나머지 단계들은 다운스트림 시스템 또는 디바이스(예로서, 도 6의 렌더링 서브시스템(35))에 의해 수행된다.

선택적으로, 디지털 오디오 프로세싱(DAP) 스테이지(예로서, 다수의 미리 결정된 출력 스피커 채널 구성들의 각각에 대한 것)는 공간 렌더링 서브시스템의 출력에 대한 후-처리를 수행하기 위해 공간 렌더링 서브시스템(24)의 출력에 결합된다. 이러한 프로세싱의 예들은 지능적 균등화 또는 (스테레오 출력의 경우에) 스피커 가상화 프로세싱을 포함한다.

도 6 시스템의 출력(예로서, 공간 렌더링 서브시스템의 출력, 또는 공간 렌더링 스테이지를 따르는 DAP 스테이지)은 PCM 비트스트림들일 수 있다(이용 가능한 스피커들에 대한 스피커 피드들을 결정하는). 예를 들면, 사용자의 재생 시스템이 7.1 어레이의 스피커들을 포함하는 경우에, 시스템은 이러한 어레이의 스피커들에 대한 스피커 피드들을 결정하는 PCM 비트스트림들(서브시스템(24)에서 생성된), 또는 이러한 비트스트림들의 후처리된 버전(DAP(25)에서 생성된)을 출력할 수 있다. 또 다른 예에 대해, 사용자의 재생 시스템이 5.1 어레이의 스피커들을 포함하는 경우에, 시스템은 이러한 어레이의 스피커들에 대한 스피커 피드들을 결정하는 PCM 비트스트림들(서브시스템(24)에서 생성된), 또는 이러한 비트스트림들의 후 처리된 버전(DAP(26)에서 생성된)을 출력할 수 있다. 또 다른 예에 대해, 사용자의 재생 시스템이 단지 좌측 및 우측 스피커들만을 포함하는 경우에, 시스템은 좌측 및 우측 스피커들에 대한 스피커 피드들을 결정하는 PCM 비트스트림들(서브시스템(24)에서 생성된), 또는 이러한 비트스트림들의 후처리된 버전(DAP(27)에서 생성된)을 출력할 수 있다.

도 6 시스템은 선택적으로 또한 재-인코딩 서브시스템들(31 및 33) 중 하나 또는 양쪽 모두를 포함한다. 재-인코딩 서브시스템(31)은 E-AC-3 인코딩된 비트스트림으로서 DAP(25)로부터 출력된 PCM 비트스트림(7.1 스피커 어레이에 대한 피드들을 나타내는)을 재-인코딩하도록 구성되며, 결과적인 인코딩된(압축된) E-AC-3 비트스트림은 시스템으로부터 출력될 수 있다. 재-인코딩 서브시스템(33)은 AC-3 또는 E-AC-3 인코딩된 비트스트림으로서 DAP(27)로부터 출력된 PCM 비트스트림(5.1 스피커 어레이에 대한 피드들을 나타내는)을 재-인코딩하도록 구성되며, 결과적인 인코딩된(압축된) AC-3 또는 E-AC-3 비트스트림은 시스템으로부터 출력될 수 있다.

도 6 시스템은 선택적으로 또한 재-인코딩(또는 포맷팅) 서브시스템(29) 및 서브시스템(29)의 출력을 수신하기 위해 결합된 다운스트림 렌더링 서브시스템(35)을 포함한다. 서브시스템(29)은 선택된 오디오 오브젝트들(또는 오디오 오브젝트들의 디폴트 믹스), 대응하는 오브젝트 관련 메타데이터, 및 스피커 채널들의 베드를 나타내는 데이터(서브시스템(22)으로부터 출력된)를 수신하기 위해 결합되며, 서브시스템(35)에 의한 렌더링을 위한 이러한 데이터를 재-인코딩(및/또는 포맷팅)하도록 구성된다. AVR 또는 사운드바(또는 서브시스템(29)으로부터 아래쪽으로의 다른 시스템 또는 디바이스)에 실행될 수 있는 서브시스템(35)은 서브시스템(29)의 출력에 응답하여, 이용 가능한 재생 스피커들(스피커 어레이(36))에 대한 스피커 피드들(또는 스피커 피드들을 결정하는 비트스트림들)을 생성하도록 구성된다. 예를 들면, 서브시스템(29)은 선택된(또는 디폴트) 오디오 오브젝트들, 대응하는 메타데이터, 및 스피커 채널들의 베드를 나타내는 데이터를, 서브시스템(35)에서의 렌더링을 위한 적절한 포맷으로 재-인코딩함으로써 인코딩된 오디오를 생성하도록, 및 인코딩된 오디오를 (예로서, HDMI 링크를 통해) 서브시스템(35)에 송신하도록 구성될 수 있다. 서브시스템(35)에 의해 생성된(또는 그것의 출력에 의해 결정된) 스피커 피드들에 응답하여, 이용 가능한 스피커들(36)은 스피커 채널 베드 및 선택된(또는 디폴트) 오브젝트(들)의 믹스를 나타내는 사운드를 방출할 것이며, 오브젝트(들)는 서브시스템(29)의 출력의 오브젝트 관련 메타데이터에 의해 결정된 겉보기 소스 위치(들)를 가진다. 서브시스템들(29 및 35)이 포함될 때, 렌더링 서브시스템(24)은 선택적으로 시스템으로부터 생략된다.

일부 실시예들에서, 본 발명은 오브젝트 기반 오디오를 렌더링하기 위한 분배 시스템이며, 여기에서 렌더링(예로서, 도 6 시스템의 서브시스템(22) 및 제어기(23)에 의해 수행된 바와 같이, 렌더링될 오디오 오브젝트들의 선택 및 각각의 선택된 오브젝트의 렌더링의 특성들의 선택)의 일 부분(즉, 적어도 하나의 단계)은 제 1 서브시스템(예로서, 셋 탑 디바이스, 또는 셋 탑 디바이스 및 핸드헬드 제어기에 실행된 도 6의 요소들(20, 22, 및 23))에 실행되며 렌더링의 또 다른 부분(예로서, 스피커가 공급하는 몰입감 있는 렌더링, 또는 스피커 피드들을 결정하는 신호들은 제 1 서브시스템의 출력에 응답하여 생성된다)은 제 2 서브시스템(예로서, AVR 또는 사운드 바에 실행된 서브시스템(35))에 실행된다. 분배 렌더링을 제공하는 일부 실시예들은 또한 오디오 렌더링의 부분들(및 렌더링되는 오디오에 대응하는 비디오의 임의의 프로세싱)이 수행되는 상이한 시간들 및 상이한 서브시스템들을 고려하기 위해 대기 시간 관리를 실행한다.

본 발명의 재생 시스템의 일부 실시예들에서, 각각의 디코더 및 오브젝트 프로세싱 서브시스템(때때로 개인화 엔진으로서 불리는)은 셋 탑 디바이스(STB)에 실행된다. 예를 들면, 도 6의 요소들(20 및 22), 및/또는 도 7 시스템의 모든 요소들은 STB에 실행될 수 있다. 본 발명의 재생 시스템의 일부 실시예들에서, 다수의 렌더링들은 모든 STB 출력들(예로서, HDMI, S/PDIF, 및 STB의 스테레오 아날로그 출력들)이 가능해짐을 보장하기 위해 개인화 엔진의 출력에 대해 수행된다. 선택적으로, 선택된 오브젝트 채널들(및 대응하는 오브젝트 관련 메타데이터)은 STB로부터 오브젝트 채널들 및 스피커 채널들의 베드의 믹스를 렌더링하도록 구성된 다운스트림 디바이스(예로서, AVR 또는 사운드바)로 전달된다(스피커 채널들의 디코딩된 베드를 갖고).

실시예들의 클래스에서, 본 발명의 오브젝트 기반 오디오 프로그램은 동시에 생성되고 송신되는 비트스트림들("서브스트림들"로서 불릴 수 있는, 다수의 비트스트림들)의 세트를 포함한다. 이 클래스에서의 일부 실시예들에서, 다수의 디코더들은 서브스트림들의 콘텐트를 디코딩하기 위해 이용된다(예로서, 프로그램은 다수의 E-AC-3 서브스트림들을 포함하며 재생 시스템은 서브스트림들의 콘텐트를 디코딩하기 위해 다수의 E-AC-3 디코더들을 이용한다). 도 7은 동시에 전달되는 다수의 직렬 비트스트림들을 포함하는 본 발명의 오브젝트 기반 오디오 프로그램의 실시예를 디코딩하며 렌더링하도록 구성된 재생 시스템의 블록도이다.

도 7의 재생 시스템은 오브젝트 기반 오디오 프로그램이 재생 시스템으로 동시에 전달되며 재생 시스템에 의해 수신되는 다수의 비트스트림들(B1, B2, ..., BN, 여기에서 N은 일부 양의 정수이다)을 포함하는 도 6 시스템에 대한 변형이다. 비트스트림들("서브스트림들")(B1, B2, ..., 및 BN)의 각각은 서브스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하기 위해 시간 코드들 또는 다른 동기화 워드들(도 7을 참조하여 편리함을 위해 "동기 워드들"로서 불리는)을 포함하는 직렬 비트스트림이다. 각각의 서브스트림은 또한 오브젝트 채널들의 전체 세트의 상이한 서브세트 및 대응하는 오브젝트 관련 메타데이터를 포함하며, 서브스트림들 중 적어도 하나는 스피커 채널들의 베드를 포함한다. 예를 들면, 서브스트림들(B1, B2, ..., BN)의 각각에서, 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터를 포함하는 각각의 컨테이너는 고유 ID 또는 시간 스탬프를 포함한다.

도 7 시스템은 각각이 입력 서브스트림들의 상이한 것을 파싱하도록, 및 메타데이터(그것의 동기 워드들을 포함한) 및 그것의 오디오 콘텐트를 비트스트림 동기화 스테이지(59)로 어서팅하도록 결합되며 구성된 N개의 디포맷터들(50, 51, ..., 53)을 포함한다.

디포맷터(50)는 서브스트림(B1)을 파싱하도록, 및 그것의 동기 워드들(T1), 그것의 다른 메타데이터 및 오브젝트 채널 콘텐트(M1)(프로그램의 오브젝트 관련 메타데이터 및 적어도 하나의 오브젝트 채널을 포함한), 및 그것의 스피커 채널 오디오 콘텐트(A1)(프로그램의 베드의 적어도 하나의 스피커 채널을 포함한)를 비트스트림 동기화 스테이지(59)로 어서팅하도록 구성된다. 유사하게, 디포맷터(51)는 서브스트림(B2)을 파싱하도록, 및 그것의 동기 워드들(T2), 그것의 다른 메타데이터 및 오브젝트 채널 콘텐트(M2)(프로그램의 오브젝트 관련 메타데이터 및 적어도 하나의 오브젝트 채널을 포함한), 및 그것의 스피커 채널 오디오 콘텐트(A2)(프로그램의 베드의 적어도 하나의 스피커 채널을 포함한)를 비트스트림 동기화 스테이지(59)로 어서팅하도록 구성된다. 유사하게, 디포맷터(53)는 서브스트림(BN)을 파싱하도록, 및 그것의 동기 워드들(TN), 그것의 다른 메타데이터 및 오브젝트 채널 콘텐트(MN)(프로그램의 오브젝트 관련 메타데이터 및 적어도 하나의 오브젝트 채널을 포함한), 및 그것의 스피커 채널 오디오 콘텐트(AN)(프로그램의 베드의 적어도 하나의 스피커 채널을 포함한)를 비트스트림 동기화 스테이지(59)로 어서팅하도록 구성된다.

도 7 시스템의 비트스트림 동기화 스테이지(59)는 통상적으로 서브스트림들(B1, B2, ..., BN)의 오디오 콘텐트 및 메타데이터에 대한 버퍼들, 및 입력 서브스트림들에서의 데이터의 임의의 오정렬(예로서, 각각의 비트스트림이 통상적으로 미디어 파일 내에서 독립적인 인터페이스 및/또는 트랙을 통해 운반되기 때문에 그것들 중에서 엄격한 동시성이 분배/기여에서 손실되는 가능성으로 인해 발생할 수 있는)을 결정하기 위해 서브스트림들의 각각의 동기 워드들을 사용하도록 결합되며 구성되는 스트림 오프셋 보상 요소를 포함한다. 스테이지(59)의 스트림 오프셋 보상 요소는 통상적으로 또한 스피커 채널 오디오 데이터의 시간-정렬된 비트들로 하여금, 버퍼들로부터 그 각각이 버퍼들의 대응하는 것에 결합되는, 디코더들(디코더들(60, 61, 및 63)을 포함한)로 판독되게 하기 위해, 및 오브젝트 채널 오디오 데이터 및 메타데이터의 시간-정렬 비트들이 버퍼들로부터 오브젝트 데이터 조합 스테이지(66)로 판독되게 하기 위해, 비트스트림들의 오디오 데이터 및 메타데이터를 포함한 버퍼들에 적절한 제어 값들을 어서팅함으로써 임의의 결정된 오정렬을 정정하도록 구성된다.

서브스트림(B1)으로부터 스피커 채널 오디오 콘텐트(A1')의 시간-정렬된 비트들은 스테이지(59)로부터 디코더(60)로 판독되며, 서브스트림(B1)으로부터 오브젝트 채널 콘텐트 및 메타데이터(M1')의 시간-정렬된 비트들은 스테이지(59)로부터 메타데이터 조합기(66)로 판독된다. 디코더(60)는 그에 어서팅된 스피커 채널 오디오 데이터에 대한 디코딩을 수행하도록, 및 오브젝트 프로세싱 및 렌더링 서브시스템(67)에 결과적인 디코딩된 스피커 채널 오디오를 어서팅하도록 구성된다.

유사하게, 서브스트림(B2)으로부터 스피커 채널 오디오 콘텐트(A2')의 시간-정렬된 비트들은 스테이지(59)로부터 디코더(61)로 판독되며, 서브스트림(B2)으로부터 오브젝트 채널 콘텐트 및 메타데이터(M2')의 시간-정렬된 비트들은 스테이지(59)로부터 메타데이터 조합기(66)로 판독된다. 디코더(61)는 그에 어서팅된 스피커 채널 오디오 데이터에 대한 디코딩을 수행하도록, 및 오브젝트 프로세싱 및 렌더링 서브시스템(67)에 결과적인 디코딩된 스피커 채널 오디오를 어서팅하도록 구성된다.

유사하게, 서브스트림(BN)으로부터 스피커 채널 오디오 콘텐트(AN')의 시간-정렬된 비트들은 스테이지(59)로부터 디코더(63)로 판독되며, 서브스트림(BN)으로부터 오브젝트 채널 콘텐트 및 메타데이터(MN')의 시간-정렬된 비트들은 스테이지(59)로부터 메타데이터 조합기(66)로 판독된다. 디코더(63)는 그에 어서팅된 스피커 채널 오디오 데이터에 대한 디코딩을 수행하도록, 및 오브젝트 프로세싱 및 렌더링 서브시스템(69)에 결과적인 디코딩된 스피커 채널 오디오를 어서팅하도록 구성된다.

예를 들면, 서브스트림들(B1, B2, ..., BN)의 각각은 E-AC-3 서브스트림일 수 있으며, 디코더들(60, 61, 63)의 각각, 및 디코더들(60, 61, 및 63)과 병렬로 서브시스템(59)에 결합된 임의의 다른 디코더(들)는 입력 E-AC-3 서브스트림들 중 하나의 스피커 채널 콘텐트를 디코딩하도록 구성된 E-AC-3 디코더일 수 있다.

오브젝트 데이터 조합기(66)는 적절한 포맷으로 프로그램의 오브젝트 채널들 모두에 대한 시간-정렬된 오브젝트 채널 데이터 및 메타데이터를 오브젝트 프로세싱 및 렌더링 서브시스템(67)에 어서팅하도록 구성된다.

서브시스템(67)은 조합기(66)의 출력에 및 디코더들(60, 61, 및 63)(및 서브시스템들(59 및 67) 사이에서 디코더들(60, 61, 및 63)과 병렬로 결합된 임의의 다른 디코더(들))의 출력들에 결합되며, 제어기(68)는 서브시스템(67)에 결합된다. 서브시스템(67)은 제어기(68)로부터의 제어 데이터에 응답하여, 본 발명의 실시예에 따른 상호 작용적 방식으로 조합기(66) 및 디코더들(예로서, 도 6 시스템의 서브시스템(22)에 의해 수행된 단계들, 또는 이러한 단계들에 대한 변형들을 포함하는)의 출력들에 대한 오브젝트 프로세싱을 수행하도록 구성된 서브시스템을 포함한다. 제어기(68)는 도 6 시스템의 제어기(23)가 사용자로부터의 입력에 응답하여 수행하도록 구성된 동작들(또는 이러한 동작들에 대한 변형들)을 수행하도록 구성될 수 있다. 서브시스템(67)은 또한 본 발명의 실시예에 따라 그에 어서팅된 스피커 채널 오디오 및 오브젝트 채널 오디오 데이터에 대한 렌더링(예로서, 렌더링 서브시스템(24), 또는 도 6 시스템의 서브시스템들(24, 25, 26, 31, 및 33), 또는 도 6 시스템의 서브시스템들(24, 25, 26, 31, 33, 29, 및 35)에 의해 수행된 동작들, 또는 이러한 동작들에 대한 변형들)을 수행하도록 구성된 서브시스템을 포함한다.

도 7 시스템의 일 실행에서, 서브스트림들(B1, B2, ..., BN)의 각각은 돌비 E 비트스트림이다. 각각의 이러한 돌비 E 비트스트림은 버스트들의 시퀀스를 포함한다. 각각의 버스트는 스피커 채널 오디오 콘텐트("스피커 채널들의 베드") 및 본 발명의 오브젝트 채널들의 전체 오브젝트 채널 세트(그것의 큰 세트일 수 있는)의 서브세트 및 오브젝트 관련 메타데이터를 운반할 수 있다(즉, 각각의 버스트는 전체 오브젝트 채널 세트의 일부 오브젝트 채널들 및 대응하는 오브젝트 관련 메타데이터를 나타낼 수 있다). 돌비 E 비트스트림의 각각의 버스트는 통상적으로 대응하는 비디오 프레임의 것과 같은 시간 기간을 차지한다. 상기 세트에서의 각각의 돌비 E 비트스트림은 상기 세트에서의 비트스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하기 위해 동기화 워드들(예로서, 시간 코드들)을 포함한다. 예를 들면, 각각의 비트스트림에서, 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터를 포함한 각각의 컨테이너는 세트에서의 비트스트림들이 서로 동기화되거나 또는 시간 정렬되도록 허용하기 위해 고유 ID 또는 시간 스탬프를 포함할 수 있다. 도 7 시스템의 주지된 실행에서, 디포맷터들(50, 51, 및 53)(및 디포맷터들(50, 51, 및 53)과 병렬로 결합된 임의의 다른 디포맷터(들))의 각각은 SMPTE 337 디포맷터이며, 디코더들(60, 61, 및 63)과 병렬로 서브시스템(59)에 결합된 임의의 다른 디코더(들)는 돌비 E 디코더일 수 있다.

본 발명의 일부 실시예들에서, 오브젝트 기반 오디오 프로그램의 오브젝트 관련 메타데이터는 지속적 메타데이터를 포함한다. 예를 들면, 도 6 시스템의 서브시스템(20)에 입력된 프로그램에 포함된 오브젝트 관련 메타데이터는 방송 체인에서의 적어도 하나의 포인트에서(프로그램을 생성한 콘텐트 생성 설비로부터 제어기(23)에 의해 실행된 사용자 인터페이스로) 변경될 수 있는 비-지속적 메타데이터(예로서, 사용자-선택 가능한 오브젝트에 대한, 디폴트 레벨 및/또는 렌더링 위치 또는 궤적) 및 프로그램(통상적으로, 콘텐트 생성 설비에서)의 초기 생성 후 변경 가능하도록 의도되지 않은(또는 변경될 수 없는) 지속적 메타데이터를 포함할 수 있다. 지속적 메타데이터의 예들은: 프로그램의 각각의 사용자-선택 가능한 오브젝트 또는 다른 오브젝트 또는 오브젝트들의 세트에 대한 오브젝트 ID; 및 프로그램의 스피커 채널들의 베드 또는 다른 요소들의 오디오 콘텐트에 대하여, 각각의 사용자-선택 가능한 오브젝트, 또는 다른 오브젝트의 타이밍을 나타내는 시간 코드들 또는 다른 동기화 워드들을 포함한다. 지속적 메타데이터는 통상적으로 프로그램의 방송의 전체 지속 기간 전체에 걸쳐 또는 심지어 또한 프로그램의 재-방송들 동안, 콘텐트 생성 설비로부터 사용자 인터페이스로 전체 방송 체인에 걸쳐 보존된다. 일부 실시예들에서, 적어도 하나의 사용자-선택 가능한 오브젝트의 오디오 콘텐트(및 연관된 메타데이터)는 오브젝트 기반 오디오 프로그램의 메인 믹스에서 전송되며, 적어도 하나의 다른 오브젝트의 적어도 일부 지속적 메타데이터(예로서, 시간 코드들) 및 선택적으로 또한 오디오 콘텐트(및 연관된 메타데이터)가 프로그램의 사이드 믹스에서 전송된다.

본 발명의 오브젝트 기반 오디오 프로그램의 일부 실시예들에서 지속적, 오브젝트 관련 메타데이터는 오브젝트 콘텐트 및 베드(스피커 채널) 콘텐트의 사용자 선택 믹스를 보존하기 위해 이용된다(예로서, 프로그램의 방송 직후). 예를 들면, 이것은, 사용자가 그/그녀의 선택을 변경할 때까지, 사용자가 특정 유형의 프로그램(예로서, 임의의 축구 경기)을 볼 때마다 또는 사용자가 임의의 프로그램(임의의 유형의)을 볼 때마다 디폴트 믹스로서 선택된 믹스를 제공할 수 있다. 예를 들면, 제 1 프로그램의 방송 동안, 사용자는 지속적 ID를 가진 오브젝트(예로서, "홈 팀 군중 소리" 오브젝트로서 제어기(23)의 사용자 인터페이스에 의해 식별된 오브젝트, 여기에서 지속적 ID는 "홈 팀 군중 소리"을 나타낸다)를 포함한 믹스를 선택하기 위해 제어기(23)(도 6 시스템의)를 이용할 수 있다. 그 후, 사용자가 또 다른 프로그램(동일한 지속적 ID를 가진 오브젝트를 포함하는)을 볼 때마다(및 청취할 때마다), 재생 시스템은, 사용자가 믹스 선택을 변경할 때까지, 동일한 믹스(즉, 프로그램의 "홈 팀 군중 소리" 오브젝트 채널과 믹싱된 스피커 채널들의 프로그램의 베드)를 갖고 프로그램을 자동으로 렌더링할 것이다. 본 발명의 오브젝트 기반 오디오 프로그램의 일부 실시예들에서 오브젝트 관련 메타데이터는 일부 오브젝트들의 렌더링이 전체 프로그램 동안 의무적이게 할 수 있다(예로서, 이러한 렌더링을 무산시키기 위한 사용자의 바람에도 불구하고).

일부 실시예들에서, 오브젝트 관련 메타데이터는 디폴트 렌더링 파라미터들(예로서, 렌더링된 오브젝트들의 디폴트 공간 위치들)을 갖고, 오브젝트 콘텐트 및 베드(스피커 채널) 콘텐트의 디폴트 믹스를 제공한다. 예를 들면, 도 6 시스템의 서브시스템(20)에 입력된 프로그램의 오브젝트 관련 메타데이터는 디폴트 렌더링 파라미터들을 갖고, 오브젝트 콘텐트 및 베드(스피커 채널) 콘텐트의 디폴트 믹스일 수 있으며, 서브시스템들(22 및 24)은, 사용자가 오브젝트 콘텐트 및 베드 콘텐트의 또 다른 믹스 및/또는 또 다른 세트의 렌더링 파라미터들을 선택하기 위해 제어기(23)를 이용하지 않는다면, 프로그램이 디폴트 믹스를 갖고, 및 디폴트 렌더링 파라미터들을 갖고 렌더링되게 할 것이다.

일부 실시예들에서, 오브젝트 관련 메타데이터는 오브젝트들 및 "베드" 스피커 채널 콘텐트의 선택 가능한 "프리셋" 믹스들의 세트를 제공하며, 각각의 프리셋 믹스는 미리 결정된 세트의 렌더링 파라미터들(예로서, 렌더링된 오브젝트들의 공간 위치들)을 가진다. 이것들은 이용 가능한 믹스들의 제한된 메뉴 또는 팔레트(예로서, 도 6 시스템의 제어기(23)에 의해 디스플레이된 제한된 메뉴 또는 팔레트)로서 재생 시스템의 사용자 인터페이스에 의해 제공될 수 있다. 각각의 프리셋 믹스(및/또는 각각의 선택 가능한 오브젝트)는 지속적 ID(예로서, 이름, 라벨 또는 로고)를 가질 수 있다. 제어기(23)(또는 본 발명의 재생 시스템의 또 다른 실시예의 제어기)는 이러한 ID의 표시를 디스플레이하도록 구성될 수 있다(예로서, 제어기(23)의 iPad 실행의 터치 스크린상에). 예를 들면, 프리셋 믹스의 각각의 오브젝트의 비지속적 메타데이터 또는 오디오 콘텐트의 상세들에 대한 변경들(예로서, 방송사에 의해 이루어진)에 관계없이, 지속되는 ID(예로서, 팀 로고)를 가진 선택 가능한 "홈 팀" 믹스가 있을 수 있다.

일부 실시예들에서, 프로그램의 오브젝트 관련 메타데이터(또는 프로그램으로 전달된 메타데이터에 의해 나타나지 않는, 재생 또는 렌더링 시스템의 사전 구성)는 오브젝트들 및 베드(스피커 채널) 콘텐트의 선택 가능한 믹스들에 대한 제약들 또는 조건들을 제공한다. 예를 들면, 도6 시스템의 실행은 디지털 권한 관리(DRM)를 실행할 수 있으며, 보다 구체적으로 도 6 시스템의 사용자가 오브젝트 기반 오디오 프로그램에 포함된 오디오 오브젝트들의 세트로의 "티어드(tiered)" 액세스를 갖도록 허용하기 위해 DRM 계층을 실행할 수 있다. 사용자(예로서, 재생 시스템과 연관된 고객)가 보다 많은 돈을 지불한다면(예로서, 방송사로), 사용자는 프로그램의 보다 많은 오디오 오브젝트들을 디코딩하며 선택(및 청취)하도록 인가될 수 있다.

또 다른 예에 대해, 오브젝트 관련 메타데이터는 오브젝트들의 사용자 선택에 대한 제약들을 제공할 수 있다. 이러한 제약의 예는 사용자가 프로그램의 "홈 팀 군중 소리" 오브젝트 및 "홈 팀 아나운서" 오브젝트 양쪽 모두를 렌더링하기 위해 선택하도록 제어기(23)를 이용한다면(즉, 도 6의 서브시스템(24)에 의해 결정된 믹스에서의 포함을 위한), 프로그램에 포함된 메타데이터는 서브시스템(24)이 두 개의 선택된 오브젝트들로 하여금 미리 결정된 상대적 공간 위치들을 갖고 렌더링되게 함을 보장할 수 있다는 것이다. 제약들은 재생 시스템에 관한 데이터(예로서, 사용자-입력 데이터)에 의해 결정될 수 있다(적어도 부분적으로). 예를 들면, 재생 시스템이 스테레오 시스템(단지 두 개의 스피커들만을 포함한)이면, 도 6 시스템의 오브젝트 프로세싱 서브시스템(24)(및/또는 제어기(23))은 단지 두 개의 스피커들에 의해 적절한 공간 분해능을 갖고 렌더링될 수 없는 믹스들(오브젝트 관련 메타데이터에 의해 식별된)의 사용자 선택을 방지하도록 구성될 수 있다. 또 다른 예에 대해, 도 6 시스템의 오브젝트 프로세싱 서브시스템(24)(및/또는 제어기(23))은 오브젝트 관련 메타데이터(및/또는 재생 시스템에 입력된 다른 데이터)에 의해 표시된 법적(예로서, DRM) 이유들 또는 다른 이유들로(예로서, 전달 채널의 대역폭에 기초한) 선택 가능한 오브젝트들의 카테고리로부터 일부 전달된 오브젝트들을 제거할 수 있다. 사용자는 보다 많은 대역폭에 대해 콘텐트 생성기 또는 방송사에 지불할 수 있으며, 그 결과 시스템(예로서, 도 6 시스템의 오브젝트 프로세싱 서브시스템(24) 및/또는 제어기(23))은 사용자가 선택 가능한 오브젝트들 및/또는 오브젝트/베드 믹스들의 보다 큰 메뉴로부터 선택하도록 허용할 수 있다.

본 발명의 일부 실시예들(예로서, 상기 설명된 요소들(29 및 35)을 포함하는 도 6의 재생 시스템의 실행들)은 분배된 렌더링을 실행한다. 예를 들면, 프로그램의 디폴트 또는 선택된 오브젝트 채널들(및 대응하는 오브젝트 관련 메타데이터)은 셋 탑 디바이스로부터(예로서, 도 6 시스템의 실행의 서브시스템들(22 및 29)로부터) 다운스트림 디바이스(예로서, 서브시스템들(22 및 29)이 실행되는 셋 탑 박스(STB)로부터 아래쪽으로 AVR 또는 사운드바에 실행된, 도 6의 서브시스템(35))로 전달된다(스피커 채널들의 디코딩된 베드를 갖고). 다운스트림 디바이스는 오브젝트 채널들 및 스피커 채널들의 베드의 믹스를 렌더링하도록 구성된다. STB는 오디오를 부분적으로 렌더링할 수 있으며 다운스트림 디바이스는 렌더링을 완료할 수 있다(예로서, 특정 겉보기 소스 위치에 오디오 오브젝트를 위치시키기 위해 스피커들(예로서, 천장 스피커들)의 특정 최상부 티어를 구동하기 위한 스피커 피드들을 생성함으로써, 여기에서 STB의 출력은 단지 오브젝트가 스피커들의 일부 특정되지 않은 최상부 티어에서 일부 특정되지 않은 방식으로 렌더링될 수 있음을 나타낸다). 예를 들면, STB는 재생 시스템의 스피커들의 특정 조직에 대한 지식을 갖지 않을 수 있지만, 다운스트림 디바이스(예로서, AVR 또는 사운드바)는 이러한 지식을 가질 수 있다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램(예로서, 도 6 시스템의 서브시스템(20)에, 또는 도 7 시스템의 요소들(50, 51, 및 53)에 입력된 프로그램)은 적어도 하나의 AC-3(또는 E-AC-3) 비트스트림이거나 또는 이를 포함하며, 오브젝트 채널 콘텐트(및/또는 오브젝트 관련 메타데이터)를 포함하는 프로그램의 각각의 컨테이너는 비트스트림의 프레임의 끝에서 보조데이터 필드(예로서, 도 1 또는 도 4에 도시된 AUX 세그먼트)에 포함된다. 일부 이러한 실시예들에서, AC-3 또는 E-AC-3 비트스트림의 각각의 프레임은 하나 또는 두 개의 메타데이터 컨테이너들을 포함한다. 하나의 컨테이너는 프레임의 Aux 필드에 포함될 수 있으며, 또 다른 컨테이너는 프레임의 addbsi 필드에 포함될 수 있다. 각각의 컨테이너는 코어 헤더를 가지며 하나 이상의 페이로드들을 포함한다(또는 그것과 연관된다). 하나의 이러한 페이로드(Aux 필드에 포함된 컨테이너의 또는 그것과 연관된)는 본 발명의 오브젝트 채널들(또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된)의 각각 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터의 오디오 샘플들의 세트일 수 있다. 각각의 컨테이너의 코어 헤더는 통상적으로 컨테이너에 포함되거나 또는 그것과 연관된 페이로드(들)의 유형을 나타내는 적어도 하나의 ID 값; 서브스트림 연관 표시들(코어 헤더가 어떤 서브스트림들과 연관되는지를 나타내는); 및 보호 비트들을 포함한다. 통상적으로, 각각의 페이로드는 그 자신의 헤더(또는 "페이로드 식별자")를 가진다. 오브젝트 레벨 메타데이터는 오브젝트 채널인 각각의 서브스트림에서 운반될 수 있다.

다른 실시예들에서, 오브젝트 기반 오디오 프로그램(예로서, 도 6 시스템의 서브시스템(20)에, 또는 도 7 시스템의 요소들(50, 51, 및 53)에 입력된 프로그램)은 AC-3 비트스트림 또는 E-AC-3 비트스트림이 아닌 비트스트림이거나 또는 이를 포함한다. 일부 실시예들에서, 오브젝트 기반 오디오 프로그램은 적어도 하나의 돌비 E 비트스트림이거나 또는 이를 포함하며, 프로그램(예로서, 오브젝트 채널 콘텐트 및/또는 오브젝트 관련 메타데이터를 포함하는 프로그램의 각각의 컨테이너)의 오브젝트 채널 콘텐트 및 오브젝트 관련 메타데이터는 종래에 유용한 정보를 운반하지 않는 돌비 E 비트스트림의 비트 위치들에 포함된다. 돌비 E 비트스트림의 각각의 버스트는 대응하는 비디오 프레임의 것과 같은 시간 기간을 차지한다. 오브젝트 채널들(및 오브젝트 관련 메타데이터)은 돌비 E 버스트들 사이에서의 보호 대역들에 및/또는 각각의 돌비 E 버스트 내에서의 데이터 구조들(각각은 AES3 프레임의 포맷을 가진)의 각각 내에서의 사용되지 않은 비트 위치들에 포함될 수 있다. 예를 들면, 각각의 보호 대역은 세그먼트들(예로서, 100개의 세그먼트들)의 시퀀스로 이루어지고, 각각의 보호 대역의 제 1 X 세그먼트들(예로서, X=20)의 각각은 오브젝트 채널들 및 오브젝트 관련 메타데이터를 포함하며, 상기 각각의 보호 대역의 나머지 세그먼트들의 각각은 보호 대역 심볼을 포함할 수 있다. 일부 실시예들에서, 돌비 E 비트스트림들의 오브젝트 채널들 및 오브젝트 관련 메타데이터는 메타데이터 컨테이너들에 포함된다. 각각의 컨테이너는 코어 헤더를 가지며 하나 이상의 페이로드들을 포함한다(또는 그것과 연관된다). 하나의 이러한 페이로드(Aux 필드에 포함된 컨테이너의 또는 그것과 연관된)는 본 발명의 오브젝트 채널들(또한 프로그램에 의해 표시되는 스피커 채널들의 베드에 관련된) 중 하나 이상 및 각각의 오브젝트 채널과 연관된 오브젝트 관련 메타데이터의 각각의 오디오 샘플들의 세트일 수 있다. 각각의 컨테이너의 코어 헤더는 통상적으로 컨테이너에 포함되거나 또는 그것과 연관된 페이로드(들)의 유형을 나타내는 적어도 하나의 ID; 서브스트림 연관 표시들(코어 헤더가 어떤 서브스트림들과 연관되는지를 나타내는); 및 보호 비트들을 포함한다. 통상적으로, 각각의 페이로드는 그 자신의 헤더(또는 "페이로드 식별자")를 가진다. 오브젝트 레벨 메타데이터는 오브젝트 채널인 각각의 서브스트림에서 운반될 수 있다.

일부 실시예들에서, 오브젝트 기반 오디오 프로그램(예로서, 도 6 시스템의 서브시스템에, 또는 도 7 시스템의 요소들(50, 51, 및 53)에 입력된 프로그램)은 디코딩 가능하며, 그것의 스피커 채널 콘텐트는 레거시 디코더 및 레거시 렌더링 시스템(본 발명의 오브젝트 채널들 및 오브젝트 관련 메타데이터를 파싱하도록 구성되지 않는)에 의해 렌더링 가능하다. 동일한 프로그램은 본 발명의 오브젝트 채널들 및 오브젝트 관련 메타데이터를 파싱하며 프로그램에 의해 표시된 스피커 채널 및 오브젝트 채널 콘텐트의 믹스를 렌더링하도록 구성되는(본 발명의 실시예에 따라) 셋 탑 디바이스(또는 다른 디코딩 및 렌더링 시스템)에 의해 본 발명의 일부 실시예들에 따라 렌더링될 수 있다.

본 발명의 일부 실시예들은 방송 프로그램에 응답하여 최종 소비자들에 대한 개인화된(및 바람직하게는 몰입감 있는) 오디오 경험을 제공하도록, 및/또는 방송 파이프라인에서 메타데이터를 사용하기 위한 새로운 방법들을 제공하도록 의도된다. 일부 실시예들은 최종 소비자에 대한 보다 몰입감 있는 경험을 제공하고, 본 발명의 오브젝트 기반 오디오 프로그램(들)의 오브젝트 채널(들) 및 메타데이터가 전문 체인을 통해 흐르도록 허용하기 위해 기존의 제작, 기여 및 분배 작업 흐름들을 변경하며, 종래에 방송 오디오(예로서, 본 발명의 방송 오디오 프로그램의 일부 실시예들에 포함된 스피커 채널들의 베드) 뿐만 아니라 본 발명의 오브젝트 채널(들) 및 메타데이터를 지원하는 새로운 재생 파이프라인(예로서, 셋 탑 디바이스에 실행된 것)을 생성하는 오디오 프로그램을 생성하기 위해 마이크로폰 캡처(예로서, 경기장 마이크로폰 캡처)를 개선한다.

도 8은 방송을 위해, 본 발명의 실시예에 따라 오브젝트 기반 오디오 프로그램(및 대응하는 비디오 프로그램)을 생성하도록 구성된 방송 시스템의 블록도이다. 도 8 시스템의 마이크로폰들(100, 101, 102, 및 103)을 포함한, X개의 마이크로폰들(X는 정수이다)의 세트는 프로그램에 포함될 오디오 콘텐트를 캡처하기 위해 위치되며, 그것들의 출력들은 오디오 콘솔(104)의 입력들에 결합된다.

실시예들의 클래스에서, 프로그램은 관중 이벤트(예로서, 축구 또는 럭비 경기, 자동차 또는 오토바이 경주, 또는 또 다른 스포츠 경기)에서 또는 그에서의 분위기, 및/또는 그에 대한 해설을 나타내는 상호 작용적 오디오 콘텐트를 포함한다. 일부 실시예들에서, 프로그램의 오디오 콘텐트는 프로그램의 다수의 오디오 오브젝트들(사용자-선택 가능한 오브젝트들 또는 오브젝트 세트들, 통상적으로 또한 사용자에 의한 오브젝트 선택의 부재시 렌더링될 오브젝트들의 디폴트 세트를 포함한) 및 스피커 채널들의 믹스(또는 "베드")를 나타낸다. 스피커 채널들의 베드는 오브젝트 채널을 포함하지 않는 종래의 방송 프로그램에 포함될 수 있는 유형의 스피커 채널들의 종래의 믹스(예로서, 5.1 채널 믹스)일 수 있다.

마이크로폰들(예로서, 마이크로폰들(100 및 101) 및 선택적으로 또한 그 출력들이 오디오 콘솔(104)에 결합되는 다른 마이크로폰들)의 서브세트는 동작 시, 오디오(스피커 채널들의 베드로서 인코딩되며 전달될)를 캡처하는 마이크로폰들의 종래의 어레이이다. 동작 시, 마이크로폰들(예로서, 마이크로폰들(102 및 103) 및 선택적으로 또한 그 출력들이 오디오 콘솔(104)에 결합되는 다른 마이크로폰들)의 또 다른 서브세트는 프로그램의 오브젝트 채널들로서 인코딩되며 전달될 오디오(예로서, 군중 소리 및/또는 다른 "오브젝트들")를 캡처한다. 예를 들면, 도 8 시스템의 마이크로폰 어레이는: 사운드필드 마이크로폰으로서 실행되며 영구적으로 경기장에 설치된(그것을 갖고 설치된 히터를 가진 사운드필드 마이크로폰) 적어도 하나의 마이크로폰(예로서, 마이크로폰(100)); 하나의 팀(예로서, 홈 팀)을 지지하는 관중들의 위치에서 가리켜진 적어도 하나의 스테레오 마이크로폰(예로서, 젠하이저(Sennheiser) MKH416 마이크로폰 또는 또 다른 스테레오 마이크로폰으로서 실행된, 마이크로폰(102)), 및 다른 팀(예로서, 원정 팀)을 지지하는 관중들의 위치에서 가리켜진 적어도 하나의 다른 스테레오 마이크로폰(예로서, 젠하이저 MKH416 마이크로폰 또는 또 다른 스테레오 마이크로폰으로서 실행된, 마이크로폰(103))을 포함할 수 있다.

본 발명의 방송 시스템은 경기장(또는 또 다른 이벤트 위치)에서 마이크로폰들로부터의 오디오 피드들의 제 1 수신인인, 경기장(또는 다른 이벤트 위치)의 바깥쪽에 위치된 이동 유닛(트럭일 수 있으며, 때때로 "매치 트럭"으로서 불린다)을 포함할 수 있다. 매치 트럭은 프로그램의 오브젝트 채널들로서 전달을 위해 마이크로폰들로부터 오디오 콘텐트를 인코딩하고, 대응하는 오브젝트 관련 메타데이터(예로서, 각각의 오브젝트가 렌더링되어야 하는 공간 위치를 나타내는 메타데이터)를 생성하며 이러한 메타데이터를 상기 프로그램에 포함시키며 프로그램의 스피커 채널들의 베드로서 전달을 위해 일부 마이크로폰들로부터 오디오 콘텐트를 인코딩하는 것을 포함하여 오브젝트 기반 오디오 프로그램(방송될)을 생성한다.

예를 들면, 도 8 시스템에서, 콘솔(104), 오브젝트 프로세싱 서브시스템(106)(콘솔(104)의 출력들에 결합된), 내장 서브시스템(108), 및 기여 인코더(110)가 매치 트럭에 설치될 수 있다. 서브시스템(106)에 생성된 오브젝트 기반 오디오 프로그램은 그 후 인코딩되는(예로서, 인코더(110)에 의해) 조합된 오디오 및 비디오 신호를 생성하며, 그에 의해 방송을 위한 인코딩된 오디오/비디오 신호를 생성하기 위해(예로서, 도 5의 전달 서브시스템(5)에 의해) 비디오 콘텐트(예로서, 경기장에 위치된 카메라로부터)와 조합될 수 있다(예로서, 서브시스템(108)에서). 이러한 인코딩된 오디오/비디오 신호를 디코딩하며 렌더링하는 재생 시스템은 전달된 오디오/비디오 신호의 오디오 콘텐트 및 비디오 콘텐트를 파싱하기 위한 서브시스템(도면들에 구체적으로 도시되지 않음), 및 본 발명의 실시예에 따라 오디오 콘텐트를 디코딩하고 렌더링하기 위한 서브시스템(예로서, 도 6 시스템과 유사하거나 또는 동일한 것), 및 비디오 콘텐트를 디코딩하며 렌더링하기 위한 또 다른 서브시스템(도면들에 구체적으로 도시되지 않음)을 포함할 것임이 이해되어야 한다.

콘솔(104)의 오디오 출력은 스포츠 경기에서 캡처된 사운드를 나타내는 5.1 스피커 채널 베드(도 8에서 "5.1 중립"), 경기에 존재하는 홈 팀의 팬들로부터의 군중 소리를 나타내는 스테레오 오브젝트 채널("2.0 홈"으로 라벨링된)의 오디오 콘텐트, 경기에 존재하는 원정 팀의 팬들로부터의 군중 소리를 나타내는 스테레오 오브젝트 채널("2.0 원정"으로 라벨링된)의 오디오 콘텐트, 홈 팀의 도시로부터 아나운서에 의한 해설을 나타내는 오브젝트 채널 오디오 콘텐트("1.0 comm1"로 라벨링된"), 원정 팀의 도시로부터 아나운서에 의한 해설을 나타내는 오브젝트 채널 오디오 콘텐트("1.0 comm2"로 라벨링된), 및 그것이 스포츠 경기 참가자들에 의해 쳐진 것처럼 경기 볼에 의해 생성된 사운드를 나타내는 오브젝트 채널 오디오 콘텐트("1.0 볼 킥"으로 라벨링된)를 포함할 수 있다.

오브젝트 프로세싱 서브시스템(106)은 콘솔(104)로부터 오브젝트 채널들(예로서, "2.0 원정"으로 라벨링된 좌측 및 우측 오디오 스트림들을 원정 군중 소리 오브젝트 채널로 그룹핑하기 위해) 및/또는 오브젝트 채널들의 세트들로 오디오 스트림들을 조직화(예로서, 그룹핑)하기 위해, 오브젝트 채널들(및/또는 오브젝트 채널 세트들)을 나타내는 오브젝트 관련 메타데이터를 생성하기 위해, 및 오브젝트 기반 오디오 프로그램(예로서, 돌비 E 비트스트림으로서 인코딩된 오브젝트 기반 오디오 프로그램)으로서 오브젝트 채널들(및/또는 오브젝트 채널 세트들), 오브젝트 관련 메타데이터, 및 스피커 채널 베드(콘솔(104)로부터 오디오 스트림들로부터 결정된)를 인코딩하기 위해 구성된다. 통상적으로 또한, 서브시스템(106)은 재생된 사운드가 콘솔(104) 및 서브시스템(106)의 운영자(들)에 의해 모니터링될 수 있도록(도 8의 "모니터 경로"에 의해 표시된 바와 같이) 적어도 오브젝트 채널들(및/또는 오브젝트 채널 세트들) 및 스피커 채널 베드(선택된 오브젝트 채널(들) 및 스피커 채널들을 나타내는 믹스를 생성하기 위해 오브젝트 관련 메타데이터를 사용하는 것을 포함한)를 렌더링하도록(및 스튜디오 모니터 스피커들의 세트 상에서 플레이하도록) 구성된다.

서브시스템(104')의 출력들 및 서브시스템(106)의 입력들 사이에서의 인터페이스는 다채널 오디오 디지털 인터페이스("MADI")일 수 있다.

동작 시, 도 8 시스템의 서브시스템(108)은 인코더(110)로 어서팅되는 조합된 오디오 및 비디오 신호를 생성하기 위해 비디오 콘텐트(예로서, 경기장에 위치된 카메라들로부터)와 서브시스템(106)에서 생성된 오브젝트 기반 오디오 프로그램을 조합한다. 서브시스템(108)의 출력과 서브시스템(110)의 입력 사이에서의 인터페이스는 고 화질 직렬 디지털 인터페이스("HD-SDI")일 수 있다. 동작 시, 인코더(110)는 서브시스템(108)의 출력을 인코딩하며, 그에 의해 방송을 위한 인코딩된 오디오/비디오 신호를 생성한다(예로서, 도 5의 전달 서브시스템(5)에 의해).

일부 실시예들에서, 방송 설비(예로서, 도 8의 서브시스템(106, 108, 및 110)은)는 캡처된 사운드를 나타내는 다수의 오브젝트 기반 오디오 프로그램들(예로서, 도 8의 서브시스템(110)으로부터 출력된 다수의 인코딩된 오디오/비디오 신호들에 의해 표시된 오브젝트 기반 오디오 프로그램들)을 생성하도록 구성된다. 이러한 오브젝트 기반 오디오 프로그램들의 예들은 5.1 평탄화된 믹스, 국제 믹스, 및 국내 믹스를 포함한다. 예를 들면, 프로그램들 모두는 스피커 채널들의 공통 베드를 포함할 수 있지만, 프로그램들의 오브젝트 채널들(및/또는 프로그램들에 의해 결정된 선택 가능한 오브젝트 채널들의 메뉴 및/또는 오브젝트 채널들을 렌더링하며 믹싱하기 위한 선택 가능한 또는 선택 가능하지 않은 렌더링 파라미터들)은 프로그램에서 프로그램으로 상이할 수 있다.

일부 실시예들에서, 방송사 또는 다른 콘텐트 생성기(예로서, 도 8 시스템의 서브시스템들(106, 108, 및 100)의 설비는 다양한 상이한 재생 환경들(예로서, 5.1 채널 국내 재생 시스템들, 5.1 채널 국제 재생 시스템들, 및 스테레오 재생 시스템들) 중 임의의 것에서 렌더링될 수 있는 단일 오브젝트 기반 오디오 프로그램(즉, 마스터)을 생성하도록 구성된다. 마스터는 임의의 특정 환경에서 소비자들로의 방송을 위해 믹싱(예로서, 다운믹싱)될 필요가 없다.

상기 주지된 바와 같이, 본 발명의 일부 실시예들에서, 프로그램의 오브젝트 관련 메타데이터(또는 프로그램으로 전달된 메타데이터에 의해 나타나지 않는, 재생 또는 렌더링 시스템의 사전 구성)는 오브젝트들 및 베드(스피커 채널) 콘텐트의 선택 가능한 믹스들에 대한 제약들 또는 조건들을 제공한다. 예를 들면, 도 6 시스템의 실행은 사용자로 하여금 오브젝트 기반 오디오 프로그램에 포함된 오브젝트 채널들의 세트로의 티어드 액세스를 갖도록 허용하기 위해 DRM 계층을 실행할 수 있다. 사용자가 보다 많은 돈을 지불한다면(예로서, 방송사에), 사용자는 프로그램의 보다 많은 오브젝트 채널들을 디코딩하고, 선택하며, 렌더링하도록 인가될 수 있다.

오브젝트들(또는 오브젝트들의 그룹들)의 사용자 선택에 대한 제약들 및 조건들의 예들은 도 9를 참조하여 설명될 것이다. 도 9에서, 프로그램("P0")은 7개의 오브젝트 채널들을 포함한다: 중립 군중 소리를 나타내는 오브젝트 채널("N0"), 홈 군중 소리를 나타내는 오브젝트 채널("N1"), 원정 군중 소리를 나타내는 오브젝트 채널("N2"), 이벤트에 대한 공식 해설(예로서, 상업적 라디오 아나운서에 의한 방송 해설)을 나타내는 오브젝트 채널("N3"), 이벤트에 대한 팬 해설을 나타내는 오브젝트 채널("N4"), 이벤트에서 연설 발표들을 나타내는 오브젝트 채널("N5"), 및 이벤트에 관계된 인입하는 트위터 연결(텍스트-대-스피치 시스템을 통해 변환된)을 나타내는 오브젝트 채널("N6").

프로그램(P0)에 포함된 메타데이터를 나타내는 디폴트는 프로그램에 의해 표시된 "베드" 스피커 채널 콘텐트 및 오브젝트 채널 콘텐트의 렌더링된 믹스에 포함될(디폴트로) 디폴트 오브젝트 세트(하나 이상의 "디폴트" 오브젝트들) 및 디폴트 렌더링 파라미터 세트(예로서, 디폴트 오브젝트 세트에서 각각의 디폴트 오브젝트의 공간 위치)를 나타낸다. 예를 들면, 디폴트 오브젝트 세트는 분산 방식으로(예로서, 임의의 특정 소스 위치로부터 방출한 것처럼 지각되지 않도록) 렌더링된 오브젝트 채널("N0")(중립 군중 소리를 나타내는) 및 청취자의 바로 앞에서의(즉, 청취자에 대하여 0도들의 방위각에서) 소스 위치로부터 방출한 것으로서 지각되도록 렌더링된 오브젝트 채널("N3")(공식 해설을 나타내는)의 믹스일 수 있다.

프로그램(P0)(도 9의)은 또한 다수의 세트들의 사용자 선택 가능한 프리셋 믹스들을 나타내는 메타데이터를 포함하며, 각각의 프리셋 믹스는 프로그램의 오브젝트 채널들의 서브세트 및 대응하는 렌더링 파라미터 세트에 의해 결정된다. 사용자 선택 가능한 프리셋 믹스들은 재생 시스템의 제어기의 사용자 인터페이스상에서의 메뉴(예로서, 도 6 시스템의 제어기(23)에 의해 디스플레이된 메뉴)로서 제공될 수 있다. 예를 들면, 하나의 이러한 프리셋 믹스는 믹스에서의 채널(N0 및 N1) 콘텐트가 청취자 바로 뒤에서(즉, 청취자에 대하여 180도들의 방위각에서) 소스 위치로부터 방출하는 것으로서 지각되도록 렌더링된, 도 9의 오브젝트 채널("N0")(중립 군중 소리를 나타내는) 및 오브젝트 채널("N1")(홈 군중 소리를 나타내는) 및 오브젝트 채널("N4")(팬 해설을 나타내는)의 믹스이며, 믹스에서의 채널 N1 콘텐트의 레벨은 믹스에서의 채널 N0의 레벨보다 3dB 낮으며, 믹스에서의 채널 N4 콘텐트는 분산 방식으로 렌더링된다(예로서, 임의의 특정 소스 위치로부터 방출한 것으로서 지각되지 않도록).

재생 시스템은 오브젝트 채널들(N0, N1, 및 N2) 중 적어도 하나를 포함하는 각각의 사용자 선택 가능한 프리셋 믹스가 오브젝트 채널(N0)의 콘텐트만을, 또는 오브젝트 채널들(N1 및 N2) 중 적어도 하나의 콘텐트와 믹싱된 오브젝트 채널(N0)의 콘텐트를 포함해야 한다는 규칙(예로서, 프로그램의 메타데이터에 의해 결정된, 도 9에 나타낸 그룹핑 규칙("G"))을 실행할 수 있다. 재생 시스템은 또한 오브젝트 채널들(N1 및 N2) 중 적어도 하나의 콘텐트와 믹싱된 오브젝트 채널(N0)의 콘텐트를 포함하는 사용자 선택 가능한 프리셋 믹스가 오브젝트 채널(N1)의 콘텐트와 믹싱된 오브젝트 채널(N0)의 콘텐트를 포함해야 하거나, 또는 그것이 오브젝트 채널(N2)의 콘텐트와 믹싱된 오브젝트 채널(N0)의 콘텐트를 포함해야 한다는 규칙(예로서, 프로그램의 메타데이터에 의해 결정된, 도 9에 나타낸 조건 규칙("C1"))을 실행할 수 있다.

재생 시스템은 또한 오브젝트 채널들(N3 및 N4) 중 적어도 하나의 콘텐트를 포함하는 각각의 사용자 선택 가능한 프리셋 믹스가 단독으로 오브젝트 채널(N3)의 콘텐트 만을 포함해야 하거나, 또는 그것이 오브젝트 채널(N4)의 콘텐트만을 포함해야 한다는 규칙(예로서, 프로그램의 메타데이터에 의해 결정된, 도 9에 나타낸 조건 규칙("C2"))을 실행할 수 있다.

본 발명의 일부 실시예들은 오브젝트 기반 오디오 프로그램의 오브젝트 채널들의 조건적 디코딩(및/또는 렌더링)을 실행한다. 예를 들면, 재생 시스템은 오브젝트 채널들이 재생 환경 또는 사용자의 권한에 기초하여 조건부로 디코딩되도록 허용하기 위해 구성될 수 있다. 예를 들면, DRM 계층이 고객들로 하여금 오브젝트 기반 오디오 프로그램에 포함된 오디오 오브젝트 채널들의 세트로의 "티어드" 액세스를 갖도록 허용하기 위해 실행된다면, 재생 시스템은 재생 시스템이 사용자가 적어도 하나의 조건(예로서, 특정한 양의 돈을 콘텐트 제공자에게 지불하는)을 만족한다고 통지받지 않는다면 오브젝트들 중 일부의 렌더링을 위한 디코딩 및 선택을 방지하도록 자동으로 구성될 수 있다(프로그램의 메타데이터에 포함된 제어 비트들에 의해). 예를 들면, 사용자는 도 9의 프로그램(P0)의 "공식 해설" 오브젝트 채널(N3)을 청취하기 위해 권한을 구매할 필요가 있으며, 재생 시스템은 재생 시스템이 재생 시스템의 사용자가 필요한 권한을 구매하였다고 통지받지 않는다면 오브젝트 채널(N3)이 선택될 수 없도록 도 9에 나타낸 조건 규칙("C2")을 실행할 수 있다.

또 다른 예에 대해, 재생 시스템은 재생 스피커 어레이가 조건을 충족하지 않는다면 오브젝트들 중 일부의 디코딩 및 선택을 방지하도록 자동으로 구성될 수 있다(이용 가능한 재생 스피커 어레이의 특정 포맷을 나타내는, 프로그램의 메타데이터에 포함된 제어 비트들에 의해)(예로서, 재생 시스템은 재생 시스템이 5.1 스피커 어레이가 선택된 콘텐트를 렌더링하기 위해 이용 가능하다는 것을 통지받지 않았지만, 단지 이용 가능한 스피커 어레이가 2.0 스피커 어레이라면 오브젝트 채널들(N0 및 N1)의 프리셋 믹스가 선택될 수 없도록 도 9에 나타낸 조건 규칙("C1")을 실행할 수 있다).

일부 실시예들에서, 본 발명은 규칙 기반 오브젝트 채널 선택을 실행하며, 여기에서 적어도 하나의 미리 결정된 규칙은 오브젝트 기반 오디오 프로그램의 어떤 오브젝트 채널(들)이 (예로서, 스피커 채널들의 베드로) 렌더링되는지를 결정한다. 사용자는 또한 오브젝트 채널 선택에 대한 적어도 하나의 규칙을 특정할 수 있으며(예로서, 재생 시스템 제어기의 사용자 인터페이스에 의해 제공된 이용 가능한 규칙들의 메뉴로부터 선택함으로써), 재생 시스템(예로서, 도 6 시스템의 오브젝트 프로세싱 서브시스템(22))은 렌더링될 오브젝트 기반 오디오 프로그램의 어떤 오브젝트 채널(들)이 렌더링될 믹스에 포함되어야 하는지를 결정하기 위해(예로서, 도 6 시스템의 서브시스템(24), 또는 서브시스템들(24 및 35)에 의해) 각각의 이러한 규칙을 적용하도록 구성될 수 있다. 재생 시스템은 프로그램의 어떤 오브젝트 채널(들)이 미리 결정된 규칙(들)을 만족하는지를 프로그램에서의 오브젝트 관련 메타데이터로부터 결정할 수 있다.

간단한 예에 대해, 오브젝트 기반 오디오 프로그램이 스포츠 경기를 나타내는 경우를 고려하자. 프로그램에 포함된 오브젝트들의 특정 세트(예로서, 특정 팀으로부터의 라디오 해설, 또는 자동차, 또는 오토바이)의 정적 선택을 수행하기 위해 제어기(예로서, 도 6의 제어기(23))를 조작하는 대신에, 사용자는 규칙을 셋업하도록(예로서, 렌더링을 위해, 어떤 팀, 또는 자동차, 또는 오토바이가 승리하든지 또는 우승하든지를 나타내는 오브젝트 채널들을 자동으로 선택하도록) 제어기를 조작한다. 규칙은 프로그램에 포함된 오브젝트들(오브젝트 채널들)의 상이한 서브세트들(예로서, 일 팀을 나타내는 오브젝트들의 제 1 서브세트, 자동으로 이어서 제 2 팀이 스코어를 만들고 그에 따라 현재 승리 팀이 되는 경우에 대해 제 2 팀을 나타내는 오브젝트들의 제 2 서브세트)의 시퀀스의 동적 선택(단일 프로그램의 렌더링, 또는 상이한 프로그램의 시퀀스 동안)을 실행하기 위해 재생 시스템에 의해 적용된다. 따라서, 일부 이러한 실시예들에서, 실시간 이벤트들은 어떤 오브젝트 채널들이 렌더링된 믹스에 포함되는지를 조종하거나 또는 영향을 준다. 재생 시스템(예로서, 도 6 시스템의 오브젝트 프로세싱 서브시스템(22))은 어떤 오브젝트 채널(들)이 렌더링되기 위해 스피커 및 오브젝트 채널들의 믹스에 포함되어야 하는지를 선택하기 위해 프로그램에 포함된 메타데이터(예로서, 적어도 하나의 대응하는 오브젝트가 현재 승리 팀을 나타내는, 예로서 팀의 팬들의 군중 소리 또는 승리 팀과 연관된 라디오 아나운서의 해설을 나타내는 메타데이터)에 응답할 수 있다. 예를 들면, 콘텐트 생성기는 프로그램의 적어도 일부 오디오 오브젝트 채널들의 각각의 등위 순서(또는 다른 계층)를 나타내는(예로서, 어떤 오브젝트 채널들이 현재 우승한 팀 또는 자동차에 대응하는지, 어떤 오브젝트 채널들이 2등인 팀 또는 자동차에 대응하는지 등을 나타내는) 메타데이터를 포함할 수 있다(오브젝트 기반 오디오 프로그램에). 재생 시스템은 사용자 특정 규칙을 만족하는 오브젝트 채널(들)(예로서, 프로그램의 오브젝트 관련 메타데이터에 의해 표시된 바와 같이, 제 "n" 등인 팀에 관한 오브젝트 채널(들))만을 선택하고 렌더링함으로써 이러한 메타데이터에 응답하도록 구성될 수 있다.

본 발명의 오브젝트 기반 오디오 프로그램의 오브젝트 채널들에 관한 오브젝트 관련 메타데이터의 예들은 (이에 제한되지 않지만): 오브젝트 채널을 어떻게 렌더링할지에 대한 상세한 정보를 나타내는 메타데이터; 동적 시간적 메타데이터(예로서, 오브젝트, 오브젝트 크기, 이득들 등의 패닝에 대한 궤적을 나타내는); 및 오브젝트 채널을 렌더링하기 위해(예로서, 이용 가능한 재생 스피커 어레이의 조직에 대한 지식을 갖고) AVR(또는 본 발명의 시스템의 일부 실행들의 디코딩 및 오브젝트 프로세싱 서브시스템들로부터 아래쪽으로 다른 디바이스 또는 시스템)에 의한 사용을 위한 메타데이터를 포함한다. 이러한 메타데이터는 오브젝트 위치, 이득, 음소거, 또는 다른 렌더링 파라미터들에 대한 제약들, 및/또는 오브젝트들이 어떻게 다른 오브젝트들과 상호작용하는지에 대한 제약들(예로서, 특정 오브젝트가 선택된다고 고려해볼 때 어떤 부가적인 오브젝트들이 선택될 수 있는지에 대한 제약들)을 특정할 수 있으며, 및/또는 디폴트 오브젝트들 및/또는 디폴트 렌더링 파라미터들(다른 오브젝트들 및/또는 렌더링 파라미터들의 사용자 선택의 부재시 사용될)을 특정할 수 있다.

일부 실시예들에서, 본 발명의 오브젝트 기반 오디오 프로그램의 적어도 일부 오브젝트 관련 메타데이터(및 선택적으로 또한 오브젝트 채널들 중 적어도 일부)는 스피커 채널들의 프로그램의 베드 및 종래의 메타데이터로부터 별개의 비트스트림 또는 다른 컨테이너에서(예로서, 사용자가 수신 및/또는 사용하기 위해 별도의 비용을 지불하도록 요구할 수 있는 사이드 믹스로서) 전송된다. 이러한 오브젝트 관련 메타데이터(또는 오브젝트 관련 메타데이터 및 오브젝트 채널들)에 대한 액세스 없이, 사용자는 스피커 채널들의 베드를 디코딩하며 렌더링할 수 있지만, 프로그램의 오디오 오브젝트들을 선택할 수 없으며 스피커 채널 베드에 의해 표시된 오디오와의 믹스에서 프로그램의 오디오 오브젝트들을 렌더링할 수 없다. 본 발명의 오브젝트 기반 오디오 프로그램의 각각의 프레임은 다수의 오브젝트 채널들의 오디오 콘텐트 및 대응하는 오브젝트 관련 메타데이터를 포함할 수 있다.

본 발명의 일부 실시예들에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 계층화된 그래프(때때로 계층화된 "믹스 그래프"로서 불리는)를 나타내는 메타데이터를 포함한다. 예를 들면, 믹스 그래프는 스피커 및 오브젝트 채널들의 서브세트들의 선택에 적용 가능한 각각의 규칙을 나타낸다. 통상적으로, 인코딩된 오디오 비트스트림은 프로그램의 오디오 콘텐트(예로서, 스피커 채널들의 베드 및 프로그램의 오브젝트 채널들 중 적어도 일부) 및 오브젝트 관련 메타데이터(믹스 그래프를 나타내는 메타데이터를 포함한) 중 적어도 일부(즉, 적어도 부분)를 나타내며, 선택적으로 또한 적어도 하나의 부가적인 인코딩된 오디오 비트스트림 또는 파일은 프로그램의 오디오 콘텐트 및/또는 오브젝트 관련 메타데이터 중 일부를 나타낸다.

계층화된 믹스 그래프는 노드들(그 각각은 선택 가능한 채널 또는 채널들의 세트, 또는 선택 가능한 채널들 또는 채널들의 세트의 카테고리를 나타낼 수 있다) 및 노드들 사이에서의 연결들(예로서, 채널들을 선택하기 위한 규칙들 및/또는 노드들에 대한 제어 인터페이스들)을 나타내며, 필수적인 데이터("기본" 층) 및 선택적(즉, 선택적으로 생략된) 데이터(적어도 하나의 "확장" 층)를 포함한다. 통상적으로, 계층화된 믹스 그래프는 프로그램을 나타내는 인코딩된 오디오 비트스트림(들) 중 하나에 포함되며, 채널들의 디폴트 믹스 및 상기 디폴트 믹스를 변경하기 위한 옵션들을 결정하기 위해 그래프 탐색(재생 시스템, 예로서 최종 사용자의 재생 시스템에 의해 실행된)에 의해 평가될 수 있다.

믹스 그래프가 트리 그래프로서 표현 가능한 경우에, 기본 층은 트리 그래프의 브랜치(또는 둘 이상의 브랜치들)일 수 있으며, 각각의 확장 층은 트래 그래프의 또 다른 브랜치(또는 또 다른 세트의 둘 이상의 브랜치들)일 수 있다. 예를 들면, 트리 그래프(기본 층에 의해 표시된)의 일 브랜치는 모든 최종 사용자들에게 이용 가능한 선택 가능한 채널들 및 채널들의 세트들을 나타낼 수 있으며, 트리 그래프(확장 층에 의해 표시된)의 또 다른 브랜치는 일부 최종 사용자들에게만 이용 가능한 부가적인 선택 가능한 채널들 및/또는 채널들의 세트들을 나타낼 수 있다(예로서, 이러한 확장 층은 단지 그것을 사용하도록 인가된 최종 사용자들에게만 제공될 수 있다). 도 9는 오브젝트 채널 노드들(예로서, 오브젝트 채널들(N0, N1, N2, N3, N4, N5, 및 N6)을 나타내는 노드들) 및 믹스 그래프의 다른 요소들을 포함하는 트리 그래프의 예이다.

통상적으로 기본 층은 그래프 구조 및 그래프의 노드들에 대한 제어 인터페이스들(예로서, 패닝, 및 이득 제어 인터페이스들)을 포함한다(나타낸다). 기본 층은 디코딩/렌더링 프로세스에 임의의 사용자 상호 작용을 매핑시키기 위해 필요하다.

각각의 확장 층은 기본 층에 대한 확장을 포함한다(나타낸다). 확장들은 디코딩 프로세스에 사용자 상호작용을 매핑시키기 위해 즉시 필요하지 않으며 따라서 보다 느린 레이트로 송신되고 및/또는 지연되거나, 또는 생략될 수 있다.

일부 실시예들에서, 기본 층은 프로그램의 독립 서브스트림의 메타데이터로서 포함된다(예로서, 독립 서브스트림의 메타데이터로서 송신된다).

본 발명의 일부 실시예들에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 믹스 그래프(계층화된 믹스 그래프이거나 또는 그것이 아닐 수 있는)를 나타내는 메타데이터를 포함한다. 인코딩된 오디오 비트스트림(예로서, 돌비 E 또는 E-AC-3 비트스트림)은 프로그램의 적어도 일 부분을 나타내며, 믹스 그래프를 나타내는 메타데이터(및 통상적으로 또한 선택 가능한 오브젝트 및/또는 스피커 채널들)는 비트스트림의 모든 프레임에(또는 비트스트림의 프레임들의 서브세트의 각각의 프레임에) 포함된다. 예를 들면, 각각의 프레임은 적어도 하나의 메타데이터 세그먼트 및 적어도 하나의 오디오 데이터 세그먼트를 포함할 수 있으며, 믹스 그래프는 각각의 프레임의 적어도 하나의 메타데이터 세그먼트에 포함될 수 있다. 각각의 메타데이터 세그먼트("컨테이너"로서 불릴 수 있는)는 메타데이터 세그먼트 헤더(및 선택적으로 또한 다른 요소들), 및 메타데이터 세그먼트 헤더를 따르는 하나 이상의 메타데이터 페이로드들을 포함하는 포맷을 가질 수 있다. 각각의 메타데이터 페이로드는 페이로드 헤더에 의해 자체 식별된다. 믹스 그래프는, 메타데이터 세그먼트에 존재한다면, 메타데이터 세그먼트의 메타데이터 페이로드들 중 하나에 포함된다.

일부 실시예들에서, 본 발명에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 두 개의 베드들, 적어도 하나의 오브젝트 채널, 및 믹스 그래프(계층화된 믹스 그래프이거나 또는 아닐 수 있는)를 나타내는 메타데이터를 포함한다. 믹스 그래프는 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들을 나타내며, 적어도 하나의 "베드 믹스" 노드를 포함한다. 각각의 "베드 믹스" 노드는 스피커 채널 베드들의 미리 결정된 믹스를 정의하며, 따라서 프로그램의 둘 이상의 스피커 베드들의 스피커 채널들을 믹싱하기 위해 (선택적으로 사용자-선택 가능한 파라미터들로) 미리 결정된 세트의 믹싱 규칙들을 표시하거나 또는 실행한다.

오디오 프로그램이 경기장에서 팀 A(홈 팀) 및 팀 B 사이에서의 축구(풋볼) 경기와 연관되며, 경기장에서의 전체 군중에 대한 5.1 스피커 채널 베드(마이크로폰 피드들에 의해 결정된), 팀 A를 향해 편향된 군중의 부분에 대한 스테레오 피드(즉, 팀 A의 팬들에 의해 주로 점유된 경기장의 섹션에 앉은 관중들로부터 캡처된 오디오), 및 팀 B를 향해 편향된 군중의 부분에 대한 또 다른 스테레오 피드(즉, 팀 B의 팬들에 의해 주로 점유된 경기장의 섹션에 앉은 관중들로부터 캡처된 오디오)를 포함하는 예를 고려하자. 4개의 5.1 스피커 채널 베드들("팬 구역" 베드들로서 불릴 수 있는)을 생성하기 위해 믹싱 콘솔에 대한 이들 3개의 피드들(5.1 채널 중립 베드, 2.0 채널 "팀 A" 베드, 및 2.0 채널 "팀 B" 베드)을 믹싱하는 것이 가능하다: 편향되지 않음, 홈 편향됨(주립 및 팀 A 베드들의 믹스), 원정 편향됨(중립 및 팀 B 베드들의 믹스), 및 반대(룸의 일 측면으로 패닝된 팀 A 베드와, 및 룸의 반대 측면으로 패닝된 팀 B 베드와 믹싱된, 중립 베드). 그러나, 4개의 믹싱된 5.1 채널 베드들을 송신하는 것은 비트레이트에 대해 값비싸다. 따라서, 본 발명의 비트스트림의 실시예는 사용자 믹스 선택(들)에 기초하여 재생 시스템(예로서, 최종 사용자의 홈에서)에 의해 실행될 베드 믹싱 규칙들을 특정한 메타데이터(스피커 채널 베드들의 믹싱을 위해, 예로서 4개의 주지된 믹싱된 5.1 채널 베드들을 생성하기 위해), 뿐만 아니라 규칙들에 따라 믹싱될 수 있는 스피커 채널 베드들(예로서, 원래 5.1 채널 베드 및 두 개의 편향된 스테레오 스피커 채널 베드들)을 포함한다. 믹스 그래프의 베드 믹스 노드에 응답하여, 재생 시스템은 4개의 주지된 믹싱된 5.1 채널 베드들 중 하나를 선택하기 위해 사용자에게 옵션을 제공할 수 있다(예로서, 도 6 시스템의 제어기(23)에 의해 실행된 사용자 인터페이스를 통해 디스플레이되는). 이러한 믹싱된 5.1 채널 베드의 사용자 선택에 응답하여, 재생 시스템(예로서, 도 6 시스템의 서브시스템(22))은 비트스트림에서 송신된 (믹싱되지 않은) 스피커 채널 베드들을 사용하여 선택된 믹스를 생성할 것이다.

일부 실시예들에서, 베드 믹싱 규칙들은 다음의 동작들(미리 결정된 파라미터들 또는 사용자-선택 가능한 파라미터들을 가질 수 있는)을 고려한다:

베드 "회전"(즉, 스피커 채널 베드를 좌측, 우측, 전방 또는 후방으로 패닝하는). 예를 들면, 상기-언급된 '반대' 믹스를 생성하기 위해, 스테레오 팀 A 베드는 재생 스피커 어레이의 좌측 측면으로 회전될 것이며(팀 A 베드의 L 및 R 채널들은 재생 시스템의 L 및 Ls 채널들에 매핑된다) 스테레오 팀 B 베드는 재생 스피커 어레이의 우측 측면으로 회전될 것이다(팀 B 베드의 L 및 R 채널들은 재생 시스템의 R 및 Rs 채널들에 매핑된다). 따라서, 재생 시스템의 사용자 인터페이스는 4개의 상기-언급된 "편향되지 않은", "홈 편향된", "원정 편향된" 및 "반대" 베드 믹스들 중 하나의 선택을 최종 사용자에게 제공할 수 있으며, "반대" 베드 믹스의 사용자 선택 시, 재생 시스템은 "반대" 베드 믹스의 렌더링 동안 적절한 베드 회전을 실행할 것이다; 및

베드 믹스(통상적으로, 헤드룸을 만들기 위해)에서의 특정 스피커 채널들(타겟 채널들)의 덕킹(ducking)(즉, 감쇠). 예를 들면, 상기-언급된 축구 경기 예에서, 재생 시스템의 사용자 인터페이스는 4개의 상기-언급된 "편향되지 않은", "홈 편향된", "원정 편향된" 및 "반대" 베드 믹스들 중 하나의 선택을 사용자에게 제공할 수 있으며, "반대" 베드 믹스의 사용자 선택에 응답하여, 재생 시스템은 "반대" 베드 믹스를 생성하기 위해 스테레오 "팀 A" 및 "팀 B" 베드들과 감소된 5.1 채널 베드를 믹싱하기 전에 미리 결정된 양(비트스트림에서 메타데이터에 의해 특정된)만큼 중립 5.1 채널 베드의 L, Ls, R, 및 Rs 채널들의 각각을 덕킹(감쇠)함으로써 "반대" 베드 믹스의 렌더링 동안 타겟 덕킹을 실행할 수 있다.

실시예들의 또 다른 클래스에서, 본 발명에 따라 생성된(또는 송신된, 저장된, 버퍼링된, 디코딩된, 렌더링된, 또는 그 외 프로세싱된) 오브젝트 기반 오디오 프로그램은 서브스트림들을 포함하며, 서브스트림들은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 오브젝트 관련 메타데이터를 나타낸다. 오브젝트 관련 메타데이터는 "서브스트림" 메타데이터(서브스트림들이 디코딩되어야 하는 방식 및/또는 프로그램의 서브스트림 구조를 나타내는) 및 통상적으로 또한 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들(예로서, 모든 선택 가능한 믹스들)을 나타내는 믹스 그래프를 포함한다. 서브스트림 메타데이터는 프로그램의 어떤 서브스트림들이 프로그램의 다른 서브스트림들에 독립적으로 디코딩되어야 하는지, 및 프로그램의 어떤 서브스트림들이 프로그램의 적어도 하나의 다른 서브스트림과 연관되어 디코딩되어야 하는지를 나타낼 수 있다.

예를 들면, 일부 실시예들에서, 인코딩된 오디오 비트스트림은 프로그램의 오디오 콘텐트(예로서, 스피커 채널들의 적어도 하나의 베드 및 프로그램의 오브젝트 채널들의 적어도 일부) 및 메타데이터(예로서, 믹스 그래프 및 서브스트림 메타데이터, 및 선택적으로 또한 다른 메타데이터) 중 적어도 일부(즉, 적어도 부분)를 나타내며, 적어도 하나의 부가적인 인코딩된 오디오 비트스트림(또는 파일)은 프로그램의 오디오 콘텐트 및/또는 메타데이터 중 일부를 나타낸다. 비트스트림들의 각각이 돌비 E 비트스트림인(또는 AES 직렬 디지털 오디오 비트스트림에서 비-pcm(non-pcm) 데이터를 운반하기 위한 SMPTE 337 포맷과 일치하는 방식으로 인코딩되는) 경우에, 비트스트림은 총괄하여 오디오 콘텐트의 8개까지의 채널들의 배수들을 나타낼 수 있으며, 각각의 비트스트림은 8개 채널들까지의 오디오 데이터를 운반하며 통상적으로 또한 메타데이터를 포함한다. 비트스트림들의 각각은 비트스트림들 모두에 의해 운반된 메타데이터 및 오디오 데이터 모두를 나타내는 조합된 비트스트림의 서브스트림으로 고려될 수 있다.

또 다른 예에 대해, 일부 실시예들에서, 인코딩된 오디오 비트스트림은 메타데이터의 다수의 스트림들(예로서, 믹스 그래프 및 서브스트림 메타데이터, 및 선택적으로 또한 다른 오브젝트 관련 메타데이터) 및 적어도 하나의 오디오 프로그램의 오디오 콘텐트를 나타낸다. 통상적으로, 서브스트림들의 각각은 프로그램의 채널들(및 통상적으로 또한 메타데이터) 중 하나 이상을 나타낸다. 일부 경우들에서, 인코딩된 오디오 비트스트림의 다수의 서브스트림들은 여러 개의 오디오 프로그램들, 예로서 "메인" 오디오 프로그램(다채널 프로그램일 수 있는)의 오디오 콘텐트 및 적어도 하나의 다른 오디오 프로그램(예로서, 메인 오디오 프로그램에 대한 해설인 프로그램)을 나타낸다.

적어도 하나의 오디오 프로그램을 나타내는 인코딩된 오디오 비트스트림은 반드시 오디오 콘텐트의 적어도 하나의 "독립" 서브스트림을 포함한다. 독립 서브스트림은 오디오 프로그램의 적어도 하나의 채널을 나타낸다(예로서, 독립 서브스트림은 종래의 5.1 채널 오디오 프로그램의 5개의 전체 범위 채널들을 나타낼 수 있다). 여기에서, 이러한 오디오 프로그램은 "메인" 프로그램으로 불린다.

일부 경우들에서, 인코딩된 오디오 비트스트림은 둘 이상의 오디오 프로그램들("메인" 프로그램 및 적어도 하나의 다른 오디오 프로그램)을 나타낸다. 이러한 경우들에서, 비트스트림은 둘 이상의 독립 서브스트림들을 포함한다: 메인 프로그램의 적어도 하나의 채널을 나타내는 제 1 독립 서브스트림; 및 또 다른 오디오 프로그램(메인 프로그램과 다른 프로그램)의 적어도 하나의 채널을 나타내는 적어도 하나의 다른 독립 서브스트림. 각각의 독립 서브스트림은 독립적으로 인코딩될 수 있으며, 디코더는 인코딩된 비트스트림의 독립 서브스트림들의 서브세트(모두가 아닌)만을 디코딩하도록 동작할 수 있다.

선택적으로, 메인 프로그램(및 선택적으로 또한 적어도 하나의 다른 오디오 프로그램)을 나타내는 인코딩된 오디오 비트스트림은 오디오 콘텐트의 적어도 하나의 "독립" 서브스트림을 포함한다. 각각의 독립 서브스트림은 비트스트림의 하나의 독립 서브스트림과 연관되며, 콘텐트가 연관된 독립 서브스트림에 의해 표시되는 프로그램(예로서, 메인 프로그램)의 적어도 하나의 부가적인 채널을 나타낸다(즉, 종속 서브스트림은 연관된 독립 서브스트림에 의해 나타나지 않는 프로그램의 적어도 하나의 채널을 나타내며, 연관된 독립 서브스트림은 프로그램의 적어도 하나의 채널을 나타낸다).

독립 서브스트림(메인 프로그램의 적어도 하나의 채널을 나타내는)을 포함하는 인코딩된 비트스트림의 예에서, 비트스트림은 또한 메인 프로그램의 하나 이상의 부가적인 스피커 채널들을 나타내는 종속 서브스트림(독립 서브스트림과 연관된)을 포함한다. 이러한 부가적인 스피커 채널들은 독립 서브스트림에 의해 표시된 메인 프로그램 채널(들)에 부가적이다. 예를 들면, 독립 서브스트림이 7.1 채널 메인 프로그램의 표준 포맷 좌측, 우측, 중심, 좌측 서라운드, 우측 서라운드 전체 범위 스피커 채널들을 나타낸다면, 종속 서브스트림은 메인 프로그램의 두 개의 다른 전체 범위 스피커 채널들을 나타낼 수 있다.

E-AC-3 표준에 따르면, 종래의 E-AC-3 비트스트림은 적어도 하나의 독립 서브스트림(예로서, 단일 AC-3 비트스트림)을 표시해야 하며, 8개까지의 독립 서브스트림들을 나타낼 수 있다. E-AC-3 비트스트림의 각각의 독립 서브스트림은 8개까지의 종속 서브스트림들과 연관될 수 있다.

예시적인 실시예(도 11을 참조하여 설명될)에서, 오브젝트 기반 오디오 프로그램은 스피커 채널들의 적어도 하나의 베드, 적어도 하나의 오브젝트 채널, 및 메타데이터를 포함한다. 메타데이터는 "서브스트림" 메타데이터(프로그램의 오디오 콘텐트의 서브스트림들이 디코딩되어야 하는 방식 및/또는 프로그램의 오디오 콘텐트의 서브스트림 구조를 나타내는) 및 통상적으로 또한 스피커 채널들 및 오브젝트 채널(들)의 선택 가능한 믹스들을 나타내는 믹스 그래프를 포함한다. 오디오 프로그램은 축구 경기와 연관된다. 인코딩된 오디오 비트스트림(예로서, E-AC-3 비트스트림)은 프로그램의 오디오 콘텐트 및 메타데이터를 나타낸다. 프로그램의(및 따라서 비트스트림의) 오디오 콘텐트는 도 11에 나타낸 바와 같이, 4개의 독립 서브스트림들을 포함한다. 하나의 독립 서브스트림(도 11에서 서브스트림("I0")으로서 라벨링된)은 축구 경기에서 중립 군중 소리를 나타내는 5.1 스피커 채널 베드를 나타낸다. 또 다른 독립 서브스트림(도 11에서 서브스트림("I1")로서 라벨링된)은 하나의 팀("팀 A")을 향해 편향된 경기 군중의 부분으로부터의 사운드를 나타내는 2.0 채널 "팀 A" 베드("M 군중"), 다른 팀("팀 B")을 향해 편향된 경기 군중의 부분으로부터의 사운드를 나타내는 2.0 채널 "팀 B" 베드("LivP 군중"), 및 경기에 대한 해설을 나타내는 모노포닉 오브젝트 채널("Sky comm 1")을 나타낸다. 제 3 독립 서브스트림(도 11에서 서브스트림("I2")으로서 라벨링된)은 그것이 축구 경기 이벤트 참가자들에 의해 쳐진 것처럼 경기 볼에 의해 생성된 사운드를 나타내는 오브젝트 채널 오디오 콘텐트("2/0 볼 킥"으로 라벨링된), 및 각각이 축구 경기에 대한 상이한 해설을 나타내는 3개의 오브젝트 채널들("Sky comm 2", "Man comm", 및 "Liv Comm")을 나타낸다. 제 4 독립 서브스트림(도 11에서 서브스트림("I3")으로 라벨링된)은 축구 경기에서 경기장 전관 방송 시스템에 의해 생성된 사운드를 나타내는 오브젝트 채널("PA"로 라벨링된), 축구 경기의 라디오 방송을 나타내는 오브젝트 채널("라디오"로 라벨링된), 및 축구 경기 동안 골의 득점을 나타내는 오브젝트 채널("골 플래시"로 라벨링된)을 나타낸다.

도 11 예에서, 서브스트림(I0)은 서브스트림 메타데이터 및 적어도 일부 오브젝트 채널 관련 메타데이터의 적어도 일부를 포함한 프로그램 및 메타데이터("obj md")에 대한 믹스 그래프를 포함한다. 서브스트림들(I1, I2, 및 I3)의 각각은 메타데이터("obj md") 적어도 일부 오브젝트 채널 관련 메타데이터 및 선택적으로 적어도 일부 서브스트림 메타데이터를 포함한다.

도 11 예에서, 비트스트림의 서브스트림 메타데이터는 디코딩 동안, 결합이 독립 서브스트림들의 각각의 쌍 사이에서 "오프"이어야 함을(각각의 독립 서브스트림이 다른 독립 서브스트림들에 독립적으로 디코딩되도록) 나타내며, 비트스트림의 서브스트림 메타데이터는 결합이 "온"(이들 채널들이 서로 독립적으로 디코딩되지 않도록) 또는 "오프"(이들 채널들이 서로 독립적으로 디코딩되도록)이어야 하는 각각의 서브스트림 내에서 프로그램 채널들을 나타낸다. 예를 들면, 서브스트림 메타데이터는 결합이 서브스트림(I1)의 두 개의 스테레오 스피커 채널 베드들(2.0 채널 "팀 A" 베드 및 2.0 채널 "팀 B" 베드)의 각각의 내부에서 "온"이어야 하지만 서브스트림(I1)의 스피커 채널 베드들에 걸쳐 및 모노포닉 오브젝트 채널 및 서브스트림(I1)의 스피커 채널 베드들의 각각 사이에서 불능됨을(모노포닉 오브젝트 채널 및 스피커 채널 베드들이 서로 독립적으로 디코딩되게 하는) 나타낸다. 유사하게, 서브스트림 메타데이터는 결합이 서브스트림(I0)의 5.1 스피커 채널 베드의 내부에서 "온"이어야 함을 나타낸다(이러한 베드의 스피커 채널들이 서로에 관련하여 디코딩되게 하기 위해).

일부 실시예들에서, 스피커 채널들 및 오브젝트 채널들은 프로그램의 믹스 그래프에 적절한 방식으로 오디오 프로그램의 서브스트림들 내에 포함("패킹")된다. 예를 들면, 믹스 그래프가 트리 그래프이면, 그래프의 하나의 브랜치의 모든 채널들은 하나의 서브스트림 내에 포함될 수 있으며, 그래프의 또 다른 브랜치의 모든 채널들은 또 다른 서브스트림 내에 포함될 수 있다.

실시예들의 클래스에서, 본 발명은 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법이며, 상기 방법은:

캡처된 오디오 콘텐트(예로서, 도 8 시스템의 마이크로폰들의 출력들, 또는 도 10 시스템의 서브시스템(210)으로의 입력)를 나타내는 오디오 신호들의 세트의 제 1 서브세트의 오디오 콘텐트를 나타내는 스피커 채널들의 베드를 결정하는 단계;

상기 오디오 신호들의 세트의 제 2 서브세트의 오디오 콘텐트를 나타내는 오브젝트 채널들의 세트를 결정하는 단계;

상기 오브젝트 채널들을 나타내는 오브젝트 관련 메타데이터를 생성하는 단계; 및

상기 오브젝트 기반 오디오 프로그램이 상기 스피커 채널들의 베드, 상기 오브젝트 채널들, 및 상기 오브젝트 관련 메타데이터를 나타내며, 상기 스피커 채널들에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스로서 지각된 사운드를 제공하기 위해 렌더링 가능하도록, 상기 제 2 오디오 콘텐트가 상기 오브젝트 채널들의 선택된 서브세트에 의해 결정된 소스 위치들로부터 방출하는 것으로서 지각되도록, 상기 오브젝트 기반 오디오 프로그램을 생성하는 단계를 포함한다. 통상적으로, 오브젝트 관련 메타데이터의 적어도 일부(즉, 적어도 부분)는 오브젝트 채널들의 적어도 일부의 각각의 식별을 나타내고, 및/또는 오브젝트 관련 메타데이터의 적어도 일부는 상기 오브젝트 채널들의 세트의 서브세트의 최종 사용자 선택의 부재시 렌더링될 오브젝트 채널들의 세트의 디폴트 서브세트를 나타낸다. 클래스에서 일부 실시예들은 또한 오디오 콘텐트(예로서, 관중 이벤트에서)를 캡처하는 것을 포함하여, 오디오 신호들의 세트를 생성하는 단계를 포함한다.

실시예들의 또 다른 클래스에서, 본 발명은 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법이며, 상기 프로그램이 스피커 채널들의 베드, 오브젝트 채널들의 세트, 및 오브젝트 관련 메타데이터를 나타내는, 상기 방법은:

(a) 상기 오브젝트 채널들의 세트의 선택된 서브세트를 결정하는 단계;

(b) 상기 스피커 채널들의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스를 결정하는 것을 포함하여, 상기 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 단계를 포함한다.

일부 실시예들에서, 방법들은 스피커들의 세트를 포함한 재생 시스템에 의해 수행되며, (b) 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 믹스에 응답하여, 사운드를 방출하도록 스피커들의 세트를 구동하기 위한 스피커 피드들을 생성하는 단계를 포함하며, 상기 사운드는 상기 제 2 오디오 콘텐트를 나타내는 오브젝트 채널 사운드를 포함하고, 상기 오브젝트 채널 사운드는 오브젝트 채널들의 선택된 서브세트에 의해 결정된 겉보기 소스 위치들로부터 방출하는 것으로서 지각 가능하다. 스피커 채널들의 베드는 스피커들의 세트에서 각각의 스피커에 대한 스피커 채널을 포함할 수 있다.

도 10은 본 발명의 실시예를 실행하는 시스템의 블록도이다.

도 10 시스템의 오브젝트 프로세싱 시스템(오브젝트 프로세서)(200)은 도시된 바와 같이 결합된, 메타데이터 생성 서브시스템(210), 메자닌(mezzanine) 인코더(212), 및 에뮬레이션 서브시스템(211)을 포함한다. 메타데이터 생성 서브시스템(210)은 캡처된 오디오 스트림들(예로서, 군중 이벤트에 위치된 마이크로폰들에 의해 캡처된 사운드, 및 선택적으로 또한 다른 오디오 스트림들을 나타내는 스트림들)을 수신하도록 결합되며, 콘솔(104)로부터 스피커 채널들의 베드 및 다수의 오브젝트 채널들 및/또는 오브젝트 채널들의 세트들로 오디오 스트림들을 조직(예로서, 그룹핑)하도록 구성된다. 서브시스템(210)은 또한 오브젝트 채널들(및/또는 오브젝트 채널 세트들)을 나타내는 오브젝트 관련 메타데이터를 생성하도록 구성된다. 인코더(212)는 오브젝트 채널들(및/또는 오브젝트 채널 세트들), 오브젝트 관련 메타데이터, 및 스피커 채널 베드를 메자닌 유형 오브젝트 기반 오디오 프로그램(예로서, 돌비 E 비트스트림으로서 인코딩된 오브젝트 기반 오디오 프로그램)으로 인코딩하도록 구성된다.

오브젝트 프로세서(200)의 에뮬레이션 서브시스템(211)은 재생된 사운드가 서브시스템(200)의 운영자(들)에 의해 모니터링될 수 있도록 오브젝트 채널들(및/또는 오브젝트 채널 세트들) 및 스피커 채널 베드의 적어도 선택된 서브세트를 렌더링(및 스튜디오 모니터 스피커들의 세트 상에서 플레이하는)하도록 구성된다(선택된 오브젝트 채널(들) 및 스피커 채널들을 나타내는 믹스를 생성하기 위해 오브젝트 관련 메타데이터를 사용하는 것을 포함하여).

도 10 시스템의 트랜스코더(202)는 도시된 바와 같이 결합된, 메자닌 디코더 서브시스템(메자닌 디코더)(213), 및 인코더(214)를 포함한다. 메자닌 디코더(213)는 오브젝트 프로세서(200)로부터 출력된 메자닌 유형 오브젝트 기반 오디오 프로그램을 수신 및 디코딩하도록 결합되며 구성된다. 디코더(213)의 디코딩된 출력은 인코더(214)에 의해 방송에 적합한 포맷으로 재-인코딩된다. 일 실시예에서, 인코더(214)로부터 출력된 인코딩된 오브젝트 기반 오디오 프로그램은 E-AC-3 비트스트림이다(및 따라서 인코더(214)는 도 10에서 "DD+인코더"로서 라벨링된다). 다른 실시예들에서, 인코더(214)로부터 출력된 인코딩된 오브젝트 기반 오디오 프로그램은 AC-3 비트스트림이거나 또는 일부 다른 포맷을 가진다. 트랜스코더(202)의 오브젝트 기반 오디오 프로그램 출력은 다수의 최종 사용자들로 방송(또는 그 외 전달)된다.

디코더(204)는 하나의 이러한 최종 사용자의 재생 시스템에 포함된다. 디코더(204)는 도시된 바와 같이 결합된, 디코더(215) 및 렌더링 서브시스템(렌더러)(216)을 포함한다. 디코더(215)는 트랜스코더(202)로부터 전달된 오브젝트 기반 오디오 프로그램을 수용(수신 또는 판독)하며 디코딩한다. 디코더(215)가 본 발명의 통상적인 실시예에 따라 구성된다면, 통상적인 동작에서 디코더(215)의 출력은: 스피커 채널들의 프로그램의 베드를 나타내는 오디오 샘플들의 스트림들, 및 프로그램의 오브젝트 채널들(예로서, 사용자-선택 가능한 오디오 오브젝트 채널들) 및 오브젝트 관련 메타데이터의 대응하는 스트림들을 나타내는 오디오 샘플들의 스트림들. 일 실시예에서, 디코더(215)에 입력된 인코딩된 오브젝트 기반 오디오 프로그램은 E-AC-3 비트스트림이며, 따라서 디코더(215)는 도 10에서 "DD+디코더"로 라벨링된다.

디코더(204)의 렌더러(renderer)(216)는 전달된 프로그램의 디코딩된 스피커 채널들, 오브젝트 채널들, 및 오브젝트 관련 메타데이터를 수신하기 위해(디코더(215)로부터) 결합된 오브젝트 프로세싱 서브시스템을 포함한다. 렌더러(216)는 또한 재생 시스템의 스피커들(도시되지 않음)에 의한 재생을 위해, 오브젝트 프로세싱 서브시스템에 의해 결정된 오디오 콘텐트를 렌더링하도록 구성된 렌더링 서브시스템을 포함한다.

통상적으로, 렌더러(216)의 오브젝트 프로세싱 서브시스템은 프로그램에 의해 표시된 오브젝트 채널들의 전체 세트의 선택된 서브세트, 및 대응하는 오브젝트 관련 메타데이터를 렌더러(216)의 렌더링 서브시스템에 출력하도록 구성된다. 렌더러(216)의 오브젝트 프로세싱 서브시스템은 통상적으로 또한 디코더(215)로부터 변경되지 않은(렌더링 서브시스템에 대해) 디코딩된 스피커 채널들을 통과하도록 구성된다. 오브젝트 프로세싱 서브시스템에 의해 수행된 오브젝트 채널 선택은 예로서, 렌더러(216)가 실행하도록 프로그램되거나 또는 그 외 수행된 사용자 선택(들) 및/또는 규칙들(예로서, 조건들 및/또는 제약들을 나타내는)에 의해, 본 발명의 실시예에 따라 결정된다.

도 10의 요소들(200, 202, 및 204)의 각각(및 도 8의 요소들(104, 106, 108, 및 1100의 각각)은 하드웨어 시스템으로서 실행될 수 있다. 프로세서(200)(또는 프로세서(106))의 이러한 하드웨어 실행의 입력들은 통상적으로 다채널 오디오 디지털 인터페이스("MADI") 입력들일 것이다. 통상적으로, 도 8의 프로세서(106), 및 도 10의 인코더들(212 및 214)의 각각은 프레임 버퍼를 포함한다. 통상적으로, 프레임 버퍼는 인코딩된 입력 오디오 비트스트림을 수신하기 위해 결합된 버퍼 메모리이며, 동작 시 버퍼 메모리는 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장하며(예로서, 비-일시적 방식으로), 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 버퍼 메모리로부터 다운스트림 디바이스 또는 시스템으로 어서팅된다. 또한 통상적으로, 도 10의 디코더들(213 및 215)의 각각은 프레임 버퍼를 포함한다. 통상적으로, 이러한 프레임 버퍼는 인코딩된 입력 오디오 비트스트림을 수신하기 위해 결합된 버퍼 메모리이며, 동작 시 버퍼 메모리는 디코더(213 또는 215)에 의해 디코딩될 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장한다(예로서, 비-일시적 방식으로).

도 8의 프로세서(106)의 구성요소들 또는 요소들(또는 도 10의 서브시스템들(200, 202, 및/또는 204) 중 임의의 것은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합으로, 하나 이상의 프로세스들 및/또는 하나 이상의 회로들(예로서, ASIC들, FPGA들, 또는 다른 집적 회로들)로서 실행될 수 있다.

본 발명의 양상은 본 발명의 방법의 임의의 실시예를 수행하도록 구성된 오디오 프로세싱 유닛(APU)이다. APU들의 예들은, 이에 제한되지 않지만, 인코더들(예로서, 트랜스코더들), 디코더들, 코덱들, 전-처리 시스템들(전-처리기들), 후-처리 시스템들(후-처리기들), 오디오 비트스트림 프로세싱 시스템들, 및 이러한 요소들의 조합들을 포함한다.

실시예들의 클래스에서, 본 발명은 본 발명의 방법의 임의의 실시예에 의해 생성된 오브젝트 기반 오디오 프로그램의 적어도 하나의 프레임 또는 다른 세그먼트(스피커 채널들의 베드의 및 오브젝트 채널들의 오디오 콘텐트, 및 오브젝트 관련 메타데이터를 포함한)를 저장하는(예로서, 비-일시적 방식으로) 버퍼 메모리(버퍼)를 포함한 APU이다. 예를 들면, 도 5의 제작 유닛(3)은 버퍼(3A)를 포함할 수 있으며, 이것은 유닛(3)에 의해 생성된 오브젝트 기반 오디오 프로그램의 적어도 하나의 프레임 또는 다른 세그먼트(스피커 채널들의 베드의 및 오브젝트 채널들의 오디오 콘텐트, 및 오브젝트 관련 메타데이터를 포함한)를 저장한다(예로서, 비-일시적 방식으로). 또 다른 예에 대해, 도 5의 디코더(7)는 버퍼(7A)를 포함할 수 있으며, 이것은 서브시스템(5)에서 디코더(7)로 전달된 오브젝트 기반 오디오 프로그램의 적어도 하나의 프레임 또는 다른 세그먼트(스피커 채널들의 베드의 및 오브젝트 채널들의 오디오 콘텐트, 및 오브젝트 관련 메타데이터를 포함한)를 저장한다(예로서, 비-일시적 방식으로).

본 발명의 실시예들은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 그것의 조합으로 실행될 수 있다(예로서, 프로그램 가능한 로직 어레이로서). 예를 들면, 도 8, 또는 도 7 시스템의 서브시스템(106), 또는 도 6 시스템의 요소들(20, 22, 24, 25, 26, 29, 35, 31, 및 35)의 모두 또는 일부, 또는 도 10의 요소들(200, 202, 및 204)의 모두 또는 일부는 적절히 프로그램된(또는 그 외 구성된) 하드웨어 또는 펌웨어에서, 예로서 프로그램된 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서로서 실행될 수 있다. 달리 특정되지 않는다면, 본 발명의 부분으로서 포함된 알고리즘들 또는 프로세스들은 본질적으로 임의의 특정한 컴퓨터 또는 다른 장치에 관련되지 않는다. 특히, 다양한 범용 기계들은 여기에서의 교시들에 따라 기록된 프로그램들과 함께 사용될 수 있거나, 또는 그것은 요구된 방법 단계들을 수행하기 위해 보다 특수화된 장치(예로서, 집적 회로들)를 구성하는 것이 더 편리할 수 있다. 따라서, 본 발명은 각각이 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비-휘발성 메모리 및/또는 저장 요소들을 포함한), 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함한, 하나 이상의 프로그램 가능한 컴퓨터 시스템들(예로서, 도 6의 요소들(20, 22, 24, 25, 26, 29, 35, 31, 및 35)의 모두 또는 일부의 실행) 상에서 실행한 하나 이상의 컴퓨터 프로그램들에 실행될 수 있다. 프로그램 코드는 여기에 설명된 기능들을 수행하도록 데이터를 입력하기 위해 및 출력 정보를 생성하기 위해 적용된다. 출력 정보는 알려진 방식으로, 하나 이상의 출력 디바이스들에 적용된다.

각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 원하는 컴퓨터 언어(기계, 어셈블리, 또는 고 레벨 절차, 논리, 또는 객체 지향 프로그래밍 언어)로 실행될 수 있다. 임의의 경우에, 언어는 컴파일링된 또는 해석된 언어일 수 있다.

예를 들면, 컴퓨터 소프트웨어 지시 시퀀스들에 의해 실행될 때, 본 발명의 실시예들의 다양한 기능들 및 단계들이 적절한 디지털 프로세싱 하드웨어에서 구동하는 다중스레딩(multithreaded) 소프트웨어 지시 시퀀스들에 의해 실행될 수 있으며, 이 경우에 실시예들의 다양한 디바이스들, 단계들, 및 기능들은 소프트웨어 지시들의 부분들에 대응할 수 있다.

각각의 이러한 컴퓨터 프로그램은 바람직하게는 저장 미디어 또는 디바이스가 여기에 설명된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성하며 동작시키기 위해, 일반 또는 특수 목적 프로그램 가능한 컴퓨터에 의해 판독 가능한 저장 미디어 또는 디바이스(예로서, 고체 상태 메모리 또는 미디어, 또는 자기 또는 광학 미디어) 상에 저장되거나 또는 그것으로 다운로딩된다. 본 발명의 시스템은 또한 (즉, 저장한) 컴퓨터 프로그램을 갖고 구성된, 컴퓨터-판독 가능한 저장 매체로서 실행될 수 있으며, 여기에서 그렇게 구성된 저장 매체는 컴퓨터 시스템으로 하여금 여기에 설명된 기능들을 수행하기 위해 특정 및 미리 정의된 방식으로 동작하게 한다.

본 발명의 다수의 실시예들이 설명되었다. 다양한 변경들이 본 발명의 사상 및 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해되어야 한다. 본 발명의 다수의 변경들 및 변화들이 상기 교시들에 비추어 가능하다. 첨부된 청구항들의 범위 내에서, 본 발명은 여기에서 구체적으로 설명된 것과 달리 실시될 수 있다는 것이 이해될 것이다.

1: 캡처 유닛 3: 제작 유닛
5: 전달 서브시스템 7: 디코더
9: 오브젝트 프로세성 서브시스템 10: 제어기
11: 렌더링 서브시스템 20: 디코더
22: 오브젝트 프로세싱 서브시스템 23: 제어기
25: 공간 렌더링 서브시스템 29: 재-인코딩 서브시스템
31, 33: 재-인코딩 서브시스템 35: 다운스트림 렌더링 서브시스템
36: 스피커 어레이 50, 51, 52, 53: 디포맷터
59: 비트스트림 동기화 스테이지 60, 61, 63: 디코더
66: 메타데이터 조합기 67: 오브젝트 프로세싱 및 렌더링 서브시스템
68: 제어기 100, 101, 102, 103: 마이크로폰
104: 오디오 콘솔 106: 오브젝트 프로세싱 서브시스템
108: 내장 서브시스템 110: 인코더
200: 오브젝트 프로세서 202: 트랜스코더
210: 메타데이터 생성 서브시스템 211: 에뮬레이션 서브시스템
212: 메자닌 인코더 213: 디코더
214: 인코더 215: 디코더
216: 렌더러

Claims

오브젝트 기반 오디오 프로그램을 생성하기 위한 방법에 있어서:
캡처된 오디오 콘텐트를 나타내는 오디오 신호들의 세트의 제 1 서브세트의 오디오 콘텐트를 나타내는 스피커 채널들의 적어도 하나의 베드(bed)를 결정하는 단계;
상기 오디오 신호들의 세트의 제 2 서브세트의 오디오 콘텐트를 나타내는 오브젝트 채널들의 세트를 결정하는 단계;
상기 오브젝트 채널들을 나타내는 오브젝트 관련 메타데이터를 생성하는 단계; 및
상기 오브젝트 기반 오디오 프로그램이 상기 스피커 채널들의 각각의 베드, 상기 오브젝트 채널들, 및 상기 오브젝트 관련 메타데이터를 나타내며, 하나의 상기 스피커 채널들의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스(mix)로서 지각된 사운드를 제공하도록 렌더링 가능하게 하여, 상기 제 2 오디오 콘텐트가 상기 오브젝트 채널들의 선택된 서브세트에 의해 결정된 소스 위치들로부터의 방출(emitting)로서 지각되도록, 상기 오브젝트 기반 오디오 프로그램을 생성하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 서브세트의 최종 사용자 선택의 부재시 렌더링될 상기 오브젝트 채널들의 세트의 디폴트 서브세트를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 어떤 오브젝트 채널들이 적어도 하나의 오브젝트 선택 규칙을 만족하는지를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램을 생성하는 단계는 상기 오브젝트 기반 오디오 프로그램이 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스(side mix)를 포함하도록 수행되고, 상기 인코딩된 오디오 비트스트림은 적어도 하나의 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 적어도 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에서의 군중 소리 또는 그에 대한 해설 중 적어도 하나를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 제 1 오디오 콘텐트는 스포츠 경기에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 스포츠 경기에서 홈 팀 군중 소리 또는 원정 팀 군중 소리를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에 대한 해설을 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램의 상기 오브젝트 관련 메타데이터는 지속적 메타데이터 및 비-지속적 메타데이터를 포함하며, 상기 방법은 또한:
적어도 하나의 재생 시스템으로 상기 오브젝트 기반 오디오 프로그램을 전달하는 단계를 포함하며, 상기 비-지속적 메타데이터의 적어도 일 부분은 상기 오브젝트 기반 프로그램을 전달하는 단계 동안 변경되지만, 상기 지속적 메타데이터는 상기 오브젝트 기반 프로그램을 전달하는 단계 동안 보존되는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 8 항에 있어서,
상기 지속적 메타데이터의 적어도 일 부분은 동기화 워드들을 나타내고, 상기 동기화 워드들은 상기 프로그램의 적어도 하나의 다른 요소의 타이밍에 대한 상기 프로그램의 적어도 일부 오디오 콘텐트의 타이밍을 나타내고, 상기 오브젝트 기반 오디오 프로그램은 상기 오브젝트 기반 오디오 프로그램이 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하도록 생성되고, 상기 인코딩된 오디오 비트스트림은 적어도 하나의 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트 및/또는 상기 오브젝트 관련 메타데이터를 나타내고,
상기 동기화 워드들의 제 1 서브세트는 상기 인코딩된 오디오 비트스트림에 포함되며, 상기 동기화 워드들의 제 2 서브세트는 적어도 하나의 상기 사이드 믹스에 포함되는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너(container)인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 각각의 상기 프레임의 보조데이터 필드에 포함되는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 각각의 상기 프레임의 addbsi 필드에 포함되는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 버스트들(bursts)의 시퀀스 및 상기 버스트들의 쌍들 사이에의 보호 대역들(guard bands)을 포함한 돌비 E 비트스트림이고, 상기 보호 대역들의 각각은 세그먼트들의 시퀀스로 이루어지며, 상기 보호 대역들 중 적어도 일부의 각각의 제 1 X 세그먼트들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하며, 상기 X는 숫자(number)인, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법으로서, 상기 프로그램은 스피커 채널들의 적어도 하나의 베드, 오브젝트 채널들의 세트, 및 오브젝트 관련 메타데이를 나타내는, 상기 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법에 있어서:
(a) 상기 오브젝트 채널들의 세트의 선택된 서브세트를 결정하는 단계; 및
(b) 상기 스피커 채널들의 하나의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 세트의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스를 결정하는 것을 포함하여, 상기 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
단계(b)는 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 사용자 선택, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트에 의해 표시된 적어도 하나의 오브젝트에 대한 사용자 특정 이득, 및 상기 오브젝트 채널들의 상기 선택된 서브세트에 의해 표시된 적어도 하나의 오브젝트의 렌더링 환경 내에서의 사용자 특정 위치에 기초하여 상기 오디오 콘텐트를 조건부로 렌더링하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 방법은 스피커들의 세트를 포함한 재생 시스템에 의해 수행되며, 단계(b)는:
상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스에 응답하여, 사운드를 방출하도록 상기 스피커들의 세트를 구동하기 위한 스피커 피드들(speaker feeds)을 생성하는 단계를 포함하며, 상기 사운드는 상기 제 2 오디오 콘텐트를 나타내는 오브젝트 채널 사운드를 포함하며, 상기 오브젝트 채널 사운드는 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트에 의해 결정된 겉보기 소스 위치들(apparent source locations)로부터 방출하는 것으로서 지각 가능한, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
단계(a)는:
선택을 위해 이용 가능한 상기 오브젝트 채널들의 서브세트들의 메뉴를 제공하는 단계; 및
상기 메뉴에 의해 표시된 상기 오브젝트 채널들의 서브세트들 중 하나를 선택함으로써, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트를 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 16 항에 있어서,
상기 메뉴는 제어기의 사용자 인터페이스에 의해 제공되고, 상기 제어기는 셋 탑 디바이스에 결합되며, 상기 셋 탑 디바이스는 상기 오브젝트 기반 오디오 프로그램을 수신하기 위해 결합되며, 단계(b)를 수행하도록 구성되는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 오브젝트 채널들 중 적어도 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트 상에서의 군중 소리 또는 그에 대한 해설 중 적어도 하나를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 제 1 오디오 콘텐트는 스포츠 경기에서의 사운드를 나타내며, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 스포츠 경기에서 홈 팀 군중 소리 또는 원정 팀 군중 소리를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에 대한 해설을 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하고, 상기 인코딩된 오디오 비트스트림은 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들 중 적어도 일부의 각각의 식별을 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 서브세트의 최종 사용자 선택의 부재시 렌더링될 상기 오브젝트 채널들의 세트의 디폴트 서브세트를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 동기화 워드들을 나타내고, 상기 동기화 워드들은 상기 프로그램의 적어도 하나의 다른 요소의 타이밍에 대한 상기 프로그램의 적어도 일부 오디오 콘텐트의 타이밍을 나타내고, 상기 오브젝트 기반 오디오 프로그램은 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하고, 상기 인코딩된 오디오 비트스트림은 적어도 하나의 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내고,
상기 동기화 워드들의 제 1 서브세트는 상기 인코딩된 오디오 비트스트림에 포함되고, 상기 동기화 워드들의 제 2 서브세트는 적어도 하나의 상기 사이드 믹스에 포함되며, 상기 방법은 상기 동기화 워드들의 적어도 일부를 사용하여 적어도 하나의 상기 사이드 믹스와의 상기 인코딩된 오디오 비트스트림의 시간 정렬을 수행하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
단계(a)는:
오디오 콘텐트의 선택 가능한 믹스들의 메뉴를 제공하는 단계로서, 상기 선택 가능한 믹스들의 각각은 상기 스피커 채널들의 하나의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 세트의 서브세트의 오디오 콘텐트의 상이한 믹스를 나타내고, 상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 선택 가능한 믹스들 중 어떤 것이 상기 메뉴에 포함되는지에 대한 적어도 하나의 제약(constraint) 또는 조건을 나타내는, 상기 메뉴 제공 단계; 및
상기 메뉴로부터 상기 선택 가능한 믹스들 중 하나를 선택하고, 그에 의해 상기 오브젝트 채널들의 세트의 선택된 서브세트를 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 25 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 각각의 식별 및 그 사이의 관계를 나타내며, 상기 오브젝트 관련 메타데이터의 상기 적어도 일 부분은 상기 선택 가능한 믹스들 중 어떤 것이 상기 메뉴에 포함되는지에 대한 적어도 하나의 제약 또는 조건을 결정하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 방법은 재생 시스템에 의해 수행되며, 단계(a)는:
오디오 콘텐트의 선택 가능한 믹스들의 메뉴를 제공하는 단계로서, 상기 선택 가능한 믹스들의 각각은 상기 스피커 채널들의 하나의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 세트의 서브세트의 오디오 콘텐트의 상이한 믹스를 나타내며, 상기 재생 시스템의 사전 구성은 상기 선택 가능한 믹스들 중 어떤 것이 상기 메뉴에 포함되는지에 대한 적어도 하나의 제약 또는 조건을 결정하는, 상기 메뉴 제공 단계; 및
상기 메뉴로부터 상기 선택 가능한 믹스들 중 하나를 선택하고, 그에 의해 상기 오브젝트 채널들의 세트의 선택된 서브세트를 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
(c) 단계(a)를 수행하기 전에, 오브젝트 채널 선택에 대한 적어도 하나의 규칙을 결정하는 단계를 또한 포함하며,
단계(a)는 상기 적어도 하나의 규칙에 따라 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트를 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 28 항에 있어서,
단계(c)는:
오브젝트 채널 선택을 위한 선택 가능한 규칙들의 메뉴를 제공하는 단계; 및
상기 메뉴로부터 상기 선택 가능한 규칙들 중 하나를 선택하고, 그에 의해 상기 적어도 하나의 규칙을 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 28 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 어떤 오브젝트 채널들이 상기 적어도 하나의 규칙을 만족하는지를 나타내며, 단계(a)는 상기 오브젝트 관련 메타데이터의 상기 적어도 일 부분에 응답하여 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트를 결정하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 비트스트림들의 세트를 포함하고, 단계(a) 및 단계(b)는 재생 시스템에 의해 수행되며, 상기 방법은,
(c) 상기 오브젝트 기반 오디오 프로그램의 상기 비트스트림들을 상기 재생 시스템에 송신하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 31 항에 있어서,
상기 비트스트림들 중 하나는 상기 오브젝트 채널들의 세트의 제 1 서브세트를 나타내며, 상기 비트스트림들의 또 다른 것은 상기 오브젝트 채널들의 제 2 서브세트를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 비트스트림들의 세트를 포함하며, 단계(a) 및 단계(b)는 재생 시스템에 의해 수행되고, 상기 방법은:
(c) 단계(a)를 수행하기 전에, 상기 재생 시스템에서 상기 오브젝트 기반 오디오 프로그램의 상기 비트스트림들을 동시에 수행하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 33 항에 있어서,
상기 비트스트림들 중 하나는 상기 오브젝트 채널들의 세트의 제 1 서브세트를 나타내며, 상기 비트스트림들 중 또 다른 것은 상기 오브젝트 채널들의 세트의 제 2 서브세트를 나타내는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 방법은 제 1 서브시스템 및 제 2 서브시스템을 포함한 재생 시스템에서 수행되며, 상기 제 2 서브시스템은 상기 제 1 서브시스템으로부터 아래쪽으로 상기 제 1 서브시스템에 결합되고, 단계(a)는 상기 재생 시스템의 상기 제 1 서브시스템에서 수행되며, 단계(b)는 상기 재생 시스템의 상기 제 2 서브시스템에서 적어도 부분적으로 수행되는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 35 항에 있어서,
단계(b)는:
상기 재생 시스템의 상기 제 2 서브시스템에서, 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스를 결정하는 단계; 및
상기 재생 시스템의 상기 제 2 서브시스템에서, 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스에 응답하여 상기 재생 시스템의 스피커들의 세트를 구동하기 위해 스피커 피드들을 생성하는 단계를 포함하는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 35 항에 있어서,
상기 재생 시스템의 상기 제 1 서브시스템은 셋 탑 디바이스에서 실행되며, 상기 재생 시스템의 상기 제 2 서브시스템은 상기 셋 탑 디바이스에 결합된 다운스트림 디바이스에서 실행되는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이며, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 각각의 상기 프레임의 보조데이터 필드에 포함되는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 인코딩된 비트스트림의 상기 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너인 적어도 하나의 데이터 구조이며, 적어도 하나의 상기 컨테이너는 각각의 상기 프레임의 addbsi 필드에 포함되는, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 13 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 버스트들의 시퀀스 및 상기 버스트들의 쌍들 사이의 보호 대역들을 포함한 돌비 E 비트스트림이고, 상기 보호 대역들의 각각은 세그먼트들의 시퀀스로 이루어지며, 상기 보호 대역들 중 적어도 일부의 각각의 제 1 X 세그먼트들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하고, 상기 X는 숫자인, 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하는 방법.
제 1 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 계층화된 믹스 그래프를 나타내고, 상기 계층화된 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 계층화된 믹스 그래프는 메타데이터의 기본 층(base layer) 및 메타데이터의 적어도 하나의 확장 층을 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내고, 상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이며, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 믹스 그래프를 나타내는 오브젝트 관련 메타데이터를 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 방법은 상기 오디오 신호들의 세트의 서브세트들을 나타내는 적어도 두 개의 스피커 채널 베드들을 결정하는 단계를 포함하며, 상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 믹스 그래프는 상기 스피커 채널 베드들의 미리 결정된 믹스를 나타내는 적어도 하나의 베드 믹스 노드를 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
제 1 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 서브스트림들을 포함하며, 상기 오브젝트 관련 메타데이터의 적어도 일부는 상기 서브스트림들이 디코딩되어야 하는 방식 또는 프로그램의 서브스트림 구조 중 적어도 하나를 나타내는 서브스트림 메타데이터인, 오브젝트 기반 오디오 프로그램을 생성하기 위한 방법.
오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하기 위한 시스템으로서, 상기 프로그램은 스피커 채널들의 적어도 하나의 베드, 오브젝트 채널들의 세트, 및 오브젝트 관련 메타데이터를 나타내는, 상기 오디오 콘텐트를 렌더링하기 위한 시스템에 있어서:
상기 오브젝트 기반 오디오 프로그램을 수신하기 위해 결합된 제 1 서브시스템으로서, 상기 스피커 채널들, 상기 오브젝트 채널들, 및 상기 오브젝트 관련 메타데이터를 파싱(parsing)하고, 상기 오브젝트 채널들의 선택된 서브세트를 결정하도록 구성된, 상기 제 1 서브시스템; 및
상기 제 1 서브시스템에 결합된 렌더링 서브시스템으로서, 상기 스피커 채널들의 하나의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 상기 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스를 결정하는 것을 포함하여, 상기 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하도록 구성된, 상기 렌더링 서브시스템을 포함하는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 시스템은 스피커들의 세트를 포함하거나 또는 그에 결합되도록 구성되며, 상기 렌더링 서브시스템은 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스에 응답하여 스피커 피드들을 생성하도록 구성되어, 상기 스피커 피드들에 의해 구동될 때, 상기 스피커들의 세트가 상기 제 2 오디오 콘텐트를 나타내는 오브젝트 채널 사운드를 포함한 사운드를 방출하며, 상기 오브젝트 채널 사운드가 상기 오브젝트 채널들의 상기 선택된 서브세트에 의해 결정된 겉보기 소스 위치들로부터 방출하는 것으로서 지각 가능하도록 하는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 서브시스템에 결합된 제어기를 더 포함하며, 상기 제어기는 선택을 위해 이용 가능한 상기 오브젝트 채널들의 서브세트들의 메뉴를 제공하도록, 및 상기 메뉴에 의해 표시된 상기 오브젝트 채널들의 상기 서브세트들 중 하나의 사용자 선택에 응답하여 상기 오브젝트 채널들의 상기 선택된 서브세트를 결정하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 47 항에 있어서,
상기 제어기는 상기 메뉴를 디스플레이하는 사용자 인터페이스를 실행하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 47 항에 있어서,
상기 제 1 서브시스템은 셋 탑 디바이스에서 실행되며, 상기 제어기는 상기 셋 탑 디바이스에 결합되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 서브시스템에 결합된 제어기를 더 포함하며, 상기 제어기는 오디오 콘텐트의 선택 가능한 믹스들의 메뉴를 제공하도록 구성되고, 상기 선택 가능한 믹스들의 각각은 상기 스피커 채널들의 하나의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 서브세트의 오디오 콘텐트의 상이한 믹스를 나타내고, 상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 선택 가능한 믹스들 중 어떤 것이 상기 메뉴에 포함되는지에 대한 적어도 하나의 제약 또는 조건을 나타내고, 상기 제어기는 상기 메뉴로부터 상기 선택 가능한 믹스들 중 하나의 사용자 선택에 응답하여 상기 오브젝트 채널들의 선택된 서브세트를 결정하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 50 항에 있어서,
상기 제어기는 상기 메뉴를 디스플레이하는 사용자 인터페이스를 실행하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내고, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 적어도 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에서의 군중 소리 또는 그에 대한 해설 중 적어도 하나를 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 오디오 콘텐트는 스포츠 경기에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 스포츠 경기에서 홈 팀 군중 소리 또는 원정 팀 군중 소리를 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에 대한 해설을 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제45 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하고, 상기 인코딩된 오디오 비트스트림은 하나의 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 서브세트의 최종 사용자 선택의 부재시 렌더링될 상기 오브젝트 채널들의 디폴트 서브세트를 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 동기화 워드들을 나타내고, 상기 동기화 워드들은 상기 프로그램의 적어도 하나의 다른 요소의 타이밍에 대한 상기 프로그램의 적어도 일부 오디오 콘텐트의 타이밍을 나타내고, 상기 오브젝트 기반 오디오 프로그램은 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하고, 상기 인코딩된 오디오 비트스트림은 적어도 하나의 상기 스피커 채널들의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내고,
상기 동기화 워드들의 제 1 서브세트는 상기 인코딩된 오디오 비트스트림에 포함되고, 상기 동기화 워드들의 제 2 서브세트는 적어도 하나의 상기 사이드 믹스에 포함되며, 상기 제 1 서브시스템은 상기 동기화 워드들 중 적어도 일부를 사용하여 적어도 하나의 상기 사이드 믹스와의 상기 인코딩된 오디오 비트스트림의 시간 정렬을 수행하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 서브시스템에 결합된 제어기를 더 포함하며, 상기 제어기는 오디오 콘텐트의 선택 가능한 믹스들의 메뉴를 제공하도록 구성되고, 상기 선택 가능한 믹스들의 각각은 상기 스피커 채널들의 하나의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 서브세트의 오디오 콘텐트의 상이한 믹스를 나타내며, 상기 제 1 서브시스템 및/또는 상기 제어기의 사전 구성은 상기 선택 가능한 믹스들 중 어떤 것이 상기 메뉴에 포함되는지에 대한 적어도 하나의 제약 또는 조건을 결정하며, 상기 제어기는 상기 메뉴로부터 상기 선택 가능한 믹스들 중 하나의 사용자 선택에 응답하여 상기 오브젝트 채널들의 선택된 서브세트를 결정하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 58 항에 있어서,
상기 제어기는 상기 메뉴를 디스플레이하는 사용자 인터페이스를 실행하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 제 1 서브시스템에 결합된 제어기를 더 포함하며, 상기 제어기는 오브젝트 채널 선택을 위한 선택 가능한 규칙들의 메뉴를 제공하도록 구성되고, 상기 제어기는 상기 메뉴로부터 상기 선택 가능한 규칙들 중 하나의 사용자 선택에 응답하여 오브젝트 채널 선택을 위한 적어도 하나의 규칙을 적용하도록 상기 제 1 서브시스템을 구성하기 위해 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 60 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 어떤 오브젝트 채널들이 상기 적어도 하나의 규칙을 만족하는지를 나타내는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 렌더링 서브시스템은 제 1 렌더링 서브시스템 및 제 2 렌더링 서브시스템을 포함한 재생 시스템에서 수행되며, 상기 제 2 렌더링 서브시스템은 상기 제 1 렌더링 서브시스템으로부터 아래쪽으로 상기 제 1 렌더링 서브시스템에 결합되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 62 항에 있어서,
상기 제 2 렌더링 서브시스템은 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스를 결정하도록 구성되며, 상기 제 2 렌더링 서브시스템은 상기 제 1 오디오 콘텐트 및 상기 제 2 오디오 콘텐트의 상기 믹스에 응답하여 스피커들의 세트를 구동하기 위한 스피커 피드들을 생성하도록 구성되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 63 항에 있어서,
상기 제 1 렌더링 서브시스템은 셋 탑 디바이스에 실행되며, 상기 제 2 렌더링 서브시스템은 상기 셋 탑 디바이스에 결합된 다운스트림 디바이스에 실행되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 각각의 상기 프레임의 보조데이터 필드 또는 addbsi 필드에 포함되는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 버스트들의 시퀀스 및 상기 버스트들의 쌍들 사이의 보호 대역들을 포함한 돌비 E 비트스트림이고, 상기 보호 대역들의 각각은 세그먼트들의 시퀀스로 이루어지며, 상기 보호 대역들 중 적어도 일부의 각각의 제 1 X 세그먼트들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하며, 상기 X는 숫자인, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 계층화된 믹스 그래프를 나타내고, 상기 계층화된 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 계층화된 믹스 그래프는 메타데이터의 기본 층 및 메타데이터의 적어도 하나의 확장 층을 포함하는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내고, 상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이며, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 믹스 그래프를 나타내는 오브젝트 관련 메타데이터를 포함하는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 프로그램은 적어도 두 개의 스피커 채널 베드들을 나타내고, 상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 믹스 그래프는 상기 스피커 채널 베드들의 미리 결정된 믹스를 나타내는 적어도 하나의 베드 믹스 노드를 포함하는, 오디오 콘텐트를 렌더링하기 위한 시스템.
제 45 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 서브스트림들을 포함하며, 상기 오브젝트 관련 메타데이터의 적어도 일부는 상기 서브스트림들이 디코딩되어야 하는 방식 또는 상기 프로그램의 서브스트림 구조 중 적어도 하나를 나타내는 서브스트림 메타데이터인, 오디오 콘텐트를 렌더링하기 위한 시스템.
오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템에 있어서:
캡처된 오디오 콘텐트를 나타내는 오디오 신호들의 세트의 제 1 서브세트의 오디오 콘텐트를 나타내는 스피커 채널들의 적어도 하나의 베드를 결정하고, 상기 오디오 신호들의 세트의 제 2 서브세트의 오디오 콘텐트를 나타내는 오브젝트 채널들의 세트를 결정하고, 상기 오브젝트 채널들을 나타내는 오브젝트 관련 메타데이터를 생성하도록 구성된 제 1 서브시스템; 및
상기 제 1 서브시스템에 결합된 인코딩 서브시스템으로서, 상기 오브젝트 기반 오디오 프로그램이 상기 스피커 채널들의 각각의 베드, 상기 오브젝트 채널들, 및 상기 오브젝트 관련 메타데이터를 나타내며, 상기 스피커 채널들의 하나의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스로서 지각된 사운드를 제공하도록 렌더링 가능하게 하여, 상기 제 2 오디오 콘텐트가 상기 오브젝트 채널들의 선택된 서브세트에 의해 결정된 소스 위치들로부터의 방출로서 지각되도록 상기 오브젝트 기반 오디오 프로그램을 생성하도록 구성되는, 상기 인코딩 서브시스템을 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 서브세트의 최종 사용자 선택의 부재시 렌더링될 상기 오브젝트 채널들의 세트의 디폴트 서브세트를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일 부분은 상기 오브젝트 채널들의 세트의 어떤 오브젝트 채널들이 적어도 하나의 오브젝트 선택 규칙을 만족하는지를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 인코딩 서브시스템은 상기 오브젝트 기반 오디오 프로그램이 인코딩된 오디오 비트스트림 및 적어도 하나의 사이드 믹스를 포함하도록 상기 오브젝트 기반 오디오 프로그램을 생성하도록 구성되고, 상기 인코딩된 오디오 비트스트림은 적어도 하나의 상기 스피커 채널드의 베드의 오디오 콘텐트 및 상기 오브젝트 채널들의 제 1 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내며, 적어도 하나의 상기 사이드 믹스는 상기 오브젝트 채널들의 제 2 서브세트의 오디오 콘텐트 및/또는 상기 오브젝트 관련 메타데이터를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 적어도 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에서의 군중 소리 또는 그에 대한 해설 중 적어도 하나를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 제 1 오디오 콘텐트는 스포츠 경기에서의 사운드를 나타내며, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 스포츠 경기에서 홈 팀 군중 소리 또는 원정 팀 군중 소리를 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 제 1 오디오 콘텐트는 관중 이벤트에서의 사운드를 나타내며, 상기 오브젝트 채널들의 세트의 상기 선택된 서브세트의 상기 오브젝트 채널들 중 하나에 의해 표시된 상기 오디오 콘텐트는 상기 관중 이벤트에 대한 해설을 나타내는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 오브젝트 기반 오디오 프로그램의 상기 오브젝트 관련 메타데이터는 지속적 메타데이터를 포함하는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이고, 상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 인코딩된 비트스트림의 프레임들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함한 컨테이너인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 상기 프레임의 각각의 보조데이터 필드 또는 addbsi 필드에 포함되는, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
제 71 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 버스트들의 시퀀스 및 상기 버스트들의 쌍들 사이의 보호 대역들을 포함한 돌비 E 비트스트림이고, 상기 보호 대역들의 각각은 세그먼트들의 시퀀스로 이루어지며, 상기 보호 대역들 중 적어도 일부의 각각의 제 1 X 세그먼트들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하며, 상기 X는 숫자인, 오브젝트 기반 오디오 프로그램을 생성하기 위한 시스템.
오디오 프로세싱 유닛에 있어서:
버퍼 메모리; 및
상기 버퍼 메모리에 결합된 적어도 하나의 오디오 프로세싱 서브시스템으로서, 상기 버퍼 메모리는 오브젝트 기반 오디오 프로그램의 적어도 하나의 세그먼트를 저장하고, 상기 프로그램은 스피커 채널들의 적어도 하나의 베드, 오브젝트 채널들의 세트, 및 오브젝트 관련 메타데이터를 나타내며, 상기 스피커 채널들의 하나의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스로서 지각된 사운드를 제공하도록 렌더링 가능하게 하여, 상기 제 2 오디오 콘텐트가 상기 오브젝트 채널들의 선택된 서브세트에 의해 결정된 소스 위치들로부터의 방출로서 지각되도록 하는, 상기 적어도 하나의 오디오 프로세싱 서브시스템을 포함하고,
각각의 상기 세그먼트는 상기 스피커 채널들의 적어도 하나의 베드의 오디오 콘텐트를 나타내는 데이터, 상기 오브젝트 채널들의 적어도 하나의 오디오 콘텐트를 나타내는 데이터, 및 상기 오브젝트 관련 메타데이터의 적어도 일 부분을 포함하는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 프레임들을 포함한 인코딩된 비트스트림이며, 각각의 상기 세그먼트는 상기 프레임들 중 하나인, 오디오 프로세싱 유닛.
제 82 항에 있어서,
상기 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 상기 프레임들의 각각은 상기 오브젝트 채널들 중 적어도 하나의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하는 컨테이너인 적어도 하나의 데이터 구조를 나타내며, 적어도 하나의 상기 컨테이너는 상기 프레임들의 각각의 보조데이터 필드 또는 addbsi 필드에 포함되는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 버스트들의 시퀀스 및 상기 버스트들의 쌍들 사이의 보호 대역들을 포함한 돌비 E 비트스트림이고, 상기 보호 대역들의 각각은 세그먼트들의 시퀀스로 이루어지며, 상기 보호 대역들 중 적어도 일부의 각각의 제 1 X 세그먼트들의 각각은 상기 오브젝트 채널들의 일부 콘텐트 및 상기 오브젝트 관련 메타데이터의 일부를 포함하며, 상기 X는 숫자인, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 버퍼 메모리는 비-일시적 방식으로 상기 세그먼트를 저장하는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오디오 프로세싱 서브시스템은 인코더인, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오디오 프로세싱 서브시스템은 상기 스피커 채널들, 상기 오브젝트 채널들, 및 상기 오브젝트 관련 메타데이터를 파싱하도록, 및 상기 오브젝트 채널들의 선택된 서브세트를 결정하도록 구성되는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오디오 프로세싱 서브시스템은 하나의 상기 스피커 채널들의 베드에 의해 표시된 제 1 오디오 콘텐트 및 상기 오브젝트 채널들의 상기 선택된 서브세트에 의해 표시된 제 2 오디오 콘텐트의 믹스를 결정하는 것을 포함하여, 상기 오브젝트 기반 오디오 프로그램에 의해 결정된 오디오 콘텐트를 렌더링하도록 구성되는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오디오 프로세싱 유닛은 디지털 신호 프로세서인, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 계층화된 믹스 그래프를 나타내고, 상기 계층화된 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 계층화된 믹스 그래프는 메타데이터의 기본 층 및 메타데이터의 적어도 하나의 확장 층을 포함하는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 각각의 상기 세그먼트는 상기 믹스 그래프를 나타내는 오브젝트 관련 메타데이터를 포함하는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 프로그램은 적어도 두 개의 스피커 채널 베드들을 나타내고, 상기 오브젝트 관련 메타데이터의 적어도 일부는 믹스 그래프를 나타내고, 상기 믹스 그래프는 상기 스피커 채널들 및 상기 오브젝트 채널들의 선택 가능한 믹스들을 나타내며, 상기 믹스 그래프는 상기 스피커 채널 베드들의 미리 결정된 믹스를 나타내는 적어도 하나의 베드 믹스 노드를 포함하는, 오디오 프로세싱 유닛.
제 81 항에 있어서,
상기 오브젝트 기반 오디오 프로그램은 서브스트림들을 포함하며, 상기 오브젝트 관련 메타데이터의 적어도 일부는 상기 서브스트림들이 디코딩되어야 하는 방식 또는 프로그램의 서브스트림 구조 중 적어도 하나를 나타내는 서브스트림 메타데이터인, 오디오 프로세싱 유닛.