KR20180089416A

KR20180089416A - 전송을 위해 코딩된 차세대 오디오 데이터의 선택

Info

Publication number: KR20180089416A
Application number: KR1020187015222A
Authority: KR
Inventors: 토마스 스톡해머
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-12-01
Filing date: 2016-12-01
Publication date: 2018-08-08
Also published as: CA3002227C; CN108293153A; US9854375B2; KR102125484B1; JP6681986B2; US20170156015A1; BR112018010878A2; CA3002227A1; EP3384680A1; JP2019504341A; WO2017096023A1; TWI700686B; TW201724086A

Abstract

오디오 데이터를 수신하기 위한 예시적인 디바이스는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

Description

전송을 위해 코딩된 차세대 오디오 데이터의 선택

[0001] 본 출원은 2015년 12월 1일에 출원된 미국 가출원 제62/261,743호 및 2015년 12월 22일에 출원된 제62/387,269호의 이익을 주장하며, 상기 가출원들 각각의 전체 내용은 이로써 인용에 의해 통합된다.

[0002] 본 개시는 미디어 데이터의 전송, 특히 오디오 데이터의 전송에 관한 것이다.

[0003] HOA(higher-order ambisonics) 신호(종종 복수의 SHC(spherical harmonic coefficients) 또는 다른 계층구조적 엘리먼트들에 의해 표현됨)는 사운드필드의 3차원 표현이다. HOA 또는 SHC 표현은, SHC 신호로부터 렌더링된 멀티-채널 오디오 신호를 재생하기 위해 사용되는 로컬 스피커 기하구조와 독립적인 방식으로 사운드필드를 표현할 수 있다. HOA 또는 SHC 표현은 인코딩될 수 있다. 대응하는 비디오 데이터 뿐만 아니라 다른 미디어 데이터, 예를 들어, 적시의 텍스트가 또한 인코딩될 수 있다.

[0004] 오디오 또는 비디오 데이터와 같은 미디어 데이터가 인코딩된 후, 미디어 데이터는 송신 또는 저장을 위해 패킷화될 수 있다. 미디어 데이터는 ISO(International Organization for Standardization) 베이스 미디어 파일 포맷 및 이의 확장들과 같은 다양한 표준들 중 임의의 것을 준수하는 미디어 파일에 어셈블링될 수 있다.

[0005] 일반적으로, 본 개시는 브로드캐스트 또는 브로드캐스트-기반 유니캐스트와 같은 스트리밍 전달을 사용하여 NGA(next generation audio) 데이터를 전송하기 위한 기술들을 설명한다. 오디오 오브젝트들의 특성들에 기초하여 오디오 오브젝트들의 선택(예를 들어, 사전-선택)을 위한 기술들이 또한 설명된다.

[0006] 일례에서, 미디어 데이터를 수신하는 방법은, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하는 단계 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―, 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하는 단계, 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하는 단계, 및 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하는 단계를 포함한다.

[0007] 다른 예에서, 오디오 데이터를 수신하기 위한 디바이스는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0008] 다른 예에서, 오디오 데이터를 수신하기 위한 디바이스는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하기 위한 수단 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―, 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하기 위한 수단, 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하기 위한 수단, 및 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하기 위한 수단을 포함한다.

[0009] 다른 예에서, 컴퓨터 판독가능 저장 매체는, 실행되는 경우, 수신기 디바이스의 하나 이상의 프로세서들로 하여금, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하게 하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하게 하고 ― 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하게 하고, 선택 데이터에 의해 표시된 오디오 오브젝트들을 수신기 디바이스의 오디오 디코더에 제공하게 하도록 하는 명령들을 저장한다.

[0010] 하나 이상의 예들의 세부사항들은 첨부된 도면들 및 아래의 설명에서 기술된다. 다른 특징들, 목적들 및 이점들은 설명 및 도면들로부터 및 청구항들로부터 자명할 것이다.

[0011] 도 1은 네트워크를 통해 미디어 데이터를 스트리밍하기 위한 기술들을 구현하는 예시적인 시스템을 예시하는 블록도이다.
[0012] 도 2는 리트리벌 유닛의 컴포넌트들의 예시적인 세트를 더 상세히 예시하는 블록도이다.
[0013] 도 3은 예시적인 멀티미디어 콘텐츠의 엘리먼트들을 예시하는 개념도이다.
[0014] 도 4는 표현의 세그먼트에 대응할 수 있는 예시적인 미디어 파일의 엘리먼트들을 예시하는 블록도이다.
[0015] 도 5는 오디오 데이터를 전송하기 위한 예시적인 레거시 시스템을 예시하는 개념도이다.
[0016] 도 6은 본 개시의 기술들에 따라 차세대 오디오 데이터의 전송을 위한 많은 변형들 및 옵션들을 지원하기 위해 사용될 수 있는 예시적인 시스템을 예시하는 개념도이다.
[0017] 도 7은 시스템즈(Systems)-중심인 제1 예를 예시하는 개념도이다.
[0018] 도 8은 프리젠테이션 정의들과 부분적 적응 세트들의 예들 사이의 맵핑을 예시하는 개념도이다.
[0019] 도 9는 시스템즈 및 HTML-5를 사용하는 다른 예를 예시하는 개념도이다.
[0020] 도 10은 시스템즈 및 오디오 디코더를 사용하는 다른 예시적인 시스템을 예시하는 개념도이다.
[0021] 도 11은 @bundleID에 대한 값들과 다양한 타입들의 전달 네트워크들을 통한 이용가능성 사이의 대응관계 및 데이터의 예시적인 세트를 예시하는 개념도이다.
[0022] 도 12는 부분적 적응 세트들의 예시적인 세트에 대한 데이터 네트워크 이용가능성들의 예를 예시하는 개념도이다.
[0023] 도 13은 본 개시의 기술들에 따라 다양한 선택 기술들을 사용하는 다른 예시적인 시스템을 예시하는 개념도이다.
[0024] 도 14는 시스템즈 및 오디오 디코더를 사용하는 본 개시의 기술들에 따른 다른 예시적인 시스템을 예시하는 개념도이다.
[0025] 도 15 내지 도 17은 본 개시의 기술들에 따른 예시적인 오디오 데이터 모델들을 예시하는 개념도들이다.
[0026] 도 18은 웹 브라우저와 MPEG-2 시스템즈 계층 사이에 위치된 사용자 인터페이스를 포함하는 수신기 디바이스의 예를 예시하는 개념도이다.
[0027] 도 19는 웹 브라우저와 NGA 오디오 디코더 사이에 위치된 사용자 인터페이스를 포함하는 수신기 디바이스의 다른 예를 예시하는 개념도이다.
[0028] 도 20은 수신기 디바이스의 다른 예를 예시하는 개념도이다.
[0029] 도 21은 MPEG-2 시스템즈 레벨 상에서 수행되는 모든 데이터의 예시적인 선택을 예시하는 개념도이다.
[0030] 도 22는 M&E 오디오 데이터에 추가로 영어 코멘터리의 선택이 존재하는 예를 예시하는 개념도이다.
[0031] 도 23은, 사전-선택 유닛(또는 다른 유닛)이 사용자에 의해 선택되지 않은 것들을 제거하기 위해 적응 세트들을 프룬(prune)하는 다른 예를 예시하는 개념도이다.
[0032] 도 24는 본 개시의 기술들에 따른 예시적인 방법을 예시하는 흐름도이다.

[0033] 일반적으로, 본 개시는 인코딩된 오디오 데이터와 같은 인코딩된 미디어 데이터를 전송하기 위한 기술들을 설명한다. 본 개시의 기술들은 일반적으로, M&E(music and effects) 스트림과 같은 스트림들 중 하나를 동반하는 메타데이터의 세트에서 이용가능한 오디오 데이터 스트림들을 통지하는 것에 관한 것이다. 즉, 다양한 상이한 오디오 데이터 스트림들, 예를 들어, M&E 스트림, 다양한 언어들의 대화 스트림들 및 다양한 언어들의 코멘터리가 이용가능할 수 있다. 메타데이터는 오디오 데이터 스트림들 중 어느 세트들이 이용가능한지 및 스트림들의 특성들을 설명할 수 있다. 메타데이터는, 스트림들이 어떻게 액세스될 수 있는지, 예를 들어, 스트림들이 브로드캐스트(예를 들어, ATSC 3.0 브로드캐스트 또는 네트워크-기반 브로드캐스트 또는 멀티캐스트, 예를 들어, eMBMS(enhanced Multimedia Broadcast Multicast Service)), 브로드밴드(예를 들어, 유니캐스트 네트워크 리트리벌) 또는 둘 모두를 통해 이용가능한지 여부를 추가로 표시할 수 있다.

[0034] 메타데이터는 매니페스트 파일, 예를 들어, DASH(Dynamic Adaptive Streaming over HTTP)의 MPD(media presentation description)에 포함되거나, 다른 HTTP 스트리밍 프로토콜들과 연관된 다른 타입들의 매니페스트 파일들에 포함될 수 있다. 또한, 수신 디바이스는 메타데이터를 수신하도록 구성되는 오디오 프로세싱 유닛을 포함할 수 있다. 메타데이터는 MPEG-H 또는 AC-4 파트 2와 같은 NGA(next generation audio) 코딩 표준을 준수할 수 있다. 따라서, MPEG-2 시스템즈 계층 유닛 또는 메타데이터를 분석하기 위한 다른 이러한 프로세싱 유닛을 구성하기 보다는, 본 개시의 기술들의 특정 양상들은, 메타데이터로부터의 정보를 MPEG-2 시스템즈 계층 유닛에 제공하기 위해 NGA 코딩 표준의 메타데이터를 프로세싱하도록 미리 구성된 NGA 오디오 디코딩 유닛을 사용하는 것을 포함한다. 이러한 방식으로, 본 개시의 기술들은 디코딩 및 렌더링 프로세스의 일부에 추가로, 데이터 송신 및 수신 프로세스의 일부로서 NGA 오디오 디코딩 유닛의 능력들을 레버리지할 수 있다.

[0035] 또한, 본 개시의 특정 기술들에 따라, 및 DASH 스트리밍 프로토콜에 따라, 각각의 오디오 스트림은 DASH 적응 세트에 대응할 수 있다. 즉, 앞서 논의된 매니페스트 파일은 적응 세트들에 대한 특성들을 시그널링할 수 있고, 적응 세트들 각각은 이용가능한 오디오 데이터 스트림들 중 하나에 대응할 수 있다.

[0036] 또한, 일부 예들에서, 사용자는 이용가능한 오디오 스트림들의 사전-선택을 위한 구성 데이터로서 저장될 수 있는 오디오 데이터에 대한 특정 옵션들을 선택할 수 있다. 예를 들어, 사용자는 디폴트로서, 코멘터리 없이, 음악 및 효과 스트림 및 특정 언어(예를 들어, 영어)의 대화 스트림을 수신하는 것으로 선택할 수 있다. 따라서, 수신 디바이스는, 이용가능한 오디오 스트림들로부터 선택하기 위해 사용될 사전-선택 데이터를 저장하는 사용자 에이전트 유닛을 포함할 수 있다. 따라서, NGA 오디오 디코딩 유닛은 어느 오디오 데이터 스트림들이 이용가능한지를 결정할 수 있고, 이용가능한 오디오 데이터 스트림들을 MPEG-2 시스템즈 계층 유닛에 통지할 수 있다. MPEG-2 시스템즈 계층 유닛은, 예를 들어, 어느 스트림들이 선택될지를 표현하는 사용자 에이전트 유닛으로부터 사전-선택 데이터를 수신할 수 있고, 선택 데이터를 NGA 오디오 디코딩 유닛에 제공할 수 있다.

[0037] 서라운드 사운드의 진화는 엔터테인먼트를 위해 이용가능한 많은 출력 포맷들을 생성해왔다. 이러한 고객 서라운드 사운드 포맷들의 예들은, 이들이 특정 기하학적 좌표들에서 라우드스피커들에 대한 피드(feed)들을 묵시적으로 특정한다는 점에서 대개 '채널'이다. 고객 서라운드 사운드 포맷들은, 대중적 5.1 포맷(하기 6개의 채널들, 즉, FL(front left), FR(front right), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측 및 LFE(low frequency effects)을 포함함), 성장하는 7.1 포맷, 및 높이 스피커들을 포함하는 다양한 포맷들, 예를 들어 7.1.4 포맷 및 (예를 들어, 초고해상도 텔레비전 표준에서의 사용을 위한) 22.2 포맷을 포함한다. 넌-고객 포맷들은 종종 '서라운드 어레이들'로 지칭되는 (대칭적 및 비대칭적 기하구조들의) 임의의 수의 스피커들에 걸쳐 있을 수 있다. 이러한 어레이의 일례는 절단된 20면체의 코너들 상의 좌표들 상에 위치된 32개의 라우드스피커들을 포함한다.

[0038] 미래의 MPEG-H 인코더에 대한 입력은 선택적으로, 3개의 가능한 포맷들, 즉 (i) 미리 특정된 위치들의 라우드스피커들을 통해 재생되도록 의도되는 종래의 (앞서 논의된 바와 같은) 채널-기반 오디오; (ii) (다른 정보 중) 오디오 오브젝트들의 위치 좌표들을 포함하는 연관된 메타데이터를 갖는 단일 오디오 오브젝트들에 대한 이산적 PCM(pulse-code-modulation) 데이터를 수반하는 오브젝트-기반 오디오; 및 (iii) 구형 하모닉 베이시스 기능들(또한, "구형 하모닉 계수들" 또는 SHC, "고차 앰비소닉스" 또는 HOA 및 "HOA 계수들"로 지칭됨)의 계수들을 사용하여 사운드필드를 표현하는 것을 수반하는 장면-기반 오디오 중 하나이다. MPEG-H 인코더는, MPEG-H 3D 오디오 - The New Standard for Coding of Immersive Spatial Audio,

Herre, Senior Member, IEEE, Johannes Hilpert, Achim Kuntz, and Jan Plogsties, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 9, NO. 5, AUGUST 2015(또한, 본 명세서에서는 "IEEE 논문"으로 지칭됨)에서 더 상세히 설명된다.

[0039] 새로운 MPEG-H 3D 오디오는 채널, 오브젝트 및 장면-기반 오디오 스트림들 각각에 대한 표준화된 오디오 비트스트림들, 및 (렌더러를 수반하는) 재생 위치에서 스피커 기하구조(및 스피커들의 수) 및 음향 조건들에 대해 적응가능하고 불가지론적인 후속 디코딩을 제공한다.

[0040] IEEE 논문에서 적시된 바와 같이, HOA는 더 많은 계수 신호들 및 그에 따른 증가된 공간 선택도를 제공하고, 이는, 라우드스피커 신호들이 더 적은 크로스토크로 렌더링되도록 허용하여 감소된 음색 결함들을 도출한다. 오브젝트들과 반대로, HOA의 공간 정보는 명시적 기하구조적 메타데이터에서가 아니라 계수 신호들 자체에서 전달된다. 따라서, 앰비소닉스/HOA는 사운드 장면에서 개별적인 오브젝트들에 대한 액세스를 허용하기에 매우 적합하지는 않다. 그러나, 사운드필드를 표현하기 위해 엘리먼트들의 계층구조적 세트를 사용하여, 콘텐츠 생성자들에 대한 더 많은 유연성이 존재한다. 엘리먼트들의 계층구조적 세트는, 저차(lower-ordered)의 엘리먼트들의 기본 세트가 모델링된 사운드필드의 전체 표현을 제공하도록 엘리먼트들이 순서화되는 엘리먼트들이 세트를 지칭할 수 있다. 이 세트는 고차 엘리먼트들을 포함하도록 확장되기 때문에, 표현은 더 상세하게 되어 해상도를 증가시킨다.

[0041] 엘리먼트들의 계층구조적 세트의 일례는 SHC(spherical harmonic coefficients)의 세트이다. 하기 표현은 SHC를 사용하여 사운드필드의 설명 또는 표현을 예시한다.

[0042] 이 표현은, 시간 t에서 사운드필드의 임의의 포인트

에서의 압력

는 SHC에 의해 고유하게 표현될 수 있음을 나타낸다

. 여기서,

이고, c는 사운드의 속도(~343 m/s)이고,

는 기준 포인트(또는 관측 포인트)이고,

는 차수 n의 구형 베셀(Bessel) 함수이고,

는 차수 n 및 하위차수 m의 구형 하모닉 기본 함수들이다. 대괄호들 내의 항들은 DFT(discrete Fourier transform), DCT(discrete cosine transform) 또는 웨이블릿(wavelet) 변환과 같은 다양한 시간-주파수 변환들에 의해 근사화될 수 있는 신호의 주파수-도메인 표현(즉,

)임이 인식될 수 있다. 계층구조적 세트들의 다른 예들은 웨이블릿 변환 계수들의 세트들 및 다중해상도(multiresolution) 기본 기능들의 계수들의 다른 세트들을 포함한다.

[0043] 본 개시의 기술들은 DASH(Dynamic Adaptive Streaming over HTTP)와 같은 스트리밍 프로토콜을 사용하여 앞서 논의된 바와 같이 인코딩된 오디오 데이터를 전송하기 위해 사용될 수 있다. DASH의 다양한 양상들은, 예를 들어, "Information Technology-Dynamic Adaptive Streaming over HTTP (DASH)-Part 1: Media Presentation Description and Segment Formats," ISO/IEC 23009-1, April 1, 2012; 및 3세대 파트너쉽 프로젝트; 기술 규격 그룹 서비스들 및 시스템 양상들; 투명한 단대단 PSS(Packet-switched Streaming Service); 3GP-DASH(Progressive Download and Dynamic Adaptive Streaming over HTTP)(릴리즈 12) 3GPP TS 26.247, V12.1.0, Dec. 2013에 설명되어 있다.

[0044] HTTP 스트리밍에서, 빈번하게 사용되는 동작들은 HEAD, GET 및 부분적 GET를 포함한다. HEAD 동작은, URL(uniform resource locator) 또는 URN(uniform resource name)과 연관된 페이로드를 리트리브함이 없이, 주어진 URL 또는 URN과 연관된 파일의 헤더를 리트리브한다. GET 동작은 주어진 URL 또는 URN과 연관된 전체 파일을 리트리브한다. 부분적 GET 동작은 입력 파라미터로서 바이트 범위를 수신하고, 파일의 연속적인 수의 바이트들을 리트리브하고, 여기서 바이트들의 수는 수신된 바이트 범위에 대응한다. 따라서, 영화 프래그먼트들은 HTTP 스트리밍에 대해 제공될 수 있는데, 이는, 부분적 GET 동작이 하나 이상의 개별적인 영화 프래그먼트들을 획득할 수 있기 때문이다. 영화 프래그먼트에서, 상이한 트랙들의 몇몇 트랙 프래그먼트가 존재할 수 있다. HTTP 스트리밍에서, 미디어 프리젠테이션은 클라이언트가 액세스가능한 데이터의 구조화된 집합물일 수 있다. 클라이언트는 사용자에게 스트리밍 서비스를 제시하기 위해 미디어 데이터 정보를 요청 및 다운로드할 수 있다.

[0045] HTTP 스트리밍을 사용하여 오디오 데이터를 스트리밍하는 예에서, 멀티미디어 콘텐츠의 비디오 및/또는 오디오 데이터에 대한 다수의 표현들이 존재할 수 있다.

[0046] 아래에서 설명되는 바와 같이, 상이한 표현들은 HOA, 예를 들어, 장면 기반 오디오에 대한 스케일링가능한 코딩의 상이한 형태들에 대응할 수 있다.

[0047] 이러한 표현들의 매니페스트는 MPD(Media Presentation Description) 데이터 구조에서 정의될 수 있다. 미디어 프리젠테이션은 HTTP 스트리밍 클라이언트 디바이스가 액세스가능한 데이터의 구조화된 집합물에 대응할 수 있다. HTTP 스트리밍 클라이언트 디바이스는 클라이언트 디바이스의 사용자에게 스트리밍 서비스를 제시하기 위해 미디어 데이터 정보를 요청 및 다운로드할 수 있다. 미디어 프리젠테이션은 MPD의 업데이트들을 포함할 수 있는 MPD 데이터 구조에서 설명될 수 있다.

[0048] 미디어 프리젠테이션은 하나 이상의 기간들의 시퀀스를 포함할 수 있다. 기간들은 MPD의 기간 엘리먼트에 의해 정의될 수 있다. 각각의 기간은 MPD에서 속성 시작을 가질 수 있다. MPD는 각각의 기간에 대한 시작 속성 및 availabilityStartTime 속성을 포함할 수 있다. 라이브 서비스들의 경우, 기간의 시작 속성과 MPD 속성 availabilityStartTime의 합산은 UTC 포맷에서 기간의 이용가능성 시간, 특히 대응하는 기간에서 각각의 표현의 제1 미디어 세그먼트를 특정할 수 있다. 온-디맨드 서비스들의 경우, 제1 기간의 시작 속성은 0일 수 있다. 임의의 다른 기간의 경우, 시작 속성은 제1 기간의 시작 시간에 대한 대응하는 기간의 시작 시간 사이의 시간 오프셋을 특정할 수 있다. 각각의 기간은, 다음 기간의 시작까지 또는 마지막 기간의 경우 미디어 프리젠테이션의 종료까지 확장될 수 있다. 기간 시작 시간들은 정확할 수 있다. 이들은 모든 이전 기간들의 미디어를 재생하는 것으로부터 얻어지는 실제 타이밍을 반영할 수 있다.

[0049] 각각의 기간은 동일한 미디어 콘텐츠에 대한 하나 이상의 표현들을 포함할 수 있다. 표현은 오디오 또는 비디오 데이터의 다수의 대안적인 인코딩된 버전들 중 하나일 수 있다. 표현들은 인코딩 타입들에 의해, 예를 들어, 비디오 데이터에 대한 비트레이트, 해상도 및/또는 코덱, 및 오디오 데이터에 대한 비트레이트, 언어 및/또는 코덱에 의해 상이할 수 있다. 표현이라는 용어는, 멀티미디어 콘텐츠의 특정 기간에 대응하고 특정 방식으로 인코딩되는 인코딩된 오디오 또는 비디오 데이터의 섹션을 지칭하기 위해 사용될 수 있다.

[0050] 특정 기간의 표현은, 그 표현이 속하는 적응 세트를 표시하는 MPD에서의 속성에 의해 표시되는 그룹에 할당될 수 있다. 동일한 적응 세트의 표현들은, 예를 들어, 클라이언트 디바이스가 대역폭 적응을 수행하기 위해 이러한 표현들 사이에서 동적으로 그리고 끊김없이 스위칭할 수 있다는 점에서 일반적으로 서로에 대한 대안들로 고려된다. 예를 들어, 특정 기간에 대한 비디오 데이터의 각각의 표현은 동일한 적응 세트에 할당될 수 있어서, 표현들 중 임의의 것은 대응하는 기간에 대한 멀티미디어 콘텐츠의 비디오 데이터 또는 오디오 데이터와 같은 미디어 데이터를 제시하도록 디코딩하기 위해 선택될 수 있다. 다른 예로, 오디오 적응 세트의 표현은 대역폭 적응을 지원하기 위해 상이한 비트레이트들에서 인코딩된 동일한 타입의 오디오 데이터를 포함할 수 있다. 일 기간 내의 미디어 콘텐츠는, 존재한다면 그룹 0으로부터의 하나의 표현, 또는 일부 예들에서는 각각의 넌-제로 그룹으로부터의 최대 하나의 표현의 조합에 의해 표현될 수 있다. 기간의 각각의 표현에 대한 타이밍 데이터는 기간의 시작 시간에 대해 표현될 수 있다.

[0051] 표현은 하나 이상의 세그먼트들을 포함할 수 있다. 각각의 표현은 초기화 세그먼트를 포함할 수 있거나, 또는 표현의 각각의 세그먼트는 자체-초기화할 수 있다. 존재하는 경우, 초기화 세그먼트는 표현에 액세스하기 위한 초기화 정보를 포함할 수 있다. 일반적으로, 초기화 세그먼트는 미디어 데이터를 포함하지 않는다. 세그먼트는 식별자, 예를 들어, URL(uniform resource locator), URN(uniform resource name) 또는 URI(uniform resource identifier)에 의해 고유하게 참조될 수 있다. MPD는 각각의 세그먼트에 대한 식별자들을 제공할 수 있다. 일부 예들에서, MPD는 또한, 범위 속성 형태로 바이트 범위들을 제공할 수 있고, 이는 URL, URN 또는 URI에 의해 액세스가능한 파일 내의 세그먼트에 대한 데이터에 대응할 수 있다.

[0052] 상이한 타입들의 미디어 데이터에 대한 실질적으로 동시적 리트리벌을 위해 상이한 표현들이 선택될 수 있다. 예를 들어, 클라이언트 디바이스는 오디오 표현, 비디오 표현 및 세그먼트들이 리트리브되는 적시의 텍스트 표현을 선택할 수 있다. 일부 예들에서, 클라이언트 디바이스는 대역폭 적응을 수행하기 위한 특정 적응 세트들을 선택할 수 있다. 즉, 클라이언트 디바이스는 비디오 표현들을 포함하는 비디오 적응 세트, 오디오 표현들을 포함하는 적응 세트 및/또는 적시의 텍스트를 포함하는 적응 세트를 선택할 수 있다.

[0053] 본 개시의 기술들은 미디어(예를 들어, 3D 오디오) 데이터를, 예를 들어, "Information technology -- Generic coding of moving pictures and associated audio information -- Part 1: Systems," ISO/IEC 13818-1:2013 (also ISO/IEC 13818-1:2015)(또한 "MPEG-2 시스템즈" 또는 "시스템즈"로 지칭됨)에서 설명된 MPEG-2 시스템즈로 멀티플렉싱하기 위해 사용될 수 있다. 시스템 규격은 시간 스탬프를 각각 갖는 액세스 유닛들을 갖는 스트림들/트랙들을 설명한다. 액세스 유닛들은 멀티플렉싱되고, 이러한 멀티플렉싱이 어떻게 수행될 수 있는지에 대한 일부 유연성이 통상적으로 존재한다. MPEG-H 오디오는 모든 오브젝트들의 샘플들이 하나의 스트림에 배치되도록 허용하는데, 예를 들어, 동일한 시간 코드를 갖는 모든 샘플들은 하나의 액세스 유닛에 맵핑될 수 있다. 시스템 레벨에서, 오브젝트들의, 상이한 시스템 스트림들로의 분리를 허용하는 하나의 마스터 스트림 및 다수의 보조 스트림들을 생성하는 것이 가능하다. 시스템 스트림들은 유연성을 생성하여: 이들은 상이한 전달 경로, 하이브리드 전달, 결코 전달하지 않는 것 등을 허용한다.

[0054] 미디어 데이터, 예를 들어, 오디오 및/또는 비디오 데이터를 포함하는 파일들은, 예를 들어, "Information technology--Coding of audio-visual objects--Part 12: ISO base media file format," ISO/IEC 14496-12:2012에서 설명되는 ISO BMFF(Base Media File Format)에 따라 형성될 수 있다. ISO BMFF에서, 스트림들은 트랙들이고, 액세스 유닛들은 영화 데이터(mdat) 박스에 포함된다. 각각의 트랙은 영화 헤더에서 샘플 엔트리를 얻고, 샘플들을 설명하는 샘플 테이블이 물리적으로 발견될 수 있다. 영화 프래그먼트들을 사용함으로써 분산형 저장이 또한 가능하다.

[0055] MPEG-2 TS(Transport Stream)에서, 스트림들은 기본적 스트림들이다. MPEG-2 TS에서는 더 적은 유연성이 존재하지만, 일반적으로, 기술들은 ISO BMFF와 유사하다. MPEG-2 TS에서, 각각의 기본적인 스트림은 PID(program identifier)를 갖는 프로그램에 대응할 수 있다.

[0056] 미디어 데이터(예를 들어, 인코딩된 3D 오디오 데이터)를 포함하는 파일들은 앞서 논의된 다양한 기술들 중 임의의 것에 따라 형성될 수 있지만, 본 개시는 ISO BMFF/파일 포맷에 대한 기술들을 설명한다.

[0057] 일반적으로, 파일들은 인코딩된 미디어 데이터, 예를 들어, 인코딩된 3D 오디오 데이터를 포함할 수 있다. DASH에서, 이러한 파일들은 앞서 논의된 바와 같이 표현의 "세그먼트들"로 지칭될 수 있다. 또한, 콘텐츠 제공자는 앞서 언급된 바와 같이, 다양한 적응 세트들을 사용하여 미디어 콘텐츠를 제공할 수 있다. 3D 오디오 데이터에 대해, 장면 오디오 데이터는 하나의 적응 세트에서 제공될 수 있다. 이러한 적응 세트는 (예를 들어, 비트레이트에서는 서로 상이하지만 그렇지 않으면 실질적으로 동일한) 장면 오디오 데이터에 대한 다양한 스위칭가능한(즉, 대안적인) 표현들을 포함할 수 있다. 유사하게, 오디오 오브젝트들 각각은 각각의 적응 세트에서 제공될 수 있다. 대안적으로, 적응 세트는 다수의 오디오 오브젝트들을 포함할 수 있고, 그리고/또는 하나나 이상의 오디오 오브젝트들은 다수의 적응 세트들에서 제공될 수 있다.

[0058] 본 개시의 특정 기술들에 따르면, 디바이스는 복수의 상이한 오디오 스트림들로부터의 오디오 데이터를 디코딩하기 위한 단일 오디오 디코더를 포함할 수 있다. 예를 들어, 오디오 스트림들은 M&E(music and effects) 스트림, 하나 이상의 대화 스트림들 및 하나 이상의 코멘터리 스트림들을 포함할 수 있다. 하나 이상의 대화 및 코멘터리 스트림들은 상이한 언어들(예를 들어, 영어, 불어, 독일어, 스페인어 등)에서 이용가능할 수 있다. 따라서, 선택은 언어들에 대한 사용자 선호도들에 기초하여 수행될 수 있다. 아래에서 더 상세히 설명되는 바와 같이, 오디오 스트림들 각각은 각각의 부분적 적응 세트(또한 "부분적 AS"로 지칭됨)에 대응할 수 있다. 부분적 적응 세트들은 일반적으로, 오직 부분적 적응 세트만으로는 디코딩될 수 없는 데이터를 포함할 수 있고; 그 대신, 디코딩가능하도록, 클라이언트 디바이스는 부분적 적응 세트들, 예를 들어, 하나의 M&E 스트림, 하나의 대화 스트림 및 하나의 코멘터리 스트림의 조합에 대한 데이터를 획득할 수 있다. 부분적 적응 세트들의 조합은 디코딩가능할 수 있다. 예를 들어, 초기화 데이터는 M&E 스트림에서는 반송될 수 있지만 대화 및/또는 코멘터리 스트림들에서는 그렇지 않다. 본 개시는 오디오 스트림들의 조합들의 선택들에 관한 데이터를 시그널링하기 위한 다양한 기술들 뿐만 아니라 클라이언트 디바이스가 오디오 스트림들의 조합들을 선택하기 위해 데이터를 사용할 수 있게 하는 기술들을 제공한다.

[0059] 일반적으로, 완전히 제시가능한 오디오 프리젠테이션은 사용자에게 제시될 수 있는 하나 이상의 완전한 또는 부분적 적응 세트들에 대응할 수 있다. 예를 들어, 완전히 제시가능한 오디오 프리젠테이션은 음악 및 효과들 적응 세트, 및/또는 특정 언어의 대화 적응 세트에 대응할 수 있다. 완전히 제시가능한 오디오 프리젠테이션은 이의 오디오 데이터를 디코딩 및 렌더링하기 위해 필요한 모든 데이터를 포함할 수 있다. 일부 경우들에서, 적응 세트는 하나 이상의 다른 적응 세트들에 의존할 수 있다. 예를 들어, 적응 세트는 다른 적응 세트로부터의 데이터 또는 메타데이터가 적응 세트를 액세스, 디코딩 또는 렌더링할 필요가 있으면 다른 적응 세트에 의존할 수 있다. 일부 예들에서, 단일 적응 세트는 완전히 제시가능한 오디오 프리젠테이션을 표현할 수 있고, 특정 식별자를 추가로 할당받을 수 있다. 완전히 제시가능한 오디오 프리젠테이션이 아닌 적응 세트는, 적응 세트가 의존하는 적응 세트들의 특정 식별자(들)에 대한 참조를 포함할 수 있다.

[0060] 본 개시의 특정 기술들에 따르면, 예를 들어, DASH를 통해 미디어 데이터를 전송 및 수신하는 디바이스들은 DASH 및 ATSC(Advanced Television Systems Committee)(및/또는 다른 시스템 표준들)와 통합된 NGA(next generation audio) 코덱들에 대한 하나 이상의 코덱-독립적 모델들을 사용할 수 있다. 이러한 모델들의 예들은 아래에서 더 상세히 설명된다.

[0061] 도 1은 OTA(over-the-air) 브로드캐스트를 통해 미디어 데이터를 스트리밍하기 위한 기술들을 구현하는 예시적인 시스템(10)을 예시하는 블록도이다. 이러한 예에서, 시스템(10)은 콘텐츠 준비 디바이스(20), 브로드캐스트 소스 디바이스(60), 브로드캐스트 유닛(74) 및 클라이언트 디바이스(40)를 포함한다. 브로드캐스트 소스 디바이스(60)는 예를 들어, 텔레비전 네트워크 오피스, 케이블 텔레비전 오피스 등을 포함할 수 있다. 브로드캐스트 유닛(74)은 예를 들어, 위성, 케이블 텔레비전 배포 허브, 안테나 등을 포함할 수 있다. 오직 단일 브로드캐스트 유닛(74)이 도 1의 예에 도시되어 있지만, 브로드캐스트 소스 디바이스(60)와 클라이언트 디바이스(40) 사이에 다수의 중간적 디바이스들이 위치될 수 있음을 이해해야 한다. 일부 예들에서, 콘텐츠 준비 디바이스(20) 및 브로드캐스트 소스 디바이스(60)는 컴퓨터-기반 네트워크에 의해 커플링될 수 있거나, 직접 통신가능하게 커플링될 수 있다. 대안적으로, 콘텐츠 준비 디바이스(20)는 하드 디스크, 플래시 드라이브, CD, DVD, 블루레이 디스크 등과 같은 컴퓨터 판독가능 저장 매체의 전달을 통해 브로드캐스트 소스 디바이스(60)에 멀티미디어 콘텐츠를 공급할 수 있다. 일부 예들에서, 콘텐츠 준비 디바이스(20) 및 브로드캐스트 소스 디바이스(60)는 동일한 디바이스를 포함할 수 있다.

[0062] 콘텐츠 준비 디바이스(20)는 도 1의 예에서, 오디오 소스(22) 및 비디오 소스(24)를 포함한다. 오디오 소스(22)는 예를 들어, 오디오 인코더(26)에 의해 인코딩될 캡처된 오디오 데이터를 표현하는 전기 신호들을 생성하는 마이크로폰을 포함할 수 있다. 대안적으로, 오디오 소스(22)는 이전에 레코딩된 오디오 데이터를 저장하는 저장 매체, 컴퓨터화된 합성기와 같은 오디오 데이터 생성기 또는 오디오 데이터의 임의의 다른 소스를 포함할 수 있다. 비디오 소스(24)는, 비디오 인코더(28)에 의해 인코딩될 비디오 데이터를 생성하는 비디오 카메라, 이전에 레코딩된 비디오 데이터로 인코딩된 저장 매체, 컴퓨터 그래픽 소스와 같은 비디오 데이터 생성 유닛 또는 비디오 데이터의 임의의 다른 소스를 포함할 수 있다. 콘텐츠 준비 디바이스(20)는 모든 예들에서 반드시 브로드캐스트 소스 디바이스(60)에 통신가능하게 커플링될 필요는 없지만, 브로드캐스트 소스 디바이스(60)에 의해 판독되는 별개의 매체에 멀티미디어 콘텐츠를 저장할 수 있다.

[0063] 원시 오디오 및 비디오 데이터는 아날로그 또는 디지털 데이터를 포함할 수 있다. 아날로그 데이터는 오디오 인코더(26) 및/또는 비디오 인코더(28)에 의해 인코딩되기 전에 디지털화될 수 있다. 오디오 소스(22)는, 스피킹 참여자가 말하고 있는 동안 스피킹 참여자로부터 오디오 데이터를 획득할 수 있고, 동시에, 비디오 소스(24)는 스피킹 참여자의 비디오 데이터를 획득할 수 있다. 다른 예들에서, 오디오 소스(22)는 저장된 오디오 데이터를 포함하는 컴퓨터 판독가능 저장 매체를 포함할 수 있고, 비디오 소스(24)는 저장된 비디오 데이터를 포함하는 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이러한 방식으로, 본 개시에 설명된 기술들은 라이브, 스트리밍, 실시간 오디오 및 비디오 데이터에, 또는 아카이브되고 미리 레코딩된 오디오 및 비디오 데이터에 적용될 수 있다.

[0064] 비디오 프레임들에 대응하는 오디오 프레임들은 일반적으로, 비디오 프레임들 내에 포함된 비디오 소스(24)에 의해 캡처된(또는 생성된) 비디오 데이터와 동시에 오디오 소스(22)에 의해 캡처된(또는 생성된) 오디오 데이터를 포함하는 오디오 프레임들이다. 예를 들어, 스피킹 참여자가 일반적으로 스피킹에 의해 오디오 데이터를 생성하는 동안, 오디오 소스(22)는 오디오 데이터를 캡처하고, 그와 동시에, 즉, 오디오 소스(22)가 오디오 데이터를 캡처하는 동안 비디오 소스(24)는 스피킹 참여자의 비디오 데이터를 캡처한다. 따라서, 오디오 프레임은 하나 이상의 특정 비디오 프레임들에 시간적으로 대응할 수 있다. 따라서, 비디오 프레임에 대응하는 오디오 프레임은 일반적으로, 오디오 데이터 및 비디오 데이터가 동시에 캡처되었고(또는 그렇지 않으면 동시에 제시되고), 오디오 프레임 및 비디오 프레임이 동시에 캡처된 오디오 데이터 및 비디오 데이터를 각각 포함하는 상황에 대응한다. 또한, 비디오 및 다른 오디오 데이터, 예를 들어, 나레이션과 동시에 제시될 오디오 데이터가 별개로 생성될 수 있다.

[0065] 일부 예들에서, 오디오 인코더(26)는, 인코딩된 오디오 프레임에 대한 오디오 데이터가 레코딩된 시간을 표현하는 각각의 인코딩된 오디오 프레임에서 타임스탬프를 인코딩할 수 있고, 유사하게, 비디오 인코더(28)는 인코딩된 비디오 프레임에 대한 비디오 데이터가 레코딩된 시간을 표현하는 각각의 인코딩된 비디오 프레임에서 타임스탬프를 인코딩할 수 있다. 이러한 예들에서, 비디오 프레임에 대응하는 오디오 프레임은 타임스탬프를 포함하는 오디오 프레임 및 동일한 타임스탬프를 포함하는 비디오 프레임을 포함할 수 있다. 콘텐츠 준비 디바이스(20)는, 오디오 인코더(26) 및/또는 비디오 인코더(28)가 타임스탬프들을 생성할 수 있거나 또는 오디오 및 비디오 데이터를 타임스탬프와 각각 연관시키기 위해 오디오 소스(22) 및 비디오 소스(24)가 사용할 수 있는 내부 클럭을 포함할 수 있다.

[0066] 일부 예에서, 오디오 소스(22)는 오디오 데이터가 레코딩된 시간에 대응하는 데이터를 오디오 인코더(26)에 전송할 수 있고, 비디오 소스(24)는 비디오 데이터가 레코딩된 시간에 대응하는 데이터를 비디오 인코더(28)에 전송할 수 있다. 일부 예들에서, 오디오 인코더(26)는 인코딩된 오디오 데이터의 상대적인 시간적 순서를 표시하기 위해 그러나 오디오 데이터가 레코딩된 절대적 시간을 반드시 표시할 필요는 없이 인코딩된 오디오 데이터에서 시퀀스 식별자를 인코딩할 수 있고, 유사하게, 비디오 인코더(28)는 또한 인코딩된 비디오 데이터의 상대적인 시간적 순서를 표시하기 위해 시퀀스 식별자들을 사용할 수 있다. 유사하게, 일부 예들에서, 시퀀스 식별자는 타임스탬프와 맵핑되거나 그렇지 않으면 상관될 수 있다.

[0067] 오디오 인코더(26)는 일반적으로 인코딩된 오디오 데이터의 스트림을 생성하는 한편, 비디오 인코더(28)는 인코딩된 비디오 데이터의 스트림을 생성한다. (오디오이든 또는 비디오이든) 각각의 개별적인 데이터 스트림은 기본적 스트림으로 지칭될 수 있다. 기본적 스트림은 표현의 단일의 디지털 코딩된(가능하게는 압축된) 컴포넌트이다. 예를 들어, 표현의 코딩된 비디오 또는 오디오 부분은 기본적 스트림일 수 있다. 기본적 스트림은 비디오 파일 내에서 캡슐화되기 전에 PES(packetized elementary stream)로 변환될 수 있다. 동일한 표현 내에서, 스트림 ID는 하나의 기본적 스트림에 속하는 PES-패킷들을 다른 것으로부터 구별하기 위해 사용될 수 있다. 기본적 스트림의 기본 데이터 유닛은 PES(packetized elementary stream) 패킷이다. 따라서, 코딩된 비디오 데이터는 일반적으로 기본적 비디오 스트림들에 대응한다. 유사하게, 오디오 데이터는 하나 이상의 각각의 기본적 스트림들에 대응한다.

[0068] 도 1의 예에서, 콘텐츠 준비 디바이스(20)의 캡슐화 유닛(30)은 비디오 인코더(28)로부터 코딩된 비디오 데이터를 포함하는 기본적 스트림들 및 오디오 인코더(26)로부터 코딩된 오디오 데이터를 포함하는 기본적 스트림들을 수신한다. 일부 예들에서, 비디오 인코더(28) 및 오디오 인코더(26)는 각각 인코딩된 데이터로부터 PES 패킷들을 형성하기 위한 패킷화기들을 포함할 수 있다. 다른 예들에서, 비디오 인코더(28) 및 오디오 인코더(26)는 각각 인코딩된 데이터로부터 PES 패킷들을 형성하기 위한 각각의 패킷화기들과 인터페이싱할 수 있다. 또 다른 예들에서, 캡슐화 유닛(30)은 인코딩된 오디오 및 비디오 데이터로부터 PES 패킷들을 형성하기 위한 패킷화기들을 포함할 수 있다.

[0069] 비디오 인코더(28)는, 픽셀 해상도들, 프레임 레이트들, 다양한 코딩 표준들에 대한 준수, 다양한 프로파일들에 대한 준수 및/또는 다양한 코딩 표준들에 대한 프로파일들의 레벨들, 하나의 또는 (예를 들어, 2-차원 또는 3-차원 재생을 위한) 다수의 뷰들을 갖는 표현들, 또는 다른 이러한 특성들과 같은 다양한 특성들로 그리고 다양한 비트레이트들에서 멀티미디어 콘텐츠의 상이한 표현들을 생성하기 위해 다양한 방식들로 멀티미디어 콘텐츠의 비디오 데이터를 인코딩할 수 있다. 유사하게, 오디오 인코더(26)는 다양한 특성들을 갖는 다양한 상이한 방식들로 오디오 데이터를 인코딩할 수 있다. 아래에서 더 상세히 논의되는 바와 같이, 예를 들어, 오디오 인코더(26)는, 장면-기반 오디오 데이터, 채널-기반 오디오 데이터 및/또는 오브젝트-기반 오디오 데이터 중 하나 이상을 각각 포함하는 오디오 적응 세트들을 형성할 수 있다. 추가적으로 또는 대안적으로, 오디오 인코더(26)는 스케일링가능한 오디오 데이터를 포함하는 적응 세트들을 형성할 수 있다. 예를 들어, 오디오 인코더(26)는 아래에서 더 상세히 논의되는 바와 같이, 베이스 계층, 좌측/우측 정보 및 높이 정보에 대한 적응 세트들을 형성할 수 있다.

[0070] 본 개시에서 사용되는 바와 같은 표현은 오디오 데이터, 비디오 데이터, (예를 들어, 폐쇄 자막에 대한) 텍스트 데이터 또는 다른 이러한 데이터 중 하나를 포함할 수 있다. 표현은 기본적 스트림, 예를 들어, 오디오 기본적 스트림 또는 비디오 기본적 스트림을 포함할 수 있다. 각각의 PES 패킷은, PES 패킷이 속한 기본적 스트림을 식별하는 stream_id를 포함할 수 있다. 캡슐화 유닛(30)은 기본적 스트림들을 다양한 표현들의 비디오 파일들(예를 들어, 세그먼트들)로 어셈블링하는 것을 담당한다.

[0071] 캡슐화 유닛(30)은 오디오 인코더(26) 및 비디오 인코더(28)로부터 표현의 기본적 스트림들에 대한 PES 패킷들을 수신하고, PES 패킷들로부터 대응하는 NAL(network abstraction layer) 유닛들을 형성한다.

[0072] 캡슐화 유닛(30)은 멀티미디어 콘텐츠의 하나 이상의 표현들에 대한 데이터를 매니페스트 파일(예를 들어, MPD)과 함께 출력 인터페이스(32)에 제공할 수 있다. 출력 인터페이스(32)는, 네트워크 인터페이스, 또는 USB(universal serial bus) 인터페이스, CD 또는 DVD 기록기 또는 버너(burner), 자기 또는 플래시 저장 매체들에 대한 인터페이스 또는 미디어 데이터를 저장 또는 송신하기 위한 다른 인터페이스들과 같은 저장 매체에 기록하기 위한 인터페이스를 포함할 수 있다. 캡슐화 유닛(30)은 멀티미디어 콘텐츠의 표현들 각각의 데이터를 출력 인터페이스(32)에 제공할 수 있고, 출력 인터페이스(32)는 네트워크 송신 또는 저장 매체들을 통해 브로드캐스트 소스 디바이스(60)에 데이터를 전송할 수 있다. 도 1의 예에서, 브로드캐스트 소스 디바이스(60)는, 각각의 매니페스트 파일(66) 및 하나 이상의 표현들(68A-68N)(표현들(68))을 각각 포함하는 다양한 멀티미디어 콘텐츠(64)를 저장하는 저장 매체(62)를 포함한다. 일부 예들에서, 출력 인터페이스(32)는 또한 데이터를 네트워크(74)에 직접 전송할 수 있다.

[0073] 일부 예들에서, 표현들(68)은 적응 세트들로 분리될 수 있다. 즉, 표현들(68)의 다양한 서브세트들은, 코덱, 프로파일 및 레벨, 해상도, 뷰들의 수, 세그먼트들에 대한 파일 포맷, 표현에 의해 디스플레이될 텍스트의 언어 또는 다른 특성들을 식별할 수 있는 텍스트 타입 정보 및/또는 예를 들어, 스피커들에 의해 디코딩 및 제시될 오디오 데이터, 카메라 각도 또는 적응 세트의 표현들에 대한 장면 관점에서 실세계 카메라를 설명할 수 있는 카메라 각도 정보, 특정 청중들에 대한 콘텐츠 적합성을 설명하는 레이팅 정보 등과 같은 특성들의 각각의 공통 세트들을 포함할 수 있다.

[0074] 매니페스트 파일(66)은 특정 적응 세트들에 대응하는 표현들(68)의 서브세트들 뿐만 아니라 적응 세트들에 대한 공통 특성들을 표시하는 데이터를 포함할 수 있다. 매니페스트 파일(66)은 또한 개별적인 특성들, 예를 들어, 적응 세트들의 개별적인 표현들에 대한 비트레이트들을 표현하는 데이터를 포함할 수 있다. 이러한 방식으로, 적응 세트는 단순화된 네트워크 대역폭 적응을 제공할 수 있다. 적응 세트의 표현들은 매니페스트 파일(66)의 적응 세트 엘리먼트의 자(child) 엘리먼트들을 사용하여 표시될 수 있다.

[0075] 브로드캐스트 소스 디바이스(60)는 출력 인터페이스(72)를 포함한다. 브로드캐스트 소스 디바이스(60)는 출력 인터페이스(72)를 통해 브로드캐스트 유닛(74)에 멀티미디어 콘텐츠를 제공한다.

[0076] 도 1의 예에 예시된 바와 같이, 멀티미디어 콘텐츠(64)는 MPD(media presentation description)에 대응할 수 있는 매니페스트 파일(66)을 포함한다. 매니페스트 파일(66)은 상이한 대안적인 표현들(68)(예를 들어, 상이한 품질들을 갖는 비디오 서비스들)의 설명들을 포함할 수 있고, 설명은, 예를 들어, 코덱 정보, 프로파일 값, 레벨 값, 비트레이트 및 표현들(68)의 다른 설명적 특성들을 포함할 수 있다. 클라이언트 디바이스(40)는 표현들(68)의 세그먼트들에 어떻게 액세스할지를 결정하기 위해 미디어 프리젠테이션의 MPD를 리트리브할 수 있다.

[0077] 특히, 수신 유닛(52)은 OTA 브로드캐스트 미들웨어 유닛 및 미디어 플레이어 클라이언트 둘 모두를 포함할 수 있다. OTA 브로드캐스트 미들웨어 유닛은 예를 들어, DASH(Dynamic Adaptive Streaming over HTTP)에 따라 네트워크 프로토콜들을 통해 미디어 데이터를 리트리브하도록 구성될 수 있는 미디어 플레이어 클라이언트에 대한 프록시 서버로서 동작할 수 있다. 즉, 미디어 클라이언트는 DASH 클라이언트를 포함할 수 있다. 따라서, 미디어 클라이언트는 비디오 디코더(48)의 디코딩 능력들 및 비디오 출력(44)의 렌더링 능력들을 결정하기 위해 클라이언트 디바이스(40)의 구성 데이터(미도시)를 리트리브할 수 있다. 구성 데이터는 또한 클라이언트 디바이스(40)의 사용자에 의해 선택된 언어 선호도, 클라이언트 디바이스(40)의 사용자에 의해 설정된 깊이 선호도들에 대응하는 하나 이상의 카메라 관점들, 및/또는 클라이언트 디바이스(40)의 사용자에 의해 선택된 레이팅 선호도 중 임의의 것 또는 전부를 포함할 수 있다. 미디어 클라이언트는 HTTP GET 및 부분적 GET 요청들을 OTA 브로드캐스트 미들웨어 유닛에 제출하도록 구성될 수 있다. 수신 유닛(52)의 특정 양상들은 클라이언트 디바이스(40)의 하나 이상의 프로세서들 또는 프로세싱 유닛들(미도시)에 의해 실행되는 소프트웨어 명령들로서 구현될 수 있다. 즉, 수신 유닛(52)에 대해 설명된 기능의 일부들은 하드웨어, 또는 하드웨어, 소프트웨어 및/또는 펌웨어의 조합으로 구현될 수 있고, 여기서 소프트웨어 또는 펌웨어에 대한 명령들을 실행하기 위해 필수적 하드웨어가 제공될 수 있다.

[0078] 수신 유닛(52)의 미디어 플레이어 클라이언트는 클라이언트 디바이스(40)의 디코딩 및 렌더링 능력들을 매니페스트 파일(66)의 정보에 의해 표시되는 표현들(68)의 특성들과 비교할 수 있다. 미디어 플레이어 클라이언트는 표현들(68)의 특성들을 결정하기 위해 매니페스트 파일(66)의 적어도 일부를 초기에 리트리브할 수 있다. 예를 들어, 미디어 플레이어 클라이언트는 하나 이상의 적응 세트들의 특성들을 설명하는 매니페스트 파일(66)의 일부를 요청할 수 있다. 미디어 플레이어 클라이언트는 클라이언트 디바이스(40)의 코딩 및 렌더링 능력들에 의해 충족될 수 있는 특성들을 갖는 표현들(68)(예를 들어, 적응 세트)의 서브세트를 선택할 수 있다. 그 다음, 미디어 플레이어 클라이언트는, 적응 세트의 표현들에 대한 비트레이트들을 결정할 수 있고, 네트워크 대역폭의 현재 이용가능한 양을 결정할 수 있고, 네트워크 대역폭에 의해 충족될 수 있는 비트레이트를 갖는 표현들 중 하나로부터 세그먼트들을 리트리브할 수 있다.

[0079] 앞서 언급된 바와 같이, 수신 유닛(52)은 OTA 브로드캐스트 미들웨어 유닛을 포함할 수 있다. OTA 브로드캐스트 미들웨어 유닛은 예를 들어, ATSC에 따라 OTA 브로드캐스트 신호들을 수신하도록 구성될 수 있다. 또한, OTA 브로드캐스트 미들웨어 유닛은, 수신된 미디어 데이터를 로컬로 캐시하고 수신 유닛(52)의 미디어 플레이어 클라이언트로부터의 데이터에 대한 네트워크 요청들에 대해 응답하는 네트워크 프록시 서버를 구현할 수 있다.

[0080] 이러한 예는 예를 들어, ATSC에 따른 OTA 브로드캐스트들을 포함하지만, 다른 예들에서, 미디어 데이터는 eMBMS(Enhanced Multimedia Broadcast Multicast Service)와 같은 네트워크 브로드캐스트들을 통해 전송될 수 있다. 이러한 예들에서, 미디어 데이터는 네트워크 서버(일반적으로 브로드캐스트 소스 디바이스(60)에 대응할 수 있음)에 의해 컴퓨터-기반 네트워크(이 예에서는 미도시)를 통해 클라이언트 디바이스(40)에 브로드캐스트 또는 멀티캐스트될 수 있다. 네트워크는 서버 디바이스와 클라이언트 디바이스(40) 사이에 위치될 수 있고, 다양한 네트워크 디바이스들, 예를 들어, 라우터들, 스위치들, 허브들, 게이트웨이들 등을 포함할 수 있다. 또한, 수신 유닛(52)은 OTA 브로드캐스트 미들웨어 유닛 대신, eMBMS 미들웨어 유닛을 포함할 수 있다. eMBMS 미들웨어 유닛은, 본원에 설명된 바와 같이 OTA 브로드캐스트 수신 유닛 대신 eMBMS 수신 유닛을 포함하는 것을 제외하고는, 이러한 예에서 설명된 OTA 브로드캐스트 미들웨어 유닛과 실질적으로 동일하게 동작할 수 있다.

[0081] 수신 유닛(52)은 수신된 세그먼트들을 캡슐화해제 유닛(50)에 제공한다. 캡슐화해제 유닛(50)은 비디오 파일의 엘리먼트들을 구성 PES 스트림들로 캡슐화해제할 수 있고, 인코딩된 데이터를 리트리브하기 위해 PES 스트림들을 패킷화해제할 수 있고, 예를 들어, 스트림의 PES 패킷 헤더들에 의해 표시된 바와 같이 인코딩된 데이터가 오디오 또는 비디오 스트림의 일부인지 여부에 따라 오디오 디코더(46) 또는 비디오 디코더(48) 중 어느 하나에 인코딩된 데이터를 전송할 수 있다. 오디오 디코더(46)는 인코딩된 오디오 데이터를 디코딩하고, 디코딩된 오디오 데이터를 오디오 출력(42)에 전송하는 한편, 비디오 디코더(48)는 인코딩된 비디오 데이터를 디코딩하고, 스트림의 복수의 뷰들을 포함할 수 있는 디코딩된 비디오 데이터를 비디오 출력(44)에 전송한다.

[0082] 비디오 인코더(28), 비디오 디코더(48), 오디오 인코더(26), 오디오 디코더(46), 캡슐화 유닛(30), 수신 유닛(52) 및 캡슐화해제 유닛(50) 각각은, 적용가능한 대로, 하나 이상의 마이크로프로세서들, DSP들(digital signal processors), ASIC들(application specific integrated circuits), FPGA들(field programmable gate arrays), 이산적 로직 회로, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합들과 같은 다양한 적절한 프로세싱 회로 중 임의의 것으로 구현될 수 있다. 비디오 인코더(28) 및 비디오 디코더(48) 각각은 하나 이상의 인코더들 또는 디코더들에 포함될 수 있고, 이들 중 어느 하나는 결합된 비디오 인코더/디코더(CODEC)의 일부로서 통합될 수 있다. 유사하게, 오디오 인코더(26) 및 오디오 디코더(46) 각각은 하나 이상의 인코더들 또는 디코더들에 포함될 수 있고, 이들 중 어느 하나는 결합된 CODEC의 일부로서 통합될 수 있다. 비디오 인코더(28), 비디오 디코더(48), 오디오 인코더(26), 오디오 디코더(46), 캡슐화 유닛(30), 수신 유닛(52) 및/또는 캡슐화해제 유닛(50)을 포함하는 장치는 집적 회로, 마이크로프로세서 및/또는 무선 통신 디바이스, 예를 들어, 셀룰러 전화를 포함할 수 있다.

[0083] 클라이언트 디바이스(40), 브로드캐스트 소스 디바이스(60) 및/또는 콘텐츠 준비 디바이스(20)는 본 개시의 기술들에 따라 동작하도록 구성될 수 있다. 예시의 목적으로, 본 개시는 클라이언트 디바이스(40) 및 브로드캐스트 소스 디바이스(60)에 대해 이러한 기술들을 설명한다. 그러나, 브로드캐스트 소스 디바이스(60) 대신에(또는 이에 추가로), 콘텐츠 준비 디바이스(20)가 이러한 기술들을 수행하도록 구성될 수 있음을 이해해야 한다.

[0084] 캡슐화 유닛(30)은, NAL 유닛이 속하는 프로그램을 식별하는 헤더 뿐만 아니라 페이로드, 예를 들어, 오디오 데이터, 비디오 데이터 또는 NAL 유닛이 대응하는 전송 또는 프로그램 스트림을 설명하는 데이터를 포함하는 NAL 유닛들을 형성할 수 있다. 예를 들어, H.264/AVC에서, NAL 유닛은 1-바이트 헤더 및 가변 크기의 페이로드를 포함한다. 비디오 데이터를 이의 페이로드에 포함하는 NAL 유닛은 비디오 데이터의 다양한 입도 레벨들을 포함할 수 있다. 예를 들어, NAL 유닛은 비디오 데이터의 블록, 복수의 블록들, 비디오 데이터의 슬라이스 또는 비디오 데이터의 전체 픽처를 포함할 수 있다. 캡슐화 유닛(30)은 기본적 스트림들의 PES 패킷들의 형태로 비디오 인코더(28)로부터 인코딩된 비디오 데이터를 수신할 수 있다. 캡슐화 유닛(30)은 각각의 기본적 스트림을 대응하는 프로그램과 연관시킬 수 있다.

[0085] 캡슐화 유닛(30)은 또한 복수의 NAL 유닛들로부터 액세스 유닛들을 어셈블링할 수 있다. 일반적으로, 액세스 유닛은 비디오 데이터의 프레임을 표현하는 하나 이상의 NAL 유닛들, 또한 오디오 데이터가 이용가능한 경우 프레임에 대응하는 이러한 오디오 데이터를 포함할 수 있다. 액세스 유닛은 일반적으로 하나의 출력 시간 인스턴스에 대한 모든 NAL 유닛들, 예를 들어, 하나의 시간 인스턴스에 대한 모든 오디오 및 비디오 데이터를 포함한다. 예를 들어, 각각의 뷰가 20 fps(frames per second)의 프레임 레이트를 가지면, 각각의 시간 인스턴스는 0.05 초의 시간 인터벌에 대응할 수 있다. 이러한 시간 인터벌 동안, 동일한 액세스 유닛(동일한 시간 인스턴스)의 모든 뷰들에 대한 특정 프레임들은 동시에 렌더링될 수 있다. 일례에서, 액세스 유닛은 1차 코딩된 픽처로서 제시될 수 있는 일 시간 인스턴스의 코딩된 픽처를 포함할 수 있다.

[0086] 따라서, 액세스 유닛은 공통의 시간적 인스턴스의 모든 오디오 및 비디오 프레임들, 예를 들어, 시간 X에 대응하는 모든 뷰들을 포함할 수 있다. 본 개시는 또한 특정 뷰의 인코딩된 픽처를 "뷰 컴포넌트"로서 지칭한다. 즉, 뷰 컴포넌트는 특정 시간에 특정 뷰에 대한 인코딩된 픽처(또는 프레임)를 포함할 수 있다. 따라서, 액세스 유닛은 공통의 시간적 인스턴스의 모든 뷰 컴포넌트들을 포함하는 것으로 정의될 수 있다. 액세스 유닛들의 디코딩 순서는 출력 또는 디스플레이 순서와 반드시 동일할 필요는 없다.

[0087] 미디어 프리젠테이션은 MPD(media presentation description)를 포함할 수 있고, 이는 상이한 대안적 표현들(예를 들어, 상이한 품질들을 갖는 비디오 서비스들)의 설명들을 포함할 수 있고, 설명은, 예를 들어, 코덱 정보, 프로파일 값 및 레벨 값을 포함할 수 있다. MPD는 매니페스트 파일, 예를 들어, 매니페스트 파일(66)의 일례이다. 클라이언트 디바이스(40)는 다양한 프리젠테이션들의 영화 프래그먼트들에 어떻게 액세스할지를 결정하기 위해 미디어 프리젠테이션의 MPD를 리트리브할 수 있다. 영화 프래그먼트들은 비디오 파일들의 영화 프래그먼트 박스들(무프(moof) 박스들)에 위치될 수 있다.

[0088] 매니페스트 파일(66)(이는 예를 들어 MPD를 포함할 수 있음)은 표현들(68)의 세그먼트들의 이용가능성을 통지할 수 있다. 즉, MPD는, 표현들(68) 중 하나의 제1 세그먼트가 이용가능하게 되는 벽시계 시간을 표시하는 정보 뿐만 아니라 표현들(68) 내의 세그먼트들의 지속기간들을 표시하는 정보를 포함할 수 있다. 이러한 방식으로, 클라이언트 디바이스(40)의 리트리벌 유닛(52)은, 특정 세그먼트에 선행하는 세그먼트들의 시작 시간 뿐만 아니라 지속기간들에 기초하여, 각각의 세그먼트가 언제 이용가능한지를 결정할 수 있다.

[0089] 캡슐화 유닛(30)이 수신된 데이터에 기초하여 NAL 유닛들 및/또는 액세스 유닛들을 비디오 파일로 어셈블링한 후, 캡슐화 유닛(30)은 비디오 파일을 출력을 위해 출력 인터페이스(32)에 전달한다. 일부 예들에서, 캡슐화 유닛(30)은 비디오 파일을 로컬로 저장할 수 있거나, 또는 비디오 파일을 클라이언트 디바이스(40)에 직접 전송하기 보다는 비디오 파일을 출력 인터페이스(32)를 통해 원격 서버에 전송할 수 있다. 출력 인터페이스(32)는, 예를 들어, 송신기, 트랜시버, 데이터를, 예를 들어, 광 드라이브, 자기 매체 드라이브(예를 들어, 플로피 드라이브), USB(universal serial bus) 포트, 네트워크 인터페이스 또는 다른 출력 인터페이스와 같은 컴퓨터 판독가능 매체에 기록하기 위한 디바이스를 포함할 수 있다. 출력 인터페이스(32)는 예를 들어, 송신 신호, 자기 매체, 광 매체, 메모리, 플래시 드라이브 또는 다른 컴퓨터 판독가능 매체와 같은 컴퓨터 판독가능 매체에 비디오 파일을 출력한다.

[0090] 수신 유닛(52)은 브로드캐스트 유닛(74)으로부터 수신된 브로드캐스트 신호들로부터 NAL 유닛들 또는 액세스 유닛들을 추출하고, NAL 유닛들 또는 액세스 유닛들을 수신 유닛(52)에 제공하며, 수신 유닛(52)은 NAL 유닛들을 캡슐화해제 유닛(50)에 전달할 수 있다. 캡슐화해제 유닛(50)은 비디오 파일의 엘리먼트들을 구성 PES 스트림들로 캡슐화해제할 수 있고, 인코딩된 데이터를 리트리브하기 위해 PES 스트림들을 패킷화해제할 수 있고, 예를 들어, 스트림의 PES 패킷 헤더들에 의해 표시된 바와 같이 인코딩된 데이터가 오디오 또는 비디오 스트림의 일부인지 여부에 따라 오디오 디코더(46) 또는 비디오 디코더(48) 중 어느 하나에 인코딩된 데이터를 전송할 수 있다. 오디오 디코더(46)는 인코딩된 오디오 데이터를 디코딩하고, 디코딩된 오디오 데이터를 오디오 출력(42)에 전송하는 한편, 비디오 디코더(48)는 인코딩된 비디오 데이터를 디코딩하고, 스트림의 복수의 뷰들을 포함할 수 있는 디코딩된 비디오 데이터를 비디오 출력(44)에 전송한다.

[0091] 도 1의 예에는 명시적으로 도시되지 않지만, 클라이언트 디바이스(40)는 미디어 애플리케이션을 더 포함할 수 있다. 미디어 애플리케이션은 오디오 디코더(46), 비디오 디코더(48), 캡슐화해제 유닛(50) 및/또는 수신 유닛(52) 중 임의의 것의 기능 중 전부 또는 일부를 수행할 수 있다. 예를 들어, 미디어 애플리케이션은 수신 유닛(52)의 일부를 형성할 수 있거나, 수신 유닛(52)과 별개일 수 있다. 앞서 설명된 기능에 추가로, 미디어 애플리케이션은 클라이언트 디바이스(40)로 하여금 사용자 인터페이스, 예를 들어, GUI(graphical user interface)를 사용자에게 제시하게 하여, 영화 또는 다른 프로그램 콘텐츠와 같은 멀티미디어 데이터의 선택을 허용할 수 있다. 미디어 애플리케이션은 선택된 콘텐츠의 표시를 수신 유닛(52)에 제공하여, 앞서 논의된 바와 같이, 수신 유닛(52)으로 하여금 선택된 프로그램 콘텐츠의 미디어 데이터를 수신하게 할 수 있다. 미디어 애플리케이션은 독립형 소프트웨어일 수 있다.

[0092] 도 2는 도 1의 수신 유닛(52)의 컴포넌트들의 예시적인 세트를 더 상세히 예시하는 블록도이다. 이러한 예에서, 수신 유닛(52)은 OTA 브로드캐스트 미들웨어 유닛(100), DASH 클라이언트(110) 및 미디어 애플리케이션(112)을 포함한다.

[0093] OTA 브로드캐스트 미들웨어 유닛(100)은 OTA 브로드캐스트 수신 유닛(106), 캐시(104) 및 프록시 서버(102)를 더 포함한다. 이러한 예에서, OTA 브로드캐스트 수신 유닛(106)은 OTA 브로드캐스트를 통해, 예를 들어, ATSC(Advanced Television Systems Committee) 브로드캐스트를 통해 데이터를 수신하도록 구성된다. 즉, OTA 브로드캐스트 수신 유닛(106)은 예를 들어, 브로드캐스트 소스 디바이스(60)로부터 브로드캐스트를 통해 파일들을 수신할 수 있다.

[0094] OTA 브로드캐스트 미들웨어 유닛(100)이 파일들에 대한 데이터를 수신할 때, OTA 브로드캐스트 미들웨어 유닛(100)은 수신된 데이터를 캐시(104)에 저장할 수 있다. 캐시(104)는 플래시 메모리, 하드 디스크, RAM 또는 임의의 다른 적절한 저장 매체와 같은 컴퓨터 판독가능 저장 매체를 포함할 수 있다.

[0095] 프록시 서버(102)는 DASH 클라이언트(110)에 대한 프록시 서버로서 동작할 수 있다. 예를 들어, 프록시 서버(102)는 MPD 파일 또는 다른 매니페스트 파일을 DASH 클라이언트(110)에 제공할 수 있다. 프록시 서버(102)는 MPD 파일의 세그먼트들에 대한 이용가능성 시간들 뿐만 아니라 세그먼트들이 리트리브될 수 있는 하이퍼링크들을 통지할 수 있다. 이러한 하이퍼링크들은 클라이언트 디바이스(40)에 대응하는 로컬 호스트 어드레스 프리픽스를 포함할 수 있다(예를 들어, IPv4에 대한 127.0.0.1). 이러한 방식으로, DASH 클라이언트(110)는 HTTP GET 또는 부분적 GET 요청들을 사용하여 프록시 서버(102)로부터 세그먼트들을 요청할 수 있다. 예를 들어, 링크 http://127.0.0.1/rep1/seg3으로부터 입수가능한 세그먼트에 대해, DASH 클라이언트(110)는 http://127.0.0.1/rep1/seg3에 대한 요청을 포함하는 HTTP GET 요청을 구성할 수 있고 요청을 프록시 서버(102)에 제출할 수 있다. 프록시 서버(102)는 캐시(104)로부터 요청된 데이터를 리트리브할 수 있고, 이러한 요청들에 대한 응답으로 DASH 클라이언트(110)에 데이터를 제공할 수 있다.

[0096] 세그먼트를 수신한 후, DASH 클라이언트(110)는 세그먼트의 데이터를 미디어 애플리케이션(112)에 전달할 수 있다. DASH 클라이언트(110)는 예를 들어, 세그먼트로부터 미디어 데이터를 추출하도록 및/또는 미디어 애플리케이션(112)에 의해 사용가능하지 않은 데이터를 폐기하도록 세그먼트를 프로세싱할 수 있다. 일부 예들에서, DASH 클라이언트(110)는 웹 브라우저로의 확장으로서 구현될 수 있고, 미디어 애플리케이션(112)은 비디오 및/또는 음악 재생 애플리케이션으로서 구현될 수 있다.

[0097] 도 3은 예시적인 멀티미디어 콘텐츠(120)의 엘리먼트들을 예시하는 개념도이다. 멀티미디어 콘텐츠(120)는 멀티미디어 콘텐츠(64)(도 1) 또는 저장 매체(62)에 저장된 다른 멀티미디어 콘텐츠에 대응할 수 있다. 도 3의 예에서, 멀티미디어 콘텐츠(120)는 MPD(media presentation description)(122) 및 복수의 표현들(124A-124N)(표현들(124))을 포함한다. 표현(124A)은 선택적인 헤더 데이터(126) 및 세그먼트들(128A-128N)(세그먼트들(128))을 포함하는 한편, 표현(124N)은 선택적인 헤더 데이터(130) 및 세그먼트들(132A-132N)(세그먼트들(132))을 포함한다. 문자 N은 표현들(124) 각각의 마지막 영화 프래그먼트를 편의성 문제로 지정하기 위해 사용된다. 일부 예들에서, 표현들(124) 사이에 상이한 수들의 영화 프래그먼트들이 존재할 수 있다.

[0098] MPD(122)는 표현들(124)과 별개의 데이터 구조를 포함한다. MPD(122)는 도 1의 매니페스트 파일(66)에 대응할 수 있다. 마찬가지로, 표현들(124)은 도 2의 표현들(68)에 대응할 수 있다. 일반적으로, MPD(122)는, 코딩 및 렌더링 특성들, 적응 세트들, MPD(122)가 대응하는 프로파일, 텍스트 타입 정보, 카메라 각도 정보, 레이팅 정보, 트릭 모드 정보(예를 들어, 시간적 서브-시퀀스들을 포함하는 표현들을 표시하는 정보) 및/또는 (예를 들어, 재생 동안 미디어 콘텐츠로의 타겟팅된 광고 삽입에 대한) 원격 기간들을 리트리브하기 위한 정보와 같은 표현들(124)의 특성들을 일반적으로 설명하는 데이터를 포함할 수 있다.

[0099] 헤더 데이터(126)는 존재하는 경우, 세그먼트들(128)의 특성들, 예를 들어, 랜덤 액세스 포인트들(SAP들(stream access points)로 또한 지칭되는 RAP들)의 시간적 위치들, 세그먼트들(128) 중 어느 것이 랜덤 액세스 포인트들을 포함하는지, 세그먼트들(128) 내의 랜덤 액세스 포인트들에 대한 바이트 오프셋들, 세그먼트들(128)의 URL들(uniform resource locators) 또는 세그먼트들(128)의 다른 양상들을 설명할 수 있다. 헤더 데이터(130)는 존재하는 경우, 세그먼트들(132)에 대한 유사한 특성들을 설명할 수 있다. 추가적으로 또는 대안적으로, 이러한 특성들은 MPD(122) 내에 완전히 포함될 수 있다.

[0100] 세그먼트들(128, 132)은 하나 이상의 코딩된 미디어 샘플들을 포함한다. 세그먼트들(128)의 코딩된 미디어 샘플들 각각은 유사한 특성들, 예를 들어, 언어(스피치가 포함된 경우), 위치, CODEC 및 대역폭 요건들을 가질 수 있다. 이러한 특성들은 MPD(122)의 데이터에 의해 설명될 수 있지만, 이러한 데이터는 도 3의 예에 예시되지는 않는다. MPD(122)는 본 개시에 설명된 시그널링된 정보 중 임의의 것 또는 전부의 추가로, 3GPP 규격에 의해 설명되는 바와 같은 특성들을 포함할 수 있다.

[0101] 세그먼트들(128, 132) 각각은 고유의 URL(uniform resource locator)과 연관될 수 있다. 따라서, 세그먼트들(128, 132) 각각은 DASH와 같은 스트리밍 네트워크 프로토콜을 사용하여 독립적으로 리트리브가능할 수 있다. 이러한 방식으로, 목적지 디바이스, 예를 들어, 클라이언트 디바이스(40)는 세그먼트들(128 또는 132)을 리트리브하기 위해 HTTP GET 요청을 사용할 수 있다. 일부 예들에서, 클라이언트 디바이스(40)는 세그먼트들(128 또는 132)의 특정 바이트 범위들을 리트리브하기 위해 HTTP 부분적 GET 요청들을 사용할 수 있다.

[0102] 도 4는 표현의 세그먼트, 예를 들어, 도 3의 세그먼트들(128, 132) 중 하나에 대응할 수 있는 예시적인 미디어 파일(150)의 엘리먼트들을 예시하는 블록도이다. 세그먼트들(128, 132) 각각은 도 4의 예에 예시된 데이터의 배열을 실질적으로 준수하는 데이터를 포함할 수 있다. 미디어 파일(150)은 세그먼트를 캡슐화하는 것으로 지칭될 수 있다. 전술된 바와 같이, ISO 기반 미디어 파일 포맷 및 이의 확장들에 따른 비디오 파일들은 "박스들"로 지칭되는 일련의 오브젝트들에 데이터를 저장한다. 도 4의 예에서, 미디어 파일(150)은 파일 타입(FTYP) 박스(152), 영화(MOOV) 박스(154), 세그먼트 인덱스(sidx) 박스들(162), 영화 프래그먼트(MOOF) 박스들(164) 및 영화 프래그먼트 랜덤 액세스(MFRA) 박스(166)를 포함한다. 도 4는 비디오 파일의 예를 표현하지만, 다른 미디어 파일들은 ISO 기반 미디어 파일 포맷 및 이의 확장들에 따른 미디어 파일(150)의 데이터와 유사하게 구조화된 다른 타입들의 미디어 데이터(예를 들어, 오디오 데이터, 적시의 텍스트 데이터 등)를 포함할 수 있음을 이해해야 한다.

[0103] 파일 타입(FTYP) 박스(152)는 일반적으로 미디어 파일(150)에 대한 파일 타입을 설명한다. 파일 타입 박스(152)는 미디어 파일(150)에 대한 최상의 사용을 설명하는 규격을 식별하는 데이터를 포함할 수 있다. 파일 타입 박스(152)는 대안적으로, MOOV 박스(154), 영화 프래그먼트 박스들(164) 및/또는 MFRA 박스(166) 전에 배치될 수 있다.

[0104] 도 4의 예에서, MOOV 박스(154)는 영화 헤더(MVHD) 박스(156), 트랙(TRAK) 박스(158) 및 하나 이상의 영화 확장(MVEX) 박스들(160)을 포함한다. 일반적으로, MVHD 박스(156)는 미디어 파일(150)의 일반적 특성들을 설명할 수 있다. 예를 들어, MVHD 박스(156)는, 미디어 파일(150)이 언제 원래 생성되었는지, 미디어 파일(150)이 언제 마지막으로 수정되었는지, 미디어 파일(150)에 대한 타임스케일, 미디어 파일(150)에 대한 재생의 지속기간을 설명하는 데이터 또는 일반적으로 미디어 파일(150)을 설명하는 다른 데이터를 포함할 수 있다.

[0105] TRAX 박스(158)는 미디어 파일(150)의 트랙에 대한 데이터를 포함할 수 있다. TRAX 박스(158)는 TRAX 박스(158)에 대응하는 트랙의 특성들을 설명하는 트랙 헤더(TKHD) 박스를 포함할 수 있다. 일부 예들에서, TRAK 박스(158)는 코딩된 비디오 픽처들을 포함할 수 있는 한편, 다른 예들에서, 트랙의 코딩된 비디오 픽처들은 TRAK 박스(158) 및/또는 sidx 박스들(162)의 데이터에 의해 참조될 수 있는 영화 프래그먼트들(164)에 포함될 수 있다. 일부 예들에서, 트랙의 트랙 ID는 미디어 파일(150)의 완전히 제시가능한 오디오 프리젠테이션에 대한 식별자를 표현할 수 있다. 즉, 대응하는 트랙은 완전히 제시가능한 오디오 프리젠테이션에 대한 오디오 데이터를 포함할 수 있다. 대안적으로, PID(program identifier)는 완전히 제시가능한 오디오 프리젠테이션을 포함하는 MPEG-2 TS의 기본적 스트림에 대응하는 프로그램을 식별할 수 있다.

[0106] 일부 예들에서, 미디어 파일(150)은 하나보다 많은 트랙을 포함할 수 있다. 따라서, MOOV 박스(154)는 미디어 파일(150)의 트랙들의 수와 동일한 TRAK 박스들의 수를 포함할 수 있다. TRAX 박스(158)는 미디어 파일(150)의 대응하는 트랙의 특성들을 설명할 수 있다. 예를 들어, TRAK 박스(158)는 대응하는 트랙에 대한 시간적 및/또는 공간적 정보를 설명할 수 있다. MOOV 박스(154)의 TRAK 박스(158)와 유사한 TRAK 박스는, 캡슐화 유닛(30)(도 3)이 미디어 파일(150)과 같은 비디오 파일의 파라미터 세트 트랙을 포함하는 경우, 파라미터 세트 트랙의 특성들을 설명할 수 있다. 캡슐화 유닛(30)은 파라미터 세트 트랙을 설명하는 TRAK 박스 내의 파라미터 세트 트랙에서 시퀀스 레벨 SEI 메시지들의 존재를 시그널링할 수 있다.

[0107] MVEX 박스들(160)은, 존재하는 경우 MOOV 박스(154) 내에 포함된 비디오 데이터에 추가로, 예를 들어, 미디어 파일(150)이 영화 프래그먼트들(164)을 포함함을 시그널링하기 위해, 대응하는 영화 프래그먼트들(164)의 특성들을 설명할 수 있다. 비디오 데이터를 스트리밍하는 상황에서, 코딩된 비디오 픽처들은 MOOV 박스(154)에서보다는 영화 프래그먼트들(164)에 포함될 수 있다. 따라서, 모든 코딩된 비디오 샘플들은 MOOV 박스(154)에서보다는 영화 프래그먼트들(164)에 포함될 수 있다.

[0108] MOOV 박스(154)는 미디어 파일(150)의 영화 프래그먼트들(164)의 수와 동일한 다수의 MVEX 박스들(160)을 포함할 수 있다. MVEX 박스들(160) 각각은 영화 프래그먼트들(164) 중 대응하는 것의 특성들을 설명할 수 있다. 예를 들어, 각각의 MVEX 박스는 영화 프래그먼트들(164) 중 대응하는 것에 대한 시간적 지속기간을 설명하는 영화 확장 헤더 박스(MEHD) 박스를 포함할 수 있다.

[0109] 앞서 언급된 바와 같이, 캡슐화 유닛(30)은 실제 코딩된 비디오 데이터를 포함하지 않는 비디오 샘플에 시퀀스 데이터 세트를 저장할 수 있다. 비디오 샘플은 일반적으로 특정 시간 인스턴스에서 코딩된 픽처의 표현인 액세스 유닛에 대응할 수 있다. AVC의 상황에서, 코딩된 픽처는 액세스 유닛의 모든 픽셀들 및 SEI 메시지들과 같은 다른 연관된 넌-VCL NAL 유닛들을 구성하기 위한 정보를 포함하는 하나 이상의 VCL NAL 유닛들을 포함한다. 따라서, 캡슐화 유닛(30)은 영화 프래그먼트들(164) 중 하나에서 시퀀스 레벨 SEI 메시지들을 포함할 수 있는 시퀀스 데이터 세트를 포함할 수 있다. 캡슐화 유닛(30)은, 시퀀스 데이터 세트 및/또는 시퀀스 레벨 SEI 메시지들의 존재를, 영화 프래그먼트들(164) 중 하나에 대응하는 MVEX 박스들(160) 중 하나 내의 영화 프래그먼트들(164) 중 하나에 존재하는 것으로 추가로 시그널링할 수 있다.

[0110] SIDX 박스들(162)은 미디어 파일(150)의 선택적 엘리먼트들이다. 즉, 3GPP 파일 포맷 또는 다른 이러한 파일 포맷들을 준수하는 비디오 파일들은 반드시 SIDX 박스들(162)을 포함하지는 않는다. 3GPP 파일 포맷의 예에 따르면, SIDX 박스는 세그먼트(예를 들어, 미디어 파일(150) 내에 포함된 세그먼트)의 서브-세그먼트를 식별하기 위해 사용될 수 있다. 3GPP 파일 포맷은 서브-세그먼트를 "대응하는 미디어 데이터 박스(들)를 갖는 하나 이상의 연속적인 영화 프래그먼트 박스들의 자체-포함 세트로서 정의하고, 영화 프래그먼트 박스에 의해 참조되는 데이터를 포함하는 미디어 데이터 박스는 그 영화 프래그먼트 박스를 따라야 하며 동일한 트랙에 대한 정보를 포함하는 다음 영화 프래그먼트 박스에 선행해야 한다." 3GPP 파일 포맷은 또한, SIDX 박스가 "그 박스에 의해 다큐먼트화된 (서브)세그먼트의 서브세그먼트들에 대한 참조들의 시퀀스를 포함함을 표시한다. 참조된 서브세그먼트들은 프리젠테이션 시간에서 인접하다. 유사하게, 세그먼트 인덱스 박스에 의해 참조되는 바이트들은 세그먼트 내에서 항상 인접하다. 참조되는 크기는 참조되는 재료의 바이트들의 수의 카운트를 부여한다."

[0111] SIDX 박스들(162)은 일반적으로 미디어 파일(150)에 포함된 세그먼트의 하나 이상의 서브-세그먼트들을 표현하는 정보를 제공한다. 예를 들어, 이러한 정보는, 서브-세그먼트들이 시작 및/또는 종료되는 재생 시간들, 서브-세그먼트들에 대한 바이트 오프셋들, 서브-세그먼트들이 스트림 액세스 포인트(SAP)를 포함하는지(예를 들어, 시작하는지) 여부, SAP에 대한 타입(예를 들어, SAP가 IDR(instantaneous decoder refresh) 픽처, CRA(clean random access) 픽처, BLA(broken link access ) 픽처 등인지 여부), 서브-세그먼트에서 (재생 시간 및/또는 바이트 오프셋의 관점에서) SAP의 위치 등을 포함할 수 있다.

[0112] 영화 프래그먼트들(164)은 하나 이상의 코딩된 비디오 픽처들을 포함할 수 있다. 일부 예들에서, 영화 프래그먼트들(164)은 하나 이상의 GOP들(groups of pictures)을 포함할 수 있고, 이들 각각은 다수의 코딩된 비디오 픽처들, 예를 들어, 프레임들 또는 픽처들을 포함할 수 있다. 또한, 앞서 설명된 바와 같이, 영화 프래그먼트들(164)은 일부 예들에서 시퀀스 데이터 세트들을 포함할 수 있다. 영화 프래그먼트들(164) 각각은 영화 프래그먼트 헤더 박스(MFHD, 도 4에는 미도시)를 포함할 수 있다. MFHD 박스는 영화 프래그먼트에 대한 시퀀스 번호와 같은 대응하는 영화 프래그먼트의 특성들을 설명할 수 있다. 영화 프래그먼트들(164)은 미디어 파일(150)의 시퀀스 번호의 순서로 포함될 수 있다.

[0113] MFRA 박스(166)는 미디어 파일(150)의 영화 프래그먼트들(164) 내의 랜덤 액세스 포인트들을 설명할 수 있다. 이는, 트릭 모드들을 수행하는 것, 예를 들어, 미디어 파일(150)에 의해 캡슐화된 세그먼트 내의 특정한 시간적 위치들(즉, 재생 시간들)에 대한 추구를 수행하는 것을 보조할 수 있다. MFRA 박스(166)는 일반적으로 선택적이고, 일부 예들에서 비디오 파일들에 포함될 필요가 없다. 유사하게, 클라이언트 디바이스, 예를 들어, 클라이언트 디바이스(40)는 미디어 파일(150)의 비디오 데이터를 정확하게 디코딩 및 디스플레이하기 위해 반드시 MFRA 박스(166)를 참조할 필요는 없다. MFRA 박스(166)는 미디어 파일(150)의 트랙들의 수와 동일한 또는 일부 예들에서 미디어 파일(150)의 미디어 트랙들(예를 들어, 넌-힌트 트랙들)의 수와 동일한 다수의 TFRA(track fragment random access) 박스들(미도시)을 포함할 수 있다.

[0114] 일부 예들에서, 영화 프래그먼트들(164)은 IDR 픽처들과 같은 하나 이상의 SAP들(stream access points)을 포함할 수 있다. 마찬가지로, MFRA 박스(166)는 SAP들의 미디어 파일(150) 내의 위치들의 표시들을 제공할 수 있다. 따라서, 미디어 파일(150의 시간적 서브-시퀀스는 미디어 파일(150)의 SAP들로부터 형성될 수 있다. 시간적 서브-시퀀스는 또한 다른 픽처들, 예를 들어, SAP들로부터 의존하는 P-프레임들 및/또는 B-프레임들을 포함할 수 있다. 시간적 서브-시퀀스의 프레임들 및/또는 슬라이스들은 세그먼트들 내에 배열될 수 있어서, 서브-시퀀스의 다른 프레임들/슬라이스들에 의존하는 시간적 서브-시퀀스의 프레임들/슬라이스들은 적절히 디코딩될 수 있다. 예를 들어, 데이터의 계층구조적 배열에서, 다른 데이터에 대한 예측에 사용되는 데이터는 또한 시간적 서브-시퀀스에 포함될 수 있다.

[0115] 도 5는 오디오 데이터를 수신하기 위한 예시적인 시스템(200)을 예시하는 개념도이다. 시스템(200)은 선택 유닛(222), 시스템즈 계층 유닛(224), 오디오 디코더들(226), 오디오 렌더링 유닛(228), 브라우저(232) 및 사용자 인터페이스/에이전트(230)를 포함한다. 이러한 예에서, 수신된 오디오 데이터는 M&E(music & effects) 스트림(204)(시스템즈 메타데이터(202)를 동반함), 영어 대화 스트림(208)(시스템즈 메타데이터(206)를 동반함), 독일어 대화 스트림(212)(시스템즈 메타데이터(210)를 동반함), 영어 코멘터리 스트림(216)(시스템즈 메타데이터(214)를 동반함) 및 독일어 코멘터리 스트림(220)(시스템즈 메타데이터(218)를 동반함) 중 임의의 것 또는 전부를 포함할 수 있다.

[0116] 일반적으로, 시스템즈 계층 유닛(224)은 예를 들어, 오디오 데이터와 같은 전송된 미디어 데이터를 수신하기 위해, MPEG-2 시스템즈의 기술들을 구현할 수 있다. 따라서, 이러한 예에서 시스템즈 계층 유닛(224)은 시스템즈 메타데이터(202, 206, 210, 214 및 218)를 수신한다. 시스템즈 계층 유닛(224)은 대응하는 스트림들의 오디오 데이터에 액세스하기 위해 시스템즈 메타데이터를 사용할 수 있다. 시스템즈 계층 유닛(224)은 또한, 브로드캐스트 및/또는 브로드밴드가 이용가능한지 여부와 같은 네트워크 능력들을 결정할 수 있고, 오직 이용불가능한 네트워크들 상에서 반송되는 스트림들의 선택을 방지할 수 있다. 사용자 인터페이스/에이전트(230)는, M&E 스트림(204), 영어 대화 스트림(208), 독일어 대화 스트림(212), 영어 코멘터리 스트림(216) 및/또는 독일어 코멘터리 스트림(220) 중 임의의 것 또는 전부를 선택하기 위해 시스템즈 계층 유닛(224)에 의해 제공된 API를 통해 선택 데이터(238)를 전달할 수 있다. 추가적으로 또는 대안적으로, 브라우저(232)는 대역내 미디어 자원 트랙들을 소싱하는 W3C을 통해 시스템즈 계층 유닛(224)에 선택들(236)을 제공할 수 있다.

[0117] 시스템즈 계층 유닛(224)은 선택 유닛(222)에 선택 데이터(240)를 전달한다. 선택 유닛(222)은 M&E 스트림(204), 영어 대화 스트림(208), 독일어 대화 스트림(212), 영어 코멘터리 스트림(216) 및/또는 독일어 코멘터리 스트림(220) 중 임의의 것 또는 전부의 미디어 데이터를 수신한다. 선택 유닛(222)은 선택된 스트림들로부터의 오디오 데이터를 오디오 디코더들(226)에 전달한다. 예를 들어, M&E 스트림(204) 및 영어 대화 스트림(208)이 선택된 것으로 선택 데이터(240)가 표시하면, 선택 유닛(222)은 M&E 스트림(204) 및 영어 대화 스트림(208)으로부터의 오디오 데이터를 오디오 디코더들(226)에 전달한다.

[0118] 오디오 디코더들(226)은 선택 유닛(222)으로부터 수신된 오디오 데이터를 디코딩한다. 오디오 디코더들(226)은 오디오 렌더링 유닛(228)에 디코딩된 오디오 데이터(242)를 전달한다. 오디오 렌더링 유닛(228)은 디코딩된 오디오 데이터(242)를 함께 혼합하고, 하나 이상의 스피커들(미도시)과 같은 오디오 출력에 렌더링된 오디오 데이터를 제공한다.

[0119] ETSI(European Telecommunications Standards Institute) TS 103 285 V1.1.1(2015년 5월)의 문헌 ETSI "Digital Video Broadcasting (DVB); MPEG-DASH Profile for Transport of ISO BMFFBased DVB Services over IP Based Networks"는 하기 내용을 포함하는 절 6.1.2에서 특정 DVB 규칙들 설명한다:

· 모든 오디오 적응 세트는 ISO/IEC 23009-1 [1]에서 정의된 바와 같이 방식 "urn:mpeg:dash:role:2011"을 사용하는 적어도 하나의 역할 엘리먼트를 포함할 것이다.

· 오디오 콘텐츠에 대해 "메인"으로 설정되는 @value 속성의 사용은, 적응 세트가 콘텐츠 제공자에 의해 선호되는 오디오 적응 세트임을 플레이어에 표시한다.

o 오직 하나의 "메인"만이 존재하면, 이러한 적응 세트는 디폴트 오디오 적응 세트이다.

o 하나 초과의 오디오 적응 세트가 DASH 프리젠테이션에 존재하면, 이들 중 적어도 하나는 "메인"으로 설정된 @value로 태그될 것이다. "메인"으로 설정된 @value을 갖는 다수의 적응 세트들을 갖는 것이 가능하지만, 이들은 @lang 또는 @codec과 같은 다른 속성들에 의해 구별될 것이다. 다수의 적응 세트들이 "메인"으로 설정된 @value을 가지면, 플레이어는 이러한 적응 세트들 중 어느 것이 사용하기에 가장 적절한지를 선택할 것이고, 이들 전부가 부적절한 경우에만, "메인" 이외의 것으로 설정된 @value을 갖는 것을 선택할 수 있다.

· 프로그램이 동일한 코덱을 갖지만 상이한 언어들로 번역되는 오리지널 사운드트랙, 예를 들어, 영어로 번역되는 원래 스페인어인 영화 사운드트랙을 갖는 다수의 오디오 적응 세트들을 가지면, 오직 1차 언어는 모든 다른 언어들이 "더빙(dub)"으로 설정되는 "메인"으로 설정된 @value을 가질 것이다.

o 그 다음, 플레이어들은, 오디오 언어가 사용자가 원하는 더빙 언어에 매칭하는 것을 확인하기 위해, 적응 세트의 @lang 속성을 평가해야 한다.

o 프로그램이 동일한 코덱을 갖지만 상이한 언어들의 상이한 오리지널 사운드트랙들, 예를 들어, 다수의 언어들로 다수의 해설자들에 의해 해설되는 스포츠 게임을 갖는 다수의 오디오 적응 세트들을 가지면, 모든 언어 적응 세트들은 "메인"으로 설정된 @value을 가질 것이다. 그 다음, 플레이어들은, 사용자가 원하는 언어에 매칭하는 오디오 언어를 확인하기 위해, 적응 세트의 @lang 속성을 평가해야 한다.

· 프로그램이 다수의 코덱들, 동일한 오리지널 사운드 및 동일한 언어를 갖는 다수의 오디오 적응 세트들을 갖지만, 콘텐츠 제공자가 코덱을 장려하기를 원하지 않으면, 이들은, 플레이어가 적응 세트를 선택하게 하기 위해 @value을 갖는 다수의 적응 세트들을 "메인"으로 설정할 수 있다.

· 하나보다 많은 역할이 설정될 필요가 있으면, 다수의 역할 엘리먼트들이 사용될 것이다. 표 4에 나타난 바와 같이, 역할 및 액세스가능성 디스크립터들의 조합된 사용은 오디오 설명 및 클린 오디오 스트림들을 포함하는 적응 세트들을 식별할 것이다.

· 수신기 믹싱된 오디오 설명의 경우, 연관된 오디오 스트림은, 관련된 적응 세트의 표현들에 대한 의존성을 표시하기 위해 @dependencyId 속성을 사용할 것이고, 따라서 연관된 오디오 스트림이 자기 자신의 표현으로서 제공되지 않을 것임을 또한 표시할 것이다. 플레이어들은, 자신이 이해하지 못하는 다른 역할 및 액세스가능성 디스크립터 속성들을 갖는 오디오 스트림들을 무시해야 한다.

[0120] 하기 표는 MPEG-DASH ISO/IEC 23009-1:2014/Amendment 2로부터의 데이터를 포함한다:

[0121] ISO/IEC 23009-1 섹션 5.8.5.7은 오디오 수신기 믹싱 기술을 설명한다. 더 구체적으로, 이러한 절은 재생 전에 2개의 오디오 적응 세트들이 미디어 엔진에 의해 혼합될 필요가 있음을 표시하기 위해 EssentialProperty 또는 SupplementaryProperty에서 사용하기 위한 방식을 정의한다. 이러한 예에서, 방식을 식별하는 @schemeIdUri 속성은 urn:mpeg:dash:audio-receiver-mix:2014이다. 이러한 섹션에 따르면, @value 속성은 콘텐츠 타입 오디오 속성을 갖는 적응 세트로부터 AdaptationSet@id의 값을 포함할 것이고, 현재 적응 세트는 완전한 오디오 경험을 제공하기 위해, 이와 믹싱될 필요가 있다. 수신기 믹스의 예는, 단일 오디오 적응 세트가 음악 및 효과들, 즉, 대화 없는 완전한 오디오 경험을 제공하는 경우이며, 하나 이상의 다른 적응 세트들은 상이한 언어들로 대화를 제공한다. 이러한 경우, 대화 적응 세트들은 음악 및 효과 적응 세트에 의존할 것이다. 믹싱 요건은 단방향이다. 즉, A가 선택되는 경우 표현 A와 표현 B를 믹싱하는 요건은, B가 선택되면 2개를 믹싱하는 것이 요구되는 것을 의미하지 않는다.

[0122] 추가적인 MPEG-DASH 오디오 파라미터들이 아래에 설명된다. 하기 파라미터들이 적응 세트 레벨 상에서 시그널링될 수 있다: @codecs, 오디오 채널 구성, 코덱 독립적 코드 포인트들, 채널 위치들, 코덱 독립적 코드 포인트들, 샘플링 레이트 및 레이팅. 또한, 특정 스트림들을 선택 및 거절하기 위해 네트워크 능력들(브로드캐스트 전용 및/또는 브로드밴드)이 사용될 수 있다. 모든 경우들에 대해, 스트림들은 능력들 및 선호도들에 기초하여 시스템 레벨 상에서의 선택/거절에 대해 시그널링될 수 있다.

[0123] 오늘날의 MPD(media presentation description)에서 시그널링의 예는 아래에 나타난다:

[0124] MPEG-2 시스템즈 및 HTML-5에 따른 데이터의 예들이 아래에 설명된다. 오직 변형(1)이 아래에 정의되지만, 변형(2a)가 또한 사용될 수 있다.

[0125] 요약하면, 레거시 시스템들에서, 상당한 양의 시그널링이 존재할 수 있다. NGA 코덱들에 대해 시그널링이 감소되거나 재사용될 수 있는 가능한 영역들은 시스템 레벨 상에서 특정한 능력들에 대한 선택을 가능하게 하는 기존의 원리들의 재사용, 플랫폼 능력들로의 맵핑, 및 단순한 사용자 인터페이스들/사용자 에이전트들(브라우저들)로의 맵핑을 포함한다. 레거시 시스템은 상호작용을 위한 툴들이 부족하고, NGA 오디오는 오디오 코덱 레벨 내에서 이러한 상호작용을 가능하게 할 수 있다.

[0126] 도 6은 본 개시의 특정 기술들에 따라 차세대 오디오 데이터의 수신을 위한 많은 변형들 및 옵션들을 지원하기 위해 사용될 수 있는 예시적인 시스템(250)을 예시하는 개념도이다. 일반적으로, 차세대 오디오 데이터의 경우, 모든 오디오 오브젝트들(또는 모든 오디오 스트림들)을 디코딩하기 위해 단일 디코더가 존재한다. 따라서, 시스템(250)은 선택 유닛(272), 시스템즈 계층 유닛(274), 오디오 디코딩 및 렌더링 유닛들(276), 사용자 인터페이스(278), 사용자 인터페이스/에이전트(280) 및 브라우저(282)를 포함한다.

[0127] 이러한 예에서, M&E(music & effects) 스트림(254)은 진입 포인트 오디오 스트림을 표현한다. M&E 스트림(254)은 모든 프리젠테이션들(예를 들어, 영어 대화 스트림(258), 독일어 대화 스트림(262), 영어 코멘터리 스트림(266) 및 독일어 코멘터리 스트림(270) 각각)에 대해 사용되는 데이터를 포함한다.

[0128] DASH의 경우, M&E 스트림(254), 영어 대화 스트림(258), 독일어 대화 스트림(262), 영어 코멘터리 스트림(266) 및 독일어 코멘터리 스트림(270) 각각은 각각의 적응 세트들에 맵핑될 수 있다. DASH MPD는 시스템즈 시그널링 데이터를 포함할 수 있다. Amd.2 및 DVB DASH는 DASH-베이스라인 시그널링 데이터를 포함할 수 있다. 시스템즈 계층 유닛(274)은 특정 네트워크들의 이용가능성을 고려하여 네트워크 능력들을 결정할 수 있다. 시스템(270)은 브로드캐스트 및 하이브리드 배치들과 같은 다양한 배치들에서 구현될 수 있다.

[0129] 오디오 디코딩 및 렌더링 유닛들(276)은 오디오 스트림 메타데이터(253)를 수신할 수 있다. 오디오 스트림 메타데이터(253)는 예를 들어, DASH의 MPD(media presentation description)와 같은 매니페스트 파일에 포함될 수 있다. 초기에, 오디오 디코딩 및 렌더링 유닛들(276)은 어느 오디오 스트림들이 이용가능한지를 결정하기 위해 오디오 스트림 메타데이터(253)를 프로세싱할 수 있다. 오디오 디코딩 및 렌더링 유닛들(276)은 시스템즈 계층 유닛(274)에 이용가능성 데이터(284)를 제공할 수 있고, 이용가능성 데이터(284)는 오디오 스트림 메타데이터(253)에 기초하여 오디오 데이터의 어느 세트들이 이용가능한지를 표시한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(254)(시스템즈 메타데이터(252) 및 오디오 스트림 메타데이터(253)를 동반함), 영어 대화 스트림(258)(시스템즈 메타데이터(256)를 동반함), 독일어 대화 스트림(262)(시스템즈 메타데이터(260)를 동반함), 영어 코멘터리 스트림(266)(시스템즈 메타데이터(264)를 동반함) 및 독일어 코멘터리 스트림(270)(시스템즈 메타데이터(268)를 동반함)을 포함한다.

[0130] 시스템즈 계층 유닛(274)은 시스템즈 메타데이터(252, 256, 260, 264 및 268)를 수신할 수 있다. 시스템즈 계층 유닛(274)은 또한 브라우저(282) 및/또는 사용자 인터페이스/에이전트(280)에 이용가능성 데이터를 제공할 수 있고, 사용자(또는 사용자 에이전트)로부터 선택 데이터를 수신할 수 있다.

[0131] 사용자는 사용자 인터페이스(278), 사용자 인터페이스/에이전트(280) 및 브라우저(282)를 통해 시스템(250)에 대응하는 디바이스와 상호작용할 수 있다. 일부 예들에서, 임의의 또는 모든 사용자 인터페이스(278), 사용자 인터페이스/에이전트(280) 및 브라우저(282)는 기능적으로 통합될 수 있다. 도 6의 예에서, 사용자 인터페이스/에이전트(280)는 시스템즈 계층 유닛(274)에 선택 데이터(288)를 제공할 수 있다. 추가적으로 또는 대안적으로, 브라우저(282)는 대역내 미디어 자원 트랙들을 소싱하는 W3C을 통해 시스템즈 계층 유닛(274)에 선택 데이터(286)를 제공할 수 있다. 또 다른 예로서, 브라우저(282)는 선택 정보를 사용자에게 제시할 수 있고, 사용자는 사용자 인터페이스(278)를 통한 프리젠테이션에 대한 응답으로 오디오 콘텐츠의 선택을 제공할 수 있고, 이는 오디오 디코딩 및 렌더링 유닛들(276)에 선택 데이터(292)를 직접 포워딩할 수 있다. 일반적으로, 선택 데이터는, 리트리벌 및 재생을 위해 이용가능한 스트림들 중 어느 것이 선택되는지를 표시한다.

[0132] 일부 예들에서, 시스템즈 계층 유닛(274)은 선택 유닛(272)에 선택 데이터(290)를 제공한다. 그 다음, 선택 유닛(272)은 선택된 오디오 스트림들로부터의 오디오 데이터를 오디오 디코딩 및 렌더링 유닛들(276)에 제공한다. 오디오 디코딩 및 렌더링 유닛들(276)은 하나 이상의 오디오 출력 디바이스들, 예를 들어, 하나 이상의 스피커들(미도시) 상에서 재생을 위해 선택된 오디오 데이터를 디코딩 및 렌더링한다.

[0133] 이러한 방식으로, 도 6의 시스템(250)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0134] 도 7은 시스템즈-중심인 예시적인 시스템(300)을 예시하는 개념도이다. 이러한 예에서, 시스템(300)은 시스템즈 계층 유닛(324), 선택 유닛(322), 오디오 디코딩 및 렌더링 유닛들(326) 및 사용자 인터페이스/에이전트(330)를 포함한다. 시스템즈 계층 유닛(324)은 이러한 예에서, M&E 스트림(304)이 제공되는 오디오 스트림 메타데이터(303)에 기초하여, 및 사용자 인터페이스/에이전트(330)로부터의 입력(332)에 기초하여 이용가능한 오디오 데이터로부터 선택한다. 오디오 스트림 메타데이터(303)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0135] 이러한 예에서, 오디오 디코딩 및 렌더링 유닛들(326)은 오디오 스트림 메타데이터(303)를 수신한다. 오디오 스트림 메타데이터(303)는 이러한 예에서, 오디오 데이터의 어느 세트들이 이용가능한지를 표시하는 이용가능성 데이터를 포함한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(304)(시스템즈 메타데이터(302) 및 오디오 스트림 메타데이터(303)를 동반함), 영어 대화 스트림(308)(시스템즈 메타데이터(306)를 동반함), 독일어 대화 스트림(312)(시스템즈 메타데이터(310)를 동반함), 영어 코멘터리 스트림(316)(시스템즈 메타데이터(314)를 동반함) 및 독일어 코멘터리 스트림(320)(시스템즈 메타데이터(318)를 동반함)을 포함한다.

[0136] 이러한 예에서, 시스템즈 계층 유닛(324)은, 오디오 디코딩 및 렌더링 유닛들(326)의 디코딩 및 렌더링 능력들, 이용가능한 스트림들 각각을 디코딩 및 렌더링하기 위해 요구되는 능력들, 이용가능한 스트림들 각각에 대한 네트워크 능력들 및 전달 네트워크 및 각각의 이용가능한 스트림에 대한 메타데이터(즉, 시스템즈 메타데이터(302, 306, 310, 314, 318))를 표현하는 정보를 갖는다. 이러한 예에 따르면, 시스템즈 계층 유닛(324)은 네트워크 능력들에 기초하여 이용가능한 스트림들을 프룬하고, 플랫폼 디코딩 및 렌더링 능력들에 기초하여 이용가능한 스트림들을 프룬하고, 나머지 이용가능한 스트림들을 표현하는 정보를 선택을 위해 에이전트의 사용자 인터페이스/에이전트(330)에 제공한다. 시스템즈 계층 유닛(324)은 스트림들의 언어, 스트림들의 역할/액세스가능성 및 레이팅들(예를 들어, 다양한 연령 그룹들에 대한 콘텐츠 적합도)에 기초하여 이용가능한 스트림들로부터 선택할 수 있다.

[0137] 이러한 예에서, 시스템즈 계층 유닛(324)은 선택 유닛(322)에 선택 데이터(334)를 제공한다. 선택 유닛(322)은 선택된 스트림들의 오디오 데이터를 수신하고, 디코딩 및 렌더링을 위해 오디오 디코딩 및 렌더링 유닛들(326)에 오디오 데이터(336)를 포워딩한다. 대안적으로, 시스템즈 계층 유닛(324)은 오디오 디코딩 및 렌더링 유닛들(326)에 선택 데이터를 직접 제공할 수 있다.

[0138] 대안적인 예에서, 각각의 미디어 스트림은 예를 들어, 언어, 레이팅 및 역할/액세스가능성에 기초하여 자체-설명될 수 있다. 시스템즈 계층 유닛(324)은 스트림들의 선택을 위해 사용자 인터페이스/에이전트(330)에 각각의 스트림의 설명을 제공할 수 있다. 시스템즈 계층 유닛(324)은 스트림들을 선택하고, 선택된 스트림들의 데이터를 오디오 디코딩 및 렌더링 유닛들(326)에 포워딩할 수 있다.

[0139] 이러한 예에서, 시스템(300)은 DASH 갭 분석을 수행할 수 있다. DASH 갭 분석은 DVB 및 MPEG-DASH 오디오 메타데이터에 기초할 수 있다. 이러한 예는 단일 디코더 대 다수의 디코더 제공들을 구별하는 방법; 진입 포인트의 단일 디코더 표시에 대해, 개시하는 방법에 대한 시퀀스를 정의할 필요가 있는지 여부, 미디어 스트림 레벨 상에서 렌더링에 대한 의존도들을 설명하는 툴들의 프로비전, 적응 세트가 메인 적응 세트가 아니면 특정 적응 세트가 선택되는 것을 회피하기 위한 툴들의 프로비전, 및 상이한 AS들에서 매칭하는 표현들을 발견하기 위한 품질 랭킹의 사용과 같은 문제들을 처리할 수 있다. 다양한 적응 세트들의 품질 랭킹들은 일반적으로 적응 세트들 및/또는 적응 세트들에 포함된 표현들에 대한 상대적 품질 랭킹 속성들을 표현할 수 있다.

[0140] 이러한 예에서, 시스템 계층 유닛(324)은 독립적으로 선택되지 않을 특정 적응 세트들을 배제할 수 있다. 일례에서, 적응 세트들과 유사하지만, 적응 세트 의존도들 및 단일 코덱 시그널링을 포함하는 새로운 엘리먼트가 도입된다. 다른 예에서, 필수적 디스크립터가 적응 세트들과 함께 사용되고, 여기서 필수적 디스크립터는 적응 세트 의존도들 및 단일 코덱 시그널링을 설명한다.

[0141] 또한, 메타데이터는, 의존적 적응 세트가 선택된 경우 어느 적응 세트들이 선택될 필요가 있는지, 적응 세트들 모두가 동일한 코덱을 사용하여 인코딩된 미디어 데이터를 포함하는 것, 및 코덱에 전달될 프로세싱의 시퀀스를 DASH 클라이언트에 통지하는 적응 세트들에 대한 의존도 정보를 설명할 수 있다. 또한, DASH MPD의 @qualityRanking 속성은 각각의 적응 세트에 대한 적절한 표현들의 선택을 지원하기 위해 사용될 수 있다.

[0142] 필수적 디스크립터 및 부분적 적응 세트에 관한 시그널링의 예들은 아래에 제공된다:

[0143] 필수적 디스크립터

[0144] 부분적 적응 세트 예들은 아래에 설명된다:

[0145] 다른 대안에서, 시스템즈 메타데이터(302, 306, 310, 314, 318)는 다양한 프리젠테이션들을 설명할 수 있다(여기서 프리젠테이션들 각각은 오디오 오브젝트들/스트림들의 다양한 조합들 중 하나에 대응한다). 그 다음, 시스템즈 계층 유닛(324)은 하나의 프리젠테이션을 선택할 수 있다. 일례에서, 프리젠테이션들은 스트림들을 설명할 수 있고, 시스템즈 계층 유닛(324)은 선택된 프리젠테이션에 기초하여 개별적인 스트림들을 선택할 수 있다. 다른 예에서, 프리젠테이션들은 추상적일 수 있고, 시스템즈 계층 유닛(324)은 모든 스트림들을 선택 유닛(322)에 포워딩할 수 있다.

[0146] 일례로, 프리젠테이션들은 콘텐츠 생성자에 의해 공급될 수 있다. 콘텐츠 생성자는 다음과 같은 조합들 중 제한된 세트들을 정의할 수 있다:

· 프리젠테이션 1: M&E 스트림(304), 영어 대화 스트림(308)

· 프리젠테이션 2: M&E 스트림(304), 독일어 대화 스트림(312)

· 프리젠테이션 3: M&E 스트림(304), 영어 대화 스트림(308), 영어 코멘터리 스트림(316)

· 프리젠테이션 4: M&E 스트림(304), 독일어 대화 스트림(312), 독일어 코멘터리(320)

[0147] 이러한 예에서, 시스템(300)은 DASH 갭 분석을 수행할 수 있다. 이러한 예는 단일 디코더 대 다수의 디코더 제공들을 구별하는 방법; 진입 포인트의 단일 디코더 표시에 대해, 개시하는 방법에 대한 시퀀스를 정의할 필요가 있는지 여부; 프리젠테이션의 컴파일을 설명하는 툴들의 프로비전; 및 적응 세트가 독립적으로 선택되지 않으면 특정 적응 세트가 선택되는 것을 회피하기 위한 툴들의 프로비전과 같은 문제들을 처리할 수 있다.

[0148] 일례에서, 새로운 프리젠테이션 엘리먼트는 프리젠테이션들의 메타데이터 및 컴파일을 수집하기 위해 사용될 수 있다. 선택된 적응 세트에 추가로 어느 적응 세트들이 선택될 필요가 있는지, 적응 세트들 모두가 동일한 코덱을 사용하여 코딩된 미디어 데이터를 포함하는 것, 및 코덱에 전달될 프로세싱의 시퀀스를 DASH 클라이언트에 표시하기 위해 적응 세트들에 대해 의존도 데이터가 사용될 수 있다.

[0149] 일부 예들에서, 선택될 프리젠테이션에 포함되는 모든 적응 세트들은 프리젠테이션 엘리먼트로부터 배제될 수 있다. 일례에서, 적응 세트와 본질적으로 동등하지만 오디오 관련 파라미터들에 대해 어떠한 시그널링도 포함하지 않는 새로운 엘리먼트가 매니페스트 파일에서 시그널링된다. 다른 예에서, 필수적 디스크립터에는 적응 세트가 제공된다. 일부 예들에서, DASH MPD의 @qualityRanking 속성은 각각의 적응 세트에 대한 적절한 표현들의 선택을 지원하기 위해 시그널링된다.

[0150] 이러한 방식으로, 도 7의 시스템(300)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0151] 도 8은 프리젠테이션 정의들과 부분적 적응 세트들의 예들 사이의 맵핑을 예시하는 개념도이다. 이러한 예에서, ID 값들 1, 2, 3, 4 및 5를 갖는 4개의 부분적 적응 세트들이 존재한다. 예를 들어, 적응 세트 1은 M&E 스트림을 표현할 수 있고, 적응 세트 2는 영어 대화 스트림을 표현할 수 있고, 적응 세트 3은 독일어 대화 스트림을 표현할 수 있고, 적응 세트 4는 영어 코멘터리 스트림을 표현할 수 있고, 적응 세트 5는 독일어 대화 스트림을 표현할 수 있다. 각각의 부분적 적응 세트는, 시그널링된 품질 랭킹 값들(@qualityRanking) 및 대역폭 값들(@bandwidth)을 갖는 2개의 각각의 표현들을 포함한다.

[0152] 또한, 이러한 예에서, 4개의 프리젠테이션들이 존재하며, 각각의 프리젠테이션은 부분적 적응 세트들 중 하나 이상의 조합을 표현한다. 제1 프리젠테이션은 ID 값들 1 및 2를 갖는 부분적 적응 세트들을 포함한다. 제2 프리젠테이션은 ID 값들 1 및 3을 갖는 부분적 적응 세트들을 포함한다. 제3 프리젠테이션은 ID 값들 1 및 4를 갖는 부분적 적응 세트들을 포함한다. 제4 프리젠테이션은 ID 값들 1, 3 및 5를 갖는 부분적 적응 세트들을 포함한다.

[0153] 도 9는 시스템즈 계층 프로세싱 및 HTML-5를 사용하는 다른 예시적인 시스템(350)을 예시하는 개념도이다. 이러한 예에서, 시스템(350)은 선택 유닛(372), 시스템즈 계층 유닛(374), 오디오 디코딩 및 렌더링 유닛들(376) 및 브라우저(382)를 포함한다. 시스템즈 계층 유닛(374)은 이러한 예에서, M&E 스트림(354)이 제공되는 오디오 스트림 메타데이터(353)에 기초하여, 및 브라우저(382)로부터의 입력(386)에 기초하여 이용가능한 오디오 데이터로부터 선택한다. 오디오 스트림 메타데이터(353)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0154] 이러한 예에서, 오디오 디코딩 및 렌더링 유닛들(376)은 오디오 스트림 메타데이터(353)를 수신한다. 오디오 스트림 메타데이터(353)는 이러한 예에서, 오디오 데이터의 어느 세트들이 이용가능한지를 표시하는 이용가능성 데이터를 포함한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(354)(시스템즈 메타데이터(352) 및 오디오 스트림 메타데이터(353)를 동반함), 영어 대화 스트림(358)(시스템즈 메타데이터(356)를 동반함), 독일어 대화 스트림(362)(시스템즈 메타데이터(360)를 동반함), 영어 코멘터리 스트림(366)(시스템즈 메타데이터(364)를 동반함) 및 독일어 코멘터리 스트림(370)(시스템즈 메타데이터(368)를 동반함)을 포함한다.

[0155] 도 9의 예는, 앞서 논의된 바와 같이, 시스템즈 계층 유닛(374)이 네트워크 능력들을 포함하고 이용가능한 오디오 스트림들의 선택들을 보조하기 위해 웹 브라우저(382)로부터의 입력을 수신하는 것을 제외하고는 도 7의 예와 유사하다. 도 7의 예에 대해 설명된 바와 같이 동일한 판정 프로세스가 도 9의 예에 대해 사용될 수 있다. 웹 브라우저(382)는 대역내 미디어 자원 트랙들을 소싱하는 W3C에 따라 시스템즈 계층 유닛(374)에 선택 데이터(386)를 제공할 수 있다.

[0156] 일반적으로, 도 7에 대해 앞서 논의된 기술들은 또한, 일부 예들에서 시스템즈 계층 유닛(374)이 프리젠테이션들을 분해하여 HTML-5 프리젠테이션들에 맵핑하도록 구성될 수 있다는 것을 제외하고는 도 9의 시스템(350)에 의해 수행될 수 있다. 즉, 사용자는 선택 데이터(386)를 시스템즈 계층 유닛(374)에 전송하는 브라우저(382)를 통해, 선택된 오디오 스트림들을 표현하는 입력을 제공할 수 있다. 시스템 계층 유닛(374)은 선택 데이터(386)를 프로세싱하고, 대응하는 선택 데이터(388)를 선택 유닛(372)에 전송한다. 그 다음, 선택 유닛(372)은 선택 데이터(386)를 사용하여 대응하는 선택된 오디오 데이터를 추출하고, 선택된 오디오 데이터(390)를 오디오 디코딩 및 렌더링 유닛들(376)에 포워딩한다.

[0157] 이러한 방식으로, 도 9의 시스템(350)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0158] 도 10은 시스템즈 계층 정보 및 오디오 디코더를 사용하는 다른 예시적인 시스템(400)을 예시하는 개념도이다. 이러한 예에서, 시스템(400)은 선택 유닛(422), 시스템즈 계층 유닛(424), 오디오 디코딩 및 렌더링 유닛(426), 사용자 인터페이스(428) 및 브라우저(432)를 포함한다. 이러한 예는, 앞서 논의된 바와 같이, 시스템즈 계층 유닛(424)이 이용가능한 오디오 스트림들로부터 선택할 오디오 디코딩 및 렌더링 유닛들(426)과 상호작용한다는 점을 제외하고는 도 7의 예와 또한 유사하다.

[0159] 이러한 예에서, 오디오 디코딩 및 렌더링 유닛들(426)은 오디오 스트림 메타데이터(403)를 수신한다. 오디오 스트림 메타데이터(403)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다. 오디오 스트림 메타데이터(403)는 이러한 예에서, 오디오 데이터의 어느 세트들이 이용가능한지를 표시하는 이용가능성 데이터를 포함한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(404)(시스템즈 메타데이터(402) 및 오디오 스트림 메타데이터(403)를 동반함), 영어 대화 스트림(408)(시스템즈 메타데이터(406)를 동반함), 독일어 대화 스트림(412)(시스템즈 메타데이터(410)를 동반함), 영어 코멘터리 스트림(416)(시스템즈 메타데이터(414)를 동반함) 및 독일어 코멘터리 스트림(420)(시스템즈 메타데이터(418)를 동반함)을 포함한다.

[0160] 이러한 예에서, 시스템즈 계층 유닛(424)은 각각의 미디어 스트림의 네트워크 능력들 및 전달 네트워크, 및 오디오 디코딩 및 렌더링 유닛들(426)의 디코딩 능력들을 표현하는 데이터를 갖는다. 이러한 예에서, 시스템즈 계층 유닛(424)은 특정 메타데이터를 프로세싱할 필요가 없다. 오디오 디코딩 및 렌더링 유닛들(426)의 오디오 디코딩 유닛은 이의 렌더링 유닛의 렌더링 능력들을 표현하는 정보 뿐만 아니라 각각의 미디어 스트림에 할당된 메타데이터로 구성된다. 이러한 메타데이터는 시스템즈 계층에 대해 정의된 종래의 메타데이터에 비해 훨씬 더 풍부할 수 있다.

[0161] 추가로, 시스템 계층 유닛(424)은 네트워크 능력들 및 디코딩 능력들에 기초하여 이용가능한 스트림들을 프룬하도록 구성될 수 있다. 그 다음, 시스템즈 계층 유닛(424)은 네트워크 능력들에 기초하여 모든 이용가능한 스트림들을 표시하는 데이터(440)를 오디오 디코딩 및 렌더링 유닛들(426)의 오디오 디코딩 유닛에 제공할 수 있다. 그 다음, 오디오 디코딩 및 렌더링 유닛들(426)의 오디오 디코딩 유닛은, 어떤 스트림들이 필요한지(또는 필요하지 않은지)를 표시하는 데이터(434)를 시스템즈 계층 유닛(424)에 전송할 수 있다. 그 다음, 시스템즈 계층 유닛(424)은 데이터(434)에 따라 스트림들을 선택해제할 수 있다. 이러한 선택은 동적일 수 있다.

[0162] 이러한 방식으로, 도 10의 시스템(400)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0163] 도 11은 @bundleID에 대한 값들과 다양한 타입들의 전달 네트워크들을 통한 이용가능성 사이의 대응관계 및 데이터의 예시적인 세트를 예시하는 개념도이다. 이러한 예에서, @bundleID = 1은, 브로드캐스트를 통해 부분적 적응 세트가 이용가능한 것을 표시하는 한편, @bundleID = 2는 (예를 들어, 유니캐스트 리트리벌을 위해) 브로드밴드를 통해 부분적 적응 세트가 이용가능한 것을 표시한다. 이러한 예에서, @id 값들 1 및 6을 갖는 부분적 적응 세트들은, 동일한 미디어 세그먼트들 및 URL들, 그러나 상이한 구성 정보를 포함한다.

[0164] 도 11의 예에서 사용되는 MPEG 문헌 M37191의 제안에 따른 데이터는 다음을 포함한다:

[0165] 이러한 데이터 엘리먼트들은 다음과 같은 값들을 할당받을 수 있다:

· PartialAdaptationSet 데이터는 잠재적으로 단일 적응 세트가 사용될 수 없음을 시그널링할 수 있다.

· @bundleID는 모든 적응 세트들이 하나의 단일 디코더에 속함을 시그널링할 수 있다.

· @isMain은 다수의 적응 세트들에 진입 포인트를 제공할 수 있다.

· @memberID는, 모든 적응 세트들이 오디오 디코더에 의해 참조될 수 있도록 이들을 어노테이팅할 수 있다.

· PartialAdaptationSet는 더 양호한 하이브리드 지원을 위한 다수의 번들들의 멤버일 수 있음을 주목한다.

[0166] 도 11의 예에 도시된 데이터 세트는,

[0167] 도 12는 부분적 적응 세트들의 예시적인 세트에 대한 데이터 네트워크 이용가능성들의 예를 예시하는 개념도이다. 도 12의 예는 도 11의 예에 대한 대안으로 제공된다.

[0168] 데이터 엘리먼트들은 다음과 같이 사용될 수 있다:

· PartialAdaptationSet는 잠재적으로 단일 적응 세트가 사용될 수 없음을 시그널링할 수 있다.

· @sequence 값들의 일부는 모든 적응 세트들이 하나의 단일 디코더에 속함을 시그널링할 수 있다.

· @sequence의 제1 값은 다수의 적응 세트들에 진입 포인트를 제공할 수 있다.

· NOTE: 앞서 도 11의 예에 대해 논의된 바와 같이, @bundleID는 하나의 디코더 인스턴스를 시그널링하기 위해 상기 데이터에 추가로 사용될 수 있다.

[0169] 도 12의 예에 도시된 데이터 세트는,

[0170] 도 13은 본 개시의 기술들에 따라 다양한 선택 기술들을 사용하는 다른 예시적인 시스템(450)을 예시하는 개념도이다. 시스템(450)의 예는 선택 유닛(472), 시스템즈 계층 유닛(474), 오디오 디코딩 및 렌더링 유닛들(476), 사용자 인터페이스(478), 사용자 인터페이스/에이전트(480) 및 브라우저(482)를 포함한다. 이러한 예에서, 시스템즈 계층 유닛(474)은 사용자 인터페이스/에이전트(480)(시스템즈 계층 유닛(474)과 연관됨), 웹 브라우저(482) 및/또는 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 디코딩 유닛 중 임의의 것 또는 전부로부터 선택 데이터를 수신할 수 있다.

[0171] 이러한 예에서, 오디오 디코딩 및 렌더링 유닛들(476)은 오디오 스트림 메타데이터(453)를 수신한다. 오디오 스트림 메타데이터(453)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다. 오디오 스트림 메타데이터(453)는 이러한 예에서, 오디오 데이터의 어느 세트들이 이용가능한지를 표시하는 이용가능성 데이터를 포함한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(454)(시스템즈 메타데이터(452) 및 오디오 스트림 메타데이터(453)를 동반함), 영어 대화 스트림(458)(시스템즈 메타데이터(456)를 동반함), 독일어 대화 스트림(462)(시스템즈 메타데이터(460)를 동반함), 영어 코멘터리 스트림(466)(시스템즈 메타데이터(464)를 동반함) 및 독일어 코멘터리 스트림(470)(시스템즈 메타데이터(468)를 동반함)을 포함한다.

[0172] 도 13의 예에 따르면, 시스템즈 계층 유닛(474)은 각각의 미디어 스트림에 대한 네트워크 능력들 및 전달 네트워크, 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 디코딩 유닛의 능력들 및 기본적 시스템 메타데이터, 예를 들어, 언어 및 액세스가능성을 표현하는 데이터를 가질 수 있다. 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 디코딩 유닛은 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 렌더링 유닛의 능력들 및 각각의 미디어 스트림에 할당된 메타데이터를 표현하는 데이터를 가질 수 있다. 이러한 예에서, 메타데이터는 종래의 시스템즈 레벨 메타데이터보다 훨씬 더 풍부할 수 있다.

[0173] 시스템즈 계층 유닛(474)은 네트워크 능력들, 디코딩 능력들 및 기본적 시스템 메타데이터에 기초하여 이용가능한 스트림들을 프룬할 수 있다. 그 다음, 시스템즈 계층 유닛(474)은 네트워크 능력들 및 시스템 메타데이터에 기초하여 이용가능한 나머지 스트림들을 표현하는 데이터를 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 디코딩 유닛에 제공할 수 있다. 오디오 디코딩 유닛은, 어떤 스트림들이 필요한지(및/또는 필요하지 않은지)를 표시하는 데이터(484)를 시스템 계층 유닛(474)에 제공한다. 응답으로, 시스템즈 계층 유닛(474)은 이러한 정보에 따라 스트림들을 선택 또는 선택해제할 수 있다. 이러한 선택은 동적일 수 있다. 또한, 사용자 인터페이스/에이전트(480)는 시스템즈 계층 유닛(474)에 추가적인 선택 정보(488)를 제공할 수 있고 그리고/또는 브라우저(482)는 시스템즈 계층 유닛(474)에 추가적인 선택 정보(486)를 제공할 수 있다. 오디오 디코딩 및 렌더링 유닛들(476)은 어느 스트림들이 필요한지 또는 필요하지 않은지를 결정하기 위해 사용자 인터페이스(478)로부터 수신된 선택 정보(492)를 사용할 수 있다. 궁극적으로, 시스템즈 계층 유닛(474)은 선택 데이터(490)를 선택 유닛(472)에 제공할 수 있고, 선택 유닛(472)은 선택된 스트림들을 오디오 디코딩 및 렌더링 유닛들(476)에 포워딩할 수 있다.

[0174] 하기 논의는 도 13의 예에 대한 DASH 갭 분석에 관한 것이다:

· 정보를 복제하는 것은 매력적으로 들리지만, 더 복잡한데, 이는, 복제하는 방법의 세부사항들, 선택의 관점에서 의미하는 것 등을 이해할 필요가 있기 때문이다.

· 옵션들은 다음을 포함한다:

o 시스템 레벨 상에서 사전 선택

§ 세부사항들을 체크할 필요성

§ 앞서 논의된 다양한 예들의 조합들이 가능할 수 있음

o 수신기가 구현에 대한 선택들을 갖도록 하는 복제

§ 세부사항들을 체크할 필요성

[0175] 도 13의 예에 따른 예시적인 데이터 세트는 아래에 나타나 있다:

· 시스템 레벨 상에서의 언어, MPEG-H 오디오 디코더에서 미디어 스트림의 상세한 선택

[0176] 상기 예시적인 데이터 세트에 기초하여 도 13의 예시적인 시스템에 의해 수행될 수 있는 프로세싱 단계들은 다음을 포함한다:

· 시스템 정보에 기초하여, 시스템즈 계층 유닛(474)은 영어가 선택되면 AS들 1, 2 또는 4를 선택하거나 또는 독일어가 선택되면 AS들 1, 3 또는 5를 선택할 수 있다.

· 오디오 디코딩 및 렌더링 유닛들(476)의 오디오 디코딩 유닛은, 가능한 경우, 코멘터리와 같은 특정 오디오 데이터가 선택되지 않아야 하는지 여부 또는 시스템즈 계층 유닛(474)이 시스템의 선택을 오버라이트할 수 있는지 여부를 표시하는 데이터를 시스템즈 계층 유닛(474)에 제공할 수 있다.

· 따라서, 이는 상이한 구현들을 허용한다.

[0177] 시스템즈 선택과 함께 하이브리드 시스템에서 사용하기 위한 데이터의 예는 아래에 나타난다:

[0178] 이러한 방식으로, 본 개시의 기술들은 시스템 및 오디오 디코더 레벨들 상에서 많은 사용 사례들에 대해 사용될 수 있다. 이러한 기술들은 시그널링 및 구현들의 상이한 양상들, 예를 들어, 시스템 및 오디오 코덱 선택 및 네트워크 능력들, 브로드캐스트 및 하이브리드 둘 모두를 고려한다.

[0179] 본 개시의 기술들에 따른 하나의 예시적인 솔루션은 아래에 나타난 바와 같은 데이터를 포함할 수 있다:

[0180] 이러한 데이터 엘리먼트들에 대한 값은 다음과 같이 설정될 수 있다:

[0181] · PartialAdaptationSet는 잠재적으로 단일 적응 세트가 사용될 수 없음을 시그널링할 수 있다.

[0182] · @sequence 엘리먼트들의 일부는 모든 적응 세트들이 단일 디코더에 속함을 시그널링할 수 있다.

[0183] · @sequence의 제1 값은 다수의 적응 세트들에 진입 포인트를 제공할 수 있다.

[0184] · @memberID의 값은, 모든 적응 세트들이 오디오 디코더에 의해 참조될 수 있도록 이들을 어노테이팅할 수 있다.

[0185] @bundleID의 값은 앞서 논의된 바와 같이 하나의 디코더 인스턴스에 시그널링하기 위해 사용될 수 있다.

[0186] 이러한 방식으로, 도 13의 시스템(450)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―, 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0187] 도 14는 시스템즈 계층 데이터 및 오디오 디코더를 사용하는 본 개시의 기술들에 따른 다른 예시적인 시스템(750)을 예시하는 개념도이다. 즉, 시스템(750)은 선택 유닛(772), 시스템즈 계층 유닛(774), 오디오 스트림 메타데이터 프로세싱 유닛(780), 오디오 디코딩 및 렌더링 유닛들(776), 사용자 인터페이스(778) 및 브라우저(782)를 포함한다.

[0188] 이러한 예에서, 오디오 스트림 메타데이터 프로세싱 유닛(780)은 오디오 스트림 메타데이터(753)를 수신한다. 오디오 스트림 메타데이터(753)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다. 오디오 스트림 메타데이터(753)는 이러한 예에서, 오디오 데이터의 어느 세트들이 이용가능한지를 표시하는 이용가능성 데이터를 포함한다. 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(754)(시스템즈 메타데이터(752) 및 오디오 스트림 메타데이터(753)를 동반함), 영어 대화 스트림(758)(시스템즈 메타데이터(756)를 동반함), 독일어 대화 스트림(762)(시스템즈 메타데이터(760)를 동반함), 영어 코멘터리 스트림(766)(시스템즈 메타데이터(764)를 동반함) 및 독일어 코멘터리 스트림(770)(시스템즈 메타데이터(768)를 동반함)을 포함한다.

[0189] 도 14의 예는 도 13의 예에 대한 대안을 표현한다. 특히, 도 13에 도시된 바와 같이 시스템즈 계층 유닛과 상호작용하는 오디오 디코더 및 렌더러보다는, 도 14의 예에서, 오디오 스트림 메타데이터 프로세싱 유닛(780)은 시스템즈 계층 유닛(774)과 상호작용하고, 잠재적으로 선택 데이터(792)에 기초하여 이용가능한 미디어 스트림들을 프룬하기 위한 데이터(784)를 시스템즈 계층 유닛(774)에 제공한다. 시스템즈 계층 유닛(774)은 선택 데이터(790)를 선택 유닛(772)에 제공하고, 선택 유닛(772)은 선택된 스트림들을 오디오 스트림 메타데이터 프로세싱 유닛(780)에 포워딩한다. 그 다음, 오디오 스트림 메타데이터 프로세싱 유닛(780)은 오디오 디코딩 및 렌더링 유닛들(776)에 미디어 데이터(796)를 제공한다.

[0190] 도 15 내지 도 17은 본 개시의 기술들에 따른 예시적인 오디오 데이터 모델들을 예시하는 개념도들이다. 일반적으로, 도 15 내지 도 17의 오디오 데이터 모델들은 다음 특성들을 준수한다:

· 오디오 번들: 단일 NGA(next generation audio) 디코더 인스턴스에 의해 소비되는 스트림들의 세트(오브젝트들/적응 세트들)

o 시스템 레벨 상에서 관련됨

· 사전선택: 선택될 수 있고 유용한 프리젠테이션을 제공할 수 있는 하나의 번들로부터의 다수의 스트림들

o 대체로 시스템 레벨 상에서 관련됨

· 메인 스트림: 디코더 특정 정보(오디오 메타데이터)를 포함하는 스트림이 전체 번들에 대해 디코더를 부트스트랩한다.

o 대체로 오디오 코덱 레벨 상에서 관련됨

· 시그널링을 구현하고 융통성을 가능하게 함

[0191] 이러한 방식으로, 도 14의 시스템(750)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0192] 도 15는 사전-선택 유닛(514), NGA 오디오 디코더(520) 및 사용자 인터페이스(516)를 포함하는 예시적인 시스템(500)을 예시한다. NGA 오디오 디코더(520)는 NGA 프로세서(522) 및 오디오 디코딩 및 렌더링 유닛들(524)을 포함한다. 도 15의 예에서, NGA 오디오 디코더(520) 및 사전-선택 유닛(514)은 M&E(music & effects) 미디어 스트림(504)과 함께 오디오 스트림 메타데이터(502)를 수신한다. 오디오 스트림 메타데이터(502)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다. 이러한 예에서, 각각의 오디오 오브젝트는 단일의 별개의 스트림에서 제공된다. 따라서, M&E 스트림(504), 영어 대화 스트림(506), 독일어 대화 스트림(508), 영어 코멘터리 스트림(510) 및 독일어 코멘터리 스트림(512) 각각은 별개의 스트림에서 제공된다. NGA 오디오 디코더(520)는 이러한 예에서, 사용자 인터페이스(516)를 통해 수신된 입력(528)에 기초하여 스트림들 중 어느 것을 리트리브할지를 결정한다. 사전-선택 유닛(514)은, NGA 오디오 디코더(520)에 의해 제공된 피드백에 기초하여 스트림들 중 어느 것이 요청된 오디오 데이터(예를 들어, 대화를 위한 언어들 및 원한다면 코멘터리를 위한 언어들)를 포함하는지를 결정하고, NGA 오디오 디코더(520)는 사용자 인터페이스(516)를 통해 수신된 사용자 선택(528)을 프로세싱한다. 특히, NGA 프로세서(522)는 사용자 선택(528)을 프로세싱하고, 선택된 오디오 스트림들을 수신된 오디오 데이터(526)로부터 오디오 디코딩 및 렌더링 유닛들(524)에 포워딩하고, 오디오 디코딩 및 렌더링 유닛들(524)은 선택된 오디오 스트림들의 오디오 데이터를 디코딩 및 렌더링한다.

[0193] 이러한 방식으로, 도 15의 시스템(500)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0194] 도 16은 사전-선택 유닛(544), NGA 오디오 디코더(550) 및 사용자 인터페이스(546)를 포함하는 예시적인 시스템(530)을 예시한다. NGA 오디오 디코더(550)는 NGA 프로세서(552) 및 오디오 디코딩 및 렌더링 유닛들(554)을 포함한다. 도 16의 예에서, NGA 오디오 디코더(550) 및 사전-선택 유닛(544)은 M&E(music & effects) 미디어 스트림(534)과 함께 오디오 스트림 메타데이터(532)를 수신한다. 오디오 스트림 메타데이터(532)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0195] 도 16의 예에서, 다수의 오브젝트들은 단일 스트림에서 제공될 수 있다. 특히, 이러한 예에서, M&E 스트림(534) 및 영어 대화(536)는 단일 미디어 스트림(535)에서 제공되고, 다른 오디오 오브젝트들은 단일의 각각의 스트림들에서 제공된다. 즉, 독일어 대화 스트림(538), 영어 코멘터리 스트림(540) 및 독일어 코멘터리 스트림(542)은 이러한 예에서 별개의 스트림들에서 제공된다. 그러나, 다른 오디오 오브젝트들 중 임의의 것이 단일 스트림으로 결합될 수 있다. 예를 들어, 단일 스트림은 독일어 대화 스트림(538) 및 독일어 코멘터리 스트림(542) 둘 모두를 포함할 수 있다.

[0196] NGA 오디오 디코더(550)는 이러한 예에서, 사용자 인터페이스(546)를 통해 수신된 입력(558)에 기초하여 스트림들 중 어느 것을 리트리브할지를 결정한다. 사전-선택 유닛(544)은, NGA 오디오 디코더(550)에 의해 제공된 피드백에 기초하여 스트림들 중 어느 것이 요청된 오디오 데이터(예를 들어, 대화를 위한 언어들 및 원한다면 코멘터리를 위한 언어들)를 포함하는지를 결정하고, NGA 오디오 디코더(550)는 사용자 인터페이스(546)를 통해 수신된 사용자 선택(558)을 프로세싱한다. 특히, NGA 프로세서(552)는 사용자 선택(558)을 프로세싱하고, 선택된 오디오 스트림들을 수신된 오디오 데이터(556)로부터 오디오 디코딩 및 렌더링 유닛들(554)에 포워딩하고, 오디오 디코딩 및 렌더링 유닛들(554)은 선택된 오디오 스트림들의 오디오 데이터를 디코딩 및 렌더링한다.

[0197] 이러한 방식으로, 도 6의 시스템(530)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0198] 도 17은 사전-선택 유닛(574), NGA 오디오 디코더(580) 및 사용자 인터페이스(576)를 포함하는 예시적인 시스템(560)을 예시한다. NGA 오디오 디코더(580)는 NGA 프로세서(582) 및 오디오 디코딩 및 렌더링 유닛들(584)을 포함한다. 도 17의 예에서, NGA 오디오 디코더(580) 및 사전-선택 유닛(574)은 M&E(music & effects) 미디어 스트림(564)과 함께 오디오 스트림 메타데이터(562)를 수신한다. 오디오 스트림 메타데이터(562)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0199] 도 17의 예에서, 각각의 오디오 오브젝트는 단일 스트림, 즉 미디어 스트림(565)에서 제공된다. 특히, 이러한 예에서, M&E 스트림(564), 영어 대화 스트림(566), 독일어 대화 스트림(568), 영어 코멘터리 스트림(570) 및 독일어 코멘터리 스트림(572)은 미디어 스트림(565)에서 제공된다.

[0200] NGA 오디오 디코더(580)는 이러한 예에서, 사용자 인터페이스(576)를 통해 수신된 입력(588)에 기초하여 스트림들 중 어느 것을 리트리브할지를 결정한다. 사전-선택 유닛(574)은, NGA 오디오 디코더(580)에 의해 제공된 피드백에 기초하여 스트림들 중 어느 것이 요청된 오디오 데이터(예를 들어, 대화를 위한 언어들 및 원한다면 코멘터리를 위한 언어들)를 포함하는지를 결정하고, NGA 오디오 디코더(580)는 사용자 인터페이스(576)를 통해 수신된 사용자 선택(588)을 프로세싱한다. 특히, NGA 프로세서(582)는 사용자 선택(588)을 프로세싱하고, 선택된 오디오 스트림들을 수신된 오디오 데이터(586)로부터 오디오 디코딩 및 렌더링 유닛들(584)에 포워딩하고, 오디오 디코딩 및 렌더링 유닛들(584)은 선택된 오디오 스트림들의 오디오 데이터를 디코딩 및 렌더링한다.

[0201] 이러한 방식으로, 도 17의 시스템(560)은, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0202] 별개로 예시되어 있지만, 단일 수신기가 단독으로 또는 임의의 조합으로, 도 15 내지 도 17 중 임의의 것의 모델들을 준수하는 오디오 데이터를 수신하도록 구성될 수 있다. 또한, 도 15 내지 도 17의 예들에 도시되지 않지만, 도 15 내지 도 17의 예시적인 시스템들 중 임의의 것은 도 5 내지 도 7, 도 9, 도 10, 도 13 또는 도 14의 시스템즈 계층 유닛들과 실질적으로 유사한 방식으로 구성되는 시스템즈 계층 유닛을 더 포함할 수 있다.

[0203] 도 15 내지 도 17의 예들에 따른 수신기 디바이스는 다음과 같이 동작하도록 구성될 수 있다. 시스템즈 계층 유닛은 각각의 미디어 스트림의 네트워크 능력들 및 전달 네트워크, 디코더 능력들 및 기본적 시스템즈 계층 메타데이터(예를 들어, 언어, 액세스가능성, 레이팅)를 결정할 수 있다.

· NGA 선택기는 다음을 결정할 수 있다:

o 각각의 미디어 스트림에 할당된 메타데이터

o 메타데이터는 오늘날 시스템 레벨 상에서 정의된 것보다 훨씬 더 풍부할 수 있다

· 시스템 메타데이터를 사용하는 시스템 계층은:

o 네트워크 능력들, 디코딩 능력들 및 기본 시스템 메타데이터에 기초하여 미디어 스트림들 및 사전-선택들을 프룬하고,

o 네트워크 능력들 및 시스템 메타데이터에 기초하여 이용가능한 오디오 디코더에 하나의 사전-선택의 모든 스트림들을 제공할 수 있다.

· 오디오 디코더는 스트림들이 필요한(필요하지 않은) 오디오 메타데이터에 기초하여 시스템 계층에 통지할 수 있다.

o 시스템 계층은 이러한 정보에 따라 스트림들을 선택(선택해제)한다.

· 선택은 동적일 수 있다.

[0204] 도 18은 웹 브라우저(632)와 MPEG-2 시스템즈 계층 유닛(624) 사이에 위치된 사용자 인터페이스/에이전트(634)를 포함하는 수신기 디바이스(600)의 예를 예시하는 개념도이다. 수신기 디바이스(600)는 또한 선택 유닛(622) 및 NGA 오디오 디코더(626)를 포함하고, 그 다음, NGA 오디오 디코더(626)는 NGA 프로세서(628) 및 오디오 디코딩 및 렌더링 유닛들(630)을 포함한다.

[0205] 초기에, NGA 프로세서(628)는 오디오 스트림 메타데이터(603)를 수신할 수 있고, 오디오 스트림 메타데이터(603)는 M&E(music & effects) 스트림(604)(시스템즈 메타데이터(602)를 동반함), 영어 대화 스트림(608)(시스템즈 메타데이터(606)를 동반함), 독일어 대화 스트림(612)(시스템즈 메타데이터(610)를 동반함), 영어 코멘터리 스트림(616)(시스템즈 메타데이터(614)를 동반함) 및 독일어 코멘터리 스트림(620)(시스템즈 메타데이터(618)를 동반함)을 포함하는 미디어 데이터의 각각의 이용가능한 스트림을 설명하는 데이터를 포함한다. 오디오 스트림 메타데이터(603)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다. 또한, NGA 오디오 디코더(626)는 예를 들어, 오디오 디코딩 및 렌더링 유닛들(630)에 의해 프로세싱될 수 있는 이용가능한 스트림들을 표현하는 데이터(636)를 시스템즈 계층 유닛(624)에 제공한다. 시스템 계층 유닛(624)은 이러한 예에서 시스템즈 메타데이터(602, 606, 610, 614 및 618)를 수신하고, 스트림들 중 어느 것이 선택을 위해 이용가능한지를 표현하는 데이터를 웹 브라우저(632)에 전송한다.

[0206] 이러한 예에서, 사용자는 선택된 오디오 스트림들을 표현하는 웹 브라우저(632)를 통해 입력을 제공할 수 있다. 추가적으로 또는 대안적으로, 사용자는 사용자 인터페이스/에이전트(634)를 통해 입력을 제공할 수 있다. 이러한 예에서, 웹 브라우저(632)는 사용자의 선택을 표현하는 데이터(638)를 전달하고, 그리고/또는 사용자 인터페이스/에이전트(634)는 선택을 표현하는 데이터(640)를 전달한다. 시스템즈 계층 유닛(624)은 데이터(638 및/또는 640)를 수신하고, 그 다음, 선택을 표현하는 데이터(642)를 사전-선택 유닛(622)에 제공한다.

[0207] 사전-선택 유닛(622)은, 스트림들 중 어느 것이 M&E 스트림(604)이 제공된 오디오 스트림 메타데이터(603)로부터 요청된 오디오 데이터(예를 들어, 대화 및/또는 코멘터리)를 포함하는지를 결정하고, 적절한 스트림들을 선택한다. 그 다음, 사전-선택 유닛(622)은 선택된 스트림들로부터의 오디오 데이터(644)를 NGA 오디오 디코더(626)에 포워딩한다. NGA 오디오 디코더(626)는 오디오 디코딩 및 렌더링 유닛들(630)을 사용하여 오디오 데이터를 디코딩 및 렌더링하고, 그 다음, 디코딩되고 렌더링된 오디오 데이터를 하나 이상의 스피커들(미도시)과 같은 오디오 출력에 포워딩한다.

[0208] 이러한 방식으로, 도 18의 수신기 디바이스(600)는, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0209] 도 19는 웹 브라우저(682)와 NGA 오디오 디코더(676) 사이에 위치된 사용자 인터페이스(684)를 포함하는 수신기 디바이스(650)의 다른 예를 예시하는 개념도이다. 이러한 예는, 사용자 인터페이스(684)가 이용가능한 오디오 스트림들의 선택을 표현하는 사용자로부터의 입력을 NGA 오디오 디코더(676)에 제공하고 NGA 오디오 디코더(676)가 입력/선택을 표현하는 데이터(686)를 시스템 계층 유닛(674)에 제공하는 것을 제외하고는 도 18의 예를 실질적으로 준수한다. 그 다음, MPEG-2 시스템즈 계층 유닛(674)은 사전-선택 유닛(672)에 데이터(692)를 제공한다. 사전-선택 유닛(672)은, 이용가능한 오디오 스트림들 중 어느 것이 M&E 스트림(654)이 제공된 오디오 스트림 메타데이터(653)로부터 요청된 오디오 데이터(예를 들어, 대화 및/또는 코멘터리)를 포함하는지를 결정한다. 오디오 스트림 메타데이터(653)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0210] 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(654)(시스템즈 메타데이터(652)를 동반함), 영어 대화 스트림(658)(시스템즈 메타데이터(656)를 동반함), 독일어 대화 스트림(662)(시스템즈 메타데이터(660)를 동반함), 영어 코멘터리 스트림(666)(시스템즈 메타데이터(664)를 동반함) 및 독일어 코멘터리 스트림(670)(시스템즈 메타데이터(668)를 동반함) 중 임의의 것 또는 전부를 포함할 수 있다. 시스템 계층 유닛(624)은 이러한 예에서 시스템즈 메타데이터(652, 656, 660, 664 및 668)를 수신하고, 선택을 위해 이용가능한 스트림들의 타입들을 표현하는 데이터(688)를 웹 브라우저(682)에 전송한다.

[0211] 사전-선택 유닛(672)은, 스트림들 중 어느 것이 M&E 스트림(654)이 제공된 오디오 스트림 메타데이터(653)로부터 요청된 오디오 데이터(예를 들어, 대화 및/또는 코멘터리)를 포함하는지를 결정하고, 적절한 스트림들을 선택한다. 그 다음, 사전-선택 유닛(672)은 선택된 스트림들로부터의 오디오 데이터(694)를 NGA 오디오 디코더(676)에 포워딩한다. NGA 오디오 디코더(676)는 오디오 디코딩 및 렌더링 유닛들(680)을 사용하여 오디오 데이터를 디코딩 및 렌더링하고, 그 다음, 디코딩되고 렌더링된 오디오 데이터를 하나 이상의 스피커들(미도시)과 같은 오디오 출력에 포워딩한다.

[0212] 이러한 방식으로, 도 19의 수신기 디바이스(650)는, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0213] 도 20은 수신기 디바이스(700)의 다른 예를 예시하는 개념도이다. 이러한 예는 도 18 및 도 19의 예들의 조합을 표현한다. 즉, 수신기 디바이스(700)는 도 18의 수신기 디바이스(600) 및/또는 도 19의 수신기 디바이스(650)의 예들 중 어느 하나 또는 둘 모두에 따라 기능하도록 구성될 수 있다.

[0214] 이러한 예에서, 수신기 디바이스(700)는 사전-선택 유닛(722), 시스템즈 계층 유닛(724), NGA 오디오 디코더(726), 사용자 인터페이스(734), 사용자 인터페이스/에이전트(732) 및 브라우저(746)를 포함한다. NGA 오디오 디코더(726)는 NGA 프로세서(728) 및 오디오 디코딩 및 렌더링 유닛들(730)을 포함한다.

[0215] 이러한 예에서, 사용자 인터페이스(734)는 이용가능한 오디오 스트림들의 선택을 표현하는 사용자로부터의 입력을 NGA 오디오 디코더(726)에 제공할 수 있다. 이러한 예에서, NGA 오디오 디코더(726)는 입력/선택을 표현하는 데이터(736)를 시스템즈 계층 유닛(724)에 제공한다. 대안적으로, 사용자 인터페이스/에이전트(732) 및/또는 브라우저(746)는 NGA 오디오 디코더(726)에 대한 이용가능한 오디오 스트림들의 선택을 표현하는 데이터(740, 738)를 각각 시스템즈 계층 유닛(724)에 제공할 수 있다. 어느 경우이든, MPEG-2 시스템즈 계층 유닛(724)은 사전-선택 유닛(722)에 데이터(742)를 제공한다. 사전-선택 유닛(722)은, 이용가능한 오디오 스트림들 중 어느 것이 M&E 스트림(704)이 제공된 오디오 스트림 메타데이터(703)로부터 요청된 오디오 데이터(예를 들어, 대화 및/또는 코멘터리)를 포함하는지를 결정한다. 오디오 스트림 메타데이터(703)는 예를 들어, DASH의 MPD와 같은 매니페스트 파일에 포함될 수 있다.

[0216] 이러한 예에서, 이용가능한 오디오 데이터는 M&E 스트림(704)(시스템즈 메타데이터(702)를 동반함), 영어 대화 스트림(708)(시스템즈 메타데이터(706)를 동반함), 독일어 대화 스트림(712)(시스템즈 메타데이터(710)를 동반함), 영어 코멘터리 스트림(716)(시스템즈 메타데이터(714)를 동반함) 및 독일어 코멘터리 스트림(720)(시스템즈 메타데이터(718)를 동반함) 중 임의의 것 또는 전부를 포함할 수 있다. 시스템 계층 유닛(724)은 이러한 예에서 시스템즈 메타데이터(702, 706, 710, 714 및 718)를 수신하고, 선택을 위해 이용가능한 스트림들의 타입들을 표현하는 데이터를 웹 브라우저(746)에 전송한다.

[0217] 사전-선택 유닛(722)은, 스트림들 중 어느 것이 M&E 스트림(704)이 제공된 오디오 스트림 메타데이터(703)로부터 요청된 오디오 데이터(예를 들어, 대화 및/또는 코멘터리)를 포함하는지를 결정하고, 적절한 스트림들을 선택한다. 그 다음, 사전-선택 유닛(722)은 선택된 스트림들로부터의 오디오 데이터(744)를 NGA 오디오 디코더(726)에 포워딩한다. NGA 오디오 디코더(726)는 오디오 디코딩 및 렌더링 유닛들(730)을 사용하여 오디오 데이터를 디코딩 및 렌더링하고, 그 다음, 디코딩되고 렌더링된 오디오 데이터를 하나 이상의 스피커들(미도시)과 같은 오디오 출력에 포워딩한다.

[0218] 이러한 방식으로, 도 20의 수신기 디바이스(700)는, 오디오 데이터를 수신하기 위한 디바이스의 예를 표현하고 이는, 디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더, 및 디지털 로직 회로에서 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는 오디오 데이터 프로세싱 유닛을 포함한다.

[0219] 오디오 데이터(및, 그에 따른 오디오 스트림들)의 사전-선택을 위해 사용될 수 있는 데이터는 일례로서 다음을 포함할 수 있다:

· 시스템즈 계층이 사전선택할 수 있게 하는 필수적 사전-선택 데이터

o @codecs

■ 오직 2: AC-4 및 MPEG-H 오디오

o 네트워크 능력들(브로드캐스트 전용, 브로드밴드)

· 가능한 사전-선택 데이터:

o 역할 및 액세스가능성

■ Amd.2로부터의 역할 방식으로 커버됨

o 언어

■ ISO/IEC 언어 태그의 가능한 값에 기초함

o 오디오 채널 구성

■ 코덱 독립적 코드 포인트들: ISO/IEC 23001-9

o 채널 위치들

■ 코덱 독립적 코드 포인트들: ISO/IEC 23001-9

o 샘플링 레이트

■ 정수 값을 가질 수 있음

o 레이팅

■ ATSC에서 이용가능한 임의의 방식

o 주의깊게 정의될 필요가 있는 임의의 다른 것들

· 사전-선택이 MPEG-2 시스템즈 레벨에서 가능하면, 특정 스트림들은 오디오 디코더에 이용가능하지 않을 수 있다.

[0220] 본 개시에 따른 디바이스들 및 시스템들, 예를 들어, 앞서 논의된 도면들에 도시된 것들은 하기 일반적 요건들 및 솔루션에 따라 동작할 수 있다.

· 잠재적으로 단일 적응 세트가 사용될 수 없음을 시그널링함 -> 타입 PartialAS를 정의함.

· 모든 적응 세트들이 단일 디코더에 속함을 시그널링함 -> @bundleID.

· 사전-선택들의 시그널링을 제공함:

o 옵션 1: 부분적 AS에 제공되는 스트림들을 참조하는 사전-선택 엘리먼트.

o 옵션 2: 새로운 의존도 엘리먼트를 사용하는 스트림의 선형 의존도.

o 모든 경우들에서, 사전-선택들은 메타데이터로 어노테이팅될 수 있다. 사전-선택 엘리먼트들은 예를 들어 사용자 에이전트에 의한 자동 선택을 위해 사용될 수 있는 파라미터들을 포함할 수 있다.

· 번들의 메인 스트림을 어노테이팅함.

o 옵션 1: @main 시그널링을 추가함

o 옵션 2: @sequence 속성의 제1 스트림.

· 하나의 스트림에 있는 오브젝트들을 어노테이팅함 -> ContentComponent.

· 모든 부분적 적응 세트가 오디오 디코더에 의해 참조될 수 있도록 이를 어노테이팅함 -> @memberID.

[0221] 본 개시에 따른 디바이스들 및 시스템들, 예를 들어, 앞서 논의된 도면들에 도시된 것들은 하기 ATSC 통고(caveat)들에 따라 동작할 수 있다:

· 브로드캐스트를 통해 분산된 완전한 프리젠테이션이 항상 존재한다고 예상됨 -> 선택될 수 있는 전체 적응 세트를 형성하고 또한 완전한 오디오 메타데이터를 포함함.

· 개별적으로 선택될 수 없는 적응 세트들을 통해 추가적인 미디어 스트림들을 설명함.

· 멀티플렉싱된 버전들 뿐만 아니라 별개의 버전들을 가능하게 함 -> 컴포넌트 ID를 추가함

[0222] 다음은, 본 개시의 디바이스들 또는 시스템들 중 임의의 것 또는 유사한 디바이스들 또는 시스템들에 의해 구현될 수 있는 ATSC에 대한 솔루션의 하나의 예시적인 제안이다:

· 통상적으로 브로드캐스트를 통해 전달되는 정확히 하나의 완전한 적응 세트를 항상 제공함.

· 통상적으로 브로드밴드를 통해 제공되는 추가적인 오브젝트들에 대해 연관된 부분적 적응 세트들을 제공함.

o 부분적 적응 세트들은 필수적 디스크립터 및 새로운 방식으로 시그널링될 수 있다.

o 디스크립터의 값은 대응하는 완전한 적응 세트의 시작 포인트를 갖는 적응 세트 ID들의 동작 시퀀스를 제공할 수 있다.

· 각각의 오브젝트를 ContentComponent로서 시그널링함:

o 설명은 각각의 오브젝트에 대한 기존의 파라미터들을 사용하여 제공될 수 있다. 오직 단일 콘텐츠 컴포넌트가 포함되면, 이는 AS 레벨 상에서 시그널링될 수 있다.

o ContentComponent@id의 값은 코덱에 의해 소유되고, 예를 들어, 정보가 포워딩되면, 오브젝트를 식별하기 위해 사용될 수 있다.

· 상이한 적응 세트들에서의 표현들에 매칭하는 것을 가능하게 하기 위해 @qualityRanking을 제공함.

· 또한, 새로운 ex:PreSelection 확장 엘리먼트가 시그널링 사전-선택들에 제공될 수 있다.

o 사전-선택들은 (ContentComponent@id를 포인팅함으로써 제공되는) 다수의 오브젝트들의 조합을 제공할 수 있고, 신호 사전-선택 ID를 할당할 수 있다.

o 사전-선택 엘리먼트의 추가적인 메타데이터는 심지어 코덱-특정적일 수 있다.

[0223] 기능들에 대한 예시적인 맵핑은 아래에 제공된다:

· 잠재적으로 단일 적응 세트가 사용될 수 없음을 시그널링함 -> 타입 PartialAS를 정의함 -> 필수적 디스크립터, 그러나 항상 하나의 AS에서 하나의 완전한 사전-선택.

· 모든 적응 세트들이 단일 디코더에 속함을 시그널링함 -> @bundleID -> 번들 ID는 메인 적응 세트의 @id이고, 모든 AS들은 이러한 AS에 속하는 이들의 필수적 디스크립터 값에서 시그널링함.

· 사전-선택들의 시그널링을 제공함:

o 옵션 1: 부분적 AS에서 제공되는 스트림들을 참조하는 사전-선택 엘리먼트 -> 이는 정보에 대해 사용될 수 있다.

o 옵션 2: 새로운 의존도 엘리먼트를 사용하는 스트림의 선형 의존도 -> 이는 ContentComponent 레벨에서 사용될 수 있음.

o 모든 경우들에서, 사전-선택들은 메타데이터로 어노테이팅될 수 있다.

· 번들의 메인 스트림을 어노테이팅함.

o 옵션 1: 하나의 완전한 적응 세트를 표현하기 위해 @main 시그널링을 추가함.

o 옵션 2: 하나의 완전한 적응 세트를 표현하기 위한 @sequence 속성의 제1 스트림.

· 하나의 스트림에 있는 오브젝트들을 어노테이팅함 -> ContentComponent -> 동일함.

· 모든 부분적 적응 세트가 오디오 디코더에 의해 참조될 수 있도록 이를 어노테이팅함 -> @memberID -> ContentComponent@id.

[0224] 앞서 논의된 기술들에 따른 데이터의 예시적인 세트는:

· 메인 오디오 스트림은 M&E 오브젝트들 뿐만 아니라 영어 대화를 포함함.

· 또한, 다음은 앞서 논의된 예들에서 이용가능하다(그러나, 다른 예들에서, 다른 언어들의 오디오 데이터의 다른 세트들이 이용가능할 수 있음):

o 독일어 대화

o 영어 코멘터리

o 독일어 코멘터리

[0225] 도 5 내지 도 20의 예들에서, 다양한 디바이스들 및 이들의 유닛들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어 또는 펌웨어로 구현되는 경우, 필수적 하드웨어가 또한 제공될 수 있음을 이해해야 한다. 이러한 하드웨어는 예를 들어, 하나 이상의 디지털 신호 프로세서(DSP)들, 범용 마이크로프로세서들, 주문형 집적 회로(ASIC)들, 필드 프로그래밍가능 로직 어레이(FPGA)들, 또는 다른 동등한 집적 또는 이산 로직 회로와 같은 이산 로직 회로에서 구현되는 임의의 다양한 프로그래머블 및/또는 고정 목적 프로세싱 유닛들을 포함할 수 있다.

[0226] 또한, 도 5 내지 도 20의 예들에서, 다양한 오디오 스트림들은 예를 들어, MPEG-H 또는 AC-4 파트 2 또는 다른 이러한 오디오 코딩 표준들을 준수할 수 있다. 오디오 스트림들을 송신하기 위한 송신 표준들은 MPEG-2 TS(Transport Streams)를 포함하여, 각각의 오디오 스트림은 단일 프로그램 스트림, 별개의 각각의 프로그램 스트림, 또는 오디오 스트림들과 프로그램 스트림들 사이의 N:M 관계에서 반송될 수 있고, 여기서 하나 이상의 오디오 스트림들은 단일 MPEG-2 TS 프로그램 스트림에서 반송될 수 있고, 다수의 MPEG-2 TS 프로그램 스트림들이 존재할 수 있다(각각은 하나 이상의 오디오 스트림들을 반송함). 추가적으로 또는 대안적으로, 오디오 스트림들은 오디오 오브젝트들을 포함하는 MMT(MPEG Media Transport) 자산들로서 포함될 수 있다.

[0227] 도 21은 MPEG-2 시스템즈 레벨 상에서 수행되는 모든 데이터의 예시적인 선택을 예시하는 개념도이다. 화살표들은 사전-선택된 오디오 데이터와 선택된 데이터를 포함하는 스트림들 사이의 대응관계를 표현한다. 대응관계는 다양한 예들에서 앞서 논의된 바와 같은 사전-선택 유닛에 의해 결정될 수 있다.

[0228] 도 22는 M&E 오디오 데이터에 추가로 영어 코멘터리의 선택이 존재하는 예를 예시하는 개념도이다. 영어 코멘터리의 선택은, 영어 코멘터리를 포함하는 적응 세트의 @id=4 속성을 사용하는 스트림을 식별함으로써, 또는 @id="commentary-english" 속성을 사용하는 사전-선택을 통해 수행될 수 있다. 도 22는 도 21에 도시된 데이터 세트로부터 사전-선택된 또는 선택된 속성들에 매칭하지 않는 적응 세트들의 프룬에 따라 남아 있는 것을 특히 예시한다.

[0229] 도 23은, 사전-선택 유닛(또는 다른 유닛)이 사용자에 의해 선택되지 않은 것들을 제거하기 위해 적응 세트들을 프룬(prune)하는 다른 예를 예시하는 개념도이다. 이러한 경우, 사전-선택은 M&E 스트림 및 영어 대화 스트림에 대해 수행된다. 그 다음, 사전-선택 유닛은 모든 다른 스트림들, 즉, "1"과 동일한 @id 엘리먼트, ContentComponent @id="me", ContentComponent @id ="en-dialogue", 및/또는 @id="main-english"를 갖지 않는 것들을 프룬할 수 있다. 도 23은 도 21에 도시된 데이터 세트로부터 사전-선택된 또는 선택된 속성들에 매칭하지 않는 적응 세트들의 프룬에 따라 남아 있는 것을 특히 예시한다.

[0230] 대안적으로, 사전-선택들이 선택을 위해 사용될 수 있다. 선택을 위한 사전-선택들을 사용하는 경우, 다음 데이터가 이 순서로 사용될 수 있다:

· 코덱들, 프로파일 및 레벨 표시들을 포함하는 @codecs, 예를 들어, 디코딩될 필요가 있는 오브젝트들의 요구되는 총 수

· 사전-선택의 레이팅 제약들

· 다른 능력들

· 사용자 상호작용 기반 선택에 대한 라벨

· 라벨들은 프리젠테이션에 대한 상이한 언어들에서 이용가능할 수 있다.

· 사전-선택의 유일하게 존재하는 또는 지배적인(어느 하나일 수 있는) 언어 @lang

· 기존의 정의들에 따른 사전-선택의 할당된 역할

· 오디오에 또한 할당된 다른 파라미터들

· @priority (다수의 체류의 경우의 선택)

· @bundleID (디코더 인스턴스 시그널링)

[0231] 예를 들어, 앞서 설명된 사전-선택 유닛에 의해 수행되는 예시적인 프룬 프로세스는 다음과 같을 수 있다:

· 초기에 능력들(예를 들어, 코딩 및 렌더링 능력들)에 대한 사전-선택들을 프룬. 사전-선택 엘리먼트에서 특정되고 플랫폼 상에서 이용가능한 경우, 통상적으로:

o 코덱 프로파일/레벨,

o 레이팅 제약들 및/또는

o 다른 오디오 능력들, 예를 들어, 렌더링.

· 가능하다면, 사용자 선택을 행하기 위해 라벨을 사용함(참여 시간이 아닐 가능성이 있음)

· 사전-선택들(언어, 역할 등)을 추가로 프룬하기 위해 시스템 디폴트들을 사용함

· 마지막으로, 최고 우선순위를 갖는 나머지 사전-선택을 선택하기 위해 우선순위를 사용함.

[0232] 다음은 더 복잡한 사용 사례의 예이다.

· 스트림들:

o 스트림 A = (2 mux된 오디오 컴포넌트들) = M&E + 대화 1차 언어(EN)

o 스트림 B = 대화 2차 언어(DE)

o 스트림 C = 코멘터리(EN)

o 스트림 D = 코멘터리(DE)

· 사전-선택:

o 옵션 1 = M&E + 대화(EN)

o 옵션 2 = M&E + 대화(DE)

o 옵션 3 = M&E + 대화(EN) + 코멘터리(EN)

o 옵션 4 = M&E + 대화(DE) + 코멘터리(DE)

o 옵션 5 = M&E + 대화(DE) + 코멘터리(EN)

o 옵션 6 = M&E + 코멘터리(EN)

· 가정들:

o 함께 디코딩되는 2개의 컴포넌트들은 @codecs="nga1.level1"을 요구함

o 함께 디코딩되는 3개의 컴포넌트들은 @codecs="nga1.level2"을 요구함

[0233] 일부 예들에서, 동일한 콘텐츠는 매니페스트 파일(예를 들어, MPD)에서 다수회 식별될 수 있다. 다음은 이러한 예를 도시한다:

[0234] 이러한 매니페스트 파일 데이터에 따른 사전-선택들의 예들은 다음과 같을 수 있다:

[0235] 다른 예에서, 사전-선택은 아래에 나타난 바와 같이 선택에 기초할 수 있다:

[0236] 이러한 매니페스트 파일 데이터에 따른 사전-선택들의 예들은 다음과 같을 수 있다:

[0237] 상기 예에서, nga1 및 "German"이 선택되었다면, 나머지 사전-선택 옵션은 @id="option2"를 갖는 사전선택일 것이다.

[0238] ATSC의 사용 사례들은 아래에 설명된다. 선택적 엘리먼트들 및 속성들은 이탤릭체로 나타나 있다.

[0239] 아래에서 설명되는 바와 같은 제1, 제2, 제3 및 제4 예시적인 ATSC 사용 사례들은 일반적으로 단지 하나의 완전한 메인 오디오 스트림을 갖는 프로그램을 전달하는 브로드캐스터를 수반한다. 이러한 예들에서 이러한 프로그램에 대해 이용가능한 어떠한 다른 오디오 옵션들도 존재하지 않는다.

[0240] 제1, 제2, 제3 및 제4 예시적 ATSC 사용 사례들은 다음과 같다:

· 브로드캐스터는 단지 하나의 완전한 메인 오디오 스트림을 갖는 프로그램을 전달한다. 이러한 프로그램에 대해 이용가능한 어떠한 다른 오디오 옵션들도 존재하지 않는다.

· 브로드캐스터는 브로드캐스트를 통해 둘 이상의 완전한 메인 오디오 스트림들을 갖는 프로그램을 제공한다. 예를 들어, 하기의 것들에 따라 DASH 매니페스트들에서 이용가능한 오늘날의 오디오 특성 시그널링에 기초하여 클라이언트에 의해 스트림들 중 오직 하나가 선택된다:

o 수신기의 오디오 언어 선호도 세팅,

o 수신기의 액세스가능성 세팅들,

o 수신기의 코덱 능력들, 및/또는

o 수신기의 출력 선호도(예를 들어, 스테레오 대 멀티채널 출력).

· 브로드캐스터는 개별적인 완료 메인 오디오 스트림들 이외의 형태들로, 다수의 오디오 옵션들을 시청자에게 공급하는 프로그램을 전달한다. 즉, 브로드캐스터는, 예를 들어, 1차 언어, 2차 언어들, 비디오 설명 서비스들 등을 디코딩하기 위해 모든 요구되는 오디오 컴포넌트들을 포함하는 하나의 단일 오디오 스트림을 제공할 수 있다. 스트림으로부터의 오디오 옵션들 중 오직 하나가 다음에 기초하여 클라이언트에 의해 선택된다.

o DASH 매니페스트들에서 이용가능한 오늘날의 오디오 특성 시그널링, 및/또는

o 신호 몰입형 및 개인화된 콘텐츠를 시그널링하기 위해 DASH-IF에 의해 정의될 새로운 파라미터들 또는 방법들.

· 브로드캐스터는 하이브리드 서비스, 즉, 2개의 오디오 옵션들을 갖는 프로그램을 제공한다. 하나의 메인 오디오 스트림은 브로드캐스트를 통해 전달될 수 있고, 다른 메인 오디오 스트림은 브로드밴드를 통해 전달될 수 있다. 스트림들 중 오직 하나가 다음에 기초하여 클라이언트에 의해 선택된다.

o DASH 매니페스트들에서 이용가능한 오늘날의 오디오 특성 시그널링,

o 신호 몰입형 및 개인화된 콘텐츠를 시그널링하기 위해 DASH-IF에 의해 정의될 새로운 파라미터들 또는 방법들, 및/또는

o 접속(이더넷 또는 WiFi를 통해 하이브리드 콘텐츠에 대한 액세스를 인에이블/디스에이블).

[0241] 제5, 제6 및 제7 예시적인 ATSC 사용 사례들은 브로드캐스트를 통해 둘 이상의 완전한 메인 오디오 스트림들을 갖는 프로그램을 제공하는 브로드캐스터를 수반한다. 스트림들 중 오직 하나는 클라이언트에 의해, 예를 들어, 수신기의 오디오 언어 선호도 세팅, 수신기의 액세스가능성 세팅들, 수신기의 코덱 능력들 및 수신기의 출력 선호도(예를 들어, 스테레오 대 멀티채널 출력)에 따라 DASH 매니페스트들에서 이용가능한 오늘날의 오디오 특성 시그널링에 기초하여 선택된다.

[0242] 앞서 논의된 데이터를 사용할 수 있는 제5, 제6 및 제7 예시적인 ATSC 사용 사례들은 다음과 같다:

· 브로드캐스터는 하이브리드 서비스를 제공한다. 많은 오디오 옵션들을 갖는 프로그램, 여기서 공통 오디오 컴포넌트(예를 들어, 음악 및 효과들) 및 1차 언어 오디오는 브로드캐스트를 통해 전달된다. 2차 언어들 및 다른 오디오 컴포넌트들은 브로드밴드를 통해 전달된다. 모든 오디오 옵션들은, 공통 컴포넌트가 함께 디코딩되는 것을 요구한다. 오디오 옵션들 중 오직 하나가 다음에 기초하여 클라이언트에 의해 선택된다.

· 브로드캐스터는 많은 오디오 옵션들을 갖는 프로그램을 제공하고, 여기서 모든 오디오 컴포넌트들은 브로드밴드를 통해 전달된다. 오디오 옵션들 중 오직 하나가 다음에 기초하여 클라이언트에 의해 선택된다.

· 브로드밴드를 통해 전달되는 추가적인 오디오 스트림들.

[0243] 도 24는 본 개시의 기술들에 따른 예시적인 방법을 예시하는 흐름도이다. 예시의 목적들로, 예시적인 방법은 도 20의 수신기 디바이스(700)에 의해 수행되는 것으로 설명된다. 그러나, 이러한 또는 유사한 방법은 도 18의 네트워크 수신기(600), 도 19의 네트워크 수신기(650) 또는 도 6, 도 7, 도 9, 도 10 또는 도 13 내지 도 17 중 임의의 것의 다양한 수신기 디바이스들/시스템들과 같은 다양한 다른 디바이스들에 의해 수행될 수 있음을 이해해야 한다.

[0244] 초기에, 이러한 예에서, NGA 오디오 디코더(726)는 미디어 데이터에 대한 매니페스트 파일을 수신한다(800). 매니페스트 파일은 예를 들어 DASH의 MPD를 포함할 수 있다. 매니페스트 파일은 오디오 스트림 메타데이터(703)(도 20)와 같은 오디오 스트림 메타데이터를 포함할 수 있다. 오디오 스트림 메타데이터는 일반적으로, 미디어 데이터의 오디오데이터의 특성들, 예를 들어, 코딩 특성들, 렌더링 특성들 및 다른 특성들, 예를 들어, 대응하는 스트림들에 대한 콘텐츠 레이팅(특정 청중들에 대한 콘텐츠 적합성을 설명함), 대응하는 스트림들에 대한 언어들 및/또는 대응하는 스트림들에 대한 역할/액세스가능성을 설명할 수 있다.

[0245] 따라서, NGA 오디오 디코더(726)는 매니페스트 파일에서 설명된 오디오 오브젝트들을 결정할 수 있다(802). 일반적으로, 오디오 오브젝트들은 미디어 데이터의 적응 세트들 또는 부분적 적응 세트들에 대응할 수 있다. 각각의 오디오 오브젝트는 상이한 타입의 오디오 데이터, 예를 들어, 음악 및 효과들, 대화 및/또는 코멘터리를 표현할 수 있다. 도 20의 예에서, NGA 오디오 디코더(726)는, M&E 스트림(704), 영어 대화 스트림(708), 독일어 대화 스트림(712), 영어 코멘터리 스트림(716), 및 독일어 코멘터리 스트림(720)이 이용가능하다고 결정할 것이다.

[0246] NGA 오디오 디코더(726)는 스트림들 각각이 이용가능하게 되는 네트워크들을 추가로 결정할 수 있다(804). 특히, 다양한 네트워크들은, 브로드캐스트, 브로드밴드 또는 둘 모두와 같은 네트워크들을 통해 대응하는 스트림들이 전송되는 방식들을 표현할 수 있다. 또한, 도 24에는 도시되지 않지만, NGA 오디오 디코더(726)는 또한, 오디오 오브젝트들에 대응하는 오디오 적응 세트들이 각각의 특정 식별자들을 갖는 완전히 제시가능한 오디오 프리젠테이션들을 포함하는지 여부, 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들(뿐만 아니라 오디오 적응 세트가 의존하는 오디오 적응 세트들에 대한 식별자들)에 의존하는지 여부 및 오디오 적응 세트들에 대한 식별자들을 결정할 수 있다.

[0247] 그 다음, NGA 오디오 디코더(726)는 오디오 오브젝트들의 하나 이상의 선택들을 수신할 수 있다(806). 이러한 선택들은 사용자 선택들 또는 사용자 에이전트 선택들을 표현할 수 있다. 사용자 선택은 통상적으로 라이브 사용자 입력을 표현하는 한편, 사용자 에이전트 선택은 통상적으로 이전에 구성된 구성 데이터(예를 들어, "이용가능하면 영어 대화 선택"을 표현할 수 있음)를 표현한다. 도 20에 대해 앞서 논의된 바와 같이, NGA 오디오 디코더(726)는 사용자 인터페이스/에이전트(732)(도 20), 브라우저(746)(도 20) 또는 사용자 인터페이스(734)(도 20)로부터 이러한 입력을 수신할 수 있다. 일부 예들에서, NGA 오디오 디코더(726)는 초기에 브라우저(746)를 통해, 예를 들어, 오디오 스트림 메타데이터(703)에 기초하여, 및 어느 네트워크들이 수신기 디바이스(700)에 대해 현재 이용가능한지에 기초하여, 오디오 스트림들 중 어느 것이 이용가능한지를 표시할 수 있다.

[0248] 오디오 오브젝트들 중 어느 것이 선택되었는지를 표시하는 선택 데이터를 수신한 후, NGA 오디오 디코더(726)는 결정된 네트워크들을 통해 선택된 오디오 데이터를 수신한다(808). 예를 들어, 브로드캐스트 네트워크가 이용가능하고, 오디오 스트림들 중 하나 이상이 브로드캐스트 네트워크를 통해 이용가능하면, NGA 오디오 디코더(726)는 브로드캐스트 네트워크를 통해 오디오 데이터를 수신할 수 있다. 일부 예들에서, 브로드캐스트 네트워크를 통해 오디오 데이터를 수신하는 것은 브로드캐스트(또는, 일부 예들에서 네트워크 멀티캐스트)에 가입하는 것을 포함할 수 있다. 다른 예로서, 브로드캐스트 네트워크가 이용가능하지 않으면, 또는 선택된 오디오 오브젝트가 브로드밴드를 통해서만 이용가능하면, NGA 오디오 디코더(726)는 예를 들어, HTTP와 같은 유니캐스트 프로토콜에 따라(예를 들어, DASH를 사용하여) 브로드밴드를 통해 선택된 오디오 오브젝트를 수신할 수 있다. 오디오 데이터를 수신하는 것에 대한 응답으로, NGA 오디오 디코더(726)의 NGA 프로세서(728)는 오디오 데이터를 오디오 디코더, 예를 들어 오디오 디코딩 및 렌더링 유닛들(730)(도 20)에 포워딩한다(810).

[0249] 이러한 방식으로, 도 24의 방법은, MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하는 단계 ― 매니페스트 파일은, 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ― 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하는 단계, 선택 데이터에 기초하여 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하는 단계, 및 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하는 단계를 포함하는 방법의 예를 표현한다.

[0250] 하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 상기 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령 또는 코드로서 저장되거나 이를 통해 송신되고 하드웨어-기반 프로세싱 유닛에 의해 실행될 수 있다. 컴퓨터 판독가능 매체들은, 예를 들어, 통신 프로토콜에 따라, 일 장소에서 다른 장소로의 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체들을 포함하는 유형의 매체, 예를 들어, 데이터 저장 매체 또는 통신 매체에 대응하는 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이러한 방식으로, 컴퓨터 판독가능 매체는 일반적으로 (1) 비일시적인 유형의 컴퓨터 판독가능 저장 매체 또는 (2) 신호 또는 반송파와 같은 통신 매체에 대응할 수 있다. 데이터 저장 매체들은, 본 개시에 설명된 기술들의 구현을 위해 명령들, 코드 및/또는 데이터 구조들을 리트리브하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 이용가능한 매체일 수 있다. 컴퓨터 프로그램 제품은, 컴퓨터 판독가능 매체를 포함할 수 있다.

[0251] 제한이 아닌 예로써, 이러한 컴퓨터-판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광학 디스크 저장소, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 플래시 메모리 또는 명령들 또는 데이터 구조들의 형태로 요구되는 프로그램 코드를 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 지칭된다. 예를 들어, 명령들이 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 라인(DSL: digital subscriber line), 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버 또는 다른 원격 소스로부터 전송된다면, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들이 매체의 정의에 포함된다. 그러나, 컴퓨터 판독가능 저장 매체 및 데이터 저장 매체는 접속들, 반송파들, 신호들 또는 다른 일시적 매체를 포함하지 않지만, 그 대신 비일시적 유형의 저장 매체에 관한 것임을 이해해야 한다. 본 명세서에서 사용된 것과 같은 디스크(disk 및 disc)는 콤팩트 디스크(CD: compact disc), 레이저 디스크(laser disc), 광 디스크(optical disc), 디지털 다기능 디스크(DVD: digital versatile disc), 플로피 디스크(floppy disk) 및 블루레이 디스크(disc)를 포함하며, 여기서 디스크(disk)들은 보통 데이터를 자기적으로 재생하는 한편, 디스크(disc)들은 데이터를 레이저들에 의해 광학적으로 재생한다. 상기의 것들의 결합들이 또한 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

[0252] 명령들은, 하나 이상의 디지털 신호 프로세서(DSP)들, 범용 마이크로프로세서들, 주문형 집적 회로(ASIC)들, 필드 프로그래밍가능 로직 어레이(FPGA)들, 또는 다른 동등한 집적 또는 이산 로직 회로와 같은 하나 이상의 프로세서들에 의해 실행될 수 있다. 따라서, 본 명세서에서 사용된 바와 같이, 용어 "프로세서"는, 본 명세서에 설명된 기술들의 구현에 적합한 전술한 구조 또는 임의의 다른 구조 중 임의의 구조를 지칭할 수 있다. 부가적으로, 몇몇 양상들에서, 본 명세서에 설명된 기능은, 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 및/또는 소프트웨어 모듈들 내에서 제공되거나, 결합된 코덱으로 포함될 수 있다. 또한, 기술들은 하나 이상의 회로들 또는 로직 엘리먼트로 완전히 구현될 수 있다.

[0253] 본 발명의 기술들은, 무선 핸드셋, 집적 회로(IC) 또는 IC들의 세트(예를 들어, 칩셋)를 포함하는 광범위하게 다양한 디바이스들 또는 장치들에서 구현될 수 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들은, 기재된 기술들을 수행하도록 구성된 디바이스들의 기능 양상들을 강조하기 위해 본 발명에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구할 필요는 없다. 오히려, 상술된 바와 같이, 다양한 유닛들은, 코덱 하드웨어 유닛으로 결합될 수도 있거나, 적절한 소프트웨어 및/또는 펌웨어와 함께 상술된 바와 같은 하나 또는 그 초과의 프로세서들을 포함하는 상호동작하는 하드웨어 유닛들의 집합에 의해 제공될 수 있다.

[0254] 다양한 예들이 설명되었다. 이들 및 다른 예들은 다음의 청구항들의 범위 내에 존재한다.

Claims

미디어 데이터를 수신하는 방법으로서,
MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하는 단계 ― 상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―;
상기 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하는 단계;
상기 선택 데이터에 기초하여 상기 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하는 단계; 및
상기 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하는 단계를 포함하는, 방법.
제1 항에 있어서,
상기 매니페스트 파일은 DASH(Dynamic Adaptive Streaming over HTTP) MPD(media presentation description)를 포함하고, 상기 오디오 오브젝트들은 상기 DASH MPD에서 적응 세트들로서 시그널링되는, 방법.
제1 항에 있어서,
상기 스트리밍된 미디어 데이터를 수신하는 단계는 MPEG-2 TS(Transport Streams)를 준수하는 단일 프로그램 스트림 또는 MPEG-2 TS를 준수하는 다수의 프로그램 스트림들을 수신하는 단계를 포함하는, 방법.
제1 항에 있어서,
상기 스트리밍된 미디어 데이터를 수신하는 단계는 상기 오디오 오브젝트들을 포함하는 하나 이상의 MMT(MPEG Media Transport) 자산들을 수신하는 단계를 포함하는, 방법.
제1 항에 있어서,
상기 오디오 오브젝트들에 대응하는 복수의 오디오 적응 세트들 각각에 대해,
상기 오디오 적응 세트들이 특정 식별자(ID)를 갖는 완전히 제시가능한 오디오 프리젠테이션을 포함하는지 여부;
상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는지 여부, 및 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는 경우, 상기 하나 이상의 다른 오디오 적응 세트들에 대한 식별자; 및
상기 오디오 적응 세트에 대한 식별자
를 결정하기 위해 상기 매니페스트 파일을 사용하는 단계를 더 포함하는, 방법.
제5 항에 있어서,
표현들 각각에 대해 품질 랭킹 속성들을 표현하는 상기 오디오 적응 세트들에서 각각의 표현의 상대적 품질들을 결정하는 단계를 더 포함하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 데이터의 별개의 스트림에서 제공되는 것을 표시하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 오디오 오브젝트들 중 둘 이상이 브로드캐스트 스트림에서 멀티플렉싱되는 것, 및 상기 다른 오디오 오브젝트들이 브로드밴드를 통해 데이터의 별개의 스트림들로서 이용가능한 것을 표시하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 데이터의 단일 스트림으로 멀티플렉싱되는 것을 표시하는, 방법.
제9 항에 있어서,
상기 매니페스트 파일은, 데이터의 단일 스트림이 브로드캐스트를 통해 이용가능한 것을 표시하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 완전히 제시가능한 오디오 프리젠테이션의 특정 ID를, 상기 완전히 제시가능한 오디오 프리젠테이션을 포함하는 오디오 오브젝트의 오디오 오브젝트 식별자로서 시그널링하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 완전히 제시가능한 오디오 프리젠테이션의 특정 ID를, 상기 완전히 제시가능한 오디오 프리젠테이션을 포함하는 ISO 베이스 미디어 파일 포맷 파일에서 트랙의 트랙 ID로서 시그널링하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 상기 완전히 제시가능한 오디오 프리젠테이션의 특정 ID를, 상기 완전히 제시가능한 오디오 프리젠테이션을 포함하는 MPEG-2 전송 스트림에서 기본적 스트림의 PID(program identifier)로서 시그널링하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은 상기 완전히 제시가능한 오디오 프리젠테이션을 포함하는 MMT(MPEG Media Transport) 스트림의 특정 ID를 시그널링하는 디스크립터 데이터를 포함하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은, 의존적 적응 세트가 의존하는 상기 적응 세트들에 대한 식별자들을 제공하는 값을 갖는 필수적 디스크립터를 사용하여 오디오 적응 세트들 사이의 의존도들을 시그널링하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일은 콘텐츠 컴포넌트 엘리먼트들을 사용하여 상기 오디오 오브젝트들에 대한 식별자들을 시그널링하는, 방법.
제5 항에 있어서,
상기 매니페스트 파일로부터 하나 이상의 사전-선택 엘리먼트들을 리트리브하는 단계를 더 포함하는, 방법.
제17 항에 있어서,
상기 사전-선택 엘리먼트들 각각은 상기 오디오 오브젝트들의 서브세트를 선택하기 위한 디스크립터를 포함하는, 방법.
제17 항에 있어서,
상기 사전-선택 엘리먼트들 각각은 자동 선택을 위해 사용될 수 있는 하나 이상의 파라미터들을 포함하는, 방법.
제17 항에 있어서,
상기 사전-선택 엘리먼트들 각각은 상기 사전-선택을 위해 요구되는 코덱 능력들을 표시하는 데이터를 포함하는, 방법.
제17 항에 있어서,
상기 사전-선택 엘리먼트들 각각은 사용자 선택을 위한 텍스트 라벨을 포함하는, 방법.
제21 항에 있어서,
상기 텍스트 라벨은 상기 각각의 오디오 데이터의 언어에 대응하는 언어로 제공되는, 방법.
제17 항에 있어서,
상기 사전-선택 엘리먼트들 각각은 우선순위 값을 포함하는, 방법.
제17 항에 있어서,
수신된 선택 데이터에 기초한 사전-선택 엘리먼트들을 사용하여 상기 오디오 오브젝트들의 서브세트를 선택하는 단계를 더 포함하는, 방법.
오디오 데이터를 수신하기 위한 디바이스로서,
디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더; 및
디지털 로직 회로에서 구현되는 오디오 데이터 프로세싱 유닛을 포함하고, 상기 오디오 데이터 프로세싱 유닛은,
MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하고 ― 상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―;
상기 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하고;
상기 선택 데이터에 기초하여 상기 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하고;
상기 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하도록 구성되는, 디바이스.
제25 항에 있어서,
상기 매니페스트 파일은 DASH(Dynamic Adaptive Streaming over HTTP) MPD(media presentation description)를 포함하고, 상기 오디오 오브젝트들은 상기 DASH MPD에서 적응 세트들로서 시그널링되는, 디바이스.
제25 항에 있어서,
상기 오디오 오브젝트들을 포함하는 MPEG-2 TS(Transport Streams)를 준수하는 단일 프로그램 스트림, 상기 오디오 오브젝트들을 포함하는 MPEG-2 TS를 준수하는 다수의 프로그램 스트림들, 또는 상기 오디오 오브젝트들을 포함하는 하나 이상의 MMT(MPEG Media Transport) 자산들 중 하나 이상을 수신하게 구성되도록 구현되는 네트워크 인터페이스를 더 포함하는, 디바이스.
제25 항에 있어서,
상기 오디오 데이터 프로세싱 유닛은, 상기 오디오 오브젝트들에 대응하는 복수의 오디오 적응 세트들 각각에 대해,
상기 오디오 적응 세트들이 특정 식별자(ID)를 갖는 완전히 제시가능한 오디오 프리젠테이션을 포함하는지 여부;
상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는지 여부, 및 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는 경우, 상기 하나 이상의 다른 오디오 적응 세트들에 대한 식별자; 및
상기 오디오 적응 세트에 대한 식별자
를 결정하기 위해 상기 매니페스트 파일을 사용하도록 추가로 구성되는, 디바이스.
제28 항에 있어서,
상기 오디오 데이터 프로세싱 유닛은 상기 매니페스트 파일로부터 하나 이상의 사전-선택 엘리먼트들, 상기 오디오 오브젝트들의 서브세트를 선택하기 위한 디스크립터 중 하나 이상을 포함하는 사전-선택 엘리먼트, 자동 선택을 위해 사용될 수 있는 하나 이상의 파라미터들, 상기 사전-선택을 위해 요구되는 코덱 능력들을 표시하는 데이터, 사용자 선택을 위한 텍스트 라벨 또는 우선순위 값을 리트리브하도록 추가로 구성되는, 디바이스.
오디오 데이터를 수신하기 위한 디바이스로서,
디지털 로직 회로를 사용하여 구현되고, MPEG-H 또는 AC-4 파트 2를 준수하는 오디오 데이터를 디코딩하도록 구성되는 오디오 디코더;
MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하기 위한 수단 ― 상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―;
상기 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하기 위한 수단;
상기 선택 데이터에 기초하여 상기 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하기 위한 수단; 및
상기 선택 데이터에 의해 표시된 오디오 오브젝트들을 오디오 디코더에 제공하기 위한 수단을 포함하는, 디바이스.
제30 항에 있어서,
상기 매니페스트 파일은 DASH(Dynamic Adaptive Streaming over HTTP) MPD(media presentation description)를 포함하고, 상기 오디오 오브젝트들은 상기 DASH MPD에서 적응 세트들로서 시그널링되는, 디바이스.
제30 항에 있어서,
상기 스트리밍된 미디어 데이터를 수신하기 위한 수단은, 상기 오디오 오브젝트들을 포함하는 MPEG-2 TS(Transport Streams)를 준수하는 단일 프로그램 스트림, 상기 오디오 오브젝트들을 포함하는 MPEG-2 TS를 준수하는 다수의 프로그램 스트림들, 또는 상기 오디오 오브젝트들을 포함하는 하나 이상의 MMT(MPEG Media Transport) 자산들 중 하나 이상을 수신하기 위한 수단을 포함하는, 디바이스.
제30 항에 있어서,
상기 오디오 오브젝트들에 대응하는 복수의 오디오 적응 세트들 각각에 대한 상기 매니페스트 파일로부터, 상기 오디오 적응 세트들이 특정 식별자(ID)를 갖는 완전히 제시가능한 오디오 프리젠테이션을 포함하는지 여부를 결정하기 위한 수단;
상기 오디오 적응 세트들 각각에 대한 상기 매니페스트 파일로부터, 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는지 여부, 및 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는 경우, 상기 하나 이상의 다른 오디오 적응 세트들에 대한 식별자를 결정하기 위한 수단; 및
상기 오디오 적응 세트들 각각에 대한 상기 매니페스트 파일로부터, 상기 오디오 적응 세트에 대한 식별자를 결정하기 위한 수단을 더 포함하는, 디바이스.
제30 항에 있어서,
상기 매니페스트 파일로부터 하나 이상의 사전-선택 엘리먼트들, 상기 오디오 오브젝트들의 서브세트를 선택하기 위한 디스크립터 중 하나 이상을 포함하는 사전-선택 엘리먼트, 자동 선택을 위해 사용될 수 있는 하나 이상의 파라미터들, 상기 사전-선택을 위해 요구되는 코덱 능력들을 표시하는 데이터, 사용자 선택을 위한 텍스트 라벨 또는 우선순위 값을 리트리브하기 위한 수단을 더 포함하는, 디바이스.
명령들이 저장된 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행되는 경우 수신기 디바이스의 하나 이상의 프로세서들로 하여금,
MPEG-H 또는 AC-4 파트 2를 준수하는 복수의 오디오 오브젝트들을 설명하는 매니페스트 파일을 수신하게 하고 ― 상기 매니페스트 파일은, 상기 오디오 오브젝트들 각각이 브로드캐스트, 브로드밴드, 또는 브로드캐스트 및 브로드밴드 둘 모두를 통해 이용가능한지 여부를 표시함 ―;
상기 오디오 오브젝트들 중 어느 것이 제시될지를 표시하는 선택 데이터를 수신하게 하고;
상기 선택 데이터에 기초하여 상기 오디오 오브젝트들을 포함하는 스트리밍된 미디어 데이터를 수신하게 하고;
상기 선택 데이터에 의해 표시된 오디오 오브젝트들을 상기 수신기 디바이스의 오디오 디코더에 제공하게 하는, 컴퓨터 판독가능 저장 매체.
제35 항에 있어서,
상기 매니페스트 파일은 DASH(Dynamic Adaptive Streaming over HTTP) MPD(media presentation description)를 포함하고, 상기 오디오 오브젝트들은 상기 DASH MPD에서 적응 세트들로서 시그널링되는, 컴퓨터 판독가능 저장 매체.
제35 항에 있어서,
상기 프로세서들로 하여금, 상기 오디오 오브젝트들을 포함하는 MPEG-2 TS(Transport Streams)를 준수하는 단일 프로그램 스트림, 상기 오디오 오브젝트들을 포함하는 MPEG-2 TS를 준수하는 다수의 프로그램 스트림들, 또는 상기 오디오 오브젝트들을 포함하는 하나 이상의 MMT(MPEG Media Transport) 자산들 중 하나 이상을 수신하게 하는 명령들을 더 포함하는, 컴퓨터 판독가능 저장 매체.
제35 항에 있어서,
상기 프로세서들로 하여금, 상기 오디오 오브젝트들에 대응하는 복수의 오디오 적응 세트들 각각에 대해,
상기 오디오 적응 세트들이 특정 식별자(ID)를 갖는 완전히 제시가능한 오디오 프리젠테이션을 포함하는지 여부; 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는지 여부, 및 상기 오디오 적응 세트가 하나 이상의 다른 오디오 적응 세트들에 의존하는 경우, 상기 하나 이상의 다른 오디오 적응 세트들에 대한 식별자; 및
상기 오디오 적응 세트에 대한 식별자
를 결정하기 위해 상기 매니페스트 파일을 사용하게 하는 명령들을 더 포함하는, 컴퓨터 판독가능 저장 매체.
제35 항에 있어서,
상기 프로세서들로 하여금, 상기 매니페스트 파일로부터 하나 이상의 사전-선택 엘리먼트들, 상기 오디오 오브젝트들의 서브세트를 선택하기 위한 디스크립터 중 하나 이상을 포함하는 사전-선택 엘리먼트, 자동 선택을 위해 사용될 수 있는 하나 이상의 파라미터들, 상기 사전-선택을 위해 요구되는 코덱 능력들을 표시하는 데이터, 사용자 선택을 위한 텍스트 라벨 또는 우선순위 값을 리트리브하게 하는 명령들을 더 포함하는, 컴퓨터 판독가능 저장 매체.