KR102250347B1

KR102250347B1 - 시청각 콘텐트 아이템 데이터 스트림들

Info

Publication number: KR102250347B1
Application number: KR1020207023585A
Authority: KR
Inventors: 로베르트 알베르투스 브론딕크; 아놀더스 베르너 요하네스 오멘; 본트 프란시스커스 마리누스 요제프스 드
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2014-03-18
Filing date: 2015-03-16
Publication date: 2021-05-11
Also published as: KR20200100212A

Abstract

송신 장치는 콘텐트 아이템에 대한 시청각 구성요소들을 가진 복수의 개개의 시청각 데이터 스트림들을 포함한 시청각 콘텐트 아이템 데이터 스트림(예로서, 수송 스트림)을 생성한다. 생성기(301 내지 308)는 필수 오디오 데이터 및 데이터인 교체 가능한 오디오 데이터가 대체 오디오 데이터로 대체될 수 있는 오디오 표현을 위한 교체 가능한 오디오 데이터 양쪽 모두를 포함한 제 1 스트림을 생성한다. 조합기(309)는 결과 스트림을 콘텐트 아이템 데이터 스트림으로 포함시킨다. 수신 장치는 수신된 스트림으로부터 필수 오디오 데이터를 추출하는 추출기(403)를 포함한다. 교체기(415)는 교체 가능한 오디오 데이터를 대체 오디오 데이터로 교체할 수 있으며 출력부(415)는 필수 및 대체 오디오 데이터로부터 오디오 신호를 생성시킬 수 있다. 접근법은 명확하게 시청각 콘텐트에 대한 개선되고 보다 유연한 데이터 스트림을 제공할 수 있다.

Description

시청각 콘텐트 아이템 데이터 스트림들{AUDIOVISUAL CONTENT ITEM DATA STREAMS}

본 발명은 시청각 콘텐트 아이템 데이터 스트림들에 관한 것이며 특히, 전적으로는 아니지만, MPEG-2 수송 스트림과 같은 시청각 콘텐트 아이템 데이터 스트림들에 관한 것이다.

다양한 소스 신호들의 디지털 인코딩은 디지털 신호 표현 및 통신이 점점 더 아날로그 표현 및 통신을 대신하게 됨에 따라 지난 수십 년에 걸쳐 점점 더 중요해지고 있다. 예를 들면, 이동 통신을 위한 전역적 시스템(GSM)과 같은, 이동 전화 시스템들은 디지털 스피치 인코딩에 기초한다. 또한 비디오 및 음악과 같은 미디어 콘텐트의 분배는 점점 더 디지털 콘텐트 인코딩에 기초한다.

통상적으로, 시청각 콘텐트 아이템은 다수의 상이한 시청각 구성요소들 및 데이터 유형들을 포함한다. 예를 들면, 영화 또는 텔레비전 프로그램에 대응하는 콘텐트 아이템은 적어도 하나의 비디오 신호 구성요소, 통상적으로 복수의 상이한 오디오 구성요소들, 제어 데이터, 동기화 데이터, 예로서 콘텐트를 특성화하는 메타-데이터 등을 포함할 수 있다. 예를 들면, 영화는 메인 비디오 구성요소, 2차 비디오 구성요소, 복수의 오디오 트랙들(예로서, 상이한 언어들에 대한), 자막 데이터, 예로서 영화 타이틀, 주된 배우들 등을 식별하는 메타데이터를 포함할 수 있다. 따라서, 종종 비교적 많은 수의 상이한 데이터 유형들이 시청각 콘텐트 아이템에 대한 단일의 조합된 데이터 스트림으로 포함될 필요가 있다.

일련의 상이한 유형들의 데이터를 포함하는 시청각 콘텐트 아이템의 표현을 수용하기 위해, 시청각 콘텐트 아이템에 대한 시청각 구성요소들을 제공하는 복수의 (서브) 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림이 종종 생성될 수 있다. 또한, 제어 데이터, 메타-데이터 등을 포함한 데이터 스트림들이 포함될 수 있다.

시청각 콘텐트 아이템 데이터 스트림은 콘텐트 아이템의 렌더링에 관련된 모든 데이터를 포함할 수 있다. 시청각 콘텐트 아이템 데이터 스트림은 통상적으로 수송 스트림으로서, 또는 가능하게는 시스템 스트림, 프로그램 스트림 또는 컨테이너 스트림으로서 불리운다. 개개의 시청각 데이터 스트림은 통상적으로 기본 데이터 스트림으로서 불리운다.

시청각 콘텐트 아이템의 효율적인 표현을 제공하기 위해, 유효 데이터 구조가 시청각 콘텐트 아이템 데이터 스트림을 위해 한정되는 것이 중요하다. 각각이 시청각 구성요소들을 나타내는 다수의 별개의 시청각 데이터 스트림들을 포함한 데이터 구조의 사용은 유연하지만 효율적인 접근법을 위해 제공한다. 접근법은 예를 들면, 주어진 비디오 구성요소에 대한 상이한 오디오 트랙들의 유연한 포함을 허용하며, 예로서 상이한 언어들에 대응하는 오디오 신호들이 상이한 시청각 데이터 스트림들에서 제공될 수 있다.

데이터 구조의 예는 ETSI DVB(디지털 비디오 방송) 표준 EN 300 468 V I.14.1에서 제공되고, 섹션 6.4.10은 구체적으로 DVB를 위해 사용된 MPEG 수송 스트림에 관한 것이다. ENGDEGARD JONAS 등에 의한 "MPEG Spatial Audio Object Coding The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes" (AES CONVENTION 129; NOVEMBER 2010, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 4 November 2010 (2010-11-04), XP040567234)는 ISO/MPEG SAOC 사양에 대한 일반적인 소개와 개요를 제공한다. Steffens 등에 의한 "Interactivity in MPEG-H 3D Audio Content - Proposal for Extension of OAM Format and Test Procedure"(16 January 2013, XP030056683)은 특정 오디오 오브젝트가 수신기측에서 모든 다른 오디오 오브젝트들로부터 개별적으로 이용 가능하게 되어야 한다는 것을 나타내기 위해 오브젝트 기반 인코더/디코더 접근법에서 상호작용성 플래그의 사용의 개시를 제안한다.

시청각 콘텐트 아이템 데이터 스트림들을 위한 다수의 상이한 구조들이 표준화되어 왔다. 시청각 콘텐트 아이템 데이터 스트림들에 대한 가장 광범위하며 빈번하게 사용된 구조들 중 하나는 예를 들면, 디지털 텔레비전 방송 또는 블루-레이들을 위해 사용되는 MPEG-2 수송 스트림이다.

MPEG-2 수송 스트림은 데이터 구조의 예이며 여기에서 데이터 스트림은 복수의 순차적 시간 다중화 데이터 패킷들로 구성된다. 각각의 데이터 패킷은 시청각 콘텐트 아이템의 특정 구성요소를 위한 데이터를 제공할 수 있다.

그러나, 시청각 콘텐트 아이템 데이터 스트림들에 대한 종래의 접근법이 가진 문제는 데이터 구조가 몇몇 목적들을 위해 차선이며, 특히 최적의 유연성을 제공하지 않는 경향이 있다는 것이다.

예를 들면, MPEG-2 수송 스트림과 같은 시청각 콘텐트 아이템 데이터 스트림들은 상이한 오디오 표현들이 상이한 기본 스트림들에서 제공되도록 허용함으로써 주어진 장면에 대한 대체 오디오 표현들을 지원한다. 수신기는 그 후 원하는 오디오 트랙을 제공하기 위해 이들 대체 기본 스트림들 선택할 수 있다. 예로서, MPEG-2 수송 스트림은 각각이 비디오 구성요소와 함께 렌더링될 수 있는 오디오 표현을 제공하는 두 개의 기본 스트림들과 함께 비디오 구성요소를 포함한 기본 스트림을 포함할 수 있다. 예를 들면, 하나의 기본 오디오 스트림이 원래의 언어로 비디오 구성요소의 오디오를 포함할 수 있는 반명, 또 다른 기본 오디오 스트림은 비디오 구성요소를 위한 오디오이지만 스피치가 상이한 언어로 더빙된 오디오를 포함할 수 있다. 디코더 또는 렌더러는 그 후 적절한 기본 스트림을 선택함으로써 비디오에 대한 대체 오디오 트랙들 사이에서 선택할 수 있다.

그러나, 이러한 접근법은 오디오에 대한 최적의 유연성을 제공하지 않으며 또한 대체 기본 스트림들에 의해 제공된 병렬 오디오 표현들로 인해 비교적 높은 데이터 레이트를 야기한다.

따라서 시청각 콘텐트 아이템 데이터 스트림들에 대한 개선된 접근법을 제공하는 것이 바람직할 것이며, 특히 부가적인 유연성 및/또는 감소된 데이터 레이트를 제공하는 접근법이 바람직할 것이다.

그러나, 이러한 강화가 기존의 접근법들과 높은 정도의 공통성을 유지하면서 어떻게 가능한지가 중대한 도전이다. 예를 들면, MPEG-2 수송 스트림을 추가로 강화할 수 있는 것이 바람직하지만, 이러한 강화는 바람직하게는 가능한 많은 역 호환성을 유지해야 한다. 시청각 콘텐트 아이템 데이터 스트림들에 대한 접근법들을 강화하기 위해 요구된 고려 사항들은 더욱이 어떤 부가적인 데이터가 어떻게 또는 어떤 포맷으로 제공되어야 하는지에 단지 제한되지 않을 수 있다. 오히려, 부가적인 도전들은 효율적인 시청각 콘텐트 아이템 데이터 스트림을 달성할 뿐만 아니라 효율적인 동작 및 바람직하게는 최적화된 역 호환성을 또한 허용하기 위해 이러한 데이터가 어떻게 시청각 콘텐트 아이템 데이터 스트림에 포함되어야 하는지를 결정할 때 존재한다.

그러므로, 시청각 콘텐트 아이템 데이터 스트림들에 대한 개선된 접근법이 유리할 것이다.

따라서, 본 발명은 바람직하게는 상기 언급된 단점들 중 하나 이상을 개별적으로 또는 임의의 조합으로 완화시키고, 경감시키거나 또는 제거하고자 한다.

본 발명의 다른 양상에 따르면, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법이 제공된다. 상기 방법은 수신기가 복수의 개개의 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림을 수신하고, 상기 복수의 개개의 시청각 데이터 스트림들은 시청각 콘텐트 아이템을 위한 시청각 성분들을 포함하고; 각각의 시청각 데이터 스트림은 적어도 하나의 시청각 성분을 표현한 인코딩된 데이터 및 동기화 데이터를 포함하고; 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함하는 제 1 개개의 시청각 데이터 스트림을 포함하고, 상기 제 1 오디오 데이터는 상기 오디오 표현을 위한 필수 오디오 데이터 및 상기 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 필수 오디오 데이터는 상기 오디오 표현이 렌더링될 때 렌더링되어야 하는 오디오 성분에 대응하고 상기 교체 가능한 오디오 데이터는 상기 오디오 표현이 렌더링될 때 대안의 오디오 성분에 의해 대체될 수 있는 교체 가능한 오디오 성분에 대응하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템을 위한 콘텐트 아이템 맵 테이블을 더 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 시청각 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들을 위한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 2개의 세트에 대한 상기 시청각 콘텐트 아이템을 위한 공통 데이터 스트림 패킷 식별자를 포함하고, 오디오 디코더는 상기 공통 데이터 스트림 패킷 식별자에 응답하여 상기 제 1 오디오 데이터로부터 상기 필수 오디오 데이터를 추출하고; 상기 오디오 디코더는 대체 오디오 데이터를 검색하고; 상기 오디오 디코더는 상기 교체 가능한 오디오 데이터를 상기 대체 오디오 데이터로 대체하고; 상기 오디오 디코더는 상기 필수 오디오 데이터 및 상기 대체 오디오 데이터로부터 상기 오디오 신호를 생성하고; 상기 오디오 디코더는 상기 복수의 개개의 시청각 데이터 스트림들의 오디오 데이터로부터 상기 오디오 신호를 생성하고; 상기 수신기는 상기 시청각 콘텐트 아이템 데이터 스트림에서 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 상기 시청각 데이터 스트림들 중 적어도 하나의 제 2 오디오 데이터에 대한 오디오 데이터 프로세싱 디스크립터를 생성하고, 제 2 시청각 데이터 스트림에 상기 오디오 데이터 프로세싱 디스크립터를 삽입하고, 오디오 디코더에 상기 제 2 시청각 데이터 스트림을 공급하며; 상기 오디오 디코더는 상기 제 2 시청각 데이터 스트림으로부터 상기 오디오 데이터 프로세싱 디스크립터를 추출하고; 상기 오디오 데이터 프로세싱 디스크립터에 응답하여 상기 오디오 신호를 생성하는 것을 포함한다.

본 발명은 콘텐트 아이템에 대한 오디오의 개선된 생성을 허용할 수 있다. 통상적으로, 보다 효율적인 및/또는 유연한 프로세싱, 통신 또는 기능이 달성될 수 있다.

오디오의 보다 효율적인 선택 및 생성이 많은 시나리오들에서 달성될 수 있다.

접근법은 종종 개선된 역 호환성을 제공할 수 있다. 시청각 콘텐트 아이템 데이터 스트림의 생성에 대하여 이전에 제공된 견해들은 시청각 콘텐트 아이템 데이터 스트림의 프로세싱에 동일하게 준용될 것이 이해될 것이다.

교체 가능한 오디오 데이터의 대체 오디오 데이터로의 교체는 프로세싱을 위해 대체 오디오 데이터의 선택 및 교체 가능한 오디오 데이터의 선택-해제(또는 비-선택)에 의한 것일 수 있다. 몇몇 실시예들에서, 선택/선택-해제는 즉, 각각 교체 가능한 오디오 데이터 및 대체 오디오 데이터를 디코딩함으로써 생성된 교체 가능한 오디오 성분 및 대체 오디오 성분의 선택/선택-해제에 의해, 교체 가능한 오디오 데이터 및 대체 오디오 데이터에 대응하는 오디오 성분들의 선택/선택-해제일 수 있다. 다른 실시예들에서, 상기 교체는, 예로서, 예컨대 데이터 스트림/비트스트림에서 또는 메모리에서, 대체 오디오 데이터에 의해 교체 가능한 오디오 데이터를 겹쳐 쓰는 것에 의한 것일 수 있다.

몇몇 실시예들에서, 상기 방법은 교체 가능한 오디오 데이터 및 대체 오디오 데이터 중 단지 하나만을 검색하는 단계, 및 상기 오디오 신호를 생성하시키기 위해 단지 상기 검색된 오디오 데이터만을 사용하는 단계를 포함할 수 있다.

몇몇 실시예들에서, 상기 검색 단계는 제 1 시청각 데이터 스트림으로부터 대체 오디오 데이터를 검색하는 단계를 포함한다. 몇몇 실시예들에서, 상기 검색 단계는 상기 제 1 시청각 데이터 스트림과 상이한 복수의 개개의 시청각 데이터 스트림들의 시청각 데이터 스트림으로부터 대체 오디오 데이터를 검색하는 단계를 포함한다.

몇몇 실시예들에서, 상기 검색 단계는 상기 시청각 콘텐트 아이템 데이터 스트림과 상이한 데이터 스트림으로부터 대체 오디오 데이터를 검색하는 단계를 포함한다.

데이터 스트림은, 예로서 별개의 파일 또는 파일의 세그먼트에 대응할 수 있다.

본 발명의 양상에 따르면, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치에 있어서, 상기 장치는 복수의 개개의 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림을 수신하기 위한 수신기로서, 상기 복수의 개개의 시청각 데이터 스트림들은 시청각 콘텐트 아이템에 대한 시청각 성분들을 포함하고; 각각의 시청각 데이터 스트림은 적어도 하나의 시청각 성분을 표현한 인코딩된 데이터 및 동기화 데이터를 포함하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함하는 제 1 시청각 데이터 스트림을 포함하고, 상기 제 1 오디오 데이터는 상기 오디오 표현을 위한 필수 오디오 데이터 및 상기 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 필수 오디오 데이터는 상기 오디오 표현이 렌더링될 때 렌더링되어야 하는 오디오 성분에 대응하고 상기 교체 가능한 오디오 데이터는 상기 오디오 표현이 렌더링될 때 대체 오디오 성분에 의해 대체될 수 있는 교체 가능한 오디오 성분에 대응하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 콘텐트 아이템 맵 테이블을 더 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 시청각 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트를 위한 상기 시청각 콘텐트 아이템에 대한 공통 데이터 스트림 패킷 식별자를 포함하는, 상기 수신기를 포함하고; 상기 장치는 상기 공통 데이터 스트림 패킷 식별자에 응답하여 상기 제 1 오디오 데이터로부터 상기 필수 오디오 데이터를 추출하기 위한 추출기; 대체 오디오 데이터를 검색하기 위한 검색기; 상기 대체 오디오 데이터로 상기 교체 가능한 오디오 데이터를 대체하기 위한 교체기; 상기 필수 오디오 데이터 및 상기 대체 오디오 데이터로부터 상기 오디오 신호를 생성하기 위한 출력부; 상기 복수의 개개의 시청각 데이터 스트림들의 오디오 데이터로부터 상기 오디오 신호를 생성하기 위한 오디오 디코더로서, 상기 추출기, 상기 검색기, 상기 교체기, 및 상기 출력부를 포함하는, 상기 오디오 디코더를 더 포함하고; 상기 수신기는 상기 시청각 콘텐트 아이템 데이터 스트림에 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 상기 시청각 데이터 스트림들 중 적어도 하나의 제 2 오디오 데이터에 대한 오디오 데이터 프로세싱 디스크립터를 생성하고, 제 2 시청각 데이터 스트림에 상기 오디오 데이터 프로세싱 디스크립터를 삽입하고, 상기 제 2 시청각 데이터 스트림을 상기 오디오 디코더에 공급하도록 구성되며; 상기 오디오 디코더는 상기 제 2 시청각 데이터 스트림으로부터 상기 오디오 데이터 프로세싱 디스크립터를 추출하기 위한 오디오 데이터 프로세싱 디스크립터 추출기를 더 포함하고; 상기 오디오 디코더는 상기 오디오 데이터 프로세싱 디스크립터에 응답하여 상기 오디오 신호를 생성하도록 구성되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치가 제공된다.

시청각 콘텐트 아이템 데이터 스트림을 생성하는 방법은 복수의 개개의 시청각 데이터 스트림들을 포함하고, 복수의 개개의 시청각 데이터 스트림들은 시청각 콘텐트 아이템에 대한 시청각 성분들을 포함하고, 각각의 시청각 데이터 스트림은 적어도 하나의 시청각 성분을 표현한 인코딩된 데이터 및 동기화 데이터를 포함하고;

상기 방법은 상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함한 제 1 시청각 데이터 스트림을 생성하는 단계로서, 상기 제 1 오디오 데이터는 상기 오디오 표현을 위한 필수 오디오 데이터 및 상기 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 교체 가능한 오디오 데이터는 대체 오디오 데이터로 교체 가능한 데이터인, 상기 생성 단계; 및 상기 제 1 시청각 데이터 스트림을 상기 시청각 콘텐트 아이템 데이터 스트림에 포함시키는 단계를 포함한다.

상기 접근법은 개선된 시청각 콘텐트 아이템 데이터 스트림을 제공할 수 있다. 특히, 증가된 유연성 및/또는 감소된 데이터 레이트를 가진 수송 스트림이 많은 시나리오들에서 달성될 수 있다.

대체 오디오의 보다 효율적인 제공은 많은 시나리오들에서 달성될 수 있다. 접근법은 통상적으로 비교적 낮은 레벨의 수정을 요구하면서 기존의 수송 스트림들에 대한 강화, 또는 그것의 추가 개발로서 구현될 수 있다. 증가된 역 호환성이 종종 달성될 수 있다.

특정 예로서, 접근법은 MPEG-2 수송 스트림과 같은 수송 스트림들의 효율적이며 현실적인 강화를 허용할 수 있다. 수송 스트림은 이것이 대체 오디오 표현들의 보다 유연하며 효율적인 표현을 제공하기 위해 강화되도록 허용하면서 종래의 MPEG-2 수송 스트림들의 접근법 및 전체 설계 철학을 유지할 수 있다.

교체 가능한 오디오 데이터는 대체 오디오 데이터로 교체되고/그것으로 대치되며/그것을 위해 교환되고/그것으로 변경될 수 있다. 따라서, 수송 스트림은 예로서, 필수 오디오 데이터 및 교체 가능한 오디오 데이터에 의해 표현된 디폴트 표현인 하나의 대안, 및 필수 오디오 데이터 및 대체 오디오 데이터에 의해 표현된 대체 표현인 다른 것을 갖는 콘텐트 아이템에 대한 대체 오디오 표현들을 제공한다.

많은 시나리오들에서, 방법은 수송 스트림에, 종종 제 1 시청각 데이터 스트림에 또는 복수의 시청각 데이터 스트림들의 또 다른 시청각 콘텐트 아이템 데이터 스트림에 대체 오디오 데이터를 포함시키는 단계를 더 포함할 수 있다. 따라서, 대체 오디오 데이터는 복수의 개개의 시청각 데이터 스트림들의 시청각 데이터 스트림에 포함될 수 있다.

필수 오디오 데이터는 오디오 표현을 위한 필수 오디오 구성요소를 한정할 수 있다. 교체 가능한 오디오 데이터는 오디오 표현을 위한 교체 가능한 오디오 구성요소를 한정할 수 있다. 대체 오디오 데이터는 오디오 표현을 위한 대체 오디오 구성요소를 한정할 수 있다.

따라서, 제 1 오디오 데이터는 상기 표현의 필수 오디오 구성요소에 대한 필수 오디오 데이터 및 상기 표현을 위한 교체 가능한 오디오 구성요소에 대한 교체 가능한 오디오 데이터를 포함할 수 있으며, 상기 교체 가능한 오디오 구성요소는 대체 오디오 데이터에 의해 교체 가능한 오디오 구성요소에 대한 대체 오디오 구성요소로 대치될 수 있는 데이터이다.

교체 가능한 오디오 데이터는 콘텐트 아이템에 대한 디폴트 오디오 트랙에 대응할 수 있다.

수송 스트림은 콘텐트 아이템에 대한 하나 이상의 오디오 표현들의 지정을 포함할 수 있다. 오디오 표현은 콘텐트 아이템에 대한 오디오 출력을 제공하기에 충분한 오디오 구성요소들의 세트에 대응할 수 있다. 수송 스트림은 그에 따라 콘텐트 아이템에 대한 적어도 하나의 오디오 사운드 트랙/표현을 지정할 수 있다.

많은 실시예들에서, 수송 스트림에서 지정된(또는 한정된) 적어도 하나의 오디오 표현은 적어도 하나의 오디오 구성요소가 필수 오디오 구성요소이며 적어도 하나의 오디오 구성요소가 교체 가능한 오디오 구성요소인 복수의 오디오 구성요소들을 포함한다. 상기 필수 오디오 구성요소는 필수 오디오 데이터에 의해 표현되며 상기 교체 가능한 오디오 구성요소는 교체 가능한 오디오 데이터에 의해 표현된다. 상기 필수 오디오 구성요소는 상기 표현이 선택될 때 콘텐트 아이템에 대한 오디오 출력에 포함되어야 한다. 그러나, 수신기가 이러한 표현을 선택할 때, 교체 가능한 오디오 구성요소가 포함될 수 있거나 또는 대체 오디오 구성요소로 대치될 수 있다. 대체 오디오 구성요소는 종종(항상/필수적으로는 아닌) 수송 스트림 자체에 포함된, 대체 오디오 데이터에 의해 표현된다.

접근법에서, 수송 스트림에서 한정된/특정된/설명된/지정된 오디오 표현을 위한 오디오 데이터는 그에 따라 적어도 하나의 필수 오디오 구성요소를 위한 필수 오디오 데이터 및 적어도 하나의 교체 가능한 오디오 구성요소를 위한 교체 가능한 오디오 데이터를 포함할 수 있다. 수송 스트림 지정 오디오 표현이 예로서, 렌더링을 위해 선택될 때, 필수 오디오 구성요소가 포함되어야 하는 반면 교체 가능한 오디오 구성요소는 포함되어야 하거나 또는 대체 오디오 구성요소로 대체되어야 한다.

콘텐트 아이템에 대한 오디오 표현은 콘텐트 아이템에 대한 오디오 프리젠테이션/트랙을 제공하기에 충분한 오디오 구성요소들의 세트에 대응할 수 있다. 구체적으로, 콘텐트 아이템에 대한 오디오 표현은 콘텐트 아이템에 대한 사운드 트랙을 제공하기에 충분한 것으로 수송 스트림에 표시되는 오디오 구성요소들의 세트에 대응할 수 있다. 콘텐트 아이템에 대한 오디오 표현을 제공하기에 충분한 것으로 수송 스트림에 한정되지 않은 오디오 구성요소들의 세트는 적어도 하나의 다른 오디오 구성요소와 조합되지 않는 한, 오디오 표현을 형성하지 않는다.

따라서, 수송 스트림은 콘텐트 아이템에 대한 하나 이상의 오디오 표현들을 한정하는 데이터를 포함할 수 있다. 필수 오디오 데이터는 한정된 오디오 표현들의 제 1 오디오 표현에 대해 필수적일 수 있다. 교체 가능한 오디오 데이터는 대체 오디오 데이터로 대체되지 않는 한 제 1 오디오 표현을 위해 요구된 오디오 데이터를 제공한다. 수송 스트림은 가능하게는 콘텐트 아이템에 대한 하나 이상의 오디오 표현을 지정할 수 있다. 이 경우에 필수 오디오 데이터는 제 2 오디오 표현에 대해 필수적일 필요는 없다.

데이터 스트림은, 예로서, 별개의 파일 또는 파일의 세그먼트에 대응할 수 있다.

상기 방법은 상기 제 1 시청각 데이터 스트림에 상기 대체 오디오 데이터를 포함시키는 단계를 더 포함할 수 있다.

이것은 효율적이며 유연한 접근법 및 시청각 콘텐트 아이템 데이터 스트림을 제공할 수 있다. 특히, 많은 시나리오들에서, 그것은 대체 오디오에 대한 매우 효율적인 데이터 구조를 제공할 수 있다. 접근법은 예를 들면, 몇몇 실시예들에서 동작을 용이하게 할 수 있는 대체 오디오의 개선된 그룹핑을 제공할 수 있다.

상기 제 1 시청각 데이터 스트림에 상기 대체 오디오 데이터를 포함시키는 단계는 상기 제 1 시청각 데이터 스트림과 상이한 상기 복수의 개개의 시청각 데이터 스트림들의 시청각 데이터 스트림에 상기 대체 오디오 데이터를 포함시키는 단계를 포함할 수 있다.

이것은 효율적이며 유연한 접근법, 및 효율적이며 유연한 시청각 콘텐트 아이템 데이터 스트림을 제공할 수 있다. 특히, 그것은 많은 시나리오들에서 대체 오디오에 대한 매우 효율적인 데이터 구조를 제공할 수 있다. 접근법은 예를 들면 수송 스트림의 생성을 용이하게 하고 및/또는 그로부터 원하는 데이터의 추출을 용이하게 할 수 있다.

몇몇 시나리오들에서, 상이한 시청각 데이터 스트림은 오디오 장면의 대체 오디오 표현을 제공할 수 있다. 예를 들면, 상이한 시청각 데이터 스트림은 콘텐트 아이템에 대한 오디오 표현을 제공하는 기본 스트림으로서 수송 스트림에서 지정될 수 있다. 구체적으로, 그것은 다른 스트림들에 대한 임의의 오디오 구성요소들을 포함시키지 않고 콘텐트 아이템에 대한 오디오 출력을 생성하기에 충분한 오디오 구성요소들의 세트에 대한 데이터를 포함할 수 있다.

상기 시청각 콘텐트 아이템 데이터 스트림은 수송 스트림일 수 있으며 제 1 시청각 데이터 스트림은 기본 스트림일 수 있다.

상기 접근법은 다수의 개개의 기본 스트림들에 기초하는 개선된 수송 스트림을 제공할 수 있다. 상기 접근법은 콘텐트 아이템을 표현하기 위한 유연하지만, 효율적인 구조를 제공할 수 있다. 더욱이, 그것은 종래의 시스템들과의 개선된 역 호환성을 허용할 수 있다.

상기 교체 가능한 오디오 데이터는 제 1 언어로 스피치 오디오 구성요소를 나타내며 상기 대체 오디오 데이터는 제 2 언어로 스피치 오디오 구성요소를 나타낼 수 있다.

상기 접근법은 주어진 콘텐트 아이템에 대한 복수의 상이한/대체 언어들을 제공하기 위한 특히 효율적인 접근법을 제공할 수 있다.

상기 필수 오디오 데이터는 배경 오디오 구성요소를 나타내며 상기 교체 가능한 오디오 데이터는 스피치 오디오 구성요소를 나타낼 수 있다.

상기 접근법은 배경 오디오 및 스피치 오디오에 대한 차별화된 사운드를 제공하기 위한 특히 효율적인 접근법을 제공할 수 있으며, 특히 데이터 레이트를 수용 가능하지 않게 증가시키지 않고 대체 스피치 구성요소들의 지원을 용이하게 할 수 있다.

상기 교체 가능한 오디오 데이터 및 상기 대체 오디오 데이터는 상이한 인코딩 특성들을 사용하여 인코딩된 동일한 오디오 콘텐트를 나타낼 수 있다.

상기 상이한 인코딩 특성들은 예를 들면, 상이한 데이터 레이트들, 상이한 인코딩 알고리즘들 등일 수 있다. 구체적으로, 몇몇 실시예들에서, 상기 교체 가능한 오디오 데이터 및 상기 대체 오디오 데이터는 상이한 비트 레이트들과 같은, 상이한 인코딩 특성들을 갖고 인코딩된 동일한 오디오 콘텐트 또는 구성요소를 나타낼 수 있다.

상기 접근법은 증가된 유연성을 허용할 수 있으며, 구체적으로 수송 스트림의 특성들의 유연한 각색을 허용할 수 있다. 더욱이, 상기 접근법은 수송 스트림이, 예로서 중간 시스템들 또는 엔티티들에 의해 비교적 쉽게 수정되도록 허용할 수 있다.

상기 대체 오디오 데이터는 예를 들면 추가의 서브-오브젝트들을 포함할 수 있는 오디오 오브젝트를 나타낼 수 있다.

상기 방법은 상기 시청각 콘텐트 아이템 데이터 스트림에 렌더링 제어 데이터를 포함시키는 단계를 더 포함할 수 있으며, 상기 렌더링 제어 데이터는 상기 대체 오디오 데이터를 사용한 렌더링과 상이한 교체 가능한 오디오 데이터를 사용한 렌더링을 위한 렌더링 파라미터를 제공한다.

이것은 콘텐트 아이템에 대한 오디오의 유리한 기능 및/또는 개선된 렌더링을 제공할 수 있다.

상기 방법은 구체적으로 상기 시청각 콘텐트 아이템 데이터 스트림에 렌더링 제어 데이터를 포함시키는 단계를 포함할 수 있으며, 상기 렌더링 제어 데이터는 상기 대체 오디오 데이터의 렌더링을 위한 것과 상이한 교체 가능한 오디오 데이터의 렌더링을 위한 렌더링 설정을 나타낸다.

상기 방법은 교체 가능한 오디오 데이터를 포함한 제 1 시청각 데이터 스트림의 시청각 콘텐트 아이템 데이터 스트림에 표시를 포함시키는 단계를 더 포함할 수 있다.

이것은 상기 시청각 콘텐트 아이템 데이터 스트림을 프로세싱하는 수신기의 기능의 효율적인 적응화를 허용할 수 있다.

상기 방법은 상기 시청각 콘텐트 아이템 데이터 스트림에 상기 교체 가능한 오디오 데이터에 대한 추출 데이터를 포함시키는 단계를 더 포함할 수 있다.

상기 방법은 콘텐트 아이템 맵 테이블을 생성하는 단계로서, 콘텐트 아이템을 위한 상기 콘텐트 아이템 맵 테이블은 상기 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하는, 상기 콘텐트 아이템 맵 테이블 생성 단계; 및 상기 콘텐트 아이템 맵 테이블을 상기 시청각 콘텐트 아이템 데이터 스트림에 포함시키는 단계를 더 포함할 수 있으며; 여기에서 상기 콘텐트 아이템 맵 테이블을 생성하는 단계는 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트를 위한 콘텐트 아이템에 대한 공통 데이터 스트림 패킷 식별자를 포함시키도록 상기 콘텐트 아이템 맵 테이블을 생성하는 단계를 포함한다.

이것은 많은 실시예들에서 개선된 및/또는 용이해진 동작을 제공할 수 있다. 구체적으로, 그것은 다중화기들, 데이터 추출기들 등과 같은, 상이한 장비에 의해 감소된 복잡도로 프로세싱될 수 있는 시청각 콘텐트 아이템 데이터 스트림이 생성되도록 허용할 수 있다.

상기 콘텐트 아이템 맵 테이블을 생성하는 단계는 상기 콘텐트 아이템 맵 테이블에 상기 콘텐트 아이템에 대한 단지 하나의 시청각 데이터 스트림 패킷 식별자를 포함시키는 단계를 포함할 수 있다.

이것은 많은 실시예들에서 개선된 및/또는 용이해진 동작을 제공할 수 있다. 특히, 그것은 단지 단일 시청각 데이터 스트림을 포함한 것처럼 다양한 기능이 상기 시청각 콘텐트 아이템 데이터 스트림을 프로세싱하도록 허용할 수 있다.

상기 콘텐트 아이템 맵 테이블을 생성하는 단계는 상기 콘텐트 아이템 맵 테이블에 상기 콘텐트 아이템에 대한 단지 하나의 오디오 시청각 데이터 스트림 패킷 식별자를 포함시키는 단계를 포함할 수 있다.

이것은 많은 실시예들에서 개선된 및/또는 용이해진 동작을 제공할 수 있다. 특히, 그것은 단지 단일 오디오 시청각 데이터 스트림을 포함한 것처럼 다양한 기능이 상기 시청각 콘텐트 아이템 데이터 스트림을 프로세싱하도록 허용할 수 있다.

상기 콘텐트 아이템 맵 테이블을 생성하는 단계는 공통 데이터 스트림 패킷 식별자를 위해 복수의 2차 패킷 식별자들을 포함시키는 단계를 포함할 수 있으며, 각각의 2차 패킷 식별자는 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트의 개개의 시청각 데이터 스트림을 식별한다.

이것은 개선된 유연성 및 기능을 제공할 수 있다. 예를 들면, 그것은 개개의 시청각 데이터 스트림들에 대한 효율적인 선택 및 액세스를 허용할 수 있다. 1차 및 2차 패킷 식별자들은 몇몇 실시예들에서 구조화된 또는 내포된 데이터 구조에 포함될 수 있거나 또는 다른 실시예들에서, 예로서 평면 구조에 제공될 수 있으며, 여기에서 예로서, 1차 및 2차 패킷 식별자들은 단일 리스트에서 순차적 엔트리들로서 제공된다.

상기 방법은 시청각 데이터 스트림들 중 적어도 하나의 제 2 오디오 데이터에 대한 오디오 데이터 프로세싱 디스크립터를 생성하는 단계로서, 상기 오디오 데이터 프로세싱 디스크립터는 상기 제 2 오디오 데이터가 지정된 대체 오디오 데이터인지 또는 부가적인 오디오 데이터인지를 나타내는, 상기 오디오 데이터 프로세싱 디스크립터 생성 단계; 및 상기 콘텐트 아이템 맵 테이블을 상기 시청각 콘텐트 아이템 데이터 스트림에 포함시키는 단계를 더 포함할 수 있다.

이것은 개선된 기능을 제공할 수 있으며 특히 어떻게 상이한 오디오 데이터가 디코더에 의해 프로세싱될 수 있는지를 표시한 효율적인 방식을 허용할 수 있다.

상기 방법은 콘텐트 아이템 맵 테이블을 생성하는 단계를 더 포함할 수 있으며, 콘텐트 아이템에 대한 상기 콘텐트 아이템 맵 테이블은 상기 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하며; 여기에서 상기 콘텐트 아이템 맵 테이블을 생성하는 단계는 상기 오디오 데이터 프로세싱 디스크립터를 포함시키도록 상기 콘텐트 아이템 맵 테이블을 생성하는 단계를 포함한다.

이것은 많은 실시예들에서 정보의 특히 유리한 표현을 제공할 수 있다.

본 발명의 선택적 특징에 따르면, 상기 방법은 복수의 시청각 데이터 스트림들을 포함한 제 2 시청각 콘텐트 아이템 데이터 스트림을 수신하는 단계를 더 포함하며, 상기 복수의 시청각 데이터 스트림들은 시청각 구성요소들을 포함하고; 여기에서 상기 검색 단계는 상기 제 2 시청각 콘텐트 아이템 데이터 스트림의 시청각 데이터 스트림으로부터 대체 오디오 데이터를 검색하는 단계를 포함한다.

이것은 많은 실시예들에서 유리한 기능 및/또는 동작을 제공할 수 있다.

본 발명의 선택적 특징에 따라, 상기 오디오 신호를 생성하는 단계는: 제 1 디코딩된 오디오 신호를 생성하기 위해 제 1 오디오 디코더에서 필수 오디오 데이터를 디코딩하는 단계; 제 2 디코딩된 오디오 신호를 생성하기 위해 제 2 오디오 디코더에서 대체 오디오 데이터를 디코딩하는 단계; 및 적어도 상기 제 1 디코딩된 오디오 신호 및 상기 제 2 디코딩된 오디오 신호를 조합하는 것에 응답하여 상기 오디오 신호를 생성하는 단계를 포함한다.

이것은 많은 실시예들에서 개선된 및/또는 용이해진 동작을 제공할 수 있다.

상기 시청각 콘텐트 아이템 데이터 스트림은 콘텐트 아이템 맵 테이블을 포함하며, 콘텐트 아이템에 대한 상기 콘텐트 아이템 맵 테이블은 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하고, 상기 콘텐트 아이템 맵 테이블은 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트를 위한 콘텐트 아이템에 대한 공통 데이터 스트림 패킷 식별자를 포함하며; 상기 방법은 상기 공통 데이터 스트림 패킷 식별자에 응답하여 상기 콘텐트 아이템에 대한 오디오 데이터를 추출하는 단계를 더 포함한다.

본 발명의 선택적 특징에 따르면, 상기 콘텐트 아이템 맵 테이블은 공통 데이터 스트림 패킷 식별자에 대한 복수의 제 2 패킷 식별자들을 포함하며, 각각의 제 2 패킷 식별자는 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트의 개개의 시청각 데이터 스트림을 식별하며; 상기 콘텐트 아이템에 대한 오디오 데이터를 추출하는 단계는 2차 패킷 식별자들에 응답하여 상이한 오디오 구성요소들에 대한 오디오 데이터를 추출하는 단계를 포함한다.

이것은 개선된 유연성 및 기능을 제공할 수 있다. 예를 들면, 그것은 개개의 시청각 데이터 스트림들에 대한 효율적인 선택 및 액세스를 허용할 수 있다. 1차 및 2차 패킷 식별자들은 몇몇 실시예들에서 구조화된 또는 내포된 데이터 구조에 포함될 수 있거나 또는 다른 실시예들에서, 예로서 평면 구조에서 제공될 수 있으며, 여기에서 예로서 1차 및 2차 패킷 식별자들은 단일 리스트에서 순차적 엔트리들로서 제공된다.

복수의 개개의 시청각 데이터 스트림들을 포함한 시청각 콘텐트 아이템 데이터 스트림을 생성하기 위한 장치로서, 상기 복수의 개개의 시청각 데이터 스트림들이 시청각 콘텐트 아이템에 대한 시청각 구성요소들을 포함하고; 각각의 시청각 데이터 스트림이 적어도 하나의 시청각 구성요소 및 동기화 데이터를 표현한 인코딩된 데이터를 포함하는, 상기 장치는:

상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함한 제 1 시청각 데이터 스트림을 생성하기 위한 생성기로서, 상기 제 1 오디오 데이터는 오디오 표현을 위한 필수 오디오 데이터 및 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 교체 가능한 오디오 데이터는 대체 오디오 데이터로 교체 가능한 데이터인, 상기 생성기; 및 상기 제 1 시청각 데이터 스트림을 상기 시청각 콘텐트 아이템 데이터 스트림에 포함시키기 위한 조합기를 포함할 수 있다.

본 발명의 선택적 특징에 따르면, 상기 오디오 데이터 프로세싱 디스크립터는 상기 제 2 오디오 데이터가 상기 교체 가능한 데이터를 교체하는지를 표시한다.

이것은 시청각 콘텐트 아이템 데이터 스트림의 오디오 데이터의 프로세싱에서 높은 정도의 유연성 및 제어를 허용하면서 많은 실시예들에서 특히 유리하고 효율적인 구현을 제공할 수 있다.

이러한 접근법은 특히 수신기 및 오디오 디코더 사이에서 효율적인 인터페이스를 제공할 수 있다. 많은 실시예들 및 시나리오들에서, 그것은 오디오 렌더링에서 유연성을 제공하면서 및 수신기 및 오디오 디코더 사이에서 구현될 복잡하고 및/또는 독점 제어 기능들을 요구하지 않고 일반 오디오 디코더들이 사용되도록 허용할 수 있다.

본 발명의 선택적 특징에 따르면, 오디오 데이터 프로세싱 디스크립터는 제 2 오디오 데이터가 교체 가능한 데이터를 교체하는지를 표시한다.

이것은 시청각 콘텐트 아이템 데이터 스트림의 오디오 데이터의 프로세싱 시 높은 정도의 유연성 및 제어를 허용하면서 많은 실시예들에서 특히 유리하고 효율적인 구현을 제공한다.

본 발명의 선택적 특징에 따르면, 오디오 데이터 프로세싱 디스크립터는 제 2 오디오 데이터가 지정된 대체 오디오 데이터인지 또는 부가적인 오디오 데이터인지를 표시하며, 오디오 디코더는 제 1 오디오 데이터 프로세싱 디스크립터가 제 2 오디오 데이터가 대체 오디오 데이터로서 지정됨을 표시한다면 대체 오디오 데이터로서 제 2 오디오 데이터를 검색하고, 제 1 오디오 데이터 프로세싱 디스크립터가 제 2 오디오 데이터가 부가적인 오디오 데이터로서 지정됨을 표시한다면 부가적인 오디오 데이터로서 제 2 오디오 데이터를 검색하고; 및 제 2 오디오 데이터가 교체 가능한 오디오 데이터로서 지정된 것을 표시한다면, 제 2 오디오 데이터로 교체 가능한 오디오 데이터를 교체하도록 배열되며, 상기 출력부는 제 1 오디오 데이터 프로세싱 디스크립터가, 제 2 오디오 데이터가 부가적인 오디오 데이터로서 지정된다면 필수 오디오 데이터, 제 2 오디오 데이터, 및 교체 가능한 오디오 데이터를 조합함으로써 오디오 신호를 생성하도록 배열된다.

이것은 오디오 렌더링의 적응화를 제어하기 위해 특히 유리하며 효율적인 접근법을 제공할 수 있다.

본 발명의 선택적 특징에 따르면, 수신기는 시청각 콘텐트 아이템 데이터 스트림에서 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 제 1 오디오 데이터 프로세싱 디스크립터를 생성하도록 배열된다.

이것은 시청각 콘텐트 아이템 데이터 스트림의 제공자 및 국소적 렌더러 또는 사용자가 생성된 오디오를 제어하도록 허용할 수 있다. 제 2 오디오 데이터 프로세싱 디스크립터는 예로서 적절한 렌더링을 결정할 때 사용자에 의해 사용될 수 있는 적절한 오디오 출력을 설명할 수 있다.

이러한 접근법은 또한 구현을 용이하게 할 수 있다. 예를 들면, 수신기는 어떻게 특정 오디오 프로세싱이 수행되는지에 대한 임의의 상세한 지식 또는 고려사항을 가질 필요는 없으며 오히려 간단히 제 2 오디오 데이터 프로세싱 디스크립터에 대한 제 1 오디오 데이터 프로세싱 디스크립터에 기초할 수 있다.

본 발명의 선택적 특징에 따르면, 수신기는 제 2 오디오 데이터 프로세싱 디스크립터를 제 2 시청각 데이터 스트림에 복사하도록 배열된다.

접근법은 또한 구현을 용이하게 할 수 있다. 예를 들면, 수신기는 어떻게 특정 오디오 프로세싱이 수행되는지에 대한 임의의 상세한 지식 또는 고려사항을 가질 필요는 없으며 오히려 제 2 오디오 데이터 프로세싱 디스크립터를 간단히 복사할 수 있다.

본 발명의 선택적 특징에 따르면, 제 2 오디오 데이터 프로세싱 디스크립터는 상기 콘텐트 아이템 맵 테이블에 포함된다.

이것은 특히 유리한 표현을 제공할 수 있다.

본 발명의 선택적 특징에 따르면, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 제 2 오디오 데이터에 대한 복수의 가능한 오디오 데이터 프로세싱 디스크립터들을 포함하며; 상기 수신기는 복수의 가능한 오디오 데이터 프로세싱 디스크립터들로부터 제 1 오디오 데이터 프로세싱 디스크립터를 선택하도록 배열된다.

이것은 시청각 콘텐트 아이템 데이터 스트림의 제공자 및 국소적 렌더러 또는 사용자 양쪽 모두가 생성된 오디오를 제어하도록 허용할 수 있다. 상기 제 2 오디오 데이터 프로세싱 디스크립터는 예를 들면 제공된 오디오 구성요소들의 허용 가능한 또는 추천된 조합들을 설명할 수 있으며, 그에 의해 콘텐트 아이템에 대한 대체 오디오 프리젠테이션들을 제공한다. 사용자는 간단히 하나의 제안된 대체 오디오 프리젠테이션을 선택할 수 있으며, 수신기는 이에 응답하여 선택된 오디오 프리젠테이션이 대응하는 제 2 오디오 데이터 프로세싱 디스크립터를 복사하고 그것을 오디오 디코더에 제공된 데이터 스트림에 포함시킴으로써 간단히 제공되게 할 수 있다.

본 발명의 이들 및 다른 양상들, 특징들 및 이점들은 이후 설명된 실시예(들)로부터 명백하며 그것을 참조하여 자세히 설명될 것이다.

본 발명의 접근법들은 시청각 콘텐트 아이템들에 대한 오디오 데이터를 어떻게 가장 잘 분배하는지에 대한 기술적 문제에 대한 유리한 해결책을 제공하며, 구체적으로 데이터 레이트, 복잡도 및 유연성 사이에서 개선된 트레이드-오프를 제공하며, 또한 개선된 역 호환성을 제공할 수 있는 (수송) 데이터 스트림 구조 및 데이터 콘텐트를 제공한다.

본 발명의 실시예들은 단지 예로서, 도면들을 참조하여 설명될 것이다.
도 1은 종래 기술에 따른 수송 스트림의 예시이다.
도 2는 본 발명의 몇몇 실시예들에 따른 수송 스트림의 예시이다.
도 3은 수송 스트림을 생성하기 위한 장치의 예시이다.
도 4는 수송 스트림을 생성하기 위한 장치의 예시이다.
도 5는 본 발명의 몇몇 실시예들에 따른 수송 스트림의 예시이다.
도 6은 본 발명의 몇몇 실시예들에 따른 수송 스트림의 예시이다.
도 7은 MPEG-2 수송 스트림의 보조 오디오 디스크립터의 구문을 예시한다.
도 8은 MPEG-2 수송 스트림의 데이터 아이템들(mix_type 및 editorial_classification)의 구문을 예시한다.
도 9는 본 발명의 몇몇 실시예들에 따른 mix_type 데이터 아이템의 수정된 구문을 예시한다.
도 10은 본 발명의 몇몇 실시예들에 따른 editorial_classification 데이터 아이템의 수정된 구문을 예시한다.
도 11은 본 발명의 몇몇 실시예들에 따른 AAC 디스크립터 구성요소 데이터 아이템의 구문을 예시한다.
도 12는 오디오 페이로드 헤더에서 오브젝트의 식별을 예시한다.
도 13은 오브젝트가 그것의 콘텐트를 SAOC 오브젝트에 위임하도록 허용하기 위한 오브젝트 디스크립터의 구문의 예를 예시한다.
도 14는 오디오 디코더에 결합된 수신기를 포함하는 수신 장치의 예를 예시하며, 여기에서 수신기는 시청각 콘텐트 아이템 데이터 스트림을 수신한다.
도 15는 (수정된) MPEG 수송 스트림을 위한 오디오 데이터 프로세싱을 사용한 동작의 예를 예시한다.
도 16은 (수정된) MPEG 수송 스트림을 위한 오디오 프로세싱을 사용한 동작의 또 다른 예를 예시한다.

다음의 설명은 예로서 MPEG-2 수송 스트림과 같은, 시청각 콘텐트를 위한 수송 스트림들의 강화에 적용 가능한 본 발명의 실시예들에 초점을 맞춘다. 그러나, 본 발명은 이러한 애플리케이션에 제한되지 않으며 많은 다른 시청각 콘텐트 아이템 데이터 스트림들에 적용될 수 있다는 것이 이해될 것이다.

특정 참조로서, EN 300468에서처럼 표준 DVB 콘텐트를 갖고 확대된 ISO/IEC 13818-1에 한정된 바와 같이, MPEG DVB(디지털 비디오 방송) 수송 스트림(TS)의 예가 도 1에 예시된다. 설명은 예로서, 이러한 시청각 콘텐트 아이템 데이터 스트림을 강화할 수 있는 실시예들에 초점을 맞출 것이지만, 접근법은 예를 들면, ISO/IEC 23009-1 DASH(동적 적응 HTTP 스트리밍)의 맥락에서 TCP/IP에 기초한 수송 스트림들을 포함한, 많은 다른 수송 기술들에 적용될 수 있다는 것이 이해될 것이다.

예에서, 수송 스트림은 복수의 데이터 패킷들로 구성된다. 수송 스트림의 데이터는 시청각 구성요소, 제어, 또는 정보 데이터(메타데이터)에 대응하는 복수의 기본 스트림들로 분할된다. 기본 스트림들의 각각은 주어진 아이덴티티와 연관되며 각각의 패킷은 패킷이 데이터를 포함하는 기본 스트림을 식별하는 패킷 식별자(PID)를 포함하는 헤더를 포함한다.

특정 예에서, 수송 스트림은 각각의 패킷이 188 바이트들을 포함하는 패킷들의 시간 다중화된 스트림이다. 각각의 패킷은 PID에 의해 라벨링된다. 패킷은 메타-데이터 또는 압축된 시청각 데이터를 포함할 수 있다. 주어진 PID를 가진 패킷들은 단일 시청각 구성요소를 생성하기 위해 연결되어야 하는 순차적 데이터를 표현한다. 예를 들면, 수송 스트림에서 시청각 구성요소를 수송하기 위해, 시청각 구성요소를 위한 데이터는 데이터 패킷들의 그룹의 페이로드들에 걸쳐 분할된다. 상기 그룹의 데이터 패킷들, 및 상기 그룹만이 그 후 동일한 고유 PID를 사용할 것이다.

수송 스트림은 특정 수송 스트림에 포함되는 프로그램들의 정보를 제공하는 프로그램 연관 테이블(PAT)을 더 포함한다. 각각의 프로그램은 개개의 프로그램들에 대한 정보를 포함하는 프로그램 맵 테이블(PMT)에 의해 특성화된다. 구체적으로, PMT는 개개의 프로그램을 위한 수송 스트림에 포함된 기본 스트림들을 식별하며, 특히 그것은 개개의 프로그램을 위한 상이한 기본 스트림들에 속하는 데이터 패킷들에 대한 PID들을 열거한다.

도 1은 프로그램을 위한 오디오 기본 스트림들이 어떻게 수송 스트림에서 제공될 수 있는지에 대한 예를 예시한다. 예에서, 3개의 오디오 구성요소들이 프로그램을 위해 제공된다. 오디오 구성요소들은 수송 스트림의 비디오 구성요소와 함께 렌더링될 수 있다(도 1에 도시되지 않음). 오디오 구성요소들의 각각은 콘텐트 아이템의 오디오 사운드스테이지의 완전한 표현에 대응하며, 즉, 각각의 기본 스트림은 렌더링을 위해 필요한 전체 오디오 사운드스테이지 데이터를 제공한다(용어(오디오 사운드스테이지)는 전체 렌더링된 콘텐트 아이템의 오디오를 나타내며 예로서 특정 오디오 장면에 제한되지 않는다).

기본 스트림들의 각각은 전체적으로 렌더링되어야 하는 단일의 통합된 오디오 구성요소를 제공한다. 따라서, 기본 스트림이 렌더링을 위해 선택된다면, 렌더러는 기본 스트림의 단일 오디오 구성요소를 생성하기 위해 기본 스트림의 모든 오디오 데이터를 디코딩할 것이다. 이러한 오디오 구성요소는 그 후 렌더링된다(가능하게는 몇몇 경우들에서 또 다른 스트림으로부터의 오디오와 믹싱된 후).

오디오 구성요소들의 각각은 별개의 PID에 의해 식별된 별개의 기본 스트림에서 제공된다. 각각의 오디오 표현을 위한 오디오 데이터는 다수의 데이터 패킷들(PR1p1, PR1p2... PR2p1, PR2p2 .... PR3p1, PR3p2 ... 등으로서 언급됨, 각각의 패킷은 그 자신의 식별(p1, p2...)을 가지며 패킷들의 각각의 그룹은 그것이 속하는 오디오 프리젠테이션의 식별("PR"x)을 제공받음)에서 제공된다. 따라서, 오디오 구성요소들의 각각은 전체 오디오 표현에 대응하는 오디오 구성요소에 대한 인코딩된 오디오 데이터를 포함한 데이터 패킷들에 의해 표현된 수송 스트림에 있다. 각각의 오디오 표현은 개개의 기본 스트림에서 단일 오디오 구성요소로서 제공되며, 따라서 각각의 오디오 표현은 별개의 PID와 연관된다. 도 1의 예에서, 오디오 표현들은 각각 PID 1, PID 2, 및 PID 3과 연관된다.

도 1에 예시된 바와 같이, 데이터 패킷들은 수송 스트림으로 시간 다중화된다. 수신기는 데이터 패킷들을 수신하고, 특정 PID와 연관된 각각의 데이터 패킷으로부터 오디오 데이터를 추출하고, 오디오 데이터를 디코딩하며, 따라서 상기 기본 스트림에 대응하는 개개의 오디오 구성요소/표현을 재생성한다.

수신기가 상이한 데이터 패킷들로부터 오디오 데이터를 동기화시키도록 및 결과적인 오디오 구성요소를 예로서 연관된 비디오 스트림에 동기화시키도록 허용하기 위해, 각각의 데이터 패킷은 데이터 패킷의 오디오 데이터에 의해 표현된 오디오 세그먼트의 타이밍을 표시한 동기화 또는 타이밍 데이터를 포함한다.

복수의 오디오 기본 스트림들을 제공하는 이점은 보다 유연한 오디오 공급이 제공될 수 있다는 것이다. 예를 들면, 도 1은 3개의 오디오 기본 스트림들이 제공되는 예를 예시한다. 기본 스트림들의 각각은 예로서 배경 데이터, 음악, 다이얼로그 등을 포함한 오디오 장면의 완전한 표현을 제공한다. 완전한 표현은 단일 오디오 구성요소에 의해 제공된다. 그러나, 3개의 기본 스트림들은 상이한 표현들을 제공하며, 예로서 3개의 기본 스트림들은 3개의 상이한 언어들에서의 오디오를 갖고 동일한 비디오 시퀀스에 대응할 수 있다. 예를 들면, PID 1은 원래 언어, 예로서 영어로의 다이얼로그를 가진 원래 오디오 장면을 표현할 수 있는 반면, PID 2 및 PID 3은 예로서 각각 프랑스어 및 독일어로 오버 더빙된 다이얼로그를 갖고 오디오 장면을 표현할 수 있다. PMT는 각각의 개개의 기본 스트림과 연관된 언어를 표시한 데이터를 제공할 수 있다. 따라서, 사용자는 선호된 언어를 선택할 수 있으며 수신기는 그에 따라 대응하는 기본 스트림을 선택할 수 있다. 따라서, 수신기는 대응하는 PID를 가진 모든 패킷들로부터 오디오 데이터를 추출하며 그것은 그 후 이러한 오디오 데이터로부터 오디오 출력 신호를 생성시킨다. 예를 들면, 사용자는 프랑스어로 되도록 다이얼로그에 대한 선호를 표시할 수 있으며 그에 따라 렌더러는 PID 2를 가진 기본 스트림 패킷들로부터 오디오 데이터를 추출하며 그 후 이러한 오디오 데이터로부터 오디오 출력을 생성시킬 수 있다.

따라서, 각각의 기본 스트림이 콘텐트 아이템에 대한 오디오(즉, 프로그램에 대한 오디오를 갖고)의 완전한 표현을 제공하는 단일 오디오 구성요소를 제공하는 다수의 대체 스트림들이 제공될 수 있다. 수신기는 그 후 개개의 스트림들 사이에서 선택할 수 있다. 따라서, 오디오 방송들에 대한 종래의 수송 스트림들에서, 각각의 대체 언어는 단일 기본 스트림에서 단일 오디오 구성요소에 의해 주어진 완전하고 독립적인 오디오 표현으로서 제공된다. 수신기는 단지 상이한 이용 가능한 스트림들 사이에서 선택할 수 있으며, 일단 스트림이 선택되면, 상기 스트림으로부터의 오디오 모두가 렌더링된다.

그러나, 이러한 접근법은 전체 오디오 사운드 스테이지에 대응하는 단지 단일의 오디오 구성요소만이 수신기에서 렌더링되기 위해 이용 가능하므로 낮은 정도의 유연성을 야기한다. 더욱이, 그것은 완전한 오디오 표현들이 제공됨에 따라 데이터 스트림들의 높은 데이터 레이트를 야기한다.

MPEG-2 수송 스트림들은 보조 오디오 구성요소들이 부가적인 오디오 디스크립션 오디오(시각 장애 사용자들을 위한 기술적 견해들을 제공하는 부가적인 오디오)를 제공하기 위해 한정되도록 허용한다. 이러한 보조 오디오 구성요소들은 스스로 렌더링될 수 없지만 또 다른 기본 스트림으로부터 완전한 표현 오디오 구성요소에 부가될 수 있다.

따라서, 종래의 MPEG-2 수송 스트림들의 오디오 기본 스트림들은 두 개의 유형들 중 하나일 수 있다. 제 1 유형은 콘텐트 아이템에 대한 오디오의 완전한 표현을 제공하는 단일 오디오 구성요소를 가진 가장 통상적인 유형이다. 이러한 오디오는 직접 렌더링될 수 있으며 "방송 믹싱" 오디오로서 불리운다. 제 2 유형은 제 1 유형의 오디오 구성요소에 부가(그것과 믹싱)되어야 하는 보조 오디오를 가진 단지 단일의 구성요소만을 제공한다. 따라서, 제 2 유형의 기본 데이터는 완전한 오디오 표현에 부가될 수 있는 부가적인 데이터를 제공한다. 이것은 "수신기 믹싱" 오디오로서 불리운다.

수신된 수송 스트림을 디코딩할 수 있도록, 수송 스트림은 수송 스트림에 포함된 데이터를 한정한 정보를 포함한다. 보다 상세히, 스트림에 포함된 프로그램들에 대한 정보는 PAT에서 표시된다. 각각의 프로그램에 대해, 오디오 구성요소들/트랙들의 수 및 유형들은 PMT에서 시그널링을 통해 수신기(예로서, DVB 수송 스트림 디코더)에 알려지게 된다. PMT 정보는 PID 기반이며 구체적으로 PID마다 요구된 시그널링 모두를 포함하는 데이터 구조 루프를 포함한다. 각각의 PID에 대해, 구체적으로 언어 디스크립터 및 코덱 특정 디스크립터가 있을 수 있다. 언어 디스크립터는 ISO 639 언어 디스크립터 또는 보조 오디오 디스크립터일 수 있다. 보조 오디오 디스크립션은 수신기 및 방송 믹싱 오디오 신호들 사이에서의 명확한 구별을 제공한다. 코덱 특정 오디오 디스크립션은 주어진 PID의 패킷화된 기본 스트림의 콘텐트들에 대한 정보를 제공한다. 이러한 정보는 주로 구성요소가 다채널인지 또는 스테레오 구성요소인지에 대한 것이다.

따라서, 현재 접근법에서, 각각의 기본 스트림은 수신기에 의해 믹싱된 것으로 표시된 기본 스트림들을 제외하고 콘텐트 아이템에 대한 별개의 오디오 표현을 제공한다. 이것들은 오디오 프리젠테이션을 제공하지 않지만 대신에 방송 믹싱 오디오 신호에 부가되어야 하는 오디오 신호를 제공한다.

다음으로, 접근법이 설명될 것이며, 이것은 보다 유연하며 효율적인 수송 스트림을 제공한다. 디스크립션은 복수의 언어들이 수송 스트림 내에서 제공되는 예에 초점을 맞출 것이지만 접근법은 또한 다른 유형들의 오디오와 함께 사용될 수 있다는 것이 이해될 것이다.

도 2는 수정된 수송 스트림의 예를 예시한다. 도 1의 접근법과 유사하게, 도 2의 수송 스트림은 복수의 오디오 기본 스트림들을 포함한다. 그러나, 종래 기술과 대조적으로, 기본 스트림들은 완전한 오디오 표현들에 또는 보조 오디오 데이터에 제한되지 않으며, 단일 오디오 구성요소들에 제한되지 않는다. 오히려, 기본 스트림은 상이한 유형들의 오디오 데이터를 포함할 수 있으며 구체적으로 교체 가능한 오디오 데이터뿐만 아니라 오디오 표현을 위해 필수적인 양쪽 데이터를 포함할 수 있다.

구체적으로, 수송 스트림은 하나 이상의 오디오 표현들을 한정하고/지정하고/설명하는 데이터를 포함할 수 있다. 제 1 기본 스트림은 수송 스트림에 의해 표현된 시청각 콘텐트 아이템에 대한 오디오 표현과 연관될 수 있다. 이러한 제 1 기본 스트림은 오디오 표현을 위한 교체 가능한 오디오 데이터뿐만 아니라 오디오 표현을 위한 필수 오디오 데이터를 포함한다. 필수 오디오 데이터는 기본 스트림의 오디오 표현이 렌더링될 때 렌더링되어야 하는 필수 오디오 구성요소에 대응한다. 반대로, 교체 가능한 데이터는 시청각 콘텐트 아이템에 대한 대체 오디오로 교체될 수 있다. 그러므로, 제 1 기본 스트림은 오디오 표현을 위해 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소 양쪽 모두를 포함하며 여기에서 교체 가능한 오디오 구성요소는 또 다른 오디오 구성요소로 대치될 수 있다.

제 1 기본 스트림/시청각 데이터 스트림은 그에 따라 하나의 오디오 구성요소/오브젝트가 필수 오디오 데이터에 의해 표현되는 복수의 오디오 구성요소들 또는 오브젝트들을 포함할 수 있다. 이러한 오디오 구성요소는 필수적이며 항상 특정 오디오 표현(제 1 시청각 데이터 스트림과 연관된)이 선택될 때, 및 그에 따라 제 1 기본 스트림이 렌더링을 위해 선택될 때 렌더링되어야 한다.

또 다른 오디오 구성요소는 교체 가능한 오디오 데이터에 의해 표현된다. 이러한 교체 가능한 오디오 구성요소는 따라서 표현을 위해 필수적이지 않지만 대체 오디오 구성요소로 대치될 수 있다. 그러나, 교체 가능한 오디오 구성요소는 오디오 표현을 제공하는 동안 단지 삭제되거나 또는 폐기될 수 없으며 오히려 대체 오디오 구성요소로 교체될 수 있다. 교체 가능한 오디오 구성요소는 오디오 표현을 위해 필요한 오디오 소스에 대응할 수 있지만 상이한 버전들의 오디오 소스가 수송 스트림에 포함된다.

많은 실시예들에서, 수송 스트림은 필수 오디오 데이터에 의해 표현된 필수 오디오 구성요소 및 교체 가능한 오디오 데이터에 의해 표현된 교체 가능한 오디오 구성요소는 함께 콘텐트 아이템에 대한 디폴트 오디오 표현을 제공하는(가능하게는 다른 데이터 또는 오디오 구성요소들과 함께) 시청각 콘텐트 아이템의 디폴트 표현을 제공할 수 있다. 따라서, 교체 가능한 오디오 데이터는 통상적으로 디폴트 오디오 구성요소에 대응한다. 오디오 표현을 렌더링할 때, 수신기는 디폴트로서 그에 따라 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 선택할 것이다. 따라서, 그것은 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소를 디코딩하고, 구성요소들을 함께 믹싱하며 결과적인 오디오를 렌더링할 수 있다. 이것은 수신기가 콘텐트 아이템의 오디오 표현의 디폴트 버전을 렌더링하는 것을 야기할 것이다.

그러나, 수송 스트림은 동시에 대체 오디오를 위한 데이터를 포함할 수 있다. 이러한 대체 오디오는 그러나 완전 오디오 표현을 제공하는 별개의 기본 스트림들에서 완전한 대체 오디오 표현들로서 제공될 필요는 없다. 오히려, 제 1 기본 스트림의 교체 가능한 오디오 구성요소를 교체할 수 있는 대체 오디오 구성요소를 간단히 한정할 수 있는 대체 오디오 데이터가 제공된다. 따라서, 수송 스트림은 제 1 기본 스트림의 교체 가능한 오디오 데이터 부분을 교체할 수 있는 대체 오디오 데이터를 포함할 수 있다.

제 1 기본 스트림은 따라서 두 개의 유형들의 데이터, 즉 (적어도) 하나의 필수 오디오 구성요소를 위한 필수 오디오 데이터 및 (적어도 하나의) 교체 가능한 오디오 구성요소를 위한 교체 가능한 오디오 데이터를 포함한다.

구체적으로, 제 1 기본 스트림은 필수 오디오 데이터를 포함한 데이터 패킷들 및 상기 교체 가능한 오디오 데이터를 포함한 데이터 패킷들을 포함할 수 있다. 각각의 데이터 패킷은 구체적으로 필수 오디오 데이터 또는 교체 가능한 오디오 데이터 중 하나를 포함할 수 있으며, 즉 많은 실시예들에서, 데이터 패킷은 단지 하나의 오디오 구성요소를 위한 오디오 데이터만을 포함할 것이다.

필수 오디오 구성요소 및 교체 가능한 오디오 구성요소는 따라서 즉, 주어진 렌더링/콘텐트 아이템 시간 세그먼트를 위한, 시간 병렬 구성요소들이며, 제 1 기본 스트림은 필수 오디오 구성요소를 위한 필수 오디오 데이터 및 교체 가능한 오디오 구성요소를 위한 교체 가능한 오디오 데이터 양쪽 모두를 포함할 수 있다. 동일한 시간 세그먼트에 대한 상기 필수 오디오 데이터 및 상기 교체 가능한 오디오 데이터는 그러나 통상적으로 제 1 기본 스트림에서 및 수송 스트림에서 시간 순차적인 상이한 데이터 패킷들에 제공된다.

유사하게, 대체 오디오 데이터는 수송 스트림에서 제 1 기본 스트림의 필수 오디오 데이터 및 교체 가능한 오디오 데이터의 데이터 패킷들에 대해 시간 순차적이지만 동일한 (렌더링) 시간 세그먼트에 대한 오디오 데이터를 제공하는 데이터 패킷들에 제공될 수 있다.

따라서, 수송 스트림에서 데이터 패킷들 및 데이터의 타이밍은 오디오 구성요소들에서 대응하는 오디오의 타이밍에 독립적(및 명확하게 동일하지 않은)일 수 있다. 구체적으로, 적어도 하나의 시간 세그먼트에 대해, 기본 스트림은 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소에 대한 별개의 오디오 데이터를 포함하며, 즉 그것은 시간 세그먼트에 대한 필수 오디오 데이터 및 교체 가능한 오디오 데이터 양쪽 모두를 포함한다.

도 2는 제 1 기본 스트림이 PID 1을 할당받는 예를 예시한다. 제 1 기본 스트림은 단일 오디오 구성요소를 포함하지 않으며 대신에 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소 양쪽 모두를 위한 오디오 데이터를 포함한다.

구체적으로, 필수 오디오 구성요소는 콘텐트 아이템에 대한 일반적인 배경 오디오(예로서, 음악을 포함한)에 대응할 수 있다. 필수 오디오 데이터를 포함한 데이터 패킷들은 도 2에서 BG1p1, BG1p2, BG1p3, BG1p4로 언급된다.

교체 가능한 오디오 구성요소는 디폴트 언어, 예를 들면 영어로의 다이얼로그에 대응할 수 있다. 교체 가능한 오디오 데이터를 포함한 데이터 패킷들은 도 2에서 AO A로 언급된다.

예시된 바와 같이, 필수 오디오 데이터 및 교체 가능한 오디오 데이터는 수송 스트림으로 시간 다중화되는 개개의 데이터 패킷들에서 제공된다. 예에서, 필수 오디오 데이터 및 교체 가능한 오디오 데이터는 별개의 데이터 패킷들에서 제공되며, 즉 제 1 기본 스트림의 데이터 패킷은 필수 오디오 데이터 또는 교체 가능한 오디오 데이터를 포함한다. 그러나, 몇몇 실시예들에서, 데이터 패킷은 필수 오디오 데이터 및 교체 가능한 오디오 데이터 양쪽 모두를 포함할 수 있다는 것이 이해될 것이다.

디폴트 언어를 갖고 디폴트 오디오 표현을 렌더링한 수신기는 따라서 단지 제 1 기본 스트림을 액세스할 필요가 있으며, 즉 그것은 단지 PID 1을 가진 데이터 패킷들을 디코딩하며 프로세싱할 필요가 있다. 그것은 그 후 필수 오디오 구성요소를 생성하기 위해 필수 오디오 데이터를 및 교체 가능한 오디오 구성요소를 생성하기 위해 교체 가능한 오디오 데이터를 개별적으로 디코딩할 수 있다. 콘텐트 아이템을 위한 오디오 신호는 그 후 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소를 함께 믹싱함으로써 생성될 수 있다.

그러나, 제 1 기본 스트림 외에, 수송 스트림은 교체 가능한 오디오 데이터를 위한 대체 오디오 데이터를 포함하는 추가 기본 스트림들을 포함하며, 즉 그것은 교체 가능한 오디오 구성요소를 교체할 수 있는 적어도 하나의 대체 오디오 구성요소를 한정한 데이터를 포함한다.

도 2의 예에서, 수송 스트림은 PID 2에 의해 식별된 제 2 오디오 기본 스트림 및 PID 3에 의해 식별된 제 3 오디오 기본 스트림을 포함한다. 따라서, 제 2 및 제 3 기본 스트림에 대응하는 데이터 패킷들은 제 1 기본 스트림을 위한 데이터 패킷들과 데이터 스트림에서 시간 다중화된다. 제 2 기본 스트림은 제 1 대체 오디오 데이터를 가진 데이터 패킷들(AO B로 참조된)을 포함하며 제 3 기본 스트림은 제 2 대체 오디오 데이터를 가진 데이터 패킷들(AO C로 참조된)을 포함한다. 제 1 대체 오디오 데이터는 제 1 대체 오디오 구성요소를 생성하기 위해 디코딩될 수 있으며, 제 2 대체 오디오 데이터는 제 2 대체 오디오 구성요소를 생성하기 위해 디코딩될 수 있다.

교체 가능한 오디오 구성요소를 사용하여 콘텐트 아이템에 대한 오디오 신호를 생성하는 대신에, 렌더러는 대체 오디오 구성요소들 중 하나를 사용할 수 있으며, 즉 콘텐트 아이템에 대한 오디오의 생성은 대체 가능한 오디오 데이터에 기초하는 대신에 대체 오디오 데이터의 세트들 중 하나에 기초할 수 있다.

예를 들면, 교체 가능한 오디오 데이터는 영어 다이얼로그를 제공할 수 있고, 제 1 대체 오디오 데이터는 독일어 다이얼로그를 제공할 수 있으며, 제 2 대체 오디오 데이터는 프랑스어 다이얼로그를 제공할 수 있다. 수신기는 그 후 디폴트로 제 1 기본 스트림을 디코딩하고, 배경 오디오 구성요소 및 영어 오디오 구성요소를 생성하며, 콘텐트 아이템에 대한 오디오를 생성하기 위해 이것들을 함께 믹싱할 것이다. 그러나, 예로서 사용자 입력에 응답하여, 수신기는 교체 가능한 오디오 데이터를 제 1 대체 오디오 데이터로 교체할 수 있으며, 즉 그것은 필수 오디오 구성요소를 생성하기 위해 필수 오디오 데이터를 및 제 1 대체 오디오 구성요소를 생성하기 위해 제 1 대체 오디오 데이터를 디코딩하도록 진행할 수 있다. 출력 오디오는 그 후 필수 오디오 구성요소 및 제 1 대체 오디오 구성요소를 조합함으로써 생성될 수 있다. 따라서, 영어 다이얼로그를 가진 콘텐트 아이템 대신에, 독일어 다이얼로그가 제공된다.

접근법은 수송 스트림에서 오디오의 매우 효율적인 통신 및 인코딩을 허용한다. 감소된 데이터 레이트들이 달성될 수 있으며 및/또는 증가된 유연성이 제공된다. 더욱이, 수송 스트림을 생성하며 프로세싱하는 것 양쪽 모두에 대해 용이한 프로세싱이 달성된다.

중요하게, 특정 접근법은 MPEG-2 수송 스트림과 같은, 기존의 수송 스트림들과의 높은 정도의 호환성을 제공할 수 있다. 구체적으로, 그것은 기존의 데이터 구조 및 조직이 유지될 수 있으며 구체적으로 기본 스트림들의 동일한 접근법이 증가된 유연성을 제공하기 위해 사용될 수 있는 접근법을 위해 제공한다. 실제로, 접근법은 신규의 접근법을 채택하도록 요구된 표준화 노력의 양을 최소화(또는 적어도 감소)할 것이다. 더욱이, 그것은 역 호환성을 증가시킬 수 있으며 부가적인 기능을 지원하기 위해 요구된 변화들을 감소시키거나 또는 심지어 최소화할 수 있다.

구체적으로, 접근법은 하나 이상의 콘텐트 아이템들을 한정한 PAT를 포함하며 구체적으로 각각의 콘텐트 아이템을 위한 PMT에 대한 PID를 제공하는 수송 스트림의 동일한 접근법을 사용할 수 있다. 각각의 콘텐트 아이템에 대한 PMT는 콘텐트 아이템과 연관된 각각의 기본 스트림에 대한 PID를 한정할 수 있다(따라서 콘텐트 아이템은 PID가 PMT에 포함되는 기본 스트림들로 구성될 수 있다). 수신기는 그 후 PMT에 표시된 PID를 가진 데이터 패킷들을 선택함으로써 콘텐트 아이템에 대한 시청각 데이터를 검색할 수 있다. 그러나, 콘텐트 아이템이 대체 오디오 트랙들을 가질 수 있기 때문에, 수신기는 예로서 이러한 PID가 요구된 오디오 데이터를 포함하는지에 의존하여 주어진 PID로부터 데이터를 무시하거나 또는 그것을 추출하도록 선택할 수 있다. 예를 들면, (및 도 2를 참조하여), 독일어 다이얼로그 트랙이 PID 2를 가진 데이터 패킷들에서 대체 데이터로서 제공된다면, 수신기는 PID 1의 영어 다이얼로그가 요구된다면 이들 데이터 패킷들을 무시할 수 있다. 따라서, 표준 오디오 장면이 요구된다면, 이 예에서 수신기는 단지 원하는 오디오를 제공하기 위해 PID 1 데이터 패킷들만을 고려할 필요가 있다. 그러나, 동시에, 대체 독일어 다이얼로그 오디오 트랙이 선호된다면, 수신기는 간단히 PID 2의 데이터 패킷들로부터 이러한 오디오 데이터를 추출하며 이러한 오디오 데이터로 PID 1 데이터 패킷들로부터의 교체 가능한 오디오 데이터를 교체할 수 있다.

접근법은 높은 정도의 동작 효율성을 허용한다. 실제로, 시스템은 간단히 공칭 동작을 위한 단일 기본 스트림을 렌더링할 수 있으며, 따라서 접근법은 상이한 옵션들을 제공할 뿐만 아니라 또한 그것은 선호된 옵션으로서 하나의 옵션을 처리할 수 있다. 예로서, 원래 다이얼로그는 배경 오디오로서 동일한 기본 스트림에 포함되며, 따라서 이것은 예로서 사용자가 구체적으로 대안을 요청하지 않는 한 항상 제공될 것이다.

도 3은 시청각 콘텐트 아이템 데이터 스트림, 및 구체적으로 도 2의 MPEG 기반 수송 스트림과 같은 수송 스트림을 생성하기 위한 장치의 예를 예시한다. 시청각 콘텐트 아이템 데이터 스트림은 이후로 수송 스트림으로서 불리울 것이다. 콘텐트 아이템은 하나 이상의 오디오 구성요소들 및 통상적으로 하나 이상의 비디오 구성요소들과 같은, 다수의 시청각 구성요소들로 구성된다. 콘텐트 아이템은 또한 상호 작용성을 지원하는 구성요소들을 포함할 수 있다. 각각의 오디오 구성요소는 오디오 신호일 수 있으며 많은 경우들에서 오디오 오브젝트일 수 있다. 각각의 비디오 구성요소는 단일의 움직이는 이미지에 대응하는 비디오 신호일 수 있거나, 또는 예로서 다중 뷰 이동 이미지의 뷰일 수 있다. 콘텐트 아이템은 또한 상호 작용성을 지원하는 구성요소들을 포함할 수 있다. 예를 들면, 상호 작용성 구성요소는 오디오 오브젝트 및/또는 비디오 구성요소의 선택 시 사용자를 돕기 위해 이용 가능할 수 있다.

장치는 복수의 개개의 시청각 데이터 스트림들을 포함하는 수송 스트림을 생성한다. 콘텐트 아이템의 시청각 구성요소들은 따라서 복수의 개개의 시청각 데이터 스트림들에 걸쳐 분포된다. 개개의 시청각 데이터 스트림의 각각은 따라서 이전에 설명된 바와 같이 기본 스트림에 대응하며, 기본 스트림으로서 불리울 것이다. 각각의 기본 스트림은 구체적으로 PID와 같은, 고유 (수송 스트림 내에서) 패킷 식별자와 연관될 수 있다.

복수의 기본 스트림들(시청각 데이터 스트림들)은 따라서 콘텐트 아이템의 시청각 구성요소들을 포함한다. 도 1의 접근법에서, 각각의 시청각 구성요소는 단일 기본 스트림에 포함된다. 그러나, 반대로, 도 2의 장치는 기본 스트림들 중 적어도 제 1이 복수의 시청각 구성요소들을 포함하기 위해 수송 스트림을 생성하도록 배열된다.

시청각 구성요소들은 시청각 구성요소들을 위한 인코딩된 데이터를 포함한 기본 스트림들에 의해 기본 스트림들에 포함된다. 따라서, 각각의 기본 스트림은 적어도 하나의 시청각 구성요소를 표현한 인코딩된 데이터를 포함한다. 몇몇 실시예들에서, 제어 데이터, 상호 작용 데이터 등과 같은 메타-데이터를 포함하는 몇몇 기본 스트림들이 부가적으로 제공될 수 있다.

이전 설명된 바와 같이, 기본 스트림들은 복수의 시간 다중화된 데이터 패킷들로 구성되며, 따라서 시청각 구성요소들을 위한 인코딩된 데이터가 수송 스트림의 데이터 패킷들에 포함된다. 따라서, 수송 스트림에서 개개의 데이터 패킷의 타이밍은 이것이 렌더링될 때 데이터 패킷에서의 시청각 구성요소의 세그먼트의 타이밍에 직접 대응하지 않는다. 렌더링의 정확한 타이밍을 보장하기 위해, 각각의 기본 스트림은 그것이 다른 기본 스트림들에서 시청각 구성요소들에 동기화되도록 허용하는 동기화 정보를 포함한다. 구체적으로, 각각의 데이터 패킷은 데이터 패킷에 의해 표현된 콘텐트 세그먼트의 타이밍을 한정한 동기화 데이터를 포함할 수 있다.

도 3의 설명 및 예시는 오디오 구성요소들에 관한 수송 스트림의 부분에 초점을 맞출 것이다. 또한, 수송 스트림은 메타 데이터, 제어 데이터, 비디오 콘텐트 아이템들(및 가능하게는 다른 오디오 아이템들) 등을 포함하도록 생성될 수 있다는 것이 이해될 것이다. 예를 들면, 종래의 MPEG-2 수송 스트림의 다양한 구현들로부터 잘 알려진 접근법이 이러한 데이터를 위해 사용될 수 있다.

도 3의 장치는 복수의 오디오 구성요소들을 위한 인코딩된 오디오 데이터를 제공하는 오디오 소스(301)를 포함한다. 몇몇 실시예들에서, 오디오 소스(301)는 복수의 오디오 구성요소들을 수신할 수 있으며 그것은 계속해서 이것들을 개별적으로 인코딩할 수 있다. 인코딩은 동일한 인코딩 알고리즘을 사용할 수 있거나 또는 많은 실시예들에서 상이한 오디오 구성요소들에 대한 상이한 인코딩 알고리즘들 및 표준들을 사용할 수 있다. 또한, 예로서 결과적인 데이터 레이트와 같은, 인코딩 파라미터들은 동일할 수 있거나 또는 상이한 오디오 구성요소들에 대해 상이할 수 있다.

다른 실시예들에서, 오디오 소스(301)는 인코딩된 오디오 데이터를 직접 제공할 수 있다. 예를 들면, 오디오 소스(301)는 다수의 인코딩된 오디오 구성요소들이 저장되는 로컬 저장 장치일 수 있다.

오디오 소스(301)는 구체적으로 콘텐트 아이템을 표현한 오디오 구성요소들을 위한 인코딩된 오디오 데이터를 제공한다. 그것은 통상적으로 수송 스트림에 포함된 비디오 구성요소를 재생할 때 재생될 모든 오디오를 제공한다. 예를 들면, 영화를 위해, 하나 이상의 기본 스트림들이 영화를 위한 비디오를 제공할 수 있다(예로서, 상이한 기본 스트림은 비디오의 상이한 분해능들을 제공할 수 있다). 오디오 소스(301)는 다수의 오디오 구성요소들로 분할된 연관된 오디오를 제공할 수 있다.

도 3의 접근법에서, 콘텐트 아이템을 렌더링하는 것과 관련되어 렌더링될 오디오 사운드스테이지의 완전 표현을 포함하는 단일 기본 스트림이 생성된다. 예를 들면, 예로서 영화 또는 텔레비전 프로그램의 오디오를 렌더링하기 위해 요구된 모든 오디오를 포함하는 하나의 기본 스트림이 생성된다.

수송 스트림은 구체적으로 하나 이상의 오디오 표현들을 한정한 데이터를 명시적으로 포함하기 위해 생성될 수 있다. 오디오 표현의 한정는, 예로서 오디오 표현을 위한 필수 오디오 데이터 및 교체 가능한 오디오 데이터에 대응하는 오디오 데이터의 직접 또는 간접 식별에 의해 제공될 수 있다. 통상적으로, 오디오 표현의 한정는 또한 교체 가능한 오디오 데이터를 교체할 수 있는 대체 오디오 데이터의 식별을 포함할 수 있다.

접근법에서, 제 1 기본 스트림은 단일 오디오 구성요소를 포함하지 않으며 대신에 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소 양쪽 모두를 포함한다. 따라서, 기본 스트림은 이전에 설명된 바와 같이 필수 오디오 구성요소를 위한 필수 오디오 데이터 및 교체 가능한 오디오 구성요소를 위한 교체 가능한 오디오 데이터 양쪽 모두를 포함하기 위해 생성된다. 필수 오디오 구성요소는 구체적으로 배경 오디오에 대응할 수 있으며 교체 가능한 오디오 구성요소는 원래 언어(예로서, 영어)로의 메인 다이얼로그에 대응할 수 있다.

도 3의 예에서, 오디오 소스(301)는 필수 오디오 구성요소를 위한 필수 오디오 데이터를 제 1 패킷화기(303)에 제공한다. 제 1 패킷화기(303)는 필수 오디오 데이터를 패킷화하도록 진행한다. 이러한 패킷화는 필수 오디오 데이터를 적절한 크기의 블록들로 분할하는 것을 포함한다. 패킷화는 또한 데이터 패킷들에 동기화 데이터를 부가하는 것을 포함한다. 또한, 제 1 패킷화기(303)는 데이터 패킷의 정확하 디코딩을 허용하는 관련 있는 정보를 가진 헤더를 부가한다. 헤더는 구체적으로 PID를 포함하도록 생성되며, 제 1 기본 스트림에 할당된 PID가 그에 따라 데이터 패킷에 포함된다.

유사하게, 오디오 소스(301)는 교체 가능한 오디오 구성요소를 위한 교체 가능한 오디오 데이터를 제 2 패킷화기(305)에 제공한다. 제 2 패킷화기(305)는 교체 가능한 오디오 데이터를 패킷화하도록 진행한다. 이러한 패킷화는 유사하게 교체 가능한 오디오 데이터를 적절한 크기의 블록들로 분할하는 것, 동기화 데이터, 및 패킷 헤더를 부가하는 것을 포함한다. 제 1 패킷화기(303)에 대해, 제 2 패킷화기(305)는 제 1 기본 스트림에 할당된 PID에 대응하는 PID를 포함하도록 헤더를 생성한다. 따라서, 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소 양쪽 모두를 위한 데이터 패킷들은 동일한 PID를 가지며 그에 따라 동일한 기본 스트림의 부분이다.

오디오 소스(301)는 더욱이 대체 오디오 데이터를 제 3 패킷화기(307)에 제공한다. 제 3 패킷화기(307)는 교체 가능한 오디오 데이터를 패킷화하도록 진행한다. 이러한 패킷화는 유사하게 교체 가능한 오디오 데이터를 적절한 크기의 블록들로 분할하는 것, 동기화 데이터를 부가하는 것, 및 패킷 헤더를 포함한다. 제 1 패킷화기(303)에 대해, 제 3 패킷화기(307)는 PID를 포함하도록 헤더를 생성한다. 대체 오디오 데이터는 이전에 설명된 바와 같이 교체 가능한 오디오 데이터에 대한 대안이다. 따라서, 대체 오디오 데이터는 교체 가능한 오디오 구성요소 대신에 사용될 수 있는 대체 오디오 구성요소를 인코딩하는 데이터이다. 예를 들면, 대체 오디오 구성요소는 더빙된 언어(예로서, 독일어)에 대응할 수 있으며 이것은 수송 스트림에 포함된 콘텐트 아이템을 렌더링할 때 원래 언어(예로서, 영어)를 교체할 수 있다.

특정 예에서, 대체 오디오 데이터는 제 1 기본 스트림과 상이한 기본 스트림에 포함되며 따라서 대체 오디오 데이터가 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 위한 데이터 패킷들과 상이한 PID를 갖도록 생성된다. 그러나, 나중에 설명될 바와 같이, 대체 오디오 데이터가 몇몇 실시예들에서 제 1 기본 스트림 자체에 포함될 수 있으며, 따라서 몇몇 실시예들에서 데이터 패킷들은 필수 오디오 데이터 및 대체 오디오 데이터를 위한 것과 동일한 PID를 갖도록 생성될 수 있다.

제 1, 제 2 및 제 3 패킷화기들(303, 305, 307)은 패킷화기들(303, 305, 307)로부터 데이터 패킷들을 시간 다중화함으로써 계속해서 수송 스트림을 생성하는 스트림 생성기(309)에 결합된다. 통상적으로 다수의 다른 오디오 구성요소들이 또한 인코딩될 수 있다는 것이 이해될 것이다. 이들 오디오 구성요소들(가능하게는 다른 오디오 표현들을 위한 필수 오디오 구성요소들, 또는 추가 대체 오디오 구성요소들 모두)은 유사한 방식으로 패킷화될 수 있다. 스트림 생성기(309)는 시간 다중화에 의해 수송 스트림에 이러한 데이터 패킷들을 추가로 포함시키도록 배열될 수 있다. 유사하게, 데이터 패킷들은 비디오 구성요소들, 가능하게는 믹싱된 시청각 구성요소들, 메타-데이터 또는 제어 데이터를 위해 생성될 수 있으며, 결과적인 데이터 패킷들은 시간 다중화에 의해 수송 스트림에 포함될 수 있다.

장치는 더욱이 수송 스트림을 위한 제어 데이터를 생성하도록 배열되는 제어 데이터 생성기(311)를 포함한다. 제어 데이터 생성기(311)는 구체적으로 어떤 데이터가 수송 스트림에 포함되는지를 설명하는 제어 데이터를 생성한다. 구체적으로, 제어 데이터 생성기(311)는 PAT들 및 PMT들을 생성할 수 있다. 결과적인 데이터 패킷들은 수송 스트림에 데이터를 포함시키도록 진행되는 스트림 생성기(309)에 공급된다. 제어 데이터 생성기(311)는 구체적으로 콘텐트 아이템에 대한 특정 오디오 표현과 연관된 데이터를 한정하거나 또는 설명하는 데이터를 포함할 수 있다.

따라서, 도 3의 장치는 도 2를 참조하여 설명된 것과 같은 수송 스트림을 생성할 수 있으며, 즉 적어도 제 1 기본 스트림이 복수의 오디오 구성요소들을 위한 데이터를 포함하는 수송 스트림이 생성될 수 있고, 여기에서 적어도 하나의 오디오 구성요소는 콘텐트 아이템의 오디오 표현을 위해 필수적인 반면 다른 오디오 구성요소는 또 다른 오디오 구성요소로 교체될 수 있다. 따라서, 이전 설명된 이점들은 도 3의 장치에 의해 달성될 수 있다.

도 4는 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치의 예를 예시한다. 구체적으로, 장치는 도 3의 장치로부터 수송 스트림을 수신하며(구체적으로 수송 스트림은 도 2에 도시된다) 콘텐트 아이템에 대한 오디오 출력 신호를 생성시킨다. 출력 신호는 통상적으로 오디오의 렌더링을 위해 사용될 수 있으며 도 4의 장치는 그에 따라 렌더러로 불리울 것이다.

렌더러는 수송 스트림을 수신하는 수송 스트림 수신기(401)를 포함한다.

렌더러는 수신된 수송 스트림으로부터 필수 오디오 데이터를 추출하도록 배열되는 제 1 데이터 추출기(403)를 추가로 포함한다. 구체적으로, 제 1 데이터 추출기(403)는 제 1 기본 스트림에 대응하는 PID를 가진 데이터 패킷들을 검출하도록 배열된다. 그것은 그 후 이들 데이터 패킷들로부터 데이터가 필수 오디오 구성요소에 대응하는 데이터 패킷들의 서브세트로부터 데이터를 추출할 수 있다.

렌더러는 또한 수신된 수송 스트림으로부터 교체 가능한 오디오 데이터를 추출하도록 배열되는 제 2 데이터 추출기(405)를 포함한다. 구체적으로, 제 2 데이터 추출기(405)는 제 1 기본 스트림에 대응하는 PID를 가진 데이터 패킷들을 검출하도록 배열된다. 그것은 그 후 이들 데이터 패킷들로부터 데이터가 교체 가능한 오디오 구성요소에 대응하는 데이터 패킷들의 서브세트로부터 데이터를 추출할 수 있다.

개개의 데이터 패킷이 교체 가능한 오디오 데이터 또는 필수 오디오 데이터를 포함하는지에 대한 정보가 몇몇 실시예들에서 제 1 기본 스트림에 포함되지 않은 수송 스트림의 제어 또는 메타데이터에 의해 제공될 수 있다. 예를 들면, 제 1 기본 스트림을 위해 기본 스트림에서의 데이터 패킷들의 순서를 한정하는 PMT가 제공될 수 있다. 예를 들면, 그것은 교체 가능한 오디오 데이터의 하나의 데이터 패킷에 앞서 필수 오디오 데이터를 가진 두 개의 데이터 패킷들의 반복 시퀀스를 한정할 수 있다. 다른 실시예들에서, 정보는 대안적으로 또는 부가적으로 개개의 데이터 패킷들에서 제공될 수 있다. 예를 들면, 각각의 데이터 패킷의 헤더에서의 플래그는 데이터 패킷이 필수 오디오 데이터인지 또는 교체 가능한 오디오 데이터인지를 표시할 수 있다. 간단한 실시예들에서, 간단한 1 비트 플래그가 제공될 수 있다. 다른 실시예들에서, 기본 스트림의 개개의 오디오 구성요소의 아이덴티티가 제공될 수 있다.

렌더러는 또한 수신된 수송 스트림으로부터 대체 오디오 데이터를 추출하도록 배열되는 제 3 데이터 추출기(407)를 포함한다. 구체적으로, 대체 오디오 데이터가 상이한 기본 스트림에 제공되는 예들에서, 제 3 데이터 추출기(407)는 이러한 상이한 기본 스트림에 대응하는 PID를 가진 데이터 패킷들을 검출하도록 배열될 수 있다. 그것은 그 후 이들 데이터 패킷들로부터 대체 오디오 데이터를 추출할 수 있다.

제 1 데이터 추출기(403)는 필수 오디오 데이터가 제공되는 제 1 디코딩 유닛(409)에 결합된다. 제 1 디코딩 유닛(409)은 그 후 필수 오디오 구성요소를 생성하기 위해 계속해서 필수 오디오 데이터를 디코딩한다.

유사하게, 제 2 데이터 추출기(405)는 교체 가능한 오디오 데이터가 제공되는 제 2 디코딩 유닛(411)에 결합된다. 제 2 디코딩 유닛(411)은 그 후 교체 가능한 오디오 구성요소를 생성하기 위해 계속해서 교체 가능한 오디오 데이터를 디코딩한다.

그에 부응하여, 제 3 데이터 추출기(407)는 대체 오디오 데이터가 제공되는 제 3 디코딩 유닛(413)에 결합된다. 제 3 디코딩 유닛(413)은 그 후 대체 오디오 구성요소를 생성하기 위해 대체 오디오 데이터를 디코딩하도록 진행한다.

몇몇 실시예들에서, 제 1, 제 2 및 제 3 디코딩 유닛들(409, 411, 413)은 동일한 디코딩 알고리즘을 이용할 수 있으며, 즉 동일한 인코딩 알고리즘 또는 표준이 인코딩된 오디오 데이터를 생성하기 위해 사용되어 왔다. 그러나, 이러한 실시예들에서조차, 상이한 디코딩 유닛들(및 그에 따라 소스 단에서의 인코더들)은 상이한 인코딩/디코딩 파라미터들을 가질 수 있다. 구체적으로, 오디오 데이터의 데이터 레이트는 필수 오디오 데이터, 교체 가능한 오디오 데이터 및/또는 대체 오디오 데이터에 대해 상이할 수 있으며, 그에 따라 디코딩 유닛들은 상이한 데이터 레이트들을 갖고 오디오 데이터를 디코딩할 수 있다.

몇몇 실시예들에서, 제 1, 제 2 및 제 3 디코딩 유닛들(409, 411, 413) 중 적어도 두 개는 상이한 디코딩 알고리즘들을 이용할 수 있으며, 즉 상이한 인코딩 알고리즘들 또는 표준들이 인코딩된 오디오 데이터를 생성하기 위해 사용되어 왔을 수 있다.

따라서, 접근법은 각각의 개개의 오디오 구성요소의 특성들 및 선호들에 대한 개개의 최적화 또는 적응화를 허용할 수 있다. 인코딩 설정들/알고리즘들의 결정은 예로서 오디오 구성요소들의 특성들에 기초하여, 동적으로 수행될 수 있다.

제1, 제 2 및 제 3 디코딩 유닛들(409, 411, 413)은 교체 가능한 오디오 구성요소 및 대체 오디오 구성요소 중 하나와 필수 오디오 구성요소를 조합함으로써 출력 신호를 생성하도록 배열되는 조합기(415)에 결합된다. 상기 조합은 많은 시나리오들에서 간단한(가능하게는 가중된 및/또는 주파수 선택적) 부가 또는 믹싱일 수 있다.

구체적으로, 디폴드 모드에서 동작할 때, 출력 신호는 필수 오디오 구성요소 및 교체 가능한 오디오 구성요소를 조합함으로써 생성된다. 이러한 방식으로, 출력 신호는 콘텐트 아이템에 대한 디폴트 오디오 표현에 대응하도록 생성된다. 특정 예에서, 영어 다이얼로그를 가진 오디오 트랙이 비디오 구성요소를 위해 생성된다.

그러나, 예로서 명시적인 사용자 입력에 응답하여, 도 4의 장치는 대신에 필수 오디오 구성요소 및 대체 오디오 구성요소를 조합함으로써 출력 신호를 생성시킬 수 있다. 따라서, 이러한 시나리오에서, 장치는 대체 오디오 구성요소로 교체 가능한 오디오 구성요소를 교체하도록 진행한다. 이것은 예를 들면 비디오 구성요소를 위해 생성되는 더빙된 독일어 다이얼로그를 가진 오디오 트랙을 야기할 수 있다.

출력 오디오 신호는 그 후 예로서 출력 오디오 신호에 기초하여 라우드스피커를 구동함으로써 렌더링되거나 또는 재생될 수 있다. 이러한 구동은 이 기술분야에 잘 알려진 바와 같이, 예로서 전력 증폭기, 필터 등을 포함한, 적절한 구동기 회로를 통할 수 있다. 접근법은 다채널 신호들을 위해 사용될 수 있다는 것이 또한 이해될 것이다 - 예로서 직접 다채널 도메인에 있는 데이터, 구성요소들 및 프로세싱 모두에 의해(예로서, 오디오 데이터는 그 후 다채널 조합기에 의해 선택되며 조합될 수 있는 다채널 오디오 구성요소들을 생성하기 위해 디코딩되는 인코딩된 다채널 신호들을 표현할 수 있다). 또 다른 예로서, 설명된 접근법은 다채널 신호의 각각의 개개의 채널을 위해 개별적으로 수행될 수 있다.

또 다른 예로서, 단일 채널 및 다채널 오디오 구성요소들은 믹싱될 수 있으며, 예로서 필수 오디오 구성요소는 다채널 신호일 수 있으며 교체 가능한 및 대체 오디오 구성요소들은 단일 채널 신호들일 수 있다.

이전 예에서, 교체 가능한 오디오 데이터는 대체 오디오 구성요소 및 필수 오디오 구성요소를 조합하기 위해 선택한 조합기(415)에 의해 대체 오디오 데이터로 교체된다. 몇몇 이러한 실시예들에서, 도 4의 장치는 사용되지 않고 있는 데이터를 추출하거나 또는 디코딩하지 않을 수 있다는 것이 이해될 것이다. 구체적으로, 디폴트 동작이 선택된다면, 장치는 대체 오디오 데이터를 추출하며 대체 오디오 구성요소를 디코딩하지 않을 것이다. 유사하게, 대체 오디오 데이터가 출력 신호를 생성하기 위해 사용된다면, 장치는 교체 가능한 오디오 데이터를 추출하거나 또는 교체 가능한 오디오 구성요소를 디코딩하지 않을 수 있다.

예에서, 대체 오디오 데이터로의 교체 가능한 오디오 데이터의 교체(또는 비-교체)는 필수 오디오 구성요소와 조합되는 오디오 구성요소를 선택함으로써 수행된다. 그러나, 선택 및 교체는 인코딩된 오디오 데이터 도메인에서 직접 수행될 수 있다는 것이 이해될 것이다. 예를 들면, 동일한 디코더는 디코딩되는 모든 오디오 구성요소들을 위해 사용될 수 있으며 장치는 디코딩 유닛으로 공급되는 데이터 스트림에서 대체 오디오 데이터로 교체 가능한 오디오 데이터를 직접 대치하도록 배열될 수 있다.

몇몇 실시예들에서, 필수 오디오 및 교체 가능한(디폴트) 오디오 또는 대체 오디오의 조합은 압축된 및/또는 인코딩된 도메인에서 수행될 수 있다. 이러한 실시예에서, 조합기(415)는 데이터 추출기들(403, 405, 407)로부터 관련 있는 압축된/인코딩된 오디오 데이터를 제공받을 수 있으며 그것은 원하는 오디오 데이터를 선택 및 조합하도록 진행할 수 있다. 조합된 오디오 데이터는 그 후 조합된 오디오 데이터를 디코딩하는 단일 디코딩 유닛으로 공급될 수 있다.

대체 오디오 데이터는 상이한 실시예들에서 투명 스트림의 상이한 부분들에서 제공될 수 있거나, 또는 실제로 몇몇 경우들에서조차 투명 스트림으로부터 외부적으로 제공될 수 있다.

따라서, 몇몇 실시예들에서, 장치는 동일한 소스로부터 또는 상이한 소스로부터 제 2 수송 스트림을 수신하도록 배열될 수 있다. 장치는 이러한 제 2 수송 스트림을 프로세싱하도록 배열될 수 있으며 이것으로부터 동일한 수송 스트림에 포함된 대체 오디오 구성요소를 위해 이전 설명된 바와 같이 제 1 수송 스트림으로부터 교체 가능한 오디오 구성요소를 교체할 수 있는 대체 오디오 구성요소를 추출할 수 있다. 제 2 수송 스트림은 예를 들면 인터넷 연결을 통해 또 다른 소스로부터 수신될 수 있다.

이러한 접근법은 예를 들면 교체 가능한 오디오 구성요소가, 예로서 인터넷 연결을 통해 상이한 제공자로부터 검색되도록 허용할 수 있다. 그것은 예를 들면 제 3 자가 예로서 영화들을 위한 더빙 언어들을 제공할 수 있게 할 수 있다.

제 2 수송 스트림의 특정 예는 따라서 제 1 수송 스트림과 상이한 데이터 소스로부터 또는 상이한 파일로부터 수신되거나 또는 검색된 수송 스트림일 수 있다. 예를 들면, 제 1 수송 스트림은 방송 송신에 의해 1차 데이터 소스로부터 수신될 수 있다. 예를 들면, 제 1 수송 스트림은 제 1 수송 스트림을 방송하는 텔레비전 스테이션에서 다수의 수신기들 및 사용자들까지일 수 있다. 따라서, 이러한 통신은 예로서, 다중-포인트 라디오 방송으로의 포인트일 수 있다. 그러나, 대체 오디오 데이터를 포함한 제 2 수송 스트림은 예를 들면 인터넷을 통해서와 같은, 상이한 통신 매체를 통해 개개의 사용자에게 직접 송신될 수 있다. 제 2 수송 스트림은 개개의 수신기/사용자로 직접 포인트 대 포인트 송신으로서 송신될 수 있다. 제 2 수송 스트림은 실제로 심지어 구체적으로 사용자에 의해 요청될 수 있으며 인터넷과 같은, 상호 작용 매체를 통해 제공될 수 있다. 이러한 접근법은 동시에 매우 높은 정도의 잠재적인 사용자 맞춤화를 허용하면서 효율적인 분배 및 통신을 허용할 수 있다.

따라서, 제 2 수송 스트림은 가능하게는 제 1 수송 스트림과 상이한 소스로부터 또는 그것을 통해 검색될 수 있다. 파일들의 경우에, 수송 스트림들은 상이한 파일들로부터 올 수 있다. 제 2 수송 스트림에 대한 상이한 소스는 또한 예로서 상이한 매체일 수 있다(예로서, 제 1 수송 스트림은 블루-레이 디스크로부터 검색될 수 있으며 제 2 수송 스트림은 라디오 송신으로부터 올 수 있다). 제 1 수송 스트림을 제공하는 주요 소스는 방송, 또는 멀티캐스트 신호일 수 있는 반면, 제 2 수송 스트림을 제공하는 제 2 소스는 특정 개인을 위해 타겟팅된 것일 수 있다.

많은 실시예들에서, 그러나, 대체 오디오 데이터는 동일한 수송 스트림의 부분일 것이다.

구체적으로, 몇몇 실시예들에서 수송 스트림을 생성하는 장치는 수송 스트림에서 상이한 기본 스트림에 대체 오디오 데이터를 포함시킨다. 이것은 특히 효율적인 접근법을 제공할 수 있으며, 많은 시나리오들에서 동작 및 시그널링을 용이하게 할 수 있고, 보다 효율적인 수송 스트림을 위해 제공할 수 있다. 이러한 실시예들에서, 수신기는 대체 오디오 데이터가 포함되는 기본 스트림에 대응하는 PID를 가진 데이터 패킷들을 식별함으로써 대체 오디오 데이터를 추출할 수 있다.

이러한 시나리오의 예가 도 5에서 도시된다. 예에서, 1의 PID를 가진 기본 스트림은 2개의 오디오 구성요소들, 즉 배경 사운드들에 대응하는 필수 오디오 구성요소 및 디폴트 언어에 대응하는 교체 가능한 오디오 구성요소를 포함한다. 필수 오디오 구성요소는 BG1p1, BG1p2 등으로서 불리우는 데이터 패킷들에서의 오디오 데이터에 의해 표현되며, 교체 가능한 오디오 구성요소는 OA C로 불리우는 데이터 패킷들에서의 오디오 데이터에 의해 제공된다. 또한, 2의 PID를 가진 제 2 기본 스트림은 OA A로서 불리우는 데이터 패킷들에서의 오디오 데이터에 의해 표현된 대체 오디오 구성요소를 포함한다. 3의 PID를 가진 제 3 기본 스트림은 또한 OA B로서 불리우는 데이터 패킷들에서의 오디오 데이터에 의해 표현된 대체 오디오 구성요소를 제공한다. 도 5에서, OA A 및 OA B를 위한 데이터 패킷들은 OA C를 위한 데이터 패킷들과 동시적인 것으로 도시된다는 것이 주의된다. 이것은 이들 데이터 패킷들이 실제로 동시에 포함될 수 있는(예로서, 데이터 패킷들에 걸쳐 채널 인터리빙을 갖고) 시나리오들을 반영할 수 있다. 그러나, 많은 실시예들에서, 데이터 패킷들은 시간 다중화될 수 있다는 것이 또한 이해될 것이다. 두 개의 대체 오디오 구성요소들은 교체 가능한 오디오 구성요소의 언어를 교체할 수 있는 상이한 언어들에 대응할 수 있다. 구체적으로, 도 5에 예시된 바와 같이, 기본 스트림(PID 2)의 대체 오디오 데이터는 기본 스트림(OA C)의 교체 가능한 오디오 데이터를 교체할 수 있다.

따라서, 렌더러는 기본 스트림(PID 1)으로부터 배경 오디오 데이터(필수 오디오 데이터)를 추출하며 배경 오디오에 대응하는 필수 오디오 구성요소를 생성하기 위해 이를 디코딩할 수 있다. 또한, 그것은 기본 스트림(PID 2)으로부터 대체 오디오 데이터를 추출하며, 더빙된 언어들 중 하나에 대응하는 대체 오디오 구성요소를 생성하기 위해 이를 디코딩할 수 있다. 두 개의 구성요소들은 그 후 렌더링되고/재생되는 출력 신호를 생성하기 위해 조합된다.

도 5에 표시된 바와 같이, 교체 가능한 오디오 데이터 및 대체 오디오 데이터를 위한 데이터 패킷들이 반드시 서로에 대응하는 것은 아니다. 예를 들면, 그것들은 상이하게 인코딩될 수 있으며(예로서, 상이한 인코딩 파라미터들, 데이터 레이트 또는 인코딩 알고리즘들) 구체적으로 상이한 시간 간격들 또는 세그먼트들에 대응할 수 있다. 그러나, 예로서, 오디오 구성요소들의 조합에 앞서 별개의 디코딩이 사용된다면, 이러한 차이들은 상이한 디코딩 경로들 및 디코딩된 신호들의 조합을 적응시킴으로써 처리될 수 있다.

몇몇 실시예들에서, 제 2 기본 스트림은 대체 오디오 구성요소를 포함할 뿐만 아니라 예로서 다수의 대체 오디오 구성요소들을 포함할 수 있다.

실제로, 몇몇 실시예들에서, 제 2 기본 스트림은 콘텐트 아이템에 대한 상이한 표현을 위한 필수 오디오 데이터를 추가로 포함할 수 있다. 따라서, 몇몇 실시예들에서, 제 2 기본 스트림은 자체가 콘텐트 아이템에 대한 상이한 오디오 표현을 제공하는 기본 스트림일 수 있다. 따라서, 수신기는 제 2 기본 스트림의 오디오 데이터만을 사용하여 콘텐트 아이템을 위한 사운드트랙을 생성할 수 있을 수 있다. 예를 들면, 제 2 기본 스트림은 콘텐트 아이템에 대한 대체 오디오 표현을 위한 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 포함할 수 있다. 이러한 예에서, 제 1 기본 스트림(및 따라서 제 1 표현)을 위한 대체 오디오 데이터는 예를 들면 제 2 기본 스트림(즉 제 2 표현을 위한)의 교체 가능한 오디오 데이터일 수 있다.

몇몇 실시예들에서, 대체 오디오 데이터는 제 1 기본 스트림 자체에서 제공될 수 있으며, 즉 그것은 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 포함하는 동일한 기본 스트림의 부분일 수 있다. 따라서, 도 3의 장치는 수송 스트림으로 대체 오디오 데이터를 포함한 데이터 패킷들을 시간 다중화함으로써 제 1 기본 스트림에 대체 오디오 데이터를 포함하도록 배열될 수 있으며, 여기에서 이들 데이터 패킷들의 PID는 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 가진 데이터 패킷들에 대해서와 동일하다. 도 4의 장치는 디폴트로서 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 포함한 데이터 패킷들로부터 오디오 데이터를 추출하며 이러한 데이터로부터 출력 오디오 신호를 생성하도록 진행할 수 있다. 그러나, 예로서 사용자 입력에 응답하여, 장치는 대신에 적절한 데이터 패킷들로부터 대체 오디오 데이터를 추출하며 교체 가능한 오디오 데이터 대신에 이러한 데이터를 사용하여 오디오 출력 신호를 생성시킬 수 있다.

이러한 접근법의 예는 제 1 기본 스트림이 필수 오디오 데이터(BG1p1...)를 갖고, 교체 가능한 오디오 데이터(OA A)를 가지며 대체 오디오 데이터(OA B, OA C)를 가진 데이터 패킷들을 포함하는 도 6에 도시된다. 예에서, 필수 오디오 데이터는 필수 오디오 구성요소를 생성하기 위해 추출되며, 데이터 패킷들(OA B)로부터의 데이터는 디폴트 교체 가능한 오디오 데이터 대신에 대체 오디오 구성요소를 생성하기 위해 추출되며 디코딩된다. 출력 신호는 디코딩된 필수 오디오 구성요소 및 디코딩된 대체 오디오 구성요소를 조합함으로써 생성된다.

이전 설명은 대체 오디오 데이터가 상이한 언어들에와 같은, 상이한 오디오 구성요소들에 대응하는 예들에 초점을 맞추어왔다. 그러나, 설명된 접근법은 이러한 예에 제한되지 않는다는 것이 이해될 것이다.

실제로, 몇몇 실시예들에서, 교체 가능한 오디오 데이터 및 대체 오디오 데이터는 상이한 인코딩 특성들을 사용하여 인코딩된 동일한 오디오 콘텐트를 표현할 수 있다. 구체적으로, 교체 가능한 오디오 데이터 및 대체 오디오 데이터는 동일한 오디오 콘텐트, 및 구체적으로 동일한 오디오 구성요소에 대응할 수 있지만, 상이한 비트 레이트들로 인코딩될 수 있다.

이것은 증가된 유연성을 제공할 수 있으며 예를 들면 수신기로 하여금 수송 스트림을 수신하며 효율적으로 및 낮은 복잡도로 동일한 오디오 콘텐트에 대응하는 수송 스트림을 상이한 데이터 레이트를 갖고 생성하도록 허용할 수 있다. 따라서, 교체 가능한 오디오 데이터 및 대체 오디오 데이터 사이에서의 선택은 특정 데이터 레이트 및 원하는 데이터 레이트에 의존적인 것과 같은, 데이터 자체의 특성들에 의존적일 수 있다. 접근법은 증가된 유연성을 허용할 수 있으며, 구체적으로 수송 스트림의 특성들의 유연한 적응화를 허용할 수 있다.

몇몇 실시예들에서, 대체 오디오 데이터는 예를 들면, 다수의 서브-오브젝트들을 표현한, SAOC 오디오 오브젝트와 같은, 오디오 오브젝트일 수 있다.

몇몇 실시예들에서, 도 3의 장치는 수송 스트림에 렌더링 제어 데이터를 포함하도록 배열될 수 있다. 렌더링 제어 데이터는 수송 스트림의 오디오를 렌더링하기 위한 요구된, 원하는 또는 제안된 렌더링 파라미터를 특정할 수 있다. 예를 들면, 렌더링 제어 데이터는 오디오 구성요소들의 절대적 또는 상대적 레벨의 표시를 제공할 수 있다.

렌더링 제어 데이터는 구체적으로 대체 오디오 데이터가 사용될 때를 위한 것과 상이한 교체 가능한 오디오 데이터가 사용될 때를 위한 렌더링 파라미터를 제공할 수 있다.

렌더링 제어 데이터는 예를 들면, 디폴트 오디오가 렌더링될 때, 즉 출력 신호가 필수 오디오 데이터 및 교체 가능한 오디오 데이터에 기초하여 생성될 때 출력 신호에 대한 상대적 이득 또는 신호 레벨을 설명할 수 있다. 그것은 대체 오디오가 렌더링될 때, 즉 출력 신호가 필수 오디오 데이터 및 대체 오디오 데이터에 기초하여 생성될 때 출력 신호에 대한 상이한 상대적 이득 또는 신호 레벨을 추가로 설명할 수 있다.

이러한 접근법은 예를 들면, 렌더링 사이에서의 차이들을 제공하기 위해 사용될 수 있으며, 예로서 오디오는 대체 오디오 신호가 렌더링될 때보다 디폴트 오디오 신호가 렌더링될 때 렌더링된 라우더일 수 있다. 그러나, 접근법은 또한 출력 신호를 균질화하기 위해 사용될 수 있다. 예를 들면, 교체 가능한 오디오 구성요소의 레벨이 대체 오디오 구성요소의 레벨보다 높은 상황들에서, 렌더링 제어 데이터는 감소되는 레벨 차이를 야기하는 대체 오디오 구성요소를 사용할 때 출력 신호의 전체 이득을 증가시킬 수 있다.

몇몇 실시예들에서, 렌더링 제어 데이터는 교체 가능한 오디오 구성요소 및 대체 오디오 구성요소를 위한 상이한 렌더링을 설명할 수 있다. 예를 들면, 교체 가능한 오디오 구성요소에 대한 이득은 대체 오디오 구성요소와 상이할 수 있다. 이것은 예로서 맞춤화를 허용할 수 있다. 특정 예로서, 독일어 TV 방송들은 영어 TV 방송들보다 스포츠 경기들에 대한 군중 소음들에 대해 더 높은 상대적 레벨들의 해설자 사운드를 갖는 경향이 있을 수 있다. 따라서, 상이한 이득들은 동일한 효과가 대체 언어들을 가진 단일 수송 스트림으로부터 제공될 수 있도록 두 개의 상이한 언어 구성요소들에 대해 설정될 수 있다.

몇몇 실시예들에서, 렌더링 제어 데이터는 출력 신호가 교체 가능한 오디오 데이터/교체 가능한 오디오 구성요소 또는 대체 오디오 데이터/대체 오디오 구성요소에 기초하여 생성되는지에 의존하여 (가능하게는 단지) 필수 오디오 데이터/필수 오디오 구성요소를 위한 상이한 렌더링 파라미터들을 제공할 수 있다.

수신기가 제공된 수송 스트림을 완전히 이용하도록 허용하기 위해, 송신기는 수송 스트림에 포함된 상이한 데이터에 대한 정보를 시그널링할 수 있는 부가적인 데이터를 포함할 수 있다.

구체적으로, 몇몇 실시예들에서, 도 3의 장치는 제 1 기본 스트림이 교체 가능한 오디오 데이터를 포함한다는 표시를 포함하도록 배열될 수 있다. 이러한 표시는 예를 들면, 수송 스트림에 대한 별개의 구성 데이터의 부분으로서 제공될 수 있다. 예로서, 수송 스트림의 상이한 기본 스트림들을 특정한 구성 패킷들을 포함하는 데이터 패킷들이 제공될 수 있다. 구체적으로, PMT들을 포함하는 구성 데이터가 제공될 수 있다. 이러한 경우에서, 개개의 기본 스트림을 한정한 PMT의 부분은 어떤 오디오 구성요소들이 기본 스트림에서 표현되는지, 및 구체적으로 개개의 기본 스트림이 하나 이상의 오디오 구성요소를 포함하는지를 한정한 정보를 또한 포함하기 위해 강화될 수 있다. 예로서, 플래그는 주어진 기존 스트림이 교체 가능한 오디오 데이터를 포함한다고 표시하기 위해 설정될 수 있다.

몇몇 실시예들에서, 수송 스트림은 기본 스트림에 교체 가능한 오디오 데이터를 위한 추출 데이터를 포함하도록 생성될 수 있다. 이러한 추출 데이터는 예를 들면 어떻게 교체 가능한 오디오 데이터가 식별될 수 있는지를 특정할 수 있다. 예로서, 그것은 어떤 데이터 패킷들이 교체 가능한 오디오 데이터를 포함하는지 및 어떤 데이터 패킷들이 필수 오디오 데이터를 포함하는지에 대한 표시를 포함할 수 있다. 설명은, 예로서 기본 스트림에 포함된 오디오 구성요소들을 설명하며 각각을 아이덴티티와 연관시킴으로써 제공될 수 있다. 각각의 데이터 패킷은 그 후 어떤 오디오 구성요소를 위해 데이터 패킷이 오디오 데이터를 포함하는지를 표시하기 위해 헤더에 오디오 구성요소 아이덴티티를 포함시킬 수 있다. 추출 데이터는 각각의 오디오 구성요소를 위한 오디오 구성요소 아이덴티티를 제공할 수 있으며 그에 의해 수신기가 관련 있는 정보를 추출하도록 허용한다.

구체적으로, MPEG-2 수송 스트림을 위해, 보조 오디오 디스크립터가 오브젝트의 한정를 갖고 확대될 수 있다. 보조 오디오 디스크립터의 구문의 예가 도 7에서 제공된다. 도 8은 각각 데이터 아이템들(mix_type 및 editorial_classification)의 종래의 사용을 예시한다.

이 예에서, mix_type 데이터 구조는 도 8의 데이터구조레서부터 도 9의 데이터구조로 변경될 수 있다. editorial_classification는 도 10의 것으로 변경될 수 있다. 더욱이, 도 11의 것과 같은 AAC 디스크립터 구성요소가 사용될 수 있다.

이러한 예는 예약 비트가 editorial_classification 데이터 구조 하에서, 오디오가 조작될 수 있는 오브젝트들을 포함하는지를 표시하기 위해 사용될 수 있음을 도시한다. mixed_type이 1과 같은 경우에, 오브젝트 비트 값 1은 오디오 트랙이 배경 오브젝트이며 오브젝트와 믹싱되어야 함을 표시한다. 오브젝트 비트가 0이면, 그것은 현재 경우이고, 이것은 오디오 트랙이 완전하며 오브젝트 또는 또 다른 mix_type 0 스트림으로 보완될 수 있음을 표시한다.

editorial_classification 데이터 구조로, 교체 가능한 오브젝트의 사용-경우가 시그널링될 수 있다. 상기 교체 가능한 오브젝트의 식별은 AAC 디스크립터에 위치될 수 있다. 이러한 레벨에서 주어질 필요가 있는 유일한 신호는 교체 가능한 오브젝트가 있다는 식별이다.

AAC 디스크립터의 확대는 구체적으로, 구체적으로 말하면 다음과 같은, 그것의 속성들을 설명한 오브젝트당 디스크립터를 가진 오브젝트들의 루프를 포함할 수 있다:

- 오브젝트의 언어.

- 교체 가능성: 이것은 오브젝트가 스트림에서의 디폴트 오브젝트이며 또 다른 오브젝트로 교체될 수 있음(및 선택적으로 상기 대안적인 오브젝트로의 링크가 포함될 수 있다)을 시그널링할 수 있다.

- 이것이, 사용자가 그것을 전체에 부가하도록 선택하거나 또는 배제하도록 선택하는 오브젝트인지 여부. 예를 들면, 그것은 장애인들을 위한 특별한 사운드 트랙이거나 또는 특별한 해설을 포함할 수 있다. 이것은 매우 제한된 대역폭 비용으로 해설 트랙을 제공하기 위한 가능성을 운영자에게 제공한다.

- 그것이 상호 작용 오브젝트임을 사용자에게 명확하게 하기 위해 오브젝트로 디스플레이될 수 있는 텍스트의 표시. 예를 들면, 사용자가 이러한 오브젝트를 선택하고, 그것을 또 다른 위치에 두거나 또는 예를 들면 그것을 더 크게 또는 더 약하게 하는 것이 가능할 수 있다.

- 오디오 오브젝트에 결합되는 비디오 오브젝트에 링크를 제공하는 것. 상호 작용 오브젝트는 또한 그것의 비디오 상대와 함께 이동되기 위한 능력을 가질 수 있다. 예를 들면, 그것은 오브젝트로 "줌"하는 것이 가능할 수 있다. 줌은 비디오 오브젝트 및 오디오 오브젝트에 의한 라우드니스에 의해 가시화될 수 있다. 사용자는 그 후 상기 오브젝트의 오디오만이 단독으로 더 커지기 때문에 오브젝트가 실제로 더 가까워지게 되는 환상을 가진다.

더욱이, 오디오 페이로드 헤더(UsacConfig)에서의 오브젝트는 메타데이터 디스크립터를 통해 고유 식별자를 갖고 확대될 수 있다. 이러한 식별자는 오브젝트의 식별을 허용하기 위해 PMT에서의 디스크립터에 포함될 수 있다. 이러한 식별자는 또한 오디오 콘텐트를 설명하는 파일에서의 XML 디스크립션일 수 있다.

도 12는 오브젝트가 어떻게 UsacConfig에서 식별될 수 있는지를 예시한다.

도 13은 오브젝트가 그것의 콘텐트를 SAOC 오브젝트로 위임하도록 허용하기 위한, 오브젝트 디스크립터의 구문의 예를 예시한다.

많은 실시예들에서, 시청각 콘텐트 아이템 데이터 스트림은 따라서 계층적 배열에서 구조화된, 시청각 데이터, 제어 데이터, 메타데이터 등을 포함한, 데이터를 가질 수 있다.

구체적으로, 시청각 콘텐트 아이템 데이터 스트림(구체적으로 수송 스트림)은 시청각 콘텐트 아이템 데이터 스트림에 포함되는 콘텐트 아이템들을 한정하는 데이터 스트림 콘텐트 아이템 디스크립터를 포함할 수 있다. 데이터 스트림 콘텐트 아이템 디스크립터는 구체적으로 미리 결정된 패킷 식별자에 할당될 수 있으며, 이것은 구체적으로 표준화될 수 있고, 따라서 송신 및 수신 단에서 양쪽 모두를 알게 될 것이다. 따라서, 수신기는 미리 결정된 패킷 식별자를 가진 데이터 패킷들을 검출할 수 있으며 이들 데이터 패킷들로부터 어떤 콘텐트 아이템들이 시청각 콘텐트 아이템 데이터 스트림에 포함되는지를 결정하기 위해 데이터를 추출할 수 있다. 예를 들면, MPEG 수송 스트림을 위해, 수송 스트림은 0의 미리 결정된 PID를 갖고 데이터 패킷들에 포함되는 PAT를 포함할 수 있다.

데이터 스트림 콘텐트 아이템 디스크립터는 구체적으로 각각의 콘텐트 아이템을 위해, 콘텐트 아이템을 위한 콘텐트 아이템 맵 테이블에 대한 포인터를 제공할 수 있다. 콘텐트 아이템을 위한 콘텐트 아이템 맵 테이블은 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함할 수 있다. 따라서, 콘텐트 아이템 맵 테이블은 예로서, 비디오 데이터, 필수 오디오 데이터, 교체 가능한 오디오 데이터, 대체 오디오 데이터, 및 부가적인 오디오 데이터를 포함한, 콘텐트 아이템에 대한 시청각 데이터를 제공하는 각각의 시청각 데이터 스트림을 위한 패킷 식별자를 포함한다. 또한, 콘텐트 아이템 맵 테이블은 콘텐트 아이템에 대한 예로서 메타-데이터, 제어 데이터 등을 제공하는 데이터 스트림들을 위한 포인터들 및 구체적으로 패킷 식별자들을 포함할 수 있다. 콘텐트 아이템 맵 테이블은 프로그램 맵 테이블일 수 있다.

구체적으로, MPEG 형 데이터 스트림을 위해, PAT는 각각의 콘텐트 아이템을 위해, PMT에 대한 패킷 식별자를 포함할 수 있다. 프로그램/콘텐트 아이템에 대한 PMT는 그 후 프로그램에 대한 시청각 데이터를 제공하는 각각의 기본 데이터 스트림에 대한 PID를 포함할 수 있다.

시청각 데이터 스트림들은 따라서 콘텐트 아이템 맵 테이블에 표시된 것들에 대응하는 패킷 식별자들을 가진 데이터 패킷들에서 제공된다. 예를 들면, 이전에 설명된 바와 같이, 필수 및 교체 가능한 오디오 데이터는 하나의 패킷 식별자를 가진 패킷들에서 오디오 데이터를 제공함으로써 하나의 시청각 데이터 스트림에서 제공될 수 있고, 제 1 대체 데이터는 또 다른 패킷 식별자를 가진 패킷들에서 오디오 데이터를 제공함으로써 또 다른 시청각 데이터 스트림에서 제공될 수 있고, 제 2 대체 데이터는 제 3 패킷 식별자 등을 가진 패킷들에서 오디오 데이터를 제공함으로써 또 다른 시청각 데이터 스트림에서 제공될 수 있다. 콘텐트 아이템 맵 테이블은 각각의 시청각 데이터 스트림들의 패킷 식별자들을 포함하도록 생성된다.

접근법은 높은 정도의 유연성을 제공하며 소스가 특정한 시나리오에 맞으며 바람직한 방식으로 원하는 콘텐트 아이템들을 제공하는 시청각 콘텐트 아이템 데이터 스트림들을 생성하도록 허용한다. 그것은 수신기에 의한 데이터의 추출을 추가로 상당히 용이하게 할 수 있다. 구체적으로, 수신기는 근본적으로 단지 요구된 데이터를 선택하기 위해 패킷 식별자들을 모니터링할 필요가 있으며 그것은 요구된 데이터를 포함하지 않는 모든 데이터 패킷들을 간단히 무시할 수 있다.

예를 들면, 수신기는 처음에 데이터 스트림 콘텐트 아이템 디스크립터의 패킷 식별자에 대한 수신된 패킷들을 모니터링할 수 있으며, 즉 구체적으로, 그것은 PAT의 미리 결정된 PID(MPEG의 경우에 PID 0)에 대해 모니터링할 수 있다.

이것이 검출될 때, 수신기는 데이터를 추출하며 원하는 콘텐트 아이템을 선택한다. 콘텐트 아이템 맵 테이블에 대한 패킷 식별자, 구체적으로 MPEG을 위한 PMT에 대한 PID는 그 후 이러한 콘텐트 아이템을 위해 추출된다.

수신기는 그 후 이러한 패킷 식별자를 갖고 데이터 패킷들에 대해 스캔한다. 이들 데이터 패킷들에 대한 데이터가 추출되며 그에 의해 콘텐트 아이템에 대한 데이터를 포함하는 시청각 데이터 스트림들을 위한 패킷 식별자들을 제공한다. 수신기는 그 후 모든 다른 데이터 패킷들을 무시하면서 이들 식별자들을 포함한 데이터 패킷들에 대해 스캔하도록 진행할 수 있다. 접근법은 특히 시청각 데이터의 실질적이고 낮은 복잡도 다중화 및 역-다중화를 허용한다.

따라서, 접근법은 시청각 콘텐트 아이템 데이터 스트림들로부터 관련 있는 데이터를 추출하기 위한 낮은 복잡도 및 낮은 리소스 접근법을 제공한다.

그러나, 몇몇 실시예들에서, 시청각 콘텐트 아이템 데이터 스트림은 다수의 시청각 데이터 스트림들이 단일 시청각 데이터 스트림으로서 처리되도록 허용하기 위해 생성될 수 있다. 구체적으로, 표준 패킷 식별자들을 사용하기보다는, 접근법은 조합된 또는 연쇄된 식별 접근법을 사용할 수 있다. 구체적으로, 시청각 데이터 스트림은 1차 식별자 및 2차 식별자 양쪽 모두와 연관될 수 있으며 여기에서 1차 식별자는 시청각 데이터 스트림들 중 적어도 두 개에 대한 공통 식별자일 수 있다.

1차 식별자는 구체적으로 공통 데이터 스트림 패킷 식별자일 수 있으며, 즉 1차 식별자는 (조합된) 데이터 스트림을 식별하는 패킷 식별자일 수 있다. 1차 식별자가 복수의 시청각 데이터 스트림들에 대해 공통적이기 때문에, 1차 식별자는 1차 식별자를 공유하는 시청각 데이터 스트림들 모두의 조합인 공통 또는 조합된 시청각 데이터 스트림을 한정하기 위해 고려될 수 있다.

1차 식별자는 많은 실시예들에서 콘텐트 아이템 맵 테이블에 포함된다. 따라서, 콘텐트 아이템 맵 테이블은 1차 식별자를 포함하도록 생성되며, 따라서 콘텐트 아이템 맵 테이블은 그에 의해 복수의 개개의 시청각 데이터 스트림의 조합된 데이터 스트림인 단일 데이터 스트림에 대한 포인터를 제공한다.

실제로, 많은 실시예들에서, 도 3의 장치는 오디오를 포함한 모든 시청각 데이터 스트림들에 대한, 또는 실제로 모든 시청각 데이터 스트림들에 대한, 콘텐트 아이템 맵 테이블에 의해 표현된 콘텐트 아이템에 대한 단지 단일 1차 식별자만을 포함하기 위해 콘텐트 아이템 맵 테이블을 생성하도록 배열될 수 있다.

실제로, 몇몇 실시예들에서, 콘텐트 아이템 맵 테이블은 콘텐트 아이템 맵 테이블에 콘텐트 아이템에 대한 단지 하나의 시청각 데이터 스트림 패킷 식별자를 포함하기 위해, 또는 콘텐트 아이템 맵 테이블에 콘텐트 아이템을 위한 오디오 데이터에 대한 단지 하나의 시청각 데이터 스트림 패킷 식별자를 포함하기 위해 생성될 수 있다. 따라서, 주어진 콘텐트 아이템에 대해, 공통 패킷 식별자는 콘텐트 아이템에 대한 모든 오디오 또는 시청각 콘텐트를 표현하며, 실제로 콘텐트 아이템은 그것이 단지 단일 시청각 데이터 스트림(또는 오디오를 위한 단일 시청각 데이터 스트림)만을 포함하는 것처럼 1차 식별자에 기초하여 프로세싱될 수 있다.

특정 예로서, MPEG 형 수송 스트림을 위해, 콘텐트 아이템을 위한 PMT는 모든 오디오 기본 스트림들에 대한, 또는 실제로 모든 오디오 또는 비디오 기본 스트림들에 대한, 콘텐트 아이템에 대한 단지 하나의 PID만을 포함하도록 생성될 수 있다. 따라서, 콘텐트 아이템은 모든 오디오에 대한 또는 모든 오디오 및 비디오에 대한 단지 단일 PID에만 연계될 것이다.

따라서, 몇몇 실시예들에서, 시청각 데이터 스트림은 수신기들, 다중화기들, 역다중화기들 등과 같은 프로세싱 디바이스들에 대해, 실제로 그 경우보다 더 적은 시청각 데이터 스트림들을 갖는 것처럼 보일 수 있다. 구체적으로, 시청각 데이터 스트림은 콘텐트 아이템에 대한 단지 단일 오디오 또는 단일 시청각 기본 스트림만을 갖는 것처럼 보일 수 있다. 예로서, MPEG 형 예를 위해, 수송 스트림은 콘텐트 아이템에 대한 모든 오디오(또는 시청각) 구성요소들을 위한 단일 기본 스트림만을 포함하기 위한 프로세싱 회로처럼 보일 수 있다.

그러나, 시청각 콘텐트 아이템 데이터 스트림은 공통 시청각 데이터 스트림으로 조합되어 온 각각의 개개의 시청각 데이터 스트림에 대한 2차 식별자를 추가로 포함할 수 있다. 2차 식별자는 공통 시청각 데이터 스트림 내에서 고유하며, 즉 공통 시청각 데이터 스트림 중 어떤 두 개의 시청각 데이터 스트림들도 2차 식별자를 갖지 않을 것이다. 2차 식별자는 따라서 개개의 시청각 데이터 스트림이 식별되도록 허용한다.

2차 식별자는 많은 실시예들에서 패킷 식별자일 수 있다. 따라서, 많은 실시예들에서, 개개의 패킷들은 공통 1차 패킷 식별자에 의해 및 2차 패킷 식별자에 의해 표현될 수 있다. 각각의 패킷은 공통 1차 패킷 식별자가 포함되는 필드 및 개개의 2차 식별자가 포함되는 제 2 필드를 포함할 수 있다.

이러한 방식으로, 패킷들은 패킷들이 단일 시청각 데이터 스트림을 표현한 것처럼, 역다중화기들, 라우터들 등과 같은 회로에 의해 프로세싱될 수 있다. 구체적으로, MPEG 형 수송 스트림을 위한 데이터 패킷들의 PMT 및 PID 필드에 공통 PID를 포함시킴으로써, 수송 스트림은 그것이 단지 단일 오디오 또는 시청각 기본 스트림만을 포함하는 것처럼 프로세싱될 수 있다. 기능은 예로서, 동일한 방식으로 및 단지 단일 기본 스트림이 있는 것처럼, 콘텐트 아이템을 위한 모든 오디오 데이터 패킷들을 간단히 프로세싱할 수 있다. 그러나, 동시에, 적절히 구비된 기능은 개개의 시청각 데이터 스트림들을 액세스하며 별개의 시청각 데이터 스트림들로서 그것들을 프로세싱할 수 있다. 구체적으로, 이러한 기능은 2차 식별자를 포함한 필드를 추가로 평가할 수 있으며 따라서 데이터 패킷을 프로세싱하는 방법을 선택할 수 있다. 구체적으로, 기능은 어떤 시청각 데이터 스트림이 콘텐트 아이템의 원하는 렌더링을 제공하기 위해 요구되는지에 의존하여 데이터 패킷들을 무시하거나 또는 프로세싱할지를 결정할 수 있다.

따라서, 시청각 콘텐트 아이템 데이터 스트림을 프로세싱할 때, 수신기는 1차/공통 패킷 식별자에 기초하여 주어진 콘텐트 아이템에 대한 정확한 데이터 패킷들을 검출할 수 있다. 수신기는 특히 수신된 콘텐트 아이템 맵 테이블에서의 정보에 기초하여, 공통 시청각 데이터 스트림에, 및 그에 따라 공통 시청각 데이터 스트림을 형성하는 개개의 시청각 데이터 스트림들에 속하는 데이터 패킷들 모두를 식별할 수 있다. 따라서, 오디오 데이터의 추출은 1차 식별자에 기초한다.

이러한 2-부분 패킷 식별자 접근법을 사용한 실시예들에서, 수송 스트림은 대응하는 2차 식별자들의, 및 통상적으로 개개의 시청각 데이터 스트림들과 연관된 개개의 시청각 데이터 스트림들의 오디오의 특성들의 정보를 포함하여, 개개의 시청각 데이터 스트림들의 정보를 제공하는 부가적인 데이터를 포함할 수 있다.

예를 들면, 주어진 1차 식별자에 대해, 동일한 1차 식별자를 공유하는 시청각 데이터 스트림들의 2차 식별자들 모두를 열거하는 데이터가 제공될 수 있다. 데이터는 예로서 데이터가 필수 오디오 데이터, 교체 가능한 오디오 데이터, 부가적인 오디오 데이터, 대체 오디오 데이터 등을 포함하는지 여부와 같은, 개개의 시청각 데이터 스트림의 특성들을 추가로 표시할 수 있다.

몇몇 실시예들에서, 이러한 정보는 공통 시청각 데이터 스트림의 데이터 패킷들 내에서 제공될 수 있다. 예를 들면, 규칙적인 간격들에서, 2차 식별자에 관한 정보 모두를 포함하는 데이터 패킷이 제공될 수 있다. 수신기는 처음에 1차 식별자를 포함한 데이터 패킷들 모두로부터 데이터를 검출하며 추출할 수 있다. 2차 식별자의 사용에 관한 정보를 가진 데이터 패킷이 수신될 때, 이러한 정보는 개개의 시청각 데이터 스트림들을 식별하기 위해 수신기에 의해 추출되며 사용될 수 있다. 그것은 그 후 1차 패킷 식별자를 포함한 데이터 패킷들의 2차 식별자들을 또한 고려하며, 구체적으로 단지 원하는 2차 식별자들을 가진 데이터 패킷들로부터 데이터를 추출하기 위해 스위칭할 수 있다.

다른 실시예들에서, 데이터는 공통 시청각 데이터 스트림의 밖에서 제공될 수 있으며, 실제로 많은 실시예들에서, 정보는 콘텐트 아이템 맵 테이블에서 제공될 수 있다.

구체적으로, 각각의 공통 또는 1차 식별자에 대해, 콘텐트 아이템 맵 테이블은 복수의 2차 패킷 식별자들을 포함하기 위해 생성될 수 있으며, 여기에서 각각의 2차 패킷 식별자는 공통 시청각 데이터 스트림의 시청각 데이터 스트림들의 개개의 시청각 데이터 스트림을 식별한다.

예를 들면, 1차 식별자의 열거에 이어서, 다수의 선택 필드들이 각각의 선택 필드가 공통 1차 식별자를 가진 개개의 시청각 데이터 스트림에 대한 2차 식별자를 제공하는 콘텐트 아이템 맵 테이블에 포함될 수 있다. 1차 식별자가 시청각 데이터 스트림들의 조합이 아닌 단일 시청각 데이터 스트림을 표현한다면, 어떤 선택 필드들도 포함되지 않을 수 있다. 각각의 선택 필드는 개개의 시청각 데이터 스트림에 대한 2차 패킷 식별자 외에, 또한 구체적으로 시청각 데이터 스트림의 시청각 데이터의 특성들을 한정한 데이터(예로서, 그것이 대체 오디오 데이터, 필수 오디오 데이터, 교체 가능한 오디오 데이터 또는 부가적인 오디오 데이터를 포함하는지 여부와 같은)와 같은, 시청각 데이터 스트림에 대한 메타데이터를 포함할 수 있다.

구체적으로, 콘텐트 아이템 맵 테이블은 각각의 1차 식별자에 대해, 각각의 필드가 조합된 시청각 데이터 스트림의 하나의 개개의 시청각 데이터 스트림을 표현하는 필드들의 세트를 포함하도록 수정되거나 또는 생성될 수 있다. 각각의 필드는 예로서 다음을 표현한 데이터를 포함할 수 있다:

- 개개의 시청각 데이터 스트림에 대한 2차 식별자, 및

- 상기 개개의 시청각 데이터 스트림에 대한 디스크립션들.

예를 들면, MPEG 형 접근법에 대해, PMT는 콘텐트 아이템에 대한 모든 오디오를 위한 단일 PID를 포함할 수 있다. PMT에서의 PID에 이어서, 각각의 개개의 시청각 데이터 스트림에 대해, 상기 개개의 시청각 데이터 스트림의 콘텐트들을 특성화한 메타데이터 및 2차 식별자를 제공하는 필드들의 세트가 있을 수 있다.

몇몇 실시예들에서, 1차/공통 식별자 및 2차 패킷 식별자들은 계층 배열에서 제공될 수 있다. 예를 들면, 1차 패킷 식별자는 기본 스트림들을 찾는 수신기에 의해 스캐닝될 제 1 레벨에서 콘텐트 아이템 맵 테이블에서 제공될 수 있다. 2차 패킷 식별자들은 예로서 각각의 1차 패킷 식별자에 대한 2차 패킷 식별자들의 리스트를 포함함으로써와 같은, 1차 패킷 식별자에 연계되는 선택 필드들에서 제공될 수 있다. 이러한 실시예들에서, 수신기는 그에 따라 먼저 1차 패킷 식별자들의 표준 리스트를 스캔할 것이다. 원하는 조합된 기본 스트림이 식별되었을 때, 수신기는 식별된 1차 패킷 식별자에 대해 저장되는 2차 패킷 식별자들의 리스트를 검토하도록 진행할 수 있다. 따라서, 2차 패킷 식별자들은 대응하는 1차 패킷 식별자에 의존하여 식별된다.

따라서, 몇몇 실시예들에서, 1차 및 2차 패킷 식별자들의 내포 구조가 사용될 수 있다. 예를 들면, PMT는 전용 필드들의 세트에 PID들의 리스트를 포함할 수 있으며 리스트는 예로서 조합된 기본 스트림에 대한 단지 단일 1차 PID만을 포함할 수 있다. 그러나, PMT는 또한 조합된 기본 스트림의 개개의 기본 스트림들에 대한 2차 PID들의 제 2 리스트를 포함할 수 있다. 이들 2차 PID들은 2차 PID들에 대한 전용 데이터 필드들에서 제공되며 1차 PID에 연계된다. 따라서, 수신기는 단지 1차 PID에 기초하여 2차 PID들을 액세스할 것이며, 실제로 수신기는 1차 PID들 및 2차 PID들 사이에서 구별할 것이다.

그러나, 다른 실시예들에서, 1차 및 2차 패킷 식별자들의 평면 구조가 사용될 수 있다. 실제로, 콘텐트 아이템 맵 테이블은 1차 및 2차 식별자들 양쪽 모두를 포함할 수 있는 식별자들의 리스트를 포함할 수 있다. 실제로, 콘텐트 아이템 맵 테이블은 조합된 시청각 데이터 스트림들 및 개개의 시청각 데이터 스트림 양쪽 모두를 포함한 모든 가능한 시청각 데이터 스트림들의 단순 리스트를 포함할 수 있다. 더욱이, 주어진 개개의 시청각 데이터 스트림은 개개의 시청각 데이터 스트림에 대한 2차 패킷 식별자에 의해 표현될 수 있으며 또한 1차 패킷 식별자에 의해 표현될 수 있다(즉, 이들 패킷 식별자들 중 어느 하나의 선택은 시청각 데이터 스트림의 선택을 야기할 것이다). 실제로, 각각의 개개의 시청각 데이터 스트림을 위해, 콘텐트 아이템 맵 테이블은 개개의 시청각 데이터 스트림이 속하는 임의의 조합된 시청각 데이터 스트림의 1차 패킷 식별자, 뿐만 아니라 개개의 스트림에 대한 2차 패킷 식별자에 대한 엔트리를 포함할 수 있다. 따라서, 이 예에서, 리스트는 예로서, 조합된 및 개개의 시청각 데이터 스트림들 양쪽 모두를 포함한, 모든 시청각 데이터 스트림들에 대한 패킷 식별자를 가진 엔트리를 포함할 수 있다.

따라서, 몇몇 실시예들에서, 2차 패킷 식별자들은 1차 패킷 식별자에 연계된 데이터에서 캡슐화될 수 있는 반면 다른 실시예들에서 2차 패킷 식별자는 1차 패킷 식별자들과 동시에 제공될 수 있다. 1차 패킷 식별자는 따라서 복수의 시청각 데이터 스트림들을 포함한 조합된 시청각 데이터 스트림에 대한 패킷 식별자를 제공하는 임의의 식별자일 수 있다. 2차 패킷 식별자는 개개의 시청각 데이터 스트림에 대한 임의의 패킷 식별자일 수 있으며 캡슐화되고, 내장되거나 또는 1차 패킷 식별자에 의존할 필요가 없다.

예를 들면, 단일 1차 패킷 식별자에 대한 데이터에서의 2차 패킷 식별자들의 내장된 정보보다는, 콘텐트 아이템 맵 테이블은 루프/시퀀스에 모든 가능한 패킷 식별자들을 포함하기 위해 생성될 수 있다. 이러한 실시예들에서, 수신기는 요구되는 특정 데이터에 대응하는 패킷 식별자를 간단히 선택할 수 있으며 예로서, 간단히 리스트로부터 적절한 패킷 식별자를 선택함으로써 단일의 조합된 시청각 데이터 스트림 또는 개개의 시청각 데이터 스트림을 선택하도록 선택할 수 있다.

이러한 실시예들에서, 수신기(1401)는 구체적으로 단지 단일 조합된 스트림에서 모든 오디오 정보를 송신하기보다는 요구된 패킷 식별자들을 선택함으로써 원하는 오디오를 선택하도록 배열될 수 있다.

접근법은 수송 스트림에서 복수의 시청각 데이터 스트림들을 갖는 것과 단일 시청각 데이터 스트림을 갖는 속성들 및 특성들을 조합할 수 있다.

이것은 필드에서의 많은 장비가 다수의 시청각 데이터 스트림들을 신뢰 가능하게 핸들링할 수 없기 때문에 상당한 이점을 제공할 수 있다.

도 14는 오디오 디코더(1403)에 결합된 수신기(1401)를 포함하는 수신 장치의 예를 예시한다. 예에서, 수신기(1401)는 시청각 콘텐트 아이템 데이터 스트림을 수신하며 예로서 다양한 시청각 데이터 스트림들을 추출하기 위해 이를 프로세싱할 수 있다. 따라서, 수신기(1401)는 수송 스트림을 수신할 수 있으며 예로서 개개의 오디오 및 비디오 기본 데이터 스트림들을 생성하기 위해 이를 프로세싱하도록 배열될 수 있다. 수신기(1401)는 구체적으로 도 4의 수신기(401)에 직접 대응할 수 있다.

오디오 디코더(1403)는 오디오 데이터를 포함한 하나 이상의 데이터 스트림들을 수신하도록 및 이러한 오디오 데이터로부터 출력 오디오 신호를 생성하도록 배열된다. 오디오 디코더(1403)는 구체적으로 시청각 콘텐트 아이템 데이터 스트림의 시청각 데이터 스트림들로부터 오디오 데이터를 수신하기 위한 기능을 포함할 수 있다. 이와 같이, 오디오 디코더(1403)는 구체적으로 기본 스트림으로부터 필수 오디오 데이터를 추출하고, 동일한 또는 또 다른 기본 스트림으로부터 대체 오디오 데이터를 검색하기 위한, 대안적인 데이터로 수신된 교체 가능한 오디오 데이터를 교체하기 위한, 및 결과적인 오디오 데이터로부터 오디오 신호를 생성하기 위한 기능을 포함할 수 있다.

구체적으로, 오디오 디코더(1403)는 도 4의 나머지 기능 블록들을 포함할 수 있으며, 구체적으로 데이터 추출기들(403, 405, 407), 디코딩 유닛들(409, 411, 413) 및 교체기/조합기(415)를 포함할 수 있다.

도 14의 예에서, 오디오 디코더(1403)는 각각의 스트림이 상이한 오디오 데이터를 포함한 오디오 스트림인 상이한 시청각 데이터 스트림들/기본 데이터 스트림들을 제공받을 수 있다. 그러나, 많은 실시예들에서, 수신기(1401)는 오디오 데이터 모두를 포함하는 단일 데이터 스트림을 생성하도록 및 이러한 데이터 스트림을 오디오 디코더(1403)에 공급하도록 배열될 수 있다. 수신기(1401)는 예를 들면 상이한 기본 스트림들을 포함한 단일의 조합된 오디오 스트림으로 오디오 기본 스트림들을 조합할 수 있다. 몇몇 시나리오들에서, 단일의 조합된 오디오 스트림은 여전히 개개의 시청각 데이터 스트림들을 포함할 수 있으며, 예로서 개개의 시청각 데이터 스트림들은 단일 데이터 스트림으로 캡슐화될 수 있다. 다른 시나리오들에서, 수신기(1401)는 예로서 관련 있는 오디오 데이터를 추출하며 입력 시청각 데이터 스트림들의 모든 양상들을 포함하지 않고 이것을 오디오 데이터 스트림으로 조합할 수 있다. 예를 들면, 수신기(1401)는 데이터 스트림에 대한 상이한 제어, 구문 및/또는 구조 데이터를 포함한 새로운 데이터 스트림을 생성할 수 있다. 몇몇 경우들에서, 오디오 데이터는 새로운 시청각 데이터 스트림, 즉 새로운 기본 스트림으로 조합될 수 있다. 이러한 조합된 시청각 데이터 스트림/기본 스트림은 수신된 수송 스트림의 원래 기본 스트림을 포함할 수 있거나 또는 독립적인 기본 스트림에 오디오 데이터의 일부 또는 모두를 포함시킬 수 있다. 간결성을 위해, 다음의 설명은 시청각 콘텐트 아이템 데이터 스트림들 및 시청각 데이터 스트림들보다는 수송 스트림들 및 기본 스트림들을 주로 나타낼 것이다. 더욱이, 그것은 수신기(1401)가 오디오 디코더(1403)를 위한 단일의 기본 스트림을 생성하는 시나리오를 나타낼 것이다.

따라서, 오디오 디코더(1403)는 하나의 오디오 기본 스트림들을 수신할 것이며 출력 오디오 스트림을 생성할 것이다.

많은 실질적인 구현들에서, 수신기 및 디코더는 가깝게 통합된 기능들보다는 비교적 독립적이며 별개의 기능 블록들이다. 실제로, 많은 시나리오들에서 두 개의 엔티티들은 독립적으로 및 개별적으로 설계되며 개발될 수 있다. 예를 들면, 많은 콘텐트 렌더링 디바이스들에 대해, 오디오 디코더들은 많은 상이한 디바이스들을 위해 재사용되는 일반 디코더들이다. 예를 들면, 콘텐트 렌더링 디바이스들의 많은 제조사들은 그것들을 내부적으로 개발하기보다는 일반적인 오디오 디코더 기능들을 사들일 수 있다.

따라서, 수신기(1401) 및 오디오 디코더(1403) 사이에서의 인터페이스는 많은 시나리오들에서 가장 중요하며, 예로서 전용 및 독점 인터페이스 및 제어에 의존하기보다는, 간단하며 표준화된, 또는 적어도 공통적인 접근법을 이용하는 것이 바람직하다.

종래에, 오디오 디코더는 오디오 디코더에 의해 구현된 디코딩 표준에 따라 및 외부 회로에 의한 임의의 추가 수정들 또는 상호 작용 없이 디코딩되는 비트스트림을 공급받은 비교적 단순한 디바이스의 프레임워크에서 고려되어 왔다. 이러한 접근법은 예를 들면 디코딩 유닛들(409 내지 413)의 각각이, 그로부터 그것이 그 다음에 특정 렌더링에 대한 특정 오디오 선호들에 따라 조합기(415)에 의해 조합될 수 있는 오디오 신호를 생성하는 단순한 기본 스트림을 공급받으며 구체적으로 출력 신호는 예로서 특정 사용자에 의해 요구된 바와 같이 교체 가능한 오디오 데이터 또는 대안적인 데이터에 기초하여 생성될 수 있다.

몇몇 실시예들에서, 장치는 구체적으로 하나 이상의 오디오 기본 스트림들을 수신하며 이것으로부터 예로서 오디오 신호의 디코딩 전에 데이터를 조작함으로써 출력 오디오를 생성할 수 있는 보다 복잡한 오디오 디코더(1403)를 사용할 수 있다. 예를 들면, 오디오 디코더(1403)는 이러한 실시예들에서 실제 디코딩이 수행되기 전에 사용될 적절한 데이터를 선택할 수 있다. 따라서, 사용되지 않은 오디오 데이터는 디코딩되지 않을 수 있으며 실제로 오디오 디코더(1403)에 제공된 데이터 스트림(들)으로부터 추출되지 않을 수 있다. 예를 들면, 대체 데이터로 교체되는 교체 가능한 오디오 데이터는 디코딩되거나 또는 심지어 추출되지 않을 수 있다. 유사하게, 사용되지 않은 대체 오디오 데이터 또는 교체 가능한 오디오 데이터를 교체하기 위해 사용되지 않은 대체 오디오 데이터는 디코딩되거나 또는 추출되지 않을 수 있다.

따라서, 몇몇 실시예들에서, 대체 오디오 데이터로의 교체 가능한 오디오 데이터의 교체는 디코딩된 오디오 신호들의 조합을 적응시킴으로써 수행되지 않을 수 있지만 대신에 교체 가능한 오디오 데이터를 선택하기보다 디코딩을 위한 대체 오디오 데이터를 선택함으로써 수행될 수 있다. 출력 신호는 이 경우에, 예로서 단지 필수 오디오 데이터 및 대체 오디오 데이터만을 디코딩하며, 결과적인 오디오 신호들을 함께 부가함으로써 생성될 수 있다.

이러한 접근법은 많은 시나리오들에서 보다 효율적인 동작을 위해 제공할 수 있다. 그러나, 그것은 개개의 시나리오의 특정 요건들 및 선호들에 적응할 수 있도록 디코더에 요구한다. 더욱이, 그것은 복수의 상이한 오디오 구성요소들을 프로세싱할 수 있도록 및 유연한 방식으로 이것들에 적응하도록 디코더에 요구한다. 구체적으로, 오디오 디코더가 단지 모든 수신된 오디오 데이터를 렌더링하기보다는, 그것은 상이한 오디오 오브젝트들을 유연하게 조합할 수 있으며 구체적으로 다른 오브젝트들로 몇몇 오디오 오브젝트들을 교체하도록 요구한다.

그러나, 이를 달성하기 위해, 수신기가 그것에 제공된 오디오 데이터를 프로세싱하는 방법에 대해 오디오 디코더(1403)에 지시하는 것이 필요하다. 하나의 가능성은 수신기(1401)가 요구된 동작들을 수행하도록 오디오 디코더(1403)를 제어하는 다양한 제어 신호들을 생성하도록 배열되는 독점 인터페이스를 구현하는 것이다. 그러나, 이러한 접근법은 복잡한 실시예들을 야기하며 전용 및 독점 디코더가 사용되는 것을 요구하려는 경향이 있다.

도 14의 시스템에서, 오디오 디코더(1403)는 오디오 데이터를 포함하며, 어떻게 상이한 오디오 데이터가 오디오 디코더(1403)에 의해 프로세싱되는지를 표시하는 오디오 데이터 프로세싱 디스크립터를 추가로 포함하는 시청각 데이터 스트림을 생성하는 수신기(1401)에 의해 제어되도록 배열된다. 예에서, 수신기(1401)는 구체적으로 잠재적으로 오디오 디코더(1403)에 의해 사용될 수 있는 모든 오디오 데이터, 및 가능하게는 주어진 콘텐트 아이템을 위한 입력 수송 스트림에 포함된 모든 오디오 데이터를 포함하는 단일의 시청각 데이터 스트림을 생성한다. 또한, 동일한 시청각 데이터 스트림은 오디오 디코더(1403)가 디코딩/프로세싱 및 구체적으로 이러한 렌더링을 위한 특정 선호들로의 오디오 오브젝트들의 조합을 적응시키도록 허용하는 디코딩/프로세싱 제어 데이터를 포함한다. 따라서, 도 14의 시스템에서, 수신기(1401)는 시청각 데이터 스트림에 공급된 오디오 기본 스트림에 오디오 데이터 프로세싱 디스크립터의 형태로 제어 디스크립터를 부가하며 오디오 디코더(1403)는 그것의 디코딩 태스크를 제어하기 위해 이러한 오디오 데이터 프로세싱 디스크립터를 해석한다.

보다 상세히, 도 14의 예에서, 수신기(1401)는 주어진 콘텐트 아이템에 대한 다수의 오디오 기본 스트림들을 포함한 복수의 기본 스트림들을 포함한 수송 스트림을 수신한다. 수신기(1401)는 오디오 기본 스트림들 중 하나 이상을 추출하며 이것으로부터 하나 이상의 출력 기본 스트림들을 생성한다. 구체적으로, 구체적으로 제 1 콘텐트 아이템에 대한 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 포함한 제 1 기본 스트림일 수 있는, 제 1 시청각 데이터 스트림에 기초하여, 수신기(1401)는 구체적으로 제 1 시청각 데이터 스트림으로부터 필수 오디오 데이터 및 교체 가능한 오디오 데이터를 포함한 제 2 기본 스트림일 수 있는 제 2 시청각 데이터 스트림을 생성할 수 있다. 또한, 제 2 시청각 데이터 스트림/기본 스트림은 예를 들면, 대체 오디오 데이터를 포함한 기본 스트림으로부터와 같은, 또 다른 입력 기본 스트림으로부터 오디오 데이터를 포함할 수 있다.

또한, 수신기(1401)는 어떻게 오디오 디코더(1403)가 제 2 기본 스트림의 오디오 데이터로부터 출력 오디오 신호를 생성하는지를 표시하는 오디오 데이터 프로세싱 디스크립터를 생성한다. 오디오 데이터 프로세싱 디스크립터는 제 2 기본 스트림에 포함된다. 예를 들면, 제 2 기본 스트림은 어떻게 개개의 오디오 구성요소들이 프로세싱되어야 하는지, 및 구체적으로 어떻게 그것들이 디코딩되며 다른 오디오 구성요소들과 조합되어야 하는지(여부)를 설명하는 데이터를 포함한 하나 이상의 필드들을 포함하기 위해 생성될 수 있다.

수신기(1401)는 그 후 오디오 디코더(1403)에 제 2 기본 스트림을 공급한다. 오디오 디코더(1403)는 제 2 시청각 데이터 스트림으로부터 오디오 데이터 프로세싱 디스크립터를 추출하도록 및 오디오 데이터 프로세싱 디스크립터에 응답하여 오디오 신호를 생성하도록 진행한다.

오디오 데이터 프로세싱 디스크립터는 어떤 오디오 구성요소들이 출력 신호를 생성하기 위해 함께 조합되어야 하는지를 한정할 수 있으며 따라서 오디오 디코더(1403)는 구체적으로 (단지) 표시된 오디오 구성요소들을 검색하고, 이것들을 디코딩하며, 최종적으로 그것들을 함께 부가할 수 있다.

몇몇 실시예들에서, 수신기(1401)는 오디오 데이터 프로세싱 디스크립터들의 각각이 제 2 기본 스트림의 오디오 구성요소들의 서브세트에 대한 프로세싱 표시들을 제공하는 복수의 오디오 데이터 프로세싱 디스크립터들을 포함할 수 있다. 몇몇 실시예들에서, 하나의 오디오 데이터 프로세싱 디스크립터는 구체적으로 대응하는 오디오 구성요소가 필수 오디오 데이터, 교체 가능한 오디오 데이터, 또는 대체 오디오 데이터인지 여부를 설명하는 오디오 데이터 프로세싱 디스크립터를 갖고 각각의 오디오 구성요소를 위해 제공될 수 있다. 오디오 데이터 프로세싱 디스크립터들은 더욱이 사실상 대체 오디오 구성요소가 주어진 교체 가능한 오디오 구성요소를 교체해야 하는지 또는 아닌지를 설명할 수 있다.

특정 예로서, 오디오 데이터 프로세싱 디스크립터는 이것이 대체 오디오 데이터로서 또는 부가적인 데이터로서 처리되어야 하는지를 표시하기 위해 주어진 오디오 구성요소를 위해 제공될 수 있다. 대체 오디오 데이터는 몇몇 교체 가능한 오디오 데이터를 교체할 데이터인 반면 부가적인 데이터는 교체 가능한 오디오 데이터에 부가되는 데이터이다.

예를 들면, 수신기(1401)로의 입력 스트림은 주어진 제 1 오디오 구성요소를 위한 제 1 오디오 데이터를 포함한 기본 스트림을 포함할 수 있다. 몇몇 렌더링 상황들에서, 제 1 오디오 구성요소가 입력 수송 스트림의 제 2 오디오 구성요소를 교체하는 것이 요구될 수 있다. 따라서, 이 경우에, 제 1 오디오 데이터는 교체 가능한 오디오 구성요소인, 제 2 오디오 구성요소 대신에 렌더링되는 대체 오디오 구성요소를 위한 대체 오디오 데이터를 표현한다. 그러나, 다른 시나리오들에서, 제 1 오디오 구성요소는 제 2 오디오 구성요소와 함께 렌더링되며, 즉 양쪽 오디오 구성요소들 모두가 함께 렌더링되는 것이 요구될 수 있다.

제 1 경우에, 오디오 데이터 프로세싱 디스크립터는 제 1 오디오 데이터가 실제로 제 2 오디오 데이터를 교체해야 하는 대체 오디오 데이터임을 표시하기 위해 수신기(1401)에 의해 제 2 기본 스트림에 포함될 수 있다. 그러나, 나중 경우에, 오디오 데이터 프로세싱 디스크립터는 제 1 오디오 데이터가 대신에 제 2 오디오 데이터에 부가되어야 하는 부가적인 오디오 데이터이며, 즉 양쪽 오디오 구성요소들 모두가 추출되며 렌더링되어야 함을 표시하기 위해 수신기(1401)에 의해 포함될 수 있다. 따라서, 이 경우에, 오디오 데이터 프로세싱 디스크립터는 이것이 지정된 대체 오디오 데이터 또는 부가적인 오디오 데이터인지를 표시하는 제 1 오디오 데이터를 위해 삽입된다.

오디오 디코더(1403)는 수신된 오디오 데이터 프로세싱 디스크립터들에 따라 데이터를 프로세싱할 것이다. 특정 예에서, 오디오 데이터 프로세싱 디스크립터가 제 1 오디오 데이터가 대체 오디오 데이터로서 지정됨을 표시한다면, 오디오 디코더(1403)는 제 1 오디오 데이터를 추출하며 그것을 대체 오디오 데이터로서 처리하도록 진행한다. 더욱이, 그것은 이러한 추출된 제 1 오디오 데이터로 제 2 오디오 데이터의 형태에서의 교체 가능한 오디오 데이터를 교체한다. 교체는 구체적으로 단지 제 1 오디오 데이터를 디코딩함으로써 달성될 수 있는 반면 제 2 오디오 데이터는 추출되지 않으며 디코딩되지 않는다. 따라서, 제 1 오디오 구성요소가 생성되며 출력 오디오 신호에 포함된다.

그러나, 오디오 데이터 프로세싱 디스크립터가 제 1 오디오 데이터가 부가적인 오디오 데이터로서 지정됨을 표시한다면, 오디오 디코더(1403)는 제 1 오디오 데이터 및 제 2 오디오 데이터 양쪽 모두를 추출하도록 진행한다. 더욱이, 제 1 오디오 데이터 및 제 2 오디오 데이터 양쪽 모두는 제 1 오디오 구성요소 및 제 2 오디오 구성요소를 생성하기 위해 디코딩된다. 이것들 중 양쪽 모두는 그 후 출력 신호에 조합된다.

이러한 실시예들에서, 수신기(1401)는 그에 따라 오디오 디코더(1403)의 동작을 제어할 수 있으며, 구체적으로 어떤 오디오 데이터가 출력 신호에 기여하며 무시되는지를 제어할 수 있다. 접근법은 저 복잡도 제어를 허용하며 오디오 디코더(1403)가 단지 원하는 오디오 출력을 생성하도록 입력 데이터 스트림에 요구할 수 있게 할 수 있다.

접근법은 동시에 이러한 데이터가 유연하게 사용되도록 허용하는 동안, 및 구체적으로 단지 오디오 구성요소들의 서브세트를 포함하는 출력 신호가 생성되도록 여전히 허용하는 동안, 예로서 수송 스트림의(주어진 콘텐트 아이템에 대한) 모든 오디오 데이터가 오디오 디코더(1403)에 제공된 제 2 시청각 데이터 스트림에 포함되도록 추가로 허용할 수 있다. 오디오 구성요소들은 제 2 시청각 데이터 스트림 자체에 포함된 데이터를 통해 수신기(1401)에 의해 유연하게 선택될 수 있다.

수신기(1401)는 예를 들면 주어진 오디오 데이터가 다음의 그룹으로부터의 오디오 데이터인지를 표시하는 오디오 데이터 프로세싱 디스크립터를 생성할 수 있다:

필수 오디오 데이터;

교체 가능한 오디오 데이터;

대체 오디오 데이터; 및

부가적인 오디오 데이터.

몇몇 실시예들에서, 이러한 그룹의 서브세트 또는 슈퍼세트가 사용될 수 있다.

주어진 콘텐트 아이템에 대한 오디오 데이터 프로세싱 디스크립터는 예를 들면 특정 디바이스에 대한 렌더링 선호에 응답하여, 또는 예로서 사용자 입력에 응답하여 생성될 수 있다.

예로서, 수신된 수송 스트림은 필수 배경 오디오 구성요소, 영어 오디오 구성요소, 독일어 배경 오디오 구성요소, 및 2차 배경 구성요소를 포함할 수 있다. 사용자는 어떤 오디오 구성요소들이 요구되는지를 선택할 수 있으며 오디오 데이터 프로세싱 디스크립터들은 이것들이 오디오 디코더(1403)에 의해 추출되며 디코딩되도록 선택된 오디오 구성요소들을 반영하기 위해 생성될 수 있다.

몇몇 실시예들에서, 오디오 데이터 프로세싱 디스크립터들은 임의의 미리 결정된 오디오 데이터 프로세싱 디스크립터들에 의존하지 않고 및 구체적으로 수신된 수송 스트림으로부터의 임의의 오디오 데이터 프로세싱 디스크립터에 의존하지 않고 수신기(1401)에 의해 생성될 수 있다.

그러나, 다른 실시예들에서, 제 2 기본 스트림의 오디오 데이터 프로세싱 디스크립터들은 수신된 시청각 콘텐트 아이템 데이터 스트림의 부분인 오디오 데이터 프로세싱 디스크립터들로부터, 즉 수신된 수송 스트림의 부분으로서 생성된다.

구체적으로, 수신기(1401)는 수송 스트림에서 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 제 1 오디오 데이터 프로세싱 디스크립터를 생성하도록 배열될 수 있다. 따라서, 입력 수송 스트림의 주어진 오디오 기본 스트림을 위해, 수송 스트림은 이러한 오디오 기본 스트림의 오디오 데이터가 어떻게 오디오 디코더(1403)에 의해 디코딩되어야 하는지를 표시하는 하나 이상의 오디오 데이터 프로세싱 디스크립터들을 포함할 수 있다.

예를 들면, 주어진 오디오 기본 스트림은 교체 가능한 오디오 데이터를 교체하기 위해 의도되는 대체 오디오 데이터를 포함할 수 있다. 예를 들면, 기본 스트림은 예로서, 영어 다이얼로그 오디오 구성요소와 같은, 디폴트 다이얼로그 오디오 구성요소를 교체해야 하는 독일어 다이얼로그를 포함할 수 있다. 입력 수송 스트림은 그에 따라 이러한 오디오 데이터가 교체 가능한 오디오 데이터로서 처리되어야 하며, 그것이 다른 다이얼로그 오디오 데이터를 교체해야 함을 한정하는 오디오 데이터 프로세싱 디스크립터를 포함할 수 있다. 수송 스트림은 다른 다이얼로그 오디오 기본 스트림들을 포함할 수 있으며 이것들의 각각에 대해, 수송 스트림은 또한 오디오 데이터 프로세싱 디스크립터를 포함할 수 있다.

따라서, 이 예에서, 예로서 도 3의 장치와 같은, 수송 스트림을 생성하는 장치는 어떻게 대응하는 오디오 데이터가 프로세싱되어야 하는지 또는 프로세싱될 수 있는지를 표시하는 오디오 데이터 프로세싱 디스크립터들을 생성하도록 추가로 배열될 수 있다. 예를 들면, 오디오 데이터 프로세싱 디스크립터는 이러한 트랙이 선택될 수 있으며 그렇다면 그것은 모든 다른 다이얼로그 오디오 구성요소들을 교체해야 함을 표시한 각각의 다이얼로그 오디오 구성요소를 위해 포함될 수 있다.

오디오 데이터 프로세싱 디스크립터들은 수송 스트림에, 예를 들면 콘텐트 아이템을 위한 프로그램 맵에, 또는 가능하게는 개개의 기본 스트림을 위한 개개의 데이터 패킷들에 포함된다.

특히, 많은 실시예들에서, 오디오 데이터 프로세싱 디스크립터는 수송 스트림 생성 측에서 콘텐트 아이템을 위한 프로그램 맵 테이블에 포함될 수 있다. 특정 예로서, 각각의 오디오 기본 스트림을 위해, 프로그램 맵 테이블은 기본 스트림을 위한 패킷 식별자뿐만 아니라 또한 어떻게 오디오 데이터가 디코딩되어야 하는지를 표시한 하나 이상의 오디오 데이터 프로세싱 디스크립터들을 포함할 수 있다. 이것은 소스로 하여금 어떻게 콘텐트가 디코딩되며 렌더링될 수 있는지 및/또는 되어야 하는지를 제어 및 설명하도록 허용할 수 있다.

수신기(1401)는 이러한 수송 스트림을 수신할 때 제 2 기본 스트림을 생성하며 그것을 입력 수송 스트림의 것들로부터 생성되며 특정 오디오 데이터가 어떻게 특정 상황에서 디코딩되며 렌더링되어야 하는지를 설명하는 오디오 데이터 프로세싱 디스크립터들을 포함한 제 2 기본 스트림과 함께 오디오 디코더(1403)에 공급할 수 있다.

제 2 기본 스트림의 오디오 데이터 프로세싱 디스크립터들은 수신된 오디오 데이터 프로세싱 디스크립터들로부터 생성된다. 이러한 프로세스는 몇몇 실시예들에서 수신된 오디오 데이터 프로세싱 디스크립터들을 평가하며 그로부터 특정 프로세싱을 반영하는 새로운 오디오 데이터 프로세싱 디스크립터들을 생성하는 복잡한 프로세스일 수 있다.

그러나, 많은 실시예들에서, 수신기(1401)는 수송 스트림으로부터 제 2 기본 스트림으로 적절한 오디오 데이터 프로세싱 디스크립터들을 간단히 복사하도록 배열될 수 있다.

구체적으로, 프로세싱을 설명하거나 또는 구체적으로 현재 렌더링을 위해 어떤 오디오 데이터가 요구되는지에 대한 오디오 데이터 프로세싱 디스크립터들이 입력 수송 스트림으로부터 제 2 기본 스트림으로 복사될 수 있다.

예를 들면, 주어진 오디오 구성요소 또는 오디오 기본 스트림을 위한 오디오 데이터가 렌더링되도록 위해 요구된다면, 수신기(1401)는 이러한 오디오 구성요소 또는 오디오 기본 스트림을 위한 오디오 데이터 프로세싱 디스크립터를 제 2 기본 스트림으로 간단히 복사할 수 있다. 예로서, 독일어 다이얼로그 오디오 트랙이 렌더링되는 것이 요구된다면, 수신기(1401)는 독일어 다이얼로그 기본 스트림에 대한 오디오 데이터 프로세싱 디스크립터를(오디오 데이터와 함께) 제 2 기본 스트림으로 복사할 수 있다. 따라서, 제 2 기본 스트림은 오디오 디코더(1403)가 독일어 다이얼로그의 것으로 영어 다이얼로그의 교체 가능한 오디오 데이터를 교체하게 하는 오디오 데이터 프로세싱 디스크립터를 포함할 것이다.

오디오 데이터가 렌더링되는 것이 요구되지 않는다면, 예로서 사용자가 영어 다이얼로그를 선호한다면, 수신기(1401)는 독일어 다이얼로그 기본 스트림에 대한 오디오 데이터 프로세싱 디스크립터를 제 2 기본 스트림으로 복사하지 않을 수 있다. 이러한 실시예들에서, 오디오 디코더(1403)는 예를 들면, 어떤 오디오 데이터 프로세싱 디스크립터도 오디오 디코더(1403)에 입력된 기본 스트림에 포함되지 않는 오디오 데이터를 무시하거나 또는 폐기하도록 배열될 수 있다.

몇몇 실시예들에서, 소스는 주어진 오디오 기본 스트림에 대한 복수의 가능한 오디오 데이터 프로세싱 디스크립터들을 포함한 수송 스트림을 생성하도록 배열될 수 있다. 복수의 가능한 오디오 데이터 프로세싱 디스크립터들은 예를 들면 기본 스트림의 오디오 데이터가 사용될 수 있는 상이한 가능한 방식들을 설명할 수 있다. 예를 들면, 오디오 구성요소가 또 다른 오디오 구성요소뿐만 아니라, 및 그 대신에 렌더링될 수 있다면, 수송 스트림은 데이터가 대체 오디오 데이터임을 표시하는 오디오 데이터 프로세싱 디스크립터 및 데이터가 부가적인 오디오 데이터임을 표시하는 하나의 오디오 데이터 프로세싱 디스크립터를 포함할 수 있다. 따라서, 가능한 오디오 데이터 프로세싱 디스크립터들의 각각은 대응하는 오디오 데이터의 허용 가능한 프로세싱을 설명할 수 있다.

이러한 실시예들에서, 수신기(1401)는 예로서 오디오 데이터에 대한 복수의 가능한 오디오 데이터 프로세싱 디스크립터들을 추출할 수 있다. 요구된 렌더링에 기초하여(예로서, 사용자의 언어 선택들에 기초하여), 수신기(1401)는 요구된 렌더링에 대응하는 오디오 데이터 프로세싱 디스크립터들 중 하나를 선택하도록 진행할 수 있다. 이러한 오디오 데이터 프로세싱 디스크립터는 그 후 제 2 기본 스트림에 복사될 수 있는 반면 다른 오디오 데이터 프로세싱 디스크립터들은 무시될 수 있다.

설명된 예에서, 오디오 데이터 프로세싱 디스크립터는 오디오 디코더(1403)를 위한 데이터 스트림에 주입될 입력 수송 스트림에서 발견되며, 이를 위한 명령으로서 사용된, 토큰의 사용에 대응하는 것으로 고려될 수 있다. 오디오 데이터 프로세싱 디스크립터는 오디오 디코더(1403)에 의한 오디오 데이터의 요구된 프로세싱의 표시를 포함할 수 있다.

이러한 접근법은 오디오 디코더(1403)로의 인터페이스를 구현하기 위한 보다 일반적이며 개방된 방식을 야기할 수 있다. 그것은 또한 저 복잡도 프로세싱을 허용할 수 있다. 특정 상당한 이점으로서, 수신기(1401)는 간단히 어떤 렌더링이 요구되는지를 선택하며 그 후 입력 수송 스트림으로부터 제 2 기본 스트림으로 대응하는 오디오 데이터 프로세싱 디스크립터를 복사할 필요가 있다. 오디오 디코더(1403)에 의한 실제 프로세싱이 어떻게 수행되는지를 고려하거나 또는 실제로 그에 대한 임의의 지식을 가질 필요가 없다. 오히려, 오디오 디코더(1403)는 오디오 데이터 프로세싱 디스크립터에 의해 한정된 프로세싱을 해석하며 실행한다.

이것은 오디오 디코더(1403)로의 독점 인터페이스를 생성하는 대안이 선택 뿐만 아니라 "교체"의, 즉, 이러한 스트림에서의 오브젝트들이 메인 스트림에서의 오브젝트들을 교체해야 한다는 개념을 또한 이해하도록 수신기(1401)에 요구하기 때문에, 매우 유리하다. 단지 오디오 데이터 프로세싱 디스크립터들의 사본들만을 포워딩하는 수신기(1401)는 단지 선택이 이루어짐을 이해해야 한다. 이것은 수신기(1401)가 해야 하는 모두가 관련 있는 오디오 데이터 프로세싱 디스크립터들을 복사하는 것이기 때문에, 오디오 데이터 프로세싱 디스크립터들에 의해 설명된 동작이 임의로 복잡할 수 있으며 시간적으로 끊임없이 변화하며 개선할 수 있음을 의미한다. 수신기(1401)는 총 스트림에서 주어진 스트림의 포함과 결합된 복잡한 동작을 실현하기 위해 그것이 어떤 독점 명령들을 필요로 할 것인지를 이해할 필요는 없다.

오디오 데이터 프로세싱 디스크립터들을 사용한 동작의 특정 예들은 도 15 및 도 16에서 (수정된) MPEG 수송 스트림을 위해 제공된다. 예들에서, 오디오 데이터 프로세싱 디스크립터들은 "3D AD" 및 "3D 오디오 디스크립터"로서 언급된다. 예들에서, 제 2 시청각 데이터 스트림/기본 스트림은 MPEG-H 오디오 스트림(MHAS)으로서 생성된다.

이전 설명은 시청각 콘텐트 아이템 데이터 스트림들에서 오디오의 효율적인 분배 및 구체적으로 이러한 데이터 스트림들에서 오디오 콘텐트의 분배에 관련된 접근법들의 다수의 예들을 제공한다.

시청각 콘텐트의 분배를 위한 접근법에 대해 결정할 때, 설계자는 많은 상이한 및 종종 상충되는 기술적 도전들에 직면한다. 구체적으로, 데이터 레이트는 가능한 높은 품질을 유지하면서 가능한 낮은 것이 요구된다. 또 다른 트레이드-오프는 수신기에 의해 프로세싱하며 렌더링하기에 매우 간단한 데이터 표현을 제공하지만 데이터의 렌더링을 맞춤화하기 위해 수신기에 높은 정도의 유연성을 제공하기 위한 바람 사이에 있다. 이러한 유연성을 지원하기 위해, 점점 더 복잡한 데이터 스트림 구조 및 조직이 요구될 수 있지만 이것은 또한 수신기 측에서 보다 복잡한 프로세싱을 요구하려는 경향이 있다.

따라서, 시청각 데이터 스트림들에서 데이터를 분할하고, 구조화하며 조직하는 방법에 대한 질문은 다수의 기술적 트레이드-오프들을 요구하는 중대하며 어려운 기술적 문제이다.

이전 설명된 접근법들은 이러한 문제를 처리하며 다양한 애플리케이션들에 대한 상이한 특성들, 요건들 및 선호들 사이에서의 개선된 트레이드-오프를 제공하고자 한다.

접근법들은 종래의 MPEG 데이터 스트림들보다 더 유연한 접근법을 이용하며 여기에서 오디오 표현을 위한 모든 오디오는 통상적으로 단일 기본 스트림에서 제공된다. 실제로, 종래의 MPEG 데이터 스트림은 각각의 기본 데이터 스트림이 비디오 또는 오디오 구성요소를 포함하는 복수의 기본 스트림들을 포함하는 수송 스트림으로서 조직된다. MPEG 수송 스트림들에서의 데이터는 따라서 기본 스트림들에서 구조화되며 두 개의 가능한 오디오 기본 스트림들이 한정된다. 이것은 콘텐트 아이템에 대한 전체 오디오 표현을 제공하는 기본 데이터 스트림이며, 즉 전체 사운드 스테이지에 대응하는 오디오 구성요소가 단일 기본 스트림에서 제공된다. 다른 옵션은 완전한(전체 표현) 오디오 구성요소와 조합되고/그것에 부가될 수 있는 부가적인 사운드 구성요소에 대한 오디오 데이터를 포함하기 위한 오디오 기본 스트림에 대한 것이다.

MPEG의 접근법은 그것이 낮은 복잡도를 가지며 콘텐트가 저 복잡도 프로세싱에 기초하여 렌더링될 수 있다는 상당한 이점을 가진다. 실제로, 주어진 콘텐트 아이템에 대한 요구된 오디오 데이터를 식별하며 추출하는 것은 통상적으로 단지 하나의 기본 데이터 스트림이 수송 스트림에서 식별되며 그로부터 추출되도록 요구하며, 통상적으로 단지 하나의 오디오 구성요소가 디코딩되도록 요구한다.

MPEG은 오디오가 부가적인 오디오 구성요소들에 의해 보완되도록 허용함으로써 몇몇 유연성을 제공한다. 이들 부가적인 오디오 구성요소들은 무시될 수 있거나 또는 완전한 오디오 구성요소와 조합되고/그것에 부가될 수 있는 부가적인 오디오 구성요소들이다. 그러나, 어떤 다른 옵션들도 가능하지 않으며, 즉 오디오 구성요소들은 완전한 표현을 위해 오디오 데이터를 교체할 수 없는 부가적인 구성요소들이다.

따라서, 종래의 MPEG 수송 스트림을 위해, 오디오 데이터는 단일 기본 데이터 스트림에서 개별적으로 및 별개로 제공되는 완전한 오디오 데이터로서 지정되거나, 또는 별개의 기본 스트림에서 또한 단독으로 제공되는 부가적인 오디오 데이터로서 지정된다. 따라서, 각각의 기본 스트림은 직접 렌더링되거나 또는 완전한 오디오 구성요소에 부가될 수 있는 하나의 유형의 오디오 데이터를 제공한다.

MPEG 접근법은 수신기에 의한 저 복잡도 프로세싱을 허용하는 컴팩트한 데이터 표현 및 낮은 데이터 오버헤드를 데이터 스트림에 제공한다. 실제로, 수신기는 단지 요구되는 오디오 데이터만을 발견하며 추출하기 위해 데이터 패킷들의 PID(패킷 식별자)를 고려할 필요가 있으며, 즉 오디오 데이터의 유형 및 기본 스트림의 식별 사이에 직접 대응이 있다. 그러나, 접근법의 불리한 면은 오디오 렌더링의 유연성이 낮으며, 근본적으로 그 외 완전한 오디오 표현에 부가적인 오디오를 선택적으로 부가하는 가능성에 제한된다는 것이다.

최근에, 오디오 오브젝트들을 도입하는 것이 제안되어 왔다. 전체 사운드 스테이지/장면에 대응하는 오디오 구성요소를 제공하는 대신에, 접근법은 각각이 오디오 장면에서의 하나의 사운드 소스에 대응하는 다수의 개개의 오디오 오브젝트들을 대신 제공하는 것에 기초한다. 최종 렌더러는 그에 따라 각각의 오디오 오브젝트를 개별적으로 디코딩하고, 사운드 장면에 오브젝트를 배치하고, 적절한 공간 오디오 신호들을 생성하고, 오디오 오브젝트들을 조합하며, 최종적으로 조합된 신호들을 렌더링함으로써 주어진 사운드 장면을 생성할 수 있다.

이러한 접근법은 렌더링된 오디오에 대한 높은 정도의 유연성을 제공하며 높은 자유도를 수신기에 제공한다. 그러나, 그것은 수신기에서 매우 복잡한 프로세싱을 요구한다. 실제로, 오디오 데이터를 렌더링하기 위해 요구된 프로세싱은 복잡하며, 또한 요구되고 원하는 오디오 데이터를 식별하며 추출하기 위해 요구된 복잡도 및 프로세싱, 뿐만 아니라 오디오 데이터가 어떻게 렌더링시 사용될 수 있는 지를 결정하는 것은 매우 복잡하다. 접근법은 또한 데이터 스트림에서 데이터의 분포를 식별하기 위해 요구된 필요한 정보를 제공하기 위해 큰 데이터 오버헤드를 야기한다.

이전 설명된 접근법들은 상이하며, 많은 시나리오들을 위해, 종래의 MPEG 수송 스트림 또는 오디오 오브젝트 수송 스트림에 의해 제공될 것들보다 콘텐트 아이템들을 분배할 때 복잡도, 데이터 오버헤드, 및 유연성 사이에서 개선된 트레이드-오프를 제공하는 것에 관한 것이다.

접근법들은 종래의 수송 스트림에서와 상이한 유형들의 오디오 데이터를 포함한 신규 데이터 스트림에 및 데이터 스트림에서 이러한 데이터의 상이한 조직화를 갖는 것에 기초한다.

종래의 MPEG 접근법들과 유사하게, 접근법들은 시청각 콘텐트 아이템에 대한 시청각 구성요소들(기본 스트림들로 불리우는)을 포함한 복수의 개개의 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림(수송 스트림)에 기초한다.

그러나, 접근법들은 각각이 콘텐트에 대한 오디오 표현에 충분한 오디오 데이터를 제공할 수 있지만 상이한 유형들의 오디오 데이터를 포함하는 기본 데이터 스트림들에 기초한다. 따라서, 수송 스트림은 상이한 유형들의 오디오 데이터를 포함하는 기본 스트림을 포함하도록 배열된다. 실제로, 이러한 기본 스트림의 오디오 데이터 중 일부는 오디오 표현을 위한 필수 오디오 데이터인 것으로 지정된다. 필수 오디오 데이터는 오디오 표현이 제공될 때 렌더링되어야 한다. 기본 데이터 스트림의 다른 데이터는 교체 가능한 오디오 데이터로서 지정된다. 이러한 교체 가능한 오디오 데이터는 오디오 표현을 위한 오디오 데이터지만 수신기가 다른 (대안적인) 데이터로 교체하도록 허용되는 오디오 데이터이다.

따라서, 접근법들에서, 단일 기본 스트림은 주어진 오디오 표현을 위한 상이한 유형들의 데이터를, 즉 오디오 표현이 제공될 때 렌더링되어야 하는 필수 오디오 데이터로서 지정되는 몇몇 데이터를, 및 다른 데이터로 교체 또는 대치될 수 있는 교체 가능한 오디오 데이터로서 지정되는 다른 데이터를 제공받는다.

따라서, 접근법들에서, 수송 스트림은 오디오 표현을 제공하며 여기에서 오디오 표현을 위한 상이한 유형들의 오디오 데이터는 단일 기본 데이터 스트림 내에서 제공된다. 더욱이, 데이터는 구체적으로 제공되고/렌더링되어야 하는(대응하는 오디오 표현이 제공되고/렌더링될 때) 데이터 또는 다른 데이터로 대치/교체될 수 있는 데이터로서 지정된다. 교체 가능한 오디오 데이터는 다른 데이터로 대치 가능한 것으로 지정되지만 교체되지 않고 삭제될 수 없는 데이터이다.

이러한 특정 접근법은 상당히 더 효율적이며 많은 시나리오들 및 애플리케이션들에서 데이터 레이트, 복잡도, 및 유연성 사이에서 보다 양호한 트레이드-오프를 제공하는 데이터 스트림 구조를 위해 제공한다. 그것은 더욱이 MPEG 수송 스트림들과 같은 종래 기술의 접근법들로의 증가된 역 호환성을 제공하면서 이들 이점들을 제공할 수 있다.

구체적으로, 접근법들은 많은 오버헤드를 요구하지 않는 비트 스트림을 제공할 수 있지만 그것은 유연한 접근법을 제공한다. 저 복잡도 수신기는 데이터가 어떻게 기본 스트림들로 구조화되는지에 기초하여 데이터를 식별하며 추출할 수 있다. 그러나, 그것은 오디오 표현에 대해 상이한 특성들을 갖는 것으로 지정되는 하나의 기본 스트림의 상이한 오디오 데이터에 의해 유연성을 추가로 증가시킬 수 있다.

접근법들은 예로서 저 복잡도 레거시 수신기가 전적으로 기본 스트림의 식별에 기초하여 신규 데이터 스트림의 오디오 표현을 여전히 렌더링할 수 있도록 허용할 수 있다. 예로서, 많은 실시예들에서, 레거시 MPEG 디코더는 간단히 제 1 기본 스트림을 추출하며 이를 표준 MPEG 기본 스트림으로서 처리할 수 있다. 이것은 생성되는 공칭 오디오 표현을 야기할 수 있다. 그러나, 이러한 역 호환성 외에, 비-레거시 수신기는 수신된 데이터 스트림을 프로세싱하며 대체 데이터로 교체 가능한 오디오 데이터를 대치할 수 있고 그에 의해 대체 오디오 표현을 생성한다. 이것은 여전히 낮은 복잡도로 달성될 수 있으며 예로서 오디오 오브젝트들과 연관된 복잡한 프로세싱 및 오버헤드를 요구하지 않는다.

접근법들은 시청각 콘텐트 아이템들에 대한 오디오 콘텐트를 어떻게 가장 잘 분배하는지에 대한 기술적 문제에 대한 유리한 해결책을 제공하며, 구체적으로 데이터 레이트, 복잡도 및 유연성 사이에서 개선된 트레이드-오프를 제공하며, 또한 개선된 역 호환성을 제공할 수 있는 (수송) 데이터 스트림 구조 및 데이터 콘텐트를 제공한다.

필수 오디오 데이터는 오디오 표현/오디오 장면의 렌더링 시 포함되어야 하는 데이터인 것으로 지정되는(및 많은 실시예들에서 표시되는) 데이터이다. 따라서, 오디오 표현을 위한 필수 오디오 데이터는 기본 데이터 스트림에 포함되며 기본 데이터 스트림의 오디오 표현/오디오 장면이 선택된다면 렌더링되어야 하는 데이터이다. 따라서, 필수 오디오 데이터는 기본 데이터 스트림과 연관된 오디오 표현/오디오 장면의 렌더링을 위해, 필수적이고, 요구되며, 의무적인 것 등으로 지정되는 데이터이다. 많은 실시예들에서, 필수 오디오 데이터 및 교체 가능한 오디오 데이터는 단지 하나의 오디오 표현/오디오 장면과 연관된 기본 데이터 스트림에 포함될 수 있다.

필수 오디오 데이터는 예로서 기본 스트림에서의 위치를 통해 및/또는 필수적인 것으로 데이터를 설명한 제어 데이터에 의해, 필수 오디오 데이터인 것으로 지정/표시될 수 있다. 따라서, 몇몇 실시예들에서, 수송 데이터 스트림, 및 가능하게는 구체적으로 기본 데이터 스트림은, 기본 데이터 스트림의 오디오 데이터가 필수 오디오 데이터임을 표시한 데이터를 포함할 수 있다.

교체 가능한 것은 오디오 표현/오디오 장면의 렌더링 시 포함될 수 있거나 또는 오디오 표현/오디오 장면의 렌더링에서 다른 오디오 데이터로 교체될 수 있는 데이터인 것으로 지정되는(및 많은 실시예들에서 표시되는) 데이터이다. 따라서, 오디오 표현을 위한 교체 가능한 오디오 데이터는 기본 데이터 스트림에 포함되며 그것이 다른 오디오 데이터로 교체되지 않는 한 기본 데이터 스트림의 오디오 표현/오디오 장면이 선택된다면 렌더링되어야 하는 데이터이다. 교체 가능한 오디오 데이터는 렌더링될 수 있거나 또는 기본 데이터 스트림과 연관된 오디오 표현/오디오 장면을 렌더링/제공할 때 대체 데이터로 치체/교체/스와핑/교환될 수 있는 데이터이다.

설명된 접근법들에서, 콘텐트의 분배는 따라서 복수의 서브-(기본) 데이터 스트림들을 포함하는 (수송) 스트림에 기초하며 여기에서 오디오 표현은 필수 오디오 데이터로서 지정된 데이터 및 교체 가능한 오디오 데이터로서 지정된 데이터 양쪽 모두를 포함한 단일의 기본 데이터 스트림에 의해 설명될 수 있으며, 즉 단일 기본 데이터 스트림은 오디오 표현을 제공할 때 수신기가 제공해야 하는 오디오 데이터, 뿐만 아니라 수신기가 다른 데이터로 대치할 수 있는 오디오 데이터 양쪽 모두를 포함한다.

따라서, 수신기는 그것이 다른 데이터로 대치할 수 있음을 알고 있는 데이터뿐만 아니라 그것이 렌더링되어야 함을 알고 있는 오디오 데이터를 수신한다. 더욱이, 그것은 단일 기본 스트림에서 이러한 데이터를 수신하며 그에 의해 간단히 하나의 기본 데이터 스트림으로부터 오디오 데이터를 추출하며 이를 렌더링함으로써(따라서 역 호환성을 제공하는) 오디오 표현의 프리젠테이션이 가능해지게 한다.

따라서, 수송 스트림은 어떻게 그것들이 수신기/렌더러에 의해 사용되어야 하는지에 대한 특정 제한들과 연관되는 데이터를 포함한다. 상이하게 사용되도록 지정되며, 그것들의 사용에 대한 상이한 제한들과 연관되며, 구체적으로 여전히 증가된 유연성과 동시에 저 복잡도 프로세싱 및 역 호환성을 허용하는, 상이한 유형들의 데이터의 이러한 특정 구조가 개선된 트레이드 오프들을 생성될 효율적인 수송 스트림에 제공할 수 있다.

실제로, 필수 또는 교체 가능한 오디오 데이터로서 하나의 기본 데이터 스트림 내에서 하나의 오디오 표현을 위한 오디오 데이터의 지정은 상당한 이득들을 제공한다. 시청각 콘텐트 아이템 데이터 스트림의 설명된 구조, 콘텐트 및 조직은 낮은 복잡도로 프로세싱될 수 있고, 역 호환 가능할 수 있지만, 증가된 유연성을 제공할 수 있는 수송 스트림을 제공한다.

접근법은 따라서 임의의 특정 믹싱 또는 오디오 정책의 도출, 결정, 또는 선택에 초점을 맞추지 않으며 대신에 이러한 정책들이 준수될 수 있도록 오디오 데이터의 효과적인 분배를 지원할 수 있는 기술적 해결책에 관련된다. 접근법은 유연한(완전히 자유롭지 않은) 정책들이 낮은 데이터 오버헤드를 유지하며 복잡도를 감소시키면서 분배되도록 허용하는 데이터 스트림들의 사용을 허용한다. 접근법들은 믹싱 정책을 선택하는 방법이 아닌 오디오 데이터의 분배를 기술적으로 지원하는 방법에 초점을 맞춘다. 접근법은 렌더링 정책의 몇몇 양상들이 소스(예로서, 필수 오디오 데이터)에 의해 결정되도록 허용하는 반면 다른 양상들은 수신/렌더링 단에서 적응될 수 있다(예로서, 수신기는 상이한 대체 오디오 구성요소들 사이에서 선택할 수 있다).

그것은 데이터를 한정하는 수신기에서 실제 프로세싱이 아니라는 것이 또한 주의된다. 오히려, 그것은 데이터 스트림에서 오디오 표현을 위한 필수 또는 교체 가능한 오디오 데이터로서 지정된 데이터이다. 데이터는 따라서 의도된 사용에 의해 한정되며, 즉 필수 오디오 데이터는 오디오 표현이 선택된다면 제공되어야 하는 데이터인 반면 교체 가능한 오디오 데이터는 다른 대체 데이터로 대치될 수 있다(그러나 단순히 삭제되지 않을 수 있다).

명료함을 위한 상기 설명은 상이한 기능 회로들, 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 설명하였음이 이해될 것이다. 그러나, 상이한 기능 회로들, 유닛들 또는 프로세서들 사이에서의 기능의 임의의 적절한 분포는 본 발명으로부터 벗어나지 않고 사용될 수 있다는 것이 이해될 것이다. 예를 들면, 별개의 프로세서들 또는 제어기들에 의해 수행되는 것으로 예시된 기능은 동일한 프로세서 또는 제어기들에 의해 수행될 수 있다. 그러므로, 특정 기능 유닛들 또는 회로들에 대한 참조들은 단지 엄격한 논리적 또는 물리적 구조 또는 조직을 표시하기보다는 설명된 기능을 제공하기 위한 적절한 수단들에 대한 참조들로서 보여질 것이다.

본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이것들의 임의의 조합을 포함한 임의의 적절한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서들 및/또는 디지털 신호 프로세서들 상에서 구동하는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 구성요소들은 임의의 적절한 방식으로 물리적으로, 기능적으로 및 논리적으로 구현될 수 있다. 실제로, 기능은 단일 유닛으로, 복수의 유닛들로 또는 다른 기능 유닛들의 부분으로서 구현될 수 있다. 이와 같이, 본 발명은 단일 유닛으로 구현될 수 있거나 또는 상이한 유닛들, 회로들 및 프로세서들 사이에서 물리적으로 및 기능적으로 분배될 수 있다.

본 발명은 몇몇 실시예들과 관련되어 설명되었지만, 그것은 여기에 제시된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 단지 수반되는 청구항들에 의해서만 제한된다. 부가적으로, 특징은 특정 실시예들과 관련되어 설명되는 것처럼 보일 수 있지만, 이 기술분야의 숙련자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있다는 것을 인지할 것이다. 청구항들에서, 용어(포함하는)는 다른 요소들 또는 단계들의 존재를 배제하지 않는다.

더욱이, 개별적으로 열거되지만, 복수의 수단들, 요소들, 회로들 또는 방법 단계들은 예로서 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 부가적으로, 개개의 특징들이 상이한 청구항들에 포함될 수 있지만, 이것들은 가능하게는 유리하게 조합될 수 있으며, 상이한 청구항들에서의 포함은 특징들의 조합이 실현 가능하고 및/또는 유리하지 않음을 의미하지 않는다. 또한 청구항들의 하나의 카테고리에서의 특징의 포함은 이러한 카테고리에 대한 제한을 의미하지 않으며 오히려 특징이 적절한 경우 다른 청구항 카테고리들에 동일하게 적용 가능함을 표시한다. 더욱이, 청구항들에서 특징들의 순서는 특징들이 작동되어야 하는 임의의 특정 순서를 의미하지 않으며 특히 방법 청구항에서의 개개의 단계들의 순서는 단계들이 이러한 순서로 수행되어야 함을 의미하지 않는다. 오히려, 단계들은 임의의 적절한 순서로 수행될 수 있다. 또한, 단수형 참조들은 복수를 배제하지 않는다. 따라서 "하나(a, an)", "제 1", "제 2" 등에 대한 참조들은 복수를 배제하지 않는다. 청구항들에서의 참조 부호들은 단지 분류 예가 임의의 방식으로 청구항들의 범위를 제한하는 것으로서 해석되지 않아야 하기 때문에 제공된다.

301: 오디오 소스 303, 305, 307: 패킷화기
309: 스트림 생성기 311: 제어 데이터 생성기
401: 수송 스트림 수신기 403, 405, 407: 데이터 추출기
409, 411, 413: 디코딩 유닛 415: 조합기
1401: 수신기 1403: 오디오 디코더

Claims

시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법에 있어서,
복수의 개개의 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림을 수신하는 단계로서, 상기 복수의 개개의 시청각 데이터 스트림들은 시청각 콘텐트 아이템을 위한 시청각 성분들을 포함하고; 각각의 시청각 데이터 스트림은 적어도 하나의 시청각 성분을 표현한 인코딩된 데이터 및 동기화 데이터를 포함하고; 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함하는 제 1 개개의 시청각 데이터 스트림을 포함하고, 상기 제 1 오디오 데이터는 상기 오디오 표현을 위한 필수 오디오 데이터 및 상기 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 필수 오디오 데이터는 상기 오디오 표현이 렌더링될 때 렌더링되어야 하는 오디오 성분에 대응하고 상기 교체 가능한 오디오 데이터는 상기 오디오 표현이 렌더링될 때 대안의 오디오 성분에 의해 대체될 수 있는 교체 가능한 오디오 성분에 대응하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템을 위한 콘텐트 아이템 맵 테이블을 더 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 시청각 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들을 위한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 2개의 세트에 대한 상기 시청각 콘텐트 아이템을 위한 공통 데이터 스트림 패킷 식별자를 포함하는, 상기 시청각 콘텐트 아이템 데이터 스트림을 수신하는 단계를 포함하고,
상기 방법은:
상기 공통 데이터 스트림 패킷 식별자에 응답하여 상기 제 1 오디오 데이터로부터 상기 필수 오디오 데이터를 추출하는 단계;
대체 오디오 데이터를 검색하는 단계;
상기 교체 가능한 오디오 데이터를 상기 대체 오디오 데이터로 대체하는 단계;
상기 필수 오디오 데이터 및 상기 대체 오디오 데이터로부터 상기 오디오 신호를 생성하는 단계를 더 포함하고,
상기 방법은:
상기 복수의 개개의 시청각 데이터 스트림들의 오디오 데이터로부터 상기 오디오 신호를 생성하는 단계;
상기 시청각 콘텐트 아이템 데이터 스트림에서 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 상기 시청각 데이터 스트림들 중 적어도 하나의 제 2 오디오 데이터에 대한 오디오 데이터 프로세싱 디스크립터를 생성하는 단계, 제 2 시청각 데이터 스트림에 상기 오디오 데이터 프로세싱 디스크립터를 삽입하는 단계, 및 오디오 디코더에 상기 제 2 시청각 데이터 스트림을 공급하는 단계; 및
상기 제 2 시청각 데이터 스트림으로부터 상기 오디오 데이터 프로세싱 디스크립터를 추출하는 단계; 및 상기 오디오 데이터 프로세싱 디스크립터에 응답하여 상기 오디오 신호를 생성하는 단계를 더 포함하는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법.
제 1 항에 있어서,
복수의 시청각 데이터 스트림들을 포함하는 제 2 시청각 콘텐트 아이템 데이터 스트림을 수신하는 단계를 더 포함하고, 상기 복수의 시청각 데이터 스트림들은 시청각 성분들을 포함하고, 상기 검색하는 단계는 상기 제 2 시청각 콘텐트 아이템 데이터 스트림의 시청각 데이터 스트림으로부터 상기 대체 오디오 데이터를 검색하는 단계를 포함하는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법.
제 1 항에 있어서,
상기 오디오 신호를 생성하는 단계는:
제 1 디코딩된 오디오 신호를 생성하기 위해 제 1 오디오 디코더에서 상기 필수 오디오 데이터를 디코딩하는 단계;
제 2 디코딩된 오디오 신호를 생성하기 위해 제 2 오디오 디코더에서 상기 대체 오디오 데이터를 디코딩하는 단계; 및
적어도 상기 제 1 디코딩된 오디오 신호 및 상기 제 2 디코딩된 오디오 신호를 조합하는 것에 응답하여 상기 오디오 신호를 생성하는 단계를 포함하는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법.
제 1 항에 있어서,
상기 상기 콘텐트 아이템 맵 테이블은 상기 공통 데이터 스트림 패킷 식별자에 대한 복수의 2차 패킷 식별자들을 포함하고, 각각의 2차 패킷 식별자는 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 2개의 세트의 개개의 시청각 데이터 스트림을 식별하고, 상기 콘텐트 아이템에 대한 오디오 데이터를 추출하는 단계는 상기 2차 패킷 식별자들에 응답하여 상이한 오디오 성분들에 대한 오디오 데이터를 추출하는 단계를 포함하는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하는 방법.
시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치에 있어서,
복수의 개개의 시청각 데이터 스트림들을 포함하는 시청각 콘텐트 아이템 데이터 스트림을 수신하기 위한 수신기(1401)로서, 상기 복수의 개개의 시청각 데이터 스트림들은 시청각 콘텐트 아이템에 대한 시청각 성분들을 포함하고; 각각의 시청각 데이터 스트림은 적어도 하나의 시청각 성분을 표현한 인코딩된 데이터 및 동기화 데이터를 포함하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 오디오 표현을 위한 제 1 오디오 데이터를 포함하는 제 1 시청각 데이터 스트림을 포함하고, 상기 제 1 오디오 데이터는 상기 오디오 표현을 위한 필수 오디오 데이터 및 상기 오디오 표현을 위한 교체 가능한 오디오 데이터를 포함하고, 상기 필수 오디오 데이터는 상기 오디오 표현이 렌더링될 때 렌더링되어야 하는 오디오 성분에 대응하고 상기 교체 가능한 오디오 데이터는 상기 오디오 표현이 렌더링될 때 대체 오디오 성분에 의해 대체될 수 있는 교체 가능한 오디오 성분에 대응하고, 상기 시청각 콘텐트 아이템 데이터 스트림은 상기 시청각 콘텐트 아이템에 대한 콘텐트 아이템 맵 테이블을 더 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 시청각 콘텐트 아이템에 연계된 시청각 데이터 스트림들을 위한 데이터 패킷들에 대한 시청각 데이터 스트림 패킷 식별자들의 리스트를 포함하고, 상기 콘텐트 아이템 맵 테이블은 상기 복수의 개개의 시청각 데이터 스트림들 중 적어도 두 개의 세트를 위한 상기 시청각 콘텐트 아이템에 대한 공통 데이터 스트림 패킷 식별자를 포함하는, 상기 수신기(1401)를 포함하고;
상기 장치는:
상기 공통 데이터 스트림 패킷 식별자에 응답하여 상기 제 1 오디오 데이터로부터 상기 필수 오디오 데이터를 추출하기 위한 추출기(403);
대체 오디오 데이터를 검색하기 위한 검색기(407);
상기 대체 오디오 데이터로 상기 교체 가능한 오디오 데이터를 대체하기 위한 교체기(415);
상기 필수 오디오 데이터 및 상기 대체 오디오 데이터로부터 상기 오디오 신호를 생성하기 위한 출력부(415);
상기 복수의 개개의 시청각 데이터 스트림들의 오디오 데이터로부터 상기 오디오 신호를 생성하기 위한 오디오 디코더로서, 상기 추출기(403), 상기 검색기(407), 상기 교체기(415) 및 상기 출력부를 포함하는, 상기 오디오 디코더를 더 포함하고;
상기 수신기(1401)는 상기 시청각 콘텐트 아이템 데이터 스트림에 수신된 제 2 오디오 데이터 프로세싱 디스크립터로부터 상기 시청각 데이터 스트림들 중 적어도 하나의 제 2 오디오 데이터에 대한 오디오 데이터 프로세싱 디스크립터를 생성하고, 제 2 시청각 데이터 스트림에 상기 오디오 데이터 프로세싱 디스크립터를 삽입하고, 상기 제 2 시청각 데이터 스트림을 상기 오디오 디코더에 공급하도록 구성되며;
상기 오디오 디코더(1403)는 상기 제 2 시청각 데이터 스트림으로부터 상기 오디오 데이터 프로세싱 디스크립터를 추출하기 위한 오디오 데이터 프로세싱 디스크립터 추출기를 더 포함하고; 상기 오디오 디코더(1403)는 상기 오디오 데이터 프로세싱 디스크립터에 응답하여 상기 오디오 신호를 생성하도록 구성되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.
제 5 항에 있어서,
상기 오디오 데이터 프로세싱 디스크립터는 상기 제 2 오디오 데이터가 상기 교체 가능한 데이터를 교체하는지를 표시하는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.
제 5 항에 있어서,
상기 오디오 데이터 프로세싱 디스크립터는 상기 제 2 오디오 데이터가 대체 오디오 데이터 또는 부가적인 오디오 데이터로 지정되는지를 표시하며,
상기 오디오 디코더(1403)는 상기 제 1 오디오 데이터 프로세싱 디스크립터가 상기 제 2 오디오 데이터가 대체 오디오 데이터로서 지정됨을 표시한다면 대체 오디오 데이터로서 상기 제 2 오디오 데이터를 검색하고, 상기 제 1 오디오 데이터 프로세싱 디스크립터가 상기 제 2 오디오 데이터가 부가적인 오디오 데이터로서 지정됨을 표시한다면 부가적인 오디오 데이터로서 상기 제 2 오디오 데이터를 검색하고,
상기 제 2 오디오 데이터가 교체 가능한 오디오 데이터로서 지정된다면 상기 제 2 오디오 데이터로 상기 교체 가능한 오디오 데이터를 교체하도록 구성되며,
상기 출력부는, 상기 제 2 오디오 데이터가 부가적인 오디오 데이터로서 지정된 것을 상기 제 1 오디오 데이터 프로세싱 디스크립터가 표시하면 상기 필수 오디오 데이터, 상기 제 2 오디오 데이터, 및 상기 교체 가능한 오디오 데이터를 조합함으로써 상기 오디오 신호를 생성하도록 구성되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.
제 5 항에 있어서,
상기 수신기(1401)는 상기 제 2 오디오 데이터 프로세싱 디스크립터를 상기 제 2 시청각 데이터 스트림으로 복사하도록 구성되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.
제 5 항에 있어서,
상기 제 2 오디오 데이터 프로세싱 디스크립터는 상기 콘텐트 아이템 맵 테이블에 포함되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.
제 5 항에 있어서,
상기 시청각 콘텐트 아이템 데이터 스트림은 상기 제 2 오디오 데이터에 대한 복수의 가능한 오디오 데이터 프로세싱 디스크립터들을 포함하며; 상기 수신기는 상기 복수의 가능한 오디오 데이터 프로세싱 디스크립터들로부터 상기 제 1 오디오 데이터 프로세싱 디스크립터를 선택하도록 구성되는, 시청각 콘텐트 아이템에 대한 오디오 신호를 생성하기 위한 장치.