KR20170070004A

KR20170070004A - 송신 장치, 송신 방법, 수신 장치 및 수신 방법

Info

Publication number: KR20170070004A
Application number: KR1020177006867A
Authority: KR
Inventors: 이쿠오 츠카고시
Original assignee: 소니 주식회사
Priority date: 2014-10-16
Filing date: 2015-10-13
Publication date: 2017-06-21
Also published as: JP6729382B2; US10142757B2; EP3208801A1; RU2017111691A; WO2016060101A1; MX368685B; JPWO2016060101A1; MX2017004602A; RU2700405C2; US20170289720A1; CN106796797A; CN106796797B; RU2017111691A3; EP3208801A4; CA2963771A1

Abstract

전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 신규 서비스를 제공 가능하게 한다. 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하고, 이들 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신한다. 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 소정수의 오디오 스트림을 생성한다.

Description

송신 장치, 송신 방법, 수신 장치 및 수신 방법{TRANSMITTING DEVICE, TRANSMISSION METHOD, RECEIVING DEVICE, AND RECEIVING METHOD}

본 기술은, 송신 장치, 송신 방법, 수신 장치 및 수신 방법에 관한 것으로, 특히 복수 종류의 오디오 데이터를 송신하는 송신 장치 등에 관한 것이다.

종래, 입체(3D) 음향 기술로서, 부호화 샘플 데이터를 메타데이터에 기초하여 임의의 위치에 존재하는 스피커에 매핑시켜서 렌더링하는 기술이 제안되어 있다(예를 들어, 특허문헌 1 참조)

일본 특허 공표 제2014-520491호 공보

예를 들어, 5.1채널, 7.1채널 등의 채널 데이터와 함께, 부호화 샘플 데이터 및 메타데이터로 이루어지는 오브젝트 데이터를 송신하고, 수신측에 있어서 임장감을 높인 음향 재생을 가능하게 하는 것이 생각된다. 종래, 채널 데이터 및 오브젝트 데이터를 3D 오디오(MPEG-H 3D Audio)의 부호화 방식으로 부호화해서 얻어진 부호화 데이터를 포함하는 오디오 스트림을 수신측에 송신하는 것이 제안되어 있다.

3D 오디오의 부호화 방식과 MPEG4 AAC 등의 부호화 방식 사이에 스트림의 구조적인 호환성은 없다. 그로 인해, 종래의 오디오 수신기와의 호환성을 가지게 해서 3D 오디오를 서비스할 경우, 사이멀캐스트를 하는 방법이 생각된다. 그러나, 동일한 콘텐츠를 상이한 부호화 방법으로 전송하는 것은 전송 대역의 유효 이용이 되지 않는다.

본 기술의 목적은, 전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 신규 서비스를 제공 가능하게 하는 데 있다.

본 기술의 개념은,

제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하는 인코드부와,

상기 생성된 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하고,

상기 인코드부는, 상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림을 생성하는 송신 장치에 있다.

본 기술에 있어서, 인코드부에 의해, 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림이 생성된다. 여기서, 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 소정수의 오디오 스트림이 생성된다.

예를 들어, 제1 부호화 데이터의 부호화 방식과 제2 부호화 데이터의 부호화 방식은 상이하게 되어도 된다. 이 경우, 예를 들어 제1 부호화 데이터는 채널 부호화 데이터이며, 제2 부호화 데이터는 오브젝트 부호화 데이터이도록 되어도 된다. 그리고, 이 경우, 예를 들어 제1 부호화 데이터의 부호화 방식은 MPEG4 AAC이며, 제2 부호화 데이터의 부호화 방식은 MPEG-H 3D Audio이도록 되어도 된다.

송신부에 의해, 생성된 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너가 송신된다. 예를 들어, 컨테이너는, 디지털 방송 규격으로 채용되고 있는 트랜스포트 스트림(MPEG-2TS) 이어도 된다. 또한, 예를 들어 컨테이너는, 인터넷의 배신 등에서 사용되는 MP4, 또는 그 이외의 포맷의 컨테이너이어도 된다.

이렇게 본 기술에 있어서는, 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림이 송신되고, 이 소정수의 오디오 스트림은 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 생성된다. 그로 인해, 전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 신규 서비스를 제공하는 것이 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어 인코드부는, 제1 부호화 데이터를 갖는 오디오 스트림을 생성함과 함께, 이 오디오 스트림의 유저 데이터 영역에 제2 부호화 데이터를 삽입하게 되어도 된다. 이 경우, 종래의 오디오 수신기에서는, 유저 데이터 영역에 삽입된 제2 부호화 데이터는 읽고나서 버려진다.

이 경우, 예를 들어 컨테이너의 레이어에, 이 컨테이너에 포함되는 제1 부호화 데이터를 갖는 오디오 스트림의 유저 데이터 영역에, 이 제1 부호화 데이터에 관련된 제2 부호화 데이터의 삽입이 있음을 식별하는 식별 정보를 삽입하는 정보 삽입부를 더 구비하게 되어도 된다. 이에 의해, 수신측에서는, 오디오 스트림의 디코드 처리를 행하기 전에, 이 오디오 스트림의 유저 데이터 영역에 제2 부호화 데이터의 삽입이 있음을 용이하게 파악 가능하게 된다.

또한, 이 경우, 예를 들어 제1 부호화 데이터는 채널 부호화 데이터이며, 제2 부호화 데이터는 오브젝트 부호화 데이터이며, 오디오 스트림의 유저 데이터 영역에는, 소정수의 그룹의 오브젝트 부호화 데이터가 삽입되고, 컨테이너의 레이어에, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하게 되어도 된다. 이에 의해, 수신측에서는, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 당해 오브젝트 부호화 데이터의 디코드 전에 용이하게 인식할 수 있고, 필요한 그룹의 오브젝트 부호화 데이터만을 선택적으로 디코드해서 사용할 수 있어, 처리 부하를 경감시키는 것이 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어 인코드부는, 제1 부호화 데이터를 포함하는 제1 오디오 스트림을 생성함과 함께, 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림을 생성하게 되어도 된다. 이 경우, 종래의 오디오 수신기에서는, 소정수의 제2 오디오 스트림은 디코드 대상에서 제외된다. 또는, 5.1 채널의 제1 부호화 데이터를 AAC 방식으로 부호화하고, 그 5.1 채널의 데이터로부터 얻어지는 2채널의 데이터와 오브젝트 데이터의 부호화를 제2 부호화 데이터로 해서 MPEG-H 방식으로 부호화하는 것도 본 방식에서 가능하다. 이 경우, 제2 부호화 방식에 대응하지 않는 수신기는, 제1 부호화 데이터만을 디코드한다.

이 경우, 예를 들어 소정수의 제2 오디오 스트림에는, 소정수의 그룹의 오브젝트 부호화 데이터가 포함되고, 컨테이너의 레이어에, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하게 되어도 된다. 이에 의해, 수신측에서는, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 당해 오브젝트 부호화 데이터의 디코드 전에 용이하게 인식할 수 있고, 필요한 그룹의 오브젝트 부호화 데이터만을 선택적으로 디코드해서 사용할 수 있어, 처리 부하를 경감시키는 것이 가능하게 된다.

그리고, 이 경우, 예를 들어 정보 삽입부는, 컨테이너의 레이어에, 소정수의 그룹의 오브젝트 부호화 데이터, 또는 소정수의 그룹의 채널 부호화 데이터 및 오브젝트 부호화 데이터가 각각 어느 제2 오디오 스트림에 포함되는지를 나타내는 스트림 대응 관계 정보를 더 삽입하게 되어도 된다. 예를 들어, 스트림 대응 관계 정보는, 복수의 그룹의 부호화 데이터의 각각을 식별하는 그룹 식별자와 소정수의 오디오 스트림의 각각의 스트림을 식별하는 스트림 식별자와의 대응 관계를 나타내는 정보이도록 되어도 된다. 이 경우, 예를 들어 정보 삽입부는, 컨테이너의 레이어에, 소정수의 오디오 스트림의 각각의 스트림 식별자를 나타내는 스트림 식별자 정보를 더 삽입하게 되어도 된다. 이에 의해, 수신측에서는, 필요한 그룹의 오브젝트 부호화 데이터, 또는 소정수의 그룹의 채널 부호화 데이터 및 오브젝트 부호화 데이터가 포함되는 제2 오디오 스트림을 용이하게 인식할 수 있어, 처리 부하를 경감시키는 것이 가능하게 된다.

또한, 본 기술의 다른 개념은,

제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,

상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림이 생성되어 있고,

상기 컨테이너에 포함되는 상기 소정수의 오디오 스트림으로부터 상기 제1 부호화 데이터 및 상기 제2 부호화 데이터를 추출해서 처리하는 처리부를 더 구비하는 수신 장치에 있다.

본 기술에 있어서, 수신부에 의해, 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너가 수신된다. 여기서, 소정수의 오디오 스트림은, 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 생성되어 있다. 그리고, 처리부에 의해, 소정수의 오디오 스트림으로부터 제1 부호화 데이터 및 제2 부호화 데이터가 추출되어 처리된다.

예를 들어, 제1 부호화 데이터의 부호화 방식과 제2 부호화 데이터의 부호화 방식은 상이하게 되어도 된다. 또한, 예를 들어 제1 부호화 데이터는 채널 부호화 데이터이며, 제2 부호화 데이터는 오브젝트 부호화 데이터이도록 되어도 된다.

예를 들어, 컨테이너에는, 제1 부호화 데이터를 가짐과 함께, 유저 데이터 영역에 제2 부호화 데이터가 삽입된 오디오 스트림이 포함되어 있게 되어도 된다. 또한, 예를 들어 컨테이너에는, 제1 부호화 데이터를 포함하는 제1 오디오 스트림과 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림이 포함되어 있게 되어도 된다.

이렇게 본 기술에 있어서는, 소정수의 오디오 스트림으로부터 제1 부호화 데이터 및 제2 부호화 데이터가 추출되어 처리된다. 그로 인해, 제1 부호화 데이터 이외에 제2 부호화 데이터를 이용한 신규 서비스에 의한 고품질의 음성 재생이 가능하게 된다.

본 기술에 의하면, 전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 신규 서비스를 제공할 수 있다. 또한, 본 명세서에 기재된 효과는 어디까지나 예시이지 한정되는 것은 아니며, 또한 부가적인 효과가 있어도 된다.

도 1은 실시 형태로서의 송수신 시스템의 구성예를 도시하는 블록도.
도 2는 송신 오디오 스트림의 구성(스트림 구성(1), 스트림 구성(2))을 설명하기 위한 도면.
도 3은 송신 오디오 스트림의 구성이 스트림 구성(1)인 경우에 있어서의 서비스 송신기의 스트림 생성부의 구성예를 도시하는 블록도.
도 4는 3D 오디오의 전송 데이터를 구성하는 오브젝트 부호화 데이터의 구성예를 도시하는 도면.
도 5는 송신 오디오 스트림의 구성이 스트림 구성(1)인 경우에 있어서의 그룹과 속성의 대응 관계 등을 도시하는 도면.
도 6은 MPEG4 AAC의 오디오 프레임의 구조를 도시하는 도면.
도 7은 메타데이터가 삽입되는 DSE(data stream element)의 구성을 도시하는 도면.
도 8은 「metadata()」의 구성 및 그 구성의 주요한 정보의 내용을 도시하는 도면.
도 9는 MPEG-H 3D Audio의 오디오 프레임의 구조를 도시하는 도면.
도 10은 오브젝트 부호화 데이터의 패킷 구성예를 도시하는 도면.
도 11은 언실러리 데이터 디스크립터의 구조예를 도시하는 도면.
도 12는 「ancillary_data_identifier」의 8비트 필드에 있어서의 현상의 비트와 데이터 종류와의 대응 관계를 도시하는 도면.
도 13은 3D 오디오 스트림 컨피그 디스크립터의 구조예를 도시하는 도면.
도 14는 3D 오디오 스트림 컨피그 디스크립터의 구조예에 있어서의 주요한 정보의 내용을 도시하는 도면.
도 15는 「contentKind」에 정의되어 있는 콘텐츠의 종류를 도시하는 도면.
도 16은 송신 오디오 스트림의 구성이 스트림 구성(1)인 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하는 도면.
도 17은 송신 오디오 스트림의 구성이 스트림 구성(2)인 경우에 있어서의 서비스 송신기의 스트림 생성부의 구성예를 도시하는 블록도.
도 18은 3D 오디오의 전송 데이터를 구성하는 오브젝트 부호화 데이터의 구성예(2분할)를 도시하는 도면.
도 19는 송신 오디오 스트림의 구성이 스트림 구성(2)인 경우에 있어서의 그룹과 속성의 대응 관계 등을 도시하는 도면.
도 20은 3D 오디오 스트림 ID 디스크립터의 구조예를 도시하는 도면.
도 21은 송신 오디오 스트림의 구성이 스트림 구성(2)인 경우에 있어서의 트랜스포트 스트림의 구성예를 도시하는 도면.
도 22는 서비스 수신기의 구성예를 도시하는 블록도.
도 23은 수신 오디오 스트림의 구성(스트림 구성(1), 스트림 구성(2))을 설명하기 위한 도면.
도 24는 수신 오디오 스트림의 구성이 스트림 구성(1)인 경우의 디코드 처리를 개략적으로 도시하는 도면.
도 25는 수신 오디오 스트림의 구성이 스트림 구성(2)인 경우의 디코드 처리를 개략적으로 도시하는 도면.
도 26은 AC3의 프레임(AC3 Synchronization Frame)의 구조를 도시하는 도면.
도 27은 AC3의 보조 데이터(Auxiliary Data)의 구성예를 도시하는 도면.
도 28은 AC4의 심플 트랜스포트(Simple Transport)의 레이어의 구조를 도시하는 도면.
도 29는 TOC(ac4_toc()) 및 서브 스트림(ac4_substream_data())의 개략적인 구성을 도시하는 도면.
도 30은 TOC(ac4_toc()) 중에 존재하는 「umd_info()」의 구성예를 도시하는 도면.
도 31은 서브 스트림(ac4_substream_data()) 중에 존재하는 「umd_payloads_substream())」의 구성예를 도시하는 도면.

이하, 발명을 실시하기 위한 형태(이하, 「실시 형태」라 함)에 대해서 설명한다. 또한, 설명을 이하의 순서로 행한다.

1. 실시 형태

2. 변형예

<1. 실시 형태>

[송수신 시스템의 구성예]

도 1은, 실시 형태로서의 송수신 시스템(10)의 구성예를 나타내고 있다. 이 송수신 시스템(10)은, 서비스 송신기(100)와 서비스 수신기(200)를 포함하고 있다. 서비스 송신기(100)는, 트랜스포트 스트림 TS를, 방송파 또는 네트의 패킷에 실어서 송신한다. 이 트랜스포트 스트림 TS는, 비디오 스트림과, 소정수, 즉 하나 또는 복수의 오디오 스트림을 갖고 있다.

이 소정수의 오디오 스트림에는, 채널 부호화 데이터와, 소정수의 그룹의 오브젝트 부호화 데이터가 포함되어 있다. 이 소정수의 오디오 스트림은, 오브젝트 부호화 데이터가, 당해 오브젝트 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 생성된다.

제1 방법에서는, 도 2의 (a)의 스트림 구성(1)에서 나타내는 바와 같이, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함하는 오디오 스트림(메인 스트림)이 생성됨과 함께, 이 오디오 스트림의 유저 데이터 영역에 MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터가 삽입된다.

제2 방법에서는, 도 2의 (b)의 스트림 구성(2)에서 나타내는 바와 같이, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함하는 오디오 스트림(메인 스트림)이 생성됨과 함께, MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터를 포함하는 소정수의 오디오 스트림(서브 스트림 1 내지 N)이 생성된다.

서비스 수신기(200)는, 서비스 송신기(100)로부터 방송파 또는 네트의 패킷에 실려 보내져 오는 트랜스포트 스트림 TS를 수신한다. 이 트랜스포트 스트림 TS는, 상술한 바와 같이, 비디오 스트림 이외에, 채널 부호화 데이터 및 소정수의 그룹의 오브젝트 부호화 데이터가 포함된 소정수의 오디오 스트림을 갖고 있다. 서비스 수신기(200)는, 비디오 스트림에 디코드 처리를 행하여, 비디오 출력을 얻는다.

또한, 서비스 수신기(200)는, 오브젝트 부호화 데이터에 대응하고 있는 경우에는, 소정수의 오디오 스트림으로부터 채널 부호화 데이터 및 오브젝트 부호화 데이터를 추출해서 디코드 처리를 행하여, 비디오 출력에 대응한 오디오 출력을 얻는다. 한편, 서비스 수신기(200)는, 오브젝트 부호화 데이터에 대응하고 있지 않은 경우에는, 소정수의 오디오 스트림으로부터 채널 부호화 데이터만을 추출해서 디코드 처리를 행하여, 비디오 출력에 대응한 오디오 출력을 얻는다.

[서비스 송신기의 스트림 생성부]

「스트림 구성(1)을 채용하는 경우」

처음에, 오디오 스트림이, 도 2의 (a)의 스트림 구성(1)을 채용하는 경우에 대해서 설명한다. 도 3은, 그 경우에 있어서의 서비스 송신기(100)가 구비하는 스트림 생성부(110A)의 구성예를 나타내고 있다.

이 스트림 생성부(110)는, 비디오 인코더(112)와, 오디오 채널 인코더(113)와, 오디오 오브젝트 인코더(114)와, TS 포매터(115)를 갖고 있다. 비디오 인코더(112)는, 비디오 데이터 SV를 입력하고, 이 비디오 데이터 SV에 대하여 부호화를 실시하여, 비디오 스트림을 생성한다.

오디오 오브젝트 인코더(114)는, 오디오 데이터 SA를 구성하는 오브젝트 데이터를 입력하고, 이 오브젝트 데이터에 대하여 MPEG-H 3D Audio의 부호화를 실시해서 오디오 스트림(오브젝트 부호화 데이터)을 생성한다. 오디오 채널 인코더(113)는, 오디오 데이터 SA를 구성하는 채널 데이터를 입력하고, 이 채널 데이터에 대하여 MPEG4 AAC의 부호화를 실시해서 오디오 스트림을 생성함과 함께, 그 유저 데이터 영역에 오디오 오브젝트 인코더(114)에서 생성된 오디오 스트림을 삽입한다.

도 4는, 오브젝트 부호화 데이터의 구성예를 나타내고 있다. 이 구성예에서는, 2개의 오브젝트 부호화 데이터로 이루어져 있다. 2개의 오브젝트 부호화 데이터는, 이머시브 오디오 오브젝트(IAO:Immersive audio object) 및 스피치 다이얼로그 오브젝트(SDO:Speech Dialog object)의 부호화 데이터이다.

이머시브 오디오 오브젝트 부호화 데이터는, 이머시브 사운드를 위한 오브젝트 부호화 데이터이며, 부호화 샘플 데이터 SCE1과, 그것을 임의의 위치에 존재하는 스피커에 매핑시켜서 렌더링하기 위한 메타데이터 EXE_El(Object metadata)1을 포함하고 있다.

스피치 다이얼로그 오브젝트 부호화 데이터는, 스피치 랭귀지를 위한 오브젝트 부호화 데이터이다. 이 예에서는, 제1, 제2 언어의 각각에 대응한 스피치 다이얼로그 오브젝트 부호화 데이터가 존재한다. 제1 언어에 대응한 스피치 다이얼로그 오브젝트 부호화 데이터는, 부호화 샘플 데이터 SCE2와, 그것을 임의의 위치에 존재하는 스피커에 매핑시켜서 렌더링하기 위한 메타데이터 EXE_El(Object metadata)2를 포함하고 있다. 또한, 제2 언어에 대응한 스피치 다이얼로그 오브젝트 부호화 데이터는, 부호화 샘플 데이터 SCE3과, 그것을 임의의 위치에 존재하는 스피커에 매핑시켜서 렌더링하기 위한 메타데이터 EXE_El(Object metadata)3을 포함하고 있다.

오브젝트 부호화 데이터는, 종류별로 그룹(Group)이라는 개념으로 구별된다. 도시한 예에서는, 이머시브 오디오 오브젝트 부호화 데이터는 그룹1로 되고, 제1 언어에 관한스피치 다이얼로그 오브젝트 부호화 데이터는 그룹2로 되고, 제2 언어에 관한 스피치 다이얼로그 오브젝트 부호화 데이터는 그룹3으로 되어 있다.

또한, 수신측에 있어서 그룹간에서 선택할 수 있는 것은 스위치 그룹(SW Group)에 등록되어 부호화된다. 또한, 그룹을 묶어서 프리셋 그룹(preset Group)으로 되고, 유스케이스에 따른 재생이 가능하게 된다. 도시한 예에서는, 그룹1 및 그룹2가 묶여서 프리셋 그룹1로 되고, 그룹1 및 그룹3이 묶여서 프리셋 그룹2로 되어 있다.

도 5는, 그룹과 속성의 대응 관계 등을 나타내고 있다. 여기서, 그룹 ID(group ID)는 그룹을 식별하기 위한 식별자이다. 애트리뷰트(attribute)는 각 그룹의 부호화 데이터의 속성을 나타내고 있다. 스위치 그룹 ID(switch Group ID)는 스위칭 그룹을 식별하기 위한 식별자이다. 리셋 그룹 ID(preset Group ID)는 프리셋 그룹을 식별하기 위한 식별자이다. 스트림 ID(sub Stream ID)는 스트림을 식별하기 위한 식별자이다. 카인드(Kind)는 각 그룹의 콘텐츠의 종류를 나타내고 있다.

도시하는 대응 관계는, 그룹1에 속하는 부호화 데이터는, 이머시브 사운드를 위한 오브젝트 부호화 데이터(이머시브 오디오 오브젝트 부호화 데이터)이며, 스위치 그룹을 구성하고 있고, 채널 부호화 데이터를 포함하는 오디오 스트림의 유저 데이터 영역에 삽입되어 있음을 나타내고 있다.

또한, 도시하는 대응 관계는, 그룹2에 속하는 부호화 데이터는, 제1 언어의 스피치 랭귀지를 위한 오브젝트 부호화 데이터(스피치 다이얼로그 오브젝트 부호화 데이터)이며, 스위치 그룹1을 구성하고 있고, 채널 부호화 데이터를 포함하는 오디오 스트림의 유저 데이터 영역에 삽입되어 있음을 나타내고 있다. 또한, 도시하는 대응 관계는, 그룹3에 속하는 부호화 데이터는, 제2 언어의 스피치 랭귀지를 위한 오브젝트 부호화 데이터(스피치 다이얼로그 오브젝트 부호화 데이터)이며, 스위치 그룹1을 구성하고 있고, 채널 부호화 데이터를 포함하는 오디오 스트림의 유저 데이터 영역에 삽입되어 있음을 나타내고 있다.

또한, 도시하는 대응 관계는, 프리셋 그룹1은, 그룹1 및 그룹2를 포함하는 것이 나타나 있다. 또한, 도시하는 대응 관계는, 프리셋 그룹2는, 그룹1 및 그룹3을 포함하는 것이 나타나 있다.

도 6은, MPEG4 AAC의 오디오 프레임의 구조를 나타내고 있다. 이 오디오 프레임은, 복수의 엘리먼트로 이루어져 있다. 각 엘리먼트(element)의 선두에는, 「id_syn_ele」의 3비트의 식별자(ID)가 존재하고, 엘리먼트 내용이 식별 가능하게 되어 있다.

이 오디오 프레임에는, SCE(Single Channel Element), CPE(Channel Pair Element), LFE(Low Frequency Element), DSE(Data Stream Element), PCE(Program Config Element), FIL(Fill Element) 등의 엘리먼트가 포함된다. SCE, CPE, LFE의 엘리먼트는, 채널 부호화 데이터를 구성하는 부호화 샘플 데이터를 포함하는 엘리먼트이다. 예를 들어, 5.1채널의 채널 부호화 데이터의 경우에는, 1개의 SCE, 2개의 CPE, 1개의 LFE가 존재한다.

PCE의 엘리먼트는, 채널 엘리먼트수나 다운 믹스(down_mix) 계수를 포함하는 엘리먼트이다. FIL의 엘리먼트는, 익스텐션(extension) 정보의 정의에 사용되는 엘리먼트이다. DSE의 엘리먼트는, 유저 데이터를 둘 수 있는 엘리먼트이며, 이 엘리먼트의 「id_syn_ele」가 “0x4”이다. 이 DSE의 엘리먼트에, 오브젝트 부호화 데이터가 삽입된다.

도 7은, DSE(Data Stream Element())의 구성(Syntax)을 나타내고 있다. 「element_instance_tag」의 4비트 필드는, DSE 중의 데이터 종별을 나타내지만, DSE를 통일한 유저 데이터로서 이용하는 경우에는, 이 값을 “0”으로 해도 된다. 「data_byte_align_flag」는, “1”로 되고, DSE의 전체가 바이트 얼라인되도록 한다. 「count」 또는 그 추가 바이트수를 의미하는 「esc_count」는, 유저 데이터의 사이즈에 따라 적절하게 값이 결정된다. 「count」 및 「esc_count」에 의해 최대 510바이트까지 카운트 가능하게 되어 있다. 즉, 1개의 DSE 엘리먼트에 배치할 수 있는 데이터는 510바이트까지로 된다. 「data_stream_byte」의 필드에, 「metadata()」가 삽입된다.

도 8의 (a)는 「metadata()」의 구성(Syntax)을 나타내고, 도 8의 (b)는 그 구성에 있어서의 주요한 정보의 내용(semantics)을 나타내고 있다. 「metadata_type」의 8비트 필드는, 메타데이터의 종류를 나타낸다. 예를 들어, “0x10”은, MPEG-H 방식(MPEG-H 3D Audio)의 오브젝트 부호 데이터인 것을 나타낸다.

「count」의 8비트 필드는, 메타데이터의 시계열적인 오름차순의 카운트수를 나타낸다. 상술한 바와 같이 1개의 DSE 엘리먼트에 배치할 수 있는 데이터는 510바이트까지이지만, 오브젝트 부호화 데이터의 사이즈가 510바이트보다 커지는 것도 생각된다. 그 경우에는, 복수의 DSE 엘리먼트가 사용되고, 「count」로 나타나는 카운트수는 그 복수의 DSE 엘리먼트의 연결 관계를 나타내게 된다. 「data_byte」의 영역에, 오브젝트 부호화 데이터가 배치된다.

도 9는, MPEG-H 3D Audio의 오디오 프레임의 구조를 나타내고 있다. 이 오디오 프레임은, 복수의 MPEG 오디오 스트림 패킷(mpeg Audio Stream Packet)을 포함하고 있다. 각 MPEG 오디오 스트림 패킷은, 헤더(Header)와 페이로드(Payload)를 포함하고 있다.

헤더는, 패킷 타입(Packet Type), 패킷 라벨(Packet Label), 패킷 길이(Packet Length) 등의 정보를 갖는다. 페이로드에는, 헤더의 패킷 타입으로 정의된 정보가 배치된다. 이 페이로드 정보에는, 동기 스타트 코드에 상당하는 “SYNC”와, 실제의 데이터인 “Frame”과, 이 “Frame”의 구성을 나타내는 “Config”가 존재한다.

이 실시 형태에 있어서, “Frame”에는, 3D 오디오의 전송 데이터를 구성하는 오브젝트 부호화 데이터가 포함된다. 3D 오디오의 전송 데이터를 구성하는 채널 부호화 데이터에 관해서는, 상술한 바와 같이 MPEG4 AAC의 오디오 프레임에 포함된다. 오브젝트 부호화 데이터는, SCE(Single Channel Element)의 부호화 샘플 데이터와, 그것을 임의의 위치에 존재하는 스피커에 매핑시켜서 렌더링하기 위한 메타데이터를 포함한다(도 4 참조). 이 메타데이터는, 익스텐션 엘리먼트(Ext_element)로서 포함된다.

도 10의 (a)는 오브젝트 부호화 데이터의 패킷 구성예를 나타내고 있다. 이 예에서는, 1개의 그룹의 오브젝트 부호화 데이터가 포함되어 있다. “Config”에 포함되는 「#obj=1」의 정보에서, 1개의 그룹의 오브젝트 부호화 데이터를 갖는 “Frame”의 존재가 나타나 있다.

“Config”에 포함되는 「AudioSceneInfo()」 내에 등록된 “GroupID[0]=1”의 정보에서, 그룹1의 부호화 데이터를 갖는 “Frame”이 배치되어 있는 것이 나타나 있다. 또한, 패킷 라벨(PL)의 값은, “Config”와 그것에 대응한 각“Frame”에서 동일한 값이 된다. 여기서, 그룹1의 부호화 데이터를 갖는 “Frame”은, 익스텐션 엘리먼트(Ext_element)로서의 메타데이터를 포함하는 “Frame”과, SCE(Single Channel Element)의 부호화 샘플 데이터를 포함하는 “Frame”을 포함하고 있다.

도 10의 (b)는 오브젝트 부호화 데이터의 다른 패킷 구성예를 나타내고 있다. 이 예에서는, 2개의 그룹의 오브젝트 부호화 데이터가 포함되어 있다. “Config”에 포함되는 「#obj=2」의 정보에서, 2개의 그룹의 오브젝트 부호화 데이터를 갖는 “Frame”의 존재가 나타나 있다.

“Config”에 포함되는 「AudioSceneInfo()」내에 순서대로 등록된 “GroupID[1]=2, GroupID[2]=3, SW_GRPID[0]=1”의 정보에서, 그룹2의 부호화 데이터를 갖는 “Frame”과, 그룹3의 부호화 데이터를 갖는 “Frame”이, 이 순서대로 배치되어 있고, 이들 그룹은 스위치 그룹1을 구성하고 있는 것이 나타나 있다. 또한, 패킷 라벨(PL)의 값은, “Config”와 그것에 대응한 각“Frame”에서 동일한 값이 된다.

여기서, 그룹2의 부호화 데이터를 갖는 “Frame”은, 익스텐션 엘리먼트(Ext_element)로서의 메타데이터를 포함하는 “Frame”과, SCE(Single Channel Element)의 부호화 샘플 데이터를 포함하는 “Frame”을 포함하고 있다. 마찬가지로, 그룹3의 부호화 데이터를 갖는 “Frame”은, 익스텐션 엘리먼트(Ext_element)로서의 메타데이터를 포함하는 “Frame”과, SCE(Single Channel Element)의 부호화 샘플 데이터를 포함하는 “Frame”을 포함하고 있다.

도 3으로 되돌아가서, TS 포매터(115)는, 비디오 인코더(112)로부터 출력되는 비디오 스트림 및 오디오 채널 인코더(113)로부터 출력되는 오디오 스트림을, PES 패킷화하고, 또한 트랜스포트 패킷화해서 다중하고, 다중화 스트림으로서의 트랜스포트 스트림 TS를 얻는다.

또한, TS 포매터(115)는, 컨테이너의 레이어, 이 실시 형태에서는 프로그램 맵 테이블(PMT)의 관리 하에, 오디오 스트림의 유저 데이터 영역에, 이 오디오 스트림에 포함되는 채널 부호화 데이터에 관련된 오브젝트 부호화 데이터의 삽입이 있음을 식별하는 식별 정보를 삽입한다. TS 포매터(115)는, 이 식별 정보를, 오디오 스트림에 대응한 오디오 엘리멘터리 스트림 루프 내에, 기존의 언실러리 데이터 디스크립터(Ancillary_data_descriptor)를 사용해서 삽입한다.

도 11은, 언실러리 데이터 디스크립터의 구조예(Syntax)를 나타내고 있다. 「descriptor_tag」의 8비트 필드는, 디스크립터 타입을 나타낸다. 여기서는, 언실러리 데이터 디스크립터인 것을 나타낸다. 「descriptor_length」의 8비트 필드는, 디스크립터의 길이(사이즈)를 나타내고, 디스크립터의 길이로서, 이후의 바이트수를 나타낸다.

「ancillary_data_identifier」의 8비트 필드는, 오디오 스트림의 유저 데이터 영역에 어떠한 종류의 데이터가 삽입되어 있는지를 나타낸다. 이 경우, 각 비트에 “1”이 세트됨으로써, 그 비트에 대응한 종류의 데이터가 삽입되어 있는 것이 나타난다. 도 12는, 현 상황에 있어서의 비트와 데이터 종류와의 대응 관계를 나타내고 있다. 이 실시 형태에 있어서는, 비트7에 데이터 종류로서 오브젝트 부호화 데이터(Object data)를 신규 정의하고, 이 비트7에 “1”을 세트함으로써, 오디오 스트림의 유저 데이터 영역에 오브젝트 부호화 데이터의 삽입이 있음을 식별시킨다.

또한, TS 포매터(115)는, 컨테이너의 레이어, 이 실시 형태에서는 프로그램 맵 테이블(PMT)의 관리 하에, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보 등을 삽입한다. TS 포매터(115)는, 이 속성 정보 등을, 오디오 스트림에 대응한 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 컨피그 디스크립터(3Daudio_stream_config_descriptor)를 사용해서 삽입한다.

도 13은, 3D 오디오 스트림 컨피그 디스크립터의 구조예(Syntax)를 나타내고 있다. 또한, 도 14는, 그 구조예에 있어서의 주요한 정보의 내용(Semantics)을 나타내고 있다. 「descriptor_tag」의 8비트 필드는, 디스크립터 타입을 나타낸다. 여기서는, 3D 오디오 스트림 컨피그 디스크립터인 것을 나타낸다. 「descriptor_length」의 8비트 필드는, 디스크립터의 길이(사이즈)를 나타내고, 디스크립터의 길이로서, 이후의 바이트수를 나타낸다.

「NumOfGroups, N」의 8비트 필드는, 그룹의 수를 나타낸다. 「NumOfPresetGroups, P」의 8비트 필드는, 프리셋 그룹의 수를 나타낸다. 그룹의 수만큼, 「groupID」의 8비트 필드, 「attribute_of_groupID」의 8비트 필드, 「SwitchGroupID」의 8비트 필드 및 「audio_streamID」의 8비트 필드가 반복된다.

「groupID」의 필드는, 그룹의 식별자를 나타낸다. 「attribute_of_groupID」의 필드는, 해당 그룹의 오브젝트 부호화 데이터의 속성을 나타낸다. 「SwitchGroupID」의 필드는, 해당 그룹이 어느 스위치 그룹에 속하는지를 나타내는 식별자이다. “0”은, 어느 쪽의 스위치 그룹에도 속하지 않는 것을 나타낸다. “0” 이외는, 배속되는 스위치 그룹을 나타낸다. 「contentKind」의 8비트 필드는, 그룹의 콘텐츠 종류를 나타낸다. 「audio_streamID」는, 해당 그룹이 포함되는 오디오 스트림을 나타내는 식별자이다. 도 15는, 「contentKind」에 정의되어 있는 콘텐츠의 종류를 나타내고 있다.

또한, 프리셋 그룹의 수만큼, 「presetGroupID」의 8비트 필드 및 「NumOfGroups_in_preset, R」의 8비트 필드가 반복된다. 「presetGroupID」의 필드는, 그룹을 프리셋한 다발을 나타내는 식별자이다. 「NumOfGroups_in_preset, R」의 필드는, 프리셋 그룹에 속하는 그룹의 수를 나타낸다. 그리고, 프리셋 그룹마다, 거기에 속하는 그룹의 수만큼, 「groupID」의 8비트 필드가 반복되고, 프리셋 그룹에 속하는 그룹이 나타난다.

도 16은, 트랜스포트 스트림 TS의 구성예를 나타내고 있다. 이 구성예에서는, PID1로 식별되는 비디오 스트림의 PES 패킷 「video PES」가 존재한다. 또한, 이 구성예에서는, PID2로 식별되는 오디오 스트림의 PES 패킷 「audio PES」가 존재한다. PES 패킷은, PES 헤더(PES_header)와 PES 페이로드(PES_payload)를 포함하고 있다.

여기서, 오디오 스트림의 PES 패킷 「audio PES」에는, MPEG4 AAC의 채널 부호화 데이터가 포함되어 있음과 함께, 그 유저 데이터 영역에 MPEG-H 3D Audio의 오브젝트 부호화 데이터가 삽입되어 있다.

또한, 트랜스포트 스트림 TS에는, PSI(Program Specific Information)로서, PMT(Program Map Table)가 포함되어 있다. PSI는, 트랜스포트 스트림에 포함되는 각 엘리멘터리 스트림이 어느 프로그램에 속해 있는지를 기재한 정보이다. PMT에는, 프로그램 전체에 관련된 정보를 기술하는 프로그램 루프(Program loop)가 존재한다.

또한, PMT에는, 각 엘리멘터리 스트림에 관련된 정보를 갖는 엘리멘터리 스트림 루프가 존재한다. 이 구성예에서는, 비디오 스트림에 대응한 비디오 엘리멘터리 스트림 루프(video ES loop)가 존재함과 함께, 오디오 스트림에 대응한 오디오 엘리멘터리 스트림 루프(audio ES loop)가 존재한다.

비디오 엘리멘터리 스트림 루프(video ES loop)에는, 비디오 스트림에 대응하여, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련된 정보를 기술하는 디스크립터도 배치된다. 이 비디오 스트림의 「Stream_type」의 값은 「0x24」로 설정되고, PID 정보는, 상술한 바와 같이 비디오 스트림의 PES 패킷 「video PES」에 부여되는 PID1을 나타내게 된다. 디스크립터의 하나로서, HEVC 디스크립터가 배치된다.

오디오 엘리멘터리 스트림 루프(audio ES loop)에는, 오디오 스트림에 대응하여, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 오디오 스트림에 관련된 정보를 기술하는 디스크립터도 배치된다. 이 오디오 스트림의 「Stream_type」의 값은 「0x11」로 설정되고, PID 정보는, 상술한 바와 같이 오디오 스트림의 PES 패킷 「audio PES」에 부여되는 PID2를 나타내게 된다. 이 오디오 엘리멘터리 스트림 루프에는, 상술한 언실러리 데이터 디스크립터 및 3D 오디오 스트림 컨피그 디스크립터의 양쪽이 배치된다.

도 3에 도시하는 스트림 생성부(110A)의 동작을 간단하게 설명한다. 비디오 데이터 SV는, 비디오 인코더(112)에 공급된다. 이 비디오 인코더(112)에서는, 비디오 데이터 SV에 대하여 부호화가 실시되어, 부호화 비디오 데이터를 포함하는 비디오 스트림이 생성된다. 이 비디오 스트림은, TS 포매터(115)에 공급된다.

오디오 데이터 SA를 구성하는 오브젝트 데이터는, 오디오 오브젝트 인코더(114)에 공급된다. 이 오디오 오브젝트 인코더(114)에서는, 이 오브젝트 데이터에 대하여 MPEG-H 3D Audio의 부호화가 실시되어 오디오 스트림(오브젝트 부호화 데이터)이 생성된다. 이 오디오 스트림은, 오디오 채널 인코더(113)에 공급된다.

오디오 데이터 SA를 구성하는 채널 데이터는, 오디오 채널 인코더(113)에 공급된다. 이 오디오 채널 인코더(113)에서는, 이 채널 데이터에 대하여 MPEG4 AAC의 부호화가 실시되어 오디오 스트림(채널 부호화 데이터)이 생성된다. 이때, 오디오 채널 인코더(113)에서는, 그 유저 데이터 영역에 오디오 오브젝트 인코더(114)에서 생성된 오디오 스트림(오브젝트 부호화 데이터)이 삽입된다.

비디오 인코더(112)에서 생성된 비디오 스트림은, TS 포매터(115)에 공급된다. 또한, 오디오 채널 인코더(113)에서 생성된 오디오 스트림은, TS 포매터(115)에 공급된다. TS 포매터(115)에서는, 각 인코더로부터 공급되는 스트림이 PES 패킷화되고, 또한 트랜스포트 패킷화되어 다중되고, 다중화 스트림으로서의 트랜스포트 스트림 TS가 얻어진다.

또한, TS 포매터(115)에서는, 오디오 엘리멘터리 스트림 루프 내에, 언실러리 데이터 디스크립터가 삽입된다. 이 디스크립터에는, 오디오 스트림의 유저 데이터 영역에 오브젝트 부호화 데이터의 삽입이 있음을 식별하는 식별 정보가 포함되어 있다.

또한, TS 포매터(115)에서는, 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 컨피그 디스크립터가 삽입된다. 이 디스크립터에는, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보 등이 포함되어 있다.

「스트림 구성(2)를 채용하는 경우」

이어서, 오디오 스트림이, 도 2의 (b)의 스트림 구성(2)를 채용하는 경우에 대해서 설명한다. 도 17은, 그 경우에 있어서의 서비스 송신기(100)가 구비하는 스트림 생성부(110B)의 구성예를 나타내고 있다.

이 스트림 생성부(110B)는, 비디오 인코더(122)와, 오디오 채널 인코더(123)와, 오디오 오브젝트 인코더(124-1 내지 124-N)와, TS 포매터(125)를 갖고 있다. 비디오 인코더(122)는, 비디오 데이터 SV를 입력하고, 이 비디오 데이터 SV에 대하여 부호화를 실시하여, 비디오 스트림을 생성한다.

오디오 채널 인코더(123)는, 오디오 데이터 SA를 구성하는 채널 데이터를 입력하고, 이 채널 데이터에 대하여 MPEG4 AAC의 부호화를 실시하여, 메인 스트림으로서의 오디오 스트림(채널 부호화 데이터)을 생성한다. 오디오 오브젝트 인코더(124-1 내지 124-N)는, 각각 오디오 데이터 SA를 구성하는 오브젝트 데이터를 입력하고, 이 오브젝트 데이터에 대하여 MPEG-H 3D Audio의 부호화를 실시하여, 서브 스트림으로서의 오디오 스트림(오브젝트 부호화 데이터)을 생성한다.

예를 들어, N=2인 경우, 오디오 오브젝트 인코더(124-1)는 서브 스트림(1)을 생성하고, 오디오 오브젝트 인코더(124-2)는 서브 스트림(2)을 생성한다. 예를 들어, 도 18에 도시하는 바와 같이, 2개의 오브젝트 부호화 데이터로 이루어지는 오브젝트 부호화 데이터의 구성예에서는, 서브 스트림(1)에는 이머시브 오디오 오브젝트(IAO: Immersive audio object)가 포함되고, 서브 스트림(2)에는 스피치 다이얼로그 오브젝트(SDO: Speech Dialog object)의 부호화 데이터가 포함된다.

도 19는, 그룹과 속성의 대응 관계 등을 나타내고 있다. 여기서, 그룹 ID(group ID)은 그룹을 식별하기 위한 식별자이다. 애트리뷰트(attribute)는 각 그룹의 부호화 데이터의 속성을 나타내고 있다. 스위치 그룹 ID(switch Group ID)는 서로 전환 가능한 그룹을 식별하기 위한 식별자이다. 프리셋 그룹 ID(preset Group ID)는 프리셋 그룹을 식별하기 위한 식별자이다. 스트림 ID(Stream ID)는 스트림을 식별하기 위한 식별자이다. 카인드(Kind)는 각 그룹의 콘텐츠 종류를 나타내고 있다.

도시하는 대응 관계는, 그룹1에 속하는 부호화 데이터는, 이머시브 사운드를 위한 오브젝트 부호화 데이터(이머시브 오디오 오브젝트 부호화 데이터)이며, 스위치 그룹을 구성하고 있지 않고, 서브 스트림(1)에 포함되어 있음을 나타내고 있다.

또한, 도시하는 대응 관계는, 그룹2에 속하는 부호화 데이터는, 제1 언어의 스피치 랭귀지를 위한 오브젝트 부호화 데이터(스피치 다이얼로그 오브젝트 부호화 데이터)이며, 스위치 그룹1을 구성하고 있고, 서브 스트림(2)에 포함되어 있음을 나타내고 있다. 또한, 도시하는 대응 관계는, 그룹3에 속하는 부호화 데이터는, 제2 언어의 스피치 랭귀지를 위한 오브젝트 부호화 데이터(스피치 다이얼로그 오브젝트 부호화 데이터)이며, 스위치 그룹1을 구성하고 있고, 서브 스트림(2)에 포함되어 있음을 나타내고 있다.

도 17로 되돌아가서, TS 포매터(125)는, 비디오 인코더(112)로부터 출력되는 비디오 스트림, 오디오 채널 인코더(123)로부터 출력되는 오디오 스트림, 나아가서는 오디오 오브젝트 인코더(124-1 내지 124-N)로부터 출력되는 오디오 스트림을, PES 패킷화하고, 또한 트랜스포트 패킷화해서 다중하고, 다중화 스트림으로서의 트랜스포트 스트림 TS를 얻는다.

또한, TS 포매터(125)는, 컨테이너의 레이어, 이 실시 형태에서는 프로그램 맵 테이블(PMT)의 관리 하에, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보와, 소정수의 그룹의 오브젝트 부호화 데이터가 각각 어느 서브 스트림에 포함되는지를 나타내는 스트림 대응 관계 정보 등을 삽입한다. TS 포매터(125)는, 이들 정보를, 소정수의 서브 스트림 중 적어도 하나 이상의 서브 스트림에 대응한 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 컨피그 디스크립터(3Daudio_stream_config_descriptor)(도 13 참조)를 사용해서 삽입한다.

또한, TS 포매터(125)는, 컨테이너의 레이어, 이 실시 형태에서는 프로그램 맵 테이블(PMT)의 관리 하에, 소정수의 서브 스트림의 각각의 스트림 식별자를 나타내는 스트림 식별자 정보를 삽입한다. TS 포매터(125)는, 이 정보를, 소정수의 서브 스트림의 각각에 대응한 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 ID 디스크립터(3Daudio_substreamID_descriptor)를 사용해서 삽입한다.

도 20의 (a)는 3D 오디오 스트림 ID 디스크립터의 구조예(Syntax)를 나타내고 있다. 또한, 도 20의 (b)는 그 구조예에 있어서의 주요한 정보의 내용(Semantics)을 나타내고 있다.

「descriptor_tag」의 8비트 필드는, 디스크립터 타입을 나타낸다. 여기서는, 3D 오디오 스트림 ID 디스크립터인 것을 나타낸다. 「descriptor_length」의 8비트 필드는, 디스크립터의 길이(사이즈)를 나타내고, 디스크립터의 길이로서, 이후의 바이트수를 나타낸다. 「audio_streamID」의 8비트 필드는, 서브 스트림의 식별자를 나타낸다.

도 21은, 트랜스포트 스트림 TS의 구성예를 나타내고 있다. 이 구성예에서는, PID1로 식별되는 비디오 스트림의 PES 패킷 「video PES」가 존재한다. 또한, 이 구성예에서는, PID2, PID3으로 각각 식별되는 2개의 오디오 스트림의 PES 패킷 「audio PES」가 존재한다. PES 패킷은, PES 헤더(PES_header)와 PES 페이로드(PES_payload)를 포함하고 있다. PES 헤더에는, DTS, PTS의 타임 스탬프가 삽입되어 있다. 다중화 시에 PID2와 PID3의 타임 스탬프를 합치시키는 등, 적확하게 부여함으로써 양자간의 동기를 시스템 전체에서 확보하는 것이 가능하다.

PID2로 식별되는 오디오 스트림(메인 스트림)의 PES 패킷 「audio PES」에는, MPEG4 AAC의 채널 부호화 데이터가 포함되어 있다. 한편, PID3으로 식별되는 오디오 스트림(서브 스트림)의 PES 패킷 「audio PES」에는, MPEG-H 3D Audio의 오브젝트 부호화 데이터가 포함되어 있다.

또한, PMT에는, 각 엘리멘터리 스트림에 관련된 정보를 갖는 엘리멘터리 스트림 루프가 존재한다. 이 구성예에서는, 비디오 스트림에 대응한 비디오 엘리멘터리 스트림 루프(video ES loop)가 존재함과 함께, 2개의 오디오 스트림에 대응한 오디오 엘리멘터리 스트림 루프(audio ES loop)가 존재한다.

비디오 엘리멘터리 스트림 루프(video ES loop)에는, 비디오 스트림에 대응하여, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 비디오 스트림에 관련된 정보를 기술하는 디스크립터도 배치된다. 이 비디오 스트림의 「Stream_type」의 값은 「0x24」로 설정되고, PID 정보는, 상술한 바와 같이 비디오 스트림의 PES 패킷 「video PES」에 부여되는 PID1을 나타내게 된다. 디스크립터로서, HEVC 디스크립터도 배치된다.

오디오 스트림(메인 스트림)에 대응한 오디오 엘리멘터리 스트림 루프(audio ES loop)에는, 오디오 스트림에 대응하여, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 오디오 스트림에 관련된 정보를 기술하는 디스크립터도 배치된다. 이 오디오 스트림의 「Stream_type」의 값은 「0x11」로 설정되고, PID 정보는, 상술한 바와 같이 오디오 스트림(메인 스트림)의 PES 패킷 「audio PES」에 부여되는 PID2를 나타내게 된다.

또한, 오디오 스트림(서브 스트림)에 대응한 오디오 엘리멘터리 스트림 루프(audio ES loop)에는, 오디오 스트림에 대응하여, 스트림 타입, PID(패킷 식별자) 등의 정보가 배치됨과 함께, 그 오디오 스트림에 관련된 정보를 기술하는 디스크립터도 배치된다. 이 오디오 스트림의 「Stream_type」의 값은 「0x2D」로 설정되고, PID 정보는, 상술한 바와 같이 오디오 스트림(메인 스트림)의 PES 패킷 「audio PES」에 부여되는 PID3을 나타내게 된다. 디스크립터로서, 상술한 3D 오디오 스트림 컨피그 디스크립터 및 3D 오디오 스트림 ID 디스크립터도 배치된다.

도 17에 도시하는 스트림 생성부(110B)의 동작을 간단하게 설명한다. 비디오 데이터 SV는, 비디오 인코더(122)에 공급된다. 이 비디오 인코더(122)에서는, 비디오 데이터 SV에 대하여 부호화가 실시되어, 부호화 비디오 데이터를 포함하는 비디오 스트림이 생성된다.

오디오 데이터 SA를 구성하는 채널 데이터는, 오디오 채널 인코더(123)에 공급된다. 이 오디오 채널 인코더(123)에서는, 이 채널 데이터에 대하여 MPEG4 AAC의 부호화가 실시되어 메인 스트림으로서의 오디오 스트림(채널 부호화 데이터)이 생성된다.

또한, 오디오 데이터 SA를 구성하는 오브젝트 데이터는, 오디오 오브젝트 인코더(124-1 내지 124-N)에 공급된다. 이 오디오 오브젝트 인코더(124-1 내지 124-N)에서는, 각각 이 오브젝트 데이터에 대하여 MPEG-H 3D Audio의 부호화가 실시되어 서브 스트림으로서의 오디오 스트림(오브젝트 부호화 데이터)이 생성된다.

비디오 인코더(122)에서 생성된 비디오 스트림은, TS 포매터(125)에 공급된다. 또한, 오디오 채널 인코더(113)에서 생성된 오디오 스트림(메인 스트림)은 TS 포매터(125)에 공급된다. 또한, 오디오 오브젝트 인코더(124-1 내지 124-N)에서 생성된 오디오 스트림(서브 스트림)은 TS 포매터(125)에 공급된다. TS 포매터(125)에서는, 각 인코더로부터 공급되는 스트림이 PES 패킷화되고, 또한 트랜스포트 패킷화되어 다중되고, 다중화 스트림으로서의 트랜스포트 스트림 TS가 얻어진다.

또한, TS 포매터(115)에서는, 소정수의 서브 스트림 중 적어도 하나 이상의 서브 스트림에 대응한 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 컨피그 디스크립터가 삽입된다. 3D 오디오 스트림 컨피그 디스크립터에는, 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보와, 소정수의 그룹의 오브젝트 부호화 데이터가 각각 어느 서브 스트림에 포함되는지를 나타내는 스트림 대응 관계 정보 등이 포함되어 있다.

또한, TS 포매터(115)에서는, 서브 스트림에 대응한 오디오 엘리멘터리 스트림 루프 내에, 소정수의 서브 스트림의 각각에 대응한 오디오 엘리멘터리 스트림 루프 내에, 3D 오디오 스트림 ID 디스크립터가 삽입된다. 이 디스크립터에는, 소정수의 오디오 스트림의 각각의 스트림 식별자를 나타내는 스트림 식별자 정보가 포함되어 있다.

[서비스 수신기의 구성예]

도 22는, 서비스 수신기(200)의 구성예를 나타내고 있다. 이 서비스 수신기(200)는, 수신부(201)와, TS 해석부(202)와, 비디오 디코더(203)와, 영상 처리 회로(204)와, 패널 구동 회로(205)와, 표시 패널(206)을 갖고 있다. 또한, 이 서비스 수신기(200)는, 다중화 버퍼(211-1 내지 211-M)와, 컴바이너(212)와, 3D 오디오 디코더(213)와, 음성 출력 처리 회로(214)와, 스피커 시스템(215)을 갖고 있다. 또한, 이 서비스 수신기(200)는, CPU(221)와, 플래시 ROM(222)과, DRAM(223)과, 내부 버스(224)와, 리모컨 수신부(225)와, 리모컨 송신기(226)를 갖고 있다.

CPU(221)는, 서비스 수신기(200)의 각 부의 동작을 제어한다. 플래시 ROM(222)은, 제어 소프트웨어의 저장 및 데이터의 보관을 행한다. DRAM(223)은, CPU(221)의 워크에리어를 구성한다. CPU(221)는, 플래시 ROM(222)으로부터 판독한 소프트웨어나 데이터를 DRAM(223) 상에 전개해서 소프트웨어를 기동시켜, 서비스 수신기(200)의 각 부를 제어한다.

리모컨 수신부(225)는, 리모컨 송신기(226)로부터 송신된 리모트 컨트롤 신호(리모컨 코드)를 수신하여, CPU(221)에 공급한다. CPU(221)는, 이 리모컨 코드에 기초하여, 서비스 수신기(200)의 각 부를 제어한다. CPU(221), 플래시 ROM(222) 및 DRAM(223)은, 내부 버스(224)에 접속되어 있다.

수신부(201)는, 서비스 송신기(100)로부터 방송파 또는 네트의 패킷에 실려 보내져 오는 트랜스포트 스트림 TS를 수신한다. 이 트랜스포트 스트림 TS는, 비디오 스트림 이외에, 소정수의 오디오 스트림을 갖고 있다.

도 23은, 수신되는 오디오 스트림의 일례를 나타내고 있다. 도 23의 (a)는 스트림 구성(1)의 경우의 예를 나타내고 있다. 이 경우, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함함과 함께, 그 유저 데이터 영역에 MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터가 삽입되어 있는 메인 스트림만이 존재한다. 메인 스트림은 PID2로 식별된다.

도 23의 (b)는 스트림 구성(2)의 경우의 예를 나타내고 있다. 이 경우, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함하는 메인 스트림이 존재함과 함께, MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터를 포함하는 소정수의 서브 스트림, 여기서는 1개의 서브 스트림이 존재한다. 메인 스트림은 PID2로 식별되고, 서브 스트림은 PID3으로 식별된다. 또한, 스트림 구성은, 메인을 PID3으로, 서브를 PID2로 하는 것도 가능한 것은 당연하다.

TS 해석부(202)는, 트랜스포트 스트림 TS로부터 비디오 스트림의 패킷을 추출하여, 비디오 디코더(203)에 보낸다. 비디오 디코더(203)는, TS 해석부(202)에서 추출된 비디오의 패킷으로부터 비디오 스트림을 재구성하고, 복호화 처리를 행해서 비압축의 화상 데이터를 얻는다.

영상 처리 회로(204)는, 비디오 디코더(203)에서 얻어진 비디오 데이터에 대하여 스케일링 처리, 화질 조정 처리 등을 행하여, 표시용 비디오 데이터를 얻는다. 패널 구동 회로(205)는, 영상 처리 회로(204)에서 얻어지는 표시용 화상 데이터에 기초하여, 표시 패널(206)을 구동한다. 표시 패널(206)은, 예를 들어 LCD(Liquid Crystal Display), 유기 EL 디스플레이(organic electroluminescence display) 등으로 구성되어 있다.

또한, TS 해석부(202)는, 트랜스포트 스트림 TS로부터 디스크립터 정보 등의 각종 정보를 추출하여, CPU(221)에 보낸다. 스트림 구성(1)의 경우, 각종 정보에는, 언실러리 데이터 디스크립터(Ancillary_data_descriptor) 및 3D 오디오 스트림 컨피그 디스크립터(3Daudio_stream_config_descriptor)의 정보도 포함된다(도 16 참조). CPU(221)는, 이 디스크립터 정보로부터, 채널 부호화 데이터를 포함하는 메인 스트림의 유저 데이터 영역에 오브젝트 부호화 데이터가 삽입되어 있음을 인식할 수 있고, 또한 각 그룹의 오브젝트 부호화 데이터의 속성 등을 인식한다.

또한, 스트림 구성(2)의 경우, 각종 정보에는, 3D 오디오 스트림 컨피그 디스크립터(3Daudio_stream_config_descriptor) 및 3D 오디오 스트림 ID 디스크립터(3Daudio_substreamID_descriptor)의 정보도 포함된다(도 21 참조). CPU(221)는, 이 디스크립터 정보로부터, 각 그룹의 오브젝트 부호화 데이터의 속성이나, 각 그룹의 오브젝트 부호화 데이터가 어느 서브 스트림에 포함되어 있는지 등을 인식한다.

또한, TS 해석부(202)는, CPU(221)의 제어 하, 트랜스포트 스트림 TS가 갖는 소정수의 오디오 스트림을 PID 필터에서 선택적으로 취출한다. 즉, 스트림 구성(1)의 경우에는, 메인 스트림을 취출한다. 한편, 스트림 구성(2)의 경우에는, 메인 스트림을 취출함과 함께, 소정수의 서브 스트림을 취출한다.

다중화 버퍼(211-1 내지 211-M)는, 각각 TS 해석부(202)에서 취출되는 오디오 스트림(메인 스트림만 또는 메인 스트림 및 서브 스트림)을 도입한다. 여기서, 다중화 버퍼(211-1 내지 211-M)의 개수 M으로서는 필요 충분한 개수로 되지만, 실제의 동작에서는, TS 해석부(202)에서 취출되는 오디오 스트림의 수만큼 사용되게 된다.

컴바이너(212)는, 다중화 버퍼(211-1 내지 211-M) 중 TS 해석부(202)에서 취출되는 각 오디오 스트림이 각각 도입된 다중화 버퍼로부터, 오디오 프레임마다, 오디오 스트림을 판독하여, 3D 오디오 디코더(213)에 보낸다.

3D 오디오 디코더(213)는, CPU(221)의 제어 하에, 채널 부호화 데이터 및 오브젝트 부호화 데이터를 취출하여, 디코드 처리를 실시하고, 스피커 시스템(215)의 각 스피커를 구동하기 위한 오디오 데이터를 얻는다. 이 경우, 스트림 구성(1)의 경우에는, 메인 스트림으로부터 채널 부호화 데이터를 취출함과 함께, 그 유저 데이터 영역으로부터 오브젝트 부호화 데이터를 취출한다. 한편, 스트림 구성(2)의 경우에는, 메인 스트림으로부터 채널 부호화 데이터를 취출함과 함께, 서브 스트림으로부터 오브젝트 부호화 데이터를 취출한다.

3D 오디오 디코더(213)는, 채널 부호화 데이터를 디코드할 때는, 스피커 시스템(215)의 스피커 구성에의 다운 믹스나 업 믹스의 처리를 필요에 따라 행하여, 각 스피커를 구동하기 위한 오디오 데이터를 얻는다. 또한, 3D 오디오 디코더(213)는, 오브젝트 부호화 데이터를 디코드할 때는, 오브젝트 정보(메타데이터)에 기초하여 스피커 렌더링(각 스피커에의 믹싱 비율)을 계산하고, 그 계산 결과에 따라, 오브젝트의 오디오 데이터를, 각 스피커를 구동하기 위한 오디오 데이터에 믹싱한다.

음성 출력 처리 회로(214)는, 3D 오디오 디코더(213)에서 얻어진 각 스피커를 구동하기 위한 오디오 데이터에 대하여 D/A 변환이나 증폭 등의 필요한 처리를 행하여, 스피커 시스템(215)에 공급한다. 스피커 시스템(215)은, 복수 채널, 예를 들어 2채널, 5.1채널, 7.1채널, 22.2채널 등의 복수의 스피커를 구비한다.

도 22에 도시하는 서비스 수신기(200)의 동작을 간단하게 설명한다. 수신부(201)에서는, 서비스 송신기(100)로부터 방송파 또는 네트의 패킷에 실려 보내져 오는 트랜스포트 스트림 TS가 수신된다. 이 트랜스포트 스트림 TS는, 비디오 스트림 이외에, 소정수의 오디오 스트림을 갖고 있다.

예를 들어, 스트림 구성(1)의 경우, 오디오 스트림으로서, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함함과 함께, 그 유저 데이터 영역에 MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터가 삽입되어 있는 메인 스트림만이 존재한다.

또한, 예를 들어 스트림 구성(2)의 경우, 오디오 스트림으로서, MPEG4 AAC로 부호화된 채널 부호화 데이터를 포함하는 메인 스트림이 존재함과 함께, MPEG-H 3D Audio로 부호화된 소정수의 그룹의 오브젝트 부호화 데이터를 포함하는 소정수의 서브 스트림이 존재한다.

TS 해석부(202)에서는, 트랜스포트 스트림 TS로부터 비디오 스트림의 패킷이 추출되어, 비디오 디코더(203)에 공급된다. 비디오 디코더(203)에서는, TS 해석부(202)에서 추출된 비디오의 패킷으로부터 비디오 스트림이 재구성되고, 디코드 처리가 행하여져, 비압축의 비디오 데이터가 얻어진다. 이 비디오 데이터는, 영상 처리 회로(204)에 공급된다.

영상 처리 회로(204)에서는, 비디오 디코더(203)에서 얻어진 비디오 데이터에 대하여 스케일링 처리, 화질 조정 처리 등이 행하여져, 표시용 비디오 데이터가 얻어진다. 이 표시용 비디오 데이터는 패널 구동 회로(205)에 공급된다. 패널 구동 회로(205)에서는, 표시용 비디오 데이터에 기초하여, 표시 패널(206)을 구동하는 일이 행하여진다. 이에 의해, 표시 패널(206)에는, 표시용 비디오 데이터에 대응한 화상이 표시된다.

또한, TS 해석부(202)에서는, 트랜스포트 스트림 TS로부터 디스크립터 정보 등의 각종 정보가 추출되어, CPU(221)에 보내진다. 스트림 구성(1)의 경우, 각종 정보에는, 언실러리 데이터 디스크립터 및 3D 오디오 스트림 컨피그 디스크립터의 정보도 포함된다(도 16 참조). CPU(221)에서는, 이 디스크립터 정보로부터, 채널 부호화 데이터를 포함하는 메인 스트림의 유저 데이터 영역에 오브젝트 부호화 데이터가 삽입되어 있음이 인식되고, 또한 각 그룹의 오브젝트 부호화 데이터의 속성 등이 인식된다.

또한, 스트림 구성(2)의 경우, 각종 정보에는, 3D 오디오 스트림 컨피그 디스크립터 및 3D 오디오 스트림 ID 디스크립터의 정보도 포함된다(도 21 참조). CPU(221)는, 이 디스크립터 정보로부터, 각 그룹의 오브젝트 부호화 데이터의 속성이나, 각 그룹의 오브젝트 부호화 데이터가 어느 서브 스트림에 포함되어 있는지 등이 인식된다.

TS 해석부(202)에서는, CPU(221)의 제어 하, 트랜스포트 스트림 TS가 갖는 소정수의 오디오 스트림이 PID 필터에서 선택적으로 취출된다. 즉, 스트림 구성(1)의 경우에는, 메인 스트림이 취출된다. 한편, 스트림 구성(2)의 경우에는, 메인 스트림이 취출됨과 함께, 소정수의 서브 스트림이 취출된다.

다중화 버퍼(211-1 내지 211-M)에서는, 각각 TS 해석부(202)에서 취출되는 오디오 스트림(메인 스트림만 또는 메인 스트림 및 서브 스트림)이 도입된다. 컴바이너(212)에서는, 오디오 스트림이 도입된 각 다중화 버퍼로부터, 오디오 프레임마다, 오디오 스트림이 판독되어, 3D 오디오 디코더(213)에 공급된다.

3D 오디오 디코더(213)에서는, CPU(221)의 제어 하, 채널 부호화 데이터 및 오브젝트 부호화 데이터가 취출되어, 디코드 처리가 실시되고, 스피커 시스템(215)의 각 스피커를 구동하기 위한 오디오 데이터가 얻어진다. 이 경우, 스트림 구성(1)의 경우에는, 메인 스트림으로부터 채널 부호화 데이터가 취출됨과 함께, 그 유저 데이터 영역으로부터 오브젝트 부호화 데이터가 취출된다. 한편, 스트림 구성(2)의 경우에는, 메인 스트림으로부터 채널 부호화 데이터가 취출됨과 함께, 서브 스트림으로부터 오브젝트 부호화 데이터가 취출된다.

여기서, 채널 부호화 데이터가 디코드될 때는, 스피커 시스템(215)의 스피커 구성에의 다운 믹스나 업 믹스의 처리가 필요에 따라서 행하여져, 각 스피커를 구동하기 위한 오디오 데이터가 얻어진다. 또한, 오브젝트 부호화 데이터가 디코드될 때는, 오브젝트 정보(메타데이터)에 기초하여 스피커 렌더링(각 스피커에의 믹싱 비율)이 계산되고, 그 계산 결과에 따라, 오브젝트의 오디오 데이터가 각 스피커를 구동하기 위한 오디오 데이터에 믹싱된다.

3D 오디오 디코더(213)에서 얻어진 각 스피커를 구동하기 위한 오디오 데이터는, 음성 출력 처리 회로(214)에 공급된다. 이 음성 출력 처리 회로(214)에서는, 각 스피커를 구동하기 위한 오디오 데이터에 대하여 D/A 변환이나 증폭 등의 필요한 처리가 행하여진다. 그리고, 처리 후의 오디오 데이터는 스피커 시스템(215)에 공급된다. 이에 의해, 스피커 시스템(215)으로부터는 표시 패널(206)의 표시 화상에 대응한 음향 출력이 얻어진다.

도 24는, 스트림 구성(1)의 경우의 오디오 디코드 처리를 개략적으로 나타내고 있다. 다중화 스트림인 트랜스포트 스트림 TS가 TS 해석부(202)에 입력된다. TS 해석부(202)에서는, 시스템 레이어의 해석이 행하여지고, 디스크립터 정보(언실러리 데이터 디스크립터 및 3D 오디오 스트림 컨피그 디스크립터의 정보)가 CPU(221)에 공급된다.

CPU(221)에서는, 이 디스크립터 정보에 기초하여, 채널 부호화 데이터를 포함하는 메인 스트림의 유저 데이터 영역에 오브젝트 부호화 데이터가 삽입되어 있는 것이 인식되고, 또한 각 그룹의 오브젝트 부호화 데이터의 속성 등이 인식된다. TS 해석부(202)에서는, CPU(221)의 제어 하, 메인 스트림의 패킷이 PID 필터에서 선택적으로 취출되어, 다중화 버퍼(211)(211-1 내지 211-M)에 도입된다.

3D 오디오 디코더(213)의 오디오 채널 디코더에서는, 다중화 버퍼(211)에 도입된 메인 스트림에 대한 처리가 행하여진다. 즉, 오디오 채널 디코더에서는, 메인 스트림으로부터 오브젝트 부호화 데이터가 배치된 DSE가 취출되어, CPU(221)에 보내진다. 또한, 종래의 수신기 오디오 채널 디코더에서는, 이 DSE는 읽고나서 버려지므로, 호환성이 확보된다.

또한, 오디오 채널 디코더에서는, 메인 스트림으로부터 채널 부호화 데이터가 취출되어 디코드 처리가 실시되고, 각 스피커를 구동하기 위한 오디오 데이터가 얻어진다. 이때, 오디오 채널 디코더와 CPU(221) 사이에서 채널수 정보의 송수신이 행하여져, 스피커 시스템(215)의 스피커 구성에의 다운 믹스나 업 믹스의 처리가 필요에 따라서 행하여진다.

CPU(221)에서는, DSE의 해석이 행하여지고, 그 안에 배치되어 있는 오브젝트 부호화 데이터가 3D 오디오 디코더(213)의 오디오 오브젝트 디코더에 보내진다. 오디오 오브젝트 디코더에서는, 오브젝트 부호화 데이터가 디코드되고, 오브젝트의 메타데이터 및 오디오 데이터가 얻어진다.

오디오 채널 인코더에서 얻어진 각 스피커를 구동하기 위한 오디오 데이터는 믹싱/렌더링부에 공급된다. 또한, 오디오 오브젝트 디코더에서 얻어진 오브젝트의 메타데이터 및 오디오 데이터도 믹싱/렌더링부에 공급된다.

믹싱/렌더링부에서는, 오브젝트의 메타데이터에 기초하여, 오브젝트의 오디오 데이터의 스피커 출력 타깃에 대한 음성 공간에의 맵핑을 계산하고, 그 계산 결과를 채널 데이터에 가산 합성함으로써, 디코드 출력으로 된다.

도 25는, 스트림 구성(2)의 경우의 오디오 디코드 처리를 개략적으로 나타내고 있다. 다중화 스트림인 트랜스포트 스트림 TS가 TS 해석부(202)에 입력된다. TS 해석부(202)에서는, 시스템 레이어의 해석이 행하여지고, 디스크립터 정보(3D 오디오 스트림 컨피그 디스크립터 및 3D 오디오 스트림 ID 디스크립터의 정보)가 CPU(221)에 공급된다.

CPU(221)에서는, 이 디스크립터 정보에 기초하여, 이들 디스크립터 정보로부터, 각 그룹의 오브젝트 부호화 데이터의 속성이나, 각 그룹의 오브젝트 부호화 데이터가 어느 서브 스트림에 포함되어 있는지 등이 인식된다. TS 해석부(202)에서는, CPU(221)의 제어 하, 메인 스트림 및 소정수의 서브 스트림의 패킷이 PID 필터에서 선택적으로 취출되어, 다중화 버퍼(211)(211-1 내지 211-M)에 도입된다. 또한, 종래의 수신기에서는, 서브 스트림의 패킷은 PID 필터에서 취출되지 않고, 메인 스트림만이 취출되므로, 호환성이 확보된다.

3D 오디오 디코더(213)의 오디오 채널 디코더에서는, 다중화 버퍼(211)에 도입된 메인 스트림으로부터 채널 부호화 데이터가 취출되어 디코드 처리가 실시되고, 각 스피커를 구동하기 위한 오디오 데이터가 얻어진다. 이때, 오디오 채널 디코더와 CPU(221) 사이에서 채널수 정보의 송수신이 행하여지고, 스피커 시스템(215)의 스피커 구성에의 다운 믹스나 업 믹스의 처리가 필요에 따라서 행하여진다.

또한, 3D 오디오 디코더(213)의 오디오 오브젝트 디코더에서는, 다중화 버퍼(211)에 도입된 소정수의 서브 스트림으로부터, 유저의 선택 등에 기초해서 필요해지는 소정수의 그룹의 오브젝트 부호화 데이터가 취출되어 디코드 처리가 실시되고, 오브젝트의 메타데이터 및 오디오 데이터가 얻어진다.

상술한 바와 같이, 도 1에 도시하는 송수신 시스템(10)에 있어서, 서비스 송신기(100)는 3D 오디오의 전송 데이터를 구성하는 채널 부호화 데이터 및 오브젝트 부호화 데이터를 갖는 소정수의 오디오 스트림을 송신하고, 이 소정수의 오디오 스트림은 오브젝트 부호화 데이터가 이 오브젝트 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 생성되어 있다. 그로 인해, 전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 3D 오디오의 신규 서비스를 제공하는 것이 가능하게 된다.

<2. 변형예>

또한, 상술 실시 형태에 있어서, 채널 부호화 데이터의 부호화 방식이 MPEG4 AAC인 예를 나타냈지만, 기타의 부호화 방식, 예를 들어 AC3, AC4 등도 마찬가지로 생각된다. 도 26은, AC3의 프레임(AC3 Synchronization Frame)의 구조를 나타내고 있다. 「Audblock 5」의 “mantissa data”와, 「AUX」와, 「CRC」와의 합계 사이즈가 전체의 3/8을 초과하지 않도록, 채널 데이터가 인코딩된다. AC3의 경우, 「AUX」의 에리어에 메타데이터 MD가 삽입된다. 도 27은, AC3의 보조 데이터(Auxiliary Data)의 구성(syntax)을 나타내고 있다.

「auxdatae」가 “1”일 때, 「aux data」가 인에이블되고, 「auxdatal」의 14비트(비트 단위)로 나타나는 사이즈의 데이터가, 「auxbits」 중에 정의된다. 그 때의 「auxbits」의 사이즈는 「nauxbits」에 기재된다. 스트림 구성(1)의 경우, 이 「auxbits」의 필드에, 상술한 도 8의 (a)에 나타내는 「metadata()」가 삽입되고, 그 「data_byte」의 필드에, 오브젝트 부호화 데이터가 배치된다.

도 28의 (a)는 AC4의 심플 트랜스포트(Simple Transport)의 레이어의 구조를 나타내고 있다. 이 AC4는, AC3의 차세대 오디오 부호화 포맷의 하나로 되어 있다. 싱크 워드(syncWord)의 필드와, 프레임 길이(frame Length)의 필드와, 부호화 데이터의 필드로서의 「RawAc4Frame」의 필드와, CRC 필드가 존재한다. 「RawAc4Frame」의 필드에는, 도 28의 b에 도시하는 바와 같이, 선두에 TOC(Table Of Content)의 필드가 존재하고, 그 후의 소정수의 서브 스트림(Substream)의 필드가 존재한다.

도 29의 (b)에 도시하는 바와 같이, 서브 스트림(ac4_substream_data()) 중에는, 메타데이터 영역(metadata)이 존재하고, 그 안에 「umd_payloads_substream()」의 필드가 설치된다. 스트림 구성(1)의 경우, 이 「umd_payloads_substream()」의 필드에, 오브젝트 부호화 데이터가 배치된다.

또한, 도 29의 (a)에 도시하는 바와 같이, TOC(ac4_toc()) 안에는 「ac4_presentation_info()」의 필드가 존재하고, 또한 그 안에 「umd_info()」의 필드가 존재하고, 그 안에 상술한 「umd_payloads_substream())」의 필드에 메타데이터의 삽입이 있는 것이 나타난다.

도 30은, 「umd_info()」의 구성(syntax)을 나타내고 있다. 「umd_version」의 필드는, umd 신택스의 버전 번호를 나타낸다. 「K_id」는, '0x6'로서 임의의 정보를 컨테이너하는 것을 나타낸다. 버전 번호와 「k_id」값의 조합으로 「umd_payloads_substream()」의 페이로드에 메타데이터의 삽입이 있음을 나타내는 것으로서 정의된다.

도 31은, 「umd_payloads_substream()」의 구성(syntax)을 나타내고 있다. 「umd_payload_id」의 5비트 필드는, 「object_data_byte」가 컨테이너되는 것을 나타내는 ID 값으로 하고, “0” 이외의 값으로 된다. 「umd_payload_size」의 16비트 필드는, 그 필드 이후의 바이트수를 나타낸다. 「userdata_synccode」의 8비트 필드는, 메타데이터의 스타트 코드이며, 메타데이터의 내용을 나타낸다. 예를 들어, “0x10”은, MPEG-H 방식(MPEG-H 3D Audio)의 오브젝트 부호 데이터인 것을 나타낸다. 「object_data_byte」의 영역에, 오브젝트 부호화 데이터가 배치된다.

또한, 상술 실시 형태에 있어서는, 채널 부호화 데이터의 부호화 방식이 MPEG4 AAC이며, 오브젝트 부호화 데이터의 부호화 방식이 MPEG-H 3D Audio이며, 채널 부호화 데이터와 오브젝트 부호화 데이터의 부호화 방식이 상이한 예를 나타냈다. 그러나, 이들 2개의 부호화 데이터의 부호화 방식이 동일한 경우도 생각된다. 예를 들어, 채널 부호화 데이터의 부호화 방식이 AC4로 되고, 오브젝트 부호화 데이터의 부호화 방식도 AC4로 되는 경우 등이다.

또한, 상술 실시 형태에 있어서는, 제1 부호화 데이터가 채널 부호화 데이터이며, 이 제1 부호화 데이터에 관련된 제2 부호화 데이터가 오브젝트 부호화 데이터인 예를 나타냈다. 그러나, 제1 부호화 데이터와 제2 부호화 데이터의 조합은, 이것에 한정되는 것은 아니다. 본 기술은, 여러 가지 스케일러블 확장, 예를 들어 채널수 확장, 샘플링 레이트 확장을 행하는 경우에도 마찬가지로 적용할 수 있다.

「채널수 확장의 예」

제1 부호화 데이터로서 종래 5.1 채널의 부호화 데이터를 송신하고, 제2 부호화 데이터로서 추가 채널 분의 부호화 데이터를 송신한다. 종래의 디코더는 5.1채널의 엘리먼트만 디코드하고, 추가 채널 대응의 디코더는 모두를 디코드한다.

「샘플링 레이트 확장」

제1 부호화 데이터로서 종래의 오디오 샘플링 레이트에 의한 오디오 샘플 데이터의 부호화 데이터를 송신하고, 제2 부호화 데이터로서 보다 고샘플링 레이트의 오디오 샘플 데이터의 부호화 데이터를 송신한다. 종래의 디코더는 종래의 샘플링 레이트 데이터만 디코드하고, 고샘플링 레이트 대응의 디코더는 모두를 디코드한다.

또한, 상술 실시 형태에 있어서는, 컨테이너가 트랜스포트 스트림(MPEG-2TS)인 예를 나타냈다. 그러나, 본 기술은, MP4나 그 이외의 포맷의 컨테이너에서 배신되는 시스템에도 마찬가지로 적용할 수 있다. 예를 들어, MPEG-DASH 베이스의 스트림 배신 시스템 또는 MMT(MPEG Media Transport) 구조 전송 스트림을 취급하는 송수신 시스템 등이다.

또한, 상술 실시 형태에 있어서는, 제1 부호화 데이터가 채널 부호화 데이터이며, 제2 부호화 데이터가 오브젝트 부호화 데이터인 예를 나타냈다. 그러나, 제2 부호화 데이터가, 다른 채널 부호화 데이터 또는 오브젝트 부호화 데이터 및 채널 부호화 데이터인 경우도 생각된다.

또한, 본 기술은, 이하와 같은 구성도 취할 수 있다.

(1) 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하는 인코드부와,

상기 인코드부는, 상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림을 생성하는 송신 장치.

(2) 상기 제1 부호화 데이터의 부호화 방식과 상기 제2 부호화 데이터의 부호화 방식은 상이한 상기 (1)에 기재된 송신 장치.

(3) 상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터인 상기 (2)에 기재된 송신 장치.

(4) 상기 제1 부호화 데이터의 부호화 방식은 MPEG4 AAC이며, 상기 제2 부호화 데이터의 부호화 방식은 MPEG-H 3D Audio인 상기 (3)에 기재된 송신 장치.

(5) 상기 인코드부는,

상기 제1 부호화 데이터를 갖는 오디오 스트림을 생성함과 함께, 해당 오디오 스트림의 유저 데이터 영역에 상기 제2 부호화 데이터를 삽입하는 상기 (1) 내지 (4) 중 어느 한 항에 기재된 송신 장치.

(6) 상기 컨테이너의 레이어에, 해당 컨테이너에 포함되는 상기 제1 부호화 데이터를 갖는 오디오 스트림의 유저 데이터 영역에, 해당 제1 부호화 데이터에 관련된 제2 부호화 데이터의 삽입이 있음을 식별하는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는 상기 (5)에 기재된 송신 장치.

(7) 상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터이며,

상기 오디오 스트림의 유저 데이터 영역에는, 소정수의 그룹의 오브젝트 부호화 데이터가 삽입되고,

상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하는 상기 (5) 또는 (6)에 기재된 송신 장치.

(8) 상기 인코드부는,

상기 제1 부호화 데이터를 포함하는 제1 오디오 스트림을 생성함과 함께, 상기 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림을 생성하는 상기 (1) 내지 (4) 중 어느 한 항에 기재된 송신 장치.

(9) 상기 소정수의 제2 오디오 스트림에는, 소정수의 그룹의 오브젝트 부호화 데이터가 포함되고,

상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하는 상기 (8)에 기재된 송신 장치.

(10) 상기 정보 삽입부는,

상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터가 각각 어느 상기 제2 오디오 스트림에 포함되는지를 나타내는 스트림 대응 관계 정보를 더 삽입하는 상기 (9)에 기재된 송신 장치.

(11) 상기 스트림 대응 관계 정보는,

상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각을 식별하는 그룹 식별자와 상기 소정수의 제2 오디오 스트림의 각각을 식별하는 스트림 식별자와의 대응 관계를 나타내는 정보인 상기 (10)에 기재된 송신 장치.

(12) 상기 정보 삽입부는,

상기 컨테이너의 레이어에, 상기 소정수의 제2 오디오 스트림의 각각의 스트림 식별자를 나타내는 스트림 식별자 정보를 더 삽입하는 상기 (11)에 기재된 송신 장치.

(13) 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하는 인코드 스텝과,

송신부에 의해, 상기 생성된 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신 스텝을 갖고,

상기 인코드 스텝에서는, 상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림을 생성하는 송신 방법.

(14) 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,

상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림이 생성되고 있고,

상기 컨테이너에 포함되는 상기 소정수의 오디오 스트림으로부터 상기 제1 부호화 데이터 및 상기 제2 부호화 데이터를 추출해서 처리하는 처리부를 더 구비하는 수신 장치.

(15) 상기 제1 부호화 데이터의 부호화 방식과 상기 제2 부호화 데이터의 부호화 방식은 상이한 상기 (14)에 기재된 수신 장치.

(16) 상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터인 상기 (14) 또는 (15)에 기재된 수신 장치.

(17) 상기 컨테이너에는, 상기 제1 부호화 데이터를 가짐과 함께, 유저 데이터 영역에 상기 제2 부호화 데이터가 삽입된 오디오 스트림이 포함되어 있는 상기 (14) 내지 (16) 중 어느 한 항에 기재된 수신 장치.

(18) 상기 컨테이너에는, 상기 제1 부호화 데이터를 포함하는 제1 오디오 스트림과 상기 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림이 포함되어 있는 상기 (14) 내지 (16) 중 어느 한 항에 기재된 수신 장치.

(19) 수신부에 의해, 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신 스텝을 갖고,

상기 컨테이너에 포함되는 상기 소정수의 오디오 스트림으로부터 상기 제1 부호화 데이터 및 상기 제2 부호화 데이터를 추출해서 처리하는 처리 스텝을 갖는 수신 방법.

본 기술의 주된 특징은, 채널 부호화 데이터를 포함함과 함께 그 유저 데이터 영역에 오브젝트 부호화 데이터가 삽입되어 있는 오디오 스트림을 송신하거나, 또는 채널 부호화 데이터를 포함하는 오디오 스트림과 함께 오브젝트 부호화 데이터를 포함하는 오디오 스트림을 송신함으로써, 전송 대역의 유효 이용을 해치지 않고, 종래의 오디오 수신기와의 호환성을 가지게 해서, 3D 오디오의 신규 서비스를 제공 가능하게 한 것이다(도 2 참조).

10 : 송수신 시스템
100 : 서비스 송신기
110A, 110B : 스트림 생성부
112, 122 : 비디오 인코더
113, 123 : 오디오 채널 인코더
114, 124-1 내지 124-N : 오디오 오브젝트 인코더
115, 125 : TS 포매터
114 : 멀티플렉서
200 : 서비스 수신기
201 : 수신부
202 : TS 해석부
203 : 비디오 디코더
204 : 영상 처리 회로
205 : 패널 구동 회로
206 : 표시 패널
211-1 내지 211-M : 다중화 버퍼
212 : 컴바이너
213 : 3D 오디오 디코더
214 : 음성 출력 처리 회로
215 : 스피커 시스템
221 : CPU
222 : 플래시 ROM
223 : DRAM
224 : 내부 버스
225 : 리모컨 수신부
226 : 리모컨 송신기

Claims

제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하는 인코드부와,
상기 생성된 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부를 구비하고,
상기 인코드부는, 상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림을 생성하는 송신 장치.
제1항에 있어서,
상기 제1 부호화 데이터의 부호화 방식과 상기 제2 부호화 데이터의 부호화 방식은 상이한 송신 장치.
제2항에 있어서,
상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터인 송신 장치.
제3항에 있어서,
상기 제1 부호화 데이터의 부호화 방식은 MPEG4 AAC이며, 상기 제2 부호화 데이터의 부호화 방식은 MPEG-H 3D Audio인 송신 장치.
제1항에 있어서,
상기 인코드부는,
상기 제1 부호화 데이터를 갖는 오디오 스트림을 생성함과 함께, 해당 오디오 스트림의 유저 데이터 영역에 상기 제2 부호화 데이터를 삽입하는 송신 장치.
제5항에 있어서,
상기 컨테이너의 레이어에, 해당 컨테이너에 포함되는 상기 제1 부호화 데이터를 갖는 오디오 스트림의 유저 데이터 영역에, 해당 제1 부호화 데이터에 관련된 제2 부호화 데이터의 삽입이 있음을 식별하는 식별 정보를 삽입하는 정보 삽입부를 더 구비하는 송신 장치.
제5항에 있어서,
상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터이며,
상기 오디오 스트림의 유저 데이터 영역에는, 소정수의 그룹의 오브젝트 부호화 데이터가 삽입되고,
상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하는 송신 장치.
제1항에 있어서,
상기 인코드부는,
상기 제1 부호화 데이터를 포함하는 제1 오디오 스트림을 생성함과 함께, 상기 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림을 생성하는 송신 장치.
제8항에 있어서,
상기 소정수의 제2 오디오 스트림에는, 소정수의 그룹의 오브젝트 부호화 데이터가 포함되고,
상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각의 속성을 나타내는 속성 정보를 삽입하는 정보 삽입부를 더 구비하는 송신 장치.
제9항에 있어서,
상기 정보 삽입부는,
상기 컨테이너의 레이어에, 상기 소정수의 그룹의 오브젝트 부호화 데이터가 각각 어느 상기 제2 오디오 스트림에 포함되는지를 나타내는 스트림 대응 관계 정보를 더 삽입하는 송신 장치.
제10항에 있어서,
상기 스트림 대응 관계 정보는,
상기 소정수의 그룹의 오브젝트 부호화 데이터의 각각을 식별하는 그룹 식별자와 상기 소정수의 제2 오디오 스트림의 각각을 식별하는 스트림 식별자와의 대응 관계를 나타내는 정보인 송신 장치.
제11항에 있어서,
상기 정보 삽입부는,
상기 컨테이너의 레이어에, 상기 소정수의 제2 오디오 스트림의 각각의 스트림 식별자를 나타내는 스트림 식별자 정보를 더 삽입하는 송신 장치.
제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 생성하는 인코드 스텝과,
송신부에 의해, 상기 생성된 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신 스텝을 갖고,
상기 인코드 스텝에서는, 상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림을 생성하는 송신 방법.
제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,
상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림이 생성되어 있고,
상기 컨테이너에 포함되는 상기 소정수의 오디오 스트림으로부터 상기 제1 부호화 데이터 및 상기 제2 부호화 데이터를 추출해서 처리하는 처리부를 더 구비하는 수신 장치.
제14항에 있어서,
상기 제1 부호화 데이터의 부호화 방식과 상기 제2 부호화 데이터의 부호화 방식은 상이한 수신 장치.
제14항에 있어서,
상기 제1 부호화 데이터는 채널 부호화 데이터이며, 상기 제2 부호화 데이터는 오브젝트 부호화 데이터인 수신 장치.
제14항에 있어서,
상기 컨테이너에는, 상기 제1 부호화 데이터를 가짐과 함께, 유저 데이터 영역에 상기 제2 부호화 데이터가 삽입된 오디오 스트림이 포함되어 있는 수신 장치.
제14항에 있어서,
상기 컨테이너에는, 상기 제1 부호화 데이터를 포함하는 제1 오디오 스트림과 상기 제2 부호화 데이터를 포함하는 소정수의 제2 오디오 스트림이 포함되어 있는 수신 장치.
수신부에 의해, 제1 부호화 데이터 및 이 제1 부호화 데이터에 관련된 제2 부호화 데이터를 갖는 소정수의 오디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신 스텝을 갖고,
상기 제2 부호화 데이터가 이 제2 부호화 데이터에 대응하고 있지 않은 수신기에서는 버려지도록 상기 소정수의 오디오 스트림이 생성되고 있고,
상기 컨테이너에 포함되는 상기 소정수의 오디오 스트림으로부터 상기 제1 부호화 데이터 및 상기 제2 부호화 데이터를 추출해서 처리하는 처리 스텝을 갖는 수신 방법.