KR102422493B1

KR102422493B1 - 정보 처리 장치 및 정보 처리 방법

Info

Publication number: KR102422493B1
Application number: KR1020167034549A
Authority: KR
Inventors: 미츠히로 히라바야시; 유키 야마모토; 도루 치넨; 룬위 스
Original assignee: 소니그룹주식회사
Priority date: 2014-06-30
Filing date: 2015-06-30
Publication date: 2022-07-20
Also published as: JPWO2016002738A1; JP2021061628A; KR20220104290A; AU2015285344A1; AU2020289874A1; KR20170021778A; CN106471574B; CA2953242C; KR20240065194A; US20180165358A1; JP2022133422A; JP2024038407A; RU2702233C2; RU2016150994A; EP3163570A4; MX2019010556A; EP3163570A1; JP7103402B2; CN113851139A; US20210326378A1

Abstract

본 개시는, 복수 종류의 음성 데이터 중 소정 종류의 음성 데이터를 용이하게 재생할 수 있도록 하는 정보 처리 장치 및 정보 처리 방법에 관한 것이다. 파일 생성 장치는, 복수 그룹의 오디오 스트림이 1 이상의 그룹마다 트랙으로 분할되어 배치됨과 함께, 복수의 그룹에 관한 정보가 배치된 음성 파일을 생성한다. 본 개시는, 예를 들어, 파일을 생성하는 파일 생성 장치, 파일 생성 장치에 의해 생성된 파일을 기록하는 Web 서버, 및 파일을 재생하는 동화상 재생 단말기에 의해 구성되는 정보 처리 시스템 등에 적용할 수 있다.

Description

정보 처리 장치 및 정보 처리 방법{INFORMATION PROCESSOR AND INFORMATION-PROCESSING METHOD}

본 개시는, 정보 처리 장치 및 정보 처리 방법에 관한 것으로, 특히, 복수 종류의 음성 데이터 중 소정 종류의 음성 데이터를 용이하게 재생할 수 있도록 한 정보 처리 장치 및 정보 처리 방법에 관한 것이다.

최근, 인터넷상의 스트리밍 서비스의 주류가 OTT-V(Over The Top Video)로 되었다. 이 기반 기술로서 보급되기 시작한 것이 MPEG-DASH(Moving Picture Experts Group phase-Dynamic Adaptive Streaming over HTTP)이다(예를 들어, 비특허문헌 1 참조).

MPEG-DASH에서는, 배신 서버가 1개의 동화상 콘텐츠용으로 화면 사이즈와 부호화 속도가 서로 다른 동화상 데이터군을 준비하고, 재생 단말기가 전송로의 상황에 따라서 최적의 화면 사이즈와 부호화 속도의 동화상 데이터군을 요구함으로써, 적응형의 스트리밍 배신이 실현된다.

MPEG-DASH(Dynamic Adaptive Streaming over HTTP) (URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)

그러나, 복수 그룹의 음성 데이터 중 소정 그룹의 음성 데이터를 용이하게 재생하는 것은 고려되어 있지 않다.

본 개시는, 이와 같은 상황을 감안하여 이루어진 것으로, 복수 그룹의 음성 데이터 중 원하는 그룹의 음성 데이터를 용이하게 재생할 수 있도록 하는 것이다.

본 개시의 제1 측면의 정보 처리 장치는, 복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일을 생성하는 파일 생성부를 구비하는 정보 처리 장치이다.

본 개시의 제1 측면의 정보 처리 방법은, 본 개시의 제1 측면의 정보 처리 장치에 대응한다.

본 개시의 제1 측면에 있어서는, 복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일이 생성된다.

본 개시의 제2 측면의 정보 처리 장치는, 복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일로부터, 소정 트랙의 상기 음성 데이터를 재생하는 재생부를 구비하는 정보 처리 장치이다.

본 개시의 제2 측면의 정보 처리 방법은, 본 개시의 제2 측면의 정보 처리 장치에 대응한다.

본 개시의 제2 측면에 있어서는, 복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일로부터, 소정 트랙의 상기 음성 데이터가 재생된다.

또한, 제1 및 제2 측면의 정보 처리 장치는, 컴퓨터에 프로그램을 실행시킴으로써 실현할 수 있다.

또한, 제1 및 제2 측면의 정보 처리 장치를 실현하기 위해서, 컴퓨터에 실행시키는 프로그램은, 전송 매체를 통해 전송함으로써, 또는 기록 매체에 기록하여, 제공할 수 있다.

본 개시의 제1 측면에 의하면, 파일을 생성할 수 있다. 또한, 본 개시의 제1 측면에 의하면, 복수 종류의 음성 데이터 중 소정 종류의 음성 데이터를 용이하게 재생할 수 있도록 한 파일을 생성할 수 있다.

본 개시의 제2 측면에 의하면, 음성 데이터를 재생할 수 있다. 또한, 본 개시의 제2 측면에 의하면, 복수 종류의 음성 데이터 중 소정 종류의 음성 데이터를 용이하게 재생할 수 있다.

도 1은, MPD 파일의 구조를 나타내는 도면이다.
도 2는, 「Period」, 「Representation」, 및 「Segment」의 관계를 나타내는 도면이다.
도 3은, MPD 파일의 계층 구조를 나타내는 도면이다.
도 4는, MPD 파일의 구조와 시간축의 관계를 나타내는 도면이다.
도 5는, MP4의 3D 오디오 파일 포맷의 트랙의 개요를 설명하는 도면이다.
도 6은, moov 박스의 구조를 나타내는 도면이다.
도 7은, 3D 오디오의 계층 구조를 나타내는 도면이다.
도 8은, 본 개시를 적용한 제1 실시 형태에 있어서의 정보 처리 시스템의 개요를 설명하는 도면이다.
도 9는, 본 개시를 적용한 제1 실시 형태에 있어서의 트랙의 제1 예의 개요를 설명하는 도면이다.
도 10은, 베이스 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.
도 11은, switch Group을 형성하는 그룹의 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.
도 12는, 세그먼트 구조의 제1 예를 나타내는 도면이다.
도 13은, 세그먼트 구조의 제2 예를 나타내는 도면이다.
도 14는, level assignment 박스의 기술예를 나타내는 도면이다.
도 15는, 본 개시를 적용한 제1 실시 형태에 있어서의 MPD 파일의 제1 기술예를 나타내는 도면이다.
도 16은, 도 8의 파일 생성 장치의 구성예를 나타내는 블록도이다.
도 17은, 도 16의 파일 생성 장치의 파일 생성 처리를 설명하는 흐름도이다.
도 18은, 도 8의 동화상 재생 단말기에 의해 실현되는 스트리밍 재생부의 구성예를 나타내는 블록도이다.
도 19는, 도 18의 스트리밍 재생부의 재생 처리를 설명하는 흐름도이다.
도 20은, 본 개시를 적용한 제1 실시 형태에 있어서의 트랙의 제2 예의 개요를 설명하는 도면이다.
도 21은, switch Group을 형성하는 그룹의 트랙의 샘플 그룹 엔트리의 신택스의 예를 나타내는 도면이다.
도 22는, 각 그룹의 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.
도 23은, 음성 파일의 트랙의 제3 예의 개요를 설명하는 도면이다.
도 24는, MPD 파일의 제2 기술예를 나타내는 도면이다.
도 25는, MPD 파일의 제2 기술예의 다른 예를 나타내는 도면이다.
도 26은, 음성 파일의 트랙의 제4 예의 개요를 설명하는 도면이다.
도 27은, MPD 파일의 제3 기술예를 나타내는 도면이다.
도 28은, 음성 파일의 트랙의 제5 예의 개요를 설명하는 도면이다.
도 29는, 4cc가 「mha3」인 샘플 엔트리의 신택스의 예를 나타내는 도면이다.
도 30은, 4cc가 「mha3」인 샘플 엔트리의 신택스의 다른 예를 나타내는 도면이다.
도 31은, MPD 파일의 제4 기술예를 나타내는 도면이다.
도 32는, 음성 파일의 트랙의 제3 예의 다른 예의 개요를 설명하는 도면이다.
도 33은, 음성 파일의 트랙의 제4 예의 다른 예의 개요를 설명하는 도면이다.
도 34는, 음성 파일의 트랙의 제5 예의 다른 예의 개요를 설명하는 도면이다.
도 35는, 음성 파일의 트랙의 제6 예의 개요를 설명하는 도면이다.
도 36은, 도 35의 베이스 트랙 및 그룹 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.
도 37은, 4cc가 「mha3」인 샘플 엔트리의 신택스의 또 다른 예를 나타내는 도면이다.
도 38은, 본 개시를 적용한 제2 실시 형태에 있어서의 트랙의 개요를 설명하는 도면이다.
도 39는, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제1 기술예를 나타내는 도면이다.
도 40은, 본 개시를 적용한 제2 실시 형태에 있어서의 정보 처리 시스템의 개요를 설명하는 도면이다.
도 41은, 도 40의 파일 생성 장치의 구성예를 나타내는 블록도이다.
도 42는, 도 41의 파일 생성 장치의 파일 생성 처리를 설명하는 흐름도이다.
도 43은, 도 40의 동화상 재생 단말기에 의해 실현되는 스트리밍 재생부의 구성예를 나타내는 블록도이다.
도 44는, 도 43의 스트리밍 재생부의 재생 처리의 예를 설명하는 흐름도이다.
도 45는, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제2 기술예를 나타내는 도면이다.
도 46은, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제3 기술예를 나타내는 도면이다.
도 47은, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제4 기술예를 나타내는 도면이다.
도 48은, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제5 기술예를 나타내는 도면이다.
도 49는, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제6 기술예를 나타내는 도면이다.
도 50은, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 제7 기술예를 나타내는 도면이다.
도 51은, 복수의 베이스 트랙을 갖는 음성 파일의 트랙 구조의 예를 나타내는 도면이다.
도 52는, 복수의 베이스 트랙을 갖는 음성 파일의 트랙 구조의 다른 예를 나타내는 도면이다.
도 53은, 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.

이하, 본 개시의 전제 및 본 개시를 실시하기 위한 형태(이하, 실시 형태라고 함)에 대하여 설명한다. 또한, 설명은 이하의 순서로 행한다.

0. 본 개시의 전제(도 1 내지 도 7)

1. 제1 실시 형태(도 8 내지 도 37)

2. 제2 실시 형태(도 38 내지 도 50)

3. 베이스 트랙의 다른 예(도 51 및 도 52)

4. 제3 실시 형태(도 53)

<본 개시의 전제>

(MPD 파일의 구조 설명)

도 1은, MPEG-DASH의 MPD 파일(Media Presentation Description)의 구조를 나타내는 도면이다.

MPD 파일의 해석(파싱)에 있어서는, MPD 파일(도 1의 Media Presentation)의 「Period」에 포함되는 「Representation」의 속성으로부터 최적의 것이 선택된다.

그리고, 선택된 「Representation」의 선두의 「Initialization Segment」의 URL(Uniform Resource Locator) 등을 참조하여 파일이 취득되고, 처리된다. 계속해서, 후속의 「Media Segment」의 URL 등을 참조하여 파일이 취득되고, 재생된다.

또한, MPD 파일에 있어서의, 「Period」, 「Representation」, 및 「Segment」의 관계는, 도 2와 같이 된다. 즉, 하나의 동화상 콘텐츠는, 「Period」에 의해, 세그먼트보다 오랜 시간 단위로 관리할 수 있고, 각「Period」에 있어서, 「Segment」에 의해 세그먼트 단위로 관리할 수 있다. 또한, 각「Period」에 있어서, 「Representation」에 의해, 동화상 콘텐츠를 스트림의 속성 단위로 관리할 수 있다.

따라서, MPD 파일은, 「Period」 이하에 있어서, 도 3에 도시한 계층 구조를 갖는다. 또한, 이 MPD 파일의 구조를 시간축상에 배열하면 도 4의 예와 같이 된다. 도 4로부터 명백해진 바와 같이, 동일한 세그먼트에 대하여 복수의 「Representation」이 존재하고 있다. 이들 중 어느 하나를 적응적으로 선택함으로써, 유저가 원하는 속성의 스트림을 취득하고, 재생할 수 있다.

(3D 오디오 파일 포맷의 개요)

도 5는, MP4의 3D 오디오 파일 포맷의 트랙의 개요를 설명하는 도면이다.

MP4 파일에서는, 트랙마다, 동화상 콘텐츠의 코덱 정보나 파일 내의 위치를 나타내는 위치 정보를 관리할 수 있다. MP4의 3D 오디오 파일 포맷에서는, 3D 오디오(Channel audio/Object audio/SAOC Object audio/HOA audio/ metadata)의 오디오 스트림(ES(Elementary Stream))의 모두가, 하나의 트랙으로서 샘플(프레임) 단위로 기록된다. 또한, 3D 오디오의 코덱 정보(Profile/level/audio configuration)가, 샘플 엔트리(sample entry)로서 저장된다.

3D 오디오를 구성하는 Channel audio는, 채널 단위의 음성 데이터이며, Object audio는, 오브젝트 단위의 음성 데이터이다. 또한, 오브젝트란, 음원이며, 오브젝트 단위의 음성 데이터는, 그 오브젝트에 부착된 마이크로폰 등에 의해 취득된다. 오브젝트는, 고정된 마이크 스탠드 등의 물체여도 되고, 인물 등의 동체여도 된다.

또한, SAOC Object audio는, SAOC(Spatial Audio Object Coding)의 음성 데이터이며, HOA audio는, HOA(Higher Order Ambisonics)의 음성 데이터이며, metadata는, Channel audio, Object audio, SAOC Object audio, 및 HOA audio의 메타데이터이다.

(moov 박스의 구조)

도 6은, MP4 파일의 moov 박스의 구조를 나타내는 도면이다.

도 6에 도시한 바와 같이, MP4 파일에서는, 화상 데이터와 음성 데이터가 서로 다른 트랙으로서 기록된다. 도 6에서는, 음성 데이터의 트랙의 상세는 기술하지 않았지만, 화상 데이터의 트랙과 마찬가지이다. sample entry는, moov 박스 내의 stsd 박스에 배치되는 sample description에 포함된다.

그런데, MP4 파일의 방송이나 로컬 스토리지 재생에서는, 일반적으로, 서버측이, 모든 3D 오디오의 오디오 스트림을 송출한다. 그리고, 클라이언트측이, 모든 3D 오디오의 오디오 스트림을 파싱하면서, 필요한 3D 오디오의 오디오 스트림만을 복호하고, 출력한다. 그러나, 비트 레이트가 높은 경우나, 로컬 스토리지의 읽어들이기 레이트에 제약이 있는 경우, 필요한 3D 오디오의 오디오 스트림만을 취득함으로써, 디코드 처리의 부하를 경감하는 것이 바람직하다.

또한, MPEG-DASH에 준거한 MP4 파일의 스트림 재생에서는, 서버측은, 복수의 부호화 속도의 오디오 스트림을 준비하고 있다. 따라서, 클라이언트측이, 필요한 3D 오디오의 오디오 스트림만을 취득함으로써, 재생 환경에 최적의 부호화 속도의 오디오 스트림을 선택하고, 취득할 수 있다.

이상에 의해, 본 개시에서는, 3D 오디오의 오디오 스트림을 종류에 따라 트랙으로 분할하고, 음성 파일에 배치함으로써, 소정의 종류의 3D 오디오의 오디오 스트림만을 효율적으로 취득 가능하게 한다. 이에 의해, 방송이나 로컬 스토리지 재생에서는, 디코드 처리의 부하를 경감할 수 있다. 또한, 스트림 재생에서는, 대역에 따라서, 필요한 3D 오디오의 오디오 스트림 중 가장 품질이 높은 것을 재생할 수 있다.

(3D 오디오의 계층 구조 설명)

도 7은, 3D 오디오의 계층 구조를 나타내는 도면이다.

도 7에 도시한 바와 같이, 3D 오디오의 음성 데이터는, 음성 데이터마다 서로 다른 오디오 엘리먼트(Element)로 된다. 오디오 엘리먼트의 타입으로서는, SCE(Single Channel Element)와 CPE(Channel Pair Element)가 있다. 1채널분의 음성 데이터의 오디오 엘리먼트의 타입은 SCE이며, 2채널분의 음성 데이터에 대응하는 오디오 엘리먼트의 타입은 CPE이다.

오디오 엘리먼트는, 동일한 음성의 종류(Channel/Object/SAOC Object/HOA)끼리로 그룹을 형성한다. 따라서, 그룹 타입(GroupType)으로서는, Channels, Objects, SAOC Objects, 및 HOA이다. 2 이상의 그룹은, 필요에 따라서, switch Group이나 group Preset을 형성할 수 있다.

switch Group은, 거기에 포함되는 그룹의 오디오 스트림이 배타적으로 재생되는 그룹(배타적 재생 그룹)이다. 즉, 도 7에 도시한 바와 같이, 영어(EN)용 Object audio의 그룹과, 프랑스어(FR)용 Object audio의 그룹이 존재하는 경우, 어느 한쪽의 그룹만이 재생되어야 한다. 따라서, 그룹 ID가 2인 영어용 Object audio의 그룹과, 그룹 ID가 3인 프랑스어용 Object audio의 그룹으로부터, switch Group이 형성된다. 이에 의해, 영어용 Object audio와 프랑스어용 Object audio가 배타적으로 재생된다.

한편, group Preset은, 콘텐츠 제작자가 의도하는 그룹의 조합을 정의하는 것이다.

또한, 3D 오디오의 메타데이터는, 메타데이터마다 서로 다른 Ext 엘리먼트(Ext Element)로 된다. Ext 엘리먼트의 타입으로서는, Object Metadata, SAOC 3D Metadata, HOA Metadata, DRC Metadata, SpatialFrame, SaocFrame 등이 있다. Object Metadata의 Ext 엘리먼트는, 모든 Object audio의 메타데이터이며, SAOC 3D Metadata의 Ext 엘리먼트는, 모든 SAOC audio의 메타데이터이다. 또한, HOA Metadata의 Ext 엘리먼트는, 모든 HOA audio의 메타데이터이며, DRC(Dynamic Range Control) Metadata의 Ext 엘리먼트는, Object audio, SAOC audio, 및 HOA audio의 모든 메타데이터이다.

이상과 같이, 3D 오디오 중 음성 데이터의 분할 단위로서는, 오디오 엘리먼트, 그룹 타입, 그룹, switch Group, 및 group Preset이 있다. 따라서, 3D 오디오 중 음성 데이터의 오디오 스트림은, 오디오 엘리먼트, 그룹 타입, 그룹, switch Group, 또는 group Preset을 종류로서, 종류마다 서로 다른 트랙으로 분할할 수 있다.

또한, 3D 오디오 중 메타데이터의 분할 단위로서는, Ext 엘리먼트의 타입, 또는, 그 메타데이터에 대응하는 오디오 엘리먼트가 있다. 따라서, 3D 오디오의 메타데이터 오디오 스트림은, Ext 엘리먼트나, 그 메타데이터에 대응하는 오디오 엘리먼트를 종류로서, 종류마다 서로 다른 트랙으로 분할할 수 있다.

이하의 실시 형태에서는, 음성 데이터의 오디오 스트림이 1 이상의 그룹마다 트랙으로 분할되고, 메타데이터의 오디오 스트림이 Ext 엘리먼트의 타입마다 트랙으로 분할된다.

<제1 실시 형태>

(정보 처리 시스템의 개요)

도 8은, 본 개시를 적용한 제1 실시 형태에 있어서의 정보 처리 시스템의 개요를 설명하는 도면이다.

도 8의 정보 처리 시스템(140)은, 파일 생성 장치(141)와 접속되는 Web 서버(142)와 동화상 재생 단말기(144)가, 인터넷(13)을 통해 접속됨으로써 구성된다.

정보 처리 시스템(140)에서는, MPEG-DASH에 준하는 방식에 의해, Web 서버(142)가 재생 대상의 그룹인 트랙의 오디오 스트림을, 동화상 재생 단말기(144)로 배신한다.

구체적으로는, 파일 생성 장치(141)는, 동화상 콘텐츠의 3D 오디오의 각 음성 데이터와 메타데이터를, 각각, 복수의 부호화 속도로 부호화하고, 오디오 스트림을 생성한다. 파일 생성 장치(141)는, 부호화 속도, 및 세그먼트라 불리는 수 초에서 10초 정도의 시간 단위마다, 모든 오디오 스트림을 파일화하고, 음성 파일을 생성한다. 이때, 파일 생성 장치(141)는, 오디오 스트림을 그룹 및 Ext 엘리먼트의 타입마다 분할하고, 서로 다른 트랙의 오디오 스트림으로서 음성 파일에 배치한다. 파일 생성 장치(141)는, 생성된 음성 파일을 Web 서버(142)에 업로드한다.

또한, 파일 생성 장치(141)는, 음성 파일 등을 관리하는 MPD 파일(관리 파일)를 생성한다. 파일 생성 장치(141)는, MPD 파일을 Web 서버(142)에 업로드한다.

Web 서버(142)는, 파일 생성 장치(141)로부터 업로드된 부호화 속도 및 세그먼트마다의 음성 파일과 MPD 파일을 저장한다. Web 서버(142)는, 동화상 재생 단말기(144)로부터의 요구에 응답하여, 저장하고 있는 음성 파일, MPD 파일 등을 동화상 재생 단말기(144)로 송신한다.

동화상 재생 단말기(144)는, 스트리밍 데이터의 제어용 소프트웨어(이하, 제어용 소프트웨어라고 함)(161), 동화상 재생 소프트웨어(162), HTTP(HyperText Transfer Protocol) 액세스용 클라이언트 소프트웨어(이하, 액세스용 소프트웨어라고 함)(163) 등을 실행한다.

제어용 소프트웨어(161)는, Web 서버(142)로부터 스트리밍하는 데이터를 제어하는 소프트웨어이다. 구체적으로는, 제어용 소프트웨어(161)는, 동화상 재생 단말기(144)에 Web 서버(142)로부터 MPD 파일을 취득시킨다.

또한, 제어용 소프트웨어(161)는, MPD 파일에 기초하여, 동화상 재생 소프트웨어(162)에 의해 지정되는 재생 대상의 그룹, 및 그 그룹에 대응하는 Ext 엘리먼트의 타입의 트랙의 오디오 스트림의 송신 요구를, 액세스용 소프트웨어(163)에 지령한다.

동화상 재생 소프트웨어(162)는, Web 서버(142)로부터 취득된 오디오 스트림을 재생하는 소프트웨어이다. 구체적으로는, 동화상 재생 소프트웨어(162)는, 제어용 소프트웨어(161)는 재생 대상의 그룹, 및 그 그룹에 대응하는 Ext 엘리먼트의 타입을 제어용 소프트웨어(161)로 지정한다. 또한, 동화상 재생 소프트웨어(162)는, 액세스용 소프트웨어(163)로부터 수신 개시의 통지를 수신했을 때, 동화상 재생 단말기(144)에 의해 수신된 오디오 스트림을 복호한다. 동화상 재생 소프트웨어(162)는, 복호의 결과 얻어지는 음성 데이터를 필요에 따라 합성하고, 출력한다.

액세스용 소프트웨어(163)는, HTTP를 사용한 인터넷(13)을 통한 Web 서버(142)와의 통신을 제어하는 소프트웨어이다. 구체적으로는, 액세스용 소프트웨어(163)는, 제어용 소프트웨어(161)의 지령에 응답하여, 음성 파일에 포함되는 재생 대상의 트랙의 오디오 스트림 송신 요구를, 동화상 재생 단말기(144)에 송신시킨다. 또한, 액세스용 소프트웨어(163)는, 그 송신 요구에 응답하여, Web 서버(142)로부터 송신되어 오는 오디오 스트림의 수신을 동화상 재생 단말기(144)에 개시시키고, 수신 개시의 통지를 동화상 재생 소프트웨어(162)에 공급한다.

또한, 본 명세서에서는, 동화상 콘텐츠의 음성 파일에 대해서만 설명하지만, 실제로는, 음성 파일과 함께, 대응하는 화상 파일이 생성되고, 재생된다.

(음성 파일의 트랙의 제1 예의 개요)

도 9는, 음성 파일의 트랙의 제1 예의 개요를 설명하는 도면이다.

또한, 도 9에서는, 설명의 편의상, 3D 오디오 중 음성 데이터의 트랙만 도시하였다. 이것은, 후술하는 도 20, 도 23, 도 26, 도 28, 도 30, 도 32 내지 도 35, 및 도 38에 있어서도 마찬가지이다.

도 9에 도시한 바와 같이, 모든 3D 오디오의 오디오 스트림은, 1개의 음성 파일(3dauio.mp4)에 저장된다. 음성 파일(3dauio.mp4)에는, 3D 오디오의 각 그룹의 오디오 스트림이, 각각, 서로 다른 트랙에 분할되어 배치된다. 또한, 3D 오디오 전체에 관한 정보가, 베이스 트랙(Base Track)으로서 배치된다.

각 트랙의 track 박스에는, Track Reference가 배치된다. Track Reference는, 대응하는 트랙의 다른 트랙과의 참조 관계를 나타낸다. 구체적으로는, Track Reference는, 참조 관계에 있는 다른 트랙의 트랙에 고유한 ID(이하, 트랙 ID라고 함)를 나타낸다.

도 9의 예에서는, 베이스 트랙, 그룹 ID가 1인 그룹#1, 그룹 ID가 2인 그룹#2, 그룹 ID가 3인 그룹#3, 그룹 ID가 4인 그룹#4의 트랙의 트랙 ID가, 1, 2, 3, 4, 5로 되어 있다. 또한, 베이스 트랙의 Track Reference는 2, 3, 4, 5이며, 그룹#1 내지 #4의 트랙 Track Reference는, 베이스 트랙의 트랙 ID인 1이다. 따라서, 베이스 트랙과 그룹#1 내지 #4의 트랙은, 참조 관계에 있다. 즉, 베이스 트랙은, 그룹#1 내지 #4의 트랙의 재생 시에 참조된다.

또한, 베이스 트랙의 샘플 엔트리의 4cc(character code)는 「mha2」이며, 베이스 트랙의 샘플 엔트리에는, 3D 오디오의 모든 그룹의 config 정보 또는 베이스 트랙만의 복호에 필요한 config 정보를 포함하는 mhaC 박스와, 3D 오디오의 모든 그룹 및 switch Group에 관한 정보를 포함하는 mhas 박스가 배치된다. 그룹에 관한 정보는, 그룹의 ID, 그룹으로 분류되는 엘리먼트의 데이터의 내용을 나타내는 정보 등에 의해 구성된다. switch Group에 관한 정보는, switch Group의 ID, switch Group을 형성하는 그룹의 ID 등에 의해 구성된다.

각 그룹의 트랙의 샘플 엔트리의 4cc는 「mhg1」이며, 각 그룹의 트랙의 샘플 엔트리에는, 그 그룹에 관한 정보를 포함하는 mhgC 박스가 배치되어도 된다. 그룹이 switch Group을 형성하는 경우, 그 그룹의 트랙의 샘플 엔트리에는, 그 switch Group에 관한 정보를 포함하는 mhsC 박스가 배치된다.

베이스 트랙의 샘플에는, 각 그룹의 트랙의 샘플로의 참조 정보, 또는, 그 참조 정보의 복호에 필요한 config 정보가 배치된다. 참조 정보에 의해 참조되는 각 그룹의 샘플을 참조 정보의 배치 순으로 배치함으로써, 트랙으로 분할되기 전에 3D 오디오의 오디오 스트림을 생성할 수 있다. 참조 정보는, 각 그룹의 트랙의 샘플 위치 및 사이즈, 그룹 타입 등에 의해 구성된다.

(베이스 트랙의 샘플 엔트리의 신택스의 예)

도 10은, 베이스 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.

도 10에 도시한 바와 같이, 베이스 트랙의 샘플 엔트리에는, mhaC 박스(MHAConfigration Box), mhas 박스(MHAAudioSceneInfo Box) 등이 배치된다. mhaC 박스에는, 3D 오디오의 모든 그룹의 config 정보 또는 베이스 트랙만의 복호에 필요한 config 정보가 기술된다. 또한, mhas 박스에는, 3D 오디오의 모든 그룹 및 switch Group에 관한 정보를 포함하는 AudioScene 정보가 기술된다. 이 AudioScene 정보는, 도 7의 계층 구조를 기술하는 것이다.

(각 그룹의 트랙의 샘플 엔트리의 신택스의 예)

도 11은, 각 그룹의 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.

도 11에 도시한 바와 같이, 각 그룹의 트랙의 샘플 엔트리에는, mhaC 박스(MHAConfigration Box), mhgC 박스(MHAGroupDefinitionBox), mhsC 박스(MHASwitchGropuDefinition Box) 등이 배치된다.

mhaC 박스에는, 대응하는 트랙의 복호에 필요한 Config 정보가 기술된다. 또한, mhgC 박스에는, 대응하는 그룹에 관한 AudioScene 정보가 GroupDefinition으로서 기술된다. mhsC 박스에는, 대응하는 그룹이 switch Group을 형성하는 경우, 그 switch Group에 관한 AudioScene 정보가 SwitchGroupDefinition으로서 기술된다.

(음성 파일의 세그먼트 구조의 제1 예)

도 12는, 음성 파일의 세그먼트 구조의 제1 예를 나타내는 도면이다.

도 12의 세그먼트 구조에서는, Initial segment가, ftyp 박스와 moov 박스에 의해 구성된다. moov 박스에는, 음성 파일에 포함되는 트랙마다 trak box가 배치된다. 또한, moov 박스에는, 각 트랙의 트랙 ID와, media segment 내의 ssix 박스에서 사용되는 level과의 대응 관계를 나타내는 정보 등을 포함하는 mvex 박스가 배치된다.

또한, media segment는, sidx 박스, ssix 박스, 및 1 이상의 subsegment에 의해 구성된다. sidx 박스에는, 각 subsegment의 음성 파일 내의 위치를 나타내는 위치 정보가 배치된다. ssix 박스에는, mdat 박스에 배치되는 각 레벨의 오디오 스트림 위치 정보가 포함된다. 레벨은, 트랙에 대응하는 것이다. 또한, 최초의 트랙의 위치 정보는, moof 박스와 최초의 트랙의 오디오 스트림으로 구성되는 데이터의 위치 정보이다.

subsegment는, 임의의 시간 길이마다 제공되고, subsegment에는, 모든 트랙에 공통인 1조인 moof 박스와 mdat 박스의 페어가 제공된다. mdat 박스에는, 모든 track의 오디오 스트림이, 임의의 시간 길이 만큼 통합해서 배치되고, moof 박스에는, 그 오디오 스트림의 관리 정보가 배치된다. mdat 박스에 배치되는 각 track의 오디오 스트림은, track마다 연속되어 있다.

도 12의 예에서는, 트랙 ID가 1인 Track1은 베이스 트랙이며, 트랙 ID가 2 내지 N인 Track2 내지 TrackN은, 그룹 ID가 1 내지 N-1인 그룹의 트랙이다. 이것은, 후술하는 도 13에 있어서도 마찬가지이다.

(음성 파일의 세그먼트 구조의 제2 예)

도 13은, 음성 파일의 세그먼트 구조의 제2 예를 나타내는 도면이다.

도 13의 세그먼트 구조는, 트랙마다 moof 박스와 mdat 박스가 제공되는 점이, 도 12의 세그먼트 구조와 상이하다.

즉, 도 13의 Initial segment는, 도 12의 Initial segment와 마찬가지이다. 또한, 도 13의 media segment는, 도 12의 media segment와 마찬가지로, sidx 박스, ssix 박스, 및 1 이상의 subsegment에 의해 구성된다. sidx 박스에는, 도 12의 sidx 박스와 마찬가지로, 각 subsegment의 위치 정보가 배치된다. ssix 박스에는, moof 박스와 mdat 박스로 구성되는 각 레벨의 데이터의 위치 정보가 포함된다.

subsegment는, 임의의 시간 길이마다 제공되고, subsegment에는, 트랙마다 moof 박스와 mdat 박스의 페어가 제공된다. 즉, 각 트랙의 mdat 박스에는, 그 트랙의 오디오 스트림이, 임의의 시간 길이 만큼 통합해서 배치(인터리브 저장)되고, moof 박스에는, 그 오디오 스트림의 관리 정보가 배치된다.

도 12 및 도 13에 도시한 바와 같이, 각 트랙의 오디오 스트림은, 임의의 시간 길이만큼 통합해서 배치되기 때문에, 샘플 단위로 통합해서 배치되는 경우에 비하여, HTTP 등을 통한 오디오 스트림의 취득 효율이 개선된다.

(mvex 박스의 기술예)

도 14는, 도 12 및 도 13의 mvex 박스에 배치되는 level assignment 박스의 기술예를 나타내는 도면이다.

level assignment 박스는, 각 트랙의 트랙 ID와 ssix 박스에서 사용되는 레벨(level)을 대응짓는 박스이다. 도 14의 예에서는, 트랙 ID가 1인 베이스 트랙이 레벨 0에 대응지어지고, 트랙 ID가 2인 채널 오디오 트랙이 레벨 1에 대응지어져 있다. 또한, 트랙 ID가 3인 HOA 오디오 트랙이 레벨 2에 대응지어지고, 트랙 ID가 4인 오브젝트 메타데이터 트랙이 레벨 3에 대응지어져 있다. 또한, 트랙 ID가 5인 오브젝트 오디오 트랙이 레벨 4에 대응지어져 있다.

(MPD 파일의 제1 기술예)

도 15는, MPD 파일의 제1 기술예를 나타내는 도면이다.

도 15에 도시한 바와 같이, MPD 파일에는, 3D 오디오의 음성 파일(3daudio.mp4)의 세그먼트를 관리하는 「Representation」, 그 세그먼트에 포함되는 트랙을 관리하는 「SubRepresentation」 등이 기술된다.

「Representation」과 「SubRepresentation」에는, 대응하는 세그먼트 전체 또는 트랙의 codec의 종류(profile, level)를, 3D audio file format으로 정의되는 코드로 나타내는 「codecs」가 포함된다.

「SubRepresentation」에는, 대응하는 트랙의 레벨을 표시하는 값으로서 level assignment 박스에 설정되어 있는 값인 「level」이 포함된다. 「SubRepresentation」에는, 참조 관계를 갖는(의존하는) 다른 트랙(이하, 참조 트랙이라고 함)에 대응하는 레벨을 나타내는 값인 「dependencyLevel」이 포함된다.

또한, 「SubRepresentation」에는, <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 포함된다.

「dataType」은, 대응하는 트랙의 샘플 엔트리에 기술되는 Audio Scene 정보의 내용(definition)의 종류를 나타내는 번호이며, definition은, 그 내용이다. 예를 들어, 트랙의 샘플 엔트리에 GroupDefinition이 포함되는 경우, 그 트랙의 「dataType」으로서 1이 기술되고, 「definition」으로서 GroupDefinition이 기술된다. 또한, 트랙의 샘플 엔트리에 SwitchGroupDefinition이 포함되는 경우, 그 트랙의 「dataType」으로서 2가 기술되고, 「definition」으로서 SwitchGroupDefinition이 기술된다. 즉, 「dataType」 및 「definition」은, 대응하는 트랙의 샘플 엔트리에 SwitchGroupDefinition이 존재하는지를 나타내는 정보이다. 「definition」은, 바이너리 데이터이며, base64 방식으로 부호화된다.

또한, 도 15의 예에서는, 모든 그룹이 switch Group을 형성하는 것으로 하였지만, switch Group을 형성하지 않는 그룹이 존재하는 경우, 그 그룹에 대응하는 「SubRepresentation」에는, <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="2,SwitchGroupDefinition">은 기술되지 않는다. 이것은, 후술하는 도 24, 도 25, 도 31, 도 39, 도 45, 도 47, 도 48, 및 도 50에 있어서도 마찬가지이다.

(파일 생성 장치의 구성예)

도 16은, 도 8의 파일 생성 장치(141)의 구성예를 나타내는 블록도이다.

도 16의 파일 생성 장치(141)는, 음성 부호화 처리부(171), 음성 파일 생성부(172), MPD 생성부(173), 및 서버 업로딩 처리부(174)에 의해 구성된다.

파일 생성 장치(141)의 음성 부호화 처리부(171)는, 동화상 콘텐츠의 3D 오디오의 각 음성 데이터와 메타데이터를, 각각, 복수의 부호화 속도로 부호화하고, 오디오 스트림을 생성한다. 음성 부호화 처리부(171)는, 부호화 속도마다의 오디오 스트림을 음성 파일 생성부(172)에 공급한다.

음성 파일 생성부(172)는, 음성 부호화 처리부(171)로부터 공급되는 오디오 스트림에 대하여, 그룹 및 Ext 엘리먼트의 타입마다 트랙을 할당한다. 음성 파일 생성부(172)는, 부호화 속도 및 세그먼트마다, 각 트랙의 오디오 스트림이 서브 세그먼트 단위로 배치되는 도 12 또는 도 13의 세그먼트 구조의 음성 파일을 생성한다. 음성 파일 생성부(172)는, 생성된 음성 파일을 MPD 생성부(173)에 공급한다.

MPD 생성부(173)는, 음성 파일 생성부(172)로부터 공급되는 음성 파일을 저장하는 Web 서버(142)의 URL 등을 결정한다. 그리고, MPD 생성부(173)는, 음성 파일의 URL 등이, 그 음성 파일용 「Representation」의 「Segment」에 배치된 MPD 파일을 생성한다. MPD 생성부(173)는, 생성된 MPD 파일과 음성 파일을 서버 업로딩 처리부(174)에 공급한다.

서버 업로딩 처리부(174)는, MPD 생성부(173)로부터 공급되는 음성 파일과 MPD 파일을, Web 서버(142)에 업로드한다.

(파일 생성 장치의 처리의 설명)

도 17은, 도 16의 파일 생성 장치(141)의 파일 생성 처리를 설명하는 흐름도이다.

도 17의 스텝 S191에 있어서, 음성 부호화 처리부(171)는, 동화상 콘텐츠의 3D 오디오의 각 음성 데이터와 메타데이터를, 각각, 복수의 부호화 속도로 부호화하고, 오디오 스트림을 생성한다. 음성 부호화 처리부(171)는, 부호화 속도마다의 오디오 스트림을 음성 파일 생성부(172)에 공급한다.

스텝 S192에 있어서, 음성 파일 생성부(172)는, 음성 부호화 처리부(171)로부터 공급되는 오디오 스트림에 대하여, 그룹 및 Ext 엘리먼트의 타입마다 트랙을 할당한다.

스텝 S193에 있어서, 음성 파일 생성부(172)는, 부호화 속도 및 세그먼트마다, 각 트랙의 오디오 스트림이 서브 세그먼트 단위로 배치되는 도 12 또는 도 13의 세그먼트 구조의 음성 파일을 생성한다. 음성 파일 생성부(172)는, 생성된 음성 파일을 MPD 생성부(173)에 공급한다.

스텝 S194에 있어서, MPD 생성부(173)는, 음성 파일의 URL 등을 포함하는 MPD 파일을 생성한다. MPD 생성부(173)는, 생성된 MPD 파일과 음성 파일을 서버 업로딩 처리부(174)에 공급한다.

스텝 S195에 있어서, 서버 업로딩 처리부(174)는, MPD 생성부(173)로부터 공급되는 음성 파일과 MPD 파일을, Web 서버(142)에 업로드한다. 그리고, 처리는 종료된다.

(동화상 재생 단말기의 기능적 구성예)

도 18은, 도 8의 동화상 재생 단말기(144)가 제어용 소프트웨어(161), 동화상 재생 소프트웨어(162), 및 액세스용 소프트웨어(163)를 실행함으로써 실현되는 스트리밍 재생부의 구성예를 나타내는 블록도이다.

도 18의 스트리밍 재생부(190)는, MPD 취득부(91), MPD 처리부(191), 음성 파일 취득부(192), 음성 복호 처리부(194), 및 음성 합성 처리부(195)에 의해 구성된다.

스트리밍 재생부(190)의 MPD 취득부(91)는, Web 서버(142)로부터 MPD 파일을 취득하고, MPD 처리부(191)에 공급한다.

MPD 처리부(191)는, MPD 취득부(91)로부터 공급되는 MPD 파일로부터 음성 파일용 「Segment」에 기술되는 재생 대상의 세그먼트의 음성 파일의 URL 등의 정보를 추출하고, 음성 파일 취득부(192)에 공급한다.

음성 파일 취득부(192)는, MPD 처리부(191)로부터 공급되는 URL에 의해 특정되는 음성 파일 내의 재생 대상의 트랙의 오디오 스트림을, Web 서버(142)에 요구하여, 취득한다. 음성 파일 취득부(192)는, 취득된 오디오 스트림을 음성 복호 처리부(194)에 공급한다.

음성 복호 처리부(194)는, 음성 파일 취득부(192)로부터 공급되는 오디오 스트림을 복호한다. 음성 복호 처리부(194)는, 복호의 결과 얻어지는 음성 데이터를 음성 합성 처리부(195)에 공급한다. 음성 합성 처리부(195)는, 음성 복호 처리부(194)로부터 공급되는 음성 데이터를 필요에 따라 합성하고, 출력한다.

이상과 같이, 음성 파일 취득부(192), 음성 복호 처리부(194), 및 음성 합성 처리부(195)는, 재생부로서 기능하고, Web 서버(142)에 저장되어 있는 음성 파일로부터, 재생 대상의 트랙의 오디오 스트림을 취득하고, 재생한다.

(동화상 재생 단말기의 처리의 설명)

도 19는, 도 18의 스트리밍 재생부(190)의 재생 처리를 설명하는 흐름도이다.

도 19의 스텝 S211에 있어서, 스트리밍 재생부(190)의 MPD 취득부(91)는, Web 서버(142)로부터 MPD 파일을 취득하고, MPD 처리부(191)에 공급한다.

스텝 S212에 있어서, MPD 처리부(191)는, MPD 취득부(91)로부터 공급되는 MPD 파일로부터 음성 파일용 「Segment」에 기술되는 재생 대상의 세그먼트의 음성 파일의 URL 등의 정보를 추출하고, 음성 파일 취득부(192)에 공급한다.

스텝 S213에 있어서, 음성 파일 취득부(192)는, MPD 처리부(191)로부터 공급되는 URL에 기초하여, 그 URL에 의해 특정되는 음성 파일 내의 재생 대상의 트랙의 오디오 스트림을, Web 서버(142)에 요구하고, 취득한다. 음성 파일 취득부(192)는, 취득된 오디오 스트림을 음성 복호 처리부(194)에 공급한다.

스텝 S214에 있어서, 음성 복호 처리부(194)는, 음성 파일 취득부(192)로부터 공급되는 오디오 스트림을 복호한다. 음성 복호 처리부(194)는, 복호의 결과 얻어지는 음성 데이터를 음성 합성 처리부(195)에 공급한다. 스텝 S215에 있어서, 음성 합성 처리부(195)는, 음성 복호 처리부(194)로부터 공급되는 음성 데이터를 필요에 따라 합성하고, 출력한다.

(음성 파일의 트랙의 제2 예의 개요)

또한, 전술한 설명에서는, GroupDefinition이나 SwitchGroupDefinition이, 샘플 엔트리에 배치되었지만, 도 20에 도시한 바와 같이, 트랙 내의 서브 샘플의 그룹마다의 샘플 엔트리인 샘플 그룹 엔트리에 배치되도록 해도 된다.

이 경우, switch Group을 형성하는 그룹의 트랙의 샘플 그룹 엔트리는, 도 21에 도시한 바와 같이, GroupDefinition과 SwitchGroupDefinition을 포함한다. 도시는 생략하였지만, switch Group을 형성하지 않는 그룹의 트랙의 샘플 그룹 엔트리는, GroupDefinition만을 포함한다.

또한, 각 그룹의 트랙의 샘플 엔트리는, 도 22에 나타내는 바와 같이 된다. 즉, 도 22에 도시한 바와 같이, 각 그룹의 트랙의 샘플 엔트리에는, 대응하는 트랙의 오디오 스트림 프로파일(MPEGHAudioProfile), 레벨(MPEGHAudioLevel) 등의 Config 정보가 기술되는 MHAGroupAudioConfigrationBox가 배치된다.

(음성 파일의 트랙의 제3 예의 개요)

도 23은, 음성 파일의 트랙의 제3 예의 개요를 설명하는 도면이다.

도 23의 음성 데이터의 트랙의 구성은, 베이스 트랙에 3D 오디오의 1 이상의 그룹의 오디오 스트림이 포함되는 점, 및 3D 오디오 전체에 관한 정보를 포함하지 않는 각 트랙(이하, 그룹 트랙이라고 함)으로 분할되는 오디오 스트림에 대응하는 그룹의 수가 1 이상인 점이, 도 9의 구성과 상이하다.

즉, 도 23의 베이스 트랙의 샘플 엔트리는, 도 9와 마찬가지로, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 배치될 때의 베이스 트랙용 신택스를 갖는 4cc가 「mha2」인 샘플 엔트리(도 10)이다.

또한, 그룹 트랙의 샘플 엔트리는, 도 9와 마찬가지로, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 배치될 때의 그룹 트랙용 신택스를 갖는, 4cc가 「mhg1」인 샘플 엔트리(도 11)이다. 따라서, 샘플 엔트리의 4cc에 의해, 베이스 트랙과 그룹 트랙을 식별하고, 트랙 간의 의존 관계를 인식할 수 있다.

또한, 도 9와 마찬가지로, 각 트랙의 track 박스에는, Track Reference가 배치된다. 따라서, 「mha2」와 「mhg1」 중 어느 하나가, 베이스 트랙 또는 그룹 트랙의 샘플 엔트리의 4cc인지를 알지 못하는 경우라도, Track Reference에 의해, 트랙 간의 의존 관계를 인식할 수 있다.

또한, 그룹 트랙의 샘플 엔트리에는, mhgC 박스 및 mhsC 박스가 기술되지 않아도 된다. 또한, 베이스 트랙의 샘플 엔트리에 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되지 않아도 된다. 그러나, 베이스 트랙의 샘플 엔트리에 베이스 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에, 그 그룹 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술된다. 전자의 상태인지, 후자의 상태인지는, 샘플 엔트리 내의 config 정보의 유무로 식별 가능하지만, 샘플 엔트리에 플래그를 기술하거나, 샘플 엔트리의 타입을 변화시킴으로써, 식별 가능하게 할 수도 있다. 또한, 도시는 생략하였지만, 샘플 엔트리의 타입을 변화시킴으로써 전자의 상태와 후자의 상태를 식별 가능하게 하는 경우, 베이스 트랙의 샘플 엔트리의 4cc는, 예를 들어 전자의 상태인 경우 「mha2」로 되고, 후자의 상태인 경우 「mha4」로 된다.

(MPD 파일의 제2 기술예)

도 24는, 음성 파일의 트랙의 구성이 도 23의 구성인 경우의 MPD 파일의 기술예를 나타내는 도면이다.

도 24의 MPD 파일은, 베이스 트랙의 「SubRepresentation」이 기술되는 점이, 도 15의 MPD 파일과 상이하다.

베이스 트랙의 「SubRepresentation」에는, 그룹 트랙의 「SubRepresentation」과 마찬가지로, 베이스 트랙의 「codecs」, 「level」, 「dependencyLevel」, 및 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 기술된다.

도 24의 예에서는, 베이스 트랙의 「codecs」는 「mha2.2.1」이며, 「level」은, 베이스 트랙의 레벨을 표시하는 값으로서의 「0」이다. 「dependencyLevel」은, 그룹 트랙의 레벨을 표시하는 값으로서의 「1」 및 「2」이다. 또한, 「dataType」은, 베이스 트랙의 샘플 엔트리의 mhas 박스에 기술되는 AudioScene 정보를 종류로서 나타내는 번호로서의 「3」이며, 「definition」은, base64 방식으로 부호화된 AudioScene 정보의 바이너리 데이터이다.

또한, 도 25에 도시한 바와 같이, 베이스 트랙의 「SubRepresentation」에는, AudioScene 정보가 분할하여 기술되도록 해도 된다.

도 25의 예에서는, 베이스 트랙의 샘플 엔트리의 mhas 박스에 기술되는 AudioScene 정보(도 7) 중의 그룹 ID 「1」의 그룹의 내용을 나타내는 「Atmo」를 종류로서 나타내는 번호로서 「1」이 설정되어 있다.

또한, 그룹 ID 「2」의 그룹의 내용을 나타내는 「Dialog EN」, 그룹 ID 「3」의 그룹의 내용을 나타내는 「Dialog FR」, 그룹 ID 「4」의 그룹의 내용을 나타내는 「VoiceOver GE」, 그룹 ID 「5」의 그룹의 내용을 나타내는 「Effects」, 그룹 ID 「6」의 그룹의 내용을 나타내는 「Effect」, 그룹 ID 「7」의 그룹의 내용을 나타내는 「Effect」 의 각각을 종류로서 나타내는 번호로서 「2」 내지 「7」이 설정되어 있다.

따라서, 도 25의 베이스 트랙의 「SubRepresentation」에는, 「dataType」이 「1」이며, 「definition」이 「Atmo」인 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 기술된다. 마찬가지로, 「dataType」이 각각 「2」, 「3」, 「4」, 「5」, 「6」, 「7」이며, 「definition」이 각각 「Dialog EN」, 「Dialog FR」, 「VoiceOver GE」, 「Effects」, 「Effect」, 「Effect」인 "urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 기술된다. 도 25의 예에서는, 베이스 트랙의 AudioScene 정보가 분할하여 기술되는 경우에 대하여 설명하였지만, 그룹 트랙의 GroupDefinition 및 SwitchGroupDefinition도, AudioScene 정보와 마찬가지로 분할하여 기술되어도 된다.

(음성 파일의 트랙의 제4 예의 개요)

도 26은, 음성 파일의 트랙의 제4 예의 개요를 설명하는 도면이다.

도 26의 음성 데이터의 트랙의 구성은, 그룹 트랙의 샘플 엔트리가, 4cc가 「mha2」인 샘플 엔트리인 점이, 도 23의 구성과 상이하다.

도 26의 경우, 베이스 트랙과 그룹 트랙의 샘플 엔트리의 4cc가 양쪽 모두 「mha2」로 된다. 따라서, 샘플 엔트리의 4cc에 의해, 베이스 트랙과 그룹 트랙을 식별하고, 트랙 간의 의존 관계를 인식할 수는 없다. 따라서, 각 트랙의 track 박스에 배치되는 Track Reference에 의해, 트랙 간의 의존 관계가 인식된다.

또한, 샘플 엔트리의 4cc가 「mha2」임으로써, 대응하는 트랙이, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 배치될 때의 트랙인 것은 식별 가능하다.

또한, 베이스 트랙의 샘플 엔트리의 mhaC 박스에는, 도 9나 도 23의 경우와 마찬가지로, 3D 오디오의 모든 그룹의 config 정보 또는 베이스 트랙을 독립적으로 재생 가능한 config 정보가 기술된다. 또한, mhas 박스에는, 3D 오디오의 모든 그룹 및 switch Group에 관한 정보를 포함하는 AudioScene 정보가 기술된다.

한편, 그룹 트랙의 샘플 엔트리에는, mhas 박스가 배치되지 않는다. 또한, 베이스 트랙의 샘플 엔트리에 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되지 않아도 된다. 그러나, 베이스 트랙의 샘플 엔트리에 베이스 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에 그룹 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술된다. 전자의 상태인지, 후자의 상태인지는, 샘플 엔트리 내의 config 정보의 유무로 식별 가능하지만, 샘플 엔트리에 플래그를 기술하거나, 샘플 엔트리의 타입을 변화시킴으로써, 식별 가능하게 할 수도 있다. 또한, 도시는 생략하였지만, 샘플 엔트리의 타입을 변화시킴으로써, 전자의 상태와 후자의 상태를 식별 가능하게 하는 경우, 베이스 트랙 및 그룹 트랙의 샘플 엔트리의 4cc는, 예를 들어 전자의 상태인 경우 「mha2」로 되고, 후자의 상태인 경우 「mha4」로 된다.

(MPD 파일의 제3 기술예)

도 27은, 음성 파일의 트랙의 구성이 도 26의 구성인 경우의 MPD 파일의 기술예를 나타내는 도면이다.

도 27의 MPD 파일은, 그룹 트랙의 「SubRepresentation」의 「codecs」가 「mha2.2.1」인 점, 및 그룹 트랙의 「SubRepresentation」에 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 기술되지 않는 점이, 도 24의 MPD 파일과 상이하다.

또한, 도시는 생략하였지만, 도 25의 경우와 마찬가지로, 베이스 트랙의 「SubRepresentation」에는, AudioScene 정보가 분할하여 기술되도록 해도 된다.

(음성 파일의 트랙의 제5 예의 개요)

도 28은, 음성 파일의 트랙의 제5 예의 개요를 설명하는 도면이다.

도 28의 음성 데이터의 트랙의 구성은, 베이스 트랙과 그룹 트랙의 샘플 엔트리가, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 있을 때의 베이스 트랙과 그룹 트랙의 양쪽에 적합한 신택스를 갖는 샘플 엔트리인 점이, 도 23의 구성과 상이하다.

도 28의 경우, 베이스 트랙과 그룹 트랙의 샘플 엔트리의 4cc가 양쪽 모두, 베이스 트랙과 그룹 트랙의 양쪽에 적합한 신택스를 갖는 샘플 엔트리의 4cc인 「mha3」으로 된다.

따라서, 도 26의 경우와 마찬가지로, 각 트랙의 track 박스에 배치되는 Track Reference에 의해, 트랙 간의 의존 관계가 인식된다. 또한, 샘플 엔트리의 4cc가 「mha3」임으로써, 대응하는 트랙이, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 배치될 때의 트랙인 것은 식별 가능하다.

(4cc가 「mha3」인 샘플 엔트리의 신택스의 예)

도 29는, 4cc가 「mha3」인 샘플 엔트리의 신택스의 예를 나타내는 도면이다.

도 29에 도시한 바와 같이, 4cc 「mha3」의 샘플 엔트리의 신택스는, 도 10의 신택스와 도 11의 신택스를 합성한 것이다.

즉, 4cc가 「mha3」인 샘플 엔트리에는, mhaC 박스(MHAConfigration Box), mhas 박스(MHAAudioSceneInfo Box), mhgC 박스(MHAGroupDefinitionBox), mhsC 박스(MHASwitchGropuDefinition Box) 등이 배치된다.

베이스 트랙의 샘플 엔트리의 mhaC 박스에는, 3D 오디오의 모든 그룹의 config 정보 또는 베이스 트랙을 독립적으로 재생 가능한 config 정보가 기술된다. 또한, mhas 박스에는, 3D 오디오의 모든 그룹 및 switch Group에 관한 정보를 포함하는 AudioScene 정보가 기술되고, mhgC 박스와 mhsC 박스는 배치되지 않는다.

베이스 트랙의 샘플 엔트리에 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되지 않아도 된다. 그러나, 베이스 트랙의 샘플 엔트리에 베이스 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술되는 경우에는, 그룹 트랙의 샘플 엔트리에 그룹 트랙을 독립적으로 재생 가능한 config 정보를 포함하는 mhaC 박스가 기술된다. 전자의 상태인지, 후자의 상태인지는, 샘플 엔트리 내의 config 정보의 유무로 식별 가능하지만, 샘플 엔트리에 플래그를 기술하거나, 샘플 엔트리의 타입을 변화시킴으로써, 식별 가능하게 할 수도 있다. 또한, 도시는 생략하였지만, 샘플 엔트리의 타입을 변화시킴으로써, 전자의 상태와 후자의 상태를 식별 가능하게 하는 경우, 베이스 트랙 및 그룹 트랙의 샘플 엔트리의 4cc는, 예를 들어 전자의 상태인 경우 「mha3」으로 되고, 후자의 상태인 경우 「mha5」로 된다. 또한, 그룹 트랙의 샘플 엔트리에는, mhas 박스는 배치되지 않는다. mhgC 박스 및 mhsC 박스는 배치되어도 되고, 배치되지 않아도 된다.

또한, 도 30에 도시한 바와 같이, 베이스 트랙의 샘플 엔트리에는, mhas 박스, mhgC 박스, 및 mhsC 박스가 배치됨과 함께, 베이스 트랙만을 독립적으로 재생 가능하게 하는 config 정보가 기술되는 mhaC 박스와 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 양쪽 배치되도록 해도 된다. 이 경우, 3D 오디오의 모든 그룹의 config 정보가 기술되는 mhaC 박스와, 베이스 트랙만을 독립적으로 재생 가능하게 하는 config 정보가 기술되는 mhaC 박스는, 이들 mhaC 박스에 포함되는 플래그에 의해 식별된다. 또한, 이 경우, 그룹 트랙의 샘플 엔트리에는, mhaC 박스가 기술되지 않아도 된다. 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되는지 여부는, 그룹 트랙의 샘플 엔트리 내의 mhaC 박스의 유무로 식별 가능하지만, 샘플 엔트리에 플래그를 기술하거나, 샘플 엔트리의 타입을 변화시킴으로써, 식별 가능하게 할 수도 있다. 또한, 도시는 생략하였지만, 샘플 엔트리의 타입을 변화시킴으로써, 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되는지 여부를 식별 가능하게 하는 경우, 베이스 트랙 및 그룹 트랙의 샘플 엔트리의 4cc는, 예를 들어 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되는 경우 「mha3」으로 되고, 그룹 트랙의 샘플 엔트리에 mhaC 박스가 기술되지 않는 경우 「mha5」로 된다. 또한, 도 30에 있어서, 베이스 트랙의 샘플 엔트리에는, mhgC 박스와 mhsC 박스가 기술되지 않아도 된다.

(MPD 파일의 제4 기술예)

도 31은, 음성 파일의 트랙의 구성이 도 28 또는 도 30의 구성인 경우의 MPD 파일의 기술예를 나타내는 도면이다.

도 31의 MPD 파일은, 「Representation」의 「codecs」가 「mha3.3.1」인 점, 및 「SubRepresentation」의 「codecs」가 「mha3.2.1」인 점이, 도 24의 MPD 파일과 상이하다.

또한, 전술한 설명에서는, 각 트랙의 track 박스에 Track Reference가 배치되도록 하였지만, Track Reference는 배치되지 않아도 된다. 예를 들어, 도 32 내지 도 34는, 각각, 도 23, 도 26, 도 28의 음성 파일의 트랙 track 박스에 Track Reference가 배치되지 않는 경우를 나타내는 도면이다. 도 32의 경우, Track Reference는 배치되지 않았지만, 베이스 트랙과 그룹 트랙의 샘플 엔트리의 4cc가 상이하기 때문에, 트랙 간의 의존 관계를 인식할 수 있다. 도 33 및 도 34의 경우, mhas 박스가 배치되어 있음으로써, 베이스 트랙인지 여부를 식별할 수 있다.

음성 파일의 트랙의 구성이, 도 32 내지 도 34의 구성인 경우의 MPD 파일은, 각각, 도 24, 도 27, 도 31의 MPD 파일과 동일하다. 또한, 이 경우도, 베이스 트랙의 「SubRepresentation」에는, 도 25의 경우와 마찬가지로, AudioScene 정보가 분할하여 기술되도록 해도 된다.

(음성 파일의 트랙의 제6 예의 개요)

도 35는, 음성 파일의 트랙의 제6 예의 개요를 설명하는 도면이다.

도 35의 음성 데이터의 트랙의 구성은, 베이스 트랙의 샘플에, 각 그룹의 트랙의 샘플로의 참조 정보나, 그 참조 정보의 복호에 필요한 config 정보가 배치되지 않고, 0 이상의 그룹의 오디오 스트림이 포함되는 점, 및 베이스 트랙의 샘플 엔트리에, 각 그룹의 트랙의 샘플로의 참조 정보가 기술되는 점이, 도 33의 구성과 상이하다.

구체적으로는, 3D 오디오 중 음성 데이터의 오디오 스트림이 복수의 트랙으로 분할되어 있을 때의 베이스 트랙용 신택스를 갖는, 4cc가 「mha2」인 샘플 엔트리에, AudioScene 정보에 기술되어 있는 각 그룹이 어느 트랙으로 분할되어 있는지를 기술하는 mhmt 박스가 새롭게 배치된다.

(4cc가 「mha2」인 샘플 엔트리의 신택스의 다른 예)

도 36은, 4cc가 「mha2」인 도 35의 베이스 트랙 및 그룹 트랙의 샘플 엔트리의 신택스의 예를 나타내는 도면이다.

도 36 의 4cc가 「mha2」인 샘플 엔트리의 구성은, MHAMultiTrackDescription 박스(mhmt 박스)가 배치되는 점이, 도 10의 구성과 상이하다.

mhmt 박스에는, 참조 정보로서, 그룹 ID(group_ID)와 트랙 ID(track_ID)의 대응 관계가 기술된다. 또한, mhmt 박스에서는, 오디오 엘리먼트와 트랙 ID가 대응지어 기술되도록 해도 된다.

참조 정보가 샘플마다 변화되지 않는 경우, mhmt 박스를 샘플 엔트리에 배치함으로써, 효율적으로 참조 정보를 기술할 수 있다.

또한, 도시는 생략하였지만, 도 9, 도 20, 도 23, 도 26, 도 28, 도 30, 도 32, 및 도 34의 경우에 있어서도, 마찬가지로, 베이스 트랙의 샘플에 각 그룹의 트랙의 샘플로의 참조 정보를 기술하는 대신에, 베이스 트랙의 샘플 엔트리에 mhmt 박스를 배치시키도록 할 수 있다.

이 경우, 4cc가 「mha3」인 샘플 엔트리의 신택스는, 도 37에 나타내는 바와 같이 된다. 즉, 도 37에 4cc가 「mha3」인 샘플 엔트리의 구성은, MHAMultiTrackDescription 박스(mhmt 박스)가 배치되는 점이, 도 29의 구성과 상이하다.

또한, 도 23, 도 26, 도 28, 도 30, 도 32 내지 도 34, 및 도 35에 있어서, 도 9와 마찬가지로, 베이스 트랙에 3D 오디오의 1 이상의 그룹의 오디오 스트림이 포함되지 않도록 해도 된다. 또한, 각 그룹 트랙으로 분할되는 오디오 스트림에 대응하는 그룹의 수가 1개여도 된다.

또한, 도 23, 도 26, 도 28, 도 30, 도 32 내지 도 34, 및 도 35에 있어서, 도 20의 경우와 마찬가지로, GroupDefinition이나 SwitchGroupDefinition이, 샘플 그룹 엔트리에 배치되도록 해도 된다.

<제2 실시 형태>

(트랙의 개요)

도 38은, 본 개시를 적용한 제2 실시 형태에 있어서의 트랙의 개요를 설명하는 도면이다.

도 38에 도시한 바와 같이, 제2 실시 형태에서는, 각 트랙이 서로 다른 파일(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4)로서 기록되는 점이, 제1 실시 형태와 상이하다. 이 경우, 원하는 트랙의 파일을, HTTP를 통해 취득함으로써, 원하는 트랙의 데이터만을 취득할 수 있다. 따라서, HTTP를 통한 원하는 트랙의 데이터의 취득을 효율적으로 행할 수 있다.

(MPD 파일의 기술예)

도 39는, 본 개시를 적용한 제2 실시 형태에 있어서의 MPD 파일의 기술예를 나타내는 도면이다.

도 39에 도시한 바와 같이, MPD 파일에는, 3D 오디오의 각 음성 파일(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4)의 세그먼트를 관리하는 「Representation」 등이 기술된다.

「Representation」에는, 「codecs」, 「id」, 「associationId」 및 「assciationType」이 포함된다. 「id」는, 그것을 포함하는 「Representation」의 ID이다. 「associationId」는, 대응하는 트랙과 다른 트랙의 참조 관계를 나타내는 정보이며, 참조 트랙의 「id」이다. 「assciationType」은, 참조 트랙과의 참조 관계(의존 관계)의 의미를 나타내는 코드이며, 예를 들어 MP4의 track reference의 값과 동일한 것이 사용된다.

또한, 각 그룹의 트랙의 「Representation」에는, <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">도 포함된다. 도 39의 예에서는, 하나의 「AdaptationSet」의 아래에, 각 음성 파일의 세그먼트를 관리하는 「Representation」이 제공되어 있지만, 각 음성 파일의 세그먼트마다 「AdaptationSet」가 제공되고, 그 아래에, 그 세그먼트를 관리하는 「Representation」이 제공되도록 해도 된다. 이 경우, 각「AdaptationSet」에는, 「associationId」와, 「assciationType」과 마찬가지로 참조 트랙과의 참조 관계의 의미를 나타내는 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudioAssociationData:2014" value="dataType,id">가, 기술되도록 해도 된다. 또한, 베이스 트랙과 그룹 트랙의 「Representation」에 기술되어 있는 AudioScene 정보, GroupDefinition, SwitchGroupDefinition은, 도 25의 경우와 마찬가지로, 분할하여 기술되도록 해도 된다. 또한, 각「AdaptationSet」에는, 「Representation」으로 분할하여 기술된 AudioScene 정보, GroupDefinition, SwitchGroupDefinition이 기술되어도 된다.

(정보 처리 시스템의 개요)

도 40은, 본 개시를 적용한 제2 실시 형태에 있어서의 정보 처리 시스템의 개요를 설명하는 도면이다.

도 40에 도시한 구성 중, 도 8의 구성과 동일한 구성에는 동일한 부호를 부여하였다. 중복되는 설명에 대해서는 적절히 생략한다.

도 40의 정보 처리 시스템(210)은, 파일 생성 장치(211)와 접속되는 Web 서버(212)와 동화상 재생 단말기(214)가, 인터넷(13)을 통해 접속됨으로써 구성된다.

정보 처리 시스템(210)에서는, MPEG-DASH에 준하는 방식에 의해, Web 서버(142)가, 재생 대상의 그룹인 음성 파일의 오디오 스트림을, 동화상 재생 단말기(144)로 배신한다.

구체적으로는, 파일 생성 장치(211)는, 동화상 콘텐츠의 3D 오디오의 각 음성 데이터와 메타데이터를, 각각, 복수의 부호화 속도로 부호화하고, 오디오 스트림을 생성한다. 파일 생성 장치(211)는, 오디오 스트림을 그룹 및 Ext 엘리먼트의 타입마다 분할하고, 서로 다른 트랙의 오디오 스트림으로 한다. 파일 생성 장치(211)는, 부호화 속도, 세그먼트, 및 트랙마다, 오디오 스트림을 파일화하고, 음성 파일을 생성한다. 파일 생성 장치(211)는, 그 결과 얻어지는 음성 파일을 Web 서버(212)에 업로드한다. 또한, 파일 생성 장치(211)는, MPD 파일을 생성하고, Web 서버(212)에 업로드한다.

Web 서버(212)는, 파일 생성 장치(211)로부터 업로드된 부호화 속도, 세그먼트, 및 트랙마다의 음성 파일과 MPD 파일을 저장한다. Web 서버(212)는, 동화상 재생 단말기(214)로부터의 요구에 응답하여, 저장하고 있는 음성 파일, MPD 파일 등을 동화상 재생 단말기(214)에 송신한다.

동화상 재생 단말기(214)는, 제어용 소프트웨어(221), 동화상 재생 소프트웨어(162), 액세스용 소프트웨어(223) 등을 실행한다.

제어용 소프트웨어(221)는, Web 서버(212)로부터 스트리밍하는 데이터를 제어하는 소프트웨어이다. 구체적으로는, 제어용 소프트웨어(221)는, 동화상 재생 단말기(214)에 Web 서버(212)로부터 MPD 파일을 취득시킨다.

또한, 제어용 소프트웨어(221)는, MPD 파일에 기초하여, 동화상 재생 소프트웨어(162)에 의해 지정되는 재생 대상의 그룹, 및 그 그룹에 대응하는 Ext 엘리먼트의 타입 음성 파일의 오디오 스트림 송신 요구를, 액세스용 소프트웨어(223)에 지령한다.

액세스용 소프트웨어(223)는, HTTP를 사용한 인터넷(13)을 통한 Web 서버(212)와의 통신을 제어하는 소프트웨어이다. 구체적으로는, 액세스용 소프트웨어(223)는, 제어용 소프트웨어(221)의 지령에 응답하여, 재생 대상의 음성 파일의 오디오 스트림 송신 요구를, 동화상 재생 단말기(144)에 송신시킨다. 또한, 액세스용 소프트웨어(223)는, 그 송신 요구에 응답하여, Web 서버(212)로부터 송신되어 오는 오디오 스트림의 수신을 동화상 재생 단말기(144)에 개시시키고, 수신 개시의 통지를 동화상 재생 소프트웨어(162)에 공급한다.

(파일 생성 장치의 구성예)

도 41은, 도 40의 파일 생성 장치(211)의 구성예를 나타내는 블록도이다.

도 41에 도시한 구성 중, 도 16의 구성과 동일한 구성에는 동일한 부호를 부여하고 있다. 중복되는 설명에 대해서는 적절히 생략한다.

도 41의 파일 생성 장치(211)의 구성은, 음성 파일 생성부(172), MPD 생성부(173) 대신에, 음성 파일 생성부(241), MPD 생성부(242)가 제공되는 점이, 도 16의 파일 생성 장치(141)의 구성과 상이하다.

구체적으로는, 파일 생성 장치(211)의 음성 파일 생성부(241)는, 음성 부호화 처리부(171)로부터 공급되는 오디오 스트림에 대하여, 그룹 및 Ext 엘리먼트의 타입마다 트랙을 할당한다. 음성 파일 생성부(241)는, 부호화 속도, 세그먼트, 및 트랙마다, 오디오 스트림을 배치한 음성 파일을 생성한다. 음성 파일 생성부(241)는, 생성된 음성 파일을 MPD 생성부(242)에 공급한다.

MPD 생성부(242)는, 음성 파일 생성부(172)로부터 공급되는 음성 파일을 저장하는 Web 서버(142)의 URL 등을 결정한다. MPD 생성부(242)는, 음성 파일의 URL 등이, 그 음성 파일용「Representation」의 「Segment」에 배치된 MPD 파일을 생성한다. MPD 생성부(173)는, 생성된 MPD 파일과 음성 파일을 서버 업로딩 처리부(174)에 공급한다.

(파일 생성 장치의 처리의 설명)

도 42는, 도 41의 파일 생성 장치(211)의 파일 생성 처리를 설명하는 흐름도이다.

도 42의 스텝 S301 및 S302의 처리는, 도 17의 스텝 S191 및 S192의 처리와 마찬가지이므로, 설명은 생략한다.

스텝 S303에 있어서, 음성 파일 생성부(241)는, 부호화 속도, 세그먼트, 및 트랙마다, 오디오 스트림이 배치된 음성 파일을 생성한다. 음성 파일 생성부(241)는, 생성된 음성 파일을 MPD 생성부(242)에 공급한다.

스텝 S304 및 S305의 처리는, 도 17의 스텝 S194 및 S195의 처리와 마찬가지이므로, 설명은 생략한다.

(동화상 재생 단말기의 기능적 구성예)

도 43은, 도 40의 동화상 재생 단말기(214)가 제어용 소프트웨어(221), 동화상 재생 소프트웨어(162), 및 액세스용 소프트웨어(223)를 실행함으로써 실현되는 스트리밍 재생부의 구성예를 나타내는 블록도이다.

도 43에 도시한 구성 중, 도 18의 구성과 동일한 구성에는 동일한 부호를 부여하였다. 중복되는 설명에 대해서는 적절히 생략한다.

도 43의 스트리밍 재생부(260)의 구성은, 음성 파일 취득부(192) 대신에 음성 파일 취득부(264)가 제공되는 점이, 도 18의 스트리밍 재생부(190)의 구성과 상이하다.

음성 파일 취득부(264)는, MPD 처리부(191)로부터 공급되는 URL 중의, 재생 대상의 트랙의 음성 파일의 URL에 기초하여, 그 음성 파일의 오디오 스트림을 Web 서버(142)에 요구하고, 취득한다. 음성 파일 취득부(264)는, 취득된 오디오 스트림을 음성 복호 처리부(194)에 공급한다.

즉, 음성 파일 취득부(264), 음성 복호 처리부(194), 및 음성 합성 처리부(195)는, 재생부로서 기능하고, Web 서버(212)에 저장되어 있는 음성 파일로부터, 재생 대상의 트랙의 음성 파일의 오디오 스트림을 취득하고, 재생한다.

(동화상 재생 단말기의 처리의 설명)

도 44는, 도 43의 스트리밍 재생부(260)의 재생 처리를 설명하는 흐름도이다.

도 44의 스텝 S321 및 S322의 처리는, 도 19의 스텝 S211 및 S212의 처리와 마찬가지이므로, 설명은 생략한다.

스텝 S323에 있어서, 음성 파일 취득부(192)는, MPD 처리부(191)로부터 공급되는 URL 중의, 재생 대상의 트랙의 음성 파일의 URL에 기초하여, 그 음성 파일의 오디오 스트림을 Web 서버(142)에 요구하고, 취득한다. 음성 파일 취득부(264)는, 취득된 오디오 스트림을 음성 복호 처리부(194)에 공급한다.

스텝 S324 및 S325의 처리는, 도 19의 스텝 S214 및 S215의 처리와 마찬가지이므로, 설명은 생략한다.

또한, 제2 실시 형태에 있어서도, 제1 실시 형태와 마찬가지로, GroupDefinition이나 SwitchGroupDefinition이, 샘플 그룹 엔트리에 배치되도록 해도 된다.

또한, 제2 실시 형태에 있어서도, 제1 실시 형태와 마찬가지로, 음성 데이터의 트랙의 구성을, 도 23, 도 26, 도 28, 도 30, 도 32 내지 도 34, 및 도 35에 도시한 구성으로 할 수 있다.

도 45 내지 도 47은, 각각, 제2 실시 형태에 있어서, 음성 데이터의 트랙의 구성이, 도 23, 도 26, 도 28에 도시한 구성인 경우의 MPD를 나타내는 도면이다. 제2 실시 형태에 있어서, 음성 데이터의 트랙의 구성이 도 32, 도 33 또는 도 35, 도 34에 도시한 구성인 경우의 MPD는, 각각, 도 23, 도 26, 도 28에 도시한 구성인 경우의 MPD와 동일하다.

도 45의 MPD는, 베이스 트랙의 「codecs」 및 「associationId」와, 베이스 트랙의 「Representation」에 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 포함되는 점이, 도 39의 MPD와 상이하다. 구체적으로는, 도 45의 MPD의 베이스 트랙의 「Representation」의 「codecs」는, 「mha2.2.1」이며, 「associationId」는, 그룹 트랙의 「id」인 「g1」과 「g2」이다.

또한, 도 46의 MPD는, 그룹 트랙의 「codecs」, 및 그룹 트랙의 「Representation」에 <EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014" value="dataType,definition">이 포함되지 않는 점이, 도 45의 MPD와 상이하다. 구체적으로는, 도 46의 MPD의 그룹 트랙의 「codecs」는, 「mha2.2.1」이다.

또한, 도 47의 MPD는, 베이스 트랙과 그룹 트랙의 「codecs」가, 도 45의 MPD와 상이하다. 구체적으로는, 도 47의 MPD의 그룹 트랙의 「codecs」는, 「mha3.2.1」이다.

또한, 도 45 내지 도 47의 MPD에 있어서, 도 48 내지 도 50에 도시한 바와 같이, 「Representation」마다 「AdaptationSet」를 나눌 수도 있다.

<베이스 트랙의 다른 예>

전술한 설명에서는, 베이스 트랙은 1개만 제공되었지만, 복수 제공되도록 해도 된다. 이 경우, 베이스 트랙은, 예를 들어, 3D 오디오의 시점(상세는 후술함)마다 제공되고, 베이스 트랙에는, 각 시점의 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 배치된다. 또한, 각 베이스 트랙에는, 각 시점의 AudioScene 정보를 포함하는 mhas 박스가 배치되도록 해도 된다.

3D 오디오의 시점이란, 그 3D 오디오가 들리는 위치이며, 3D 오디오와 동시에 재생되는 화상의 시점이나 미리 설정된 소정의 위치 등이다.

이상과 같이, 시점마다 베이스 트랙이 제공되는 경우, 각 시점의 config 정보에 포함되는 오브젝트의 화면상의 위치 등에 기초하여, 동일한 3D 오디오의 오디오 스트림으로부터, 시점마다 서로 다른 음성을 재생할 수 있다. 그 결과, 3D 오디오의 오디오 스트림의 데이터량을 삭감할 수 있다.

즉, 3D 오디오의 시점이, 그 3D 오디오와 동시에 재생 가능한 야구 스타디움의 화상의 복수의 시점인 경우, 기본 시점의 화상인 메인 화상으로서, 예를 들어 센터 백 스크린을 시점으로 하는 화상이 준비된다. 또한, 백네트 뒤, 1루 내야석, 3루 내야석, 레프트 응원석, 라이트 응원석 등을 시점으로 하는 화상이, 기본 시점 이외의 시점의 화상인 멀티 화상으로서 준비된다.

이 경우, 모든 시점의 3D 오디오를 준비하면, 3D 오디오의 데이터량이 많아진다. 따라서, 베이스 트랙에 각 시점에 있어서의 오브젝트의 화면상의 위치 등을 기술함으로써, 오브젝트의 화면상의 위치에 따라서 변화되는 Object audio나 SAOC Object audio 등의 오디오 스트림을 시점 간에서 공유 가능하게 한다. 그 결과, 3D 오디오의 오디오 스트림의 데이터량을 삭감할 수 있다.

3D 오디오의 재생 시에는, 예를 들어 기본 시점의 Object audio나 SAOC Object audio 등의 오디오 스트림과, 동시에 재생되는 메인 화상 또는 멀티 화상의 시점에 대응하는 베이스 트랙을 사용하여, 그 시점에 따라 서로 다른 음성이 재생된다.

마찬가지로, 예를 들어 3D 오디오의 시점이, 미리 설정된 스타디움의 복수의 좌석의 위치인 경우, 모든 시점의 3D 오디오를 준비하면, 3D 오디오의 데이터량이 많아진다. 따라서, 베이스 트랙에 각 시점에 있어서의 오브젝트의 화면상의 위치 등을 기술함으로써, Object audio나 SAOC Object audio 등의 오디오 스트림을 시점 간에서 공유 가능하게 한다. 그 결과, 1개의 시점의 Object audio나 SAOC Object audio를 사용하여, 유저에 의해 좌석표 등을 사용해서 선택된 좌석에 따라 서로 다른 음성을 재생하는 것이 가능해지게 되어, 3D 오디오의 오디오 스트림의 데이터량을 삭감할 수 있다.

도 28의 트랙 구조에 있어서, 베이스 트랙이 3D 오디오의 시점마다 제공되는 경우, 트랙 구조는, 도 51에 나타내는 바와 같이 된다. 도 51의 예에서는, 3D 오디오의 시점의 수가 3개 있다. 또한, 도 51의 예에서는, Channel audio는, 3D 오디오의 시점마다 생성되고, 그 밖의 음성 데이터는, 3D 오디오의 시점 간에서 공유된다. 이들은, 후술하는 도 52의 예에 있어서도 마찬가지이다.

이 경우, 베이스 트랙은, 도 51에 도시한 바와 같이, 3D 오디오의 시점마다 3개 제공된다. 각 베이스 트랙의 track 박스에는, Track Reference가 배치된다. 또한, 각 베이스 트랙의 샘플 엔트리의 신택스는, 4cc가 「mha3」인 샘플 엔트리의 신택스와 동일하지만, 4cc는, 3D 오디오의 시점마다 베이스 트랙이 제공되어 있는 것을 나타내는 「mhcf」이다.

각 베이스 트랙의 샘플 엔트리에는, 각 시점의 3D 오디오의 모든 그룹의 config 정보를 포함하는 mhaC 박스가 배치된다. 각 시점의 3D 오디오의 모든 그룹의 config 정보로서는, 그 시점에 있어서의 오브젝트의 화면상의 위치 등이 있다. 또한, 각 베이스 트랙에는, 각 시점의 AudioScene 정보를 포함하는 mhas 박스가 배치된다.

각 베이스 트랙의 샘플에는, 각 시점의 Channel audio의 그룹의 오디오 스트림이 배치된다.

또한, 각 시점에 있어서의 오브젝트의 화면상의 위치를 샘플 단위로 기술하는 Object Metadata가 존재하는 경우에는, 그 Object Metadata도, 각 베이스 트랙의 샘플에 배치된다.

즉, 오브젝트가 동체(예를 들어, 스포츠 선수)인 경우, 각 시점에 있어서의 오브젝트의 화면상의 위치는 시간 변화되기 때문에, 그 위치는, 샘플 단위로 Object Metadata로서 기술된다. 이 경우, 이 샘플 단위의 Object Metadata는, 시점마다, 그 시점에 대응하는 베이스 트랙의 샘플에 배치된다.

도 51의 그룹 트랙의 구성은, Channel audio의 그룹의 오디오 스트림이 배치되지 않는 점을 제외하고, 도 28의 구성과 동일하므로, 설명은 생략한다.

또한, 도 51의 트랙 구조에 있어서, 각 시점의 Channel audio의 그룹의 오디오 스트림은, 베이스 트랙에 배치되지 않고, 각각, 서로 다른 그룹 트랙에 배치되도록 해도 된다. 이 경우, 트랙 구조는, 도 52에 나타내는 바와 같이 된다.

도 52의 예에서는, 트랙 ID가 「1」인 베이스 트랙에 대응하는 시점의 Channel audio의 그룹의 오디오 스트림이, 트랙 ID가 「4」인 그룹 트랙에 배치되어 있다. 또한, 트랙 ID가 「2」인 베이스 트랙에 대응하는 시점의 Channel audio의 그룹의 오디오 스트림이, 트랙 ID가 「5」인 그룹 트랙에 배치되어 있다.

또한, 트랙 ID가 「3」인 베이스 트랙에 대응하는 시점의 Channel audio의 그룹의 오디오 스트림이, 트랙 ID가 「6」인 그룹 트랙에 배치되어 있다.

또한, 도 51 및 도 52의 예에서는, 베이스 트랙의 샘플 엔트리의 4cc를 「mhcf」로 하였지만, 도 28의 경우와 동일한 「mha3」이어도 된다.

또한, 도시는 생략하였지만, 도 28의 트랙 구조 이외의, 전술한 모든 트랙 구조에 있어서, 베이스 트랙이 3D 오디오의 시점마다 제공되는 경우도, 도 51 및 도 52의 경우와 마찬가지이다.

<제3 실시 형태>

(본 개시를 적용한 컴퓨터의 설명)

전술한 Web 서버[142(212)]의 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 53은, 전술한 Web 서버[142(212)]의 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(601), ROM(Read Only Memory)(602), RAM(Random Access Memory)(603)은, 버스(604)에 의해 서로 접속되어 있다.

버스(604)에는, 또한 입출력 인터페이스(605)가 접속되어 있다. 입출력 인터페이스(605)에는, 입력부(606), 출력부(607), 기억부(608), 통신부(609), 및 드라이브(610)가 접속되어 있다.

입력부(606)는, 키보드, 마우스, 마이크로폰 등으로 구성된다. 출력부(607)는, 디스플레이, 스피커 등으로 구성된다. 기억부(608)는, 하드디스크나 불휘발성의 메모리 등으로 구성된다. 통신부(609)는, 네트워크 인터페이스 등으로 구성된다. 드라이브(610)는, 자기디스크, 광디스크, 광자기디스크, 또는 반도체 메모리 등의 리무버블 미디어(611)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(601)가, 예를 들어 기억부(608)에 기억되어 있는 프로그램을, 입출력 인터페이스(605) 및 버스(604)를 통하여, RAM(603)에 로드해서 실행함으로써, 전술한 일련의 처리가 행해진다.

컴퓨터(CPU(601))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 미디어(611)에 기록해서 제공할 수 있다. 또한, 프로그램은, 로컬 에리어 네트워크, 인터넷, 디지털 위성 방송 등의, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 미디어(611)를 드라이브(610)에 장착함으로써, 입출력 인터페이스(605)를 통하여, 기억부(608)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여, 통신부(609)에 의해 수신하고, 기억부(608)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(602)이나 기억부(608)에, 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한, 동화상 재생 단말기[144(214)]의 하드웨어의 구성은, 도 53의 컴퓨터와 마찬가지의 구성으로 할 수 있다. 이 경우, 예를 들어 CPU(601)가, 제어용 소프트웨어[161(221)], 동화상 재생 소프트웨어(162), 및 액세스용 소프트웨어[163(223)]를 실행한다. 동화상 재생 단말기[144(214)]의 처리는, 하드웨어에 의해 실행할 수도 있다.

본 명세서에 있어서, 시스템이란, 복수의 구성 요소(장치, 모듈(부품) 등)의 집합을 의미하고, 모든 구성 요소가 동일 케이싱 내에 있는지 여부는 묻지 않는다. 따라서, 별개의 케이싱에 수납되고, 네트워크를 통하여 접속되어 있는 복수의 장치, 및 1개의 케이싱 중에 복수의 모듈이 수납되어 있는 1개의 장치는, 모두 시스템이다.

또한, 본 개시의 실시 형태는, 전술한 실시 형태로 한정되는 것이 아니라, 본 개시의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.

또한, 본 개시는, 스트리밍 재생이 아니라, 방송이나 로컬 스토리지 재생을 행하는 정보 처리 시스템에도 적용할 수 있다.

전술한 MPD의 실시예에서는, 그 스키마에 의해 기술된 내용을 이해할 수 없는 경우는 무시해도 되는 descriptor 정의인 EssentialProperty에 의해 정보가 기술되었지만, 그 스키마에 의해 기술된 내용을 이해할 수 없는 경우라도 재생할 수 있는 descriptor 정의인 SupplementalProperty에 의해 정보가 기술되어도 된다. 이 기술 방법의 선택은, 콘텐츠를 작성하는 측의 의도로 행해진다.

또한, 본 개시는, 이하와 같은 구성도 취할 수 있다.

(1)

복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일을 생성하는 파일 생성부를 구비하는, 정보 처리 장치.

(2)

상기 복수의 종류에 관한 정보는, 소정 트랙의 샘플 엔트리에 배치되도록 구성된, 상기 (1)에 기재된 정보 처리 장치.

(3)

상기 소정의 트랙은, 상기 복수 종류의 음성 데이터가 분할되어 배치되는 상기 트랙 중 하나이도록 구성된, 상기 (2)에 기재된 정보 처리 장치.

(4)

상기 파일에는, 상기 트랙마다, 그 트랙에 대응하는 상기 종류에 관한 정보가 배치되도록 구성된, 상기 (1) 내지 (3) 중 어느 하나에 기재된 정보 처리 장치.

(5)

상기 파일에는, 상기 트랙마다, 그 트랙에 대응하는 종류와, 그 종류의 음성 데이터와 배타적으로 재생되는 음성 데이터에 대응하는 종류로 구성되는 배타적 재생 종류에 관한 정보가 배치되도록 구성된, 상기 (4)에 기재된 정보 처리 장치.

(6)

상기 트랙에 대응하는 종류에 관한 정보 및 상기 배타적 재생 종류에 관한 정보는, 대응하는 트랙의 샘플 엔트리에 배치되도록 구성된, 상기 (5)에 기재된 정보 처리 장치.

(7)

상기 파일 생성부는, 상기 트랙마다 상기 배타적 재생 종류에 관한 정보가 존재하는지를 나타내는 정보를 포함하는, 상기 파일을 관리하는 관리 파일을 생성하도록 구성된, 상기 (5) 또는 (6)에 기재된 정보 처리 장치.

(8)

상기 파일에는, 상기 복수의 종류에 대응하는 트랙으로의 참조 정보가 배치되도록 구성된, 상기 (1) 내지 (7) 중 어느 하나에 기재된 정보 처리 장치.

(9)

상기 참조 정보는, 소정 트랙의 샘플에 배치되도록 구성된, 상기 (8)에 기재된 정보 처리 장치.

(10)

상기 소정의 트랙은, 상기 복수 종류의 음성 데이터가 분할되어 배치되는 상기 트랙의 하나이도록 구성된, 상기 (9)에 기재된 정보 처리 장치.

(11)

상기 파일에는, 상기 트랙 간의 참조 관계를 나타내는 정보가 배치되도록 구성된, 상기 (1) 내지 (10) 중 어느 하나에 기재된 정보 처리 장치.

(12)

상기 파일 생성부는, 상기 트랙 간의 참조 관계를 나타내는 정보를 포함하는, 상기 파일을 관리하는 관리 파일을 생성하도록 구성된, 상기 (1) 내지 (11) 중 어느 하나에 기재된 정보 처리 장치.

(13)

상기 파일은, 하나의 파일이도록 구성된, 상기 (1) 내지 (12) 중 어느 하나에 기재된 정보 처리 장치.

(14)

상기 파일은, 상기 트랙마다의 파일이도록 구성된, 상기 (1) 내지 (12) 중 어느 하나에 기재된 정보 처리 장치.

(15)

정보 처리 장치가,

복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일을 생성하는 파일 생성 스텝을 포함하는, 정보 처리 방법.

(16)

복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일로부터, 소정 트랙의 상기 음성 데이터를 재생하는 재생부를 구비하는, 정보 처리 장치.

(17)

정보 처리 장치가,

복수 종류의 음성 데이터가 1 이상의 상기 종류마다 트랙으로 분할되어 배치됨과 함께, 상기 복수의 종류에 관한 정보가 배치된 파일로부터, 소정 트랙의 상기 음성 데이터를 재생하는 재생 스텝을 포함하는, 정보 처리 방법.

11: 파일 생성 장치
192: 음성 파일 취득부
194: 음성 복호 처리부
195: 음성 합성 처리부
211: 파일 생성 장치
264: 음성 파일 취득부

Claims

3D 오디오의 복수의 그룹의 각 그룹에 관한 그룹 정보를 포함하는 Audio Scene 정보에 기초하여,
상기 각 그룹에 관한 그룹 정보에 그룹 ID를 할당한 후, 상기 그룹 ID 각각에 트랙을 할당하고,
상기 Audio Scene 정보에 있어서의 상기 그룹 ID에 관한 정보를, 베이스 트랙에 저장하고,
상기 그룹 ID에 대응하는, 상기 3D 오디오의 재생을 위한 오디오 스트림을, 할당된 상기 트랙에 대응하는 형태로 저장하도록
복수의 트랙으로 구성되는, 상기 3D 오디오의 오디오 파일을 생성하는 파일 생성부를 구비하고,
상기 복수의 그룹의 각 그룹은 동일한 음성의 종류로 그룹핑된 오디오 엘리먼트의 그룹이고,
상기 그룹 ID는 각 그룹핑된 오디오 엘리먼트에 관한 식별 정보이고,
상기 트랙은 상기 오디오 파일에 포함되는 재생 대상이고,
상기 베이스 트랙은 상기 3D 오디오 전체에 관한 정보를 포함하고, 상기 그룹 ID에 할당된 각 트랙의 재생 시 참조되고,
상기 Audio Scene 정보는 상기 오디오 파일 내의 상기 복수의 그룹의 구조를 기술하는 정보인, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일은, 상기 복수의 그룹과 상기 복수의 트랙의 대응을 나타내는 정보를 포함하도록 구성된, 정보 처리 장치.
제2항에 있어서,
상기 복수의 그룹과 상기 복수의 트랙의 대응을 나타내는 정보는, 상기 복수의 그룹의 상기 그룹 ID를 포함하도록 구성된, 정보 처리 장치.
제2항에 있어서,
상기 복수의 그룹과 상기 복수의 트랙의 대응을 나타내는 정보는, 상기 복수의 그룹의 상기 그룹 ID와 상기 복수의 트랙에 대응하는 트랙 ID를 포함하도록 구성된, 정보 처리 장치.
제2항에 있어서,
상기 복수의 그룹과 상기 복수의 트랙의 대응을 나타내는 정보는, 베이스 트랙에 포함되도록 구성된, 정보 처리 장치.
제2항에 있어서,
상기 파일 생성부는, 상기 복수의 그룹과 상기 복수의 트랙의 대응을 나타내는 정보를, 상기 복수의 그룹에 관한 오디오 신(Audio Scene) 정보와 상기 복수의 그룹의 config 정보와는 다른 박스에 설정하도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일에는, 상기 복수의 그룹에 관한 정보가 소정 트랙의 샘플 엔트리에 배치되도록 구성되고,
상기 샘플 엔트리는 상기 3D 오디오의 코덱 정보가 저장되는 구성인, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일에는, 상기 트랙마다, 그 트랙에 대응하는 상기 그룹에 관한 정보가 배치되도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일에는, 상기 트랙마다, 그 트랙에 대응하는 그룹과, 그 그룹의 오디오 엘리먼트와 배타적으로 재생되는 오디오 엘리먼트에 대응하는 그룹으로 구성되는 배타적 재생 그룹에 관한 정보가 배치되도록 구성된, 정보 처리 장치.
제9항에 있어서,
상기 트랙에 대응하는 그룹에 관한 정보 및 상기 배타적 재생 그룹에 관한 정보는, 대응하는 트랙의 샘플 엔트리에 배치되도록 구성되고,
상기 샘플 엔트리는 상기 3D 오디오의 코덱 정보가 저장되는 구성인, 정보 처리 장치.
제9항에 있어서,
상기 파일 생성부는, 상기 트랙마다 상기 배타적 재생 그룹에 관한 정보가 존재하는지를 나타내는 정보를 포함하는, 상기 오디오 파일을 관리하는 관리 파일을 생성하도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일에는, 상기 복수의 트랙에 대한 참조 정보가 배치되도록 구성된, 정보 처리 장치.
제12항에 있어서,
상기 참조 정보는, 소정 트랙의 샘플에 배치되도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일에는, 상기 트랙 간의 참조 관계를 나타내는 정보가 배치되도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 파일 생성부는, 상기 트랙 간의 참조 관계를 나타내는 정보를 포함하는, 상기 오디오 파일을 관리하는 관리 파일을 생성하도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일은, 하나의 파일이도록 구성된, 정보 처리 장치.
제1항에 있어서,
상기 오디오 파일은, 상기 트랙마다의 파일이도록 구성된, 정보 처리 장치.
정보 처리 장치가,
3D 오디오의 복수의 그룹의 각 그룹에 관한 그룹 정보를 포함하는 Audio Scene 정보에 기초하여,
상기 각 그룹에 관한 그룹 정보에 그룹 ID를 할당한 후, 상기 그룹 ID 각각에 트랙을 할당하고,
상기 Audio Scene 정보에 있어서의 상기 그룹 ID에 관한 정보를, 베이스 트랙에 저장하고,
상기 그룹 ID에 대응하는, 상기 3D 오디오의 재생을 위한 오디오 스트림을, 할당된 상기 트랙에 대응하는 형태로 저장하도록
복수의 트랙으로 구성되는, 상기 3D 오디오의 오디오 파일을 생성하는 파일 생성 스텝을 포함하고,
상기 복수의 그룹의 각 그룹은 동일한 음성의 종류로 그룹핑된 오디오 엘리먼트의 그룹이고,
상기 그룹 ID는 각 그룹핑된 오디오 엘리먼트에 관한 식별 정보이고,
상기 트랙은 상기 오디오 파일에 포함되는 재생 대상이고,
상기 베이스 트랙은 상기 3D 오디오 전체에 관한 정보를 포함하고, 상기 그룹 ID에 할당된 각 트랙의 재생 시 참조되고,
상기 Audio Scene 정보는 상기 오디오 파일 내의 상기 복수의 그룹의 구조를 기술하는 정보인, 정보 처리 방법.
3D 오디오의 복수의 그룹의 각 그룹에 관한 그룹 정보를 포함하는 Audio Scene 정보에 기초하여,
상기 각 그룹에 관한 그룹 정보에 그룹 ID를 할당한 후, 상기 그룹 ID 각각에 트랙을 할당하고,
상기 Audio Scene 정보에 있어서의 상기 그룹 ID에 관한 정보를, 베이스 트랙에 저장하고,
상기 그룹 ID에 대응하는, 상기 3D 오디오의 재생을 위한 오디오 스트림을, 할당된 상기 트랙에 대응하는 형태로 저장하도록 생성된,
복수의 트랙으로 구성되는, 상기 3D 오디오의 오디오 파일로부터, 소정의 트랙을 재생하는 재생부를 구비하고,
상기 복수의 그룹의 각 그룹은 동일한 음성의 종류로 그룹핑된 오디오 엘리먼트의 그룹이고,
상기 그룹 ID는 각 그룹핑된 오디오 엘리먼트에 관한 식별 정보이고,
상기 트랙은 상기 오디오 파일에 포함되는 재생 대상이고,
상기 베이스 트랙은 상기 3D 오디오 전체에 관한 정보를 포함하고, 상기 그룹 ID에 할당된 각 트랙의 재생 시 참조되고,
상기 Audio Scene 정보는 상기 오디오 파일 내의 상기 복수의 그룹의 구조를 기술하는 정보인, 정보 처리 장치.
정보 처리 장치가,
3D 오디오의 복수의 그룹의 각 그룹에 관한 그룹 정보를 포함하는 Audio Scene 정보에 기초하여,
상기 각 그룹에 관한 그룹 정보에 그룹 ID를 할당한 후, 상기 그룹 ID 각각에 트랙을 할당하고,
상기 Audio Scene 정보에 있어서의 상기 그룹 ID에 관한 정보를, 베이스 트랙에 저장하고,
상기 그룹 ID에 대응하는, 상기 3D 오디오의 재생을 위한 오디오 스트림을, 할당된 상기 트랙에 대응하는 형태로 저장하도록 생성된,
복수의 트랙으로 구성되는, 상기 3D 오디오의 오디오 파일로부터, 소정의 트랙을 재생하는 재생 스텝을 포함하고,
상기 복수의 그룹의 각 그룹은 동일한 음성의 종류로 그룹핑된 오디오 엘리먼트의 그룹이고,
상기 그룹 ID는 각 그룹핑된 오디오 엘리먼트에 관한 식별 정보이고,
상기 트랙은 상기 오디오 파일에 포함되는 재생 대상이고,
상기 베이스 트랙은 상기 3D 오디오 전체에 관한 정보를 포함하고, 상기 그룹 ID에 할당된 각 트랙의 재생 시 참조되고,
상기 Audio Scene 정보는 상기 오디오 파일 내의 상기 복수의 그룹의 구조를 기술하는 정보인, 정보 처리 방법.