KR20200136393A - 정보 처리 장치, 정보 처리 방법 및 프로그램 - Google Patents

정보 처리 장치, 정보 처리 방법 및 프로그램 Download PDF

Info

Publication number
KR20200136393A
KR20200136393A KR1020207026804A KR20207026804A KR20200136393A KR 20200136393 A KR20200136393 A KR 20200136393A KR 1020207026804 A KR1020207026804 A KR 1020207026804A KR 20207026804 A KR20207026804 A KR 20207026804A KR 20200136393 A KR20200136393 A KR 20200136393A
Authority
KR
South Korea
Prior art keywords
information
file
audio data
angle
display state
Prior art date
Application number
KR1020207026804A
Other languages
English (en)
Inventor
미츠루 가츠마타
도시야 하마다
나오타카 오지로
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20200136393A publication Critical patent/KR20200136393A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2668Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

정보 처리 장치, 정보 처리 방법 및 프로그램을 제공한다. 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 생성부와, 상기 관리 파일을 송신하는 송신부를 구비하는 정보 처리 장치.

Description

정보 처리 장치, 정보 처리 방법 및 프로그램
본 개시는, 정보 처리 장치, 정보 처리 방법 및 프로그램에 관한 것이다.
근년, 인터넷 상의 스트리밍 서비스의 기반 기술로서, MPEG-DASH(Moving Picture Experts Group phase-Dynamic Adaptive Streaming over HTTP)가 보급되어 있다(예를 들어, 비특허문헌 1 참조).
MPEG-DASH를 사용해서 행하여지는 오디오 콘텐츠의 배신에 있어서는, 배신 서버가 오브젝트마다 오디오 데이터를 준비하고(당해 데이터를 「오브젝트 오디오 데이터」라고 호칭함), 클라이언트가 전송로의 상황 등에 따라서 최적의 오브젝트 오디오 데이터를 요구함으로써, 적응형의 스트리밍 배신이 실현된다.
또한, 종래의 5.1 채널 서라운드 재생을 초과하는, 보다 현장감 있는 재생이나 복수의 오브젝트 오디오 데이터를 전송하기 위한 부호화 기술로서 MPEG-H 3D Audio가 알려져 있다(예를 들어, 비특허문헌 2 참조).
ISO/IEC 23009-1:2014 Information technology-Dynamic adaptive streaming over HTTP(DASH) ISO/IEC 23008-3:2015 Information technology-High efficiency coding and media delivery in heterogeneous environments
그러나, 상기와 같은 비특허문헌 1에 기재되어 있는 MPEG-DASH의 규격에 있어서는, 재생되는 오브젝트 오디오 데이터를 표시 상태마다 선택할 수 없었다.
그래서, 본 개시에서는, 오브젝트 오디오 데이터를 표시 상태에 따라서 선택하는 것이 가능한, 신규이면서도 개량된 정보 처리 장치, 정보 처리 방법 및 프로그램을 제안한다.
본 개시에 의하면, 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 생성부와, 상기 관리 파일을 송신하는 송신부를 구비하는 정보 처리 장치가 제공된다.
또한, 본 개시에 의하면, 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 것과, 상기 관리 파일을 송신하는 것을 포함하고, 정보 처리 장치에 의해 실행되는 정보 처리 방법이 제공된다.
또한, 본 개시에 의하면, 컴퓨터에, 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 기능과, 상기 관리 파일을 송신하는 기능을 실현시키기 위한 프로그램이 제공된다.
이상 설명한 바와 같이 본 개시에 의하면, 오브젝트 오디오 데이터를 표시 상태에 따라서 선택하는 것이 가능하다.
또한, 상기 효과는 반드시 한정적인 것은 아니고, 상기 효과와 함께, 또는 상기 효과 대신에, 본 명세서에 개시된 어느 것의 효과, 또는 본 명세서로부터 파악될 수 있는 다른 효과가 발휘되어도 된다.
도 1은 본 개시의 배경을 설명하기 위한 설명도이다.
도 2는 본 개시의 배경을 설명하기 위한 설명도이다.
도 3은 화상의 표시 상태와 오브젝트 오디오 데이터의 관계를 설명하기 위한 설명도이다.
도 4a는 제1 비교 방법에 의한 오디오 데이터의 배신을 설명하기 위한 설명도이다.
도 4b는 제2 비교 방법에 의한 오디오 데이터의 배신을 설명하기 위한 설명도이다.
도 5는 본 개시의 일 실시 형태에 따른 제안 방법의 개요를 설명하기 위한 설명도이다.
도 6은 표시 상태가 변화하지 않아도, 시각에 따라 이용하는 오브젝트 오디오 데이터의 조합이 변화하는 예를 설명하기 위한 설명도이다.
도 7은 동 실시 형태에 따른 정보 처리 시스템의 시스템 구성예를 도시하는 블록도이다.
도 8은 동 실시 형태에 따른 서버(100)의 기능 구성예를 도시하는 블록도이다.
도 9는 동 실시 형태에 따른 클라이언트(200)의 기능 구성예를 도시하는 블록도이다.
도 10a는 복호 화상을 표시부(260)에 그대로 표시 시킨 경우에 이용하는 오브젝트 오디오 데이터에 대해서 설명하기 위한 설명도이다.
도 10b는 복호 화상을 잘라내서 얻어지는 절취 화상을 표시부(260)에 표시 시킨 경우에 이용하는 오브젝트 오디오 데이터에 대해서 설명하기 위한 설명도이다.
도 11은 시청시의 화각의 차이에 의한, 이용하는 오브젝트 오디오 데이터의 차이에 대해서 설명하기 위한 설명도이다.
도 12는 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)가 선택해서 취득하는 방법을 나타내는 흐름도이다.
도 13은 오브젝트간의 각도에 대해서 설명하기 위한 설명도이다.
도 14는 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)가 선택해서 취득하는 방법을 나타내는 흐름도이다.
도 15는 파일화의 흐름을 나타내는 흐름도이다.
도 16은 파일화의 구체예에 대해서 설명하기 위한 설명도이다.
도 17은 파일화의 구체예에 대해서 설명하기 위한 설명도이다.
도 18은 파일화의 구체예에 대해서 설명하기 위한 설명도이다.
도 19는 시그널링되는 value와 각 value의 상세 설명(description)을 나타내는 표이다.
도 20은 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다.
도 21은 도 20에 도시한 MPD 파일에서의 각 정보를 나타내는 표이다.
도 22는 클라이언트(200)가 취득하는 AdaptationSet를 선택하는 방법의 일례를 나타내는 흐름도이다.
도 23은 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다.
도 24는 시그널링되는 value와 각 value의 상세 설명(description)을 나타내는 표이다.
도 25는 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다.
도 26은 도 25에 도시한 MPD 파일에서의 각 정보를 나타내는 표이다.
도 27은 클라이언트(200)가 취득하는 AdaptationSet를 선택하는 방법의 일례를 나타내는 흐름도이다.
도 28은 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다.
도 29는 메타데이터 파일의 구조에 대해서 설명하기 위한 설명도이다.
도 30은 메타데이터 파일의 구조에 대해서 설명하기 위한 설명도이다.
도 31은 도 29, 도 30에 도시한 메타데이터 파일의 syntax를 도시하는 도면이다.
도 32는 확장된 메타데이터 파일의 일례를 도시하는 도면이다.
도 33은 확장된 메타데이터 파일의 syntax를 도시하는 도면이다.
도 34는 오브젝트 선택 메타데이터 파일의 일례를 도시하는 도면이다.
도 35는 오브젝트 선택 메타데이터 파일의 syntax를 도시하는 도면이다.
도 36은 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다.
도 37은 도 36에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 38은 objectSelectionMetadata의 일례를 도시하는 도면이다.
도 39는 도 38에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 40은 objectSelectionMetadata의 변형예를 도시하는 도면이다.
도 41은 도 40에 도시한 각 value의 상세 설명을 나타내는 표이다.
도 42는 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다.
도 43은 도 42에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 44는 objectSelectionMetadata의 일례를 도시하는 도면이다.
도 45는 도 44에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 46은 objectSelectionMetadata의 일례를 도시하는 도면이다.
도 47은 도 46에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 48은 objectSelectionMetadata의 변형예를 도시하는 도면이다.
도 49는 도 48에 도시한 각 value의 상세 설명을 나타내는 표이다.
도 50은 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다.
도 51은 도 50에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 52는 생성되는 MPD 파일의 일례를 도시하는 도면이다.
도 53은 생성되는 MPD 파일의 일례를 도시하는 도면이다.
도 54는 생성되는 MPD 파일의 다른 예를 도시하는 도이다.
도 55는 클라이언트가 취득하는 파일을 선택하는 방법의 일례를 나타내는 흐름도이다.
도 56은 응용예에 대해서 설명하기 위한 설명도이다.
도 57은 응용예에 대해서 설명하기 위한 설명도이다.
도 58은 응용예에 대해서 설명하기 위한 설명도이다.
도 59는 시청 위치에 따라 이용하는 오브젝트 오디오 데이터가 다른 경우에 생성되는 MPD 파일의 일례를 도시하는 도면이다.
도 60은 하드웨어 구성예를 도시하는 설명도이다.
도 61은 MHAMultiStreamBox의 구조를 도시하는 도면이다.
도 62는 3da_meta_data()의 구조를 도시하는 도면이다.
도 63은 DSE의 구조를 도시하는 도면이다.
도 64는 DSE에서의 data_stream_byte에 저장되는 3da_ancillary_data의 구조를 도시하는 도면이다.
이하에 첨부 도면을 참조하면서, 본 개시의 적합한 실시 형태에 대해서 상세하게 설명한다. 또한, 본 명세서 및 도면에서, 실질적으로 동일한 기능 구성을 갖는 구성 요소에 대해서는, 동일한 번호를 부여함으로써 중복 설명을 생략한다.
또한, 본 명세서 및 도면에서, 실질적으로 동일한 기능 구성을 갖는 복수의 구성 요소를, 동일한 부호 뒤에 다른 알파벳을 부여해서 구별하는 경우도 있다. 단, 실질적으로 동일한 기능 구성을 갖는 복수의 구성 요소 각각을 특별히 구별할 필요가 없을 경우, 동일 부호만을 부여한다.
또한, 설명은 이하의 순서로 행하는 것으로 한다.
<<1. 머리말>>
<<2. 구성예>>
<<3. 오브젝트 선택 정보의 예(실시예 1)>>
<<4. 표시 상태를 고려한 파일화의 예(실시예 2)>>
<<5. 시간 변화하지 않을 경우의 시그널링 예(실시예 3)>>
<<6. 시간 변화하는 경우의 시그널링 예(실시예 4)>>
<<7. 응용예>>
<<8. 하드웨어 구성예>>
<<9. 맺음말>>
<<1. 머리말>>
<1-1. 배경>
먼저, 본 개시의 배경에 대해서 설명한다.
MPEG-H 3D Audio는, 오브젝트마다 생성된 오디오 데이터인 오브젝트 오디오 데이터를 취급할 수 있는 규격이다. 오디오 콘텐츠는, 음원의 파형 데이터인 복수의 오브젝트 오디오 데이터와, 오브젝트의 위치, 소리의 확산, 혹은 각종 이펙트 등에 관한 정보를 포함하는 오브젝트 메타데이터에 의해 구성된다.
도 1은, 본 개시의 배경을 설명하기 위한 설명도이다. 예를 들어, 도 1에 도시한 바와 같이, 오브젝트 메타데이터와 복수의 오브젝트 오디오 데이터(도 1에서는, 오브젝트 오디오 데이터 1 내지 오브젝트 오디오 데이터 n이 도시되어 있음)가 서버 등에 의해 클라이언트에 제공된다. 클라이언트의 오브젝트 렌더러는, 오브젝트 메타데이터와 오브젝트 오디오 데이터를 수신하면, 재생 환경 정보(예를 들어, 스피커의 위치 또는 수 등)에 기초하여 렌더링을 행하고, 스피커 등의 재생 환경에 대하여 파형 데이터를 제공함으로써, 오디오 콘텐츠의 재생을 실현한다.
오디오 콘텐츠가 제공되는 경우, 오브젝트 오디오 데이터는, 오디오 파일에 저장되어 클라이언트에 전송된다. 여기서, 도 2를 참조하여 구체예를 설명한다. 도 2는, 본 개시의 배경을 설명하기 위한 설명도이다. 도 2의 D10에 나타내는 바와 같이, 오브젝트 오디오 데이터 1 내지 오브젝트 오디오 데이터 3과, 이들 데이터에 대응하는 오브젝트 메타데이터가 존재하는 경우, 오디오 파일에 저장하는 양태는 파일화 예(F11 내지 F13)에 나타내는 바와 같이 크게 3가지를 생각할 수 있다.
보다 구체적으로는, 파일화 예(F11)에 나타내는 바와 같이, 모든 데이터가 1개의 오디오 파일에 저장되어도 되고, 파일화 예(F12)에 나타내는 바와 같이, 1 또는 2 이상의 오브젝트 오디오 데이터와 그것들에 대응하는 오브젝트 메타데이터가 각각 오디오 파일에 저장되어도 된다. 또한, 파일화 예(F13)에 나타내는 바와 같이, 1개의 오브젝트 오디오 데이터와 그것에 대응하는 오브젝트 메타데이터가 1개의 오디오 파일에 저장되어도 된다.
여기서, 화상의 표시 상태와 오브젝트 오디오 데이터의 관계에 대해서, 도 3을 참조하여 설명을 행한다. 도 3은, 화상의 표시 상태와 오브젝트 오디오 데이터의 관계를 설명하기 위한 설명도이다.
도 3에는, 2명의 보컬(H2, H3)이 노래를 부르고 있는 화상이 2개의 표시 상태(V11) 및 표시 상태(V12)로 표시되는 예가 도시되어 있다. 표시 상태(V11)와 표시 상태(V12)는, 줌 인, 줌 아웃에 의해 서로 이행 가능하며, 표시 상태(V11)에서 중앙부를 줌 인하면 표시 상태(V12)가 되고, 표시 상태(V12)에서 줌 아웃하면 표시 상태(V12)가 된다. 또한, 줌 인, 줌 아웃은, 예를 들어 클라이언트에 의한 화상의 절취 처리에 의해 행하여져도 된다.
표시 상태(V11)의 경우, 2명의 보컬(H2, H3)이 중앙에 작게 합쳐서 표시되어 있기 때문에, 어느 보컬이 노래를 부르고 있든, 혹은 양쪽 보컬이 노래를 부르고 있다고 해도, 중앙의 한 방향으로부터 소리가 들리면 충분하다고 생각된다. 한편, 표시 상태(V12)의 경우에는, 유저에게는 2명의 보컬이 떨어져서 보여, 각각의 보컬의 위치를 명확하게 구별할 수 있기 때문에, 좌측 보컬(H2)이 노래를 부르고 있을 때는 좌측 방향으로부터 소리가 들리고, 우측 보컬(H3)이 노래를 부르고 있을 때는 우측 방향으로부터 소리가 들리는 것이 바람직하다. 이러한 상태를 소리의 정위를 알 수 있는 상태라고 한다.
스트리밍 서비스를 행하기 위한 규격인 MPEG-DASH에서는, 상술한 바와 같은 표시 상태에 따른 오브젝트 오디오 데이터의 전송은 고려되어 있지 않아, 표시 상태에 관계없이 오브젝트 오디오 데이터가 전송되고 있다.
예를 들어, 도 3과 같은 화상과 오디오 데이터를 포함하는 콘텐츠를 MPEG-DASH로 배신할 경우, 도 4를 참조하여 설명하는 이하와 같은 2개의 방법(각각 제1 비교 방법 및 제2 비교 방법이라고 칭함)이 채용될 수 있다.
도 4a는, 제1 비교 방법에 의한 오디오 데이터의 배신을 설명하기 위한 설명도이다. 제1 비교 방법은, 표시 상태(V11)에 맞춰서 1개의 오브젝트 오디오 데이터(AD1)를 배신하는 방법이다. 도 4a에 도시한 바와 같이, 제1 비교 방법에 의하면, 표시 상태(V11)의 경우뿐만 아니라, 표시 상태(V12)의 경우도, 소리가 중앙의 한 방향으로부터만 들리기 때문에, 도 3을 참조하여 설명한 바와 같이, 각각의 보컬의 위치에 따른 방향으로부터 소리를 들을 수 없다.
도 4b는, 제2 비교 방법에 의한 오디오 데이터의 배신을 설명하기 위한 설명도이다. 제2 기존 방법은, 표시 상태(V12)에 맞춰서 2개의 오브젝트 오디오 데이터(AD2, AD3)를 배신하는 방법이다. 도 4b에 도시한 바와 같이, 제2 비교 방법에 의하면, 표시 상태(V12)에 있어서, 각각의 보컬의 위치에 따른 방향으로부터 소리를 듣는 것이 가능하지만, 표시 상태(V11)에서는, 2개의 오브젝트 오디오 데이터가 렌더링되어, 결과적으로 한 방향으로부터 소리가 들린다. 즉, 제2 비교 방법에서는, 표시 상태(V11)의 경우에, 한 방향으로부터 들리면 충분함에도 불구하고, 2개의 오브젝트 오디오 데이터가 필요하기 때문에, 제1 비교 방법과 비교하면 전송 대역 및 렌더링 처리가 쓸데 없이 더 필요해져버린다.
<1-2. 개요>
그래서, 이하에 설명하는 본 개시의 일 실시 형태에서는, 표시 상태에 따라서 이용하는 오브젝트 오디오 데이터를 선택해서 취득하는 방법(이하, 제안 방법이라고 칭함)이 채용된다. 예를 들어 서버가 표시 상태마다 필요해지는 오브젝트 오디오 데이터를 미리 모두 기억해 두고, 클라이언트가 표정 상태에 따른 오브젝트 오디오 데이터를 선택해서 취득함으로써, 이러한 제안 방법이 실현될 수 있다.
도 5는, 본 개시의 일 실시 형태에 따른 제안 방법의 개요를 설명하기 위한 설명도이다. 제안 방법에서는, 표시 상태(V11)에서는 1개의 오브젝트 오디오 데이터(AD1)가 배신되고, 표시 상태(V12)에서는 2개의 오브젝트 오디오 데이터(AD2, AD3)가 배신된다. 제안 방법에 의하면, 쓸데 없는 전송 대역 및 렌더링 처리를 발생시키지 않고, 보다 적절한 위치로부터 소리가 들리도록 오브젝트 오디오 데이터를 배신하는 것이 가능하게 된다.
그런데, 상술한 바와 같이, 기존의 MPEG-DASH에서는, 표시 상태에 따른 오브젝트 오디오 데이터의 전송은 고려되어 있지 않다. 그래서, 상술한 바와 같은 제안 방법에 의한 오브젝트 오디오 데이터의 배신을 실현하기 위해서, 본 개시에서는, 이하의 4개의 구조가 제공된다.
첫째, 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 정보와, 그 정보를 이용해서 오브젝트 오디오 데이터를 선택하는 구조가 제공된다. 예를 들어, 도 5에 도시한 예에서는, 표시 상태(V11)의 경우에는 오브젝트 오디오 데이터(AD1), 표시 상태(V12)의 경우에는 오브젝트 오디오 데이터(AD2, AD3)를 선택하기 위한 메타 정보(이하, 오브젝트 선택 정보라고도 칭함)가 새롭게 필요해진다. 이러한 오브젝트 선택 정보, 및 오브젝트 선택 정보를 사용한 오브젝트 오디오 데이터 선택의 예에 대해서는, <<3. 오브젝트 선택 정보의 예(실시예 1)>>에서 설명을 행한다.
둘째, 표시 상태를 고려해서 오브젝트 오디오 데이터를 파일화하는 구조가 제공된다. 도 2를 참조하여 설명한 바와 같이, 기존의 MPEG-DASH에서는, 오브젝트 오디오 데이터는 오디오 파일에 저장되고, 클라이언트는 파일을 선택해서 취득한다.
예를 들어, 표시 상태마다 이용하는 오브젝트 오디오 데이터를 도 2에 도시한 파일화 예(F11)와 같이 모두 1개의 오디오 파일에 저장되도록 파일화하면, 항상 1개의 오디오 파일을 표시 상태에 따라서 선택해서 취득하면 된다는 이점이 있다. 그러나, 표시 상태와 동일수의 파일을 준비할 필요가 있고, 또한 공통의 오브젝트 오디오 데이터를 이용하는 표시 상태가 복수 존재하는 경우, 서버는 동일한 오브젝트 오디오 데이터를 포함하는 복수의 오디오 파일을 기억하게 되어, 기억 용량의 낭비가 발생할 수 있다.
한편, 도 2에 도시한 파일화 예(F13)와 같이 1개의 오브젝트 오디오 데이터가 1개의 오디오 파일에 저장되도록 파일화하면, 서버는 필요한 오브젝트 오디오 데이터분의 오디오 파일만을 기억하면 된다는 이점이 있다. 그러나, 클라이언트가 파일을 취득할 때, 표시 상태에 따른 오브젝트 오디오 데이터의 수만큼 오디오 파일을 취득할 필요가 있기 때문에, HTTP 커넥션수가 많아져서 서버의 처리 부하가 커질 우려가 있다.
그래서, 다양한 표시 상태에 대응 가능함과 함께, 서버가 기억하는 데이터양과, 클라이언트가 취득하는 파일수 양쪽이 억제되도록 파일화하는 구조가 요망된다. 이러한 표시 상태를 고려한 오브젝트 오디오 데이터를 파일화하는 구조의 예에 대해서는, <<4. 표시 상태를 고려한 파일화의 예(실시예 2)>>에서 설명을 행한다.
셋째, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하지 않을 경우에, 오브젝트 선택 정보를 시그널링하는 구조가 제공된다. 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하지 않을 경우, 동일한 오브젝트 선택 정보를 모든 시각에서 공통 이용 가능하다. 그러나, 이러한 오브젝트 선택 정보를 시그널링하는 구조가 기존의 MPEG-DASH에는 준비되어 있지 않기 때문에, 시그널링하기 위한 새로운 구조가 필요해진다. 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하지 않을 경우에, 오브젝트 선택 정보를 시그널링하는 구조의 예에 대해서는, <<5. 시간 변화하지 않을 경우의 시그널링 예(실시예 3)>>에서 설명을 행한다.
넷째, 이용하는 오브젝트 오디오 데이터가 시간 변화하는 경우에, 오브젝트 선택 정보를 시그널링하는 구조가 제공된다. 상술한 오브젝트 선택 정보가 시간 변화하는 경우를 생각할 수 있다. 예를 들어 동일한 표시 상태이어도, 시각에 따라 이용하는 오브젝트 오디오 데이터가 변화하는 경우가 있다. 이러한 경우에 대해서, 도 6을 참조하여 설명한다.
도 6은, 표시 상태가 변화하지 않아도, 시각에 따라 이용하는 오브젝트 오디오 데이터의 조합이 변화하는 예를 설명하기 위한 설명도이다. 도 6에 도시하는 예에서는, 시각 t1부터 시각 t2의 사이에 줌 변화는 없어, 시각 t1의 표시 상태(V21)와, 시각 t2의 표시 상태(V22)는 동일한 표시 상태이지만, 시각 t1부터 시각 t2의 사이에, 2명의 보컬(H1, H2)이 앞쪽으로 다가오고 있다. 또한, 본 명세서에서는, 예를 들어 화각 등의 표시 상태를 결정할 수 있는 요소에 변화가 없을 경우에는 동일한 표시 상태라고 표현된다.
시각 t1에서는, 2명의 보컬(H1, H2)이 멀리서 합쳐서 보이기 때문에, 1개의 오브젝트 오디오 데이터(AD1)를 이용하는 것이 바람직하다. 한편, 시각 t2에서는 2명의 보컬(H1, H2)이 다가옴으로써, 각각의 보컬의 위치를 명확하게 구별할 수 있기 때문에, 2개의 오브젝트 오디오 데이터(AD2, AD3)를 이용하는 것이 바람직하다. 이와 같이, 시각마다 화상에 비치고 있는 음원이 이동할 경우에는, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화할 수 있다. 또한, 시각마다 비치고 있는 음원이 변화하는 경우에도, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화할 수 있다.
이렇게 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하는 경우, 시각마다 다른 오브젝트 선택 정보를 시그널링하는 것이 바람직하다. 시각마다 다른 오브젝트 선택 정보를 파일에 저장하는 구조, 및 그것을 시그널링하기 위한 구조는 기존의 MPEG-DASH에는 준비되어 있지 않다. 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하는 경우에, 시각마다 오브젝트 선택 정보를 파일에 저장하여, 시그널링하는 구조의 예에 대해서는, <<6. 시간 변화하는 경우의 시그널링 예(실시예 4)>>에서 설명을 행한다.
이상, 본 개시의 배경 및 본 개시의 일 실시 형태의 개요에 대해서 설명하였다. 이후에서는, 본 개시의 일 실시 형태에 대해서 보다 상세하게 설명을 행한다.
<<2. 구성예>>
<2-1. 시스템 구성예>
먼저, 도 7을 참조하여, 본 실시 형태에 따른 정보 처리 시스템의 시스템 구성예에 대해서 설명한다. 도 7은, 본 실시 형태에 따른 정보 처리 시스템의 시스템 구성예를 도시하는 블록도이다.
도 7을 참조하면, 본 실시 형태에 따른 정보 처리 시스템은, 서버(100)와, 클라이언트(200)를 구비한다. 그리고, 서버(100)와 클라이언트(200)는, 통신망(300)에 의해 서로 접속되어 있다.
서버(100)는, MPEG-DASH에 기초하여, 오디오 콘텐츠에 사용되는 오브젝트 오디오 데이터를 클라이언트(200)에 스트리밍 배신(송신)하는 정보 처리 장치(송신 장치)이다. 보다 구체적으로는, 서버(100)는, 오디오 콘텐츠에 사용되는 오디오 데이터를 오브젝트마다 취득하여, 오브젝트 단위로 당해 데이터를 부호화함으로써 스트림 데이터를 생성한다. 그리고, 서버(100)는, 세그먼트라고 불리는 수초 내지 10초 정도의 시간 단위마다, 혹은 콘텐츠 모두에 대해서, 당해 스트림 데이터를 파일화함으로써 오디오 파일을 생성한다.
또한, 오브젝트란, 음원이며, 각 오브젝트의 오디오 데이터(오브젝트 오디오 데이터)는, 예를 들어 각 오브젝트에 설치된 마이크로폰 등에 의해 취득된다. 오브젝트는, 고정된 마이크 스탠드 등의 물체이어도 되고, 인물 등의 동체이어도 된다.
또한, 본 실시 형태에서, 1개의 음원이 1개의 오브젝트이어도 되고, 복수의 음원이 1개의 오브젝트이어도 된다. 또한 어떤 음원에 대응하는 오브젝트가 복수 존재해도 된다. 예를 들어, 도 5에 도시하는 예에서는, 음원인 보컬(H2)에 대응하는 오브젝트는, 표시 상태에 따라 달라, 보컬(H2)의 가성은 오브젝트 오디오 데이터(AD1)에도 오브젝트 오디오 데이터(AD2)에도 포함될 수 있다.
또한, 서버(100)는, 각 오브젝트의 위치 정보 등을 포함하는 오브젝트 메타데이터를 부호화한다. 서버(100)는, 오브젝트 메타데이터의 부호화 데이터를 세그먼트 단위로 파일화함으로써 메타데이터 파일을 생성한다.
또한, 서버(100)는, 오디오 파일을 관리하는 관리 파일을 생성한다. 본 실시 형태에서, 관리 파일은, ISO/IEC 23009-1로 규격 정의되는 MPD(Media Presentation Description) 파일이면 된다.
그리고, 서버(100)는, 클라이언트(200)로부터의 요구에 따라, 상기 오디오 파일, 메타데이터 파일, 또는, MPD 파일 등을 클라이언트(200)에 송신한다.
클라이언트(200)는, 오디오 콘텐츠를 재생하는 정보 처리 장치(수신 장치)이다. 보다 구체적으로는, 클라이언트(200)는, 서버(100)로부터 MPD 파일을 취득하고, 당해 MPD 파일에 기초하여 서버(100)로부터 메타데이터 파일 및 오디오 파일을 취득한다. 그리고, 클라이언트(200)는, 서버(100)로부터 취득된 오디오 파일을 복호하여, 합성해서 출력함으로써 오디오 콘텐츠의 재생을 실현한다.
이상, 본 실시 형태에 따른 정보 처리 시스템의 시스템 구성예에 대해서 설명하였다. 또한, 도 7을 참조하여 설명한 상기 구성은 어디까지나 일례이며, 본 실시 형태에 따른 정보 처리 시스템의 구성은 이러한 예에 한정되지 않는다. 예를 들어, 서버(100)의 기능의 일부는, 클라이언트(200) 또는 그 밖의 외부 장치에 구비되어도 된다. 예를 들어, 서버(100)의 기능의 일부를 제공하는 소프트웨어(예를 들어, 소정의 API(Application Programming Interface)가 사용된 WEB 애플리케이션 등)가 클라이언트(200) 상에서 실행되어도 된다. 또한, 반대로, 클라이언트(200)의 기능의 일부는, 서버(100) 또는 그 밖의 외부 장치에 구비되어도 된다. 본 실시 형태에 따른 정보 처리 시스템의 구성은, 사양이나 운용에 따라서 유연하게 변형 가능하다.
<2-2. 서버의 기능 구성예>
상기에서는, 본 실시 형태에 따른 정보 처리 시스템의 시스템 구성예에 대해서 설명하였다. 계속해서, 도 8을 참조하여, 서버(100)의 기능 구성예에 대해서 설명한다. 도 8은, 본 실시 형태에 따른 서버(100)의 기능 구성예를 도시하는 블록도이다. 도 8에 도시하는 바와 같이, 서버(100)는, 생성부(110)와, 제어부(120)와, 통신부(130)와, 기억부(140)를 구비한다.
생성부(110)는, 오디오 콘텐츠의 제공에 관한 처리를 행하는 기능 구성이다. 도 8에 도시하는 바와 같이, 생성부(110)는, 데이터 취득부(111)와, 부호화 처리부(112)와, 세그먼트 파일 생성부(113)와, MPD 파일 생성부(114)를 구비한다.
데이터 취득부(111)는, 화상 및 오디오 데이터를 오브젝트마다 취득한다(환언하면, 오브젝트 오디오 데이터를 취득함). 데이터 취득부(111)는, 서버(100) 내로부터 당해 화상과 당해 오브젝트 오디오 데이터를 취득해도 되고, 서버(100)에 접속하고 있는 외부 장치로부터 당해 화상과 당해 오브젝트 오디오 데이터를 취득해도 된다. 데이터 취득부(111)는, 취득한 화상과 오브젝트 오디오 데이터를 부호화 처리부(112)에 제공한다.
부호화 처리부(112)는, 데이터 취득부(111)로부터 제공되는 화상, 및 각 오브젝트의 오브젝트 오디오 데이터를 부호화함으로써 화상 스트림 데이터, 및 오디오 스트림 데이터를 생성한다. 또한, 부호화 처리부(112)는, 외부로부터 입력되는 각 오브젝트의 오브젝트 위치 정보 등을 포함하는 오브젝트 메타데이터를 부호화한다. 부호화 처리부(112)는, 화상 스트림 데이터, 각 오브젝트의 오디오 스트림 데이터, 및 오브젝트 메타데이터의 부호화 데이터를 세그먼트 파일 생성부(113)에 제공한다.
세그먼트 파일 생성부(113)는, 콘텐츠로서 배신 가능한 단위의 데이터인 세그먼트 파일을 생성하는 기능 구성이다. 예를 들어, 세그먼트 파일 생성부(113)는, 부호화 처리부(112)로부터 제공되는 각 오브젝트의 오디오 스트림 데이터를 세그먼트 단위로 파일화함으로써 오디오 파일을 생성한다. 오디오 파일의 생성(파일화라고도 칭함)에 대해서는 다양한 양태가 존재한다. 예를 들어, 세그먼트 파일 생성부(113)는, 표시 상태에 따른 오브젝트 오디오 데이터의 조합에 기초하여, 동일한 오브젝트 오디오 데이터가 복수의 오디오 파일에 포함되지 않도록, 1 또는 2 이상의 오브젝트 오디오 데이터를 1개의 오디오 파일에 저장함으로써 오디오 파일을 생성한다. 표시 상태에 따른 오브젝트 오디오 데이터의 조합에 기초하는 오디오 파일의 생성의 상세에 대해서는 후술한다.
또한, 세그먼트 파일 생성부(113)는, 부호화 처리부(112)로부터 제공되는, 오브젝트 메타데이터의 부호화 데이터를 세그먼트 단위로 파일화함으로써, 오브젝트 메타데이터만을 저장하는 메타데이터 파일을 생성할 수도 있다. 이러한 메타데이터 파일이 생성되는 케이스에 대해서는 후술한다.
또한, 세그먼트 파일 생성부는, 부호화 처리부(112)로부터 제공되는 화상 스트림 데이터를 세그먼트 단위로 파일화함으로써 화상 파일을 생성한다.
MPD 파일 생성부(114)는, MPD 파일을 생성하는 기능 구성이다. 본 실시 형태에서, MPD 파일 생성부(114)는, 오브젝트 선택 정보를 포함하는 메타데이터 파일에 액세스하기 위한 메타데이터 파일 액세스 정보를 포함하는 MPD 파일을 생성한다. MPD 파일 생성부(114)에 의해 생성되는 MPD 파일의 상세에 대해서는 후술한다.
제어부(120)는, 서버(100)가 행하는 처리 전반을 통괄적으로 제어하는 기능 구성이다. 예를 들어, 제어부(120)는, 통신부(130)를 통해서 수신되는 클라이언트(200)로부터의 요구 정보 등에 기초하여 각 구성의 기동이나 정지를 제어할 수 있다. 또한, 제어부(120)의 제어 내용은 특별히 한정되지 않는다. 예를 들어, 제어부(120)는, 범용 컴퓨터, PC, 태블릿 PC 등에서 일반적으로 행하여지는 처리를 제어해도 된다.
통신부(130)는, 클라이언트(200)와의 각종 통신을 행한다. 예를 들어, 통신부(130)는, 클라이언트(200)로부터의 요구 정보를 수신한다. 또한, 통신부(130)는, 송신부로서도 기능하여, 당해 요구 정보에의 응답으로서 MPD 파일, 메타데이터 파일, 오디오 파일 또는 화상 파일 등을 클라이언트(200)에 송신한다. 또한, 통신부(130)의 통신 내용은 이들에 한정되지 않는다.
기억부(140)는 각종 정보를 기억하는 기능 구성이다. 예를 들어, 기억부(140)는, 오디오 파일, 화상 파일, 메타데이터 파일, MPD 파일 등을 기억하거나, 서버(100)의 각 기능 구성에 따라 사용되는 프로그램 또는 파라미터 등을 기억하거나 한다. 또한, 기억부(140)가 기억하는 정보는 이들에 한정되지 않는다.
이상, 서버(100)의 기능 구성예에 대해서 설명하였다. 또한, 도 8을 사용해서 설명한 상기 기능 구성은 어디까지나 일례이며, 서버(100)의 기능 구성은 이러한 예에 한정되지 않는다. 예를 들어, 서버(100)는, 도 8에 도시하는 기능 구성 모두를 반드시 구비하지 않아도 된다. 또한, 서버(100)의 기능 구성은, 사양이나 운용에 따라서 유연하게 변형 가능하다.
<2-3. 클라이언트의 기능 구성예>
상기에서는, 서버(100)의 기능 구성예에 대해서 설명하였다. 계속해서, 도 9를 참조하여, 클라이언트(200)의 기능 구성예에 대해서 설명한다. 도 9는, 본 실시 형태에 따른 클라이언트(200)의 기능 구성예를 도시하는 블록도이다. 도 9에 도시하는 바와 같이, 클라이언트(200)는, 처리부(210)와, 제어부(220)와, 통신부(230)와, 기억부(240)와, 센서부(250)와, 표시부(260)와, 스피커(270)를 구비한다.
처리부(210)는, 콘텐츠의 재생에 관한 처리를 행하는 기능 구성이다. 도 9에 도시하는 바와 같이, 처리부(210)는, MPD 파일 취득부(211)와, MPD 파일 처리부(212)와, 세그먼트 파일 선택부(213)와, 세그먼트 파일 취득부(214)와, 복호 처리부(215)와, 합성 처리부(216)를 구비한다.
MPD 파일 취득부(211)는, 콘텐츠의 재생에 앞서 서버(100)로부터 MPD 파일을 취득하는 기능 구성이다. 보다 구체적으로는, MPD 파일 취득부(211)는, 유저 조작 등에 기초하여 MPD 파일의 요구 정보를 생성하고, 통신부(230)를 통해서 당해 요구 정보를 서버(100)에 제공함으로써, MPD 파일을 서버(100)로부터 취득한다. MPD 파일 취득부(211)는, 취득한 MPD 파일을 MPD 파일 처리부(212)에 제공한다.
MPD 파일 처리부(212)는, MPD 파일 취득부(211)로부터 제공되는 MPD 파일에 관한 처리를 행하는 기능 구성이다. 보다 구체적으로는, MPD 파일 처리부(212)는, MPD 파일의 해석에 기초하여, 오디오 파일, 메타데이터 파일 등의 취득에 필요한 정보(예를 들어, URL 등)를 인식한다. 또한, 본 실시 형태에 따른 MPD 파일 처리부(212)는, MPD 파일의 해석에 기초하여, 오브젝트 선택 정보를 취득한다. MPD 파일 처리부(212)는, 이들 정보를 세그먼트 파일 선택부(213)에 제공한다.
세그먼트 파일 선택부(213)는, 취득 대상이 되는 세그먼트 파일을 선택하는 기능 구성이다. 보다 구체적으로는, 세그먼트 파일 선택부(213)는, MPD 파일 처리부(212)로부터 제공되는 상기 각종 정보에 기초하여 취득 대상이 되는 오디오 파일 또는 메타데이터 파일을 선택한다. 예를 들어, 본 실시 형태에 따른 세그먼트 파일 선택부(213)는, 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 선택하고, 선택된 오브젝트 오디오 데이터를 포함하는 오디오 파일을 선택한다.
세그먼트 파일 취득부(214)는, 세그먼트 파일의 취득을 행하는 기능 구성이다. 보다 구체적으로는, 세그먼트 파일 취득부(214)는, 세그먼트 파일 선택부(213)로부터 제공되는 각종 정보에 기초하여, 화상 파일, 오디오 파일 또는 메타데이터 파일의 요구 정보를 생성하고, 통신부(230)를 통해서 당해 요구 정보를 서버(100)에 송신시킴으로써, 이들 파일을 서버(100)로부터 취득한다. 세그먼트 파일 취득부(214)는, 취득한 이들 파일을 복호 처리부(215)에 제공한다.
복호 처리부(215)는, 세그먼트 파일 취득부(214)로부터 제공되는 화상 파일, 오디오 파일, 또는 메타데이터 파일에 포함되는 데이터를 복호하는 기능 구성이다. 복호 처리부(215)는, 복호 처리에 의해 얻어지는 화상(이하, 복호 화상이라고도 칭함)을 제어부(220)에 제공한다. 또한, 복호 처리부(215)는, 복호 처리에 의해 얻어지는 오브젝트 오디오 데이터 등을 합성 처리부(216)에 제공한다.
합성 처리부(216)는, 복호 처리부(215)로부터 제공되는 복수의 오브젝트 오디오 데이터를 합성하여, 출력하는 기능 구성이다. 합성 처리부(216)는, 합성 후의 데이터를 제어부(220)에 제공한다.
제어부(220)는, 클라이언트(200)가 행하는 처리 전반을 통괄적으로 제어하는 기능 구성이다. 예를 들어, 제어부(220)는, 표시부(260)의 표시를 제어한다. 제어부(220)는, 복호 처리부(215)로부터 제공되는 복호 화상을 그대로 표시부(260)에 표시시켜도 되고, 복호 처리부(215)로부터 제공되는 복호 화상에 대하여 처리를 실시해서 표시부(260)에 표시시켜도 된다. 예를 들어, 제어부(220)는, 센서부(250)로부터 제공되는 센서 데이터에 기초하여, 복호 처리부(215)로부터 제공되는 복호 화상으로부터 일부 영역을 잘라내는 처리(절취 처리)를 실시해도 된다. 그리고, 제어부(220)는, 절취 처리에 의해 잘라내진 화상(이하, 절취 화상이라고도 칭함)을 표시부(260)에 표시시켜도 된다. 또한, 센서 데이터에 기초하는 복호 화상의 절취 처리는, 예를 들어 소위 360도 화상의 재생에 있어서 행하여지는 절취 처리와 마찬가지이면 된다. 또한, 제어부(220)는, 스피커(270)를 제어하여, 합성 처리부(216)로부터 제공되는 합성 후의 데이터를 출력함으로써, 오디오 콘텐츠를 유저에게 제공한다. 또한, 제어부(220)는, 유저에 의해 마우스, 키보드 등의 입력부(도시없음)를 사용해서 행하여지는 입력에 기초하여 각종 처리를 제어해도 된다. 또한, 제어부(220)의 제어 내용은 특별히 한정되지 않는다. 예를 들어, 제어부(220)는, 범용 컴퓨터, PC, 태블릿 PC 등에서 일반적으로 행하여지는 처리를 제어해도 된다.
통신부(230)는, 서버(100)와의 각종 통신을 행한다. 예를 들어, 통신부(230)는, 처리부(210)로부터 제공되는 요구 정보를 서버(100)에 송신한다. 또한, 통신부(230)는 수신부로서도 기능하여, 당해 요구 정보에의 응답으로서 MPD 파일, 메타데이터 파일, 오디오 파일, 화상 파일 등을 서버(100)로부터 수신한다. 또한, 통신부(230)의 통신 내용은 이들에 한정되지 않는다.
기억부(240)는, 각종 정보를 기억하는 기능 구성이다. 예를 들어, 기억부(240)는, 서버(100)로부터 취득한 화상 파일, 오디오 파일, 오브젝트 메타데이터, 메타데이터 파일 또는 MPD 파일 등을 기억하거나, 클라이언트(200)의 각 기능 구성에 따라 사용되는 프로그램 또는 파라미터 등을 기억하거나 한다. 또한, 기억부(240)가 기억하는 정보는 이들에 한정되지 않는다.
센서부(250)는, 센싱에 의해 유저에 관한 센서 데이터를 취득한다. 예를 들어, 센서부(250)는, 가속도 센서, 각속도 센서 등의 센서를 포함해도 되고, 유저의 자세나 위치에 관한 센서 데이터를 취득해도 된다. 센서부(250)는, 취득한 센서 데이터를 제어부(220)에 제공한다.
표시부(260)는, 제어부(220)의 제어에 따라서 화상을 표시한다. 또한, 상술한 바와 같이 표시부(260)에 의해 표시되는 화상은, 복호 처리부(215)로부터 제공되는 복호 화상 그 자체이어도 되고, 제어부(220)의 절취 처리에 의해 잘라내진 절취 화상이어도 된다.
스피커(270)는 제어부(220)의 제어에 따라서 오디오 출력을 행한다.
이상, 클라이언트(200)의 기능 구성예에 대해서 설명하였다. 또한, 도 9를 사용해서 설명한 상기 기능 구성은 어디까지나 일례이며, 클라이언트(200)의 기능 구성은 이러한 예에 한정되지 않는다. 예를 들어, 클라이언트(200)는, 도 9에 도시하는 기능 구성 모두를 반드시 구비하지 않아도 된다. 또한, 클라이언트(200)의 기능 구성은, 사양이나 운용에 따라서 유연하게 변형 가능하다. 예를 들어, 도 9에 도시한 센서부(250), 표시부(260), 스피커(270)의 기능 구성은, 클라이언트(200)에 접속된 다른 장치에 구비되어 있어도 된다.
<<3. 오브젝트 선택 정보의 예(실시예 1)>>
이상, 본 실시 형태의 구성예에 대해서 설명하였다. 계속해서, 본 실시 형태에서, 표시 상태에 따라서 이용되는 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보, 및 당해 오브젝트 선택 정보를 사용한 오브젝트 오디오 데이터의 선택에 관하여, 2개의 실시예(실시예 1-1, 실시예 1-2)를 설명한다.
<3-1. 화각을 사용한 오브젝트 선택 정보의 예(실시예 1-1)>
먼저, 실시예 1-1로서, 화각을 사용한 오브젝트 선택 정보의 예에 대해서 설명한다. 상술한 바와 같이, 클라이언트(200)의 제어부(220)는, 처리부(210)로부터 제공된 복호 화상을 표시부(260)에 그대로 표시시켜도 되고, 절취 처리에 의해 잘라내진 절취 화상을 표시부(260)에 표시시켜도 된다. 여기서, 복호 화상이 그대로 표시되는 경우와, 잘라내진 절취 화상이 표시되는 경우에, 표시 상태가 달라, 클라이언트(200)가 취득해야 할 오브젝트 오디오 데이터가 다를 수 있다. 이러한 절취 처리에 의한, 취득해야 할 오브젝트 오디오 데이터의 차이에 대해서, 도 10을 참조하여 설명을 행한다. 또한, 이하의 설명에서는, 주로 수평 화각에 대해서 설명하지만, 수직 화각에 대해서도 마찬가지이다.
도 10a는, 복호 화상을 표시부(260)에 그대로 표시시킨 경우에 이용하는 오브젝트 오디오 데이터에 대해서 설명하기 위한 설명도이다. 도 10a에 도시하는 복호 화상(D31)은, 화각(θa)에서의 촬상에 기초하는 화상이며, 복호 화상(D31)에는 2명의 보컬(H1, H2)이 비치고 있다.
이러한 복호 화상(D31)을 그대로 표시하고, 또한 촬상 시의 화각과 동일한 화각(θa)으로 시청한 경우, 도 10a에 도시하는 표시 상태(V32)와 같이 2명의 보컬(H2, H3)이 중앙에 작게 합쳐서 표시된다. 그 때문에 표시 상태(V32)에서는, 한 방향으로부터 소리가 들리면 충분하다고 생각되며, 이러한 경우 클라이언트(200)는 1개의 오브젝트 오디오 데이터를 선택해서 취득하면 된다.
또한, 도 10a에 도시한 예는, 촬상 시의 화각과 동일한 화각(θa)으로 복호 화상 전체를 절취 화상으로서 잘라내어 표시한 예라고 해석하는 것도 가능하다.
도 10b는, 복호 화상을 잘라내서 얻어지는 절취 화상을 표시부(260)에 표시시킨 경우에 이용하는 오브젝트 오디오 데이터에 대해서 설명하기 위한 설명도이다. 도 10b에 도시하는 복호 화상(D33)은, 도 10a에 도시한 복호 화상(D31)과 마찬가지로 화각(θa)에서의 촬상에 기초하는 화상이며, 복호 화상(D33)에는 2명의 보컬(H1, H2)이 비치고 있다.
여기서, 이러한 복호 화상(D33)으로부터, 화각(θb)로 잘라낸 절취 화상(D331)을 표시하고, 또한 화각(θa)으로 시청한 경우, 도 10b에 도시하는 표시 상태(V34)와 같이 유저에게는 2명의 보컬이 떨어져 보여, 각각의 보컬의 위치를 명확하게 구별할 수 있다. 그 때문에 표시 상태(V34)에서는, 2 방향으로부터 따로따로 소리가 들리는 것이 바람직하여, 이러한 경우 클라이언트(200)는 2개의 오브젝트 오디오 데이터를 선택해서 취득할 필요가 있다.
상술한 바와 같이, 복호 화상이 그대로 표시되는 경우와, 잘라내진 절취 화상이 표시되는 경우에, 표시 상태가 달라, 이용하는 오브젝트 오디오 데이터가 다를 수 있다. 또한, 절취 화상이 표시되는 경우에도, 절취 화상이 잘라내지는 화각(예를 들어 도 10b에 도시한 예에서는 θb)이나 방향(위치)에 따라 표시 상태가 달라, 이용하는 오브젝트 오디오 데이터가 다를 수 있다.
또한, 표시되는 절취 화상이 동일하여도, 시청 시의 화각(이하, 시청 화각이라고도 칭함)에 다라 표시 상태가 달라, 이용하는 오브젝트 오디오 데이터가 다를 수 있다. 이러한 시청 시의 화각에 따른 이용하는 오브젝트 오디오 데이터의 차이에 대해서, 도 11을 참조하여 설명을 행한다. 또한, 이하의 설명에서는, 주로 수평 화각에 대해서 설명하지만, 수직 화각에 대해서도 마찬가지이다.
도 11은, 시청 시의 화각의 차이에 따른, 이용하는 오브젝트 오디오 데이터의 차이에 대해서 설명하기 위한 설명도이다. 도 11에 도시하는 표시 상태(V34)는, 도 10b에 도시한 표시 상태(V34)와 동일하다. 즉, 도 11에 도시하는 표시 상태(V34)에서 표시되는 화상은, 도 10b에 도시한 절취 화상(D331)이며, 유저는 화각(θa)의 시청 화각으로 시청하고 있다. 이러한 표시 상태(V34)에서는, 상술한 바와 같이, 2 방향으로부터 따로따로 소리가 들리는 것이 바람직하여, 클라이언트(200)는, 2개의 오브젝트 오디오 데이터를 선택해서 취득할 필요가 있다.
또한, 도 11에 도시하는 표시 상태(V35)에서 표시되는 화상은, 표시 상태(V34)에서 표시되는 화상과 동일해서, 도 10b에 도시한 절취 화상(D331)이면 된다. 단, 도 11에 도시하는 표시 상태(V35)에 있어서, 유저는 화각(θa)보다도 작은 화각(θc)의 시청 화각으로 시청하고 있다. 표시 상태(V35)와 같이, 작은 시청 화각으로 시청할 경우, 유저에게는, 2명의 보컬(H2, H3)이 합쳐서 보여, 중앙의 한 방향으로부터 소리가 들리면 충분하다고 생각된다. 따라서, 이러한 경우 클라이언트(200)는 1개의 오브젝트 오디오 데이터를 선택해서 취득하면 된다.
이상을 정리하면, 잘라낸 화상의 방향 및 화각, 그리고 시청 시의 화각의 조합에 따라, 클라이언트(200)가 이용하는(취득해야 할) 오브젝트 오디오 데이터의 조합이 다를 수 있다. 또한, 복호 화상이 소위 360도 화상인 경우에도, 상술한 예와 마찬가지로, 360도 화상으로부터 잘라낸 화상의 방향 및 화각, 그리고 시청 시의 화각의 조합에 의해, 이용하는 오브젝트 오디오 데이터의 조합이 다를 수 있다. 본 실시예에서는, 이들 정보를 사용함으로써, 표시 상태가 특정되어, 이용하는 오브젝트 오디오 데이터의 조합을 특정하는 것이 가능하다.
본 실시예에서, 오브젝트의 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보는, 이하에 나타내는 정보를 포함해도 된다.
·잘라낸 화상의 방향에 관한 방향 정보
·잘라낸 화상의 화각에 관한 절취 화각 정보
·표시된 화상에 대한 시청 시의 화각에 관한 시청 화각 정보
·이용하는 오브젝트 오디오 데이터에 관한 이용 정보
또한, 상기 정보 중, 절취 화각 정보, 및 시청 화각 정보를 합쳐서 단순히 화각 정보라고 칭하는 경우도 있다.
방향 정보는, 예를 들어 수평 방향의 각도의 정보와 수직 방향의 각도의 정보를 포함해도 된다. 혹은, 방향 정보는, 수평 방향의 각도의 정보와 수직 방향의 각도의 정보에 더하여, 이러한 수평 방향의 각도와 수직 방향의 각도에 의해 특정되는 잘라낸 방향 벡터로부터의 각도 범위의 정보를 포함해도 된다. 혹은, 방향 정보는, 수평 방향의 각도의 범위의 정보와, 수직 방향의 각도의 범위의 정보를 포함해도 된다.
절취 화각 정보는, 예를 들어 잘라낸 화상의 수평 화각의 범위의 정보와, 수직 화각의 범위의 정보를 포함해도 된다. 혹은, 기준이 되는 표시 상태에서의 잘라낸 화상의 수평 화각과 수직 화각이 미리 기준 화각으로서 정해져 있을 경우, 절취 화각 정보는, 기준 화각에 대한 배율의 범위의 정보를 포함해도 된다.
시청 화각 정보는, 예를 들어 표시된 화상에 대한 시청 시의 수평 화각의 범위의 정보와, 수직 화각의 범위의 정보를 포함해도 된다. 혹은, 기준이 되는 표시 상태에서의 표시된 화상에 대한 시청 시의 수평 화각과 수직 화각이 미리 기준 화각으로서 정해져 있을 경우, 시청 화각 정보는, 기준 화각에 대한 배율의 범위의 정보를 포함해도 된다.
이용 정보는, 이용하는 오브젝트 오디오 데이터의 조합을 모두 나타내는 정보를 포함해도 된다. 혹은, 이용 정보는, 미리 정해진 기정(default)의 오브젝트 오디오 데이터의 조합에 대한, 이용하는 오브젝트 오디오 데이터의 조합의 차분을 나타내는 정보를 포함해도 된다.
또한, 이용 정보가 기정의 오브젝트 오디오 데이터의 조합을 포함하는지 여부에 구애되지 않고, 기정의 오브젝트 오디오 데이터의 조합이 미리 정해져 있어도 된다. 예를 들어, 해당하는 오브젝트 선택 정보가 준비되어 있지 않은 표시 상태에서는 기정의 오브젝트 오디오 데이터를 이용함으로써, 모든 표시 상태가 표현되도록 오브젝트 선택 정보를 준비하는 수고가 생략된다.
상술한 본 실시예에 따른 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)의 처리부(210)가 선택해서 취득하는 방법에 대해서, 도 12를 참조하여 설명한다. 도 12는, 본 실시예에 따른 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)가 선택해서 취득하는 방법을 나타내는 흐름도이다. 또한, 도 12에 나타내는 예에서는, 기정의 오브젝트 오디오 데이터의 조합이 미리 정해져 있고, 또한 클라이언트(200)가 이미 복수의 오브젝트 선택 정보를 취득하여, 예를 들어 기억부(240)에 기억되어 있는 것으로 한다.
먼저, 도 12에 나타내는 바와 같이, 처리부(210)는, 클라이언트(200)가 표시하는 절취 화상의 절취 방향, 절취 화각, 및 현재의 시청 화각의 정보를 취득한다(S102). 여기서, 클라이언트(200)가 표시하는 절취 화상의 절취 방향 및 절취 화각의 정보는, 예를 들어 절취 처리를 행하는 제어부(220)에 의해 결정되어, 제어부(220)로부터 처리부(210)에 제공되어도 된다. 또한, 현재의 시청 화각의 정보는, 센서부(250)에 의해 취득된 센서 데이터에 기초하여, 제어부(220)에 의해 특정되어, 제어부(220)로부터 처리부(210)에 제공되어도 된다.
계속해서, 처리부(210)는, 스텝 S102에서 취득된 정보에 기초하여, 기억부(240)에 기억된 복수의 오브젝트 선택 정보 중에서, 현재의 표시 상태에 해당하는 오브젝트 선택 정보를 특정한다.
예를 들어, 처리부(210)는, 스텝 S102에서 취득된 정보와 일치하거나, 또는 범위에 포함하는 1개의 오브젝트 선택 정보를 특정해도 된다. 구체적으로는, 각 오브젝트 선택 정보에 포함되는 방향 정보와, 표시되는 절취 화상의 절취 방향을 비교하여, 일치하거나 또는 표시되는 절취 화상의 절취 방향을 포함하는 범위의 방향 정보를 갖는 오브젝트 선택 정보를 추출한다. 그리고, 처리부(210)는, 추출된 오브젝트 선택 정보를 대상으로, 각 오브젝트 선택 정보에 포함되는 화각 정보와, 표시되는 절취 화상의 절취 화각 및 현재의 시청 화각의 정보를 비교한다. 그리고, 절취 화상의 절취 화각 및 현재의 시청 화각을 포함하는 화각 정보를 포함하는 1개의 오브젝트 선택 정보를 특정해도 된다.
또한, 스텝 S102에서 취득된 정보와 일치하거나, 또는 범위에 포함하는 오브젝트 선택 정보가 기억부(240)에 기억된 것 중에서 발견되지 않을 경우, 스텝 S104에서 처리부(210)는 오브젝트 선택 정보를 특정하지 않아도 된다.
현재의 표시 상태에 해당하는 오브젝트 선택 정보가 특정되었을 경우(S106에서 "예"), 처리부(210)는, 특정된 오브젝트 선택 정보에 포함되는 이용 정보에 기초하여, 취득하는 오브젝트 오디오 데이터의 조합을 선택한다(S108). 예를 들어, 이용 정보로서, 이용하는 오브젝트 오디오 데이터의 조합을 모두 나타내는 정보가 당해 오브젝트 선택 정보에 포함되어 있는 경우, 처리부(210)는, 이용 정보에 의해 나타내어지는 오브젝트 오디오 데이터를 그대로 선택하면 된다. 혹은, 이용 정보로서, 기정의 오브젝트 오디오 데이터의 조합에 대한, 이용하는 오브젝트 오디오 데이터의 조합의 차분을 나타내는 정보가 당해 오브젝트 선택 정보에 포함되어 있는 경우, 처리부(210)는, 기정의 오브젝트 오디오 데이터의 조합에 기초하여, 취득하는 오브젝트 오디오 데이터를 선택하면 된다.
계속해서, 처리부(210)는, 스텝 S108에서 선택된 오브젝트 오디오 데이터를 서버(100)로부터 취득한다. 또한, 선택된 오브젝트 오디오 데이터를 취득하는 방법의 상세에 대해서는 후술한다.
한편, 현재의 표시 상태에 해당하는 오브젝트 선택 정보가 특정되지 않은 경우(S106에서 "아니오"), 처리부(210)는, 기정의 오브젝트 오디오 데이터를 취득한다(S112).
또한, 상술한 처리 중, 스텝 S104 내지 S108의 처리는, 예를 들어 세그먼트 파일 선택부(213)에 의해 실행되고, 스텝 S110, S112의 처리는, 예를 들어 세그먼트 파일 취득부(214)에 의해 실행될 수 있다.
<3-2. 오브젝트간의 각도를 사용한 오브젝트 선택 정보의 예(실시예 1-2)>
이상, 실시예 1-1로서, 화각을 사용한 오브젝트 선택 정보의 실시예에 대해서 설명하였다. 계속해서, 실시예 1-2로서, 오브젝트간의 각도를 사용한 오브젝트 선택 정보의 예에 대해서 설명한다. 이하에 설명하는 실시예 1-2에서는, 시청 시의 2개의 오브젝트의 위치와 유저의 시청 위치로부터, 당해 2개의 오브젝트간의 각도를 산출하여, 오브젝트간의 각도에 기초하여 이용하는 오브젝트 오디오 데이터가 선택된다.
도 13은, 오브젝트간의 각도에 대해서 설명하기 위한 설명도이다. 도 13에 도시하는 바와 같이, 표시 상태(V44)에서는, 오브젝트 오디오 데이터(AD2)에 관련된 오브젝트(보컬(H2)에 대응하는 오브젝트)와, 오브젝트 오디오 데이터(AD3)에 관련된 오브젝트(보컬(H3)에 대응하는 오브젝트)의 사이의 각도는 각도(θd)이다. 표시 상태(V44)와 같이, 이 각도(θd)가 작은 경우, 2개의 오브젝트의 위치의 차는 유저에게는 인식되지 않기 때문에, 중앙의 한 방향으로부터 소리가 들리면 충분하다. 따라서, 표시 상태(V44)에서는, 오브젝트 오디오 데이터(AD2) 및 오브젝트 오디오 데이터(AD3)가 믹스된 오브젝트 오디오 데이터(AD1)가 이용된다.
한편, 도 13에 도시하는 바와 같이, 표시 상태(V45)에서는, 오브젝트 오디오 데이터(AD2)에 관련된 오브젝트와, 오브젝트 오디오 데이터(AD3)에 관련된 오브젝트의 사이의 각도는 각도(θe)(θed)이다. 표시 상태(V45)와 같이, 이 각도(θe)가 큰 경우, 2개의 오브젝트의 위치가 따로따로 유저에게 인식되기 때문에, 2 방향으로부터 따로따로 소리가 들리는 것이 바람직하다. 따라서, 표시 상태(V45)에서는, 오브젝트 오디오 데이터(AD2) 및 오브젝트 오디오 데이터(AD3)가 이용된다.
이상과 같이, 2개의 오브젝트간의 각도의 크기에 따라, 클라이언트(200)가 이용하는(취득해야 할) 오브젝트 오디오 데이터의 조합이 다를 수 있다. 본 실시예에서는, 2개의 오브젝트간의 각도의 크기에 따라, 표시 상태가 특정되어, 이용하는 오브젝트 오디오 데이터의 조합을 특정하는 것이 가능하다.
본 실시예에서, 오브젝트의 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보는, 이하에 나타내는 정보를 포함해도 된다.
·각도를 산출하는 2개의 오브젝트의 위치 정보
·2개의 오브젝트간의 각도에 관한 각도 정보
·이용하는 오브젝트 오디오 데이터에 관한 이용 정보
각도를 산출하는 2개의 오브젝트의 위치 정보는, 상술한 오브젝트 메타데이터에 포함되는 오브젝트의 위치 정보와 마찬가지의 정보이어도 된다. 단, 오브젝트 선택 정보마다, 각도를 산출하는 2개의 오브젝트가 정해져 있어, 그러한 2개의 오브젝트의 위치 정보가 오브젝트 선택 정보에 포함된다.
각도 정보는, 예를 들어 각도의 범위의 정보를 포함해도 된다. 후술하는 바와 같이 각도 정보는 역치로서 사용될 수 있다.
본 실시예에 따른 이용 정보는, 실시예 1의 이용 정보와 마찬가지이어도 된다. 즉, 이용 정보는, 이용하는 오브젝트 오디오 데이터의 조합을 모두 나타내는 정보를 포함해도 된다. 혹은, 이용 정보는, 미리 정해진 기정의 오브젝트 오디오 데이터의 조합에 대한, 이용하는 오브젝트 오디오 데이터의 조합의 차분을 나타내는 정보를 포함해도 된다.
상술한 본 실시예에 따른 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)의 처리부(210)가 선택해서 취득하는 방법에 대해서, 도 14를 참조하여 설명한다. 도 14는, 본 실시예에 따른 오브젝트 선택 정보에 기초하여 이용하는 오브젝트 오디오 데이터를 클라이언트(200)가 선택해서 취득하는 방법을 나타내는 흐름도이다. 또한, 도 14에 나타내는 예에서는, 기정의 오브젝트 오디오 데이터의 조합이 미리 정해져 있고, 또한 클라이언트(200)가 이미 복수의 오브젝트 선택 정보를 취득하여, 예를 들어 기억부(240)에 기억되어 있는 것으로 한다.
먼저, 도 14에 나타내는 바와 같이, 처리부(210)는, 오브젝트간의 각도를 산출한다(S122). 스텝 S122에서, 처리부(210)는, 기억부(240)에 기억된 오브젝트 선택 정보에 포함되는 각도를 산출하는 2개의 오브젝트의 위치 정보와, 유저의 시청 위치의 정보에 기초하여, 오브젝트간의 각도를 산출해도 된다. 또한, 유저의 시청 위치의 정보는, 예를 들어 센서부(250)에 의해 취득된 센서 데이터에 기초하여, 제어부(220)에 의해 특정되어, 제어부(220)로부터 처리부(210)에 제공되어도 된다.
계속해서, 처리부(210)는, 스텝 S122에서 산출된 오브젝트간의 각도에 기초하여, 기억부(240)에 기억된 복수의 오브젝트 선택 정보 중에서, 현재의 표시 상태에 해당하는 오브젝트 선택 정보를 특정한다.
예를 들어, 처리부(210)는, 스텝 S122에서 산출된 오브젝트간의 각도를 포함하는 각도 범위의 각도 정보를 포함하는 오브젝트 선택 정보를 추출한다. 그리고, 1개의 오브젝트 선택 정보만이 추출된 경우, 처리부(210)는, 추출된 1개의 오브젝트 선택 정보를 현재의 표시 상태에 해당하는 오브젝트 선택 정보로서 특정해도 된다. 복수의 오브젝트 선택 정보가 추출된 경우, 처리부(210)는, 추출된 복수의 오브젝트 선택 정보 중, 각도를 구하는 2개의 오브젝트의 위치가 유저의 시청 방향에 가장 가까운 오브젝트 선택 정보를 특정해도 된다.
또한, 스텝 S122에서 산출된 오브젝트간의 각도를 포함하는 각도 범위의 각도 정보를 포함하는 오브젝트 선택 정보가 존재하지 않는 경우, 스텝 S124에서 처리부(210)는, 오브젝트 선택 정보를 특정하지 않아도 된다.
현재의 표시 상태에 해당하는 오브젝트 선택 정보가 특정되었을 경우(S126에서 "예"), 처리부(210)는, 특정된 오브젝트 선택 정보에 포함되는 이용 정보에 기초하여, 취득하는 오브젝트 오디오 데이터의 조합을 선택한다(S128). 예를 들어, 이용 정보로서, 이용하는 오브젝트 오디오 데이터의 조합을 모두 나타내는 정보가 당해 오브젝트 선택 정보에 포함되어 있는 경우, 처리부(210)는, 이용 정보에 의해 나타내어지는 오브젝트 오디오 데이터를 그대로 선택하면 된다. 혹은, 이용 정보로서, 기정의 오브젝트 오디오 데이터의 조합에 대한, 이용하는 오브젝트 오디오 데이터의 조합의 차분을 나타내는 정보가 당해 오브젝트 선택 정보에 포함되어 있는 경우, 처리부(210)는, 기정의 오브젝트 오디오 데이터의 조합에 기초하여, 취득하는 오브젝트 오디오 데이터를 선택하면 된다.
계속해서, 처리부(210)는, 스텝 S128에서 선택된 오브젝트 오디오 데이터를 서버(100)로부터 취득한다.
한편, 현재의 표시 상태에 해당하는 오브젝트 선택 정보가 특정되지 않은 경우(S126에서 "아니오"), 처리부(210)는, 기정의 오브젝트 오디오 데이터를 취득한다(S132).
또한, 상술한 처리 중, 스텝 S124 내지 S128의 처리는, 예를 들어 세그먼트 파일 선택부(213)에 의해 실행되고, 스텝 S130, S132의 처리는, 예를 들어 세그먼트 파일 취득부(214)에 의해 실행될 수 있다.
<<4. 표시 상태를 고려한 파일화의 예(실시예 2)>>
이상, 오브젝트 선택 정보 및 오브젝트 선택 정보를 사용한 오브젝트 오디오 데이터 선택의 예로서, 2개의 실시예(실시예 1-1, 실시예 1-2)를 설명하였다. 계속해서, 실시예 2로서, 복수의 표시 상태를 고려해서 오브젝트 오디오 데이터를 파일화하는 실시예에 대해서 설명을 행한다. 또한, 이하에 설명하는 실시예 2는, 상술한 실시예와 임의로 조합하는 것이 가능하여, 실시예 1-1, 실시예 1-2의 어느 것과 조합되어도 된다.
MPEG-DASH에 의한 스트리밍 배신에서는, 오브젝트 오디오 데이터를 취득하는 경우에는 오디오 파일마다 취득을 행한다. 이하에 설명하는 본 실시예에 따른 파일화에 의해, 오브젝트마다가 아니라, 오디오 파일마다 취득을 행하는 것이 가능해진다. 또한, 본 실시예에 의하면, 서버(100)가 기억하는 데이터양과, 클라이언트(200)가 취득하는 파일수 양쪽이 억제되도록, 오브젝트 오디오 데이터를 파일화할 수 있다.
이하에서는, 도 15를 참조하여, 본 실시예에 따른 파일화의 흐름에 대해서 설명한 후, 도 16 내지 도 18을 참조하여 파일화의 구체예에 대해서 설명한다. 또한, 이하에 설명하는 오브젝트 오디오 데이터의 파일화는, 서버(100)의 생성부(110)에 의해 실행되어, 예를 들어 생성부(110)의 세그먼트 파일 생성부(113)에 의해 실행될 수 있다.
도 15는, 본 실시예에 따른 파일화의 흐름을 나타내는 흐름도이다. 먼저, 도 15에 나타내는 바와 같이, 세그먼트 파일 생성부(113)는, 어떤 1개의 표시 상태에서의 오브젝트 오디오 데이터의 조합을 그룹화한다(S202). 스텝 S202에서, 표시 상태에서의 오브젝트 오디오 데이터의 조합은, 예를 들어 표시 상태에 대응하는 오브젝트 선택 정보에 기초해서 특정될 수 있다.
계속해서, 세그먼트 파일 생성부(113)는, 스텝 S202에서 그룹화된 그룹과, 다른 표시 상태(스텝 S202에서 사용된 1개의 표시 상태 이외의 표시 상태)에서의 오브젝트 오디오 데이터의 조합의 차분을 그룹화한다(S204). 스텝 S204에서, 세그먼트 파일 생성부(113)는, 스텝 S202에서 사용된 1개의 표시 상태로부터 각 표시 상태로 천이했을 때, 새롭게 이용되게 되는 오브젝트 오디오 데이터의 조합과, 이용되지 않게 되는 오브젝트 오디오 데이터의 조합을 각각 따로따로 그룹화한다.
계속해서, 세그먼트 파일 생성부(113)는, 스텝 S202, S204에서 그룹화된 그룹 중, 포함되는 오브젝트 오디오 데이터의 수가 가장 적은 그룹을 선택한다(S206). 또한, 포함되는 오브젝트 오디오 데이터의 수가 가장 적은 그룹이 복수인 경우에는, 복수 중 어느 하나가 선택되면 된다. 또한, 후술하는 바와 같이 스텝 S206은 복수회 반복해서 실행되어도 되고, 스텝 S206이 2회째 이후에 실행되는 경우, 세그먼트 파일 생성부(113)는, 선택되지 않은 그룹 중, 포함되는 오브젝트 오디오 데이터의 수가 가장 적은 그룹을 선택한다.
계속해서, 세그먼트 파일 생성부(113)는, 선택되지 않은 그룹에 포함되는 오브젝트 오디오 데이터로부터, 직전에 선택된 그룹에 포함되는 오브젝트 오디오 데이터를 제거한다(S208).
선택되지 않은 그룹이 존재하는 경우(S210에서 "예"), 스텝 S206으로 돌아가서, 모든 그룹이 선택될 때까지 스텝 S206 내지 S210이 반복된다. 선택되지 않은 그룹이 존재하지 않게 될 때까지 반복되면(S210에서 "아니오"), 세그먼트 파일 생성부(113)는, 선택된 그룹을 그룹마다 파일화한다(S212). 스텝 S212에서, 세그먼트 파일 생성부(113)는, 각 그룹에 포함되는 1 또는 2 이상의 오브젝트 오디오 데이터를 1개의 오디오 파일에 저장하여, 오디오 파일을 생성한다.
또한, 상술한 스텝 S202 내지 S212의 처리는, 예를 들어 세그먼트 파일 생성부(113)에 의해 실행될 수 있다.
이상, 본 실시예에 따른 파일화의 흐름에 대해서 설명하였다. 계속해서, 상술한 파일화의 구체예에 대해서 설명한다. 도 16 내지 도 18은, 본 실시예에 따른 파일화의 구체예에 대해서 설명하기 위한 설명도이다.
이하에서는, 도 16에 도시되는 3개의 표시 상태(V51, V52, V53)가 있을 경우에 생성부(110)가 파일을 생성하는 구체예에 대해서 설명한다. 도 16에 도시하는 바와 같이, 표시 상태(V51, V52, V53)의 어느 경우든, 4명의 보컬(H11 내지 H14)이 포함되는 화상이 표시된다. 또한, 표시 상태(V51)에서는, 3개의 오브젝트 오디오 데이터(AD11, AD12, AD15)가 이용된다. 또한, 표시 상태(V52)에서는, 4개의 오브젝트 오디오 데이터(AD11, AD12, AD13, AD14)가 이용된다. 또한, 표시 상태(V53)에서는, 1개의 오브젝트 오디오 데이터(AD16)가 이용된다.
도 15의 스텝 S202 내지 S204를, 도 16에 도시되는 표시 상태(V51 내지 V53)에 대해서 실행한 경우의 동작에 대해서, 도 17을 참조하여 설명한다. 표시 상태(V51)에 대해서 스텝 S202를 실행하면, 도 17의 스텝 S222에 나타낸 바와 같이 그룹(G11)이 얻어진다. 계속해서, 표시 상태(V51)로부터 표시 상태(V52)에의 천이 및 표시 상태(V51)로부터 표시 상태(V53)에의 천이에 대해서 스텝 S204를 실행하면, 도 17의 스텝 S224에 나타낸 바와 같이 그룹(G12 내지 G15)이 얻어진다.
도 15의 스텝 S206 내지 S212를, 도 17에 도시되는 5개의 그룹(G11 내지 G15)에 대해서 실행한 경우의 동작에 대해서, 도 18을 참조하여 설명한다. 먼저, 1회째에 스텝 S206이 실행되는 전에는, 도 18의 스텝 S226에 나타낸 바와 같이, 모든 그룹(G11 내지 G15)이 미선택의 상태이다. 스텝 S226의 상태에서 스텝 S206을 실행하면, 예를 들어 그룹(G12)이 선택된다. 또한, 스텝 S208을 실행하면, 도 18의 스텝 S228에 나타낸 바와 같이, 직전에 선택된 그룹(G12)에 포함되는 오브젝트 오디오 데이터(AD15)가, 그룹(G11, G14)으로부터 제거된다. 스텝 S228의 상태에서는, 미선택의 그룹이 존재하기 때문에, 스텝 S210에서 "예"로 판정되어, 스텝 S206이 다시 실행된다.
스텝 S228의 상태에서 스텝 S206을 실행하면, 예를 들어 그룹(G15)이 선택된다. 여기서, 스텝 S228의 상태에서, 그룹(G15)에 포함되는 오브젝트 오디오 데이터(AD16는, 다른 그룹에는 포함되지 않는다. 따라서, 스텝 S208을 실행해도, 도 18의 스텝 S230에 나타낸 바와 같이, 각 그룹에 포함되는 오브젝트 오디오 데이터에 변화는 없다. 스텝 S230의 상태에서는, 미선택의 그룹이 존재하기 때문에, 스텝 S210에서 "예"로 판정되어, 스텝 S206이 다시 실행된다.
스텝 S230의 상태에서 스텝 S206을 실행하면, 예를 들어 그룹(G11)이 선택된다. 여기서, 스텝 S230의 상태에서, 그룹(G11)에 포함되는 오브젝트 오디오 데이터와 그룹(G14)에 포함되는 오브젝트 오디오 데이터는 동일하다. 따라서, 스텝 S208을 실행하면, 도 18의 스텝 S232에 나타낸 바와 같이, 직전에 선택된 그룹(G11)에 포함되는 오브젝트 오디오 데이터(AD11, AD12)가, 그룹(G14)으로부터 제거되어, 그룹(G14)이 소멸된다. 스텝 S232의 상태에서는, 미선택의 그룹이 존재하기 때문에, 스텝 S210에서 "예"로 판정되어, 스텝 S206이 다시 실행된다.
스텝 S232의 상태에서 스텝 S206을 실행하면, 그룹(G13)이 선택된다. 여기서, 스텝 S230의 상태에서, 그룹(G13)이 선택되면, 미선택의 그룹이 존재하지 않게 된다. 따라서, 스텝 S208을 실행해도, 도 18의 스텝 S234에 나타낸 바와 같이, 각 그룹에 포함되는 오브젝트 오디오 데이터에 변화는 없다. 스텝 S234의 상태에서는, 미선택의 그룹이 존재하지 않기 때문에, 스텝 S210에서 "아니오"로 판정되어, 스텝 S212가 실행된다.
스텝 S234의 상태에서 스텝 S212를 실행하면, 도 18의 스텝 S236에 나타낸 바와 같이, 그룹(G12, G15, G11, G13) 각각에 포함되는 오브젝트 오디오 데이터를 저장한 오디오 파일(AF1 내지 AF4)이 생성된다.
도 18에 도시된 바와 같이, 오브젝트 오디오 데이터(AD11 내지 AD16) 각각은, 오디오 파일(AF1 내지 AF4) 중 어느 1개에 저장되기 때문에, 서버(100)는, 동일한 오브젝트 오디오 데이터를 복수 기억할 필요가 없다. 따라서, 서버(100)가 기억하는 오브젝트 오디오 데이터의 데이터양은 최소한으로 억제될 수 있다.
또한, 도 18에 도시된 바와 같이 파일화함으로써, 도 16에 도시되는 표시 상태(V51 내지 V53)의 각 표시 상태에서 클라이언트(200)가 취득하는 파일수도 억제될 수 있다. 예를 들어, 도 16에 도시되는 표시 상태(V51)에서는, 오디오 파일(AF1)과 오디오 파일(AF3)의 2개의 오디오 파일을 취득하면 된다. 또한, 도 16에 도시되는 표시 상태(V52)에서는, 오디오 파일(AF3)과 오디오 파일(AF4)의 2개의 오디오 파일을 취득하면 된다. 또한, 도 16에 도시되는 표시 상태(V53)에서는, 오디오 파일(AF2)의 1개의 오디오 파일을 취득하면 된다.
한편, 1개의 오브젝트 오디오 데이터가 1개의 파일에 저장되도록 파일화되었을 경우, 표시 상태(V51)에서는 3개, 표시 상태(V52)에서는 4개, 표시 상태(V51)에서는 1개의 오디오 파일을 취득할 필요가 있다.
따라서, 도 18에 도시된 바와 같이 파일화함으로써, 1개의 오브젝트 오디오 데이터가 1개의 파일에 저장되도록 파일화되었을 경우와 비교하여, 표시 상태(V51) 및 표시 상태(V52)에서 취득하는 오디오 파일의 수가 억제된다.
상술한 바와 같이, 본 실시예에 의하면, 서버(100)가 기억하는 데이터양과, 클라이언트(200)가 취득하는 파일수 양쪽이 억제되도록, 오디오 파일을 생성할 수 있다.
<<5. 시간 변화하지 않는 오브젝트 선택 정보의 시그널링 예(실시예 3)>>
이상, 실시예 2로서, 복수의 표시 상태를 고려해서 오브젝트 오디오 데이터를 파일화하는 실시예에 대해서 설명하였다. 계속해서, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하지 않을 경우의 오브젝트 선택 정보의 시그널링 예에 대해서 설명한다.
또한, 시그널링되는 정보는, 오브젝트 선택 정보가 실시예 1-1에서 설명한 화각을 사용한 정보인지, 실시예 1-2에서 설명한 오브젝트간의 각도를 사용한 정보인지에 따라 다를 수 있다. 그래서, 이하에서는, 실시예 1-1에 대응하는 실시예 3-1과, 실시예 1-2에 대응하는 실시예 3-2를 순서대로 설명한다.
<5-1. 화각을 사용한 오브젝트 선택 정보의 시그널링 예(실시예 3-1)>
먼저, 실시예 3-1로서, 실시예 1-1에서 설명한 화각을 사용한 오브젝트 선택 정보를 시그널링하는 실시예에 대해서 설명한다. 본 실시예에서는, 실시예 1-1에서 설명한 이용 정보가 파일 레벨로 시그널링되어, MPEG-DASH로 실현할 경우, 이용 정보를 AdaptationSet 레벨로 시그널링하면 된다.
또한, 이하에서는, 오브젝트 선택 정보가 이하에 나타내는 정보를 포함하는 예에 대해서 설명한다.
·수평 방향의 각도의 정보와 수직 방향의 각도의 정보를 포함하는 방향 정보
·잘라낸 화상의 수평 화각의 범위의 정보와, 수직 화각의 범위의 정보를 포함하는 절취 화각 정보
·표시된 화상에 대한 시청 시의 수평 화각의 범위의 정보와, 수직 화각의 범위의 정보를 포함하는 시청 화각 정보
·이용하는 오브젝트 오디오 데이터를 포함하는 AdaptationSet를 모두 나타내는 이용 정보
본 실시예에서는, SupplementalProperty에서 새롭게 표시 상태를 위한 정보가 시그널링된다. schemeIdUri는 "urn:mpeg:dash:objectAudio:objectSelection"을 지정하고, value에서, 콤마로 구분된 "direction_azimuth, direction_elevation, clipping_azimuth_range, clipping_elevation_range, viewing_azimuth_range, viewing_elevation_range, AdaptationSet_list"이 순서대로 시그널링된다. 도 19는, 본 실시예에서 시그널링되는 value와 각 value의 상세 설명(description)을 나타내는 표이다.
본 실시예에서는, 상술한 오브젝트 선택 정보가 MPD 파일에 저장될 수 있다. 본 실시예에서, 서버(100)의 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례에 대해서, 도 20, 도 21을 참조하여 설명한다. 도 20은, 본 실시예에서 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다. 또한, 도 21은, 도 20에 도시한 MPD 파일에서의 각 정보를 나타내는 표이다. 도 21의 표에는, 방향 정보, 절취 화각 정보, 시청 화각 정보, 이용 정보 및 도 20에 도시한 MPD 파일에 있어서 대응하는 SupplementalProperty가 표시되어 있다.
도 20의 MPD 파일에서는, 3행째에 나타낸 바와 같이 Preselection의 preselectionComponents에서 기정(default)의 AdaptationSet의 조합은 "o2 o3"이다. 또한, 도 20의 MPD 파일에서는, 기정의 조합과는 다른 조합이 되는 4 패턴의 SupplementalProperty가 4행째 내지 7행째에 표시되어 있다. 이와 같이, 기정의 AdaptationSet의 조합을 미리 정해 둠으로써, 각 표시 상태에서 이용하는 오브젝트 오디오 데이터가 다른 것에 대해서만 SupplementalProperty를 준비하면 된다.
도 20에 도시하는 MPD 파일의 예에 있어서, 취득하는 AdaptationSet를 클라이언트(200)의 처리부(210)가 선택하는 방법에 대해서, 도 22를 참조하여 설명한다. 도 22는, 클라이언트(200)가 취득하는 AdaptationSet를 선택하는 방법의 일례를 나타내는 흐름도이다.
먼저, 도 22에 나타내는 바와 같이, 처리부(210)는, 클라이언트(200)가 표시하는 절취 화상의 절취 방향, 절취 화각, 및 현재의 시청 화각의 정보를 취득한다(S302).
계속해서, 처리부(210)는, Preselection의 SupplementalProperty에서 schemeIdUri가 "urn:mpeg:dash:objectAudio:objectSelection"인 것을 모두 취득한다(S304).
계속해서, 처리부(210)는, 스텝 S302에서 취득된 정보에 기초하여, 스텝 S304에서 취득된 SupplementalProperty 중에서 현재의 표시 상태에 해당하는 SupplementalProperty를 특정한다(S306). 예를 들어, 스텝 S306에서 특정되는 SupplementalProperty는, 클라이언트(200)가 표시하는 절취 화상의 절취 방향과 direction_azimuth, direction_elevation의 값이 가까운 SupplementalProperty이어도 된다. 또한, 스텝 S306에서 특정되는 SupplementalProperty는, 클라이언트(200)가 표시하는 절취 화상의 절취 화각이 clipping_azimuth_range, clipping_elevation_range에 포함되는 SupplementalProperty이어도 된다. 또한, 스텝 S306에서 특정되는 SupplementalProperty는, 현재의 시청 화각이 viewing_azimuth_range, viewing_elevation_range에 포함되는 SupplementalProperty이어도 된다. 또한, 상기 조건에 적합한 SupplementalProperty가 존재하지 않는 경우, 스텝 S306에서 처리부(210)는, 어느 SupplementalProperty도 특정하지 않아도 된다.
현재의 표시 상태에 해당하는 SupplementalProperty가 특정되었을 경우(S308에서 "예"), 처리부(210)는, 특정된 SupplementalProperty의 AdaptationSet_list에 표시되어 있는 AdaptationSet를 선택한다(S310).
한편, 현재의 표시 상태에 해당하는 SupplementalProperty가 특정되지 않은 경우(S308에서 "아니오"), 처리부(210)는, Preselection@preselectionComponents에 표시되어 있는 기정(default)의 AdaptationSet를 선택한다(S312).
또한, 도 22에 나타낸 스텝 S302 내지 S312의 처리는, 예를 들어 세그먼트 파일 선택부(213)에 의해 실행될 수 있다.
이상, 본 실시예에 따른 MPD 파일의 일례에 대해서 설명하였다. 단, 본 실시예에서, 생성되는 MPD 파일은, 도 20에 도시한 예에 한정되지 않는다.
예를 들어, Preselection을 사용하는 경우의 MPD 파일의 변형예로서, SupplementalProperty의 value의 AdaptationSet_list가 preselectionComponents로 시그널링되어도 된다. 도 23은, 이러한 변형예에서 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다. 도 23의 MPD 파일에서는, 3행째, 7행째, 8행째에 나타낸 바와 같이 Preselection이 분리되어, AdaptationSet_list가 되는 부분은, preselectionComponents로서 표시된다. 도 23에 도시한 MPD 파일의 그 이외의 부분에 대해서는, 도 20에 도시한 MPD 파일과 마찬가지이다.
다른 변형예로서는, MPD 파일에 viewing_azimuth_range, viewing_elevation_range를 포함하지 않아도(설정하지 않아도) 된다. 이러한 경우, 도 22의 스텝 S306에서, direction_azimuth, direction_elevation, clipping_azimuth_range, clipping_elevation_range만을 사용해서 AdaptationSet를 선택하면 된다. 단, 이러한 경우에는 시청 화각이 고려되지 않으므로, 가장 적절한 AdaptationSet가 아닐 지도 모른다.
또 다른 변형예로서는, 방향 정보로서 direction_azimuth, direction_elevation에 더하여, direction_angle을 MPD 파일에 포함해도 된다. 여기서, direction_angle은, 실시예 1-1에서 설명한 절취 방향 벡터로부터의 각도를 나타낸다.
또 다른 변형예로서는, 방향 정보로서 direction_azimuth, direction_elevation 대신에, direction_azimuth_range, direction_elevation_range를, MPD 파일에 포함해도 된다. 여기서, direction_azimuth_range는, 실시예 1-1에서 설명한 수평 방향의 각도의 범위, direction_elevation_range는 실시예 1-1에서 설명한 수직 방향의 각도의 범위를 각각 나타낸다.
또 다른 변형예로서는, 절취 화각 정보 및 시청 화각 정보로서, clipping_azimuth_range, clipping_elevation_range, viewing_azimuth_range, viewing_elevation_range 대신에, clipping_magnification_range, viewing_magnification_range를 포함해도 된다. 여기서, clipping_magnification_range는, 실시예 1-1에서 설명한 절취 시의 화각의 배율의 범위, viewing_magnification_range는, 실시예 1-1에서 설명한 시청 화각의 배율의 범위를 각각 나타낸다.
또 다른 변형예로서는, AdaptationSet_list를, preselectionComponents와의 차분 리스트 대신으로 해도 된다. 예를 들어, AdaptationSet_list를, AdaptationSet_del_list와 AdaptationSet_add_list 대신으로 해도 된다. AdaptationSet_del_list는, preselectionComponents로부터 삭제하는 AdaptationSet의 리스트이며, AdaptationSet@id를 스페이스로 구분해서 기술한다. 또한, AdaptationSet_add_list는 preselectionComponents에 추가하는 AdaptationSet의 리스트이며, AdaptationSet@id를 스페이스로 구분해서 기술한다. 또한, AdaptationSet_del_list와 AdaptationSet_add_list는, 실시예 1-1에서 설명한, 기정의 오브젝트 오디오 데이터의 조합에 대한, 이용하는 오브젝트 오디오 데이터의 조합의 차분을 나타내는 정보에 상당한다.
또 다른 변형예로서는, SupplementalProperty가 AdaptationSet로 시그널링되어도 된다. 오브젝트 오디오 데이터의 조합이 1개의 파일에 저장되어 있을 경우(오브젝트 오디오 데이터가 복수 파일에 저장되어 있지 않을 경우), Preselection은 이용되지 않기 때문에, SupplementalProperty를, AdaptationSet로 시그널링을 함으로써, 이용하는 AdaptationSet를 선택할 수 있다.
<5-2. 오브젝트간의 각도를 사용한 오브젝트 선택 정보의 시그널링 예(실시예 3-2)>
이상, 실시예 3-1로서, 화각을 사용한 오브젝트 선택 정보를 시그널링하는 실시예에 대해서 설명하였다. 계속해서, 실시예 3-2로서, 실시예 1-2에서 설명한 오브젝트간의 각도를 사용한 오브젝트 선택 정보를 시그널링하는 실시예에 대해서 설명한다. 본 실시예에서는, 실시예 1-2에서 설명한 이용 정보가 파일 레벨로 시그널링되고, MPEG-DASH로 실현할 경우, 이용 정보를 AdaptationSet 레벨로 시그널링하면 된다.
또한, 이하에서는, 오브젝트 선택 정보가 이하에 나타내는 정보를 포함하는 예에 대해서 설명한다.
·각도를 산출하는 2개의 오브젝트의 위치 정보
·역치가 되는 오브젝트간의 각도의 범위의 정보를 포함하는 각도 정보
·이용하는 오브젝트 오디오 데이터를 포함하는 AdaptationSet를 모두 나타내는 이용 정보
본 실시예에서는, SupplementalProperty에서 새롭게 표시 상태를 위한 정보가 시그널링된다. schemeIdUri는 "urn:mpeg:dash:objectAudio:objectSelectionAngle"을 지정하고, value에서, 콤마로 구분된 "object1_azimuth, object1_elevation, object2_azimuth, object2_elevation, threshold_range, AdaptationSet_list"가 순서대로 시그널링된다. 도 24는, 본 실시예에서 시그널링되는 value와 각 value의 상세 설명을 나타내는 표이다.
본 실시예에서, 서버(100)의 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례에 대해서, 도 25, 도 26을 참조하여 설명한다. 도 25는, 본 실시예에서 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다. 또한, 도 26은, 도 25에 도시한 MPD 파일에서의 각 정보를 나타내는 표이다. 도 25의 표에는, 첫번째 오브젝트의 위치 정보, 및 두번째 오브젝트의 위치 정보, 각도 정보, 이용 정보 및 도 25에 도시한 MPD 파일에 있어서 대응하는 SupplementalProperty가 표시되어 있다.
도 25의 MPD 파일에서는, 3행째에 나타낸 바와 같이 Preselection의 preselectionComponents에서 기정(default)의 AdaptationSet의 조합은 "o2 o3"이다. 또한, 도 25의 MPD 파일에서는, 기정의 조합과는 다른 조합이 되는 2 패턴의 SupplementalProperty가 4행째 내지 5행째에 표시되어 있다. 이와 같이, 기정의 AdaptationSet의 조합을 미리 정해 둠으로써, 각 표시 상태에서 이용하는 오브젝트 오디오 데이터가 다른 것에 대해서만 SupplementalProperty를 준비하면 된다.
도 25에 도시하는 MPD 파일의 예에서, 취득하는 AdaptationSet를 클라이언트(200)의 처리부(210)가 선택하는 방법에 대해서, 도 27을 참조하여 설명한다. 도 27은, 클라이언트(200)가 취득하는 AdaptationSet를 선택하는 방법의 일례를 나타내는 흐름도이다.
먼저, 도 27에 나타내는 바와 같이, 처리부(210)는, Preselection@preselectionComponents로부터 AdaptationSet의 리스트를 취득한다(S322). 계속해서, 처리부(210)는, Preselection의 SupplementalProperty에서 schemeIdUri가 "urn:mpeg:dash:objectAudio:objectSelectionAngle"인 것을 모두 취득한다(S324).
계속해서, 처리부(210)는, 스텝 S324에서 취득된 모든 SupplementalProperty에 대해서, 시청 시의 오브젝트간의 각도를 산출한다(S326). 스텝 S326에서, 처리부(210)는, 각 SupplementalProperty에서의 object1_azimuth, object1_elevation, object2_azimuth, object2_elevation에 기초하여 시청 시의 오브젝트의 위치를 산출하고, 시청 시의 오브젝트간의 각도를 산출한다.
계속해서, 처리부(210)는, 스텝 S326에서 산출된 오브젝트간의 각도에 기초하여, 스텝 S324에서 취득된 SupplementalProperty 중에서, 현재의 표시 상태에 해당하는 SupplementalProperty를 특정한다(S328). 예를 들어, 스텝 S328에서, 처리부(210)는, 스텝 S324에서 취득된 SupplementalProperty 중, 스텝 S326에서 산출된 오브젝트간의 각도가 threshold_range에 포함되어 있는 SupplementalProperty를 특정해도 된다. 또한, 상기 조건에 적합한 SupplementalProperty가 존재하지 않는 경우, 스텝 S328에서 처리부(210)는, 어느 SupplementalProperty도 특정하지 않아도 된다.
현재의 표시 상태에 해당하는 SupplementalProperty가 특정되었을 경우(S330에서 "예"), 처리부(210)는, 특정된 SupplementalProperty의 AdaptationSet_list에 표시되어 있는 AdaptationSet를 선택한다(S332).
한편, 현재의 표시 상태에 해당하는 SupplementalProperty가 특정되지 않은 경우(S330에서 "아니오"), 처리부(210)는, Preselection@preselectionComponents에 표시되어 있는 기정(default)의 AdaptationSet를 선택한다(S334).
또한, 도 27에 나타낸 스텝 S322 내지 S334의 처리는, 예를 들어 세그먼트 파일 선택부(213)에 의해 실행될 수 있다.
이상, 본 실시예에 따른 MPD 파일의 일례에 대해서 설명하였다. 단, 본 실시예에서, 생성되는 MPD 파일은, 도 25에 도시한 예에 한정되지 않는다.
예를 들어, 변형예로서, 오브젝트의 위치 정보를 메타데이터 파일로부터 취득해도 된다. 예를 들어, 모든 오브젝트의 위치 정보를 포함하는 오브젝트 메타데이터만을 저장하는 메타데이터 파일이 존재하는 경우, 이러한 메타데이터 파일에 액세스하기 위한 링크(메타데이터 파일 액세스 정보의 일례)가 시그널링되어도 된다. 또한, 이러한 메타데이터 파일은, 오브젝트 선택 정보(의 일부)를 포함하는 메타데이터 파일이라고 해석될 수 있다. 또한, 이러한 메타데이터 파일은, 예를 들어 서버(100)의 세그먼트 파일 생성부(113)에 의해 생성되어, 서버(100)의 기억부(140)에 기억되어도 된다.
도 28은, 이러한 변형예에서 MPD 파일 생성부(114)가 생성하는 MPD 파일의 일례를 도시하는 도면이다. 도 28의 MPD 파일에서는, object1_azimuth, object1_elevation, object2_azimuth, object2_elevation이 포함되지 않는다. 그 대신에, 도 28의 MPD 파일에서는, 4행째 및 14행째에 표시된 바와 같이, AdaptationSet의 SupplementalProperty에 메타데이터 파일에의 링크(메타데이터 파일 액세스 정보의 일례)가 저장된다. 또한, 도 28의 MPD 파일에서는, 5행째 및 6행째에 표시된 바와 같이, 메타데이터 파일의 AdaptationSet의 id(object_metadata_AdaptationSet)와, 그 중의 오브젝트 메타데이터의 번호 2개(object1_num, object2_num)에 의해, 각도를 산출하는 2개의 오브젝트가 표시되어 있다.
클라이언트(200)의 세그먼트 파일 취득부(214)는, 오브젝트의 위치 정보를 얻기 위해서, 이러한 메타데이터 파일에의 링크에 기초하여 메타데이터 파일의 요구 정보를 생성하고, 메타데이터 파일을 서버(100)로부터 취득한다. 그리고, 세그먼트 파일 취득부(214)는, 메타데이터 파일 중에서 해당하는 오브젝트의 azimuth 정보와 elevation 정보를 위치 정보로서 취득한다.
다른 변형예로서는, AdaptationSet_list가 아니라, threshold_range에 포함되는 경우에 치환하기 전의 AdaptationSet의 리스트(before_AdaptationSet_list)와 치환한 후의 AdaptationSet의 리스트(after_AdaptationSet_list)를 MPD 파일에 포함해도 된다. 예를 들어, 3개 이상의 오브젝트 오디오 데이터가 1개의 오브젝트 오디오 데이터에 통합(믹스)되는 경우에도 이 방법은 이용 가능하다.
또한, 상기에서는, 2개의 오브젝트 위치로부터 각도를 산출하는 예를 설명했지만, 오브젝트 메타데이터에 포함되어 있는 spread 정보를 사용하여, spread도 포함한 각도 정보가 사용되어도 된다. SupplementalProperty의 value로 시그널링할 경우에는, object1, object2 각각에, spread 정보를 추가한다. 구체적으로는 spread_width, spread_height, spread_radius를 스페이스로 구분해서 MPD 파일에 포함해도 된다. 스페이스로 구분되어 있지 않을 경우에는, spread_width만으로 하면 된다.
또한, threshold_range는, 수평 방향(threshold_azimuth_range)과, 수직 방향(threshold_elevation_range)이 따로따로 MPD 파일에 포함되어도 된다. 클라이언트(200)의 처리부(210)는, 수평 방향만, 수직 방향만, 양쪽 어느 것을 이용해도 된다. 또한, 수평 방향만, 수직 방향만, 양쪽 어느 것을 이용할지를 지정하는 정보가 MPD 파일에 포함되어도 된다.
<<6. 시간 변화하는 오브젝트 선택 정보의 시그널링 예(실시예 4)>>
이상, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하지 않을 경우의 오브젝트 선택 정보의 시그널링 예에 대해서 설명하였다. 계속해서, 이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하는 경우의 오브젝트 선택 정보의 시그널링 예에 대해서 설명한다. 또한, 이용하는 오브젝트 오디오 데이터의 조합이시간 변화하는지 여부는, 예를 들어 콘텐츠의 제작자가 적절히 선택할 수 있다.
MPEG-DASH에 의한 스트리밍 배신에서는, 시각마다 이용하는 오브젝트 오디오 데이터의 조합, 혹은 필요한 파일의 조합이, 콘텐츠 파일에 저장되어 전송될 수 있다. 여기서, 콘텐츠 파일은, 예를 들어 ISO/IEC 14496-12로 규격 정의되는 ISO base media file format(ISOBMFF) 파일(MP4 파일의 일례)이면 된다.
이용하는 오브젝트 오디오 데이터의 조합이 시간 변화하는 경우, 클라이언트(200)는, 이 ISOBMFF 파일을 미리 취득하고, 취득해야 할 파일을 시각에 따라서 결정하면 된다. 이하에서는, 시간 변화하는 오브젝트 선택 정보의 시그널링에 관하여, 7개의 실시예(실시예 4-1 내지 실시예 4-7)를 설명한다. 이하에 설명하는 실시예 4-1 내지 실시예 4-7에서는, 오브젝트 선택 정보가, ISOBMFF 파일에 포함되는 메타데이터 파일에 저장되는 예를 설명한다.
<6-1. 확장된 메타데이터 파일의 실시예(실시예 4-1)>
먼저, 실시예 4-1로서, 확장된 메타데이터 파일을 세그먼트 파일 생성부(113)가 생성하는 예를 설명한다.
먼저, 확장 전의 메타데이터 파일의 구조의 일례에 대해서, 도 29, 도 30을 참조하여 설명한다. 도 29, 도 30은, 메타데이터 파일의 구조에 대해서 설명하기 위한 설명도이다. 도 29에 도시하는 오디오 파일 1(file1)은, 도 30에 도시하는 바와 같이, 오브젝트 오디오 데이터 1(obj1)과 오브젝트 오디오 데이터 2(obj2)를 포함하고 있다. 이 오디오 파일 1에는, MHAMultiStreamBox("maeM")에 파일의 식별자인 streamID가 저장되어 있고, "1"을 나타내고 있다. 도 29에 도시하는 오디오 파일 2(file2)는, 도 30에 도시하는 바와 같이 오브젝트 오디오 데이터 3(obj3)을 포함하고 있고, streamID는 "2"를 나타내고 있다.
도 29에 도시하는 메타데이터 파일(metadata file)은, 오디오 파일 1과 오디오 파일 2에 포함되는 오브젝트 메타데이터(metadata)를 포함하고 있다. 도 30에 도시하는 바와 같이 메타데이터 파일(metadata file)은, sampleEntry("a3am')의 reference_streamID로, 어느 파일의 오브젝트 메타데이터를 포함하고 있는지를 나타내고 있다. 이 메타데이터 파일에서는, sampleEntry(샘플 엔트리)로부터, 2개의 파일의 오브젝트 메타데이터를 포함하고 있으며(num_reference_streamID=2), sample에 포함되는 오브젝트 메타데이터의 첫번째가 streamID=1의 파일의 오브젝트 메타데이터(reference_streamID=1), 두번째가 streamID=2의 파일의 오브젝트 메타데이터(reference_streamID=2)인 것을 나타내고 있다. 도 31은, 도 29, 도 30에 도시한 메타데이터 파일의 syntax를 도시하는 도면이다.
또한, MHAMultiStreamBox의 구조는 도 61에 도시하는 것이고, 3da_meta_data()의 구조는 도 62에 도시하는 것이고, DSE의 구조는 도 63에 도시하는 것이다. 또한, 도 63에 도시하는, DSE에서의 data_stream_byte에 저장되는 3da_ancillary_data의 구조는 도 64에 도시하는 것이다. 단, DSE의 data_stream_byte의 최대 사이즈보다 3da_meta_data()의 사이즈가 큰 경우에는, 3da_meta_data()는 분할되어 복수의 DSE에 저장된다.
본 실시예에서는, 도 29 내지 도 31을 참조하여 설명한 메타데이터 파일을 확장한다. 본 실시예에서, 세그먼트 파일 생성부(113)는, 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보를 저장하는, 확장된 메타데이터 파일을 생성한다. 이하, 도 32, 도 33을 참조하여, 본 실시예에서 생성되는 확장된 메타데이터 파일의 일례에 대해서 설명한다.
도 32는, 본 실시예에 따른 확장된 메타데이터 파일의 일례를 도시하는 도면이다. 또한, 도 33은, 본 실시예에 따른 확장된 메타데이터 파일의 syntax를 도시하는 도면이다.
도 32, 도 33에 도시하는 바와 같이, 확장된 메타데이터 파일에서는, moov 박스의 SampleEntry("a3am')에, objectSelectionMetadataConfigurationBox()가, mdat의 sample에는 objectSelectionMetadata()가 추가로 저장되어 있다. 이러한 objectSelectionMetadataConfigurationBox()와 objectSelectionMetadata()에, 오브젝트 선택 정보가 저장될 수 있다. 또한, 도 33에 도시하는 바와 같이 확장된 메타데이터 파일에 있어서, objectSelectionMetadata()에는, 각 시각의 이용하는 오브젝트 오디오 데이터 혹은 파일의 조합이 표시되어 있다. 또한, 도 33에 도시하는 바와 같이 확장된 메타데이터 파일에 있어서, objectSelectionMetadataConfigurationBox()는 objectSelectionMetadata()에서 표시되어 있는 오브젝트 오디오 데이터가 어느 파일에 저장되어 있는지 등의 정보를 저장한다. 또한, objectSelectionMetadataConfigurationBox()와 objectSelectionMetadata()의 상세에 대해서는 후술한다.
또한, 도 32, 도 33을 참조하여 설명한 메타데이터 파일의 확장은, MPEG-H 3D Audio의 메타데이터 파일에서도 마찬가지로 가능하다.
<6-2. 오브젝트 선택 메타데이터 파일의 실시예(실시예 4-2)>
이상, 실시예 4-1로서, 확장된 메타데이터 파일에 대해서 설명하였다. 계속해서, 실시예 4-2로서, 오브젝트 선택을 위한 전용 메타데이터 파일(이하, 오브젝트 선택 메타데이터 파일이라고 칭함)을 생성하는 예에 대해서, 도 34, 도 35를 참조하여 설명한다. 본 실시예에서, 오브젝트 선택 메타데이터 파일은, 세그먼트 파일 생성부(113)에 의해 생성되고, 오브젝트 선택 정보만을 포함하는 파일이면 된다.
도 34는, 본 실시예에 따른 오브젝트 선택 메타데이터 파일의 일례를 도시하는 도면이다. 또한, 도 35는, 본 실시예에 따른 오브젝트 선택 메타데이터 파일의 syntax를 도시하는 도면이다.
도 34, 도 35에 도시하는 바와 같이, 오브젝트 선택 메타데이터 파일에 있어서, moov 박스의 SampleEntry에는, 상술한 확장된 메타데이터 파일과 마찬가지로 objectSelectionMetadataConfigurationBox()가 저장된다. 또한, 도 34, 도 35에 도시하는 바와 같이, 오브젝트 선택 메타데이터 파일에 있어서 mdat의 sample에는 상술한 확장된 메타데이터 파일과 마찬가지로 objectSelectionMetadata()가 저장된다. 또한, objectSelectionMetadataConfigurationBox()와 objectSelectionMetadata()의 상세에 대해서는 후술한다.
또한, 도 34, 도 35를 참조하여 설명한 오브젝트 선택 메타데이터 파일은, MPEG-H 3D Audio에서도 마찬가지로 생성 가능하다.
<6-3. 화각을 사용한 오브젝트 선택 정보의 저장 예(실시예 4-3)>
계속해서, 실시예 4-3으로서, 실시예 1-1에서 설명한 화각을 사용한 오브젝트 선택 정보를 상술한 메타데이터 파일에 저장하는 실시예에 대해서 설명한다. 본 실시예는, 상술한 실시예 4-1, 실시예 4-2의 어느 것과 조합되어도 된다. 이하에서는, 본 실시예에 따른 objectSelectionMetadataConfigurationBox와 objectSelectionMetadata에 대해서 설명한다.
도 36은, 본 실시예에 따른 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다. 또한, 도 37은, 도 36에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다. 도 37에 나타내는 바와 같이, 도 36에 도시하는 objectSelectionMetadataConfigurationBox에서는, objectSelectionMetadata에서 표시되는 object_id가 포함되는 오디오 파일을 stream_id로 나타내고, 그 몇번째의 오브젝트 오디오 데이터인지를 object_num_in_stream으로 나타내고 있다. 본 실시예에서, streamID(stream_id)는, 오브젝트 오디오 데이터가 저장되어 있는 오디오 파일에 액세스하기 위한 정보(이하, 오디오 파일 액세스 정보라고도 칭함)이다. 또한, 기정(default)의 이용하는 오브젝트 오디오 데이터가 default_object_id로 표시되어 있다.
도 38은, 본 실시예에 따른 objectSelectionMetadata의 일례를 도시하는 도면이다. 또한, 도 39는, 도 38에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다. 도 38에 도시하는 objectSelectionMetadata에서는, 실시예 3-1에서의 SupplementalProperty의 수를 mixed_object_list_num으로 나타내고 있다. 또한, 다른 파라미터는 실시예 3-1에서 AdaptationSet의 리스트를 나타내고 있던 부분을, 오브젝트 오디오 데이터의 id(object_id)의 리스트(이하, 오브젝트 리스트라고도 칭함)로 나타낸 것이다. 본 실시예를 상술한 실시예 4-1, 또는 실시예 4-2와 조합함으로써, 취득하는 오브젝트 오디오 데이터의 조합을 나타내는 것이 가능하게 된다.
또한, 본 실시예에 따른 objectSelectionMetadata는, 도 38, 도 39에 도시한 예에 한정되지 않는다. 예를 들어, 변형예로서, 도 38에 도시한 objectSelectionMetadata의 14 내지 17행째 대신에, objectSelectionMetadataConfigurationBox에 표시되어 있는 default object로부터의 차분을 나타내도록 해도 된다. 도 40은, 이러한 objectSelectionMetadata의 변형예를 도시하는 도면이다. 또한, 도 40에는, 도 38에 도시한 objectSelectionMetadata의 14 내지 17행째를 대신하는 부분만이 도시되어 있다. 또한, 도 41은, 도 40에 도시한 각 value의 상세 설명을 나타내는 표이다.
다른 변형예로서는, 방향 정보로서, direction_azimuth, direction_elevation에 더하여, direction_angle을 objectSelectionMetadata에 포함해도 된다. 여기서, direction_angle은, 실시예 1-1에서 설명한 잘라낸 방향 벡터로부터의 각도를 나타낸다.
또 다른 변형예로서는, 방향 정보로서, direction_azimuth, direction_elevation 대신에, min_direction_azimuth_range, maz_direction_azimuth_range, min_direction_elevation_range, max_direction_elevation_range를, objectSelectionMetadata에 포함해도 된다. 여기서, min_direction_azimuth_range, maz_direction_azimuth_range는, 실시예 1-1에서 설명한 수평 방향의 각도의 범위를, min_direction_elevation_range, max_direction_elevation_range는, 실시예 1-1에서 설명한 수직 방향의 각도의 범위를 각각 나타낸다.
또 다른 변형예로서는, 절취 화각 정보 및 시청 화각 정보로서, min_clipping_azimuth_range, max_clipping_azimuth_range, min_clipping_elevation_range, max_clipping_elevation_range, max_viewing_azimuth_range, min_viewing_elevation_range, min_viewing_elevation_range 대신에, min_clipping_magnification_range, max_clipping_magnification_range, min_viewing_magnification_range, max_viewing_magnification_range를 objectSelectionMetadata에 포함해도 된다. 여기서, min_clipping_magnification_range, max_clipping_magnification_range는, 실시예 1-1에서 설명한 절취 시의 화각의 배율의 범위, min_viewing_magnification_range, max_viewing_magnification_ range는, 실시예 1-1에서 설명한 시청 화각의 배율의 범위를 각각 나타낸다.
또 다른 변형예로서는, objectSelectionMetadataConfigurationBox와 objectSelectionMetadata에 있어서, 오브젝트 오디오 데이터의 조합이 아니라, 파일의 조합을 나타내도록 해도 된다. 이러한 변형예에 대해서, 도 42 내지 도 45를 참조하여 설명한다.
도 42는, 본 변형예에 따른 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다. 또한, 도 43은, 도 42에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다. 도 42에 도시하는 objectSelectionMetadataConfigurationBox에서는, 오브젝트 오디오 데이터가 어느 파일에 포함되어 있는지의 정보와, 기정의 이용하는 오브젝트 오디오 데이터의 정보를 포함하지 않는다. 그리고, 도 42에 도시하는 objectSelectionMetadataConfigurationBox에서는, default_stream_id로서, stream_id를 사용해서 기정(default)의 상태에서 이용하는 오디오 파일의 조합을 나타낸다. 도 44는, 본 변형예에 따른 objectSelectionMetadata의 일례를 도시하는 도면이다. 또한, 도 45는, 도 44에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다. 도 44에 도시하는 objectSelectionMetadata에서도, 오브젝트 오디오 데이터의 조합이 아니라, stream_id를 사용해서 오디오 파일의 조합을 나타낸다. 본 변형예에서도, stream_id는, 오브젝트 오디오 데이터가 저장되어 있는 오디오 파일에 액세스하기 위한 오디오 파일 액세스 정보이다.
도 42 내지 도 45를 참조하여 설명한 본 변형예에 의하면, 클라이언트(200)가, 취득하는 오브젝트 오디오 데이터가 포함되는 파일의 결정을 행하지 않아도 된다는 이점이 있다.
<6-4. 오브젝트간의 각도를 사용한 오브젝트 선택 정보의 저장 예(실시예 4-4)>
이상, 실시예 4-3으로서, 화각을 사용한 오브젝트 선택 정보의 저장 예에 대해서 설명하였다. 계속해서, 실시예 4-4로서, 실시예 1-2에서 설명한 오브젝트간의 각도를 사용한 오브젝트 선택 정보를 상술한 메타데이터 파일에 저장하는 실시예에 대해서 설명한다. 본 실시예는, 상술한 실시예 4-1, 실시예 4-2의 어느 것과 조합되어도 된다.
본 실시예에서, objectSelectionMetadataConfigurationBox는, 상술한 실시예 4-3의 objectSelectionMetadataConfigurationBox와 마찬가지이어도 된다. 이하에서는, 본 실시예에 따른 objectSelectionMetadata에 대해서 설명한다.
도 46은, 본 실시예에 따른 objectSelectionMetadata의 일례를 도시하는 도면이다. 또한, 도 47은, 도 46에 도시한 objectSelectionMetadata의 value와, 각 value의 상세 설명을 나타내는 표이다. 도 46에 도시하는 objectSelectionMetadata에서는, 실시예 3-2에서의 SupplementalProperty의 수를 mixed_object_list_num으로 나타내고 있다. 또한, 다른 파라미터는, 실시예 3-2에서 AdaptationSet의 리스트를 나타내고 있던 부분을, 오브젝트 오디오 데이터의 id(object_id)의 리스트로 나타낸 것이다. 본 실시예를 상술한 실시예 4-1, 또는 실시예 4-2와 조합함으로써, 취득하는 오브젝트 오디오 데이터의 조합을 나타내는 것이 가능하게 된다.
또한, 본 실시예에 따른 objectSelectionMetadata는, 도 46, 도 47에 나타낸 예에 한정되지 않는다. 예를 들어, 변형예로서, 도 46에 도시한 objectSelectionMetadata의 10 내지 13행째 대신에, objectSelectionMetadataConfigurationBox에 표시되어 있는 default object를 치환하기 전의 오브젝트 리스트와 치환한 후의 오브젝트 리스트를 포함하도록 해도 된다. 도 48은, 이러한 objectSelectionMetadata의 변형예를 도시하는 도면이다. 또한, 도 48에는, 도 46에 도시한 objectSelectionMetadata의 10 내지 13행째를 대신하는 부분만이 도시되어 있다. 또한, 도 49는, 도 48에 도시한 각 value의 상세 설명을 나타내는 표이다.
다른 변형예로서는, 오브젝트의 위치 정보를 오브젝트 메타데이터로부터 취득하도록 해도 된다. 예를 들어, 본 변형예에 따른 objectSelectionMetadata는, object1_azimuth, object1_elevation, object2_azimuth, object2_elevation 대신에, object1_id, object2_id를 포함해도 된다. 그리고, 클라이언트(200)의 처리부(210)가, 오브젝트 메타데이터로부터 azimuth, elevation을 취득해도 된다. 오브젝트 메타데이터에 objectSelectionMetadata가 포함되지 않는 경우에는, track reference를 확장하여, reference_type'obmt"을 설정하고, 오브젝트 메타데이터의 트랙을 지정하여, 그 트랙의 오브젝트 메타데이터를 이용할 수 있도록 시그널링하면 된다.
<6-5. 오브젝트 선택 정보를 선택 가능한 시그널링 예(실시예 4-5)>
계속해서, 실시예 4-5로서, 실시예 4-3, 실시예 4-4에서 설명한 objectSelectionMetadataConfigurationBox에 있어서, 추가 정보를 포함함으로써 다양한 구조를 실현 가능하게 하는 예를 설명한다. 예를 들어, 본 실시예에서는, 도 36을 참조하여 설명한 바와 같이, 오브젝트 오디오 파일의 리스트로 나타내는지, 도 42를 참조하여 설명한 바와 같이 파일(stream)의 리스트로 나타내는지를 나타내는 정보를 시그널링하는 것이 가능하다.
도 50은, 본 실시예에 따른 objectSelectionMetadataConfigurationBox의 일례를 도시하는 도면이다. 또한, 도 51은, 도 50에 도시한 objectSelectionMetadataConfigurationBox의 value와, 각 value의 상세 설명을 나타내는 표이다.
도 50에 도시하는 objectSelectionMetadataConfigurationBox는, 도 36과 도 42의 어느 타입의 objectSelectionMetadataConfigurationBox의 시그널링인지를 나타내는 플래그인 list_is_object와, objectSelectionMetadata의 구조를 나타내는 sample_type를 포함한다. 이러한 구성에 의해, 다양한 구조를 실현 가능하다.
<6-6. MPD 파일에서의 시그널링 예(실시예 4-6)>
계속해서, 실시예 4-6으로서, 오브젝트 선택 정보를 포함하는 ISOBMFF 파일을 MPD 파일로 시그널링하는 예에 대해서 설명한다. 본 실시예에서 설명되는 MPD 파일은, 서버(100)의 MPD 파일 생성부(114)에 의해 생성될 수 있다. 또한, 본 실시예에서 생성되는 MPD 파일에는, 오브젝트 선택 정보를 포함하는 메타데이터 파일에 액세스하기 위한 메타데이터 파일 액세스 정보가 저장된다.
먼저, 실시예 4-1로서 상술한 확장된 메타데이터 파일에 오브젝트 선택 정보를 저장하는 경우에 서버(100)의 MPD 파일 생성부(114)가 생성하는 MPD 파일의 예에 대해서, 도 52를 참조하여 설명한다. 도 52는, 본 실시예에서 생성되는 MPD 파일의 일례를 도시하는 도면이다.
도 52의 MPD 파일에서는, 3행째에 나타내는 바와 같이 Preselection의, SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataFile을 지정하고, 메타데이터 파일의 AdaptationSet@id를 value로 지정한다. 또한, 도 52의 MPD 파일에서는 12행째에 나타내는 바와 같이, 메타데이터 파일을 포함하는 AdaptationSet에서는, SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataStreamID를 지정하여, streamID와 AdaptationSet의 관련을 나타낼 수 있다.
계속해서, 실시예 4-2로서 상술한 오브젝트 선택 메타데이터 파일에 오브젝트 선택 정보를 저장할 경우에 서버(100)의 MPD 파일 생성부(114)가 생성하는 MPD 파일의 예에 대해서, 도 53을 참조하여 설명한다. 도 53은, 본 실시예에서 생성되는 MPD 파일의 일례를 도시하는 도면이다.
도 53의 MPD 파일에서는, 4행째에 나타내는 바와 같이 Preselection의 SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectSelectionMetadataFile를 지정하고, 오브젝트 선택 메타데이터 파일의 AdaptationSet@id를 value로 지정한다. 도 53의 MPD 파일에서는, AdaptationSet@id="m2"를 나타내고 있다. 또한, 도 53의 MPD 파일에서는, 19행째에 나타내는 바와 같이, 오브젝트 선택 메타데이터 파일의 AdaptationSet(AdaptationSet@id="m2")에서는, SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataFile을 시그널링하고 있다. 이것은, objectSelectionMetadata에서, 「표시 시의 2개의 오브젝트간의 각도를 사용한 오브젝트 선택 정보를 저장」하고 있을 경우에, 2개의 오브젝트간의 각도를 구하기 위해서 메타데이터 파일을 참조할 필요가 있는 경우에 필요해진다. SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataStreamID의 시그널링은, 오브젝트 선택 메타데이터 파일 내에서 시그널링되어 있는 stream_id가, 어느 AdaptationSet의 파일인지를 나타내기 위해서 이용된다.
또한, Preselection의 SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectSelectionMetadataFile을 시그널링하는 것은, 도 52를 참조하여 설명한 확장된 메타데이터 파일에 오브젝트 선택 정보가 저장되는 경우에도 적용 가능하다.
또한, 오브젝트 선택 메타데이터 파일의 AdaptationSet(AdaptationSet@id="m2")에서는, SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataFile을 시그널링하고 있는 부분은, Representation의 associationId로 나타내도 된다. 이러한 예에 대해서, 도 54를 참조하여 설명한다. 도 54는, 본 실시예에서 생성되는 MPD 파일의 다른 예를 나타내는 도면이다.
도 54에 도시하는 MPD 파일에서는, 도 53에 도시하는 MPD 파일의 21행째의 <Representation id="op2"> 대신에, <Representation id="op2" associationId="op1">이 표시되어 있다. 도 54에 도시하는 MPD 파일에서는, 오브젝트 선택 메타데이터 파일의 AdaptationSet(AdaptationSet@id="m2")의, SupplementalProperty에서 schemeIdUri가 urn:mpeg:dash:objectAudio:objectMetadataFile을 시그널링에 이용하지 않는다.
<6-7. 클라이언트가 취득하는 파일의 선택 예(실시예 4-7)>
계속해서, 실시예 4-7로서, 클라이언트(200)의 처리부(210)가 취득하는 파일을 선택하는 방법에 대해서 설명한다. 도 55는 클라이언트가 취득하는 파일을 선택하는 방법의 일례를 나타내는 흐름도이다. 또한, 도 55에는, 도 32 내지 도 33을 참조하여 설명한 확장된 메타데이터 파일에, 도 36 내지 도 39를 참조하여 설명한 바와 같이 오브젝트 선택 정보를 저장하고, 도 52를 참조하여 설명한 MPD 파일에서 시그널링한 경우의 선택 방법의 예가 도시되어 있다.
먼저, 도 55에 도시하는 바와 같이, 처리부(210)는, MPD 파일의 Preselection의 SupplementalProperty에서 schemeIdUri가 "urn:mpeg:dash:objectAudio:objectMetadataFile"의 value로부터, 메타데이터 파일의 AdaptationSet를 특정하여, 서버(100)로부터 메타데이터 파일을 취득한다(S402). 계속해서, 처리부(210)는, 클라이언트(200)가 표시하는 절취 화상의 절취 방향, 절취 화각, 및 현재의 시청 화각의 정보를 취득한다(S404). 계속해서, 처리부(210)는, 스텝 S402에서 취득된 메타데이터 파일로부터, 현재의 objectSelectionMetadata를 취득한다(S406).
또한, 처리부(210)는, 스텝 S406에서 취득된 objectSelectionMetadata에 기초하여, 현재의 표시 상태에 해당하는 오브젝트 리스트를 특정한다(S408). 예를 들어, 스텝 S408에서 특정되는 오브젝트 리스트는, 클라이언트(200)가 표시하는 절취 화상의 절취 방향과 direction_azimuth, direction_elevation의 값이 가까운 오브젝트 리스트이어도 된다. 또한, 스텝 S408에서 특정되는 오브젝트 리스트는, 클라이언트(200)가 표시하는 절취 화상의 절취 화각이 min_clipping_azimuth_range, man_clipping_azimuth_range, min_clipping_elevation_range, min_clipping_elevation_range로 표시되는 화각 범위에 포함되는 오브젝트 리스트이어도 된다. 또한, 스텝 S408에서 특정되는 오브젝트 리스트는, 현재의 시청 화각이 min_viewing_azimuth_range, max_viewing_azimuth_range, min_viewing_elevation_range, max_viewing_elevation_range로 표시되는 화각 범위에 포함되는 오브젝트 리스트이어도 된다. 또한, 상기 조건에 적합한 오브젝트 리스트가 존재하지 않는 경우, 스텝 S408에서 처리부(210)는 어느 오브젝트 리스트도 특정하지 않아도 된다.
현재의 표시 상태에 해당하는 오브젝트 리스트가 특정되었을 경우(S410에서 "예"), 처리부(210)는 특정된 오브젝트 리스트의 object_id를 취득한다(S412). 한편, 현재의 표시 상태에 해당하는 오브젝트 리스트가 특정되지 않은 경우(S410에서 "아니오"), 처리부(210)는, sampleEntry의 default_object_id를 취득한다(S414).
계속해서, 처리부(210)는, sampleEntry의 objectSelectionMetadataConfigurationBox로부터, 각 object_id가 속해 있는 stream의 stream_id를 취득한다(S416). 또한, 처리부(210)는, urn:mpeg:dash:objectAudio:objectMetadataStreamID의 stream_id에 기초하여, 취득하는 AdaptationSet(파일)를 선택한다(S418).
또한, 도 55에 도시한 스텝 S402 내지 S418의 처리는, 예를 들어 세그먼트 파일 선택부(213)에 의해 실행될 수 있다.
<<7. 응용예>>
이상, 본 개시의 일 실시 형태에 대해서 설명하였다. 본 개시에 있어서 상술한 기술(본 기술)은, 다양한 콘텐츠에 응용하는 것이 가능하며, 예를 들어 복수 시청 위치에서 시청 가능한 Multi View 콘텐츠에 응용하는 것도 가능하다. 이하에서는, 본 기술을 Multi View 콘텐츠에 응용했을 경우의 응용예에 대해서 설명한다.
도 56 내지 도 58은, 본 응용예에 대해서 설명하기 위한 설명도이다. 이하에서는, 도 56에 도시하는 바와 같이, 3개의 오브젝트 오디오 데이터(AD21 내지 AD23)가 존재하고, 2군데의 시청 위치(VP1, VP2)가 존재하는 경우에 대해서 설명한다.
도 57에 도시하는 바와 같이, 시청 위치(VP1)에서 시청한 경우, 오브젝트 오디오 데이터(AD21)와 오브젝트 오디오 데이터(AD22)가 겹쳐서 보일 수 있다. 그래서, 오브젝트 오디오 데이터(AD21)와 오브젝트 오디오 데이터(AD22)를 통합한 오브젝트 오디오 데이터(AD24)를 준비한다. 그리고, 표시 상태에 맞춰서 3개의 오브젝트 오디오 데이터(AD21 내지 AD23)를 이용하는 경우와, 2개의 오브젝트 오디오 데이터(AD23, AD24)를 이용하는 경우가 있을 수 있다.
한편, 도 58에 도시하는 바와 같이, 시청 위치(VP2)에서 시청한 경우, 오브젝트 오디오 데이터(AD22)와 오브젝트 오디오 데이터(AD23)가 겹쳐서 보일 수 있다. 그래서, 오브젝트 오디오 데이터(AD22)와 오브젝트 오디오 데이터(AD23)를 통합한 오브젝트 오디오 데이터(AD25)를 준비한다. 그리고, 표시 상태에 맞춰서 3개의 오브젝트 오디오 데이터(AD21 내지 AD23)를 이용하는 경우와, 2개의 오브젝트 오디오 데이터(AD22, AD25)를 이용하는 경우가 있을 수 있다.
도 56 내지 도 58을 참조하여 설명한 바와 같이, 시청 위치에 따라서 이용하는 오브젝트 오디오 데이터가 다른 경우를 생각할 수 있다. 이러한 경우도, 상기 실시 형태와 마찬가지로, 시청 위치마다 이용하는 오브젝트 오디오 데이터를 지정하면 된다. 이러한 경우에 생성되는 MPD 파일의 일례에 대해서 도 59를 참조하여 설명한다. 도 59는, 시청 위치에 따라서 이용하는 오브젝트 오디오 데이터가 다른 경우에 생성되는 MPD 파일의 일례를 도시하는 도면이다. 또한, 도 59에서는 이용하는 오브젝트 오디오 데이터가 시간 변화하지 않을 경우에 생성되는 MPD 파일의 예에 대해서 도시하고 있다.
도 59에 도시하는 예에서는, Viewpoint(Multi View 콘텐츠에서 이용되는 기존의 Element)를 사용해서 시청 위치를 식별한다. Viewpoint 각각은, 표시 상태마다의 AdaptationSet의 조합을 나타낸다. 시청 위치(VP1)에 대응하는 view1은 Preselection@id="1"로 표시되어 있고, 기정의 오브젝트 오디오 데이터의 조합은 o1, o2, o3이고, 그 밖의 조합으로서 o3, o4가 SupplementalProperty에서 표시되어 있다. 시청 위치(VP2)에 대응하는 view2는 Preselection@id="2"로 표시되어 있고, 기정의 오브젝트 오디오 데이터의 조합은 o1, o2, o3이고, 그 밖의 조합으로서 o2, o5가 SupplementalProperty에서 표시되어 있다.
또한, 상술한 방법은, 자유 시점 콘텐츠에도 응용하는 것이 가능하다. 자유 시점 콘텐츠는, 어떤 공간 내에서 자유로운 위치에서의 시청이 가능한 콘텐츠이다. 먼저, Multi View 콘텐츠를 준비하고, 복수의 시청 위치에서 이용하는 오브젝트 오디오 데이터의 조합을 결정한다. 그 때, Viewpoint의 value로 위치 좌표를 시그널링하거나 하여, 각 시점 위치를 나타내 둔다. 재생 시에는, 시청하고 싶은 시점 위치로부터, Viewpoint에 포함되는 시점 위치 중, 가장 가까운 Viewpoint의 Preselection을 선택하고, 그 Preselection에 있는 메타 정보로부터 이용하는 오브젝트를 결정하면 된다.
<<8. 하드웨어 구성예>>
이상, 본 개시의 실시 형태를 설명하였다. 마지막으로, 도 60을 참조하여, 본 개시의 실시 형태에 따른 정보 처리 장치의 하드웨어 구성에 대해서 설명한다. 도 60은, 본 개시의 실시 형태에 따른 정보 처리 장치의 하드웨어 구성의 일례를 도시하는 블록도이다. 또한, 도 60에 도시하는 정보 처리 장치(900)는, 예를 들어 도 8, 도 9에 각각 도시한 서버(100), 클라이언트(200)를 실현할 수 있다. 본 개시의 실시 형태에 따른 서버(100), 클라이언트(200)에 의한 정보 처리는, 소프트웨어와, 이하에 설명하는 하드웨어의 협동에 의해 실현된다.
도 60에 도시하는 바와 같이, 정보 처리 장치(900)는, CPU(Central Processing Unit)(901), ROM(Read Only Memory)(902), RAM(Random Access Memory)(903) 및 호스트 버스(904a)를 구비한다. 또한, 정보 처리 장치(900)는, 브리지(904), 외부 버스(904b), 인터페이스(905), 입력 장치(906), 출력 장치(907), 스토리지 장치(908), 드라이브(909), 접속 포트(911), 통신 장치(913) 및 센서(915)를 구비한다. 정보 처리 장치(900)는, CPU(901) 대신에, 또는 이와 함께, DSP 또는 ASIC 등의 처리 회로를 가져도 된다.
CPU(901)는, 연산 처리 장치 및 제어 장치로서 기능하여, 각종 프로그램에 따라서 정보 처리 장치(900) 내의 동작 전반을 제어한다. 또한, CPU(901)는, 마이크로프로세서이어도 된다. ROM(902)은, CPU(901)가 사용하는 프로그램이나 연산 파라미터 등을 기억한다. RAM(903)은, CPU(901)의 실행에 있어서 사용하는 프로그램이나, 그 실행에 있어서 적절히 변화하는 파라미터 등을 일시 기억한다. CPU(901)는, 예를 들어 생성부(110), 제어부(120), 처리부(210), 제어부(220)를 형성할 수 있다.
CPU(901), ROM(902) 및 RAM(903)은, CPU 버스 등을 포함하는 호스트 버스(904a)에 의해 서로 접속되어 있다. 호스트 버스(904a)는, 브리지(904)를 통해서, PCI(Peripheral Component Interconnect/Interface) 버스 등의 외부 버스(904b)에 접속되어 있다. 또한, 반드시 호스트 버스(904a), 브리지(904) 및 외부 버스(904b)를 분리 구성할 필요는 없고, 1개의 버스에 이들 기능을 실장해도 된다.
입력 장치(906)는, 예를 들어 마우스, 키보드, 터치 패널, 버튼, 마이크로폰, 스위치 및 레버 등, 유저에 의해 정보가 입력되는 장치에 의해 실현된다. 또한, 입력 장치(906)는, 예를 들어 적외선이나 그 밖의 전파를 이용한 리모트 컨트롤 장치이어도 되고, 정보 처리 장치(900)의 조작에 대응한 휴대 전화나 PDA 등의 외부 접속 기기이어도 된다. 또한, 입력 장치(906)는, 예를 들어 상기 입력 수단을 사용해서 유저에 의해 입력된 정보에 기초하여 입력 신호를 생성하고, CPU(901)에 출력하는 입력 제어 회로 등을 포함하고 있어도 된다. 정보 처리 장치(900)의 유저는, 이 입력 장치(906)를 조작함으로써, 정보 처리 장치(900)에 대하여 각종 데이터를 입력하거나 처리 동작을 지시하거나 할 수 있다.
출력 장치(907)는, 취득한 정보를 유저에 대하여 시각적 또는 청각적으로 통지하는 것이 가능한 장치로 형성된다. 이러한 장치로서, CRT 디스플레이 장치, 액정 디스플레이 장치, 플라스마 디스플레이 장치, EL 디스플레이 장치 및 램프 등의 표시 장치나, 스피커 및 헤드폰 등의 음성 출력 장치나, 프린터 장치 등이 있다. 출력 장치(907)는, 예를 들어 정보 처리 장치(900)가 행한 각종 처리에 의해 얻어진 결과를 출력한다. 구체적으로는, 표시 장치는, 정보 처리 장치(900)가 행한 각종 처리에 의해 얻어진 결과를, 텍스트, 이미지, 표, 그래프 등, 다양한 형식으로 시각적으로 표시한다. 한편, 음성 출력 장치는, 재생된 음성 데이터나 음향 데이터 등을 포함하는 오디오 신호를 아날로그 신호로 변환해서 청각적으로 출력한다. 출력 장치(907)는, 예를 들어 표시부(260), 스피커(270)를 형성할 수 있다.
스토리지 장치(908)는, 정보 처리 장치(900)의 기억부의 일례로서 형성된 데이터 저장용 장치이다. 스토리지 장치(908)는, 예를 들어 HDD 등의 자기 기억부 디바이스, 반도체 기억 디바이스, 광 기억 디바이스 또는 광자기 기억 디바이스 등에 의해 실현된다. 스토리지 장치(908)는, 기억 매체, 기억 매체에 데이터를 기록하는 기록 장치, 기억 매체로부터 데이터를 판독하는 판독 장치 및 기억 매체에 기록된 데이터를 삭제하는 삭제 장치 등을 포함해도 된다. 이 스토리지 장치(908)는, CPU(901)가 실행하는 프로그램이나 각종 데이터 및 외부로부터 취득한 각종 데이터 등을 저장한다. 상기 스토리지 장치(908)는, 예를 들어 기억부(140), 기억부(240)를 형성할 수 있다.
드라이브(909)는, 기억 매체용 리더라이터이며, 정보 처리 장치(900)에 내장, 혹은 외장된다. 드라이브(909)는, 장착되어 있는 자기 디스크, 광 디스크, 광자기 디스크 또는 반도체 메모리 등의 리무버블 기억 매체에 기록되어 있는 정보를 판독하여, RAM(903)에 출력한다. 또한, 드라이브(909)는, 리무버블 기억 매체에 정보를 기입할 수도 있다.
접속 포트(911)는, 외부 기기와 접속되는 인터페이스이며, 예를 들어 USB(Universal Serial Bus) 등에 의해 데이터 전송 가능한 외부 기기와의 접속구이다.
통신 장치(913)는, 예를 들어 네트워크(920)에 접속하기 위한 통신 디바이스 등으로 형성된 통신 인터페이스이다. 통신 장치(913)는, 예를 들어 유선 또는 무선 LAN(Local Area Network), LTE(Long Term Evolution), Bluetooth(등록 상표) 또는 WUSB(Wireless USB)용 통신 카드 등이다. 또한, 통신 장치(913)는, 광통신용 라우터, ADSL(Asymmetric Digital Subscriber Line)용 라우터 또는 각종 통신용 모뎀 등이어도 된다. 이 통신 장치(913)는, 예를 들어 인터넷이나 다른 통신기기와의 사이에서, 예를 들어 TCP/IP 등의 소정의 프로토콜에 의거해서 신호 등을 송수신할 수 있다. 통신 장치(913)는, 예를 들어 통신부(130), 통신부(230)를 형성할 수 있다.
센서(915)는, 예를 들어 가속도 센서, 자이로 센서, 지자기 센서, 광 센서, 음 센서, 거리 측정 센서, 힘 센서 등의 각종 센서이다. 센서(915)는, 정보 처리 장치(900)의 자세, 이동 속도 등, 정보 처리 장치(900) 자신의 상태에 관한 정보나, 정보 처리 장치(900)의 주변의 밝기나 소음 등, 정보 처리 장치(900)의 주변 환경에 관한 정보를 취득한다. 또한, 센서(915)는, GPS 신호를 수신해서 장치의 위도, 경도 및 고도를 측정하는 GPS 센서를 포함해도 된다. 센서(915)는, 예를 들어 센서부(250)를 형성할 수 있다.
또한, 네트워크(920)는, 네트워크(920)에 접속되어 있는 장치로부터 송신되는 정보의 유선 또는 무선의 전송로이다. 예를 들어, 네트워크(920)는, 인터넷, 전화 회선망, 위성 통신망 등의 공중 회선 망이나, Ethernet(등록 상표)을 포함하는 각종 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함해도 된다. 또한, 네트워크(920)는, IP-VPN(Internet Protocol-Virtual Private Network) 등의 전용 회선망을 포함해도 된다.
이상, 본 개시의 실시 형태에 따른 정보 처리 장치(900)의 기능을 실현 가능한 하드웨어 구성의 일례를 나타내었다. 상기 각 구성 요소는, 범용적인 부재를 사용해서 실현되어 있어도 되고, 각 구성 요소의 기능에 특화한 하드웨어에 의해 실현되어 있어도 된다. 따라서, 본 개시의 실시 형태를 실시하는 그때그때의 기술 레벨에 따라, 적절히, 이용하는 하드웨어 구성을 변경하는 것이 가능하다.
또한, 상술한 바와 같은 본 개시의 실시 형태에 따른 정보 처리 장치(900)의 각 기능을 실현하기 위한 컴퓨터 프로그램을 제작하여, PC 등에 실장하는 것이 가능하다. 또한, 이러한 컴퓨터 프로그램이 저장된, 컴퓨터로 판독 가능한 기록 매체도 제공할 수 있다. 기록 매체는, 예를 들어 자기 디스크, 광 디스크, 광자기 디스크, 플래시 메모리 등이다. 또한, 상기 컴퓨터 프로그램은, 기록 매체를 사용하지 않고, 예를 들어 네트워크를 통해서 배신되어도 된다.
<<9. 맺음말>>
이상 설명한 바와 같이, 본 개시의 실시 형태에 따르면, 오브젝트 오디오 데이터를 표시 상태에 따라서 선택하는 것이 가능하다. 예를 들어, 오브젝트 오디오 데이터를 MPEG-DASH에 의해 스트리밍 배신할 때, 시청 환경에 맞는 보다 적절한 위치로부터의 소리를 들을 수 있게 된다. 또한, 줌 인이나 줌 아웃했을 때 등, 표시 상태가 바뀐 경우에, 그때의 영상에 맞추어, 적절한 위치로부터의 소리가 들리는 체험을 할 수 있게 된다. 또한, 서버가 기억하는 데이터양과, 클라이언트가 취득하는 파일수 양쪽이 억제되도록 오브젝트 오디오 데이터를 파일화하는 것이 가능하다. 그 때문에, 전송량이 저감되어, 예를 들어 그 밖의 취득하는 데이터의 비트 레이트를 올리는 것도 가능하게 될 수 있다.
이상, 첨부 도면을 참조하면서 본 개시의 적합한 실시 형태에 대해서 상세하게 설명했지만, 본 개시의 기술적 범위는 이러한 예에 한정되지 않는다. 본 개시의 기술 분야에서의 통상의 지식을 가진 자라면, 청구범위에 기재된 기술적 사상의 범주 내에서, 각종 변경예 또는 수정예에 상도할 수 있음은 명확하며, 이것들에 대해서도, 당연히 본 개시의 기술적 범위에 속하는 것이라고 이해된다.
또한, 본 명세서에 기재된 효과는, 어디까지나 설명적 또는 예시적인 것으로서 한정적이지 않다. 즉, 본 개시에 따른 기술은, 상기 효과와 함께 또는 상기 효과 대신에, 본 명세서의 기재로부터 당업자에게는 명확한 다른 효과를 발휘할 수 있다.
또한, 이하와 같은 구성도 본 개시의 기술적 범위에 속한다.
(1) 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 생성부와,
상기 관리 파일을 송신하는 송신부
를 구비하는 정보 처리 장치.
(2) 상기 생성부는, 상기 오브젝트 선택 정보에 관한 정보는, 상기 오브젝트 선택 정보를 포함하는, 상기 (1)에 기재된 정보 처리 장치.
(3) 상기 생성부는, 상기 오브젝트 선택 정보를 포함하는 메타데이터 파일을 생성하고,
상기 오브젝트 선택 정보에 관한 정보는, 생성된 상기 메타데이터 파일에 액세스하기 위한 메타데이터 파일 액세스 정보를 포함하는, 상기 (1) 또는 (2)에 기재된 정보 처리 장치.
(4) 상기 관리 파일은, MPD(Media Presentation Description) 파일인, 상기 (1) 내지 (3) 중 어느 한 항에 기재된 정보 처리 장치.
(5) 상기 관리 파일은, MPD(Media Presentation Description) 파일이며,
상기 메타데이터 파일 액세스 정보는, 상기 MPD 파일의 AdaptationSet에 저장되는, 상기 (3)에 기재된 정보 처리 장치.
(6) 상기 메타데이터 파일 액세스 정보는, 상기 AdaptationSet의 SupplementalProperty에 저장되는, 상기 (5)에 기재된 정보 처리 장치.
(7) 상기 오브젝트 선택 정보는, 잘라낸 화상의 방향에 관한 방향 정보를 포함하는, 상기 (1) 내지 (6) 중 어느 한 항에 기재된 정보 처리 장치.
(8) 상기 방향 정보는, 수평 방향의 각도의 정보와 수직 방향의 각도의 정보를 포함하는, 상기 (7)에 기재된 정보 처리 장치.
(9) 상기 방향 정보는, 잘라낸 방향 벡터로부터의 각도 범위의 정보를 더 포함하는, 상기 (8)에 기재된 정보 처리 장치.
(10) 상기 방향 정보는, 수평 방향의 각도의 범위의 정보와 수직 방향의 각도의 범위의 정보를 포함하는, 상기 (7)에 기재된 정보 처리 장치.
(11) 상기 오브젝트 선택 정보는, 잘라낸 화상의 화각 또는 표시된 화상에 대한 시청 시의 화각에 관한 화각 정보를 포함하는, 상기 (1) 내지 (10) 중 어느 한 항에 기재된 정보 처리 장치.
(12) 상기 화각 정보는, 수평 화각의 범위의 정보와 수직 화각의 범위의 정보를 포함하는, 상기 (11)에 기재된 정보 처리 장치.
(13) 상기 화각 정보는, 기준 화각에 대한 배율의 범위의 정보를 포함하는, 상기 (11)에 기재된 정보 처리 장치.
(14) 상기 오브젝트 선택 정보는, 각도를 산출하는 2개의 오브젝트의 위치 정보를 포함하는, 상기 (1) 내지 (6) 중 어느 한 항에 기재된 정보 처리 장치.
(15) 상기 오브젝트 선택 정보는, 상기 2개의 오브젝트간의 각도에 관한 각도 정보를 더 포함하는, 상기 (14)에 기재된 정보 처리 장치.
(16) 상기 오브젝트 선택 정보는, 이용하는 상기 오브젝트 오디오 데이터에 관한 정보를 포함하는, 상기 (1) 내지 (15) 중 어느 한 항에 기재된 정보 처리 장치.
(17) 상기 생성부는, 상기 표시 상태에 따른 상기 오브젝트 오디오 데이터의 조합에 기초하여, 동일한 오브젝트 오디오 데이터가 복수의 오디오 파일에 포함되지 않도록 상기 오디오 파일을 생성하는, 상기 (1) 내지 (16) 중 어느 한 항에 기재된 정보 처리 장치.
(18) 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 것과,
상기 관리 파일을 송신하는 것
을 포함하고, 정보 처리 장치에 의해 실행되는 정보 처리 방법.
(19) 컴퓨터에,
화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 기능과,
상기 관리 파일을 송신하는 기능
을 실현시키기 위한 프로그램.
(20) 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 수신하는 수신부를 구비하는 정보 처리 장치.
(21) 상기 오브젝트 선택 정보에 관한 정보는, 상기 오브젝트 선택 정보를 포함하는, 상기 (20)에 기재된 정보 처리 장치.
(22) 상기 오브젝트 선택 정보에 관한 정보는, 상기 오브젝트 선택 정보를 포함하는 메타데이터 파일에 액세스하기 위한 메타데이터 파일 액세스 정보를 포함하는, 상기 (20) 또는 (21)에 기재된 정보 처리 장치.
(23) 상기 관리 파일은, MPD(Media Presentation Description) 파일인, 상기 (20) 내지 (22) 중 어느 한 항에 기재된 정보 처리 장치.
(24) 상기 관리 파일은, MPD(Media Presentation Description) 파일이며,
상기 메타데이터 파일 액세스 정보는, 상기 MPD 파일의 AdaptationSet에 저장되는, 상기 (22)에 기재된 정보 처리 장치.
(25) 상기 메타데이터 파일 액세스 정보는, 상기 AdaptationSet의 SupplementalProperty에 저장되는, 상기 (24)에 기재된 정보 처리 장치.
(26) 상기 오브젝트 선택 정보는, 잘라낸 화상의 방향에 관한 방향 정보를 포함하는, 상기 (20) 내지 (25) 중 어느 한 항에 기재된 정보 처리 장치.
(27) 상기 방향 정보는, 수평 방향의 각도의 정보와 수직 방향의 각도의 정보를 포함하는, 상기 (26)에 기재된 정보 처리 장치.
(28) 상기 방향 정보는, 잘라낸 방향 벡터로부터의 각도 범위의 정보를 더 포함하는, 상기 (27)에 기재된 정보 처리 장치.
(29) 상기 방향 정보는, 수평 방향의 각도의 범위의 정보와 수직 방향의 각도의 범위의 정보를 포함하는, 상기 (26)에 기재된 정보 처리 장치.
(30) 상기 오브젝트 선택 정보는, 잘라낸 화상의 화각 또는 표시된 화상에 대한 시청 시의 화각에 관한 화각 정보를 포함하는, 상기 (20) 내지 (29) 중 어느 한 항에 기재된 정보 처리 장치.
(31) 상기 화각 정보는, 수평 화각의 범위의 정보와 수직 화각의 범위의 정보를 포함하는, 상기 (30)에 기재된 정보 처리 장치.
(32) 상기 화각 정보는, 기준 화각에 대한 배율의 범위의 정보를 포함하는, 상기 (30)에 기재된 정보 처리 장치.
(33) 상기 오브젝트 선택 정보는, 각도를 산출하는 2개의 오브젝트의 위치 정보를 포함하는, 상기 (20) 내지 (26) 중 어느 한 항에 기재된 정보 처리 장치.
(34) 상기 오브젝트 선택 정보는, 상기 2개의 오브젝트간의 각도에 관한 각도 정보를 더 포함하는, 상기 (33)에 기재된 정보 처리 장치.
(35) 상기 오브젝트 선택 정보는, 이용하는 상기 오브젝트 오디오 데이터에 관한 정보를 포함하는, 상기 (20) 내지 (34) 중 어느 한 항에 기재된 정보 처리 장치.
(36) 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 수신하는 것을 포함하고, 정보 처리 장치에 의해 실행되는 정보 처리 방법.
(37) 컴퓨터에,
화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 수신하는 기능을 실현시키기 위한 프로그램.
100: 서버
110: 생성부
111: 데이터 취득부
112: 부호화 처리부
113: 세그먼트 파일 생성부
114: 파일 생성부
120: 제어부
130: 통신부
140: 기억부
200: 클라이언트
210: 처리부
211: 파일 취득부
212: 파일 처리부
213: 세그먼트 파일 선택부
214: 세그먼트 파일 취득부
215: 복호 처리부
216: 합성 처리부
220: 제어부
230: 통신부
240: 기억부
250: 센서부
260: 표시부
270: 스피커

Claims (19)

  1. 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 생성부와,
    상기 관리 파일을 송신하는 송신부
    를 구비하는 정보 처리 장치.
  2. 제1항에 있어서, 상기 생성부는, 상기 오브젝트 선택 정보에 관한 정보는, 상기 오브젝트 선택 정보를 포함하는, 정보 처리 장치.
  3. 제1항에 있어서, 상기 생성부는, 상기 오브젝트 선택 정보를 포함하는 메타데이터 파일을 생성하고,
    상기 오브젝트 선택 정보에 관한 정보는, 생성된 상기 메타데이터 파일에 액세스하기 위한 메타데이터 파일 액세스 정보를 포함하는, 정보 처리 장치.
  4. 제1항에 있어서, 상기 관리 파일은, MPD(Media Presentation Description) 파일인, 정보 처리 장치.
  5. 제3항에 있어서, 상기 관리 파일은, MPD(Media Presentation Description) 파일이며,
    상기 메타데이터 파일 액세스 정보는, 상기 MPD 파일의 AdaptationSet에 저장되는, 정보 처리 장치.
  6. 제5항에 있어서, 상기 메타데이터 파일 액세스 정보는, 상기 AdaptationSet의 SupplementalProperty에 저장되는, 정보 처리 장치.
  7. 제1항에 있어서, 상기 오브젝트 선택 정보는, 잘라낸 화상의 방향에 관한 방향 정보를 포함하는, 정보 처리 장치.
  8. 제7항에 있어서, 상기 방향 정보는, 수평 방향의 각도의 정보와 수직 방향의 각도의 정보를 포함하는, 정보 처리 장치.
  9. 제8항에 있어서, 상기 방향 정보는, 잘라낸 방향 벡터로부터의 각도 범위의 정보를 더 포함하는, 정보 처리 장치.
  10. 제7항에 있어서, 상기 방향 정보는, 수평 방향의 각도의 범위의 정보와 수직 방향의 각도의 범위의 정보를 포함하는, 정보 처리 장치.
  11. 제1항에 있어서, 상기 오브젝트 선택 정보는, 잘라낸 화상의 화각 또는 표시된 화상에 대한 시청 시의 화각에 관한 화각 정보를 포함하는, 정보 처리 장치.
  12. 제11항에 있어서, 상기 화각 정보는, 수평 화각의 범위의 정보와 수직 화각의 범위의 정보를 포함하는, 정보 처리 장치.
  13. 제11항에 있어서, 상기 화각 정보는, 기준 화각에 대한 배율의 범위의 정보를 포함하는, 정보 처리 장치.
  14. 제1항에 있어서, 상기 오브젝트 선택 정보는, 각도를 산출하는 2개의 오브젝트의 위치 정보를 포함하는, 정보 처리 장치.
  15. 제14항에 있어서, 상기 오브젝트 선택 정보는, 상기 2개의 오브젝트간의 각도에 관한 각도 정보를 더 포함하는, 정보 처리 장치.
  16. 제1항에 있어서, 상기 오브젝트 선택 정보는, 이용하는 상기 오브젝트 오디오 데이터에 관한 정보를 포함하는, 정보 처리 장치.
  17. 제1항에 있어서, 상기 생성부는, 상기 표시 상태에 따른 상기 오브젝트 오디오 데이터의 조합에 기초하여, 동일한 오브젝트 오디오 데이터가 복수의 오디오 파일에 포함되지 않도록 상기 오디오 파일을 생성하는, 정보 처리 장치.
  18. 화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 것과,
    상기 관리 파일을 송신하는 것
    을 포함하고, 정보 처리 장치에 의해 실행되는 정보 처리 방법.
  19. 컴퓨터에,
    화상의 표시 상태에 따른 오브젝트 오디오 데이터를 선택하기 위한 오브젝트 선택 정보에 관한 정보를 저장하는 관리 파일을 생성하는 기능과,
    상기 관리 파일을 송신하는 기능
    을 실현시키기 위한 프로그램.
KR1020207026804A 2018-03-29 2018-12-26 정보 처리 장치, 정보 처리 방법 및 프로그램 KR20200136393A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018065012 2018-03-29
JPJP-P-2018-065012 2018-03-29
PCT/JP2018/047835 WO2019187437A1 (ja) 2018-03-29 2018-12-26 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
KR20200136393A true KR20200136393A (ko) 2020-12-07

Family

ID=68059782

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207026804A KR20200136393A (ko) 2018-03-29 2018-12-26 정보 처리 장치, 정보 처리 방법 및 프로그램

Country Status (7)

Country Link
US (2) US11323757B2 (ko)
EP (1) EP3780628A4 (ko)
JP (1) JP7396267B2 (ko)
KR (1) KR20200136393A (ko)
CN (1) CN111903135A (ko)
TW (1) TW201942821A (ko)
WO (1) WO2019187437A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11616822B2 (en) * 2019-09-30 2023-03-28 Tencent America LLC Session-based information for dynamic adaptive streaming over HTTP
EP4062649A2 (en) * 2019-11-20 2022-09-28 Dolby International AB Methods and devices for personalizing audio content
US11451602B2 (en) * 2021-01-06 2022-09-20 Tencent America LLC Methods and apparatuses for dynamic adaptive streaming over HTTP

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613727B2 (en) * 2002-02-25 2009-11-03 Sont Corporation Method and apparatus for supporting advanced coding formats in media files
US20050198193A1 (en) * 2004-02-12 2005-09-08 Jaakko Halme System, method, and apparatus for creating metadata enhanced media files from broadcast media
JP4304108B2 (ja) * 2004-03-31 2009-07-29 株式会社東芝 メタデータ配信装置、動画再生装置および動画再生システム
JP5230096B2 (ja) * 2006-12-27 2013-07-10 キヤノン株式会社 映像音声出力装置及び映像音声出力方法
US8625607B2 (en) * 2007-07-24 2014-01-07 Time Warner Cable Enterprises Llc Generation, distribution and use of content metadata in a network
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US9007524B2 (en) * 2012-09-25 2015-04-14 Intel Corporation Techniques and apparatus for audio isolation in video processing
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN105519130B (zh) * 2013-07-19 2019-03-08 索尼公司 信息处理装置和方法
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP3028273B1 (en) * 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
KR20150068112A (ko) * 2013-12-11 2015-06-19 삼성전자주식회사 오디오를 추적하기 위한 방법 및 전자 장치
JPWO2015182491A1 (ja) * 2014-05-30 2017-04-20 ソニー株式会社 情報処理装置および情報処理方法
JP6555263B2 (ja) * 2014-06-30 2019-08-07 ソニー株式会社 情報処理装置および方法
CN106471574B (zh) * 2014-06-30 2021-10-12 索尼公司 信息处理装置和信息处理方法
CN115209186A (zh) * 2014-10-10 2022-10-18 索尼公司 再现装置和再现方法
MX2017006581A (es) 2014-11-28 2017-09-01 Sony Corp Dispositivo de transmision, metodo de transmision, dispositivo de recepcion, y metodo de recepcion.
WO2016182371A1 (ko) * 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US10477336B2 (en) * 2015-05-18 2019-11-12 Sony Corporation Information processing device, information processing method, and program
US10693936B2 (en) 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
CA3206524C (en) * 2016-02-04 2024-02-13 Magic Leap, Inc. Technique for directing audio in augmented reality system
WO2017140948A1 (en) * 2016-02-17 2017-08-24 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
KR101798321B1 (ko) 2016-02-19 2017-11-15 서울과학기술대학교 산학협력단 자유 시점 방송의 송수신 장치 및 방법
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
EP3797529A1 (en) * 2018-05-23 2021-03-31 Koninklijke KPN N.V. Adapting acoustic rendering to image-based object
GB2593117A (en) * 2018-07-24 2021-09-22 Nokia Technologies Oy Apparatus, methods and computer programs for controlling band limited audio objects
CN114424586A (zh) * 2019-09-17 2022-04-29 诺基亚技术有限公司 空间音频参数编码和相关联的解码
DE112020005550T5 (de) * 2019-11-13 2022-09-01 Sony Group Corporation Signalverarbeitungsvorrichtung, verfahren und programm
US11570378B2 (en) * 2020-07-21 2023-01-31 Gopro, Inc. Methods and apparatus for metadata-based processing of media content
US11115625B1 (en) * 2020-12-14 2021-09-07 Cisco Technology, Inc. Positional audio metadata generation
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISO/IEC 23008-3:2015 Information technology-High efficiency coding and media delivery in heterogeneous environments
ISO/IEC 23009-1:2014 Information technology-Dynamic adaptive streaming over HTTP(DASH)

Also Published As

Publication number Publication date
WO2019187437A1 (ja) 2019-10-03
US11323757B2 (en) 2022-05-03
JP7396267B2 (ja) 2023-12-12
JPWO2019187437A1 (ja) 2021-04-01
EP3780628A1 (en) 2021-02-17
US20220232264A1 (en) 2022-07-21
EP3780628A4 (en) 2021-02-17
TW201942821A (zh) 2019-11-01
US11743520B2 (en) 2023-08-29
CN111903135A (zh) 2020-11-06
US20210021880A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
JP7409362B2 (ja) 再生装置および方法、並びにプログラム
US11743520B2 (en) Information processing apparatus, information processing method, and program
JP6860485B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US10911809B2 (en) Communication apparatus, communication method, and program
CN115225937B (zh) 沉浸式媒体提供方法、获取方法、装置、设备及存储介质
US11272224B2 (en) Information processing device and method
JP7314929B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20210029343A1 (en) Information processing device, method, and program
US20220150552A1 (en) Information processing apparatus, information processing method, reproduction processing device, and reproduction processing method
US11341976B2 (en) Transmission apparatus, transmission method, processing apparatus, and processing method

Legal Events

Date Code Title Description
WITB Written withdrawal of application