JPWO2015008613A1

JPWO2015008613A1 - 情報処理装置および情報処理方法

Info

Publication number: JPWO2015008613A1
Application number: JP2015527242A
Authority: JP
Inventors: しのぶ服部; 平林　光浩; 光浩平林; 央二中神; 徹知念; 潤宇史; 辻　実; 実辻; 優樹山本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-07-19
Filing date: 2014-07-01
Publication date: 2017-03-02
Anticipated expiration: 2034-07-01
Also published as: JP6384480B2; CN105379302B; WO2015008576A1; EP3024249A1; CN105379302A; US10523975B2; WO2015008613A1; EP3024249A4; US20160156944A1; WO2015008538A1

Abstract

本開示は、画像上の音声データの取得位置を認識することができるようにする情報処理装置および情報処理方法に関する。Webサーバは、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する。本開示は、例えば、MPEG-DASH（Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP）に準ずる方式でタイルドストリーミングを行う、ファイル生成装置、Ｗｅｂサーバ、および動画再生端末を含む情報処理システム等に適用することができる。

Description

本開示は、情報処理装置および情報処理方法に関し、特に、画像上の音声データの取得位置を認識することができるようにした情報処理装置および情報処理方法に関する。

近年、インターネット上のストリーミングサービスの主流がOTT-V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG-DASH（Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

MPEG-DASHでは、配信サーバが１本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。

MPEG-DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1）

しかしながら、再生端末が、動画コンテンツ上の音声データの取得位置を認識することは考えられていない。

本開示は、このような状況に鑑みてなされたものであり、画像上の音声データの取得位置を認識することができるようにするものである。

本開示の第１の側面の情報処理装置は、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部を備える情報処理装置である。

本開示の第１の側面の情報処理方法は、本開示の第１の側面の情報処理装置に対応する。

本開示の第１の側面においては、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とが伝送される。

本開示の第２の側面の情報処理装置は、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部とを備える情報処理装置である。

本開示の第２の側面の情報処理方法は、本開示の第２の側面の情報処理装置に対応する。

本開示の第２の側面においては、画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とが受け取られ、受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置が決定される。

なお、第１および第２の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

また、第１および第２の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本開示の第１の側面によれば、画像上の音声データの取得位置を認識させるための情報を伝送することができる。

また、本開示の第２の側面によれば、画像上の音声データの取得位置を認識することができる。

本開示を適用した情報処理システムの第１実施の形態の概要を説明する図である。タイルの例を示す図である。オブジェクトを説明する図である。オブジェクト位置情報を説明する図である。画枠サイズ情報を説明する図である。 MPDファイルの構造を示す図である。「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。 MPDファイルの記述例を説明する図である。ファイル生成装置の構成例を示すブロック図である。ファイル生成装置のファイル生成処理を説明するフローチャートである。ストリーミング再生部の構成例を示すブロック図である。ストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 MPDファイルの他の記述例を説明する図である。 MPDファイルのさらに他の記述例を説明する図である。オーディオストリームの配置例を示す図である。 gsixの記述例を示す図である。 Sample group entryとオブジェクトＩＤの対応関係を示す情報の例を示す図である。 AudioObjectSampleGroupEntryの記述例を示す図である。 type assignment boxの記述例を示す図である。本開示を適用した情報処理システムの第２実施の形態の概要を説明する図である。本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。垂直角度γ_v1´と垂直角度γ_Ai´の関係を表す図である。図２３のストリーミング再生部のストリーミング再生処理を説明するフローチャートである。図２９の位置決定処理の詳細を説明するフローチャートである。図３０の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。本開示を適用した情報処理システムの第３実施の形態におけるオブジェクトの位置の決定方法を説明する図である。本開示を適用した情報処理システムの第３実施の形態におけるオブジェクトの位置の決定方法を説明する図である。本開示を適用した情報処理システムの第３実施の形態におけるオブジェクトの位置の決定方法を説明する図である。本開示を適用した情報処理システムの第３実施の形態におけるオブジェクトの位置の決定方法を説明する図である。本開示を適用した情報処理システムの第３実施の形態における位置決定処理の詳細を説明するフローチャートである。コンピュータのハードウエアの構成例を示すブロック図である。

＜第１実施の形態＞
（情報処理システムの第１実施の形態の概要）
図１は、本開示を適用した情報処理システムの第１実施の形態の概要を説明する図である。

図１の情報処理システム１０は、ファイル生成装置１１と接続されるWebサーバ１２と動画再生端末１４が、インターネット１３を介して接続されることにより構成される。

情報処理システム１０では、MPEG-DASHに準ずる方式で、Webサーバ１２が動画コンテンツの画像データをタイル単位で動画再生端末１４に配信（タイルドストリーミング）する。

具体的には、ファイル生成装置１１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置１１は、各タイルのビデオストリームを、セグメントと呼ばれる数秒から10秒程度の時間単位ごとにファイル化する。ファイル生成装置１１は、その結果得られる各タイルの画像ファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの音声データをオブジェクト（詳細は後述する）ごとに取得し、オブジェクト単位で符号化してオーディオストリームを生成する。ファイル生成装置１１は、各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをWebサーバ１２にアップロードする。

なお、オブジェクトとは、音源であり、各オブジェクトの音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。

ファイル生成装置１１は、各オブジェクトの位置（音声データの取得位置）を表すオブジェクト位置情報（音声位置情報）、オブジェクトに固有のＩＤであるオブジェクトＩＤ等を含むオーディオメタデータを符号化する。ファイル生成装置１１は、オーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの画像の画枠サイズを表す画枠サイズ情報、各タイルの画像上の位置を表すタイル位置情報等を含む、画像ファイルや音声ファイルを管理するMPD（Media Presentation Description）ファイル（制御情報）を生成する。ファイル生成装置１１は、MPDファイルをWebサーバ１２にアップロードする。

Webサーバ１２は、ファイル生成装置１１からアップロードされた画像ファイル、音声ファイル、音声メタファイル、およびMPDファイルを格納する。

図１の例では、Webサーバ１２には、タイルＩＤ「１」のタイルの複数のセグメントの画像ファイルからなるセグメント群と、タイルＩＤ「２」のタイルの複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ１２には、オブジェクトＩＤ「１」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群と、オブジェクトＩＤ「２」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群とが格納されている。図示は省略するが、音声メタファイルのセグメント群も同様に格納されている。

なお、以下では、タイルＩＤがｉであるタイルをタイル＃ｉといい、オブジェクトＩＤがｉのオブジェクトをオブジェクト＃ｉという。

Webサーバ１２は、伝送部として機能し、動画再生端末１４からの要求に応じて、格納している画像ファイル、音声ファイル、音声メタファイル、MPDファイル等を動画再生端末１４に送信する。

動画再生端末１４は、ストリーミングデータの制御用ソフトウエア（以下、制御用ソフトウエアという）２１、動画再生ソフトウエア２２、HTTP（HyperText Transfer Protocol）アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)２３などを実行する。

制御用ソフトウエア２１は、Webサーバ１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２１は、動画再生端末１４にWebサーバ１２からMPDファイルを取得させる。

また、制御用ソフトウエア２１は、動画再生ソフトウエア２２から指示される動画コンテンツの画像内の表示する領域である表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア２１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

また、制御用ソフトウエア２１は、アクセス用ソフトウエア２３に音声メタファイルの送信要求を指令する。そして、制御用ソフトウエア２１は、表示領域、MPDファイルに含まれる画枠サイズ情報、および音声メタファイルに含まれるオブジェクト位置情報に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア２１は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

動画再生ソフトウエア２２は、Webサーバ１２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア２２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア２１に指示する。また、動画再生ソフトウエア２２は、その指示に応じてWebサーバ１２から取得された画像ファイルと音声ファイルを復号し、合成して出力する。

アクセス用ソフトウエア２３は、HTTPを用いたインターネット１３を介したWebサーバ１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２３は、制御用ソフトウエア２１の指令に応じて、画像ファイル、音声ファイル、および音声メタファイルの送信要求を動画再生端末１４に送信させる。また、アクセス用ソフトウエア２３は、その送信要求に応じて、Webサーバ１２から送信されてくる画像ファイル、音声ファイル、および音声メタファイルを動画再生端末１４に受信させる。

（タイルの例）
図２は、タイルの例を示す図である。

図２に示すように、動画コンテンツの画像は、複数のタイルに分割され、各タイルに１から順にタイルＩＤが付与される。図２の例では、動画コンテンツの画像は、４つのタイル＃１乃至タイル＃４に分割されている。

（オブジェクトの説明）
図３は、オブジェクトを説明する図である。

図３の例では、動画コンテンツの音声として、画像内の８つのオブジェクトの音声が取得されており、各オブジェクトには１から順にオブジェクトＩＤが付与されている。オブジェクト＃１乃至オブジェクト＃５は、それぞれ、動体であり、オブジェクト＃６乃至オブジェクト＃８は、固定された物体である。また、図３の例では、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されている。

この場合、図３に示すように、ユーザにより２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、表示領域３１には、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６のみが含まれる。従って、動画再生端末１４は、例えば、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６の音声ファイルのみをWebサーバ１２から取得し、再生する。

表示領域３１内のオブジェクトは、以下に説明するように、画枠サイズ情報およびオブジェクト位置情報に基づいて特定することができる。

（オブジェクト位置情報の説明）
図４は、オブジェクト位置情報を説明する図である。

図４に示すように、オブジェクト位置情報は、オブジェクト４０の水平角度θ_A（-180°≦θ_A≦180°）,垂直角度γ_A（-90°≦γ_A≦90°）、および距離ｒ_A（0<ｒ_A）からなる。水平角度θ_Aは、例えば、画像の中心の撮影位置を原点（基点）Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、オブジェクト４０と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。垂直角度γ_Aは、オブジェクト４０と原点Ｏを結ぶ直線とXZ平面との垂直方向の角度であり、距離ｒ_Aは、オブジェクト４０と原点Ｏの距離である。

なお、本明細書では、左回転および上回転の角度を正の角度とし、右回転および下回転の角度を負の角度とする。

（画枠サイズ情報の説明）
図５は、画枠サイズ情報を説明する図である。

図５に示すように、画枠サイズ情報は、画枠の左端の水平角度θ_v1、右端の水平角度θ_v2、画枠の上端の垂直角度γ_v1、下端の垂直角度γ_v2、および距離ｒ_vにより構成される。

水平角度θ_v1は、例えば、画像の中心の撮影位置を原点Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、画枠の左端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。水平角度θ_v2は、画枠の右端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。従って、水平角度θ_v1と水平角度θ_v2とを合わせた角度は、水平方向の画角である。

垂直角度γ_V1，γ_v2は、それぞれ、画枠の上端、下端と原点Ｏを結ぶ直線とXZ平面との角度であり、垂直角度γ_V1と垂直角度γ_v2とを合わせた角度は、垂直方向の画角である。距離ｒ_vは、原点Ｏと画像の平面との距離である。

以上のように、オブジェクト位置情報と画枠サイズ情報は、それぞれ、オブジェクト４０、画枠と、原点Ｏとの位置関係を表している。従って、オブジェクト位置情報と画枠サイズ情報に基づいて、各オブジェクトの画像上の位置を検出（認識）することができる。その結果、表示領域３１内のオブジェクトを特定することができる。

(MPDファイルの構造の説明)
図６は、MPDファイルの構造を示す図である。

MPDファイルの解析（パース）においては、動画再生端末１４は、MPDファイル（図６のMedia Presentation）の「Period」に含まれる「Representation」の属性から最適なものを選択する。

動画再生端末１４は、選択した「Representation」の先頭の「Initialization Segment」のURL（Uniform Resource Locator）等を参照してファイルを取得し、処理する。続いて、動画再生端末１４は、後続の「Media Segment」のURL等を参照してファイルを取得し、再生する。

なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図７のようになる。つまり、１つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。

したがって、MPDファイルは、「Period」以下において、図８に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図９の例のようになる。図９から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。動画再生端末１４は、これらのうちのいずれかを適応的に選択することにより、ユーザにより選択された表示領域の画像ファイルと音声ファイルを取得し、再生することができる。

（MPDファイルの記述の説明）
図１０は、MPDファイルの記述を説明する図である。

上述したように、情報処理システム１０では、動画再生端末１４において表示領域内のオブジェクトを特定可能にするため、MPDファイルに画枠サイズ情報が含まれる。この画枠サイズ情報は、図１０に示すように、ViewpointのDescriptorType elementを活用して新たに画枠サイズ情報（Viewing Angle）を定義するためのScheme(urn:mpeg:DASH:viewingAngle:2013)を拡張することにより、音声用の「Adaptation Set」と画像用の「Adaptation Set」に配置される。画枠サイズ情報は、画像用の「Adaptation Set」にのみ配置されるようにしてもよい。

また、MPDファイルの音声用の「Adaptation Set」には、音声メタファイル用の「Representation」が記述され、その「Representation」の「Segment」には、音声メタファイル（audionmetadata.mp4）を特定する情報としてのURL等が記述される。このとき、Role elementを活用して、「Segment」で指定されるファイルが音声メタファイルであること（objectaudiometadata）が記述される。

MPDファイルの音声用の「Adaptation Set」にはまた、各オブジェクトの音声ファイル用の「Representation」が記述され、その「Representation」の「Segment」には、各オブジェクトの音声ファイル（audioObje1.mp4, audioObje5.mp4）を特定する情報としてのURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応するオブジェクトのオブジェクトＩＤ（1,5）も記述される。

なお、図示は省略するが、タイル位置情報は、画像用の「Adaptation Set」に配置される。

（ファイル生成装置の構成例）
図１１は、図１のファイル生成装置１１の構成例を示すブロック図である。

図１１のファイル生成装置１１は、画面分割処理部５１、画像符号化処理部５２、画像ファイル生成部５３、画像情報生成部５４、音声符号化処理部５５、音声ファイル生成部５６、MPD生成部５７、およびサーバアップロード処理部５８により構成される。

ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、ビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、その結果得られる各タイルの画像ファイルをMPD生成部５７に供給する。

画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と外部から入力される画枠サイズ情報とを画像情報としてMPD生成部５７に供給する。

音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、オーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

音声ファイル生成部５６は、音声ファイル生成部として機能し、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをMPD生成部５７に供給する。

また、音声ファイル生成部５６は、メタファイル生成部として機能し、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをMPD生成部５７に供給する。

MPD生成部５７は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ１２のURL等を決定する。また、MPD生成部５７は、音声ファイル生成部５６から供給される各タイルの音声ファイルと音声メタファイルを格納するWebサーバ１２のURL等を決定する。

MPD生成部５７は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部５７は、画像情報のうちの画枠サイズ情報をMPDファイルの音声用の「AdaptationSet」に配置する。MPD生成部５７は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部５７は、各オブジェクトの画像ファイルのURL等を、そのオブジェクトの音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部５７は、情報生成部として機能し、音声メタファイルを特定する情報としてのURL等を音声メタファイル用の「Representation」の「Segment」に配置する。MPD生成部５７は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイル、音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。

（ファイル生成装置の処理の説明）
図１２は、図１１のファイル生成装置１１のファイル生成処理を説明するフローチャートである。

図１２のステップＳ１１において、ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

ステップＳ１２において、画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、各タイルのビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

ステップＳ１３において、画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、各タイルの画像ファイルを生成する。画像ファイル生成部５３は、各タイルの画像ファイルをMPD生成部５７に供給する。

ステップＳ１４において、画像情報生成部５４は、外部から画枠サイズ情報を取得する。ステップＳ１５において、画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と画枠サイズ情報とを含む画像情報を生成し、MPD生成部５７に供給する。

ステップＳ１６において、音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、各オブジェクトのオーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

ステップＳ１７において、音声ファイル生成部５６は、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、各オブジェクトの音声ファイルを生成する。また、音声ファイル生成部５６は、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、音声メタファイルを生成する。音声ファイル生成部５６は、各オブジェクトの音声ファイルと音声メタファイルをMPD生成部５７に供給する。

ステップＳ１８において、MPD生成部５７は、画像情報生成部５４から供給される画像情報、各ファイルのURL等を含むMPDファイルを生成する。MPD生成部５７は、MPDファイル、各タイルの画像ファイル、各オブジェクトの音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

ステップＳ１９において、サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図１３は、図１の動画再生端末１４が制御用ソフトウエア２１、動画再生ソフトウエア２２、およびアクセス用ソフトウエア２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図１３のストリーミング再生部９０は、MPD取得部９１、MPD処理部９２、メタファイル取得部９３、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７、画像選択部９８、画像ファイル取得部９９、画像復号処理部１００、および画像合成処理部１０１により構成される。

ストリーミング再生部９０のMPD取得部９１は、受け取り部として機能し、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述される画枠サイズ情報を抽出し、音声選択部９４に供給する。MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。

MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

音声選択部９４は、位置決定部として機能し、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部９４は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。音声選択部９４は、その要求に応じてMPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

音声ファイル取得部９５は、受け取り部として機能し、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定されるオブジェクト単位の音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。画像選択部９８は、その要求に応じてMPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定されるタイル単位の画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。

（動画再生端末の処理の説明）
図１４は、動画再生端末１４のストリーミング再生部９０（図１３）のストリーミング再生処理を説明するフローチャートである。

図１４のステップＳ３１において、ストリーミング再生部９０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

ステップＳ３２において、MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述される画枠サイズ情報とタイル位置情報を取得する。MPD処理部９２は、画枠サイズ情報を音声選択部９４に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部９２は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ３３において、メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

ステップＳ３４において、音声選択部９４は、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。音声選択部９４は、MPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

ステップＳ３５において、音声ファイル取得部９５は、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ３６において、画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるオブジェクトの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。画像選択部９８は、MPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

ステップＳ３７において、画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたタイルの画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

ステップＳ３８において、音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

ステップＳ３９において、画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

ステップＳ４０において、音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。ステップＳ４１において、画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。そして、処理は終了する。

以上のように、Webサーバ１２は画枠サイズ情報とオブジェクト位置情報を伝送する。従って、動画再生端末１４は、例えば、表示領域内のオブジェクトを特定し、そのオブジェクトの音声ファイルを、表示領域内の画像に対応する音声ファイルとして選択的に取得することができる。このように、動画再生端末１４は必要な音声ファイルのみを取得することができるので、伝送効率は向上する。

なお、図１５に示すように、MPDファイルの画像用の「AdaptationSet」には、その画像と同時に再生したい音声に対応するオブジェクトを特定する情報としてのオブジェクトＩＤ（オブジェクト特定情報）が、記述されるようにしてもよい。この記述は、例えば、ViewpointのDescriptorType elementを活用して新たにオブジェクトＩＤ情報（audioObj）を定義するためのScheme(urn:mpeg:DASH:audioObj:2013)を拡張することにより、行われる。この場合、動画再生端末１４は、画像用の「AdaptationSet」に記述されたオブジェクトＩＤに対応するオブジェクトの音声ファイルを選択し、取得して再生する。

また、オブジェクト単位で音声ファイルが生成されるのではなく、全てのオブジェクトの符号化データが１本のオーディオストリームに多重化され、１つの音声ファイルが生成されるようにしてもよい。

この場合、図１６に示すように、MPDファイルの音声用の「AdaptationSet」には、音声ファイル用の「Representation」が１つ設けられ、「Segment」に、全てのオブジェクトの符号化データを含む音声ファイル（audioObje.mp4）のURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応する全てのオブジェクトのオブジェクトＩＤ(1,2,3,4,5)も記述される。

また、この場合、図１７に示すように、MPDファイルの「Media Segment」を参照して取得される音声ファイル（以下、適宜、音声メディアファイルともいう）のmdat boxには、サブサンプルとして、各オブジェクトの符号化データ（Audio object）が配置される。

具体的には、音声メディアファイルには、セグメントより短い任意の時間であるサブセグメント単位でデータが配置される。このサブセグメント単位のデータの位置は、sidx boxにより指定される。また、サブセグメント単位のデータは、moof boxとmdat boxにより構成される。mdat boxは、複数のサンプルにより構成されるが、そのサンプルの各サブサンプルとして、各オブジェクトの符号化データが配置される。

また、音声メディアファイルのsidx boxの後には、サンプルの情報を記述するgsix boxが配置される。このように、サンプルの情報を記述するgsix boxが、moof boxとは別に設けられるので、動画再生端末１４は、サンプルの情報を素早く取得することができる。

gsix boxには、図１８に示すように、このgsix boxで管理する１以上のサンプルまたはサブサンプルからなるSample group entryの種別を表すgrouping_typeが記述される。例えば、Sample group entryが、オブジェクト単位の符号化データのサブサンプルである場合、図１７に示すように、Sample group entryの種別は「obja」である。音声メディアファイルには、複数のgrouping_typeのgsix boxが配置される。

また、図１８に示すように、gsix boxには、各Sample group entryのインデックス（entry_index）と、音声メディアファイル内の位置を表すデータ位置情報としてのバイトレンジ（range_size）とが記述される。なお、インデックス（entry_index）が０である場合、対応するバイトレンジは、moof boxのバイトレンジ（図１７の例ではa1）を表している。

MPDファイルの「Initialization Segment」を参照して取得される音声ファイル（以下、適宜、音声初期化ファイルともいう）には、各Sample group entryが、どのオブジェクトの符号化データのサブサンプルであるかを表す情報が記述される。

具体的には、図１９に示すように、音声初期化ファイルのsbtl boxのsample group description box(sgpd)のAudioObjectSampleGroupEntryと対応付けられる、mvex boxのtype assignment box（typa）を用いて、その情報が表される。

即ち、図２０のＡに示すように、AudioObjectSampleGroupEntryには、サンプルに含まれる符号化データに対応するオブジェクトＩＤ（audio_object_id）が１つずつ記述される。例えば、図２０のＢに示すように、４つのAudioObjectSampleGroupEntryのそれぞれに、オブジェクトＩＤとして、1,2,3,4が記述される。

一方、図２１に示すように、type assignment boxには、AudioObjectSampleGroupEntryごとに、そのAudioObjectSampleGroupEntryに対応するSample group entryのパラメータ（grouping_type_parameter）として、インデックスが記述される。

以上のように音声メディアファイルと音声初期化ファイルが構成される。従って、動画再生端末１４が、表示領域内のオブジェクトとして選択されたオブジェクトの符号化データを取得する際、音声初期化ファイルのstbl boxから、選択されたオブジェクトのオブジェクトＩＤが記述されたAudioObjectSampleGroupEntryが検索される。そして、mvex boxから、検索されたAudioObjectSampleGroupEntryに対応するSample group entryのインデックスが読み出される。そして、音声ファイルのsidxからサブセグメント単位のデータの位置が読み出され、gsixから、読み出されたインデックスのSample group entryのバイトレンジが読み出される。そして、サブセグメント単位のデータの位置とバイトレンジとに基づいて、mdat内に配置されている符号化データが取得される。これにより、選択されたオブジェクトの符号化データが取得される。

なお、上述した説明では、Sample group entryのインデックスとAudioObjectSampleGroupEntryのオブジェクトＩＤが、mvex boxを介して対応付けられたが、直接対応付けられるようにしてもよい。この場合、Sample group entryのインデックスが、AudioObjectSampleGroupEntryに記述される。

また、音声ファイルが複数のtrackから構成される場合、sgpdをmvexに格納すると、track間でsgpdを共用できる。

＜第２実施の形態＞
（第２実施の形態の概要）
図２２は、本開示を適用した情報処理システムの第２実施の形態の概要を説明する図である。

なお、図２２において、図３と同一のものには、同一の符号を付してある。

図２２の例では、図３の場合と同様に、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されており、動画コンテンツの音声として、オブジェクト＃１乃至＃８の音声が取得されている。

この場合に、ユーザにより、２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、第２実施の形態では、図２２に示すように、その表示領域３１が、動画コンテンツの画像のサイズと同一のサイズに変換(拡大)され、表示画像１１１とされる。そして、表示画像１１１におけるオブジェクト＃１乃至＃８の位置に基づいて、オブジェクト＃１乃至＃８の音声が合成され、表示画像１１１とともに出力される。即ち、表示領域３１内のオブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６だけでなく、表示領域３１外のオブジェクト＃３乃至＃５、オブジェクト＃７、およびオブジェクト＃８の音声も出力される。

（ストリーミング再生部の構成例）
本開示を適用した情報処理システムの第２実施の形態の構成は、ストリーミング再生部の構成を除いて、図１の情報処理システム１０の構成と同一であるので、以下では、ストリーミング再生部についてのみ説明する。

図２３は、本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。

図２３に示す構成のうち、図１３の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図２３のストリーミング再生部１２０の構成は、MPD処理部９２、音声合成処理部９７、画像合成処理部１０１の代わりに、MPD処理部１２１、音声合成処理部１２３、画像合成処理部１２４が設けられる点、および、位置決定部１２２が新たに設けられる点が図１３のストリーミング再生部９０の構成と異なる。

ストリーミング再生部１２０のMPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述される動画コンテンツの画像の画枠サイズ情報（以下、コンテンツ画枠サイズ情報という）を抽出し、位置決定部１２２に供給する。MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部１２１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

位置決定部１２２は、メタファイル取得部９３により取得された音声メタファイルに含まれるオブジェクト位置情報と、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報を取得する。また、位置決定部１２２は、ユーザにより指定される表示領域の画枠サイズ情報である表示領域画枠サイズ情報を取得する。位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定（認識）する。位置決定部１２２は、決定されたオブジェクトの位置を音声合成処理部１２３に供給する。

音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成する。具体的には、音声合成処理部１２３は、オブジェクトの位置と音声を出力する各スピーカの位置とに基づいて、オブジェクトごとに、各スピーカに割り当てる音声データを決定する。そして、音声合成処理部１２３は、スピーカごとに、各オブジェクトの音声データを合成し、各スピーカの音声データとして出力する。オブジェクトの位置に基づいて各オブジェクトの音声データを合成する方法の詳細は、例えば、Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997に記載されている。

画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。画像合成処理部１２４は、変換部として機能し、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換して、表示画像を生成する。画像合成処理部１２４は、表示画像を出力する。

（オブジェクトの位置の決定方法の説明）
図２４乃至図２６は、図２３の位置決定部１２２によるオブジェクトの位置の決定方法を説明する図である。

表示画像１１１は、動画コンテンツ内の表示領域３１を抽出し、その表示領域３１のサイズを動画コンテンツのサイズに変換することにより生成される。従って、表示画像１１１は、図２４に示すように、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後、図２５に示すように、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。

よって、まず、位置決定部１２２は、以下の式（１）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させるときの水平方向の移動量θ_shiftを算出する。

式（１）において、θ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの左端の水平角度であり、θ_V2´は、右端の水平角度である。また、θ_v1は、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θ_v2は、右端の水平角度である。

次に、位置決定部１２２は、移動量θ_shiftを用いて、以下の式（２）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後の表示領域３１の左端の水平角度θ_{v1_shift}´と右端の水平角度θ_{v2_shift}´を求める。

式（２）によれば、水平角度θ_{v1_shift}´と水平角度θ_{v2_shift}´は、-180°から180°までの範囲を超えないように求められる。

なお、上述したように、表示画像１１１は、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。従って、水平角度θ_V1およびθ_V2については、以下の式（３）が成立する。

位置決定部１２２は、以上のようにして移動量θ_shift、水平角度θ_{v1_shift}´、および水平角度θ_{v2_shift}´を求めた後、表示画像１１１におけるオブジェクトの水平角度を求める。具体的には、位置決定部１２２は、以下の式（４）により、移動量θ_shiftを用いて、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後のオブジェクト＃ｉの水平角度θ_{Ai_shift}を求める。

式（４）において、θ_Aiは、オブジェクト＃ｉのオブジェクト位置情報のうちの水平角度である。また、式（４）によれば、水平角度θ_{Ai_shift}は、-180°から180°までの範囲を超えないように求められる。

次に、オブジェクト＃ｉが表示領域３１内に存在する場合、即ちθ_{v2_shif}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、位置決定部１２２は、以下の式（５）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_Ai´を求める。

式（５）によれば、表示領域３１のサイズと表示画像１１１のサイズの比に応じて、表示画像１１１におけるオブジェクト＃ｉの位置と表示画像１１１の中心C´との距離を拡大することにより、水平角度θ_Ai´が求められる。

一方、オブジェクト＃ｉが表示領域３１内に存在しない場合、即ち、-180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、位置決定部１２２は、以下の式（６）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_Ai´を求める。

式（６）によれば、図２６に示すように、オブジェクト＃ｉが表示領域３１の右側の位置１５１に存在する（-180°≦θ_{Ai_shift}≦θ_{v2_shift}´）場合、角度Ｒ１と角度Ｒ２の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ１は、表示画像１１１の右端から視聴者１５３の真後ろの位置１５４までの角度であり、角度Ｒ２は、中心の移動後の表示領域３１の右端から位置１５４までの角度である。

また、式（６）によれば、オブジェクト＃ｉが表示領域３１の左側の位置１５５に存在する（θ_{v1_shift}´≦θ_{Ai_shift}≦180°）場合、角度Ｒ３と角度Ｒ４の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ３は、表示画像１１１の左端から位置１５４までの角度であり、角度Ｒ４は、中心の移動後の表示領域３１の左端から位置１５４までの角度である。

また、位置決定部１２２は、水平角度θ_Aiと水平角度θ_Ai´に基づいて、表示画像１１１におけるオブジェクト＃ｉの垂直角度γ_Ai´を求める。具体的には、オブジェクト＃ｉが視聴者の前方にある場合、位置決定部１２２は、垂直角度γ_Ai´を水平角度θ_Ai´と同様に求める。

一方、オブジェクト＃ｉが視聴者の後方にある場合、表示領域３１が拡大されると、水平角度θ_Aiが表すオブジェクト＃ｉの位置は視聴者の真後ろの方向に移動する。従って、垂直角度γ_Ai´が水平角度θ_Ai´と同様に求められると、オブジェクト＃ｉのオブジェクト位置情報のうちの垂直角度γ_Aiが表す位置は、視聴者の真上か真下の方向に移動する。しかしながら、オブジェクト＃ｉが視聴者の後方にある場合、オブジェクト＃ｉが水平角度θ_Aiの変更によって視聴者の前方に移動した場合を除いて、表示領域３１が拡大または縮小しても垂直角度γ_Ai´は変化させない、または、水平角度θ_Aiの変化方向と同一の方向に変化させることが望ましい。

よって、水平角度θ_Aiが表すオブジェクト＃ｉの位置と、水平角度θ_Ai´が表すオブジェクト＃ｉの位置が、両方とも視聴者の前方である場合、即ちabs(θ_Ai)＜90°かつabs(θ_Ai´)＜90°である場合、位置決定部１２２は、以下の式（７）により垂直角度γ_Ai´を求める。

式（７）において、γ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの上端の垂直角度であり、γ_V2´は、下端の垂直角度である。また、γ_v1は、コンテンツ画枠サイズ情報のうちの上端の垂直角度であり、γ_v2は、下端の垂直角度である。

また、水平角度θ_Aiが表すオブジェクト＃ｉの位置と、水平角度θ_Ai´が表すオブジェクト＃ｉの位置が、両方とも視聴者の後方である場合、即ちabs(θ_Ai)≧90°かつabs(θ_Ai´≧90°である場合、位置決定部１２２は、以下の式（８）により垂直角度γ_Ai´を求める。即ち、垂直角度γ_Aiがそのまま垂直角度γ_Ai´にされる。

さらに、水平角度θ_Aiが表すオブジェクト＃ｉの位置と水平角度θ_Ai´が表すオブジェクト＃ｉの位置のいずれか一方が視聴者の前方であり、他方が後方である場合、即ちabs(θ_Ai)＜90°かつabs(θ_Ai´)≧90°、または、abs(θ_Ai)≧90°かつabs(θ_Ai´)＜90°である場合、位置決定部１２２は、以下のようにして垂直角度γ_Ai´を求める。

即ち、この場合、オブジェクト＃ｉは視聴者の前方から後方へ、または後方から前方へ移動するため、単純にオブジェクト＃ｉが視聴者の前方または後方に位置すると決め付けることはできない。従って、この場合、オブジェクト＃ｉの水平角度が、視聴者の前方のオブジェクト＃ｉの位置を表す角度と、視聴者の左側を表す角度である90°または右側を表す角度である-90°との間を移動する段階と、90°または-90°と視聴者の後方のオブジェクト＃ｉの位置を表す角度との間を移動する段階に分けて考える必要がある。

具体的には、位置決定部１２２は、オブジェクト＃ｉの水平角度が、90°または-90°と視聴者の後方のオブジェクト＃ｉの位置を表す角度との間を移動する段階の垂直角度γ_Aiの移動量を０に決定する。そして、位置決定部１２２は、オブジェクト＃ｉの水平角度が、視聴者の前方のオブジェクト＃ｉの位置を表す角度と、視聴者の左側を表す角度である90°または右側を表す角度である-90°との間を移動する段階の垂直角度γ_Aiの移動量を、式（７）と同様に求める。但し、式（９）に示すように、式（７）の垂直角度γ_V2´,γ_V2,γ_V1´,γ_V1は、式(10)で定義される垂直角度γ_V2f´,γ_V2f,γ_V1f´,γ_V1fに置換される。

式（１０）におけるF_sideは、オブジェクト＃ｉの水平角度が90°または-90°である場合の表示領域３１の垂直角度と表示画像１１１の垂直角度との比を表すものであり、以下の式（１１）により求められる。

式（１１）に示すように、F_sideは、オブジェクト＃ｉの水平角度が90°または-90°である場合の表示領域３１の水平角度と表示画像１１１の水平角度の比にTransForm_Factorを乗じることで求められる。

式（１１）におけるTransForm_Factorは、垂直角度γ_v1、γ_v2と水平角度θ_v1、θ_v2の比を表すファクタであり、以下の式（１２）で表される。このファクタTransForm_Factorを用いて、水平角度の変化量に対応する垂直角度の変化量を推定することができる。

以上のように、オブジェクト＃ｉが視聴者の前方から後方へ移動する場合、即ちabs(θ_Ai)＜90°かつabs(θ_Ai´)≧90°である場合、オブジェクト＃ｉの垂直角度の変化量は、オブジェクト＃ｉの水平角度が水平角度θ_Aiから90°または-90°まで移動する場合の変化量となる。従って、式（７）のγ_V1´とγ_V2´は、abs(θ_Ai´)＝90°である場合の画枠サイズ、即ち、F_sideと垂直角度γ_v1とγ_v2の積となる。

また、オブジェクト＃ｉが視聴者の後方から前方へ移動する場合、即ちabs(θ_Ai)≧90°かつabs(θ_Ai´)＜90°である場合、オブジェクト＃ｉの垂直角度の変化量は、オブジェクト＃ｉの水平角度が90°または-90°から水平角度θ_Ai´まで移動する場合の変化量となる。従って、式（７）のγ_v1とγ_v2は、Fsideと垂直角度γ_v1とγ_v2の積となる。

ここでは、オブジェクト＃ｉが視聴者の後方にある場合の垂直角度は変化しないものするが、垂直角度は、水平角度と同じ方向に変化してもよい。即ち、水平角度が表す位置が視聴者の真後ろの方向に移動する場合には、垂直角度が表す位置も視聴者の真後ろの方向に移動し、水平角度が表す位置が視聴者の真正面の方向に移動する場合には、垂直角度が表す位置も視聴者の真正面の方向に移動するようにしてもよい。

また、位置決定部１２２は、表示画像１１１におけるオブジェクト＃ｉの距離ｒ_Ai´を、オブジェクト＃ｉのオブジェクト位置情報のうちの距離ｒ_Aiに決定する。位置決定部１２２は、以上のようにして求められるオブジェクト＃ｉの水平角度θ_Ai´、垂直角度γ_Ai´、および距離ｒ_Aiを、オブジェクト＃iの位置として、音声合成処理部１２３に供給する。

図２７は、水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。

図２７のグラフにおいて、横軸は、水平角度θ_Aiを表し、縦軸は、水平角度θ_Ai´を表す。

図２７に示すように、θ_V2´＜θ_Ai＜θ_V1´である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、拡大されることにより、水平角度θ_Ai´になる。また、-180°≦θ_Ai≦θ_v2´、または、θ_v1´≦θ_Ai≦180°である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、縮小されることにより、水平角度θ_Ai´になる。

図２８は、垂直角度γ_v1´と垂直角度γ_Ai´の関係を表す図である。

図２８のグラフにおいて、横軸は、垂直角度γ_v1´を表し、縦軸は、垂直角度γ_Ai´を表す。

図２８の例では、水平角度θ_Aiと垂直角度γ_Aiが45°である。また、垂直角度γ_v1,γ_v2は、水平角度θ_v1,θ_v2と同一の比率で変化する。即ち、TransForm_Factor＝１である。また、θ_v1＝29°、θ_v2＝-29°、γ_v1＝17.5°、γ_v2＝-17.5である。

この場合、図２８に示すように、0°＜γ_v1´＜（F_side*γ_v1）である場合、垂直角度γ_Ai´は、表示画像１１１の垂直方向の画枠サイズが大きいほど、大きくなる。また、（F_side*γ_v1）≦γ_v1´≦90°である場合、垂直角度γ_Ai´は、表示画像１１１の垂直方向の画枠サイズの大きさによらず、γ_v1´＝（F_side*γ_v1）のとき、即ちオブジェクト＃ｉの水平角度θ_Ai´が90°のときの垂直角度γ_Ai´のままになる。

（ストリーミング再生部の処理の説明）
図２９は、図２３のストリーミング再生部１２０のストリーミング再生処理を説明するフローチャートである。

図２９のステップＳ１３１において、ストリーミング再生部１２０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部１２１に供給する。

ステップＳ１３２において、MPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述されるコンテンツ画枠サイズ情報とタイル位置情報を取得する。MPD処理部１２１は、画枠サイズ情報を位置決定部１２２に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部１２１は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ１３３において、メタファイル取得部９３は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を位置決定部１２２に供給する。

ステップＳ１３４において、位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定する位置決定処理を行う。この位置決定処理の詳細は、後述する図３０を参照して説明する。

ステップＳ１３５において、MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

ステップＳ１３６において、音声ファイル取得部９５は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される全てのオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ１３７乃至Ｓ１４０の処理は、図１４のステップＳ３６乃至Ｓ３９の処理と同様であるので、説明は省略する。

ステップＳ１４１において、音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

ステップＳ１４２において、画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。

ステップＳ１４３において、画像合成処理部１２４は、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換し、表示画像を生成する。そして、画像合成処理部１２４は、表示画像を出力し、処理を終了する。

図３０は、図２９のステップＳ１３４の位置決定処理の詳細を説明するフローチャートである。この位置決定処理は、例えば、オブジェクトごとに行われる。

図３０のステップＳ１５１において、位置決定部１２２は、表示画像における水平角度θ_Ai´を推定する水平角度θ_Ai´推定処理を行う。この水平角度θ_Ai´推定処理の詳細は、後述する図３１を参照して説明する。

ステップＳ１５２において、位置決定部１２２は、表示画像における垂直角度γ_Ai´を推定する垂直角度γ_Ai´推定処理を行う。この垂直角度γ_Ai´推定処理の詳細は、水平方向が垂直方向に代わる点を除いて、ステップＳ１５１の水平角度θ_Ai´推定処理と同様であるので、詳細な説明は省略する。

ステップＳ１５３において、位置決定部１２２は、表示画像における距離ｒ_Ai´を、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの距離ｒ_Aiに決定する。

ステップＳ１５４において、位置決定部１２２は、水平角度θ_Ai´、垂直角度γ_Ai´、および距離ｒ_Aiを、オブジェクト＃ｉの位置として音声合成処理部１２３に出力する。そして、処理は、図２９のステップＳ１３４に戻り、ステップＳ１３５に進む。

図３１は、図３０のステップＳ１５１の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。

図３１のステップＳ１７１において、位置決定部１２２は、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの水平角度θ_Aiを取得する。

ステップＳ１７２において、位置決定部１２２は、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報と、ユーザにより指定される表示領域画枠サイズ情報を取得する。

ステップS１７３において、位置決定部１２２は、コンテンツ画枠サイズ情報と表示領域画枠サイズ情報に基づいて、上述した式（１）により、移動量θ_shiftを算出する。

ステップS１７４において、位置決定部１２２は、移動量θ_shiftと表示領域画枠サイズを用いて、上述した式（２）により、水平角度θ_{v1_shift}´およびθ_{v2_shift}´を算出する。

ステップＳ１７５において、位置決定部１２２は、水平角度θ_Aiと移動量θ_shiftを用いて、上述した式（４）により、水平角度θ_{Ai_shift}を求める。

ステップＳ１７６において、位置決定部１２２は、オブジェクト＃ｉが表示領域３１内に存在する（オブジェクト＃ｉの水平角度が表示領域３１の両端の水平角度の間である）かどうか、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´であるかどうかを判定する。

ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在すると判定された場合、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、処理はステップＳ１７７に進む。ステップＳ１７７において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´およびθ_{v2_shift}´、並びに水平角度θ_{Ai_shift}に基づいて、上述した式（５）により水平角度θ_Ai´を算出する。

一方、ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在しないと判定された場合、即ち、-180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、処理はステップＳ１７８に進む。ステップＳ１７８において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´またはθ_{v2_shift}´、および水平角度θ_{Ai_shift}に基づいて、上述した式（６）により水平角度θ_Ai´を算出する。

ステップＳ１７７またはステップＳ１７８の処理後、処理は、図３０のステップＳ１５１に戻り、処理はステップＳ１５２に進む。

なお、第２実施の形態では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。

また、第２実施の形態において、全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。

＜第３実施の形態＞
（表示画像におけるオブジェクトの位置の決定方法の説明）
本開示を適用した情報処理システムの第３実施の形態は、図２３の位置決定部１２２による表示画像におけるオブジェクトの位置の決定方法を除いて、第２実施の形態と同一であるため、以下では、図２３の位置決定部１２２による表示画像におけるオブジェクトの位置の決定方法についてのみ説明する。

視聴者が動画コンテンツを試聴する場合、視聴者から画枠への距離が変化すると、視聴者から見る画枠の角度もそれに応じて変化する。例えば、視聴者が画枠に近づくと、画枠は大きく見えるようになり、画枠から遠くなると、画枠は小さく見えるようになる。従って、表示領域や画枠サイズの変化は、視聴者の移動によって表現することができる。そこで、第３実施の形態では、視聴者の移動によって表示領域のサイズ変更が表現される。

図３２乃至図３５は、本開示を適用した情報処理システムの第３実施の形態における表示画像におけるオブジェクトの位置の決定方法を説明する図である。

図３２と図３３は、動画コンテンツ内の表示領域３１のサイズを変更する前の状態を説明する図である。図３２は、視聴者の頭頂部から見た上面図であり、図３２は視聴者の右側から見た側面図である。

図３４と図３５は、視聴者が移動し、視聴者の移動によって視聴者から見る表示領域３１のサイズが動画コンテンツのサイズと同じサイズになった場合の状態を説明する図である。図３４は視聴者の頭頂部から見た上面図であり、図３５は視聴者の右側から見た側面図である。

図３２乃至図３５に示すように、表示領域３１の内部にあるオブジェクト＃１、並びに、表示領域３１の外部にあるオブジェクト＃２およびオブジェクト＃３と、視聴者との相対的位置関係は、視聴者の移動によって変化する。よって、位置決定部１２２は、表示領域３１のサイズを動画コンテンツのサイズに変更した場合のオブジェクト位置情報、即ち表示画像におけるオブジェクト位置情報を、視聴者の移動によって変更されたオブジェクトのオブジェクト位置情報を求めることで推定する。

具体的には、まず、位置決定部１２２は、式（１３）により、移動前の表示領域３１の横幅Screen_Width、左端から中央までの幅Screen_LeftWidth、および上端から中央までの高さScreen_TopHeightを求める。

式（１３）において、ｒ_vは、視聴者から画枠までの距離であり、θ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの左端の水平角度であり、θ_V2´は、右端の水平角度であり、γ_v1´は、上端の垂直角度である。

次に、位置決定部１２２は、式（１４）により、視聴者の移動によって視聴者から見る表示領域３１のサイズが動画コンテンツのサイズと同じサイズになった場合の、視聴者から画枠までの距離ｒ_v´を推定する。

式（１４）において、θ_v1は、移動後の表示領域３１の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θ_v2は、右端の水平角度である。

次に、位置決定部１２２は、式（１５）により、視聴者の移動によって視聴者から見る表示領域３１のサイズが動画コンテンツのサイズと同じサイズになった場合の、視聴者の前後方向の移動量Length_shift、左右方向の移動量Width_shif、および上下方向の移動量Height_shiftを推定する。

式（１５）において、γ_v1は、移動後の表示領域３１の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの上端の垂直角度である。また、F_{Aspect_ratio}は、移動前と移動後の視聴者から見る表示領域３１の垂直方向の幅と水平方向の幅との比の変化量を表すファクタであり、以下の式（１６）で表される。このファクタF_{Aspect_ratio}を用いて、水平方向の幅の変化量に対応する垂直方向の幅の変化量を推定することができる。

式（１６）において、γ_v2は、移動後の表示領域３１の表示領域画枠サイズ情報、即ち、コンテンツ画枠サイズ情報のうちの下端の垂直角度である。γ_v２´は、表示領域３１の表示領域画枠サイズ情報のうちの下端の垂直角度である。

最後に、以上により求められた情報を用いて、位置決定部１２２は、表示画像におけるオブジェクトのオブジェクト位置情報を推定する。

具体的には、オブジェクトが表示領域３１上に存在する場合、即ち、θ_v2´≦θ_Ai≦θ_v1´かつγ_v2´≦γ_Ai≦γ_v1´である場合（図３２乃至図３５の例では、オブジェクト＃１である場合）、位置決定部１２２は、以下の式（１７）により、表示画像におけるオブジェクト位置情報を推定する。

式（１７）において、θ_Ai´は、移動後のオブジェクト＃ｉの水平角度であり、θ_Aiは、移動前のオブジェクト＃ｉの水平角度である。γ_A1´は、移動後のオブジェクト＃ｉの垂直角度であり、垂直角度γ_Aiは、移動前のオブジェクト＃ｉの水平角度である。ｒ_Ai´は、移動後のオブジェクト＃ｉの距離であり、ｒ_Aiは、移動前のオブジェクト＃ｉの距離である。

一方、オブジェクトが表示領域３１上に存在しない場合、即ち、θ_v2´≦θ_Ai≦θ_v1´かつγ_v2´≦γ_Ai≦γ_v1´ではない場合（図３２乃至図３５の例では、オブジェクト＃２とオブジェクト＃３である場合）、位置決定部１２２は、以下の式（１８）により、表示画像におけるオブジェクト位置情報を推定する。

なお、式（１８）は、以下の式（１９）のように変形してもよい。

式（１９）において、x_Ai´、y_v1´、z_Ai´は、それぞれ、移動後のオブジェクト＃ｉのxyz座標系における前後方向（奥行き方向）の位置、左右方向の位置、上下方向の位置である。式（１９）は、式（１８）の変形で得られたものであり、式（１８）と式（１９）は、等価である。

ここでは、視聴者から画枠までの距離ｒ_vと移動前のオブジェクト＃ｉの距離ｒ_Aiを用いて、移動後のオブジェクト位置情報を推定したが、ｒ_vとｒ_Aiのいずれかが与えられていない場合は、ｒ_v＝ｒ_Aiと仮定しても良い。さらに、両方が与えられていない場合は、ｒ_v＝ｒ_Ai＝１と仮定しても良い。

なお、ｒ_vとｒ_Aiの少なくとも一方が与えられていない場合には、視聴者の前後方向の移動量がｒ_vを超えないようにするために、式（１４）で求められたｒ_v´が2*ｒ_vを超えないという制限を設けても良い。即ち、式（１４）で求められたｒ_v´を用いて、ｒ_v´=min（2*ｒ_v,ｒ_v´）という式により、最終的なｒ_v´を求めるようにしてもよい。

（ストリーミング再生部の処理の説明）
本開示を適用した情報処理システムの第３実施の形態のストリーミング再生部によるストリーミング再生処理は、ステップＳ１３４の位置決定処理を除いて図２９のストリーミング再生処理と同一であるため、以下では、位置決定処理についてのみ説明する。

図３６は、本開示を適用した情報処理システムの第３実施の形態における位置決定処理の詳細を説明するフローチャートである。

図３６のステップＳ１８１において、位置決定部１２２は、移動前の表示領域３１の表示領域画枠サイズ情報とコンテンツ画枠サイズ情報を取得する。具体的には、位置決定部１２２は、移動前の表示領域３１の画枠の左端の水平角度θ_v1´および右端の水平角度θ_v2´_、並びに、上端の垂直角度γ_v1´および下端の垂直角度γ_v2´を取得する。また、位置決定部１２２は、動画コンテンツの画枠の左端の水平角度θ_v1および右端の水平角度θ_v2、上端の垂直角度γ_v1および下端の垂直角度γ_v2´、並びに距離ｒ_vを取得する。

ステップＳ１８２において、位置決定部１２２は、水平角度θ_v1´およびθ_V2´、垂直角度γ_v1´、並びに距離ｒ_vを用いて、上述した式（１３）により、横幅Screen_Width、幅Screen_LeftWidth、および高さScreen_TopHeightを求める。

ステップＳ１８３において、位置決定部１２２は、横幅Screen_Width並びに水平角度θ_v1およびθ_v2を用いて、上述した式（１４）により、移動後の距離ｒ_v´を推定する。

ステップＳ１８４において、位置決定部１２２は、幅Screen_LeftWidth、高さScreen_TopHeigh、距離ｒ_vおよびｒ_v´、水平角度θ_v1,θ_v２,θ_v1´、およびθ_v２´、並びに垂直角度γ_v1,γ_v2,γ_v1´、およびγ_v2´を用いて、上述した式（１５）および（１６）により、視聴者の移動量Length_shift,Width_shift、およびHeight_shiftを推定する。

ステップＳ１８５において、位置決定部１２２は、再生対象の最初のオブジェクト＃ｉを選択する。

ステップＳ１８６において、位置決定部１２２は、選択されたオブジェクト＃ｉの移動前のオブジェクト位置情報である水平角度θ_Ai、垂直角度γ_Ai、および距離ｒ_Aiを取得する。

ステップＳ１８７において、位置決定部１２２は、オブジェクト＃ｉが表示領域３１上に存在するかどうか、即ちθ_v2´≦θ_Ai≦θ_v1´かつγ_v2´≦γ_Ai≦γ_v1´であるかどうかを判定する。

ステップＳ１８７でオブジェクト＃ｉが表示領域３１上に存在すると判定された場合、即ちθ_v2´≦θ_Ai≦θ_v1´かつγ_v2´≦γ_Ai≦γ_v1´である場合、処理はステップＳ１８８に進む。

ステップＳ１８８において、位置決定部１２２は、移動量Width_shifおよびHeight_shift、距離ｒ_vおよびｒ_v´、水平角度θ_Aiおよびθ_Ai´、並びに垂直角度γ_Aiおよびγ_Ai´を用いて、上述した式（１７）により、表示画像におけるオブジェクト＃ｉのオブジェクト位置情報を推定する。そして、処理はステップＳ１９０に進む。

一方、ステップＳ１８７でオブジェクト＃ｉが表示領域３１上に存在しないと判定された場合、即ち、θ_v2´≦θ_Ai≦θ_v1´かつγ_v2´≦γ_Ai≦γ_v1´ではない場合、処理はステップＳ１８９に進む。

ステップＳ１８９において、位置決定部１２２は、移動量Length_shift,Width_shift、およびHeight_shift、距離ｒ_Ai、水平角度θ_Aiおよびθ_Ai´、並びに垂直角度γ_Aiおよびγ_Ai´を用いて、上述した式（１８）により、表示画像におけるオブジェクト＃ｉのオブジェクト位置情報を推定する。そして、処理はステップＳ１９０に進む。

ステップＳ１９０において、位置決定部１２２は、再生対象のすべてのオブジェクトのオブジェクト位置情報が推定されたかどうかを判定する。ステップS１９０ですべてのオブジェクトのオブジェクト位置情報が推定されていないと判定された場合、処理はステップＳ１９１に進む。

ステップＳ１９１において、位置決定部１２２は、再生対象のオブジェクトのうちの、現在選択されているオブジェクトの次のオブジェクトを選択し、処理をステップS１８６に戻す。

一方、ステップＳ１９０ですべてのオブジェクトのオブジェクト位置情報が推定されたと判定された場合、処理は、Ｓ１９２に進む。

ステップＳ１９２において、位置決定部１２２は、表示画像における再生対象のすべてのオブジェクトのオブジェクト位置情報を音声合成処理部１２３に出力する。ステップＳ１９２の処理後、処理は、図２９のステップＳ１３４に戻り、ステップＳ１３５に進む。

なお、第３実施の形態では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。

また、第３実施の形態において、再生対象の全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。

＜第４実施の形態＞
（本開示を適用したコンピュータの説明）
上述したWebサーバ１２の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図３７は、上述したWebサーバ１２の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、動画再生端末１４のハードウエア構成は、図３７のコンピュータと同様の構成にすることができる。この場合、例えば、CPU２０１が、制御用ソフトウエア２１、動画再生ソフトウエア２２、およびアクセス用ソフトウエア２３を実行する。動画再生端末１４の処理は、ハードウエアにより実行することもできる。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、ファイル生成装置１１は、タイル単位で画像ファイルを生成するのではなく、全てのタイルの符号化データを多重化してビデオストリームを生成し、１つの画像ファイルを生成するようにしてもよい。

また、表示領域３１に対応する音声は、表示領域３１内のオブジェクトの音声だけでなく、表示領域３１外の固定されたオブジェクトの音声も含むようにしてもよい。

さらに、音声データには、オブジェクト単位の音声データのほか、チャネルオーディオの音声データ、HOA（Higher−Order Ambisonics）オーディオの音声データ、SAOC(Spatial Audio Object Coding)の音声データ、音声データのメタデータ(scene情報、動的・静的metadata)などが含まれるようにしてもよい。この場合、例えば、サブサンプルとして、各オブジェクトの符号化データだけでなく、これらのデータの符号化データも配置される。

さらに、本開示は、以下のような構成もとることができる。

（１）
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部
を備える情報処理装置。
（２）
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記（１）に記載の情報処理装置。
（３）
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
前記（１）または（２）に記載の情報処理装置。
（４）
前記音声位置情報を含む前記音声データのメタデータファイルを生成するメタファイル生成部と、
前記画枠サイズ情報と前記メタデータファイルを特定する情報を制御情報として生成する情報生成部と、
をさらに備え、
前記伝送部は、前記情報生成部により生成された前記制御情報と前記メタファイル生成部により生成された前記メタデータファイルを伝送する
ように構成された
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記伝送部は、前記画枠サイズ情報と前記音声位置情報に基づいて要求される、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記音声データを伝送する
ように構成された
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記音声データは、オブジェクト単位の音声データであり、
前記伝送部は、前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
前記（５）に記載の情報処理装置。
（７）
複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、前記音声ファイル生成部により生成された前記音声ファイル内の前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
前記（６）に記載の情報処理装置。
（８）
複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、各オブジェクトの前記音声ファイルを特定するファイル特定情報を伝送し、前記画枠サイズ情報、前記音声位置情報、および前記ファイル特定情報に基づいて要求される前記表示領域に対応する前記オブジェクトの音声データを含む前記音声ファイルを伝送する
ように構成された
前記（６）に記載の情報処理装置。
（９）
情報処理装置が、
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送ステップ
を含む情報処理方法。
（１０）
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、
前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部と
を備える情報処理装置。
（１１）
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記（１０）に記載の情報処理装置。
（１２）
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
前記（１０）または（１１）に記載の情報処理装置。
（１３）
前記音声データは、オブジェクト単位の音声データであり、
前記位置決定部は、前記画枠サイズ情報と各オブジェクトの前記音声位置情報に基づいて、前記画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
前記（１０）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記オブジェクトの音声データを選択する音声選択部
をさらに備え、
前記受け取り部は、前記音声選択部により選択された前記音声データを受け取る
ように構成された
前記（１３）に記載の情報処理装置。
（１５）
前記受け取り部は、複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイル内の、前記音声選択部により選択された前記オブジェクトの音声データを受け取る
ように構成された
前記（１４）に記載の情報処理装置。
（１６）
前記受け取り部は、複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルのうちの、前記音声選択部により選択された前記オブジェクトの音声データを含む前記音声ファイルを受け取る
ように構成された
前記（１４）に記載の情報処理装置。
（１７）
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、複数の前記オブジェクトの音声データを合成する音声合成処理部
をさらに備える
前記（１３）に記載の情報処理装置。
（１８）
前記画像データに対応する画像のうちの表示する領域である表示領域の画像データのサイズを、前記画像データのサイズに変換する変換部
をさらに備え、
前記位置決定部は、前記画像データの前記画枠サイズ情報、各オブジェクトの前記音声位置情報、および前記表示領域の画枠サイズ情報に基づいて、前記変換部によりサイズが変換された前記表示領域の画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
前記（１７）に記載の情報処理装置。
（１９）
前記表示領域の画枠サイズ情報は、前記表示領域の水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
前記（１８）に記載の情報処理装置。
（２０）
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取りステップと、
前記受け取りステップの処理により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定ステップと
を含む情報処理方法。

１１ファイル生成装置，１２ Webサーバ，１４動画再生端末，５６音声ファイル生成部，５７ MPD生成部，９１ MPD取得部，９４音声選択部，９５音声ファイル取得部，１２２位置決定部，１２３音声合成処理部，１２４画像合成処理部

Claims

画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送部
を備える情報処理装置。
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
請求項１に記載の情報処理装置。
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
請求項１に記載の情報処理装置。
前記音声位置情報を含む前記音声データのメタデータファイルを生成するメタファイル生成部と、
前記画枠サイズ情報と前記メタデータファイルを特定する情報を制御情報として生成する情報生成部と、
をさらに備え、
前記伝送部は、前記情報生成部により生成された前記制御情報と前記メタファイル生成部により生成された前記メタデータファイルを伝送する
ように構成された
請求項１に記載の情報処理装置。
前記伝送部は、前記画枠サイズ情報と前記音声位置情報に基づいて要求される、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記音声データを伝送する
ように構成された
請求項１に記載の情報処理装置。
前記音声データは、オブジェクト単位の音声データであり、
前記伝送部は、前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
請求項５に記載の情報処理装置。
複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、前記音声ファイル生成部により生成された前記音声ファイル内の前記表示領域に対応する前記オブジェクトの音声データを伝送する
ように構成された
請求項６に記載の情報処理装置。
複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルを生成する音声ファイル生成部
をさらに備え、
前記伝送部は、各オブジェクトの前記音声ファイルを特定するファイル特定情報を伝送し、前記画枠サイズ情報、前記音声位置情報、および前記ファイル特定情報に基づいて要求される前記表示領域に対応する前記オブジェクトの音声データを含む前記音声ファイルを伝送する
ように構成された
請求項６に記載の情報処理装置。
情報処理装置が、
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを伝送する伝送ステップ
を含む情報処理方法。
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取り部と、
前記受け取り部により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定部と
を備える情報処理装置。
前記画枠サイズ情報は、前記画像データの水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
請求項１０に記載の情報処理装置。
前記音声位置情報は、前記音声データを取得した位置と基点とを結ぶ線の水平方向および垂直方向の角度、並びに、前記音声データを取得した位置と前記基点との距離を示す情報である
ように構成された
請求項１０に記載の情報処理装置。
前記音声データは、オブジェクト単位の音声データであり、
前記位置決定部は、前記画枠サイズ情報と各オブジェクトの前記音声位置情報に基づいて、前記画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
請求項１０に記載の情報処理装置。
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、前記画像データに対応する画像のうちの表示する領域である表示領域に対応する前記オブジェクトの音声データを選択する音声選択部
をさらに備え、
前記受け取り部は、前記音声選択部により選択された前記音声データを受け取る
ように構成された
請求項１３に記載の情報処理装置。
前記受け取り部は、複数の前記オブジェクトの音声データと、各オブジェクトの前記音声データの音声ファイル内の位置を表すデータ位置情報とを含む前記音声ファイル内の、前記音声選択部により選択された前記オブジェクトの音声データを受け取る
ように構成された
請求項１４に記載の情報処理装置。
前記受け取り部は、複数の前記オブジェクトの音声データのそれぞれを含む音声ファイルのうちの、前記音声選択部により選択された前記オブジェクトの音声データを含む前記音声ファイルを受け取る
ように構成された
請求項１４に記載の情報処理装置。
前記位置決定部により決定された各オブジェクトの前記音声データの取得位置に基づいて、複数の前記オブジェクトの音声データを合成する音声合成処理部
をさらに備える
請求項１３に記載の情報処理装置。
前記画像データに対応する画像のうちの表示する領域である表示領域の画像データのサイズを、前記画像データのサイズに変換する変換部
をさらに備え、
前記位置決定部は、前記画像データの前記画枠サイズ情報、各オブジェクトの前記音声位置情報、および前記表示領域の画枠サイズ情報に基づいて、前記変換部によりサイズが変換された前記表示領域の画像データに対応する画像上の各オブジェクトの前記音声データの取得位置を決定する
ように構成された
請求項１７に記載の情報処理装置。
前記表示領域の画枠サイズ情報は、前記表示領域の水平方向および垂直方向の画角、並びに、前記画角の基点と画像平面との距離を示す情報である
ように構成された
請求項１８に記載の情報処理装置。
画像データの画枠サイズを示す画枠サイズ情報と、音声データの取得位置を示す音声位置情報とを受け取る受け取りステップと、
前記受け取りステップの処理により受け取られた前記画像データの前記画枠サイズ情報と前記音声位置情報に基づいて、前記画像データに対応する画像上の前記音声データの取得位置を決定する位置決定ステップと
を含む情報処理方法。