JPWO2017022467A1

JPWO2017022467A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: JPWO2017022467A1
Application number: JP2017532471A
Authority: JP
Inventors: 充勝股; 徹知念; 水野　公嘉; 公嘉水野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-08-06
Filing date: 2016-07-19
Publication date: 2018-05-24
Anticipated expiration: 2036-07-19
Also published as: TWI736542B; CN107925838B; TW201717664A; JP6809463B2; EP3334192A1; EP3334192A4; CN107925838A; WO2017022467A1; US20180196635A1; US10656900B2

Abstract

表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法を提供する。異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をＭＰ４ファイル、またはＭＰＤファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を観察可能な画像表示構成において、表示画像に応じた出力音声の制御を行う情報処理装置、および情報処理方法、並びにプログラムに関する。

昨今、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を撮影可能な撮像装置が開発され、このような撮像装置を用いて撮影された画像をＰＣや、タブレット端末、携帯端末、あるいはヘッド・マウント・ディスプレイ（ＨＭＤ）等の表示部に表示し、ユーザによる選択画像、あるいはユーザの向きに応じて自動選択された画像を観察可能としたシステムが広く利用されている。

例えば、ＰＣ等において、周囲３６０度の全方位画像の映像（動画像）データを外部サーバから取得、あるいは記録メディアから読み出して表示装置に表示させることができる。ユーザは、任意方向の画像を選択して表示装置に表示可能であり、自由に視点を変えて動画像や静止画等の画像を観察することができる。

ＰＣやタブレット端末、あるいは携帯端末の表示部に表示した画像は、ユーザによるマウス操作、あるいはタッチパネルに対するスライド処理や、フリック処理などによって観察方向を移動させて表示可能であり、ユーザは、容易に様々な方向の画像を楽しむことができる。

ヘッド・マウント・ディスプレイ（ＨＭＤ）に画像を表示する場合は、ＨＭＤに搭載した頭部の動きや方向を検出するセンサ情報に応じて、ユーザの頭の向きに応じた画像を表示可能であり、ユーザは、あたかもＨＭＤの表示部に表示された画像の中に存在しているような感覚を味わうことができる。

このような画像表示装置は、画像に併せて音声を出力する機能を備えたものも多い。
画像と音声を出力する従来型の装置の多くは、音声出力の制御方式として、以下の（ａ），（ｂ）のいずれかのタイプの方式を採用している。
（ａ）観察画像の移動に併せて音声の聞こえる方向も追従させて移動するような制御を行う、画像追従型の音声制御方式、
（ｂ）観察画像の移動とは無関係に、音声の聞こえる方向は固定する制御を行う、画像非追従型の音声制御方式、

このように、従来装置における音声制御方式は、（ａ）画像追従型の音声制御方式、または、（ｂ）画像非追従型の音声制御方式のいずれを採用しているものが多い。
なお、（ａ）画像追従型の音声制御方式を開示した文献として、例えば特許文献１（特開２００２−３４５０９７号公報）がある。

画像に併せて出力する音声には、例えば、画像内に含まれる被写体（オブジェクト）から発生する音声の他、画像の解説などのナレーションやコメント、ＢＧＭ等、画像内の被写体の発する音声ではない音声などが含まれる。

画像内の被写体から発生する音は、画像の移動に併せて音の聞こえる方向を移動させた方が、臨場感が増加する。
一方、画像の解説などのナレーションやコメント、ＢＧＭ等、画像内の被写体の発する音声ではない音声については、常に一定方向から聞こえた方が、聞きやすいと考えられる。
しかし、このように画像に追従させる音声と、追従させない音声を区別して制御しようとすると、処理が複雑化し、制御の実現が困難であった。

特開２００２−３４５０９７号公報

本開示は、例えば上記問題点に鑑みてなされたものであり、全方位画像等、ユーザの操作や動作に応じて様々な方向の画像を出力する画像表示装置において、画像に併せて出力する音声の音源方向制御を実現する情報処理装置、および情報処理方法、並びにプログラムを提供するものである。

具体的には、例えば、個別に制御可能な音声ストリームや、音声チャンネル、さらに音声出力オブジェクト等、個別制御可能な音声要素単位で表示画像追従型の制御、または表示画像非追従型の制御を実行可能とした情報処理装置、および情報処理方法、並びにプログラムを提供する。

本開示の第１の側面は、
異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置にある。

さらに、本開示の第２の側面は、
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部を有するデータ配信サーバにある。

さらに、本開示の第３の側面は、
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体にある。

さらに、本開示の第４の側面は、
情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法にある。

さらに、本開示の第５の側面は、
情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラムにある。

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本開示の一実施例の構成によれば、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をＭＰ４ファイル、またはＭＰＤファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。情報処理装置に対するデータ提供処理構成について説明する図である。ＩＳＯベースメディアファイルフォーマットについて説明する図である。ＩＳＯベースメディアファイルフォーマットについて説明する図である。ＭＰ４ファイルに対する音声制御情報の記録例について説明する図である。全音声対応制御情報について説明する図である。音声制御情報の記録順（シーケンス）の設定例について説明する図である。音声要素対応制御情報について説明する図である。音声制御の一例について説明する図である。ＭＰ４ファイルに対する音声制御情報の記録領域の一例について説明する図である。ＭＰ４ファイルに対する音声制御情報の記録領域の一例について説明する図である。ＭＰ４ファイルに対して記録される音声制御情報について説明する図である。ＭＰ４ファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。ＭＰ４ファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。情報処理装置に対するデータ提供処理構成について説明する図である。ＭＰＤファイルについて説明する図である。ＭＰＤファイルについて説明する図である。ＭＰＤファイルに対して記録される音声制御情報について説明する図である。ＭＰＤファイルに対して記録される音声制御情報の具体例について説明する図である。ＭＰＤファイルに対して記録される音声制御情報の具体例について説明する図である。ＭＰＤファイルに対して記録される音声制御情報の具体例について説明する図である。ＭＰＤファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。ＭＰＤファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。情報処理装置のハードウェア構成例について説明する図である。

以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
１．画像表示制御および音声出力制御例について
２．（実施例１）ＭＰ４ファイルに音声制御情報を記録した実施例について
２−１．（音声制御情報記録例１）ＭＰ４ファイルにチャンネル単位の音声制御情報を記録する記録例について
２−２．（音声制御情報記録例２）ＭＰ４ファイルにストリーム単位の音声制御情報を記録する例について
２−３．（音声制御情報記録例３）ＭＰ４ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
３．ＭＰ４ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
４．（実施例２）ＭＰＤに音声制御情報を記録した実施例について
４−１．（音声制御情報記録例１）ＭＰＤファイルにチャンネル単位の音声制御情報を記録する記録例について
４−２．（音声制御情報記録例２）ＭＰＤファイルにストリーム単位の音声制御情報を記録する例について
４−３．（音声制御情報記録例３）ＭＰＤファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
５．ＭＰＤファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
６．情報処理装置のハードウェア構成例について
７．本開示の構成のまとめ

［１．画像表示制御および音声出力制御例について］
まず、図１以下を参照して、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を表示部に表示可能とした装置における画像表示制御および音声出力制御の具体的な例について説明する。

前述したように、昨今、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を撮影可能な撮像装置が開発され、このような撮像装置を用いて撮影された画像をＰＣや、タブレット端末、携帯端末、あるいはヘッド・マウント・ディスプレイ（ＨＭＤ）等の表示部に表示し、ユーザが選択した任意方向の画像を観察可能としたシステムが広く利用されている。

例えば、周囲３６０度の全方位画像の映像（動画像）データを外部サーバから取得、あるいは記録メディアから読み出してユーザのＰＣ等の表示装置に表示させることができる。ユーザは、サーバや記録メディアから取得した画像データから、任意方向の画像を選択して表示装置に表示させ、自由に視点を変えながら映像（動画像）や静止画を観察することが可能となる。

図１は、携帯端末の表示部に様々な方向の画像を選択して表示した例を説明する図である。
図１に示す画像データ１０は、パノラマ画像である。水平方向３６０度の画像が１枚の画像データとして設定されている。
画像データの中心部がユーザ（観察者）の正面方向（例えば０度＝北方向）の画像とすると、画像データ１０の左端がユーザ（観察者）の後ろ方向（−１８０度＝南方向）の画像であり、画像データ１０の右端もユーザ（観察者）の後ろ方向（＋１８０度＝南方向）の画像である。
画像データ１０の左端と右端は同じ位置の画像となる。

なお、全天球画像や全方位画像、すなわち３６０度パノラマ画像の場合は、上下方向については１８０度の画像が撮影されており、上下左右全方向の画像が含まれる。
以下の実施例では、水平方向３６０度のパノラマ画像を利用した例について説明するが、本開示の構成は、全天球画像や全方位画像を利用した場合にも適用可能であり、異なる方向の画像を選択的に表示可能とした装置において本開示の構成を適用することができる。

以下の説明においてパノラマ画像は、水平方向３６０度のパノラマ画像、全天球画像や全方位画像等の３６０度パノラマ画像、その他、画像移動により異なる方向の画像を表示可能とした画像全般を含むものとする。

図１下段には、ユーザの情報処理装置の一例である携帯端末２０を示している。
携帯端末２０の表示部には、画像データ１０の一部の領域、例えばユーザが任意に選択した領域の画像を表示することができる。

左側の携帯端末２０の表示画像Ａは、画像データ１０内の一部領域の画像区間ａ１〜ａ２の部分区間の領域画像である。
右側の携帯端末２０の表示画像Ｂは、画像データ１０内の一部領域の画像区間ｂ１〜ｂ２の部分区間の領域画像である。
ユーザは、タッチパネルとして構成された表示部に対する指のスライド処理などによって、表示画像を移動させて、任意の領域の画像を表示することができる。

なお、携帯端２０には、スピーカ２５が備えられており、表示画像に併せて記録された音声データが出力される。

図２は、ヘッド・マウント・ディスプレイ（ＨＭＤ）３０を利用してパノラマ画像を表示した例である。
ヘッド・マウント・ディスプレイ（ＨＭＤ）３０に画像を表示する場合は、ＨＭＤに搭載した頭部の動きや方向を検出するセンサ情報に応じて、ユーザの頭の向きに応じた画像を表示させる。この画像表示制御により、ユーザは、あたかもＨＭＤの表示部に表示された画像の中に存在しているような感覚を味わうことができる。

ＨＭＤ３０を装着したユーザが左を向いたときの画像が表示画像Ｐである。
ＨＭＤ３０を装着したユーザが右を向いたときの画像が表示画像Ｑである。
ＨＭＤ３０を装着したユーザは、体（頭）の向きを変更することで、周囲３６０度の画像を観察することができる。
なお、ヘッド・マウント・ディスプレイ（ＨＭＤ）３０にも、スピーカ３５が備えられており、表示画像に併せて記録された音声データが出力される。

次に、図３を参照して図１、図２を参照して説明したパノラマ画像表示処理の実行時に出力される音声について説明する。
画像に併せて出力する音声としては、例えば、画像内に含まれる被写体（オブジェクト）から発生する音声の他、画像の解説などのナレーションやコメント、ＢＧＭ等、画像内の被写体の発する音声ではない音声なども含まれる。

図３には、２種類の出力音声の例を示している。
（音声例１）犬の鳴き声（ワン）（＝被写体（オブジェクト）からの発生音声）、
（音声例２）ＢＧＭとナレーション（＝被写体（オブジェクト）からの発生音声ではない）

図３に示す犬の鳴き声（ワン）は、画像内の被写体から発生する音であり、画像の移動に併せて音の聞こえる方向を移動させた方が、臨場感が増加する。
図３に示す表示画像Ａの場合は、「右前方」から犬の鳴き声（ワン）が聞こえる設定とし、表示画像Ｂの場合は、「左前方」から犬の鳴き声（ワン）が聞こえる設定とする「画像追従型」の音声制御を行うと、より臨場感を増加させることができる。

しかし、被写体（オブジェクト）からの発生音声ではないＢＧＭやナレーション等の音声は、常に一定方向から聞こえた方が、聞きやすい。
例えば、表示画像の位置に関わらず、常に正面方向から聞こえる設定とする「画像非追従型」の音声制御を行う方が好ましい。
以下、このような音声制御を実現するための具体的な実施例について説明する。

［２．（実施例１）ＭＰ４ファイルに音声制御情報を記録した実施例について］
まず、実施例１としてＭＰ４ファイルに音声制御情報を記録した実施例について説明する。

図４は、実施例１に従って本開示の音声制御を実行する情報処理装置７０、および情報処理装置７０に対して画像および音声データを含むコンテンツを提供するサーバ５０と、メディア６０を示した図である。

全天球画像や全方位画像、あるいはパノラマ画像等の画像データと音声データは、例えば図４に示すサーバ５０から情報処理装置７０に提供される。または、図４に示すメディア６０から情報処理装置７０に提供される。

サーバ５０には、例えば放送局等の放送サーバ５１、その他のデータ提供サーバ５２が含まれる。
コンテンツは、放送波やインターネット等のネットワークを介して情報処理装置７０に送信される。
情報処理装置７０は、放送波やインターネット等のネットワークを介してサーバ５０から送信されるコンテンツを受信し再生する。

また、メディア６０には、情報処理装置に装着されるディスク、フラッシュメモリ、ハードディスク等の様々なメディアが含まれる。
情報処理装置７０は、これらのメディアに記録されたコンテンツを読み取り再生する。

コンテンツ再生を行なう情報処理装置は、例えばＴＶ７１、ＰＣ７２、携帯端末７３、ヘッド・マウント・ディスプレイ（ＨＭＤ）７４等であり、画像表示部、音声出力部（スピーカ）を備えた装置である。

サーバ５０、あるいはメディア６０から情報処理装置７０に提供されるコンテンツは、全天球画像、または全方位画像、あるいはパノラマ画像等、様々な方向の画像を選択的に表示可能な画像データと音声データを含むコンテンツである。
このコンテンツは、例えばＭＰ４ファイル８１に格納されて提供される。

ＭＰ４ファイル８１は、ＩＳＯベースメディアファイルフォーマットに従ってデータが記録されたファイルである。
ＩＳＯベースメディアファイルフォーマットは、ＩＳＯ／ＩＥＣ１４４９６−１２で規定されたデータフォーマットであり、例えばフラッシュメモリ等に対する記録データ、あるいは、放送波やネットワークを介した送信データファイルの格納データとして適したデータフォーマットである。

ＩＳＯベースメディアファイルフォーマットは、例えば、画像（Ｖｉｄｅｏ）、音声（Ａｕｄｉｏ）、字幕（Ｓｕｂｔｉｔｌｅ）等、コンテンツ構成データである符号化データや、これらのデータに関するメタデータ（属性情報）を記録媒体（メディア）に記録する際に利用されている。さらに、放送波やネットワークを介して伝送するデータのデータ格納フォーマットとしても利用されている。

昨今の多くの携帯端末は、ＩＳＯベースメディアファイルフォーマットに従って記録されたＭＰ４データを再生可能な再生アプリケーションを有しており、携帯端末のメディアにコンテンツを記録する場合、ＭＰ４形式で記録することが求められる場合が多い。

図５、図６を参照して、ＩＳＯベースメディアファイルフォーマットの概要について説明する。
図５には、ＩＳＯ／ＩＥＣ１４４９６−１２で規定されたＩＳＯベースメディアファイルフォーマットの例を示している。
図５に示すＭＰ４ファイルは、ＩＳＯベースメディアファイルフォーマットに従ったデータの記録あるいは再生処理における１つの処理単位として設定されるファイルである。

ＭＰ４ファイルは、ボックス（ｂｏｘ）単位の領域設定がなされ、各ボックスには、ボックス単位で定義されたデータが格納される。
各ボックスは、ボックスサイズ（ｂｏｘ−ｓｉｚｅ）、ボックスタイプ（ｂｏｘ−ｔｙｐｅ）、ボックスデータ（ｂｏｘ−ｄａｔａ）の各領域を有する。
ボックスサイズ（ｂｏｘ−ｓｉｚｅ）には、ボックスのデータ長（バイトサイズ）が記録される。
ボックスタイプ（ｂｏｘ−ｔｙｐｅ）には、ボックスに格納するデータの種類が記録される。
ボックスデータ（ｂｏｘ−ｄａｔａ）には、ボックスタイプで示される種類のデータが記録される。

図５に示すＭＰ４ファイルには、以下のタイプのボックスが設定される。
ｍｏｏｖボックス、
ｔｒａｋボックス、
ｍｄａｔボックス、
上記の各ボックスが設定される。

画像、音声、字幕等の再生対象データである実データはｍｄａｔボックスに格納される。
また、ｍｄａｔボックスに格納したデータに関する属性情報、再生制御情報等のメタデータは、ｍｏｏｖボックス内のｔｒａｋボックスに格納される。

ｍｏｏｖボックスは、ＭＰ４ファイルのｍｄａｔボックスに格納されたデータのメタデータ（再生制御情報や属性情報）の格納領域として設定されるボックスである。
ｍｏｏｖボックス内には、１つ以上のｔｒａｋボックスが設定される。ｔｒａｋボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。

図６を参照して、ＭＰ４ファイルに対するデータ格納構成例について説明する。ＭＰ４ファイルには、前述したように以下の各ボックスが設定される。
ｍｏｏｖボックス、
ｔｒａｋボックス、
ｍｄａｔボックス、
上記の各ボックスが設定される。

ｍｄａｔボックスには、例えば、
（ａ）画像
（ｂ）音声
（ｃ）字幕
これらのデータを格納する。

ＩＳＯベースメディアファイルフォーマットのデータ部であるｍｄａｔボックスの格納データは、基本データ単位としてのサンプル（ｓａｍｐｌｅ）に区分される。
１つのｍｄａｔボックスには画像サンプルのみの集合、あるいは音声サンプルのみの集合、または字幕サンプルのみの集合、いずれか同一種類のデータサンプルの集合が格納されることになる。

ｍｏｏｖボックスは、ＭＰ４ファイルのｍｄａｔボックスに格納されたデータのメタデータ（再生制御情報や属性情報）の格納領域である。
ｍｏｏｖボックス内には、１つ以上のｔｒａｋボックスが設定される。ｔｒａｋボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。

図６に示すｔｒａｋ（Ｖｉｄｅｏ）ボックスは、画像データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
ｔｒａｋ（Ａｕｄｉｏ）ボックスは、音声データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
ｔｒａｋ（Ｓｕｂｔｉｔｌｅ）ボックスは、字幕データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。

なお、ＭＰ４ファイルに格納される再生データに複数の異なる画像データ、例えば２Ｋ画像、４Ｋ画像等が含まれる場合には、これらの画像種類単位の制御情報をｔｒａｋ（Ｖｉｄｅｏ）ボックスに記録することが可能である。

また、ＭＰ４ファイルの格納音声データに複数の異なる音声データ、例えば日本語音声、英語音声等が含まれる場合には、これらの音声種類に応じた音声チャンネル単位の個別の制御情報を各々個別のｔｒａｋ（Ａｕｄｉｏ）ボックスに記録することが可能である。
また、ＢＧＭ、ナレーション、被写体（オブジェクト）音声等についても、これら各音声チャンネル（音声出力オブジェクトも含む）単位の個別の制御情報をｔｒａｋ（Ａｕｄｉｏ）ボックスに記録することが可能である。

さらに、例えば、各スピーカに出力するスピーカ対応の音声チャンネルに応じて個別のｔｒａｋボックスを設定することも可能である。
例えばステレオ出力に相当する左右２つのスピーカからの出力音声に対応する２つの制御情報をｔｒａｋ（Ａｕｄｉｏ）ボックスに記録することが可能である。

また、５．１ｃｈサラウンド音声の場合、以下の６個のスピーカが設定される。
中央前方（ＣｅｎｔｅｒＦｒｏｎｔ）スピーカ、
左前方（ＬｅｆｔＦｒｏｎｔ）スピーカ、
右前方（ＲｉｇｈｔＦｒｏｎｔ）スピーカ、
左サラウンド（ＬｅｆｔＳｕｒｒｏｕｎｄ）スピーカ、
右サラウンド（ＲｉｇｈｔＳｕｒｒｏｕｎｄ）スピーカ、
低域効果（ＬＦＥ：ＬｏｗＦｒｅｑｕｅｎｃｙＥｎｈａｎｃｅｍｅｎｔ）スピーカ、
５．１ｃｈサラウンド音声の場合、これら６個のスピーカに対する出力音声である６つの音声チャンネルがＭＰ４ファイルに記録される。
これら６つの音声チャンネル（音声要素）に対応する６つの制御情報をｔｒａｋ（Ａｕｄｉｏ）ボックスに記録することが可能である。
このような音声要素単位の制御情報の記録を行えば、各スピーカの出力音声の個別制御が可能となる。

このようにｔｒａｋボックスには、音声種類や、音声出力オブジェクトや、音声出力スピーカ等によって区別される音声チャンネル等、個別に制御可能な音声要素各々個別の制御情報を記録することが可能である。
ｔｒａｋボックスに記録された音声要素単位の制御情報により、音声要素単位の個別の音声制御を行うことが可能となる。

次に、図７を参照して、ｔｒａｋ（Ａｕｄｉｏ）ボックスに記録される音声対応の具体的な制御情報記録例について説明する。
ｔｒａｋ（Ａｕｄｉｏ）ボックスに記録される制御情報は、図７に示すようなデータとして記録される。
すなわち、以下のデータである。

ａｌｉｇｎｅｄ（８）ｃｌａｓｓＮｏＴｒａｃｋｉｎｇＡｕｄｉｏｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（'ＮＴＲＫ'）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ；
ｉｆ（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＆Ｓｏｍｅ＿Ｃｈａｎｎｅｌ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｃｏｕｎｔ；／／ｃｈａｎｎｅｌ
ｆｏｒ（ｉ＝１；ｉ＜＝ｃｏｕｎｔ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ＮｏＴｒａｃｋｉｎｇ；
｝
ａｌｉｇｎｅｄ（８）；
｝
｝

上記制御データ中の、
「ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ」
上記データは、図７に示すように、
「全音声対応制御情報９１」である。
この「全音声対応制御情報９１」の設定値は、このＭＰ４ファイルに格納された全ての音声チャンネルや音声出力オブジェクト等の全音声要素に対する総括的な制御態様を示す情報である。

この「全音声対応制御情報９１」である「ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ」に設定される設定値（フラグ値）と、音声の制御態様との対応関係の一例を図８に示す。
図８に示すように、設定値（フラグ値）と、音声の制御態様との対応は、以下の通りである。
設定値＝０：全音声を表示画像に追従させる（Ａｌｌｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）
設定値＝２：表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝４：表示画像追従音声と、非追従音声とを、ユーザ設定可能（Ｕｓｅｒｓｅｌｅｃｔｅｄｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）

「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝０の場合、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素を、表示画像に追従させる制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図３を参照して説明した例における犬の鳴き声（ワン）の音源方向制御である。すなわち、図３の例では、犬の鳴き声（ワン）の音源方向を表示画像に追従させて移動させる処理について説明した。

図３を参照して説明した複数の音声要素を有する構成において、「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝０の場合、犬の鳴き声（ワン）の音声のみならず、ＢＧＭやナレーション等の音声等、全ての音声を表示画面の移動に併せて移動させる音声制御を実行することになる。

「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝１の場合、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素を、表示画像に追従させない制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図３を参照して説明した例におけるＢＧＭやナレーション等の音声の音源方向制御である。すなわち、図３の例では、ＢＧＭやナレーション等の音声の音源方向を表示画像に追従させずに固定方向、例えば常に正面から聞こえるような設定とする制御について説明した。

図３を参照して説明した複数の音声要素を有する構成において、「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝１の場合、ＢＧＭやナレーション等の音声のみならず、犬の鳴き声（ワン）の音声等、全ての音声を表示画面の移動に併せて移動させない音声制御を実行することになる。

「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝２の場合、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素には、表示画像追従音声と、非追従音声とが混在することを示す。
この場合、図７に示すループ処理部９２から、音声要素要素（ｉ）対応の制御情報、すなわち、図７に示す「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。
ループ処理部９２の記録情報に基づく音声要素要素（ｉ）対応の制御情報の取得処理については、後述する。

「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝４の場合、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素について、ユーザによって、表示画像追従音声と、非追従音声との設定を行うことが可能であることを示す。

次に、「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝２の場合において、ループ処理部９２の記録情報に基づいて音声要素要素（ｉ）対応の制御情報を取得する処理について説明する。、
「全音声対応制御情報９１（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値＝２の場合、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素には、表示画像追従音声と、非追従音声とが混在することを示す。
この場合、図７に示すループ処理部９２から、音声要素要素（ｉ）対応の制御情報、すなわち、図７に示す「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。

ループ処理部９２には、このＭＰ４ファイルに格納された全ての個別制御可能な音声要素について、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかが記録されている。
全音声要素数は、チャンネル数（ｃｏｕｎｔ）９４に記録される。
ループ処理部９２には、音声要素識別子ｉ＝１〜ｃｏｕｎｔまで、順次、各要素（ｉ）についての制御情報、すなわち、音声要素（ｉ）が「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを記録している。

なお、ループ処理部９２における音声要素対応制御情報の記録順は、格納されている音声データによって異なる。例えばＩＳＯ／ＩＥＣ２３００１−８ＣｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎで決められた順番を用いる。

この場合、ループ処理部９２には、ＩＳＯ／ＩＥＣ２３００１−８の規定シーケンスに従って、各音声出力スピーカの出力チャンネルに対応づけられた音声要素対応制御情報が、順次、記録される。

ＩＳＯ／ＩＥＣ２３００１−８に記録されたシーケンスに従った音声要素対応制御情報の記録順の例について、図９を参照して説明する。

ステレオ音声を格納したＭＰ４ファイルの場合、出力チャンネル数＝出力スピーカ数＝２となり、個別制御可能な音声要素数（チャンネル数）＝２となる。この場合、図７に示すループ処理部９２における音声要素対応制御情報の記録は２つであり、ｃｏｕｎｔ＝２となる。
この場合、図７に示すループ処理部９２には、
第１音声要素＝前方左スピーカの出力チャンネルの制御情報、
第２音声要素＝前方右スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。

すなわち、第１音声要素、第２音声要素の順に、各音声要素が、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを示す「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）」が記録される。

また、５．１チャンネルサラウンド音声を格納したＭＰ４ファイルの場合、出力チャンネル数＝出力スピーカ数＝６となり、個別制御可能な音声要素数（チャンネル数）＝６となる。この場合、図７に示すループ処理部９２における音声要素対応制御情報の記録は６つであり、ｃｏｕｎｔ＝６となる。
この場合、図７に示すループ処理部９２には、
第１音声要素＝前方中央（ＣｅｎｔｅｒＦｒｏｎｔ）スピーカの出力チャンネルの制御情報、
第２音声要素＝前方左（ＬｅｆｔＦｒｏｎｔ）スピーカの出力チャンネルの制御情報、
第３音声要素＝前方右（ＲｉｇｈｔＦｒｏｎｔ）スピーカの出力チャンネルの制御情報、
第４音声要素＝左サラウンド（ＬｅｆｔＳｕｒｒｏｕｎｄ）スピーカの出力チャンネルの制御情報、
第５音声要素＝右サラウンド（ＲｉｇｈｔＳｕｒｒｏｕｎｄ）スピーカの出力チャンネルの制御情報、
第６音声要素＝低域効果用（ＬＦＥ）スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。

すなわち、第１〜第６音声要素の順に、各音声要素が、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを示す「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）」が記録される。

図９を参照して説明した例は、制御可能な音声要素が各スピーカの出力チャンネルに対応付けられ、ＩＳＯ／ＩＥＣ２３００１−８に記録されたシーケンスに従って音声要素対応制御情報が記録されている場合の例である。

ＭＰ４ファイルに格納される個別制御可能な音声要素は、この例の他、様々な設定があり、その設定に応じた様々な音声要素対応の記録順シーケンスが規定される。
ループ処理部９２には、その規定順に従って、各音声要素（ｉ）対応の制御情報、すなわち、図７に示す「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」が記録される。すなわち、各音声要素要素が、「表示画像追従型音声制御」対象であるか、「表示画像非追従型音声制御」対象であるかの情報が記録される。

なお、記録順番情報については、情報処理装置７０に別途、提供する構成とすることが望ましい。

ループ処理部９２に記録される「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」の具体例について、図１０を参照して説明する。
「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」に設定される設定値と、音声の制御態様との対応関係の一例を図１０に示す。
図１０に示すように、設定値と、音声の制御態様との対応は、以下の通りである。
設定値＝０：音声要素（ｉ）を表示画像に追従させる（Ｔｈｅｃｈａｎｎｅｌｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：音声要素（ｉ）を表示画像に追従させない（Ｔｈｅｃｈａｎｎｅｌｉｓｎｏｔｔｒａｃｋｅｄ）

「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」の設定値＝０の場合、このＭＰ４ファイルに格納された音声要素要素（ｉ）を、表示画像に追従させる制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図３を参照して説明した例における犬の鳴き声（ワン）の音源方向制御と同様、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。

「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」の設定値＝１の場合、このＭＰ４ファイルに格納された音声要素要素（ｉ）を、表示画像に追従させない制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図３を参照して説明した例におけるＢＧＭやナレーション等の音声の音源方向制御と同様、表示画像が移動しても、その移動に追従させない音源方向制御を行なう。

図１０に示す表に示す音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の値［０］、または［１］が、図７に示すループ処理部９２内に、各音声要素（ｉ）対応制御情報の設定値として記録されることになる。

図７に示すループ処理部９２内に記録された各音声要素（ｉ）対応制御情報の設定値に基づく制御の一例について、図１１を参照して説明する。
図１１は、先に図９を参照して説明した５．１チャンネルサラウンド音声を格納したＭＰ４ファイルの場合の制御例を示す図である。

５．１チャンネルサラウンド音声を格納したＭＰ４ファイルの場合、出力チャンネル数＝出力スピーカ数＝６となり、個別制御可能な音声要素数（チャンネル数）＝６となる。この場合、図７に示すループ処理部９２における音声要素対応制御情報の記録は６つであり、ｃｏｕｎｔ＝６となる。
この場合、図７に示すループ処理部９２には、
第１音声要素＝前方中央スピーカの出力チャンネルの制御情報、
第２音声要素＝前方左スピーカの出力チャンネルの制御情報、
第３音声要素＝前方右スピーカの出力チャンネルの制御情報、
第４音声要素＝左サラウンドスピーカの出力チャンネルの制御情報、
第５音声要素＝右サラウンドスピーカの出力チャンネルの制御情報、
第６音声要素＝低域効果用（ＬＦＥ）スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。

図１１に示す制御例は、図７に示すループ処理部９２内に記録された「音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）９３」の設定値が以下の設定である場合の制御例である。
第１音声要素（前方中央スピーカの出力チャンネル）の制御情報の設定値＝１、
第２音声要素（前方左スピーカの出力チャンネル）の制御情報の設定値＝０、
第３音声要素（前方右スピーカの出力チャンネル）の制御情報の設定値＝０、
第４音声要素（左サラウンドスピーカの出力チャンネル）の制御情報の設定値＝０、
第５音声要素（右サラウンドスピーカの出力チャンネル）の制御情報の設定値＝０、
第６音声要素（低域効果用（ＬＦＥ）スピーカの出力チャンネル）の制御情報の設定値＝０、

上記に示す設定値は、
第１音声要素（前方中央スピーカの出力チャンネル）のみ、表示画像の移動に対して追従しない音声制御、すなわち、「表示画像非追従型音声制御」を実行し、その他の第２〜第６音声要素については、表示画像の移動に対して追従する音声制御、すなわち、「表示画像追従型音声制御」を実行することを示す設定値である。

例えば、具体的には、第１音声要素（前方中央スピーカの出力チャンネル）からは、ＢＧＭやナレーションが出力され、その他のスピーカからは、表示画像内の被写体の出力音が出力される。
このような設定に相当する。

図１１に示すユーザ（観察者）１０１は、ヘッド・マウント・ディスプレイ（ＨＭＤ）を装着して全方向画像、あるいはパノラマ画像を観察している。観察画像は、ユーザの頭の向きに応じて移動するように制御される。
なお、図１１に示す６つのスピーカは、仮想的なスピーカであり、実際に存在するものではない。
スピーカは、ユーザ１０１の装着したＨＭＤに備えられており、左耳と右耳のヘッドホンを介して擬似的な５．１ｃｈサラウンド音を出力する構成である。

ただし、ＭＰ４ファイルには、５．１ｃｈサラウンド対応の６つのスピーカ出力音に相当する６つの個別制御可能な音声要素が記録され、これらが、上記の音声要素対応制御情報に従って制御される。

図１１に示す（Ａ）ユーザ（観察者）正面向きの設定で、ＢＧＭやナレーションは、正面にある仮想的な前方中央スピーカ（Ｃｅｎｔｅｒｆｒｏｎｔ）から聞こえる設定となる。
前方中央スピーカ（Ｃｅｎｔｅｒｆｒｏｎｔ）がＢＧＭやナレーションを出力する第１音声要素である。
その他の音声、例えば観察画像内の被写体からの音声、例えば犬の鳴き声等は、その他のスピーカから聞こえる設定である。
その他のスピーカが、被写体音等を出力する第２〜第６音声要素である。
図１１（Ａ）に示す例では、犬の鳴き声は、左前方（ＬｅｆｔＦｒｏｎｔ）スピーカから聞こえる。

次に、ユーザが図１１に示す（Ｂ）ユーザ（観察者）右向きの設定にユーザ１０１が体を回転させると、これに伴いＨＭＤに表示される画像も移動する。
しかし、ＢＧＭやナレーションは、第１音声要素（前方中央スピーカの出力チャンネル）は表示画像に追従しない音声要素である。すなわち、ＢＧＭやナレーションが聞こえる方向は、ユーザに対して同一の位置であり、音源とユーザとの相対位置関係が変更されない。
従って、（Ｂ）ユーザ（観察者）右向きの設定にユーザ１０１が体を回転させても、ＢＧＭやナレーションは、ユーザの正面、すなわち図の右側から聞こえる設定となる。
これは、第１音声要素（前方中央スピーカ）がユーザの回転に伴って回転したと同様の効果となる。

一方、例えば犬の鳴き声等のその他のスピーカからの出力に対応する第２〜第６音声要素は、表示画像に追従する音声要素である。すなわち、犬の鳴き声（ワン）等の被写体音が聞こえる方向は、ユーザの観察画像の移動に伴って移動することになる。この場合、その音源方向とユーザとの相対位置関係が変更されることになる。
（Ｂ）ユーザ（観察者）右向きの設定にユーザ１０１が体を回転させると、犬の鳴き声は、ユーザの左後方のスピーカ、すなわち仮想的な左前方（ＬｅｆｔＦｒｏｎｔ）スピーカから聞こえる設定となる。
このように、情報処理装置７０は、図７に示すループ処理部に記録された音声要素対応制御情報の記録値に基づいて、各音声要素の制御を実行する。

図７に示す音声制御情報は、先に図５、図６を参照して説明したＭＰ４ファイルの音声（Ａｕｄｉｏ）対応の制御情報（メタデータ）記録領域であるｔｒａｋボックスに記録される。
音声制御情報記録領域であるｔｒａｋボックス内には、様々な制御情報を記録することができる。

図７に示す音声制御情報を記録するｔｒａｋボックス内に設定する記録位置の２つの例について、図１２、図１３を参照して説明する。

（制御情報格納例１）
図１２に示す制御情報格納例１について説明する。
図１２に示す例は、ＭＰ４ファイルの音声制御情報格納ボックスであるｔｒａｋボックス内のコーデック情報等を格納する音声サンプルエントリ（ＡｕｄｉｏＳａｍｐｌｅＥｎｔｒｙ）内の下位ボックスとして音声制御情報（ＮｏＴｒａｃｋｉｎｇＡｕｄｉｏ）記録ボックスを設定した例である。
図７に示す制御情報を図１２に示す音声制御情報（ＮｏＴｒａｃｋｉｎｇＡｕｄｉｏ）記録ボックスに記録する。

（制御情報格納例２）
図１３に示す制御情報格納例２について説明する。
図１３に示す例は、ＭＰ４ファイルの音声制御情報格納ボックスであるｔｒａｋボックス内のユーザデータを格納するユーザデータ（ｕｄｔａ）ボックス内の下位ボックスとして音声制御情報（ＮｏＴｒａｃｋｉｎｇＡｕｄｉｏ）記録ボックスを設定した例である。
図７に示す制御情報を図１２に示す音声制御情報（ＮｏＴｒａｃｋｉｎｇＡｕｄｉｏ）記録ボックスに記録する。

ＭＰ４ファイル８１には、例えば図１２、図１３を参照して説明した各メタデータ記録領域に音声制御情報を記録することができる。
以下、ＭＰ４ファイルに対する具体的な制御情報記録例として、以下の３つの記録例について、順次、説明する。
（音声制御情報記録例１）ＭＰ４ファイルにチャンネル単位の音声制御情報を記録する。
（音声制御情報記録例２）ＭＰ４ファイルにストリーム単位の音声制御情報を記録する。
（音声制御情報記録例３）ＭＰ４ファイルに音声制御がユーザ設定可能であることを示す情報を記録する。

以下、各記録例について説明する。
［２−１．（音声制御情報記録例１）ＭＰ４ファイルにチャンネル単位の音声制御情報を記録する記録例について］
先に説明した５．１ｃｈのサラウンド音声は、以下の各音声要素によって構成される。
第１音声要素＝前方中央スピーカの出力チャンネル（ＣｅｎｔｅｒＦｒｏｎｔ）、
第２音声要素＝前方左スピーカの出力チャンネル（ＬｅｆｔＦｒｏｎｔ）、
第３音声要素＝前方右スピーカの出力チャンネル（ＲｉｇｈｔＦｒｏｎｔ）、
第４音声要素＝左サラウンドスピーカの出力チャンネル（ＬｅｆｔＳｕｒｒｏｕｎｄ）、
第５音声要素＝右サラウンドスピーカの出力チャンネル（ＲｉｇｈｔＳｕｒｒｏｕｎｄ）、
第６音声要素＝低域効果用（ＬＦＥ）スピーカの出力チャンネル（ＬＦＥ）、

現在の映画などのコンテンツで、例えば、５．１ｃｈのサラウンド音声を利用する場合、前方中央スピーカの出力チャンネル（ＣｅｎｔｅｒＦｒｏｎｔ）がナレーションなどで利用されることが多い。

全天球や全方位、あるいはパノラマ画像からなる動画において、前方中央スピーカの出力チャンネル（ＣｅｎｔｅｒＦｒｏｎｔ）をナレーション出力用として利用した場合、前方中央スピーカの出力チャンネル（ＣｅｎｔｅｒＦｒｏｎｔ）がナレーションは固定、その他のチャンネルは、表示画像位置に追従させた音を出力する制御を行うことが望まれる場合が多い。

ＭＰ４ファイルに対する音声制御情報を記録する場合、ＭＰ４ファイルに以下の各パラメータを記録する構成が可能である。
（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）
（２）音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）

図８を参照して説明したように、「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）」の設定値（フラグ値）と、音声の制御態様との対応関係は、以下の通りである。
設定値＝０：全音声を表示画像に追従させる（Ａｌｌｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）
設定値＝２：表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝４：表示画像追従音声と、非追従音声とを、ユーザ設定可能（Ｕｓｅｒｓｅｌｅｃｔｅｄｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）

また、図１０を参照して説明したように、「（２）音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）」の設定値と、音声の制御態様との対応関係は、以下の通りである。
設定値＝０：音声要素（ｉ）を表示画像に追従させる（Ｔｈｅｃｈａｎｎｅｌｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：音声要素（ｉ）を表示画像に追従させない（Ｔｈｅｃｈａｎｎｅｌｉｓｎｏｔｔｒａｃｋｅｄ）

なお、音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）設定値を記録する場合の記録順番は、先に図７を参照して説明したように予め規定されている。

［２−２．（音声制御情報記録例２）ＭＰ４ファイルにストリーム単位の音声制御情報を記録する例について］
次に、ＭＰ４に対する音声制御情報の第２の記録例として、ＭＰ４ファイルにストリーム単位の音声制御情報を記録する例について説明する。

１つの具体例として、ＭＰ４ファイルに２つの音声ストリームが記録されている場合のＭＰ４ファイルに対する音声制御情報記録例について説明する。
ＭＰ４ファイルに以下の２つの音声ストリームが記録されているものとする。
（１）５．１ｃｈサラウンド音声ストリーム、
（２）１ｃｈモノラル音声ストリーム、

ＭＰ４ファイルに上記２つの音声ストリームが記録されている場合、ＭＰ４ファイルには、これら２つの音声ストリームに対応する音声制御情報を記録する。
一例として、制御態様は以下の設定とする。
（１）５．１ｃｈサラウンド音声ストリームは、画像内の被写体から発生する音声等によって構成される音声ストリームであり、画像追従型制御を行う。
（２）１ｃｈモノラル音声ストリームは、ナレーション等によって構成される音声ストリームであり、表示位置にかかわらず固定の位置から出力する画像非追従型制御を行う。

なお、音声出力時には、５．１ｃｈと１ｃｈの２つのストリームがデコードされ合成されて出力される。
情報処理装置の音声出力制御部は、音声出力処理に際して、５．１ｃｈサラウンド音声はデコード後に表示位置に合わせた出力音声の設定を実行し、その後に１ｃｈモノラル音声のデコードストリームと合成して出力する処理を実行する。

［２−３．（音声制御情報記録例３）ＭＰ４ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について］
次に、ＭＰ４ファイルに対する音声制御情報記録例３として、ＭＰ４ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。

ＭＰ４ファイルに複数の制御可能な音声要素が含まれる場合、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能な構成にすることができる。

先に図８を参照して説明した（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値（フラグ値）と、音声の制御態様との対応関係は、以下の通りである。
設定値＝０：全音声を表示画像に追従させる（Ａｌｌｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）
設定値＝２：表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝４：表示画像追従音声と、非追従音声とを、ユーザ設定可能（Ｕｓｅｒｓｅｌｅｃｔｅｄｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）

ＭＰ４ファイルに、設定値＝４が記録されている場合、複数の音声要素各々について、表示画像追従音声と、非追従音声とを、ユーザが設定することが可能であることを示す。

例えば、前述の（音声制御情報記録例２）と同じように、ＭＰ４ファイルに以下の２つの音声ストリームが記録されているものとする。
（１）５．１ｃｈサラウンド音声ストリーム、
（２）１ｃｈモノラル音声ストリーム、

ＭＰ４ファイルに上記２つの音声ストリームが記録されている場合、ＭＰ４ファイルには、これら２つの音声ストリームに対応する音声制御情報を記録する。
具体的な記録処理構成としては様々な設定が可能であるが、一例について、図１４を参照して説明する。

例えば、図１４に示すように、まず、ストリーム単位の音声制御情報として、
先に図８を参照して説明した「全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値（フラグ値）と同様の制御情報を記録する。
設定値＝０：全音声を表示画像に追従させる（Ａｌｌｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝１：全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）
設定値＝２：表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）
設定値＝４：表示画像追従音声と、非追従音声とを、ユーザ設定可能（Ｕｓｅｒｓｅｌｅｃｔｅｄｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）

一例として、制御態様は以下の設定とする。
５．１ｃｈサラウンド音声ストリーム、１ｃｈモノラル音声ストリームともユーザの設定を可能とする。この場合、どちらも、全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）の設定値（フラグ値）は４が設定される。」

このような記録処理を行なうことで、ストリーム単位の音声要素について、制御情報を記録することが可能となる。

なお、ユーザ設定を行わせる場合は、情報処理装置のデータ処理部は表示部にユーザによる制御態様の決定を行わせるためのＵＩ（ユーザインタフェース）を提示する処理を実行し、ユーザ入力に応じて、各音声要素の制御態様を決定する。

［３．ＭＰ４ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて］
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、ＭＰ４ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。

図１５、図１６に示すフローチャートは、ユーザ装置である情報処理装置７０において実行する音声制御処理シーケンスを説明するフローチャートである。
情報処理装置７０は、表示部（ディスプレイ）、音声出力部（スピーカ）を有する。
情報処理装置７０は、例えばＴＶ、ＰＣ、携帯端末、ヘッド・マウント・ディスプレイ（ＨＭＤ）等である。

情報処理装置７０は、例えば図４に示すサーバ５０、あるいはメディア６０からＭＰ４ファイルを取得し、ＭＰ４ファイルに記録されたコンテンツを再生する。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。

画像データ、音声データは、ＭＰ４ファイルに格納され、さらにこれらの画像データ、音声データに対応する制御情報もＭＰ４ファイルに格納されている。
音声制御情報には、先に図７を参照して説明した制御情報が含まれる。

情報処理装置７０において実行する処理シーケンスについて図１５、図１６に示すフローチャートを参照して説明する。
なお、図１５、図１６に示すフローチャートに従った処理は、情報処理装置７０において実行される。情報処理装置７０はプログラム実行機能を持つＣＰＵを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置７０のハードウェア構成例については後段で説明する。

図１５、図１６に示すフローの各ステップの処理について説明する。
（ステップＳ１０１）
情報処理装置のデータ処理部は、ステップＳ１０１において、ＭＰ４ファイルを取得する。

（ステップＳ１０２）
次に、情報処理装置のデータ処理部は、ステップＳ１０２において、取得したＭＰ４ファイルから、全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ）を取得する。
図７を参照して説明した制御情報中の全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ）９１を取得する処理である。

（ステップＳ１０３）
次に、情報処理装置のデータ処理部は、ステップＳ１０３において、ステップＳ１０２で取得した全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝０）、すなわち、「表示画像追従型音声制御」の設定であるか否かを判定する。
全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝０）、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップＳ１０４に進む。
一方、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠０）、すなわち、「表示画像追従型音声制御」の設定でない場合は、ステップＳ１０５に進む。

（ステップＳ１０４）
ステップＳ１０３において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝０）、すなわち、「表示画像追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップＳ１０４の処理を実行する。
情報処理装置のデータ処理部は、ステップＳ１０４において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。

（ステップＳ１０５）
一方、ステップＳ１０３において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠０）、すなわち、「表示画像追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップＳ１０５の処理を実行する。

情報処理装置のデータ処理部は、ステップＳ１０５において、ステップＳ１０２で取得した全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝１）、すなわち、「表示画像非追従型音声制御」の設定であるか否かを判定する。
全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝１）、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップＳ１０６に進む。
一方、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠１）、すなわち、「表示画像非追従型音声制御」の設定でない場合は、ステップＳ２０１に進む。

（ステップＳ１０６）
ステップＳ１０５において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝１）、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップＳ１０６の処理を実行する。
情報処理装置のデータ処理部は、ステップＳ１０６において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。

（ステップＳ２０１）
一方、ステップＳ１０５において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠１）、すなわち、「表示画像非追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップＳ２０１の処理を実行する。

情報処理装置のデータ処理部は、ステップＳ２０１において、ステップＳ１０２で取得した全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝２）、すなわち、ＭＰ４ファイルに含まれる個別制御可能な音声要素に、「表示画像追従型音声制御」対象となる要素と、「表示画像非追従型音声制御」対象となる要素のいずれの要素も含まれるか否かを判定する。

全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝２）、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定である場合は、ステップＳ２０２に進む。
一方、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠２）、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定でない場合は、ステップＳ２５１に進む。
なお、この場合は、図８から理解されるように、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝４）、すなわち、ユーザ設定可能な設定であることを示す。

（ステップＳ２５１）
ステップＳ２０１において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ≠２）、すなわち、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝４）である場合は、ステップＳ２５１に進む。
ステップＳ２５１において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。

なお、ユーザ設定処理の実行に際して、情報処理装置のデータ処理部は、例えば、表示部にユーザ設定可能な操作画面（ＵＩ）を表示して、各音声要素に対する制御態様をユーザ入力させる。
情報処理装置のデータ処理部は、このユーザ入力情報に応じて各音声要素の制御態様を決定して、音声制御を実行する。

（ステップＳ２０２）
ステップＳ２０１の判定処理において、全音声対応制御情報の設定が、（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇ＝２）、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップＳ２０２に進む。

ステップＳ２０２以下の処理は、図７に示す制御情報中のループ処理部９２の記録情報を適用した処理となる。
すなわち、各音声要素（ｉ）に対応する音声要素対応制御情報を読み取って、各音声要素に対する制御態様を決定する。
まず、ステップＳ２０２の処理は、音声要素識別子（ｉ）の初期設定であり、ｉ＝１の設定を行う。

（ステップＳ２０３）
ステップＳ２０３において、情報処理装置のデータ処理部は、音声要素識別子（ｉ）の値が、処理対象のＭＰ４ファイルに記録された個別制御可能な音声要素数（ｃｏｕｎｔ）以下であるかを判定する。
ｉ＞ｃｏｕｎｔ
の場合は、全ての音声要素に対する処理が完了したことを意味し、ステップＳ２７１に進む。
ｉ≦ｃｏｕｎｔ
の場合は、未処理の音声要素があることを意味し、ステップＳ２０４に進む。

（ステップＳ２０４）
ステップＳ２０３において、音声要素識別子＝ｉ≦ｃｏｕｎｔと判定された場合、ステップＳ２０４の処理を実行する。
情報処理装置のデータ処理部は、ステップＳ２０４において、図７に示す制御情報のループ処理部９２から音声要素識別子（ｉ）に対応する音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値を取得する。
さらに、取得した音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値が、
設定値＝０、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値＝１、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。

設定値＝０、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップＳ２０５に進む。
一方、設定値＝１、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップＳ２０６に進む。

（ステップＳ２０５）
ステップＳ２０４において、音声要素（ｉ）に対応する音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値が、
設定値＝０、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップＳ２０５に進む。

ステップＳ２０５において、情報処理装置のデータ処理部は、処理対象の音声要素要素（ｉ）の制御を、表示画像に追従させる「表示画像追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。

（ステップＳ２０６）
一方、ステップＳ２０４において、音声要素（ｉ）に対応する音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値が、
設定値＝１、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップＳ２０６に進む。

ステップＳ２０６において、情報処理装置のデータ処理部は、処理対象の音声要素要素（ｉ）の制御を、表示画像に追従させない「表示画像非追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。

（ステップＳ２０７）
ステップＳ２０５、またはステップＳ２０６において１つの音声要素（ｉ）の処理態様を決定したら、次にステップＳ２０７において、音声要素識別子（ｉ）の更新処理を実行する。すなわち、
ｉ＝ｉ＋１
として、ステップＳ２０３に進む。
ＭＰ４ファイルに格納されたすべての音声要素に対する処理態様を決定すると、ステップＳ２０３の判定処理において、Ｎｏの判定となり、ステップＳ２７１に進む。

（ステップＳ２７１）
情報処理装置のデータ処理部は、ステップＳ２７１において、ＭＰ４ファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。

これらの処理によって、各音声要素単位で、
「表示画像追従型制御」、あるいは、
「表示画像非追従型制御」、
いすがれかの態様で音声出力制御が実行されることになる。

［４．（実施例２）ＭＰＤに音声制御情報を記録した実施例について］
次に、実施例２としてＭＰＤに音声制御情報を記録した実施例について説明する。
図１７は、実施例２に従って本開示の音声制御を実行する情報処理装置７０、および情報処理装置７０に対して画像および音声データを含むコンテンツを提供するサーバ５０と、メディア６０を示した図である。

全天球画像や全方位画像、あるいはパノラマ画像等の画像データと音声データは、図４に示すサーバ５０から送信、またはメディア６０から読み取られて情報処理装置７０に提供される。

サーバ５０は、例えば放送局等の放送サーバ５１、その他のデータ提供サーバ５２が含まれ、放送波やインターネット等のネットワークを介して、様々なデータが情報処理装置７０に送信される。
情報処理装置７０は、放送波やインターネット等のネットワークを介してサーバ５０からの送信データを受信し再生する。

メディア６０は、情報処理装置に装着されるディスク、フラッシュメモリ、ハードディスク等の様々なメディアである。
情報処理装置７０は、これらのメディアの記録データを読み出し、再生する。

サーバ５０、あるいはメディア６０から情報処理装置７０に提供されるコンテンツは、全天球画像、または全方位画像、あるいはパノラマ画像等、様々な方向の画像を選択的に表示可能な画像データと音声データを含むコンテンツである。
このコンテンツは、先に説明した実施例１と同様、例えばＭＰ４ファイル８１に格納されて提供される。

先に説明した実施例１では、ＭＰ４ファイルのメタデータ格納領域であるｔｒａｋボックスに例えば図７を参照して説明したような音声制御情報を記録する構成とした。
本実施例２では、図１７に示すＭＰ４ファイル８１に格納された音声データに関する音声制御情報をＭＰ４ファイル８１と別のＭＰＤファイル８２に格納して情報処理装置７０に提供する。

ＭＰＤ［メディア・プレゼンテーション・ディスクリプション（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）］ファイル８２は、ストリーミング配信コンテンツに関する規格であるＭＰＥＧ−ＤＡＳＨ規格において規定されたシグナリングデータ（メタデータ）を構成する１つのマニフェストファイルである。
ＭＰＤファイル８２は、動画や音声ファイルの管理情報であるメタデータを記述するためのマニフェストファイルである。
本実施例２は、このＭＰＤファイル８２に、ＭＰ４ファイル８１に格納された音声データに関する音声制御情報を記録する構成とした実施例である。

ＭＰＤファイル８２は、例えばあるコンテンツの再生時間を細分化した時間区間であるピリオド（Ｐｅｒｉｏｄ）単位で、様々な制御データを記録することができる。

図１８、図１９を参照してＭＰＤファイルの構成例について説明する。
図１８は、ＭＰＤフォーマットの一例を示す図である。
図１８に示すように、ＭＰＤは、画像や、音声それぞれのストリームごとに、以下の様々な規定範囲単位で属性等の情報や制御情報を記述可能である。
（１）時間軸上の区間を規定したピリオド（Ｐｅｒｉｏｄ）
（２）画像、音声等のデータ種類等を規定したアダプテーションセット（ＡｄａｐｔａｔｉｏｎＳｅｔ）
（３）画像、音声等のさらに下位の細分化データ種類を規定したリプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）
（４）画像、音声のセグメント（ＡＶセグメント）単位の情報記録領域となるセグメントインフォ（ＳｅｇｍｅｎｔＩｎｆｏ）

図１９は、ＭＰＤに記録されるＡＶセグメント対応の情報（制御情報や管理情報、属性情報など）を時系列に展開して示した図である。
左から右に時間が経過するものとする。この時間軸は、例えば情報処理装置におけるＡＶコンテンツの再生時間に対応する。

ＡＶセグメントに対応する様々な情報がＭＰＤに記録される。なお、例えばサーバ５０から情報処理装置７０にＭＰＤファイル８２を提供する場合、ＭＰＤはシグナリングデータとして、再生対象実データであるＡＶセグメントを格納したＭＰ４ファイル８１に先行して送信される。

情報処理装置７０は、ＭＰＤを解析して、再生対象実データであるＡＶセグメントを格納したＭＰ４ファイル８１のアクセス情報やコーデック情報を取得して、ＭＰ４ファイル８１に格納されたＡＶセグメントの再生準備を整えることが可能となる。

ＭＰＤは、図１８を参照して説明したように、
（１）ピリオド（Ｐｅｒｉｏｄ）
（２）アダプテーションセット（ＡｄａｐｔａｔｉｏｎＳｅｔ）
（３）リプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）
（４）セグメントインフォ（ＳｅｇｍｅｎｔＩｎｆｏ）
これらの階層設定の下に、ＡＶセグメントに関する属性情報、制御情報等のメタデータ（シグナリングデータ）を記録する構成となっている。

図１９は、これらのメタデータ記録領域を時間軸、およびデータ種類別に展開して示した図である。

図１９には、一例としてピリオド１（Ｐｅｒｉｏｄ（１））、ピリオド２（Ｐｅｒｉｏｄ（２）の２つのピリオドを示し、さらに、ピリオド１（Ｐｅｒｉｏｄ（１））に以下の３つのアダプテーションセット（ＡｄａｐｔａｔｉｏｎＳｅｔ）を示している。
（Ｖ１１）画像対応情報記録領域であるアダプテーションセットＶ１１（Ａｄａｐｔａｔｉｏｎ（Ｖ１１））
（Ａ１１）日本語音声対応情報記録領域であるアダプテーションセットＡ１１（Ａｄａｐｔａｔｉｏｎ（Ａ１１））
（Ａ１２）英語音声対応情報記録領域であるアダプテーションセットＡ１２（Ａｄａｐｔａｔｉｏｎ（Ａ１２））

（Ｖ１１）画像対応情報記録領域であるアダプテーションセットＶ１１（Ａｄａｐｔａｔｉｏｎ（Ｖ１１））は、異なる属性を持つストリーム単位の情報記録領域として、以下の２つのリプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を有する。
（Ｖ１１１）低ビットレート画像対応の情報記録領域であるリプレゼンテーション（Ｖ１１１）（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ（Ｖ１１１））
（Ｖ１１２）高ビットレート画像対応の情報記録領域であるリプレゼンテーション（Ｖ１１２）（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ（Ｖ１１２））

同様に、（Ａ１１）日本語音声像対応情報記録領域であるアダプテーションセットＡ１１（Ａｄａｐｔａｔｉｏｎ（Ａ１１））は、以下のリプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を有する。
（Ａ１１１）日本語音声対応の情報記録領域であるリプレゼンテーション（Ａ１１１）（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ（Ａ１１１））
同様に、（Ａ１２）英語音声像対応情報記録領域であるアダプテーションセットＡ１２（Ａｄａｐｔａｔｉｏｎ（Ａ１２））は、以下のリプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を有する。
（Ａ１２１）英語音声対応の情報記録領域であるリプレゼンテーション（Ａ１２１）（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ（Ａ１２１））

さらに、各リプレゼンテーション（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）は、セグメント単位で情報が記録可能な構成となっている。

例えば、時刻ｔ１に高ビットレート画像と日本語音声を選択して再生する情報処理装置（クライアント）は、再生対象とする高ビットレート画像と日本語音声に関する情報をＭＰＤから選択して取得することになる。
この選択対象とするＭＰＤの記録情報が、図に示すセグメント領域２０１，２０２の情報となる。

このように、受信装置は、シグナリングデータとして送信装置から送信されるＭＰＤから、受信装置で再生対象とするデータ（セグメント）に対応する情報のみを選択して参照する。
このように、ＭＰＤには、データ種別、時間単位のセグメント対応情報を記録することができる。

以下に説明する実施例２では、図１７に示すＭＰ４ファイル８１に、再生対象データである画像や音声データ（ＡＶセグメント）を格納し、ＭＰＤファイル８２に、ＭＰ４ファイル８１に格納した画像や音声データ（ＡＶセグメント）に関する制御情報を格納した実施例である。

図１７に示すＭＰＤファイル８２に、音声制御情報を記録する場合、先に説明したＭＰ４ファイルと、同様、様々な制御態様を示す情報を記録することができる。
ＭＰＤファイル８２に記録する音声制御情報の示す制御態様と、ＭＰ４ファイルに記録する「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）」の設定値の示す制御態様との対応関係を図２０に示す。

ＭＰＤではロールエレメント（ＲｏｌｅＥｌｅｍｅｎｔ）に音声制御情報を記録するための新規の記述子（Ｄｅｓｃｒｉｐｔｏｒ）を設定する。例えば図２０に示すように、
ＵＲＩ＝ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇ
を音声制御情報を記録するための新規の記述子とする。

このＭＰＤの音声制御情報記録領域に設定可能な音声制御情報は、図２０に示すように、以下の３種類となる。
（ａ）ＮｏＴｒａｃｋｉｎｇ
（ｂ）数値文字列
（ｃ）ＵＳＥＲ

なお、上記（ａ）〜（ｃ）の設定値は、図２０に示すように、先に説明したＭＰ４ファイルに記録する「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）」の設定値１，２，４に対応する。

すなわち、図２０に示すように、以下の対応関係である。
（ａ）ＮｏＴｒａｃｋｉｎｇは、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝１に相当し、全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）制御処理を示す。

（ｂ）数値文字列は、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝２に相当し、表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）ことを示す。

（ｃ）ＵＳＥＲは、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝４に相当し、表示画像追従音声と、非追従音声とを、ユーザ設定可能（Ｕｓｅｒｓｅｌｅｃｔｅｄｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）であることを示す。

以下、図１７に示すＭＰＤファイル８２に、音声制御情報を記録する場合の具体的な制御情報記録例として、以下の３つの記録例について、順次、説明する。
（音声制御情報記録例１）ＭＰＤファイルにチャンネル単位の音声制御情報を記録する。
（音声制御情報記録例２）ＭＰＤファイルにストリーム単位の音声制御情報を記録する。
（音声制御情報記録例３）ＭＰＤファイルに音声制御がユーザ設定可能であることを示す情報を記録する。

以下、各記録例について説明する。
［４−１．（音声制御情報記録例１）ＭＰＤファイルにチャンネル単位の音声制御情報を記録する記録例について］
先に説明した５．１ｃｈのサラウンド音声は、以下の各音声要素によって構成される。
第１音声要素＝前方中央スピーカの出力チャンネル（ＣｅｎｔｅｒＦｒｏｎｔ）、
第２音声要素＝前方左スピーカの出力チャンネル（ＬｅｆｔＦｒｏｎｔ）、
第３音声要素＝前方右スピーカの出力チャンネル（ＲｉｇｈｔＦｒｏｎｔ）、
第４音声要素＝左サラウンドスピーカの出力チャンネル（ＬｅｆｔＳｕｒｒｏｕｎｄ）、
第５音声要素＝右サラウンドスピーカの出力チャンネル（ＲｉｇｈｔＳｕｒｒｏｕｎｄ）、
第６音声要素＝低域効果用（ＬＦＥ）スピーカの出力チャンネル（ＬＦＥ）、

ＭＰＤファイルにチャンネル単位の音声制御情報を記録する場合の音声制御情報の例を図２１、および以下に示す。

＜ＭＰＤ＞
＜Ｐｅｒｉｏｄ＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ｖｉｄｅｏ／ｍｐ４"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ｖｉｄｅｏ．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜！−− ５．１ｃｈのＣｅｎｔｅｒＣｈａｎｎｅｌのみＴｒａｃｋｉｎｇをしないＡｕｄｉｏ −−＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ａｕｄｉｏ／ｍｐ４"＞
＜ＡｕｄｉｏＣｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎｓｃｈｅｍｅＵｒｉ＝"ｕｒｎ：ｍｐｅｇ：ｄａｓｈ：２３００３：３：ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇｕｒａｔｉｏｎ：２０１１" ｖａｌｕｅ＝"６"＞
＜ＲｏｌｅｓｃｈｅｍｅＩｄＵｒｉ＝"ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇ" ｖａｌｕｅ＝"１０００００"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ａｕｄｉｏ．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜／Ｐｅｒｉｏｄ＞
＜／ＭＰＤ＞

上記のＭＰＤ記述には、図２１に示すように、制御情報記録領域２５１が含まれる。
制御情報記録領域２５１は、５．１ｃｈストリームの１音声要素（ＣｅｎｔｅｒＣｈａｎｅｌ）を「表示画像非追従型制御」とした制御情報を記録した領域である。

前述したように、ＭＰＤではロールエレメント（ＲｏｌｅＥｌｅｍｅｎｔ）に音声制御情報を記録するための新規の記述子（Ｄｅｓｃｒｉｐｔｏｒ）を設定する。上記の例では、ＵＲＩ＝ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇとしている。

図２１に示す例では、このロールエレメントに記述された値は、
「１０００００」である。
この値は、先に図２０を参照して説明したように、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝２に相当し、表示画像追従音声と、非追従音声とが混在する（Ｓｏｍｅｃｈａｎｎｅｌｓｃａｎｂｅｔｒａｃｋｅｄ）ことを示す制御情報設定値である。

すなわち、制御情報記録領域２５１は、５．１ｃｈストリームの１音声要素（ＣｅｎｔｅｒＣｈａｎｅｌ）のみを「表示画像非追従型制御」とし、その他の音声要素を「表示画像追従型制御」とした制御情報設定値（１０００００）を記録している。

この数値文字列は、以下の音声制御処理を実行することを意味する。
第１音声要素［前方中央スピーカ（ｃｅｎｔｅｒｆｒｏｎｔｓｐｅａｋｅｒ）］＝画像非追従
第２音声要素［前方左スピーカ（ｌｅｆｔｆｒｏｎｔｓｐｅａｋｅｒ）］＝画像追従
第３音声要素＝前方右スピーカ（ｒｉｇｈｔｆｒｏｎｔｓｐｅａｋｅｒ）］＝画像追従
第４音声要素＝左サラウンドスピーカ（ｌｅｆｔｓｕｒｒｏｕｎｄｓｐｅａｋｅｒ）］＝画像追従
第５音声要素＝右サラウンドスピーカ（ｒｉｇｈｔｓｕｒｒｏｕｎｄｓｐｅａｋｅｒ）］＝画像追従
第６音声要素＝低域効果用スピーカ（ｌｏｗｆｒｅｑｕｅｎｃｙｅｎｈａｎｃｅｍｅｎｔ）］＝画像追従ｓｐｅａｋｅｒ）

［４−２．（音声制御情報記録例２）ＭＰＤファイルにストリーム単位の音声制御情報を記録する例について］
次に、ＭＰＤに対する音声制御情報の第２の記録例として、ＭＰＤファイルにストリーム単位の音声制御情報を記録する例について説明する。

１つの具体例として、ＭＰ４ファイルに、１ｃｈの音声ストリームが記録されている場合のストリーム単位の音声制御情報を記録した場合の例を図２２および以下に示す。

＜ＭＰＤ＞
＜Ｐｅｒｉｏｄ＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ｖｉｄｅｏ／ｍｐ４"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ｖｉｄｅｏ．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜！−−１ｃｈのストリームをＴｒａｃｋｉｎｇをしないＡｕｄｉｏ−−＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ａｕｄｉｏ／ｍｐ４"＞
＜ＡｕｄｉｏＣｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎｓｃｈｅｍｅＵｒｉ＝"ｕｒｎ：ｍｐｅｇ：ｄａｓｈ：２３００３：３：ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇｕｒａｔｉｏｎ：２０１１" ｖａｌｕｅ＝"１"＞
＜ＲｏｌｅｓｃｈｅｍｅＩｄＵｒｉ＝"ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇ" ｖａｌｕｅ＝"ＮｏＴｒａｃｋｉｎｇ"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ａｕｄｉｏ１．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜／Ｐｅｒｉｏｄ＞
＜／ＭＰＤ＞

上記のＭＰＤ記述には、図２２に示すように、制御情報記録領域２５２が含まれる。
制御情報記録領域２５２は、１ｃｈストリームの１音声要素を「表示画像非追従型制御」とした制御情報の記録領域である。
前述したように、ＭＰＤではロールエレメント（ＲｏｌｅＥｌｅｍｅｎｔ）に音声制御情報を記録するための新規の記述子（Ｄｅｓｃｒｉｐｔｏｒ）を設定する。上記の例では、ＵＲＩ＝ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇとしている。

図２２に示す例では、このロールエレメントに記述された値は「ＮｏＴｒａｃｋｉｎｇ」である。
この値は、先に図２０を参照して説明したように、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝１に相当し、全音声を表示画像に追従させない（Ａｌｌｃｈａｎｎｅｌｓａｒｅｎｏｔｔｒａｃｋｅｄ）処理を実行させるための制御情報設定値である。

［４−３．（音声制御情報記録例３）ＭＰＤファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について］
次に、ＭＰＤファイルに対する音声制御情報記録例３として、ＭＰＤファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。

先に説明した実施例１と同様、本実施例２においても、複数の制御可能な音声要素が含まれる場合、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能な構成にすることができる。

ＭＰＤファイルに各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報を記録する場合の音声制御情報の例を図２３、および以下に示す。

＜ＭＰＤ＞
＜Ｐｅｒｉｏｄ＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ｖｉｄｅｏ／ｍｐ４"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ｖｉｄｅｏ．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜！−− ２ｃｈのＣｅｎｔｅｒＣｈａｎｎｅｌのみＴｒａｃｋｉｎｇをしないＡｕｄｉｏ −−＞
＜ＡｄａｐｔａｔｉｏｎＳｅｔｍｉｍｅ−ｔｙｐｅ＝"ａｕｄｉｏ／ｍｐ４"＞
＜ＡｕｄｉｏＣｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎｓｃｈｅｍｅＵｒｉ＝"ｕｒｎ：ｍｐｅｇ：ｄａｓｈ：２３００３：３：ａｕｄｉｏ＿ｃｈａｎｎｅｌ＿ｃｏｎｆｉｇｕｒａｔｉｏｎ：２０１１" ｖａｌｕｅ＝"２"＞
＜ＲｏｌｅｓｃｈｅｍｅＩｄＵｒｉ＝"ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇ" ｖａｌｕｅ＝"ＵＳＥＲ"＞
＜Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜ＢａｓｅＵＲＬ＞ｈｔｔｐ；／／ｆｏｏ．ｂａｒ／ａｕｄｉｏ．ｍｐ４＜／ＢａｓｅＵＲＬ＞
＜／Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ＞
＜／ＡｄａｐｔａｔｉｏｎＳｅｔ＞
・・・
＜／Ｐｅｒｉｏｄ＞
＜／ＭＰＤ＞

上記のＭＰＤ記述には、図２３に示すように、制御情報記録領域２５３が含まれる。
制御情報記録領域２５３は、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報を記録している。

図２３に示す例では、このロールエレメントに記述された値は、
「ＵＳＥＲ」である。
この値は、先に図２０を参照して説明したように、ＭＰ４ファイルの「（１）全音声対応制御情報（ｎｏ＿ｔｒａｃｋｉｎｇ＿ｆｌａｇｓ）設定値＝４に相当し、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報設定値である。

［５．ＭＰＤファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて］
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、ＭＰＤファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。

図２４、図２５に示すフローチャートは、ユーザ装置である情報処理装置７０において実行する音声制御処理シーケンスを説明するフローチャートである。
情報処理装置７０は、表示部（ディスプレイ）、音声出力部（スピーカ）を有する。
情報処理装置７０は、例えばＴＶ、ＰＣ、携帯端末、ヘッド・マウント・ディスプレイ（ＨＭＤ）等である。

情報処理装置７０は、例えば図４に示すサーバ５０、あるいはメディア６０からＭＰＤファイルを取得し、ＭＰＤファイルに記録されたコンテンツを再生する。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。

画像データ、音声データは、ＭＰ４ファイルに格納され、さらにこれらの画像データ、音声データに対応する制御情報はＭＰＤファイルに格納されている。
情報処理装置７０において実行する処理シーケンスについて図２４、図２５に示すフローチャートを参照して説明する。
なお、図２４、図２５に示すフローチャートに従った処理は、情報処理装置７０において実行される。情報処理装置７０はプログラム実行機能を持つＣＰＵを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置７０のハードウェア構成例については後段で説明する。

図２４、図２５に示すフローの各ステップの処理について説明する。
（ステップＳ３０１）
情報処理装置のデータ処理部は、ステップＳ３０１において、ＭＰＤファイルを取得する。

（ステップＳ３０２）
次に、情報処理装置のデータ処理部は、ステップＳ３０２において、取得したＭＰＤファイルのアダプテーションセットに以下のロールエレメント、すなわち、
＜ＲｏｌｅｓｃｈｅｍｅＩｄＵｒｉ＝ｈｔｔｐ：／／ｆｏｏ．ｂａｒ／ｓｃｈｅｍｅ／ＡｕｄｉｏＮｏＴｒａｃｋｉｎｇ＞
この音声制御情報を記録したロールエレメントがあるか否かを判定する。

この音声制御情報記録ロールエレメントがある場合は、ステップＳ３０４に進み、ない場合は、ステップＳ３０３に進む。

（ステップＳ３０３）
情報処理装置のデータ処理部は、ＭＰＤファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがないと判定した場合は、ステップＳ３０３の処理を実行する。
情報処理装置のデータ処理部は、ステップＳ３０３において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。

（ステップＳ３０４）
一方、ステップＳ３０３において、ＭＰＤファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがあると判定した場合は、ステップＳ３０４の処理を実行する。

情報処理装置のデータ処理部は、ステップＳ３０４において、ステップＳ３０２で取得したＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が、
「ＮｏＴｒａｃｋｉｎｇ」
であるか否かを判定する。

「ＮｏＴｒａｃｋｉｎｇ」が記録されている場合は、ステップＳ３０５に進む。
それ以外の場合は、ステップＳ４０１に進む。

（ステップＳ３０５）
ステップＳ３０４において、ＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が、
「ＮｏＴｒａｃｋｉｎｇ」
であると判定した場合、情報処理装置のデータ処理部は、ステップＳ３０５の処理を実行する。
情報処理装置のデータ処理部は、ステップＳ３０５において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。

（ステップＳ４０１）
一方、ステップＳ３０４において、ＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が、
「ＮｏＴｒａｃｋｉｎｇ」
ではないと判定した場合、情報処理装置のデータ処理部は、ステップＳ４０１の処理を実行する。

情報処理装置のデータ処理部は、ステップＳ４０１において、ステップＳ３０２で取得したＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が、
「ＵＳＥＲ」
上記後であるか否かを判定する。

ＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が、
「ＵＳＥＲ」
である場合は、ステップＳ４５１に進む。
一方、「ＵＳＥＲ」
であない場合は、ステップＳ４０２に進む。

（ステップＳ４５１）
ステップＳ４０１において、ＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が（ＵＳＥＲ）である場合は、ステップＳ４５１に進む。
ステップＳ４５１において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。

（ステップＳ４０２）
ステップＳ４０１の判定処理において、ＭＰＤファイルのアダプテーションセットに記録された音声制御情報の値が（ＵＳＥＲ）でない、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップＳ４０２に進む。

ステップＳ４０２以下の処理は各音声要素（ｉ）に対応する音声要素対応制御情報を読み取って、各音声要素に対する制御態様を決定する処理となる。
ステップＳ４０２の処理は、各音声要素対応の制御情報ビット列を先頭から読み取る処理である。
例えば５．１ｃｈサラウンド音声を構成する６チャンネルの６つの音声要素を有する場合、ビット列は、例えば［１０００００］のようなビット列である。

（ステップＳ４０３）
ステップＳ４０３において、音声制御情報ビット列の未処理データがあるか否かを判定し、未処理データがある場合は、先頭から順次読み取ったビット値に基づくステップＳ４０４以下の処理を実行する。

（ステップＳ４０４）
情報処理装置のデータ処理部は、ステップＳ４０４において、各音声要素対応の制御情報ビット列から順次読み取ったビット値に基づく処理を実行する。
さらに、取得した音声要素（ｉ）対応の設定値（ビット値）が、
設定値＝０、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値＝１、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。

設定値＝０、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップＳ４０５に進む。
一方、設定値＝１、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップＳ４０６に進む。

（ステップＳ４０５）
ステップＳ４０４において、音声要素（ｉ）に対応する音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値が、
設定値＝０、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップＳ４０５に進む。

ステップＳ４０５において、情報処理装置のデータ処理部は、処理対象の音声要素要素（ｉ）の制御を、表示画像に追従させる「表示画像追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
ステップＳ４０５の処理が完了すると、ステップＳ４０３に戻り、次の音声要素対応の設定値（ビット値）に基づく処理を実行する。

（ステップＳ４０６）
一方、ステップＳ４０４において、音声要素（ｉ）に対応する音声要素（ｉ）対応制御情報（ＮｏＴｒａｃｋｉｎｇ）の設定値が、
設定値＝１、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップＳ４０６に進む。

ステップＳ４０６において、情報処理装置のデータ処理部は、処理対象の音声要素要素（ｉ）の制御を、表示画像に追従させない「表示画像非追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
ステップＳ４０６の処理が完了すると、ステップＳ４０３に戻り、次の音声要素対応の設定値（ビット値）に基づく処理を実行する。

（ステップＳ４７１）
情報処理装置のデータ処理部は、ステップＳ４０３において、未処理要素がないと判定すると、ステップＳ４７１に進む。
ステップＳ４７１において、情報処理装置のデータ処理部は、ＭＰＤファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。

［６．情報処理装置のハードウェア構成例について］
次に、上述した実施例に従った処理を実行する情報処理装置、およびサーバのハードウェア構成例について、図２６を参照して説明する。
図２６に示すハードウェアは、図４、図１７に示す情報処理装置（ユーザ装置）７０、すなわち、画像再生、音声出力を実行する情報処理装置（ユーザ装置）７０のハードウェア構成の一例である。
また、図２６に示すハードウェアは、図４、図１７に示すサーバ５０、すなわち、画像データ、音声データ、並びに上述した音声制御情報を格納したファイルを生成して情報処理装置（ユーザ装置）７０に送信する処理を実行するサーバ５０のハードウェア構成の一例でもある。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行するデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０３には、ＣＰＵ３０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ３０１、ＲＯＭ３０２、およびＲＡＭ３０３は、バス３０４により相互に接続されている。

ＣＰＵ３０１はバス３０４を介して入出力インタフェース３０５に接続され、入出力インタフェース３０５には、各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる表示部３０７、音声出力部３２１−１〜ｎが接続されている。ＣＰＵ３０１は、入力部３０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば表示部３０７、音声出力部３２１−１〜ｎに出力する。

入出力インタフェース３０５に接続されている記憶部３０８は、例えばハードディスク等からなり、ＣＰＵ３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部、さらに放送波の送受信部として機能し、外部の装置と通信する。

入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア３１１を駆動し、データの記録あるいは読み取りを実行する。

なお、データの符号化あるいは復号は、データ処理部としてのＣＰＵ３０１の処理として実行可能であるが、符号化処理あるいは復号処理を実行するための専用ハードウェアとしてのコーデックを備えた構成としてもよい。

［７．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。

（２）前記データ処理部は、
出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する（１）に記載の情報処理装置。

（３）前記音声制御情報には、出力対象とする全音声に対応する制御情報である全音声対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する（２）に記載の情報処理装置。

（４）前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する（３）に記載の情報処理装置。

（５）前記データ処理部は、
前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する（３）に記載の情報処理装置。

（６）前記音声制御情報には、出力対象とする音声要素各々に対応する制御情報である音声要素対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
さらに、前記音声要素対応制御情報を取得し、
前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する（３）〜（５）いずれかに記載の情報処理装置。

（７）前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する（６）に記載の情報処理装置。

（８）前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する（６）に記載の情報処理装置。

（９）前記音声制御情報は、ＭＰ４ファイルに格納されており、
前記データ処理部は、
ＭＰ４ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請（２）〜（８）いずれかに記載の情報処理装置。

（１０）前記音声制御情報は、ＭＰ４ファイルのｔｒａｋボックスに格納されており、
前記データ処理部は、
ＭＰ４ファイルのｔｒａｋボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する（９）に記載の情報処理装置。

（１１）前記音声制御情報は、ＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）ファイルに格納されており、
前記データ処理部は、
ＭＰＤファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する（２）〜（８）いずれかに記載の情報処理装置。

（１２）前記音声制御情報は、ＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）ファイルのアダプテーションセット記録領域に格納されており、
前記データ処理部は、
ＭＰＤファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する（１１）に記載の情報処理装置。

（１３）異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部と、
を有するデータ配信サーバ。

（１４）異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。

（１５）情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。

（１６）情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本開示の一実施例の構成によれば、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をＭＰ４ファイル、またはＭＰＤファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。

１０画像データ
２０携帯端末
２５スピーカ
３０ヘッド・マウント・ディスプレイ（ＨＭＤ）
３５スピーカ
５０サーバ
５１放送サーバ
５２データ配信サーバ
６０メディア
７０情報処理装置
７１ＴＶ
７２ＰＣ
７３携帯端末
７４ヘッド・マウント・ディスプレイ（ＨＭＤ）
８１ＭＰ４ファイル
８２ＭＰＤファイル
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０４バス
３０５入出力インタフェース
３０６入力部
３０７表示部
３０８記憶部
３０９通信部
３１０ドライブ
３１１リムーバブルメディア
３２１音声出力部

Claims

異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。
前記データ処理部は、
出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項１に記載の情報処理装置。
前記音声制御情報には、出力対象とする全音声に対応する制御情報である全音声対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する請求項２に記載の情報処理装置。
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項３に記載の情報処理装置。
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項３に記載の情報処理装置。
前記音声制御情報には、出力対象とする音声要素各々に対応する制御情報である音声要素対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
さらに、前記音声要素対応制御情報を取得し、
前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する請求項３に記載の情報処理装置。
前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項６に記載の情報処理装置。
前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項６に記載の情報処理装置。
前記音声制御情報は、ＭＰ４ファイルに格納されており、
前記データ処理部は、
ＭＰ４ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項２に記載の情報処理装置。
前記音声制御情報は、ＭＰ４ファイルのｔｒａｋボックスに格納されており、
前記データ処理部は、
ＭＰ４ファイルのｔｒａｋボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項９に記載の情報処理装置。
前記音声制御情報は、ＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）ファイルに格納されており、
前記データ処理部は、
ＭＰＤファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項２に記載の情報処理装置。
前記音声制御情報は、ＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）ファイルのアダプテーションセット記録領域に格納されており、
前記データ処理部は、
ＭＰＤファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項１１に記載の情報処理装置。
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部と、
を有するデータ配信サーバ。
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。
情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。
情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。