WO2019093155A1

WO2019093155A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: WO2019093155A1
Application number: PCT/JP2018/039838
Authority: WO
Inventors: 圭一青山; 鈴木　知; 浩司古澤
Original assignee: ソニー株式会社
Priority date: 2017-11-10
Filing date: 2018-10-26
Publication date: 2019-05-16
Also published as: US20200358415A1; US10998870B2; JP2019087973A

Abstract

本開示は、ズーム画像を表示する際、ズーム画像の想定視聴位置における音声を出力することができるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。スポーツ中継などの画像コンテンツの場合、収録時に、オブジェクトとなる競技者毎に個別の位置情報、並びに向きおよび姿勢情報と、音声データを直接音と残響音とで分けて格納しておき、ズーム再生時には、ズーム画像における想定視聴位置に対するオブジェクトとなる競技者の向きに応じて、直接音と残響音とを混合することで、想定視聴位置において聴取される音声を出力する。コンテンツ再生装置に適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、再生される画像に対してズームが指示されるとき、ズームして表示されている画像に対応する視聴位置の音声を再生できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。

　撮像技術の進歩に伴って、撮像される画像が高解像度化されることにより、撮像された画像の一部をズームして表示しても、著しく画質が低下してしまうことがなくなってきている。

　このため、撮像された画像を再生する際、一部をズーム表示して視聴することが可能となっている。

　一方、鳥瞰画像においてユーザ操作で指示された地点に係る広角画像から切り出された一部領域の画像を表示する技術が提案されている（特許文献１参照）。

　特許文献１の技術によれば、広角画像から切り出される一部領域は、鳥瞰画像においてユーザ操作で指示された向きにより可変とされるので、ユーザは、鳥瞰画像をもとに、能動的に風景内を移動できる。

　そこで、この特許文献１の技術を、高解像度化された画像に適用することで、画像内の任意の範囲をズーム表示させて、視聴させることが考えられる。

特開２００７－１０９２０５号公報

　しかしながら、特許文献１の技術を適用することで、高解像度化された画像の一部の範囲を用いてズームした画像を表示することはできても、再生される音声を、ズームした画像に対応して再生することはできない。

　このため、再生される画像はズームできても、再生される音声は、ズーム前の画像全体が表示されるときの音声がそのまま再生されるので、視覚により視聴する内容と、聴覚により聴取する内容との間に乖離が生じて、違和感を生じさせる恐れがあった。

　本開示は、このような状況に鑑みてなされたものであり、特に、再生画像に対してズームが指示された場合、ズームして表示される画像に対応した音声を出力できるようにするものである。

　本開示の一側面の情報処理装置は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む情報処理装置である。

　前記ゲイン調整部には、前記音声データにおける直接音データと残響音データとの音量ゲインを調整させるようにすることができる。

　前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。

　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。

　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整させるようにすることができる。

　前記ゲイン調整部には、前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくさせるようにすることができる。

　前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含ませるようにすることができ、前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整させるようにすることができる。

　前記ゲイン調整部には、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整させ、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、１個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整させるようにすることができる。

　前記直接音データおよび前記残響音データは、前記音声データの収録時に分離されるようにすることができる。

　前記収録時に前記オブジェクトに装着される端末をさらに含ませるようにすることができ、前記端末には、音声データを検出する音声データ検出部と、位置情報を検出する位置情報検出部と、オブジェクトの向きを検出する方向検出部とを設けるようにさせることができ、前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離されるようにすることができる。

　前記画像コンテンツの視点位置は変更することができる。

　前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトとすることができる。

　本開示の一側面の情報処理方法は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む情報処理方法である。

　本開示の一側面のプログラムは、コンピュータを、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させるプログラムである。

　本開示の一側面においては、視聴ズーム倍率を変更することが可能な画像コンテンツが再生され、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインが調整され、前記画像コンテンツと共に調整された音声データが再生される。

　本開示の一側面によれば、特に、再生画像に対するズームが指示された場合、ズームして表示される画像に対応した音声を出力することが可能となる。

本開示の概要を説明する図である。本開示の情報処理システムの構成例を説明する図である。図２の端末の構成例を説明するブロック図である。図２の収録部の構成例を説明するブロック図である。音声データを直接音データと残響音データに分離する原理を説明する図である。図２の再生部の構成例を説明するブロック図である。オブジェクトの姿勢に基づいた直接音と残響音との混合方法を説明する図である。オブジェクトの姿勢に基づいた直接音と残響音との混合例を説明する図である。オブジェクトの近接判定に基づいた、直接音と残響音との混合例を説明する図である。全天周音声とオブジェクト音声のそれぞれのズーム倍率とゲインの関係を説明する図である。収録処理を説明するフローチャートである。データ格納処理を説明するフローチャートである。再生処理を説明するフローチャートである。向き姿勢調整処理を説明するフローチャートである。近接調整処理を説明するフローチャートである。汎用のコンピュータの構成例を説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．本開示の概要
　２．本開示の好適な実施の形態
　３．ソフトウェアにより実行させる例

　＜＜１．本開示の概要＞＞

　本開示は、再生画像に対してズームが指示された場合、ズーム画像を表示すると共に、表示されるズーム画像に対応した音声を出力するものである。

　例えば、音声と共に撮像されたサッカーの試合などの画像コンテンツが再生される場合、図１の左部の画像Ｐ１で示されるように、サッカーの試合会場全体が映し出されるような画像が表示されるときには、視聴者が、試合会場において、画像Ｐ１のように見える視点位置（想定視聴位置）で、試合を観戦する際に聞こえてくるような音声が出力される。

　より詳細には、画像Ｐ１が表示される際には、視聴者が、画像Ｐ１のように見える視点位置となる観戦席に存在していると仮定したときに聞こえてくる、試合会場全体の、例えば、観客席からの「ガヤガヤ」といった音声Ｓｄ２や、少し離れたグランド上から聞こえる「ピー」という審判のホイッスルの音声Ｓｄ１が出力される。

　一方、画像Ｐ１の状態から、点線で囲まれた範囲Ｚ１をズームして表示するように指示がなされた場合、図１の右部で示されるように、範囲Ｚ１がズームされた画像Ｐ２が表示される。

　画像Ｐ２が表示される場合、視聴者が、画像Ｐ２のように見える視点位置に移動したと仮定したときに聞こえてくるような、選手同士の会話や、芝生の上を走る選手の足音などの音声が出力される。

　すなわち、画像Ｐ１の範囲Ｚ１のズーム画像である画像Ｐ２が表示される際には、画像Ｐ２の上部に存在する選手の発する「進め」といった会話からなる音声Ｓｄ１１や芝生の上を走る際の「ざっ」といった音声Ｓｄ１２、並びに、画像Ｐ２の下部に存在する選手の発する「こっちだ」といった会話からなる音声Ｓｄ１３やボールを蹴る際の「パスッ」といった音声Ｓｄ１４が出力される。

　このように、本開示においては、表示画像のズーム再生が指示されると、指示された領域のズーム画像が再生されて表示されると共に、ズーム再生される画像内の物体を現実の物体として視聴するときの視点位置で視聴した際に聞こえてくるような音声が再生される。

　これにより、視聴者は、ズーム再生される画像の視点位置で視聴しているような感覚を持つことが可能となり、画像コンテンツのズーム再生の視聴を、より高い没入感をもって楽しむことが可能となる。

　＜＜２．本開示の好適な実施の形態＞＞
　次に、図２を参照して、本開示の情報処理システムの構成例について説明する。

　図２の情報処理システム１は、例えば、サッカーや野球のようなスポーツ中継などの画像コンテンツを音声と共に収録して、データとして格納する。そして、情報処理システム１は、格納したデータを読み出して、視聴者の頭部に装着されるHMD（Head Mounted Display）に出力し、画像と音声とを再生する。この際、画像に対してズームが指示されると、ズーム画像が表示されると共に、ズーム画像に対する想定視聴位置（ズーム画像により表現される空間内におけるユーザの視聴位置）において聴取されるような音声が出力される。

　尚、収録される画像コンテンツは、サッカーや野球などのスポーツ中継のようなもの以外であってもよく、例えば、ライブコンサートや舞台演劇などでもよい。

　情報処理システム１は、端末１１－１乃至１１－ｎ、収録部１２、データ格納部１３、再生部１４、HMD（Head Mounted Display）１５、および操作部１６より構成される。

　端末１１－１乃至１１－ｎは、サッカー選手や野球選手といった収録対象となる画像コンテンツであるスポーツの競技者Ｈ１乃至Ｈｎに装着され、競技者Ｈ１乃至Ｈｎの周辺の音声、位置、向きや姿勢の情報を検出して収録データとして収録部１２に送信する。

　尚、端末１１－１乃至１１－ｎを特に区別する必要がない場合、単に、端末１１と称し、その他の構成についても同様に称する。また、端末１１の詳細な構成例については、図３を参照して後述する。また、画像コンテンツが、ライブコンサートや舞台演劇などの場合、端末１１は、ライブコンサートの演者であるアーティストや舞台演劇の俳優などに装着される。さらに、競技者、アーティスト、および俳優などは、画像コンテンツにおけるオブジェクトと捉えることができる。そこで、以降においては、端末１１を装着する競技者、アーティスト、および俳優については、オブジェクトとも称する。

　収録部１２は、試合などを撮影するカメラ１２ａ、およびカメラ１２ａの撮影位置の周辺や競技場の全体の音声を収録するマイクロフォン１２ｂを備えており、カメラ１２ａにより撮像される画像と、マイクロフォン１２ｂにより収録される音声とを対応付けて収録する。ここで、マイクロフォン１２ｂにより収録される音声は、カメラ１２ａに連動した、全体の音声であるので、以降においては、マイクロフォン１２ｂにより聴取される音声を全天周音声と称する。また、収録部１２は、端末１１－１乃至１１－ｎより送信されてくる収録データを取得する。そして、収録部１２は、収録データに含まれる音声データ、位置情報、並びに、向きおよび姿勢情報のそれぞれを対応付けて、データ格納部１３に格納する。

　データ格納部１３は、直接音データ格納部３１、残響音データ格納部３２、オブジェクトメタデータ格納部３３、および画像データ格納部３４を備えている。

　収録部１２は、収録データのうち、音声データを抽出し、抽出した音声データを、直接音データと残響音データとに分離して、直接音データを直接音データ格納部３１に格納させると共に、残響音データを残響音データ格納部３２に格納させる。また、収録部１２は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部３３に格納する。さらに、収録部１２は、全天周音声データを、直接音データ格納部３１に格納させる。また、収録部１２は、画像データを画像データ格納部３４に格納させる。尚、収録部１２の詳細な構成例については、図４を参照して後述する。

　再生部１４は、再生が指定された、コンテンツの直接音データ、残響音データ、オブジェクトメタデータ、および画像データをデータ格納部１３より読み出して、所定の加工を施して、HMD１５の表示部２２に画像として表示すると共に、音声出力部２１より音声として出力させる。

　また、操作部１６が、ユーザにより操作されて、操作内容に応じて出力される操作信号に基づいて、ズーム再生が指示される（視聴ズームが指示される）と、再生部１４は、ズーム表示する画像を生成すると共に、ズーム画像内の距離感の変化を音声でも感じられるような音声を生成する。そして、再生部１４は、それぞれをHMD１５に出力して、ズーム画像として表示部２２に表示させると共に、ズーム画像の視聴位置における音声を音声出力部２１より出力させる。尚、再生部１４の詳細な構成例については、図６を参照して後述する。

　HMD１５は、ユーザの頭部に装着され、スピーカやヘッドフォンなどからなる音声出力部２１、および、LCD（Liquid Crystal Display）や有機EL（Electro Luminescence）などのディスプレイからなる表示部２２を備えている。HMD１５は、再生部１４より供給される画像データと音声データを取得して、表示部２２に画像を表示させると共に、音声出力部２１より音声を出力させる。

　より詳細には、HMD１５は、加速度センサおよびジャイロセンサ等を備えており、HMD１５を装着したユーザが頭の方向や位置を動かすことにより、画像コンテンツや全天周コンテンツの視点位置を変更して表示部２２に表示する。すなわち、HMD１５の表示部２２には、HMD１５の位置や方向によって決まる視点位置に対応した画像コンテンツの領域が表示される。そして、視点位置に対応した画像コンテンツの領域に表示されているオブジェクトが、視点位置に対応した音声となるように、音声のゲインが調整される処理の対象となるオブジェクトとなる。

　＜端末の構成例＞
　次に、図３のブロック図を参照して、端末１１の構成例について説明する。

　端末１１は、収録部１２により収録される画像コンテンツである、例えば、スポーツの競技者一人一人に装着されるものであり、制御部５１、音声取得部５２、GPS５３、モーションセンサ５４、および通信部５５を備えている。

　制御部５１は、端末１１の動作の全体を制御している。

　音声取得部５２は、マイクロフォンなどからなり競技者の声、呼吸音、および足音などの音声を取得し、取得した音声データを制御部５１に出力する。

　GPS（Global Positioning System）５３は、図示せぬ衛星からの信号を受信して、地球上の緯度および経度からなる位置情報を求め、競技者の位置情報として制御部５１に出力する。

　モーションセンサ５４は、加速度を計測し、計測結果に基づいて、競技者の向きおよび姿勢を検出して、向きおよび姿勢情報として制御部５１に出力する。

　通信部５５は、Wifiなどの無線通信回線により、収録部１２と通信し、各種のデータやプログラムの授受を行う。

　制御部５１は、通信部５５を制御して、音声データ、位置情報、並びに、向きおよび姿勢情報を、収録データとして、端末１１を識別する固有識別子、および収録時刻を示す時刻情報と対応付けて、収録部１２に送信させる。

　＜収録部の構成例＞
　次に、図４のブロック図を参照して、収録部１２の構成例について説明する。

　収録部１２は、制御部７１、通信部７２、収録データ格納部７３、データ分離部７４、ノイズ除去部７５、残響分離部７６、オブジェクトメタデータ生成部７７、および画像データ抽出部７８を備えている。

　制御部７１は、収録部１２の全体の動作を制御する。制御部７１は、通信部７２を制御して、端末１１より送信される収録データを受信して、収録データ格納部７３に格納する。また、制御部７１は、カメラ１２ａにより撮像された画像の画像データ、およびマイクロフォン１２ｂにより収録された全天周音声の音声データを収録データ格納部７３に格納する。

　すなわち、収録データ格納部７３は、カメラ１２ａにより撮像された画像データ、マイクロフォン１２ｂにより収録された音声データ、および端末１１より供給される収録データを、それぞれの識別子と、取得したタイミングを示す時刻情報に対応付けて格納している。

　データ分離部７４は、収録データ格納部７３に格納されている端末１１より供給されてきた収録データを読み出して、音声データ、並びに、位置情報、および向き姿勢情報を分離して読み出す。そして、データ分離部７４は、音声データをノイズ除去部７５に供給し、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部７７に供給する。

　ノイズ除去部７５は、音声データに対して、例えば、所定のノイズ除去フィルタ処理を施し、ノイズを除去して残響分離部７６に出力する。

　残響分離部７６は、ノイズが除去された音声データを直接音データと残響音データとに分離して、直接音データを直接音データ格納部３１に格納し、残響音データを残響音データ格納部３２に格納する。音声データを直接音データと残響音データとに分離する方法については、図５を参照して後述する。

　オブジェクトメタデータ生成部７７は、位置情報、並びに、向きおよび姿勢情報に基づいて、競技者一人一人をオブジェクトとして、それぞれに対応するオブジェクトメタデータを生成して、オブジェクトメタデータ格納部３３に格納する。より詳細には、オブジェクトメタデータ生成部７７は、音声データにおけるフレーム（オーディオフレーム）単位でオブジェクトメタデータを生成する。従って、オーディオフレーム単位で、オブジェクトメタデータには位置情報、並びに向きおよび姿勢情報が格納される。

　データ分離部７４は、収録データ格納部７３に格納されているマイクロフォン１２ｂにより収録された全天周音声の音声データを抽出する。

　そして、データ分離部７４は、マイクロフォン１２ｂにより収録された全天周音声の音声データをノイズ除去部７５に供給し、端末１１単位の収録データにおける音声データと同様に、ノイズ時を除去させる。ノイズ除去部７５は、ノイズを除去した全天周音声の音声データを、残響分離部７６に供給する。この際、残響分離部７６は、全天周音声の音声データについては、直接音データおよび残響音データには分離せず、そのままの状態で直接音データ格納部３１に格納させる。

　画像データ抽出部７８は、収録データ格納部７３に格納されている画像データを抽出し、画像データ格納部３４に格納させる。

　尚、直接音データ格納部３１に格納された直接音データ、残響音データ格納部３２に格納された残響音データ、オブジェクトメタデータ格納部３３に格納されたオブジェクトメタデータ、画像データ格納部３４に格納された画像データは、それぞれ収録されたタイミングを示す時刻情報と、端末を識別する識別子とにより対応付けて、例えば、フレーム単位で登録されている。

　＜直接音データと残響音データとの分離について＞
　ここで、図５を参照して、音声データの直接音データと残響音データとの分離について説明する。

　図５の表示Ａで示されるように、特定の空間内において、スピーカＳｓから出力される音声がマイクロフォンＭにより収録されることを考える。このとき、スピーカＳｓから出力された音声Ｓｄは、その一部がマイクロフォンＭにより直接音として収録されるが、その他の一部の音声は、空間内の壁などにより反射して残響音Ｓｉ１やＳｉ２として収録される。

　ここで、スピーカＳｓから出力された音声Ｓｄとして、第１の時刻に音声Ｓ１が出力され、第１の時刻よりも遅れた第２の時刻に音声Ｓ２が出力されることを考える。

　このとき、マイクロフォンＭにおいて収録される音声の波形は、例えば、図５の表示Ｂで示されるような波形となる。

　すなわち、時刻ｔ１において、第１の時刻に出力された音声Ｓ１が検出されて、それより遅れて、時刻ｔ２において、第２の時刻に出力された音声Ｓ２が検出される。いずれも波形の形状は、受信された時刻の波高値が高く、時間の経過に伴って減衰する波形となる。

　これは、直接音は、スピーカＳｓから最も近い経路を経てマイクロフォンＭにより収録され、かつ、マイクロフォンＭに対して正面から収録されるので、波高値が高く、早いタイミングで検出される。

　これに対して、残響音は、スピーカＳｓからマイクロフォンＭに到達するまでに、様々な経路を経て収録されるので、直接音に比べて遅れて収録され、かつ、経路が伸びるに従ってパワーが低下し波高値が減衰する波形となる。

　結果として、図５の表示Ｂにおける波形は、図５の表示Ｃで示されるように、直接音の波形Ｓｄ１１，Ｓｄ１２と、残響音の波形Ｓｉ１１，Ｓｉ１２とが合成された波形と考えることができる。

　そこで、残響分離部７６は、図５の表示Ｄで示されるように、波形Ｓｄ１１，Ｓｄ１２からなる音声データを、直接音データとして抽出する。また、残響分離部７６は、図５の表示Ｅで示されるように、波形Ｓｉ１１，Ｓｉ１２からなる音声データを、残響音データとして抽出する。すなわち、残響分離部７６は、図５で示されるような原理により、音声データを直接音データと残響音データとに分離する。

　＜再生部の構成例＞
　次に、図６のブロック図を参照して、再生部１４の構成例について説明する。

　再生部１４は、制御部９０、メタパーサ部９１、オブジェクト位置姿勢指定部９２、近接オブジェクト判定部９３、音声デコード部９４、オブジェクト混合部９５、位相調整部９６、3D音声レンダラ９７、UI（ユーザインタフェース）処理部９８、ゲイン調整部９９、画像デコード部１００、および画像レンダラ１０１を備えている。

　制御部９０は、再生部１４の動作の全体を制御している。

　メタパーサ部９１は、オブジェクトメタデータ格納部３３より、処理が必要なオブジェクトのオブジェクトメタデータを読み出し、オブジェクトメタデータに含まれる位置および姿勢情報をオブジェクト位置姿勢指定部９２に供給し、位置情報を近接オブジェクト判定部９３に供給する。ここで、処理が必要なオブジェクトとは、例えば、操作部１６が操作されてズーム表示が指示された場合、指示されたズーム倍率とズーム位置の情報に基づいて特定されるズーム画像内に映り込んでいる競技者に対応するオブジェクトである。

　オブジェクト位置姿勢指定部９２は、オブジェクトメタデータに含まれる位置および姿勢情報に基づいて、競技者であるオブジェクト一人一人の位置と姿勢とを指定してオブジェクト混合部９５に出力する。

　近接オブジェクト判定部９３は、オブジェクトデータの位置情報に基づいて、オブジェクト毎の近接の有無（近接して存在しているか否か）を判定し、判定結果をオブジェクト混合部９５に出力する。より詳細には、近接オブジェクト判定部９３は、オブジェクトである競技者の一人一人の占有範囲を設定し、それぞれの位置情報に基づいて、占有範囲が重なり合っているか否かに基づいて近接の有無を判定する。尚、本実施の形態においては、近接の有無の判定、すなわち、近接判定は、オブジェクトである競技者の一人一人の占有範囲が重なり合っているか否かに基づいて、判定するものとして説明するが、オブジェクトが近接しているか否かが判定できれば他の方法で判定するようにしてもよい。例えば、オブジェクト間の距離が、所定の近接判定距離以下であるか否かに基づいて、近接判定するようにしてもよい。

　音声デコード部９４は、処理が必要となるオブジェクトについて、直接音データ格納部３１より直接音データを読み出してデコードすると共に、残響音データ格納部３２より残響音データを読み出してデコードし、デコード結果となる直接音データと残響音データとをオブジェクト混合部９５に出力する。

　また、音声デコード部９４は、全天周音声の音声データについて、直接音データと残響音データとに分離されていない状態で、直接音データ格納部３１に格納されているので、直接音データ格納部３１より読み出して、デコードし、デコード結果を位相調整部９６に出力する。

　UI処理部９８は、操作部１６より供給される操作内容に応じた操作信号に基づいて、受け付けた操作内容の情報を制御部９０に出力する。制御部９０は、UI制御部９８を介して、操作部１６の操作内容に応じたズーム操作に関するズーム倍率やズーム位置の情報を取得し、メタパーサ部９１、音声デコード部９４、オブジェクト混合部９５、位相調整部９６、3D音声レンダラ９７、ゲイン調整部９９、および画像レンダラ１０１に供給する。

　尚、ズーム操作は、操作部１６がスティックタイプ、ボタンタイプの構成であれば、操作部１６を操作するものであってもよい。また、ユーザの視線を検出し、画像内のいずれか一点を所定時間注視したときにその位置を中心とした所定の範囲をズーム表示させるためのズーム操作であるものとみなすようにしてもよい。

　オブジェクト混合部９５は、オブジェクトの位置と姿勢の情報、および、ズーム倍率とズーム位置の情報より求められる、オブジェクトの想定視聴位置（想定される画像空間内におけるユーザの視聴位置）からの相対的な距離に基づいて、オブジェクトの音声データに掛ける基本的なゲイン（音声ゲイン）とスプレッドを設定する。

　また、オブジェクト混合部９５は、画像コンテンツ内のオブジェクトの向きに応じて、オブジェクト毎の直接音データと残響音データとを混合して、3D音声レンダラ９７に出力する。

　さらに、オブジェクト混合部９５は、近接オブジェクト判定部９３より供給される近接判定結果に基づいて、近接しているとの判定結果の場合、近接している複数のオブジェクト同士の音声データを近接状態に応じて、１個のオブジェクトの音声データとして混合して3D音声レンダラ９７に出力する。これは、近接したオブジェクトでは、同一の音声が出力される可能性があり、過ゲインが生じる恐れがあるので、１個のオブジェクトとして音声データを管理することで、過ゲインの発生を抑制することができる。

　位相調整部９６は、音声デコード部９４より供給される全天周音声の位相を調整して、3D音声レンダラ９７に出力する。

　ゲイン調整部９９は、制御部９０からのズーム倍率の情報に応じて、ゲインを調整する信号を3D音声レンダラ９７に出力する。

　3D音声レンダラ９７は、オブジェクト混合部９５より供給されるオブジェクト毎の音声データ、および位相調整部９６より供給される位相が調整された全天周音声データをレンダリングし、ゲイン調整部９９より供給されるゲインを調整する信号に基づいてゲインを調整して、音声出力部２１に供給し、音声として出力させる。

　画像デコード部１００は、画像データ格納部３４より画像データを読み出し、デコードして画像レンダラ１０１に出力する。

　画像レンダラ１０１は、制御部９０より供給されるズーム倍率やズーム位置の情報に基づいて、画像データをレンダリングして、表示部２２に出力し表示させる。

　＜オブジェクト混合部による直接音と残響音の混合方法＞
　次に、図７を参照して、オブジェクト混合部９５における直接音データと残響音データとの混合例について説明する。

　例えば、図７の左部で示されるように、音声の聴取位置（ズーム画像の想定視聴位置に対応する位置）Ｌ１に対して正面を向いた姿勢のオブジェクトである人物Ｈ１０１が音声を発する場合、ほぼ直接音のみが聴取されることになり、残響音はほとんど聴取されない。

　尚、図７の左部においては、人物Ｈ１０１より発せられる直接音が、直接音Ｓｓ１０１として表現されており、聴取位置Ｌ１において、音像の大きさが音像Ｓｐ１０１の図７上の大きさとして表現されている。また、図７において、音像Ｓｐ１０１におけるθ１は、スプレッドを表現したものである。スプレッドは音像の広がりを示す指標であり、聴取位置を正面としたときの左右の角度として表現されている。換言すれば、θ１は、視聴想定位置からの距離から設定される音像の大きさを意味し、遠い音源は小さく、近い音源は大きく設定される。図７の左部の場合、直接音Ｓｓの前方方向のスプレッドに対応して、音像Ｓｐ１０１ではスプレッドθ１が設定されている。

　このため、図７の左部の場合、オブジェクト混合部９５は、直接音をほぼ100％として、残響音を0％として混合し、オブジェクトの音声データを生成する。

　また、図７の中央部で示されるように、音声の聴取位置Ｌ１に対して、横を向いた姿勢のオブジェクトである人物Ｈ１０２が音声を発する場合、直接音の聴取は一部になり、残響音を含む状態となる。

　このため、図７の中央部においては、人物Ｈ１０２より発せられる直接音Ｓｓ１０２に対して、聴取位置Ｌ１における直接音の音像Ｓｐ１０２の大きさは、図７の左部における音像Ｓｐ１０１よりも小さくなり、スプレッドが絞られて、θ２（＜θ１）に設定される。また、図７の中央部においては、聴取位置Ｌ１に対して、人物Ｈ１０２よりも遠い位置に壁Ｗが存在することを仮定しており、この壁Ｗにより直接音が反射することで、経路Ｒ１，Ｒ２などにより発生する残響音が、聴取位置Ｌ１において聴取される。

　したがって、図７の中央部の場合、オブジェクト混合部９５は、図７の左部の場合と比較して、直接音のスプレッドがθ１からθ２（＜θ１）にして絞ることにより、直接音の音像Ｓｐ１０２を小さくすると共に、残響音の割合を高くして混合し、オブジェクトの音声データを生成する。

　さらに、図７の右部で示されるように、音声の聴取位置Ｌ１に対して、背を向けた姿勢のオブジェクトである人物Ｈ１０３が音声を発する場合、直接音の聴取はほぼない状態となり、ほぼ残響音のみとなる。

　このため、図７の右部においては、人物Ｈ１０３より発せられる直接音Ｓｓ１０３に対して、聴取位置Ｌ１における直接音の音像は、ほぼない状態となる。また、図７の右部においては、聴取位置Ｌ１に対して、壁Ｗにより直接音が反射することで、経路Ｒ１１，Ｒ１２などにより残響音が発生し、聴取位置Ｌ１において聴取される。

　したがって、図７の右部の場合、オブジェクト混合部９５は、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。

　すなわち、図７の左部の人物Ｈ１０１で示されるように聴取位置Ｌ１に対して正対した場合に、スプレッドθ１の面音源として設定された音源は、図７の中央部の人物Ｈ１０２で示されるように聴取位置Ｌ１に対して横を向いた場合、スプレッドθ２の音源に変化し音像が小さくなり、最終的に、図７の右部の人物Ｈ１０３で示されるように、聴取位置Ｌ１に背を向けた場合、面音源の面積が０（スプレッドが０）になる。

　＜オブジェクト混合部による直接音と残響音の具体的な混合例＞
　次に、図８を参照して、オブジェクト混合部９５による直接音と残響音の具体的な混合例について説明する。

　例えば、図８で示されるように、サッカーの試合における画像コンテンツの場合、オブジェクトが競技者Ｈ１３１の場合、想定視聴位置に対して、斜め前方を向いている（表示部２２を視聴する視聴者に対して斜め方向の状態で映っている）ため、オブジェクト混合部９５は、スプレッドを絞り、直接音を75%とし、残響音を25%にして混合し、オブジェクトの音声データを生成する。

　また、図８におけるオブジェクトが競技者Ｈ１３２の場合、想定視聴位置に対して、背を向けている（表示部２２を視聴する視聴者に対して反対向きの状態で映っている）ため、直接音は聞こえないので、オブジェクト混合部９５は、スプレッドを絞った設定とし、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。

　さらに、図８におけるオブジェクトが競技者Ｈ１３３の場合、想定視聴位置に対して、真横を向いている（表示部２２を視聴する視聴者に対して真横を向いた状態で映っている）ため、オブジェクト混合部９５は、スプレッドを絞った設定とし、直接音を50%とし、残響音を50%にして混合し、オブジェクトの音声データを生成する。

　このように、想定視聴位置と、オブジェクトである競技者の向きや姿勢に応じて、直接音と残響音とが混合される。

　＜近接判定に応じた直接音と残響音との混合方法＞
　次に、図９を参照して、近接判定に応じた、直接音と残響音との混合方法について説明する。

　例えば、図９で示されるように、サッカーの試合における画像コンテンツの場合、例えば、点線Ｃ１で囲まれる所定距離内に存在する競技者Ｈ１５１，Ｈ１５２について、それぞれの占有範囲Ｚ５１，Ｚ５２は、重なり合っていない。このため、近接オブジェクト判定部９３は、競技者Ｈ１５１，Ｈ１５２が近接していないと判定する。したがって、この場合、オブジェクト混合部９５は、競技者Ｈ１５１，Ｈ１５２の音声データを個別のオブジェクトのそれぞれに生成する。

　尚、図９では、競技者Ｈ１５１，Ｈ１５２のそれぞれの占有範囲Ｚ５１，Ｚ５２は、所定の半径の円形の範囲として定義されているが、その他の大きさや形状の範囲が設定されていてもよい。

　また、例えば、図９の点線Ｃ２で囲まれる所定距離内に存在する競技者Ｈ１６１，Ｈ１６２について、それぞれの占有範囲Ｚ６１，Ｚ６２については、重なり合っている。このため、近接オブジェクト判定部９３は、競技者Ｈ１６１，Ｈ１６２が近接していると判定する。したがって、この場合、オブジェクト混合部９５は、競技者Ｈ１６１，Ｈ１６２のそれぞれの位置と姿勢情報に基づいて、相互のオブジェクトを１個のオブジェクトとして音声データを混合する。

　より詳細には、例えば、オブジェクト混合部９５は、競技者Ｈ１６１は正対している（表示部２２を視聴する視聴者に対して正対した状態で映っている）ので、直接音を100%とし、残響音を0%として混合し（＝直接音データ×1＋残響音データ×０）、競技者Ｈ１６２は斜め前方を向いているので、直接音を75%とし、残響音を25％として混合し（＝直接音データ×0.75＋残響音データ×0.25）、さらに、競技者Ｈ１６１，Ｈ１６２は、二人であるので、音声データを50%ずつで混合する（＝（直接音データ×1＋残響音データ×０）/2＋（直接音データ×0.75＋残響音データ×0.25）/2）。

　結果として、競技者Ｈ１６１，Ｈ１６２の音声データは、１個のオブジェクトの音声データとして混合される。

　さらに、例えば、図９の点線Ｃ３で囲まれる所定距離内に存在する競技者Ｈ１７１，Ｈ１７２について、それぞれの占有範囲Ｚ７１，Ｚ７２については、重なり合っている。このため、近接オブジェクト判定部９３は、競技者Ｈ１７１，Ｈ１７２が近接していると判定する。したがって、この場合、オブジェクト混合部９５は、競技者Ｈ１７１，Ｈ１７２との位置と姿勢との関係から、相互のオブジェクトを１個のオブジェクトとして音声データを混合する。

　より詳細には、例えば、オブジェクト混合部９５は、競技者Ｈ１７１の音声データは背を向けている（表示部２２を視聴する視聴者に対して反対方向の状態で映っている）ので、直接音を0%とし、残響音を100%として混合し（＝直接音データ×0＋残響音データ×1）、競技者Ｈ１７２は真横を向いているので、直接音を50%とし、残響音を50%とし（＝直接音データ×0.5＋残響音データ×0.5）、さらに、競技者Ｈ１７１，Ｈ１７２は、二人であるので、音声データを50%ずつで混合する（＝（直接音データ×1＋残響音データ×０）/2＋（直接音データ×0.5＋残響音データ×0.5）/2）。

　結果として、競技者Ｈ１７１，Ｈ１７２の音声データは、１個のオブジェクトの音声データとして混合される。また、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。

　尚、以上においては、近接状態となっている競技者が二人であった場合であるため、最後に2で割って加算した平均をとっていたが、3人以上の場合、それぞれの音声データの人数分で除した値の和を求めて、平均値とする。

　＜全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係＞
　次に、図１０を参照して、全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係について説明する。

　全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係は、図１０で示されるような関係となる。尚、図１０においては、縦軸がゲインであり、横軸がズーム倍率である。

　すなわち、全天周音声のゲインは、ズーム倍率が大きくなるにしたがって小さくなる。これに対して、オブジェクト音声は、ズーム倍率が大きくなるにしたがって大きくなる。

　このように制御されることで、ズーム倍率が高くなり、例えば、特定のオブジェクトである人物が大きく映し出されるような画像になると、全天周音声である周囲の音声はほぼ聞こえない状態となり、大きく映し出されたオブジェクトに対応する人物の会話や足音などがよく聞こえる状態となる。

　尚、全天周音声データについては、ゲイン調整部９９によるゲインの調整もなされるが、位相調整部９６が、位相を反転させることでもゲインを低減させる。

　＜収録処理＞
　次に、図１１のフローチャートを参照して、収録処理について説明する。

　ステップＳ１１において、端末１１の音声取得部５２は、端末１１を装着している競技者の周囲の音声を取得し、音声データとして制御部５１に出力する。

　ステップＳ１２において、GPS５２は、図示せぬ衛星から信号を受信し、受信した信号に基づいて、地球上の緯度および経度からなる位置情報を求めて、端末１１を装着している競技者の位置情報として制御部５１に出力する。

　ステップＳ１３において、モーションセンサ５４は、加速度を計測し、端末１１を装着している競技者の向きと姿勢を検出し、制御部５１に出力する。

　ステップＳ１４において、制御部５１は、音声データ、位置情報、並びに、向きおよび姿勢情報を、取得時刻を示す時刻情報、および端末を識別する識別子と対応付けて、収録データとして、通信部５５を制御して、収録部１２に送信する。

　ステップＳ３１において、収録部１２の制御部７１は、通信部７２を制御して、端末１１より送信された収録データを受信する。

　ステップＳ３２において、制御部７１は、受信した収録データを、収録データ格納部７３に格納する。

　ステップＳ３３において、制御部７１は、カメラ１２ａにより撮像された画像の画像データを取得して、収録データ格納部７３に格納する。

　ステップＳ３４において、制御部７１は、マイクロフォン１２ｂにより収録された全天周音声の音声データを取得し、収録データ格納部７３に格納する。

　ステップＳ１５，Ｓ３５において、処理の終了が指示されたか否かが判定されて、処理の終了が指示されていない場合、処理は、ステップＳ１１，Ｓ３１に戻る。すなわち、終了が指示されるまで、端末１１においては、ステップＳ１１乃至Ｓ１５の処理が繰り返され、収録部１２においては、ステップＳ３１乃至Ｓ３５の処理が繰り返される。

　そして、ステップＳ１５，Ｓ３５において、それぞれ処理の終了が指示されると、処理は、終了する。

　以上の処理により、収録部１２は、端末１１より送信されてくる収録データを、順次、収録データ格納部７３に格納する。また、収録部１２は、カメラ１２ａにより撮像された画像、および、マイクロフォン１２ｂにより収録された全天周音声の音声データも収録データ格納部７３に格納する。

　尚、端末１１からの収録データと、画像データおよび全天周音声の音声データは、いずれも端末１１を識別できる識別子と、情報やデータが取得された時刻を示す時刻情報が対応付けられて格納される。

　＜データ格納処理＞
　次に、図１２のフローチャートを参照して、データ格納処理について説明する。データ格納処理は、上述した収録処理により各端末１１より供給される収録データが収録データ格納部７３に格納された状態でなされる処理である。

　ステップＳ５１において、データ分離部７４は、収録データ格納部７３に格納されている収録データのうち、未処理の収録データを処理対象収録データに設定する。

　ステップＳ５２において、データ分離部７４は、処理対象収録データを、音声データ、位置情報、並びに、向きおよび姿勢情報に分離し、音声データをノイズ除去部７５に、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部７７に出力する。

　ステップＳ５３において、ノイズ除去部７５は、音声データよりノイズを除去して、残響分離部７６に出力する。

　ステップＳ５４において、残響分離部７６は、音声データを直接音データと残響音データとに分離し、直接音データを直接音データ格納部３１に格納し、残響音データを残響音データ格納部３２に格納する。

　ステップＳ５５において、オブジェクトメタデータ生成部７７は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部３３に格納する。ここで、オブジェクトメタデータは、オーディオフレーム単位で、時系列に格納される。

　ステップＳ５６において、データ分離部７４は、未処理の収録データが存在するか否かを判定し、未処理の収録データが存在する場合、処理は、ステップＳ５１に戻る。すなわち、全ての収録データに対して処理がなされるまで、ステップＳ５１乃至Ｓ５６の処理が繰り返される。そして、ステップＳ５６において、未処理の収録データがないとみなされた場合、処理は、ステップＳ５７に進む。

　ステップＳ５７において、データ分離部７４は、収録データ格納部７３に格納されている全天周音声の音声データを抽出し、ノイズ除去部７５に供給する。ノイズ除去部７５は、全天周音声の音声データよりノイズを除去して残響分離部７６に供給する。

　ステップＳ５８において、残響分離部７６は、全天周音声の音声データより残響音の分離を行わず、そのまま直接音データとして直接音データ格納部３１に格納する。すなわち、全天周音声については、直接音と残響音とを分けた処理をしないので、分離せず、そのまま直接音データとして直接音データ格納部３１に格納する。ただし、必要に応じて、全天周音声の音声データについても、直接音と残響音とに分離して管理するようにしてもよい。

　ステップＳ５９において、画像データ抽出部７８は、収録データ格納部７３に格納されている画像データを抽出し、画像データ格納部３４に格納する。

　以上の処理により、収録データ格納部７３において、端末１１毎に、すなわち、オブジェクト毎に格納されている収録データが順次読み出されて、音声データ、位置情報、並びに、向きおよび姿勢情報に分離される。そして、音声データが、ノイズ除去された後、直接音データと残響音データとに分離され、それぞれ、直接音データ格納部３１、および残響音データ格納部３２に格納される。また、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータが生成されて、オブジェクトメタデータ格納部３３に格納される。さらに、収録データ格納部７３に格納されている全天周音声の音声データが抽出されて、ノイズ除去されると、残響音と分離されずにそのまま直接音データ格納部３１に格納される。また、収録データ格納部７３に格納されている画像データが抽出されて、画像データ格納部３４に格納される。

　＜再生処理＞
　次に、図１３のフローチャートを参照して、再生処理について説明する。尚、再生処理については、上述したデータ格納処理がなされて、データ格納部１３に各種のデータが分離されて格納されていることが前提となる。

　ステップＳ７１において、制御部９０は、UI処理部９８を介して供給される、操作部１６が操作されて、ズーム操作がなされたことを示す操作信号が供給されたか否かに基づいて、ズーム操作の有無を判定する。ステップＳ７１において、ズーム操作がなされていない場合、処理は、ステップＳ８８に進む。

　ステップＳ８８において、制御部９０は、音声デコード部９４に対して通常の再生を指示する。これにより、音声デコード部９４は、直接音データ格納部３１に格納されている全天周音声の音声データを読み出してデコードし、位相調整部９６に出力する。位相調整部９６は、デコードされた全天周音声の音声データを、そのまま、すなわち、位相を調整することなく減衰させずに、3D音声レンダラ９７に供給する。3D音声レンダラ９７は、デコードされた全天周音声の音声データを音声出力部２１に出力し、音声として出力させる。また、この場合、ゲイン調整部９９は、ズーム操作がなされていない通常の再生であるので、全天周音声の音声データのゲインを最大に設定する。

　ステップＳ８９において、画像デコード部１００は、画像データ格納部３４より画像データを読み出して、デコードし、画像レンダラ１０１に出力する。画像レンダラ１０１は、デコードされた画像データをズームすることなく、画像の全体が表示されるようにレンダリングし、表示部２２に出力し、表示させる。

　処理は、ステップＳ８７に進み、終了が指示されたか否かが判定され、終了が指示されていない場合、処理は、ステップＳ７１に戻る。

　すなわち、ズーム処理がなされない通常再生の場合、ステップＳ７１，Ｓ８８，Ｓ８９，Ｓ８７の処理が繰り返されて、収録処理において、カメラ１２ａにより撮像された画像がそのまま表示部２２に表示され、また、全天周音声が音声出力部２１より出力され続ける。

　一方、ステップＳ７１において、操作部１６が操作されて、ズーム操作がなされた場合、処理は、ステップＳ７２に進む。

　ステップＳ７２において、制御部９０は、操作部１６によるズーム操作に対応するズーム倍率、およびズーム位置の情報を画像レンダラ１０１、メタパーサ部９１、オブジェクト混合部９５、位相調整部９６、およびゲイン調整部９９に供給する。

　ステップＳ７３において、画像レンダラ１０１は、ズーム倍率およびズーム位置の情報に基づいて、画像デコード部１００より供給されるデコードされた画像データをレンダリングして、ズーム画像を生成し、表示部２２に出力して表示させる。この処理により、収録時にカメラ１２ａにより撮像された画像から、操作部１６によるズーム操作に対応するズーム倍率で、かつ、ズーム位置のズーム画像が生成されて、表示部２２に表示される。

　ステップＳ７４において、音声デコード部９４は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、音声デコード部９４は、特定したオブジェクトの直接音データおよび残響音データを、直接音データ格納部３１および残響音データ格納部３２よりそれぞれ読み出してデコードし、オブジェクト混合部９５に出力する。

　ステップＳ７５において、メタパーサ部９１は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、メタパーサ部９１は、特定したオブジェクトのオブジェクトメタデータを、オブジェクトメタデータ格納部３３より読み出してオブジェクト位置姿勢指定部９２、および近接オブジェクト判定部９３に出力する。

　ステップＳ７６において、位相調整部９６は、全天周音声の前方再現音の位相を反転させて、実質的にゲインを減衰させる。

　ステップＳ７７において、ゲイン調整部９９は、全天周音声の再現音のゲインを減衰させる。

　すなわち、ステップＳ７６，Ｓ７７の処理により、図１０を参照して説明したように、ズーム倍率に応じて、全天周音声のゲインが低減される。

　ステップＳ７８において、オブジェクト混合部９５は、ズーム領域内に存在するオブジェクトのうち、未処理のオブジェクトを処理対象オブジェクトに設定する。

　ステップＳ７９において、オブジェクト位置姿勢指定部９２は、処理対象オブジェクトの位置情報、並びに、向きおよび姿勢情報に基づいて、位置情報と姿勢情報を特定してオブジェクト混合部９５に出力する。

　ステップＳ８０において、オブジェクト混合部９５は、処理対象オブジェクトの位置情報に基づいて、想定視聴位置を特定し、処理対象オブジェクトまでの距離に基づいて、直音声データに掛ける基本的なスプレッドとゲインとを設定する。すなわち、ここでは、想定視聴位置までの相対的な距離と、図１０を参照して説明した手法によりズーム倍率によりオブジェクト音声に対しての、基本的なスプレッドとゲインが設定される。

　ステップＳ８１において、オブジェクト混合部９５は、処理対象オブジェクトの姿勢情報に基づいて、処理対象オブジェクトが想定視聴位置に対して正対しているか否かを判定する。ステップＳ８１において、処理対象オブジェクトが想定視聴位置に対して正対していない場合、処理は、ステップＳ８２に進む。

　ステップＳ８２において、オブジェクト混合部９５は、向き姿勢調整処理を実行して、処理対象オブジェクトの想定視聴位置に対する向きに応じてスプレッドとゲインを調整する。

　＜向き姿勢調整処理＞
　ここで、図１４のフローチャートを参照して、向き姿勢調整処理について説明する。

　ステップＳ９１において、オブジェクト混合部９５は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音を減衰させるように直接音データを調整する。

　ステップＳ９２において、オブジェクト混合部９５は、処理対象オブジェクトの想定視聴位置に対する向きに応じて残響音を増幅させるように残響音データを調整する。

　ステップＳ９３において、オブジェクト混合部９５は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音のスプレッドを小さくさせるように直接音データを調整する。

　すなわち、処理対象オブジェクトが想定視聴位置に対して正対していないので、例えば、図７，図８を参照して説明したように、直接音のスプレッドが絞られると共に、減衰され、残響音が増幅されるようにして混合し、レンダリングされることにより生成される音声が、処理対象オブジェクトの向きと想定視聴位置との関係に対して適切な音声となるように調整される。

　ここで、図１２のフローチャートに戻る。

　一方、ステップＳ８１において、処理対象オブジェクトが想定視聴位置に対して正対している場合については、ステップＳ８２の処理がスキップされる。すなわち、この場合、処理対象オブジェクトが想定視聴位置に対して正対しているので、直接音のみが聴取できればよいので、残響音を混合する向き姿勢調整処理は不要となる。

　ステップＳ８３において、オブジェクト混合部９５は、未処理のオブジェクトが存在するか否かを判定し、未処理のオブジェクトが存在する場合、処理は、ステップＳ７８に戻る。すなわち、全てのオブジェクトに対応する基本的なスプレッドとゲインが調整されて、必要に応じて、正対していないオブジェクトに対して、向き姿勢調整処理により、直接音と残響音とが混合されるまで、ステップＳ７８乃至Ｓ８３の処理が繰り返される。そして、ステップＳ８３において、全てのオブジェクトに対して、直接音と残響音との調整がなされ、未処理のオブジェクトがないとみなされた場合、処理は、ステップＳ８４に進む。

　ステップＳ８４において、近接オブジェクト判定部９３は、近接調整処理を実行し、所定の距離内に存在するオブジェクト同士の占有範囲の近接の有無を判定し、近接があるとみなした場合、近接しているオブジェクト同士の直接音データおよび残響音データを、１個のオブジェクトとみなして混合する。

　＜近接調整処理＞
　ここで、図１５のフローチャートを参照して、近接調整処理について説明する。

　ステップＳ１１１において、近接オブジェクト判定９３は、所定の距離内に存在するオブジェクト同士をグルーピングする。例えば、サッカーや野球の場合、近接オブジェクト判定９３は、グランド内を所定のサイズの小領域に分割し、各オブジェクトの位置情報に基づいて、分割された同一の小領域内に複数のオブジェクトが含まれるとき、同一の領域内に存在する複数のオブジェクトを１つのグループにグルーピングする。ただし、小領域は、オブジェクトである競技者の一人分の占有範囲よりも広い範囲とする。

　ステップＳ１１２において、近接オブジェクト判定９３は、未処理のグループを処理対象グループに設定する。

　ステップＳ１１３において、近接オブジェクト判定９３は、図９を参照して説明したように、処理対象グループ内の各オブジェクトの占有範囲が重なっているか否かに基づいて、近接しているか否かを判定する。

　ステップＳ１１３において、オブジェクトのそれぞれの占有範囲が重なっており、近接していると判定された場合、処理は、ステップＳ１１４に進む。

　ステップＳ１１４において、近接オブジェクト判定部９３は、近接しているとみなされたオブジェクトを特定する情報をオブジェクト混合部９５に通知する。オブジェクト混合部９５は、近接しているとみなされたオブジェクト同士の直接音と残響音とを相互の距離、並びに、向きおよび姿勢の情報に基づいて、図９を参照して説明したように、混合することで調整する。

　尚、ステップＳ１１３において、近接していないとみなされた場合、ステップＳ１１４の処理はスキップされる。

　ステップＳ１１５において、近接オブジェクト判定９３は、未処理のグループが存在するか否かを判定し、未処理のグループがある場合、処理は、ステップＳ１１２に戻る。すなわち、全てのグループに対して近接判定がなされるまで、ステップＳ１１２乃至Ｓ１１１５の処理が繰り返される。

　そして、ステップＳ１１５において、未処理のグループがなくなった場合、処理は、終了する。

　すなわち、以上の処理により、近接する範囲内に存在するオブジェクト間の近接判定がなされて、近接している、すなわち、相互の占有範囲が重なっている場合については、相互の直接音データおよび残響音データが、相互の距離、並びに、向きおよび姿勢との関係に基づいて混合されて、１個のオブジェクトの直接音データおよび残響音データとして扱われる。結果として、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。

　ここで、図１３のフローチャートの説明に戻る。

　ステップＳ８４において、近接調整処理が終了すると、処理は、ステップＳ８５に進む。

　ステップＳ８５において、オブジェクト混合部９５は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データを3D音声レンダラ９７に出力する。3D音声レンダラ９７は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データ、位相調整部９６からの全天周音声の音声データ、およびゲイン調整部９９より供給されるゲインの情報に基づいて、音声レンダリングを施して、音声出力部２１に出力して、音声として出力させる。

　ステップＳ８７において、終了が指示されたか否かが判定されて、終了が指示されない場合、処理は、ステップＳ７１に戻り、終了が指示されるまで、ズーム操作がなされているときは、ステップＳ７１乃至Ｓ８７の処理が繰り返される。そして、ステップＳ８７において、終了が指示されると、処理が終了する。

　ここで、オブジェクトメタデータは、オーディオフレーム単位で時系列に構成されているため、繰り返されるステップＳ７１乃至Ｓ８７の一連の処理は、オーディオフレーム単位で、時系列に繰り返される。

　以上の処理により、ズーム画像に対応する想定視聴位置に応じて、オブジェクトの直接音と残響音とが適応的に混合されることにより、ズーム表示されている画像に適した音声を生成して、出力することが可能となる。また、ズーム画像に対応する想定視聴位置は、現実には入り込むことができない位置での音声の聴取を実現させることができるので、現実には体験不能な体験を仮想的に実現することが可能となる。

　以上においては、収録部１２においては、カメラ１２ａが１台である例について説明してきたが、複数のカメラ１２ａにより様々なアングルから撮像するようにしてもよい。この場合、撮像されていないアングルの画像を再生させる場合については、例えば、複数のカメラ１２ａにより撮像された画像を用いて、補間生成することで実現することができる。また、様々なアングルでの画像を再生できるようにした場合においても、ズーム画像を再生させる際と同様の手法により、アングルに応じた想定視聴位置に応じて、オブジェクト毎の直接音と残響音とを混合することで、表示される画像のアングルに対応した適切な音声を生成して、出力することが可能となる。

　＜＜３．ソフトウェアにより実行させる例＞＞
　ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。

　図１６は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタフェース１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

　入出力インタフェース１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

　CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体１０１１から読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記憶媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　尚、図１６におけるCPU１００１が、図６における制御部９０の機能を実現させる。また、図１６における記憶部１００８が、図６におけるデータ格納部１３を実現する。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　尚、本開示は、以下のような構成も取ることができる。

＜１＞　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
　前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
　情報処理装置。
＜２＞　前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
　＜１＞に記載の情報処理装置。
＜３＞　前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
　＜２＞に記載の情報処理装置。
＜４＞　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
　＜３＞に記載の情報処理装置。
＜５＞　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整する
　＜３＞に記載の情報処理装置。
＜６＞　前記ゲイン調整部は、
　　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
　　前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
　＜３＞に記載の情報処理装置。
＜７＞　前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
　前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
　＜３＞に記載の情報処理装置。
＜８＞　前記ゲイン調整部は、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、１個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
　＜７＞に記載の情報処理装置。
＜９＞　前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
　＜２＞に記載の情報処理装置。
＜１０＞　前記収録時に前記オブジェクトに装着される端末をさらに含み、
　前記端末は、
　　音声データを検出する音声データ検出部と、
　　位置情報を検出する位置情報検出部と、
　　オブジェクトの向きを検出する方向検出部とを有し、
　前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
　＜９＞に記載の情報処理装置。
＜１１＞　前記画像コンテンツの視点位置は変更することが可能である
　＜１＞に記載の情報処理装置。
＜１２＞　前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
　＜１１＞に記載の情報処理装置。
＜１３＞　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
　前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
　情報処理方法。
＜１４＞　コンピュータを、
　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
　前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
　プログラム。

　１　情報処理システム，　１１，１１－１乃至１１－ｎ　端末，　１２　収録部，　１２ａ　カメラ，　１２ｂ　マイクロフォン，　１３　データ格納部，　１４　再生部，　１５　HMD，　１６　操作部，　２１　音声出力部，　２２　表示部，　３１　直接音データ格納部，　３２　残響音データ格納部，　３３　オブジェクトデータ格納部，　３４　画像データ格納部，　５１　制御部，　５２　音声取得部，　５３　GPS，　５４　モーションセンサ，　５５　通信部，　７１　制御部，　７２　通信部，　７３　収録データ格納部，　７４　データ分離部，　７５　ノイズ除去部，　７６　残響分離部，　７７　オブジェクトメタデータ生成部，　７８　画像データ抽出部，　９０　制御部，　９１　メタパーサ部，　９２　オブジェクト位置姿勢指定部，　９３　近接オブジェクト判定部，　９４　音声デコード，　９５　オブジェクト混合部，　９６　位相調整部，　９７　3D音声レンダラ，　９８　UI処理部，　９９　ゲイン調整部，　１００　画像デコード部，　１０１　画像レンダラ

Claims

　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
　前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
　情報処理装置。
　前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
　請求項１に記載の情報処理装置。
　前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
　請求項２に記載の情報処理装置。
　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
　請求項３に記載の情報処理装置。
　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記残響音データの混合比を略1:0に調整することで音量ゲインを調整する
　請求項３に記載の情報処理装置。
　前記ゲイン調整部は、
　　前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
　　前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
　請求項３に記載の情報処理装置。
　前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
　前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
　請求項３に記載の情報処理装置。
　前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、１個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
　請求項７に記載の情報処理装置。
　前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
　請求項２に記載の情報処理装置。
　前記収録時に前記オブジェクトに装着される端末をさらに含み、
　前記端末は、
　　音声データを検出する音声データ検出部と、
　　位置情報を検出する位置情報検出部と、
　　オブジェクトの向きを検出する方向検出部とを有し、
　前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
　請求項９に記載の情報処理装置。
　前記画像コンテンツの視点位置は変更することが可能である
　請求項１に記載の情報処理装置。
　前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
　請求項１１に記載の情報処理装置。
　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
　前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
　情報処理方法。
　コンピュータを、
　視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
　前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
　前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
　プログラム。