JPWO2015162947A1

JPWO2015162947A1 - 情報再生装置及び情報再生方法、並びに情報記録装置及び情報記録方法

Info

Publication number: JPWO2015162947A1
Application number: JP2016514734A
Authority: JP
Inventors: 誉今; 長谷川　雄一; 雄一長谷川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-04-22
Filing date: 2015-01-19
Publication date: 2017-04-13
Anticipated expiration: 2035-01-19
Also published as: EP3136713A4; JP6565903B2; WO2015162947A1; CN106165402A; EP3136713A1; US20170127035A1

Abstract

エンターテインメント性が高く、退屈しないコンテンツを提供するとともに、臨場感を与えることができるように、音と画像の情報を記録し再生する。記録時には、複数台のカメラで撮影した画像情報を各カメラの位置及び姿勢情報と併せて記録するととともに、複数の音源からの音響情報を各音源の位置情報と併せて記録するようにしている。そして、再生時には、視聴者の位置（視線方向）における画像を再生するとともに、視聴者の位置に音像を定位させることで、エンターテインメント性の高い、退屈しないコンテンツを提供するとともに、臨場感のある音響を与える。

Description

本明細書で開示する技術は、記録された音声や画像を再生する情報再生装置及び情報再生方法、並びに、音声や画像などの情報を記録する情報記録装置及び情報記録方法に関する。

映画やライブ・コンテンツを再生する際、画像に合わせて音を左右に定位させることで、視聴者に臨場感を与えることができる。

例えば、５．１チャンネル・サラウンド・システムは、５つのスピーカーと１つのサブウーファー・スピーカーで構成されるステレオ再生システムであり、ＩＴＵ−ＲＢＳ７７５（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎＲａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｅｃｔｏｒ）の規定に従ってスピーカーを配置し、それぞれのチャンネルに対応するスピーカーから異なる音波を出力することで、受聴者に臨場感のある音を聴かせることができる。

ステレオ再生システムは目的となる音像定位を得られる範囲が狭いという問題がある。これに対し、原音場で音源が作る波面を収録し、収録した波面を基に現音場とは別の空間で波面合成技術を用いて波面を再現するマルチチャンネル・オーディオ・システムが知られている。例えば、想定されていたスピーカー数やスピーカー間隔のスペックから、実際に使用する再生装置に応じて波面合成再生信号を演算し、合成音場を再生する波面合成信号変換装置について提案がなされている（例えば、特許文献１を参照のこと）。

また、定位させたい音源位置から受聴者の両耳までの頭部伝達関数（Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ：ＨＲＴＦ）を音源信号に付与し、あたかも所望の位置に音源があるかのように音像を定位させる方法が知られている。例えば、受聴者の周囲に設置した２つ以上の複数スピーカーから再生された音を仮想位置に定位させる際に、マルチチャンネルの入力信号の重心を算出し、その重心位置に応じて決定された重み係数を仮想音像生成処理に反映して入力信号を再生することにより、仮想音像の定位効果をより強調し、音場の包まれ感を向上する音響再生装置について提案がなされている（例えば、特許文献２を参照のこと）。

特開２０１３−１２８３１４号公報特開２０１１−２１１３１２号公報

本明細書で開示する技術の目的は、記録された音声や画像を再生することができる、優れた情報再生装置及び情報再生方法を提供することにある。

また、本明細書で開示する技術の目的は、音声や画像などの情報を好適に記録することができる、優れた情報記録装置及び情報記録方法を提供することにある。

本願は、上記課題を参酌してなされたものであり、請求項１に記載の技術は、
画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算部と、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理部と、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理部と、
を具備する情報再生装置である。

本願の請求項２に記載の技術によれば、請求項１に記載の情報再生装置の前記位置情報計算部は、撮影に用いたカメラの位置及び姿勢情報に基づいて、視聴者の位置を計算するように構成されている。

本願の請求項３に記載の技術によれば、請求項１に記載の情報再生装置の前記位置情報計算部は、視聴者の現実の動作又は位置に基づいて、視聴者の位置を計算するように構成されている。

本願の請求項４に記載の技術によれば、請求項１に記載の情報再生装置の前記位置情報計算部は、複数のカメラ間の重心位置に基づいて、視聴者の位置を計算するように構成されている。

本願の請求項５に記載の技術によれば、請求項１に記載の情報再生装置の前記位置情報計算部は、パンニング、切り替え頻度に基づいて重み付けした複数のカメラ間の重心位置に基づいて、視聴者の位置を計算するように構成されている。

本願の請求項６に記載の技術によれば、請求項１に記載の情報再生装置の前記画像処理部は、視聴者の位置のカメラで撮影したカメラの画像に基づいて、視聴者の位置における画像を生成するように構成されている。

本願の請求項７に記載の技術によれば、請求項１に記載の情報再生装置の前記画像処理部は、複数のカメラの撮影画像を用いて、視聴者の位置における視点補間画像を生成するように構成されている。

本願の請求項８に記載の技術によれば、請求項７に記載の情報再生装置の前記音声処理部は、視点補間した位置に音像を定位するように構成されている。

本願の請求項９に記載の技術によれば、請求項７に記載の情報再生装置の前記音声処理部は、視聴者から集音した発話情報を視点補間した位置に基づいて音像定位するように構成されている。

本願の請求項１０に記載の技術によれば、請求項７に記載の情報再生装置の前記画像処理部は、視点補間画像内で視聴者に対応する場所にアバター又は視聴者の位置情報を表示するように構成されている。

本願の請求項１１に記載の技術によれば、請求項１に記載の情報再生装置の前記音声処理部は、視聴者の位置からの視点画像に含まれる音源の絶対位置情報を視聴者の位置に対する相対位置に変換して、視点画像における音像の音像を定位するように構成されている。

また、本願の請求項１２に記載の技術は、
画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算ステップと、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理ステップと、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理ステップと、
を有する情報再生方法である。

また、本願の請求項１３に記載の技術は、
カメラの撮影画像とカメラの位置及び姿勢情報を記録する画像情報記録部と、
音源の位置情報を記録する音声情報記録部と、
を具備する情報記録装置である。

本願の請求項１４に記載の技術によれば、請求項１３に記載の情報記録装置の前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のパケット形式で記録し、前記音声情報記録部は、音源の位置情報を音声用のパケット形式で記録するように構成されている。

本願の請求項１５に記載の技術によれば、請求項１３に記載の情報記録装置の前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のトラックに記録し、前記音声情報記録部は、音源の位置情報を音声用のトラックに記録するように構成されている。

本願の請求項１６に記載の技術によれば、請求項１３に記載の情報記録装置の前記画像情報記録部は、カメラから受信した撮影画像と、カメラ位置センサーから受信した位置及び姿勢情報を記録するように構成されている。

本願の請求項１７に記載の技術によれば、請求項１３に記載の情報記録装置の前記音声情報記録部は、音源検出装置から受信した音源の位置情報を記録するように構成されている。

本願の請求項１８に記載の技術によれば、請求項１３に記載の情報記録装置の前記音声情報記録部は、音源検出装置から受信した音声情報又は後で録音された音声情報をその音源の位置情報とともに記録するように構成されている。

本願の請求項１９に記載の技術によれば、請求項１３に記載の情報記録装置は、画像記録用の同期信号（クロック）に同期し、あるいは分周、間引かれたタイミング信号を基準に、カメラの位置及び姿勢情報、音源の位置情報を記録するように構成されている。

また、本願の請求項２０に記載の技術は、
カメラの撮影画像とカメラの位置及び姿勢情報を受信するステップと、
受信したカメラの撮影画像とカメラの位置及び姿勢情報を記録するステップと、
音源の位置情報を受信するステップと、
受信した音源の位置情報を記録する音声情報記録部と、
を有する情報記録方法である。

本明細書で開示する技術によれば、エンターテインメント性が高く、退屈しないコンテンツを提供するとともに、臨場感を与えることができるように、音と画像の情報を記録し再生することができる、優れた情報記録装置及び情報記録方法、並びに情報再生装置及び情報再生方法を提供することができる。

なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、画像及び音声の情報を記録する記録システム１００の構成例を模式的に示した図である。図２は、各カメラ１１０−１、１１０−２、…及びマイク１２０−１、１２０−２、…が実空間上に配置されている様子を模式的に示した図である。図３は、画像及び音声の情報を記録する記録システム３００の他の構成例を模式的に示した図である。図４は、各カメラ３１０−１、３１０−２、…及び音位置センサー３２０−１、３２０−２、…が実空間上に配置されている様子を模式的に示した図である。図５は、カメラの撮影画像（動画又は静止画）をカメラの位置及び姿勢情報と併せて記録するとともに、発話者などの音源からの音声情報を音源の位置情報と併せて記録する記録フォーマット例を示した図である。図６は、カメラの撮影画像（動画又は静止画）をカメラの位置及び姿勢情報と併せて記録するとともに、発話者などの音源からの音声情報を音源の位置情報と併せて記録する記録フォーマットの他の例を示した図である。図７は、記録システム３００内でカメラや発話者の位置情報を伝送するパケット５００の構成例を示した図である図８は、カメラや音源の位置情報に含まれるデータを例示した図である。図９は、ヘッド・マウント・ディスプレイ９００の外観構成を示した図（斜視図）である。図１０は、ヘッド・マウント・ディスプレイ９００の外観構成を示した図（左側面図）である。図１１は、位置情報とともに記録した画像情報及び音声情報を再生する画像表示システム１１００の構成例を模式的に示した図である。図１２は、画像表示システム１１００の変形例を模式的に示した図である。図１３は、図１１又は図１２に示した画像表示システム１１００において、ユーザーの頭部の動きに追従した画像を表示装置１１４０で表示する仕組みを示した図である。図１４は、描画装置１１３０内の描画処理部１１３２の構成を模式的に示した図である。図１５は、画像及び音声を再生する処理手順を示したフローチャートである。図１６は、ユーザーに画像及び音声を提供する空間において、仮想ポイントを決定、配置する様子を示した図である。図１７は、画像及び音声を再生する際に、仮想ポイントに音像を定位する様子を示した図である。図１８は、ヘッド・マウント・ディスプレイで画像及び音声を再生する様子を示した図である。図１９は、任意の場所に配置した視点の画像を提示する例を示した図である。図２０は、視点補間画像をヘッド・マウント・ディスプレイで再生する様子を示した図である。図２１は、画像を再生するヘッド・マウント・ディスプレイの着用者も発話体として扱い、その発話内容を音像定位する様子を示した図である。

以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

波面合成技術や頭部伝達関数などの手法を用いて音像定位を行なう場合（例えば、特許文献１、２を参照のこと）、一般的には、画像及び音の記録時にカメラからオブジェクト（発話者、音源）までの相対位置を記録しておき、再生時にはその相対位置情報に応じて音像を定位させることが考えられる。

１台のカメラで撮影を行なうのであれば、このような音像定位方法で臨場感を与えることができる。しかしながら、ライブ・コンテンツなどで、１台のカメラからの画像を流し続けるのは、視聴者にとって面白味がない。

複数台のカメラで全周囲画像を撮影し、再生時には、アングルを適宜変え、ズームしたり移動したりした画像を見せることで、エンターテインメント性の高い、退屈しないコンテンツを提供することができる。

ところが、カメラ・アングルが切り換わると、カメラから音源までの相対位置も変化することから、音像定位する位置が急激に変化してしまい、不自然である。

そこで、本明細書で開示する技術では、画像及び音声の情報の記録時には、複数台のカメラで撮影した画像情報を各カメラの位置及び姿勢情報と併せて記録するとともに、複数の音源からの音声情報を各音源の位置情報と併せて記録するようにしている。そして、再生時には、視聴者の位置をある点に設定し、視聴者の位置（視線方向）における画像を再生するとともに、視聴者の位置に音像を定位させることで、エンターテインメント性の高い、退屈しないコンテンツを提供するとともに、自然で臨場感がある音響を与えることができる。視聴者の位置は、例えば、画像を提供する空間の真ん中など代表的な位置とすればよく、撮影に用いた複数のカメラの重心位置でもよい。

図１には、画像及び音声の情報を記録する記録システム１００の構成例を模式的に示している。図示の記録システム１００は、実空間上に配置された複数台のカメラ１１０−１、１１０−２、…及び複数台のマイク１２０−１、１２０−２、…と、各カメラ１１０−１、１１０−２、…及びマイク１２０−１、１２０−２、…に同期信号を供給する同期信号生成装置１３０と、記録装置１４０で構成される。

図２には、各カメラ１１０−１、１１０−２、…及びマイク１２０−１、１２０−２、…が実空間上に配置されている様子を模式的に示している。図示の例では、発話者２０１、２０２、…毎にマイク１２０−１、１２０−２、…が設置されている（又は、被写体となる各発話者２０１、２０２、…がそれぞれマイク１２０−１、１２０−２、…を所持している）。各カメラ１１０−１、１１０−２、…は、それぞれの視点から発話者２０１、２０２、…を撮影している。

再び図１を参照して、記録システム１００について説明する。同期信号生成装置１３０は、ＧｅｎＬｏｃｋといわれる、例えば３０ｆｐｓのマスタークロックとしての同期信号を、各カメラ１１０−１、１１０−２、…に供給する。各カメラ１１０−１、１１０−２、…は、この同期信号ＧｅｎＬｏｃｋを受けて、発話者２０１、２０２、…を撮影する。そして、記録装置１４０は、同期信号生成装置１３０から受信する同期信号に基づいて、各カメラ１１０−１、１１０−２、…の画像信号を同期して記録する。

また、同期信号生成装置１３０は、ＷｏｒｄＣｌｏｃｋといわれる同期信号を、各マイク１２０−１、１２０−２、…に供給する。各マイク１２０−１、１２０−２、…は、ＷｏｒｄＣｌｏｃｋに基づいて、４８ｋＨｚや９６ｋＨｚといったサンプリング・レートで、発話者２０１、２０２、…の音声を集音する。そして、記録装置１４０は、同期信号生成装置１３０から受信する同期信号に基づいて、各マイク１２０−１、１２０−２、…で集音した音声信号を同期して記録する。

同期信号生成装置１３０は、画音（画像と音声）のために、ＷｏｒｄＣｌｏｃｋとＧｅｎＬｏｃｋを同期させている。したがって、記録装置１４０で記録する画音が一致する。また、ＷｏｒｄＣｌｏｃｋやＧｅｎＬｏｃｋに加えて、ＳＭＰＴＥ（ＳｏｃｉｅｔｙｏｆＭｏｔｉｏｎＰｉｃｔｕｒｅａｎｄＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ）で規定されるタイムコードも埋め込むようにしてもよい。

また、図１及び図２に示す記録システム１００では、カメラ１１０−１、１１０−２、…やマイク１２０−１、１２０−２、…などの機材は、位置情報送信機を含んでいる。各カメラ１１０−１、１１０−２、…は撮影した画像信号とともに自分の位置及び姿勢情報を記録装置１４０に送信する。また、各マイク１２０−１、１２０−２、…は、集音した音声信号とともに自分（発話者）の位置情報を記録装置１４０に送信する。

記録装置１４０は、ＧｅｎＬｏｃｋと同期したクロックを用いて、各カメラ１１０−１、１１０−２、…で撮影された画像信号を各々の位置及び姿勢情報と対応付けて記録する。また、記録装置１４０は、ＷｏｒｄＣｌｏｃｋと同期したクロックを用いて、各マイク１２０−１、１２０−２、…で集音された音声情報を各々の位置情報と対応付けて記録する。

図１に示した記録システム１００は、画像及び音声の情報の記録時に、複数台のカメラで撮影した画像情報を各カメラの位置及び姿勢情報と併せて記録するととともに、複数の音源からの音声情報を各音源の位置情報と併せて記録する。

図５には、カメラの撮影画像（動画又は静止画）をカメラの位置及び姿勢情報と併せて記録するとともに、発話者などの音源からの音声情報を音源の位置情報と併せて記録する記録フォーマット例を示している。図示の記録フォーマット５００は、画像情報と音声情報がパケット用に多重化されている。

カメラの撮影画像を格納するパケットのヘッダー部５０１には、ｍ番目のカメラの撮影画像であることと提示時間（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）が記載され、ペイロード部５０２には、そのカメラで撮影した動画（又は静止画）が格納される。カメラの位置及び姿勢情報を格納するパケットのヘッダー部５１１には、ｍ番目のカメラの位置及び姿勢画像であることとサンプリングの開始時刻並びにサンプリング・レートが記載され、ペイロード部５１２にはそのカメラの位置情報が格納される。また、パンニングや切り替え頻度などのカメラワークに関する情報を、位置及び姿勢情報とともにペイロード部５１２に格納するようにしてもよい。パンニングや切り替え頻度などの情報を、音像定位が好ましい座標を決定する際に使用することもある（後述）。

また、音声情報（発話者の音声）を格納するパケットのヘッダー部５２１には、ｎ番目の発話者の音声であることと提示時間（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）が記載され、ペイロード部５２２には、その発話者の音声情報が格納される。また、音源である発話者の位置情報を格納するパケットのヘッダー部５３１には、ｎ番目の発話者の位置画像であることとサンプリングの開始時刻並びにサンプリング・レートが記載され、ペイロード部５３２にはその発話者の位置情報が格納される。

図５に示した記録フォーマットでは、画像記録用の同期信号（クロック）に同期し、あるいは分周、間引かれたタイミング信号を基準に、カメラの位置及び姿勢情報、音源の位置情報を記録することができる。

また、図６には、カメラの撮影画像（動画又は静止画）をカメラの位置及び姿勢情報と併せて記録するとともに、発話者などの音源からの音声情報を音源の位置情報と併せて記録する記録フォーマットの他の例を示している。図示の記録フォーマット６００は、画像情報と音声情報をそれぞれ別トラック、別ファイルに記録されている。

カメラの撮影画像を格納するトラックのヘッダー部６０１には、ｍ番目のカメラの撮影画像であることと提示時間（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）が記載され、ペイロード部６０２には、そのカメラで撮影した動画（又は静止画）が格納される。カメラの位置情報を格納するトラックのヘッダー部６１１には、ｍ番目のカメラの位置画像であることとサンプリングの開始時刻並びにサンプリング・レートが記載され、ペイロード部６１２にはそのカメラの位置情報が格納される。また、音声情報（発話者の音声）を格納するトラックのヘッダー部６２１には、ｎ番目の発話者の音声であることと提示時間（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）が記載され、ペイロード部６２２には、その発話者の音声情報が格納される。また、音源である発話者の位置情報を格納するトラックのヘッダー部６３１には、ｎ番目の発話者の位置画像であることとサンプリングの開始時刻並びにサンプリング・レートが記載され、ペイロード部６３２にはその発話者の位置情報が格納される。

図６に示した記録フォーマットでは、画像記録用の同期信号（クロック）に同期し、あるいは分周、間引かれたタイミング信号を基準に、カメラの位置及び姿勢情報、音源の位置情報を記録することができる。

なお、映画やテレビドラマ、音楽プロモーション・ビデオのように、アフター・レコーディング、すなわち撮影した後に別途音声を録音するという制作方法がとられることもある。このような場合、各マイク１２０−１、１２０−２、…では、撮影現場では集音並びに録音はせず、発話者（歌い手、話して、発音物）の位置情報を記録することが重要である。この場合、図５中の音声情報（発話者の音声）を格納するパケットは不要であり、音源である発話者の位置情報を格納するパケットがあればよい。また、図６中の音声情報（発話者の音声）を格納するトラックは不要であり、音源である発話者の位置情報を格納するトラックがあればよい。

また、図３には、画像及び音声の情報を記録する記録システム３００の他の構成例を模式的に示している。

図示の記録システム３００は、実空間上に配置された複数台のカメラ３１０−１、３１０−２、…を含んでいる。各カメラ３１０−１、３１０−２、…には、位置情報を検出するための位置センサーが装備されている。位置センサーは、例えば、加速度センサー、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）センサー、地磁気センサーのうちいずれか１つ又は２以上の組み合わせで構成される。あるいは、位置センサーは、カメラの撮影画像の画像認識により位置情報を取得するものであってもよい。

また、記録システム３００は、撮影現場で音声を集音するマイクに代えて、発話者（歌い手、話し手、発音物）など音源となる各オブジェクトの位置を検出する音位置センサー３２０−１、３２０−２、…を含んでいる。記録システム３００では、映画やテレビドラマ、音楽プロモーション・ビデオのように、アフター・レコーディング、すなわち撮影した後に別途音声を録音するという制作方法がとられるものとする。

さらに、記録システム３００は、各カメラ３１０−１、３１０−２、…並びに音位置センサー３２０−１、３２０−２、…に同期信号を供給する同期信号生成装置３３０と、各カメラ３１０−１、３１０−２、…並びに音位置センサー３２０−１、３２０−２、…から位置情報を受信する位置情報受信装置３４０と、記録装置３５０を含んでいる。

図４には、各カメラ３１０−１、３１０−２、…及び音位置センサー３２０−１、３２０−２、…が実空間上に配置されている様子を模式的に示している。図示の例では、発話者４０１、４０２、…毎に音位置センサー３２０−１、３２０−２、…が設置されている（又は、各発話者４０１、４０２、…に音位置センサー３２０−１、３２０−２、…が取り付けられている）。各カメラ３１０−１、３１０−２、…は、それぞれの視点から発話者４０１、４０２、…を撮影している。

再び図３を参照して、記録システム３００について説明する。同期信号生成装置３３０は、ＧｅｎＬｏｃｋといわれる、例えば３０ｆｐｓのマスタークロックとしての同期信号を、各カメラ３１０−１、３１０−２、…に供給する。各カメラ３１０−１、３１０−２、…は、この同期信号ＧｅｎＬｏｃｋを受けて、発話者４０１、４０２、…を撮影する。また、各カメラ３１０−１、３１０−２、…の位置センサーは、ＧｅｎＬｏｃｋに同期して位置情報を取得する。各カメラ３１０−１、３１０−２、…は、画像信号を記録装置３５０に送信する。また、各カメラ３１０−１、３１０−２、…の位置センサーは、位置情報を位置情報受信装置３４０に送信し、位置情報受信装置３４０は収集した位置情報を記録装置３５０に送信する。

また、同期信号生成装置３３０は、ＷｏｒｄＣｌｏｃｋといわれる同期信号を、各音位置センサー３２０−１、３２０−２、…に供給する。各音位置センサー３２０−１、３２０−２、…は、ＷｏｒｄＣｌｏｃｋに基づいて、４８ｋＨｚや９６ｋＨｚといったサンプリング・レートで、発話者４０１、４０２、…の位置情報を取得して、位置情報受信装置３４０に送信する。位置情報受信装置３４０は収集した位置情報を記録装置３５０に送信する。

図３に示す記録システム３００において、位置情報や姿勢情報を収録するための同期信号ＷｏｒｄＣｌｏｃｋ、ＧｅｎＬｏｃｋはともに同期しているものである。具体的には、画像と同等かオーディオと同等、あるいは人間の音の移動近くの遅延限界と考えられるレートになる。

図７には、記録システム３００内でカメラ３１０−１、３１０−２、…や各発話者（音位置センサー３２０−１、３２０−２、…）の位置情報を伝送するパケット７００の構成例を示している。図示のパケット７００は、ヘッダー部７０１と位置情報部７０２で構成される。ヘッダー部７０１には、サンプリングの開始時刻Ｔｓとサンプリング・レートＦｓが記載される。また、位置情報部７０２には、サンプリングの開始時刻Ｔｓからサンプリング周期１／Ｆｓ毎に検出した位置情報ＰＯＳ（Ｔｓ）、ＰＯＳ（Ｔｓ＋１×１／Ｆｓ）、ＰＯＳ（Ｔｓ＋２×２／Ｆｓ）、…が格納される。但し、ＰＯＳ（ｔ）は時刻ｔにおける位置情報である。図８に示すように、ＰＯＳ（ｔ）は、ｘｙｚ座標（ｘ，ｙ，ｚ）又は極座標（ｒ，θ，φ）で表される位置情報と、（Θ，Φ）で表される姿勢情報を含むものとする。姿勢情報は、クォータニオン（回転軸（ベクトル）と回転角（スカラー）からなる４元数）で表してもよい。

図３に示した記録システム３００は、画像及び音声の情報の記録時に、複数台のカメラで撮影した画像情報を各カメラの位置及び姿勢情報と併せて記録するととともに、複数の音源からの音声情報を各音源の位置情報と併せて記録する。なお、アフター・レコーディング、すなわち撮影した後に別途音声を録音するという制作方法がとられる場合、発話者の位置と連動した個所に位置情報と連動して、従来のプロモーション・ビデオ撮影の手法のようにレコーディング・トラックを当てはめたり差し替えたりする。図３に示した記録システム３００でも、図５に示したパケット構造や図６に示したトラック構造により、画像情報と音声情報をそれぞれの位置情報とともに記録することができる。

図１又は図３に示した記録システム１００、３００により位置情報とともに記録した画像情報及び音声情報を再生する場合、視聴者の位置（視線方向）における画像を再生するとともに、視聴者の位置に音像を定位させることで、エンターテインメント性の高い、退屈しないコンテンツを提供するとともに、臨場感のある音響を与えることができる。

例えば、位置情報や姿勢情報とともに記録した画像情報及び音声情報を、ヘッド・マウント・ディスプレイのような画像表示システムで再生する場合、ユーザーの頭部の動きに追従させた全空間の３６０度の画像を提供することができる。ユーザーの頭部に取り付けられた頭部動作追跡装置が検出した頭部の動きを打ち消すように、広角画像中で表示領域を移動させることで、頭部の動きに追従した画像を再現することができ、ユーザーは全空間を見渡すような体験をする。

図９並びに図１０には、画像を観察するユーザーの頭部又は顔部に固定して用いられるヘッド・マウント・ディスプレイ９００の外観構成を示している。但し、図９はヘッド・マウント・ディスプレイ９００の斜視図であり、図１０はヘッド・マウント・ディスプレイ９００の左側面図である。

図示のヘッド・マウント・ディスプレイ９００は、帽子形状、若しくは、頭部の全周を包む帯状の構造とし、装置の荷重を頭部全体に分散させて、ユーザーの負担を軽減して装着することができる。

ヘッド・マウント・ディスプレイ９００は、表示系統を含む大部分の部品を含んだ本体部９０１と、本体部９０１の上面から突設した額当て部９０２と、上バンド９０４及び下バンド９０５に分岐されるヘッド・バンドと、左右のヘッドフォンからなる。本体部９０１内には、表示部や回路基板が収容される。また、本体部９０１の下方には、鼻背に倣うように鼻当て部９０３が形設されている。

ユーザーがヘッド・マウント・ディスプレイ９００を頭部に装着したとき、額当て部９０２がユーザーの額に当接するとともに、ヘッド・バンドの上バンド９０４及び下バンド９０５がそれぞれ頭部の後方に当接する。すなわち、額当て部９０２、上バンド９０４、下バンド９０５の３点支持によって、ヘッド・マウント・ディスプレイ９００がユーザーの頭部に装着される。したがって、主に鼻当て部で重量を支える通常の眼鏡の構造とは相違し、このヘッド・マウント・ディスプレイ９００は、その荷重を頭部全体に分散させて、ユーザーの負担を軽減して装着することができる。図示のヘッド・マウント・ディスプレイ９００も鼻当て部９０３を備えているが、補助的な支持しか寄与しない。また、額当て部９０２をヘッド・バンドで締め付けることで、ヘッド・マウント・ディスプレイ９００が装着されたユーザーの頭部から回転しないように、回転方向の動きを支持することができる。

図１１には、位置情報とともに記録した画像情報及び音声情報を再生する画像表示システム１１００の構成例を模式的に示している。図示の画像表示システム１１００は、頭部動作追跡装置１１２０と、描画装置１１３０と、表示装置１１４０で構成される。

表示装置１１４０は、例えば、図９並びに図１０に示したヘッド・マウント・ディスプレイ９００として構成され、画像を観察するユーザーの頭部に装着して用いられる。

頭部動作追跡装置１１２０は、表示装置１１４０が表示する画像を観察するユーザーの頭部の姿勢情報を所定の送信周期毎に描画装置１１３０に出力する。図示の例では、頭部動作追跡装置１１２０は、センサー部１１２１と、姿勢角演算部１１２２と、得られた姿勢情報を描画装置１１３０に送信する送信部１１２３を備えている。

頭部動作追跡装置１１２０は、ヘッド・マウント・ディスプレイ９００として構成される表示装置１１４０の本体部９０１内に搭載することもできる。但し、本実施形態では、表示装置１１４０の小型・軽量化、低廉化などを意図して、頭部動作追跡装置１１２０は、表示装置１１４０に外付けされるオプション製品として提供されるものとする。頭部動作追跡装置１１２０は、例えばアクセサリーとして、ヘッド・マウント・ディスプレイ９００の上バンド９０４、下バンド９０５、額当て部９０２などのいずれかの場所に取り付けて用いられる。

センサー部１１２１は、例えば、ジャイロ・センサーと加速度センサーと地磁気センサーなど複数のセンサー素子を組み合わせて構成されている。ここでは、３軸ジャイロ・センサー、３軸加速度センサー、３軸地磁気センサーの合計９軸を検出可能なセンサーとする。姿勢角演算部１１２２は、センサー部１１２１による９軸の検出結果に基づいて、ユーザーの頭部の姿勢情報を演算する。送信部１１２３は、求められた姿勢情報を描画装置１１３０に送信する。

図示の画像表示システム１１００では、頭部動作追跡装置１１２０と描画装置１１３０間はＢｌｕｅｔｏｏｔｈ（登録商標）通信などの無線通信により相互接続されているものとする。勿論、無線通信ではなく、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）のような高速な有線インフェース経由で頭部動作追跡装置１１２０と描画装置１１３０間を接続するようにしてもよい。

描画装置１１３０は、表示装置１１４０で再生出力する画像及び音声のレンダリング処理を行なう。描画装置１１３０は、例えばスマートフォンなどのＡｎｄｒｏｉｄ（登録商標）搭載端末、あるいはパーソナル・コンピューター、ゲーム機として構成されるが、これらの装置に限定される訳ではない。また、描画装置１１３０は、インターネット上のサーバー装置であってもよい。頭部動作追跡装置１１２０は、ユーザーの頭部姿勢・位置情報を、描画装置１１３０としてのサーバーに送信し、描画装置１１３０は、受信した頭部姿勢・位置情報に対応する動画像ストリームを生成すると、表示装置１１４０にストリーム送信する。

図示の例では、描画装置１１３０は、頭部動作追跡装置１１２０から姿勢情報を受信する受信部１１３１と、姿勢情報に基づいて画像及び音声のレンダリング処理を行なう描画処理部１１３２と、レンダリングした画像を表示装置１１４０に送信する送信部１１３３と、画像及び音声のデータ・ストリームを供給源から取り込むコンテンツ入力部１１３４を備えている。

受信部１１３１は、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信などを介して、頭部動作追跡装置１１２０からユーザーの位置情報並びに姿勢情報を受信する。上述したように、姿勢情報は回転マトリックスで表現されている。

コンテンツ入力部１１３４は、例えば、図１や図３に示した記録装置１４０、３４０、あるいは、記録装置１４０、３４０に図６に示した形式で記録されている画像及び音声コンテンツを読み出す再生装置、又は、記録装置１４０、３４０に図５に示した形式で記録されている画像及び音声コンテンツをネットワーク経由又は放送信号として受信する受信装置（放送チューナー、通信インターフェース）などからなる。

描画処理部１１３２は、コンテンツ入力部１１３４から供給される画像及び音声データから、表示装置１１４０側で表示する画像及び音声にレンダリングする。本実施形態では、描画処理部１１３２は、表示装置１１４０としてのヘッド・マウント・ディスプレイ９００を着用するユーザーの位置及び姿勢情報（視線方向）に対応した画像を生成するとともに、ユーザーの位置に音像を定位させることで、エンターテインメント性の高い、退屈しないコンテンツを提供するとともに、臨場感のある音響を与える。描画処理部１１３２で画像及び音声をレンダリングする処理の詳細については後述に譲る。

描画装置１１３０と表示装置１１４０間は、例えばＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）やＭＨＬ（ＭｏｂｉｌｅＨｉｇｈ−ｄｅｆｉｎｉｔｉｏｎＬｉｎｋ）などの有線ケーブルにより接続されている。あるいは、ｗｉｒｅｌｅｓｓＨＤやＭｉｒａｃａｓｔのような無線通信で接続してもよい。送信部１１３３は、いずれかの通信路を用いて、描画処理部１１３２でレンダリングされた画像及び音声データを非圧縮のまま表示装置１１４０に送信する。

表示装置１１４０は、描画装置１１３０から画像を受信する受信部１１４１と、画像音声出力部１１４２を備えている。上述したように、表示装置１１４０は、画像を観察するユーザーの頭部又は顔部に固定されるヘッド・マウント・ディスプレイ９００として構成される。あるいは、表示装置１１４０は、通常のディスプレイや、シアター内でスクリーン上に画像を投影するプロジェクターなどであってもよい。

受信部１１４１は、例えばＨＤＭＩ（登録商標）やＭＨＬなどの通信路を介して、描画装置３００から非圧縮の画像データ並びに音声データを受信する。画像音声出力部１１４２は、画像及び音声を出力するディスプレイ並びにマイクからなり、受信した画像データを画面に表示するとともに、音声出力する。

表示装置１１４０がヘッド・マウント・ディスプレイ９００として構成される場合、例えば、画像音声出力部１１４２は、ユーザーの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像及び右眼用画像を表示する。画面は、例えば有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）素子や液晶ディスプレイなどのマイクロ・ディスプレイなどの表示パネル、あるいは、網膜直描ディスプレイなどのレーザー走査方式ディスプレイで構成される。また、表示画像を拡大投影して、ユーザーの瞳に所定の画角からなる拡大虚像を結像する虚像光学部を備えている。

図１２には、画像表示システム１１００の変形例を模式的に示している。図１１に示した例では、画像表示システム１１００は、頭部動作追跡装置１１２０、描画装置１１３０、表示装置１１４０という３台の独立した装置で構成されるが、図１２に示す例では、描画装置１１３０の機能（すなわち、受信部１１３１と描画処理部１１３２、コンテンツ入力部１１３４）が表示装置１１４０内に搭載されている。図１１に示したように、頭部動作追跡装置１１２０を表示装置１１４０に外付けされるオプション製品として構成すれば、表示装置１１４０の小型・軽量化、低廉化になる。

図１３には、図１１又は図１２に示した画像表示システム１１００において、ユーザーの頭部すなわち視線の動きに追従した画像を表示装置１１４０で表示する仕組みを図解している。

ユーザーの視線の奥行き方向がｚ_w軸、水平方向がｙ_w軸、垂直方向がｘ_w軸であり、ユーザーの基準軸ｘ_wｙ_wｚ_wの原点位置はユーザーの視点位置とする。したがって、ロールθ_zはユーザーの頭部のｚ_w軸回りの運動、チルトθ_yはユーザーの頭部のｙ_w軸回りの運動、パンθ_zはユーザーの頭部のｘ_w軸回りの運動に相当する。

頭部動作追跡装置１１２０は、ユーザーの頭部のロール、チルト、パンの各方向の動き（θ_z，θ_y，θ_z）や頭部の平行移動からなる姿勢情報を検出して、回転マトリックスＭ_Rとして描画装置１１３０に出力する。

描画装置１１３０は、ユーザーの頭部の姿勢に追従するように、例えば全天球型の原画像や４Ｋなどの広画角の原画像１３０１から切り出す領域１３０２の中心を移動させ、その中心位置で所定の画角で切り出した領域５０２の画像をレンダリングする。描画装置１１３０は、ユーザーの頭部運動のロール成分に応じて領域１３０２−１を回転させたり、ユーザーの頭部運動のチルト成分に応じて領域１３０２−２を移動させたり、ユーザーの頭部運動のパン成分に応じて領域１３０２−３を移動させたりして、頭部動作追跡装置１１２０が検出した頭部の動きを打ち消すように表示領域を移動させる。

表示装置１１４０側では、ユーザーの頭部（視線）の動きに追従するように原画像１３０１中で表示領域が移動する画像を提示することができる。また、本実施形態では、ユーザーの頭部（視線）の動きに追従して、画像とともに音像も定位されるという点に特徴がある。

なお、ユーザーの視点に対応するカメラの撮影画像がない場合には、比較的近い視線を持つ２以上の画像を用いて視点補間すればよい。

図１４には、描画装置１１３０内の描画処理部１１３２の構成を模式的に示している。

デマルチプレクサー（ＤＥＭＵＸ）１４０１は、コンテンツ入力部１１３４からの入力ストリームを、音声情報と、画像情報と、音源の位置情報、並びに、画像を撮影したカメラの位置及び姿勢情報に分離する。音声の位置情報は、集音に使用したマイク、又は、発話者などのオブジェクトの位置情報からなる。また、位置情報は、撮影に使用したすべてカメラの座標情報である。

ビデオ・デコーダー１４０２は、デマルチプレクサー１４０１で入力ストリームから分離された動画などの画像情報をデコード処理する。また、オーディオ・デコーダー１４０３は、デマルチプレクサー１４０１で入力ストリームから分離された音声情報をデコード処理する。

位置情報計算部１４０４は、画像を撮影したカメラの位置及び姿勢情報、並びに音源の位置情報を入力して、ユーザーに画像及び音声を提供する空間において、画像を視聴するユーザーの位置すなわち仮想ポイントを決定して、そのユーザー座標を計算する。仮想ポイントは、音像を定位させる場所である。仮想ポイントは、例えば、画像を提供する空間の真ん中など、音像定位が好ましいと考えられる代表的な位置とすればよく、撮影に用いた複数のカメラの重心位置でもよい。また、位置情報計算部１４０４は、頭部動作追跡装置１１２０から受信したユーザーの現実の位置情報並びに姿勢情報をさらに入力して、仮想ポイントを移動させたり、仮想ポイント上での視線方向を変更したりする。描画装置１１３０がヘッド・マウント・ディスプレイ９００の場合、仮想ポイントはヘッド・マウント・ディスプレイ９００を着用したユーザーの頭部の位置及び姿勢に相当する。

画像調整部１４０５は、ビデオ・デコーダー１４０２でデコード処理された画像を、各カメラの座標位置と位置情報計算部１４０４が決定した仮想ポイントに基づいて、画像の調整処理を行なう。仮想ポイントにおけるユーザーと同じ視点のカメラから撮影した画像がない場合には、画像調整部１４０５は、仮想ポイントから比較的近い２台以上のカメラの撮影画像を用いて、視点補間により仮想ポイントからの視点画像を生成する。

また、音声調整部１４０６は、オーディオ・デコーダー１４０３でデコード処理された各音源の音声を、位置情報計算部１４０４が決定した仮想ポイントに音像定位する。具体的には、音声調整部１４０６は、ユーザーの視点画像に含まれる発話体（若しくは発話体の音声を集音したマイク）の絶対位置情報を、ユーザーの視点カメラに対する相対位置に変換して、視点画像における発話体の音像を定位する。また、上記のように画像調整部１４０５で複数のカメラの撮影画像を用いた視点補間を行なう場合には、音声調整部１４０６は、発話体の絶対位置情報を視点補間カメラの相対位置情報に変換して、視点補間画像において発話体の音像を定位する。これによって、視点カメラのアングルが切り換わると音像の位置が急激に変化するという不自然さを解消することができる。音像定位には、波面合成などスピーカーアレイを用いた手法を用いることができる。

画像・音声レンダリング部１４０７は、画像調整部１４０５で処理された画像と、音声調整部１４０６で処理された音像を同期処理して、例えばＨＤＭＩ（登録商標）インターフェースを用いて表示装置１１４０に出力する。

図１５には、画像及び音声を再生する処理手順をフローチャートの形式で示している。

ユーザーの位置情報を、例えば頭部動作追跡装置１１２０を用いて検出する（ステップＳ１５０２）。また、デマルチプレクサー１４０１は、入力ストリームを、音声情報と、画像情報と、音声及び画像の位置情報に分離する（ステップＳ１５０３）。そして、入力ストリームが完了するまで（ステップＳ１５０１のＮｏ）、以下で説明する画像情報の処理と音声情報の処理が並行して実施される。

画像調整部１４０５は、ビデオ・デコーダー１４０２でデコード処理した各カメラの撮影画像を入力するとともに（ステップＳ１５０４）、各カメラの座標位置と位置情報計算部１４０４が決定した仮想ポイントにおけるユーザー座標を入力して、ユーザーの視点画像を生成する（ステップＳ１５０５）。ユーザー座標に設置されたカメラの撮影画像がない場合には、画像調整部１４０５は、仮想ポイントから比較的近い２台以上のカメラの撮影画像を用いて、視点補間により仮想ポイントからの視点画像を生成する。そして、生成された視点画像は、音像と同期させながら表示装置１１４０に出力して、ユーザーに提示される（ステップＳ１５０６）。

また、音声調整部１４０６は、すべての音源（若しくは発話体の音声を集音したマイク）の絶対位置情報を取得すると（ステップＳ１５０７）、これらを仮想ポイントの位置座標（若しくは、ユーザーの視点カメラ）に対する相対位置に変換して（ステップＳ１５０８）、視点画像において各音源の音像を定位する（ステップＳ１５０９）。そして、生成された音像は、画像と同期させながら表示装置１１４０に出力して、ユーザーに提示される（ステップＳ１５１０）。

図１６には、ユーザーに画像及び音声を提供する空間において、仮想ポイント１６０１を決定、配置する様子を示している。仮想ポイント１６０１は、音像を定位させる場所である。

ユーザーに提示する画像がプロモーション・ビデオやライブ配信の場合、位置情報計算部１４０４は、元の会場で音像定位が好ましいと思う場所（若しくは、代表的な場所）を仮想ポイント１６０１に決定する。図１６に示す例では、撮影現場には、２台のカメラＣａｍ１、Ｃａｍ２が設置され、２人の発話者Ｏｂｊ１、Ｏｂｊ２を撮影している。例えば、複数台のカメラＣａｍ１、Ｃａｍ２の撮影画像を用いて視点補間画像を生成する場合、カメラＣａｍ１、Ｃａｍ２間の重心を仮想ポイント１６０１に決定してもよい。さらに、各カメラＣａｍ１、Ｃａｍ２の位置情報をパンニング、切り替え頻度に基づいて重み付けして、中心位置を計算して、仮想ポイント１６０１にしてもよい。

また、図１７には、画像及び音声を再生する際に、仮想ポイント１７０１に音像を定位する様子を示している。プロモーション・ビデオやライブ配信画像をシアターで再生する場合、シアター内の座席の中心を図１６に示したように決定した仮想ポイントに合わせて、スクリーン１７０２に画像を投影して提示する。また、シアター内には、前方に３台のスピーカー１７１１、１７１２、１７１３、後方に２台のスピーカー１７１４、１７１５が設置され、５．１ｃｈサラウンド方式のスピーカーを構成している。そして、スクリーン１７０２上で画像を提示するのに併せて音源をレンダリングする場合、５．１ｃｈのパンニング（音像定位の水平方向変化）、及び、波面合成などスピーカーアレイ１７１１〜１７１５を用いた音像定位の手法を用いて、ユーザーがその場にいるような臨場感を再現する。

１台のカメラに対して音像の位置座標が決めっている場合（例えば、特許文献１、２を参照のこと）、画面のパン、切り替え時に音像定位が変わってしまい、ユーザーは自分がどこで聞いているのか分からないという現象が生じてしまう。カメラ・アングルが切り換わると、カメラから音源までの相対位置も変化することから、音像定位する位置が急激に変化してしまい、不自然である。これに対し、本実施形態では、発話体の絶対位置情報をシアター内で設置されたユーザーの位置（すなわち、仮想ポイント１７０１）に対する相対位置情報に変換して、シアター内の座席位置に対して発話体の音像を定位させている。これによって、ユーザーがどこで聞いているのか分からないという現象を避けることができる。

また、図１８には、各カメラの視点画像をヘッド・マウント・ディスプレイで再生する様子を示している。図示の例では、発話体１８１１、１８１２を撮影するいずれかのカメラＣａｍ１、Ｃａｍ２の位置にヘッド・マウント・ディスプレイの着用者１８０１、１８０２をそれぞれマッピングして、各撮影画像を再生している。このような場合、撮影画像に映っている各発話体の絶対位置情報をいずれかのカメラＣａｍ１、Ｃａｍ２に対する相対位置情報に変換して、発話体を撮影したカメラ位置に対して音像を定位する。したがって、複数台のカメラの視点を切り替えて画像を提示したとしても、提示される画像に映った発話体に音像が提示されるので、各ユーザー１８０１、１８０２はどこで聞いているのかが分かり、音像定位を楽しむことができる。

発話体を撮影するカメラＣａｍ１、Ｃａｍ２毎に、撮影した各発話体の相対位置情報を記録するという方法も考えられる。この場合、カメラの設置台数すなわち視点数が増える度に発話体の相対位置情報が増えてしまうという問題がある。これに対し、本実施形態では、記録装置１４０、３４０は発話体毎に絶対位置情報を記録しておき、画像及び音声の再生時には、視点を切り換える度に絶対位置情報をカメラに対する相対位置情報に変換して音像定位を行なうので、視点数の増加により発話体の位置情報が増えるという問題はない。

また、ヘッド・マウント・ディスプレイを用いる場合以外でも、任意に視点を切り替えて楽しむようなサービスにおいては、切り替えた視点カメラの位置からの音像定位は、図１６においてシアター内で決定した仮想ポイント１６０１の位置から音像を定位することに相当する。

また、図１９には、ユーザーに画像及び音声を提供する空間において、任意の場所に配置した視点の画像を提示する例を示している。図示の例では、発話体Ｏｂｊ１、Ｏｂｊ２を撮影するいずれのカメラＣａｍ１、Ｃａｍ２とも異なる位置にユーザーの視点を配置している。カメラＣａｍ１とカメラＣａｍ２の間の位置にユーザーの視点が配置される場合、視点補間カメラＣａｍＰ１を設置し、カメラＣａｍ１とカメラＣａｍ２の撮影画像を合成して、視点補間カメラＣａｍＰ１で撮影した視点補間画像を生成する。また、発話体Ｏｂｊ１、Ｏｂｊ２の絶対位置情報を視点補間カメラＣａｍＰ１に対する相対位置情報に変換して、視点補間カメラＣａｍＰ１に対して音像を定位する。視点補間カメラＣａｍＰ２における視点補間画像を提示する場合も同様である。したがって、撮影を行なう現実のカメラが設置されていない視点でも視点補間画像を提示するとともに、視点補間画像に映った発話体に音像が提示されるので、ユーザーはどこで聞いているのかが分かり、音像定位を楽しむことができる。

発話体を撮影するカメラＣａｍ１、Ｃａｍ２毎に、撮影した各発話体の相対位置情報を記録するという方法も考えられる。この場合、カメラ間で非同期に記録されていた発話体の音源位置情報を中心にカメラ間の相対位置が計算されてしまい、効率的でない。これに対し、本実施形態では、発話体毎に絶対位置情報を記録し、視点補間画像を生成した際のその画像内に映っている各発話体の絶対位置情報を視点補間カメラに対する相対位置情報に変換して音像定位を行なうので、処理が効率的である。

また、図２０には、視点補間画像をヘッド・マウント・ディスプレイで再生する様子を示している。図示の例では、視点補間カメラＣａｍＰ１の位置にヘッド・マウント・ディスプレイＨ１をマッピングして、視点補間画像を再生している。また、視点補間画像に映っている各発話体Ｏｂｊ１、Ｏｂｊ２の絶対位置情報を視点補間カメラＣａｍＰ１に対する相対位置情報に変換して、視点補間カメラＣａｍＰ１に対して音像を定位する。視点補間カメラＣａｍＰ２における視点補間画像をヘッド・マウント・ディスプレイＨ２で提示する場合も同様である。したがって、撮影を行なう現実のカメラが設置されていない任意の視点でも視点補間画像をヘッド・マウント・ディスプレイで提示するとともに、視点補間画像に映った発話体の位置から正しい音像定位を作り出すことができる。

通常のディスプレイやスクリーン、ヘッド・マウント・ディスプレイなどのレンダリング装置で収録位置（カメラ位置）の画像や任意視点の画像を楽しむ場合、そのレンダリング装置にマイクを装備して、お互いにその場にいるかのように会話することも可能である。

図２１には、画像を再生するヘッド・マウント・ディスプレイの着用者も発話体として扱い、その発話内容を音像定位する様子を示している。ヘッド・マウント・ディスプレイＨ１がマイクを装備する場合、ヘッド・マウント・ディスプレイＨ１を装着したユーザーも発話体として扱い、視点補間画像に映った各発話体Ｏｂｊ１、Ｏｂｊ２の音像を定位するとともに、ヘッド・マウント・ディスプレイＨ１のマイクで集音した音声２１０１を、Ｈ１の方向から音像定位して再現する。また、同様に、ヘッド・マウント・ディスプレイＨ２がマイクを装備する場合、ヘッド・マウント・ディスプレイＨ２を装着したユーザーも発話体として扱い、視点補間画像に映った各発話体Ｏｂｊ１、Ｏｂｊ２の音像を定位するとともに、ヘッド・マウント・ディスプレイＨ２のマイクで集音した音声２１０２を、Ｈ２の方向から音像定位して再現する。これによって、ヘッド・マウント・ディスプレイＨ１、Ｈ２を装着した各ユーザーは、お互いにその場にいるかのように会話することが可能である。

また、ヘッド・マウント・ディスプレイＨ１、Ｈ２が各々のユーザーの視点補間画像内で他方のユーザーに対応する場所にアバターや位置情報を表示して、存在を明示するようにしてもよい。また、ライブ会場などでスピーカーアレイ２１０１などの再生装置がある場合、ヘッド・マウント・ディスプレイＨ１を装着した聴衆が視聴している位置から演者である発話体Ｏｂｊ１、Ｏｂｊ２に向かって声援２１０１、２１０２を送るような音声を再現することができる。

このように、ライブ時は演者も聴衆も動きをリアルタイムに反映させることで、より一層インタラクティブで且つ臨場感のある体験ができる。

以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書で開示する技術は、通常のディスプレイやスクリーン、ヘッド・マウント・ディスプレイなどさまざまなレンダリング装置で画像とともに音声を提示する場合に適用して、正しい音像定位を作り出すことができる。

要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算部と、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理部と、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理部と、
を具備する情報再生装置。
（２）前記位置情報計算部は、撮影に用いたカメラの位置及び姿勢情報に基づいて、視聴者の位置を計算する、
上記（１）に記載の情報再生装置。
（３）前記位置情報計算部は、視聴者の現実の動作又は位置に基づいて、視聴者の位置を計算する、
上記（１）又は（２）のいずれかに記載の情報再生装置。
（４）前記位置情報計算部は、複数のカメラ間の重心位置に基づいて、視聴者の位置を計算する、
上記（１）又は（２）のいずれかに記載の情報再生装置。
（５）前記位置情報計算部は、パンニング、切り替え頻度に基づいて重み付けした複数のカメラ間の重心位置に基づいて、視聴者の位置を計算する、
上記（１）又は（２）のいずれかに記載の情報再生装置。
（６）前記画像処理部は、視聴者の位置のカメラで撮影したカメラの画像に基づいて、視聴者の位置における画像を生成する、
上記（１）乃至（５）のいずれかに記載の情報再生装置。
（７）前記画像処理部は、複数のカメラの撮影画像を用いて、視聴者の位置における視点補間画像を生成する、
上記（１）乃至（５）のいずれかに記載の情報再生装置。
（８）前記音声処理部は、視点補間した位置に音像を定位する、
上記（７）に記載の情報再生装置。
（９）前記音声処理部は、視聴者から集音した発話情報を視点補間した位置に基づいて音像定位する、
上記（７）又は（８）のいずれかに記載の情報再生装置。
（１０）前記画像処理部は、視点補間画像内で視聴者に対応する場所にアバター又は視聴者の位置情報を表示する、
上記（７）又は（８）のいずれかに記載の情報再生装置。
（１１）前記音声処理部は、視聴者の位置からの視点画像に含まれる音源の絶対位置情報を視聴者の位置に対する相対位置に変換して、視点画像における音像の音像を定位する、
上記（１）乃至（１０）のいずれかに記載の情報再生装置。
（１２）画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算ステップと、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理ステップと、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理ステップと、
を有する情報再生方法。
（１３）カメラの撮影画像とカメラの位置及び姿勢情報を記録する画像情報記録部と、
音源の位置情報を記録する音声情報記録部と、
を具備する情報記録装置。
（１４）前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のパケット形式で記録し、
前記音声情報記録部は、音源の位置情報を音声用のパケット形式で記録する、
上記（１３）に記載の情報記録装置。
（１５）前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のトラックに記録し、
前記音声情報記録部は、音源の位置情報を音声用のトラックに記録する、
上記（１３）に記載の情報記録装置。
（１６）前記画像情報記録部は、カメラから受信した撮影画像と、カメラ位置センサーから受信した位置及び姿勢情報を記録する、
上記（１３）乃至（１５）のいずれかに記載の情報記録装置。
（１７）前記音声情報記録部は、音源検出装置から受信した音源の位置情報を記録する、
上記（１３）乃至（１５）のいずれかに記載の情報記録装置。
（１８）前記音声情報記録部は、音源検出装置から受信した音声情報又は後で録音された音声情報をその音源の位置情報とともに記録する、
上記（１３）乃至（１７）のいずれかに記載の情報記録装置。
（１９）画像記録用の同期信号（クロック）に同期し、あるいは分周、間引かれたタイミング信号を基準に、カメラの位置及び姿勢情報、音源の位置情報を記録する、
上記（１３）乃至（１８）のいずれかに記載の情報記録装置。
（２０）カメラの撮影画像とカメラの位置及び姿勢情報を受信するステップと、
受信したカメラの撮影画像とカメラの位置及び姿勢情報を記録するステップと、
音源の位置情報を受信するステップと、
受信した音源の位置情報を記録する音声情報記録部と、
を有する情報記録方法。
（２１）カメラの位置及び姿勢情報付きで撮影画像を記録するとともに音源の位置情報付きで音声情報を記録する記録装置と、
視聴者の位置をある点に置いて、位置及び姿勢情報付きで記録された画像を用いて視聴者の視点からの画像を提示するとともに、記録された音声情報をその位置情報に基づいて視聴者の位置に音像定位する再生装置と、
を具備する情報記録再生システム。

１００…記録システム
１１０−１、１１０−２、……カメラ
１２０−１、１２０−２、……マイク
１３０…同期信号生成装置
１４０…記録装置
３００…記録システム
３１０−１、３１０−２、……カメラ
３２０−１、３２０−２、……音位置センサー
３３０…同期信号生成装置
３４０…位置情報受信装置
３５０…記録装置
９００…ヘッド・マウント・ディスプレイ
９０１…本体部、９０２…額当て部、９０３…鼻当て部
９０４…上バンド、９０５…下バンド
１１００…画像表示システム
１１２０…頭部動作追跡装置、１１２１…センサー部
１１２２…姿勢各演算部、１１２３…送信部
１１３０…描画装置
１１３１…受信部、１１３２…描画処理部、１１３３…送信部
１１３４…コンテンツ入力部
１１４０…表示装置
１１４１…受信部、１１４２…画像音声出力部
１４０１…デマルチプレクサー、１４０２…ビデオ・デコーダー
１４０３…オーディオ・デコーダー、１４０４…位置情報計算部
１４０５…画像調整部、１４０６…音声調整部
１４０７…画像・音声レンダリング部

Claims

画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算部と、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理部と、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理部と、
を具備する情報再生装置。
前記位置情報計算部は、撮影に用いたカメラの位置及び姿勢情報に基づいて、視聴者の位置を計算する、
請求項１に記載の情報再生装置。
前記位置情報計算部は、視聴者の現実の動作又は位置に基づいて、視聴者の位置を計算する、
請求項１に記載の情報再生装置。
前記位置情報計算部は、複数のカメラ間の重心位置に基づいて、視聴者の位置を計算する、
請求項１に記載の情報再生装置。
前記位置情報計算部は、パンニング、切り替え頻度に基づいて重み付けした複数のカメラ間の重心位置に基づいて、視聴者の位置を計算する、
請求項１に記載の情報再生装置。
前記画像処理部は、視聴者の位置のカメラで撮影したカメラの画像に基づいて、視聴者の位置における画像を生成する、
請求項１に記載の情報再生装置。
前記画像処理部は、複数のカメラの撮影画像を用いて、視聴者の位置における視点補間画像を生成する、
請求項１に記載の情報再生装置。
前記音声処理部は、視点補間した位置に音像を定位する、
請求項７に記載の情報再生装置。
前記音声処理部は、視聴者から集音した発話情報を視点補間した位置に基づいて音像定位する、
請求項７に記載の情報再生装置。
前記画像処理部は、視点補間画像内で視聴者に対応する場所にアバター又は視聴者の位置情報を表示する、
請求項７に記載の情報再生装置。
前記音声処理部は、視聴者の位置からの視点画像に含まれる音源の絶対位置情報を視聴者の位置に対する相対位置に変換して、視点画像における音像の音像を定位する、
請求項１に記載の情報再生装置。
画像及び音声を提供する空間における視聴者の位置を計算する位置情報計算ステップと、
カメラの位置及び姿勢情報付きで記録された画像情報に基づいて、視聴者の位置における画像を処理する画像処理ステップと、
音源の位置情報付きで記録された音声情報に基づいて、音像を視聴者の位置に定位する音声処理ステップと、
を有する情報再生方法。
カメラの撮影画像とカメラの位置及び姿勢情報を記録する画像情報記録部と、
音源の位置情報を記録する音声情報記録部と、
を具備する情報記録装置。
前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のパケット形式で記録し、
前記音声情報記録部は、音源の位置情報を音声用のパケット形式で記録する、
請求項１３に記載の情報記録装置。
前記画像情報記録部は、カメラの撮影画像とカメラの位置及び姿勢情報をそれぞれ画像用のトラックに記録し、
前記音声情報記録部は、音源の位置情報を音声用のトラックに記録する、
請求項１３に記載の情報記録装置。
前記画像情報記録部は、カメラから受信した撮影画像と、カメラ位置センサーから受信した位置及び姿勢情報を記録する、
請求項１３に記載の情報記録装置。
前記音声情報記録部は、音源検出装置から受信した音源の位置情報を記録する、
請求項１３に記載の情報記録装置。
前記音声情報記録部は、音源検出装置から受信した音声情報又は後で録音された音声情報をその音源の位置情報とともに記録する、
請求項１３に記載の情報記録装置。
画像記録用の同期信号（クロック）に同期し、あるいは分周、間引かれたタイミング信号を基準に、カメラの位置及び姿勢情報、音源の位置情報を記録する、
請求項１３に記載の情報記録装置。
カメラの撮影画像とカメラの位置及び姿勢情報を受信するステップと、
受信したカメラの撮影画像とカメラの位置及び姿勢情報を記録するステップと、
音源の位置情報を受信するステップと、
受信した音源の位置情報を記録する音声情報記録部と、
を有する情報記録方法。