WO2020017261A1

WO2020017261A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2020017261A1
Application number: PCT/JP2019/025255
Authority: WO
Inventors: 孝悌清水; 石川　毅
Original assignee: ソニー株式会社
Priority date: 2018-07-20
Filing date: 2019-06-25
Publication date: 2020-01-23
Also published as: JPWO2020017261A1; US11250636B2; CN112424728A; EP3825817A4; KR20210031894A; US20210217248A1; EP3825817A1; JP7338626B2; CN112424728B

Abstract

被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部（１１０、１４０）と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部（１５０）と、を備える情報処理装置。

Description

情報処理装置、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理方法及びプログラムに関する。

　近年、ＶＲ（Virtual　Reality）技術が様々な場面で活用されている。例えば、異なる場所にいるユーザ同士のコミュニケーション支援のために、ＶＲ技術が活用されている。

　その一例として、下記特許文献１では、講師側の機器から生徒側の機器へ講義資料を配信しつつ、各々の機器において仮想空間内に講義資料に基づく仮想オブジェクトを表示する技術が開示されている。講義資料は、講師側の機器が備える映像入力手段により入力された、リアルタイムに又は即興的に作成又は引用された資料を含む。

特開２００９－１４５８８３号公報

　上記特許文献１における講義資料は、実写ＶＲコンテンツの一例である。実写ＶＲコンテンツとは、実空間を撮像した撮像画像を仮想空間内に配置したＶＲコンテンツである。例えば、実空間の全天球画像（上下左右全方位の３６０度パノラマ画像）が仮想空間内に配置された実写ＶＲコンテンツによれば、ユーザは、あたかも当該実空間にいるかのような感覚を得ることができる。

　実写ＶＲコンテンツは、典型的には２次元的な撮像画像により構成されるので、触れる等の三次元的な空間インタラクションを実現することは困難である。そのため、例えばユーザが実写ＶＲコンテンツ内の物体に触れたとしても、その触覚はユーザにフィードバックされない。このように、実写ＶＲコンテンツにおいて実現されるインタラクションは、実空間におけるインタラクションとは異なる不自然なものであった。

　そこで、本開示では、実写ＶＲコンテンツにおける空間インタラクションをより適切に実現することが可能な仕組みを提案する。

　本開示によれば、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、を備える情報処理装置が提供される。

　また、本開示によれば、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、を備える情報処理装置が提供される。

　また、本開示によれば、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、を備える、プロセッサにより実行される情報処理方法が提供される。

　また、本開示によれば、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、を備える、プロセッサにより実行される情報処理方法が提供される。

　また、本開示によれば、コンピュータを、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、として機能させるためのプログラムが提供される。

　また、本開示によれば、コンピュータを、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、実写ＶＲコンテンツにおける空間インタラクションをより適切に実現することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るコンテンツ配信システムの構成の一例を示す図である。第１の実施形態に係る記録装置の概要を説明するための図である。同実施形態に係る再生装置の概要を説明するための図である。同実施形態に係る記録装置の機能構成の一例を示すブロック図である。同実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。同実施形態に係る記録装置により実行される記録処理の流れの一例を示すフローチャートである。同実施形態に係る再生装置の機能構成の一例を示すブロック図である。同実施形態に係る再生装置により実行される第１の空間インタラクション処理の流れの一例を示すフローチャートである。同実施形態に係る第２の空間インタラクションの一例を説明するための図である。同実施形態に係る再生装置により実行される第２の空間インタラクション処理の流れの一例を示すフローチャートである。同実施形態に係る再生装置により実行される第２の空間インタラクション処理の流れの一例を示すフローチャートである。同実施形態に係る視点切り替えオブジェクトに基づく視点切り替えを説明するための図である。同実施形態に係るユーザ位置の移動及び切り替えの一例を説明するための図である。図１２を示した配置のセンサ装置により撮像された撮像画像を用いたＶＲコンテンツの視点切り替えの一例を示す図である。同実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。同実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。同実施形態に係る再生装置により実行される視点切り替え処理の流れの一例を示すフローチャートである。第２の実施形態に係る記録装置の概要を説明するための図である。同実施形態に係る再生装置の概要を説明するための図である。同実施形態に係る記録装置の機能構成の一例を示すブロック図である。同実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。同実施形態に係る記録装置により実行される記録処理の流れの一例を示すフローチャートである。同実施形態に係る再生装置により実行される第１の空間インタラクション処理の流れの一例を示すフローチャートである。同実施形態に係る第２の空間インタラクションの一例を説明するための図である。同実施形態に係る再生装置により実行される第２の空間インタラクション処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　　１．システム構成例
　　２．第１の実施形態
　　　２．１．概要
　　　２．２．記録装置側の技術的特徴
　　　　２．２．１．記録装置の機能構成例
　　　　２．２．２．コンテンツ構成情報のフォーマット
　　　　２．２．３．記録処理の流れ
　　　２．３．再生装置側の技術的特徴
　　　　２．３．１．再生装置の機能構成例
　　　　２．３．２．空間インタラクション
　　　　２．３．３．視点切り替え
　　３．第２の実施形態
　　　３．１．概要
　　　３．２．記録装置側の技術的特徴
　　　　３．２．１．記録装置の機能構成例
　　　　３．２．２．コンテンツ構成情報のフォーマット
　　　　３．２．３．記録処理の流れ
　　　３．３．再生装置側の技術的特徴
　　　　３．３．１．再生装置の機能構成例
　　　　３．３．２．空間インタラクション
　　４．補足
　　５．ハードウェア構成例
　　６．まとめ

　＜＜１．システム構成例＞＞
　図１は、本開示の一実施形態に係るコンテンツ配信システム１の構成の一例を示す図である。図１に示すように、コンテンツ配信システム１は、記録装置１０及び再生装置２０を含み、記録装置１０と再生装置２０とはネットワーク３０を介して接続される。

　記録装置１０は、再生装置２０において再生されるＶＲコンテンツのための情報を取得及び記録し、再生装置２０へ送信する情報処理装置である。例えば、記録装置１０は、実空間を撮像した撮像画像（動画／静止画）及び当該実空間の深度情報を、再生装置２０へ送信する。記録装置１０は、記録を省略して、取得した情報をリアルタイムに送信してもよい。

　動画とは、複数の静止画像（画像データ）及び各々の静止画の再生時刻を含むデータである。動画が再生される際には、再生時刻の順に静止画が連続的に再生される。動画を構成する静止画は、フレームとも称される。動画の表示速度は、フレームレートとも称され、１秒間当たりに表示されるフレームの数（ＦＰＳ：Frame　Per　Second）で表される。動画は、画像データの再生と共に再生されるべき音声データを含んでいてもよい。

　記録装置１０から再生装置２０へ送信される撮像画像は、動画であるものとする。

　再生装置２０は、記録装置１０から受信した情報に基づいて、ＶＲコンテンツの再生を制御する情報処理装置である。例えば、再生装置２０は、記録装置１０から受信した情報に基づいてＶＲコンテンツを生成し、ＶＲコンテンツを視覚的に出力させると共に、ＶＲコンテンツに対するユーザ操作に対応するフィードバックを出力装置により出力させる。

　ＶＲコンテンツとは、仮想空間に各種仮想オブジェクトが配置されたコンテンツである。仮想オブジェクトとは、仮想空間内に配置される仮想的な物体である。仮想オブジェクトには、仮想オブジェクト同士の衝突判定に用いられる要素が付与される。この要素は、コライダーと称される場合がある。コライダーは、仮想オブジェクトに重ね合わせるように配置されて、コライダー同士の衝突判定により仮想オブジェクト同士の衝突判定が行われる。なお、仮想オブジェクトは表示されるが、コライダーは典型的には表示されない（即ち、不可視である）。これは、コライダーが衝突判定に用いられる要素であることに起因する。もちろん、コライダーを表示する設定がなされてもよく、その場合にはコライダーは表示される。

　ネットワーク３０は、ネットワーク３０に接続されている装置から送信される情報の有線又は無線の伝送路である。ネットワーク３０は、例えば、インターネット、ＬＡＮ（Local　Area　Network）、無線ＬＡＮ、又はセルラー通信ネットワーク等により実現される。

　＜＜２．第１の実施形態＞＞
　第１の実施形態は、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの表面の三次元位置情報を対応付けることで、仮想空間における当該実オブジェクトの表面と仮想オブジェクトとの三次元的な空間インタラクションを実現する形態である。

　＜２．１．概要＞
　（１）記録装置の概要
　図２は、本実施形態に係る記録装置１０の記録装置の概要を説明するための図である。図２では、記録装置１０による情報の記録対象となる空間の一例が示されている。図２に示すように、本空間では、観客席１７にいる大勢の観客の前で、ステージ１６上で演者１８がパフォーマンスしている。本空間には、記録装置１０による記録に関与する装置として、第１のセンサ装置１１、及び第２のセンサ装置１２（１２Ａ及び１２Ｂ）が設置されている。また、本空間には、モニタ１５も配置されている。

　・第１のセンサ装置１１
　第１のセンサ装置１１は、ＶＲコンテンツにおいて空間インタラクションの対象となる実オブジェクトを含む、実空間をセンシングする装置である。実オブジェクトとは、実空間に存在する物体である。第１のセンサ装置１１は、撮像装置及びデプスセンサを備える。撮像装置は、実空間の実オブジェクト（即ち、被写体）を撮像し、撮像画像を取得する装置である。撮像装置は、例えば単眼カメラ、ステレオカメラ又は赤外線カメラ等により実現される。撮像される画像は、２次元画像、全天球（３６０度）画像、半天球（１８０度）画像又はその他の任意の撮像範囲を有する画像である。以下では、撮像装置はステレオカメラにより実現され、立体視することが可能なステレオ全天球画像が撮像されるものとする。また、以下では撮像装置をＶＲカメラとも称する。デプスセンサは、実空間の実オブジェクトの深度情報を検出する装置である。深度情報とは、センサの光軸方向（奥行き）の測定値である。デプスセンサとしては、例えば、Light　Coding、Time　of　Flight、又はInfrared　Depth等の任意の方式のセンサが採用され得る。

　第１のセンサ装置１１は、例えば、モニタ１５の中央に設置されて、比較的近距離から演者１８を含むステージ１６上をセンシングする。ステージ１６及び演者１８は、ＶＲコンテンツにおいて空間インタラクションの対象となる実オブジェクトである。

　・第２のセンサ装置１２
　第２のセンサ装置１２は、実空間をセンシングする装置である。第２のセンサ装置１２は、撮像装置を備える。撮像装置については、第１のセンサ装置１１に関し上記説明した通りである。第２のセンサ装置１２は、観客席に設置されて、比較的遠距離から演者１８を含むステージ１６上をセンシングする。

　・モニタ１５
　モニタ１５は、再生装置２０によるＶＲコンテンツの提供を受けているユーザの様子を表示する表示装置である。このため、演者１８は、実際に目の前にいる観客とネットワーク３０越しに自身を鑑賞している観客とを視認しながら、パフォーマンスすることができる。

　以上、記録対象の空間に設置される装置について説明した。

　記録装置１０は、第１のセンサ装置１１及び第２のセンサ装置１２によるセンシング結果に基づいて、再生装置２０側でＶＲコンテンツを構成するための各種情報を含むコンテンツ構成情報を生成する。そして、記録装置１０は、生成したコンテンツ構成情報を再生装置２０へ送信する。

　なお、第１のセンサ装置１１によるセンシング結果は、後述する空間インタラクションが可能なＶＲコンテンツの生成、及び後述する視点切り替えのために用いられる。第２のセンサ装置１２によるセンシング結果は、後述する視点切り替えのために用いられる。

　（２）再生装置の概要
　図３は、本実施形態に係る再生装置２０の概要を説明するための図である。図３では、再生装置２０によるＶＲコンテンツの再生に関与する装置として、ＨＭＤ（Head　Mounted　Display）２１及びコントローラ２２が図示されている。

　ＨＭＤ２１は、ＶＲコンテンツを出力する出力装置である。ＨＭＤ２１は、画像を表示可能な表示部がユーザの眼の前に位置するようにして、ユーザの頭部に装着される。そして、ＨＭＤ２１は、ＶＲコンテンツを表示しつつ、ユーザの頭の動きに合わせてＶＲコンテンツを回転又はズーム等させる。また、ＨＭＤ２１は、ＶＲコンテンツへのユーザ操作に対応する視覚的／聴覚的／嗅覚的なフィードバックを出力する。出力装置は、ＨＭＤ２１の他にも、例えばスマートフォン又はタブレット端末等により実現されてもよい。

　コントローラ２２は、ＶＲコンテンツに対するユーザ操作を受け付けつつ、ユーザ操作に対応する触覚フィードバックを出力する入出力装置である。図３に示した例では、コントローラ２２は、スティック型装置であり、ユーザに把持され操作される。コントローラ２２は、スティック型以外にも、例えばグローブ型等の任意の形状で実現され得る。コントローラ２２の位置及び姿勢に基づいて、ＶＲコンテンツが操作される。出力され得る触覚フィードバックとしては、例えば振動、電気刺激、又は力覚等が挙げられる。以下では、触覚フィードバックは、振動により実現されるものとする。

　なお、本明細書において、位置とは、特に言及しない限り三次元位置であるものとする。また、姿勢とは、特に言及しない限り６自由度（６ＤｏＦ）の姿勢であるものとする。

　以上、再生装置２０によるＶＲコンテンツの再生に関与する装置について説明した。

　再生装置２０は、記録装置１０から受信したコンテンツ構成情報に基づいて、ＶＲコンテンツを生成する。ここで、図２に示した第１のセンサ装置１１及び第２のセンサ装置１２は、記録対象の空間における視点に対応する。ユーザは、記録対象の空間における視点を自由に選択して、任意の視点から記録対象の空間を見たＶＲコンテンツの提供を受けることができる。視点の切り替えは、再生するＶＲコンテンツを切り替えることにより行われる。詳しくは、視点の切り替えは、再生するＶＲコンテンツの元となるコンテンツ構成情報がどのセンサ装置（第１のセンサ装置１１又は第２のセンサ装置１２）のセンシング結果に基づいて生成されるか、を切り替えることにより実現される。

　本実施形態に係るＶＲコンテンツでは、仮想オブジェクトのひとつとして、実空間を撮像した撮像画像が仮想空間内に配置され、表示される。さらに、本実施形態に係るＶＲコンテンツでは、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの三次元位置を示す三次元位置情報が対応付けられる。これにより、仮想空間内に配置された撮像画像に含まれる実オブジェクトが関与する空間インタラクションを実現することが可能となる。以下、この点について詳しく説明する。

　図３に示すように、ＨＭＤ２１は、再生装置２０により生成されたＶＲコンテンツ４０を表示する。ＶＲコンテンツ４０では、仮想空間に、図２に示したステージ１６上の演者１８を含む撮像画像が配置され表示されており、且つ、撮像画像内のステージ１６及び演者１８の各々に三次元位置情報が対応付けられている。

　ユーザがコントローラ２２を操作すると、実空間におけるコントローラ２２の位置及び姿勢に応じて、仮想空間における操作体４１の位置及び姿勢が変化する。操作体４１は、仮想空間におけるユーザの操作位置を示す仮想オブジェクトである。再生装置２０は、仮想空間における操作体４１の位置とステージ１６又は演者１８に対応付けられた三次元位置情報とに基づいて、仮想空間における操作体４１とステージ１６又は演者１８との衝突を判定する。そして、再生装置２０は、衝突したと判定した場合には、衝突に対応する視覚的／聴覚的／嗅覚的なフィードバックをＨＭＤ２１に出力させ、衝突に対応する触覚フィードバックをコントローラ２２に出力させる。

　このように、本実施形態に係るコンテンツ配信システム１によれば、仮想空間内に配置された撮像画像内の実オブジェクトが関与する空間インタラクションを実現することが可能となる。

　＜２．２．記録装置側の技術的特徴＞
　＜２．２．１．記録装置の機能構成例＞
　図４は、本実施形態に係る記録装置１０の機能構成の一例を示すブロック図である。図４に示すように、記録装置１０は、画像取得部１１０、ストリーミング処理部１２０、深度情報取得部１３０、表面モデル取得部１４０、コンテンツ構成情報生成部１５０及び送信部１６０を含む。

　また、図４では第１のセンサ装置１１及び第２のセンサ装置１２の機能構成の一例も図示されている。図４に示すように、第１のセンサ装置１１は、ＶＲカメラ１０１及びデプスセンサ１０２を含み、第２のセンサ装置１２はＶＲカメラ１０１を含む。記録装置１０は、ひとつ以上の第１のセンサ装置１１、及びひとつ以上の第２のセンサ装置１２に接続され得る。

　以下、これらの機能構成について説明する。

　（１）第１のセンサ装置１１
　ＶＲカメラ１０１及びデプスセンサ１０２に関しては、図２を参照しながら上記説明した通りであるので、説明を省略する。

　（２）第２のセンサ装置１２
　ＶＲカメラ１０１に関しては、図２を参照しながら上記説明した通りであるので、説明を省略する。

　（３）記録装置１０
　（画像取得部１１０）
　画像取得部１１０は、第１のセンサ装置１１又は第２のセンサ装置１２に含まれるＶＲカメラ１０１から、実空間の実オブジェクトを含む撮像画像を取得する機能を有する。ここで、撮像画像を取得するとは、撮像画像のデータを受信すること、又はメモリ等の所定の記録媒体に記録された撮像画像データを読み出すこと等を指す。ＶＲカメラ１０１がステレオカメラである場合、画像取得部１１０は、左右２枚の撮像画像（左側の撮像画像であるＬ画像及び右側の撮像画像であるＲ画像）から成るステレオ画像（ステレオの全天球画像）を、撮像画像として取得する。画像取得部１１０は、取得した撮像画像をストリーミング処理部１２０に出力する。

　（ストリーミング処理部１２０）
　ストリーミング処理部１２０は、画像取得部１１０により取得された撮像画像のストリーミング処理を行う機能を有する。例えば、ストリーミング処理部１２０は、撮像時刻時順に撮像画像をコンテンツ構成情報生成部１５０に出力する。

　（深度情報取得部１３０）
　深度情報取得部１３０は、第１のセンサ装置１１に含まれるデプスセンサ１０２から、実空間の実オブジェクトの深度情報を取得する機能を有する。ここでの深度情報とは、例えばデプス画像である。深度情報取得部１３０は、取得した深度情報を表面モデル取得部１４０に出力する。

　（表面モデル取得部１４０）
　表面モデル取得部１４０は、深度情報取得部１３０により取得された深度情報に基づいて、実オブジェクトの表面モデルを取得する機能を有する。実オブジェクトの表面モデルとは、実オブジェクトの表面の点であって、三次元位置情報が対応付けられた点を、複数含む点群の情報を含む三次元モデルデータである。ここでの三次元位置情報とは、デプスセンサ１０２の位置に基づき設定される原点とデプスセンサ１０２の姿勢に基づき設定される座標軸とにより定義される、デプスセンサ１０２の座標系における位置を示す情報である。表面モデルは、実オブジェクトの表面の点群の三次元位置情報（被写体三次元位置情報に相当）であるとも捉えることができる。ここでの点群とは、例えば、深度情報取得部１３０により取得されたデプス画像における画素を複数含む画素群である。なお、点群の解像度は任意である。撮像画像内の実オブジェクトの解像度よりも、当該実オブジェクトに対応する点群の解像度が低くてもよい。その場合、撮像画像全体を点群で構成する（即ち、撮像画像をポイントクラウドで表現する）場合よりも、伝送データ量を削減することが可能になると共に、ユーザが視認する実オブジェクトの解像度を高くすることが可能となる。もちろん、本技術において、撮像画像がポイントクラウドとして表現されてもよい。

　表面モデルは、所定の条件を満たす実オブジェクトの、表面の点群の三次元位置情報であってもよい。所定の条件を満たす実オブジェクトとは、例えば、ＶＲコンテンツにおいて空間インタラクションに関与させる実オブジェクトであり、図２に示した例におけるステージ１６及び演者１８である。この場合、所定の条件とは、空間インタラクションに関与させる実オブジェクトであることであり、具体的には、動体であること、所定の閾値を超える大きさの面を有すること、又は前景であること等である。例えば、表面モデル取得部１４０は、デプス画像に画像認識等を適用することで、所定の条件を満たす実オブジェクトを特定する。そして、表面モデル取得部１４０は、デプス画像から、所定の条件を満たす実オブジェクトの表面の点群を抽出し他を削除することで、所定の条件を満たす実オブジェクトの表面の点群の三次元位置情報から成る表面モデルを取得する。これにより、表面モデルを形成する点の数を、空間インタラクションに関与する実オブジェクトに対応する点に限定して削減することが可能となるので、コンテンツ構成情報の記録装置１０から再生装置２０への伝送遅延を防止することが可能となる。

　表面モデル取得部１４０は、演者１８の手等の、インタラクションの発生が想定される領域を事前に画像認識処理により検出し、伝送遅延の軽減に用いてもよい。例えば、表面モデル取得部１４０は、インタラクションの発生が想定される領域のみを対象に、表面モデルを生成し、コンテンツ構成情報に記録してもよい。

　表面モデル取得部１４０は、演者１８の手以外の体の所定部位等の、インタラクションの発生を避けるべき領域を画像認識処理により事前に検出し、伝送遅延の軽減に用いてもよい。例えば、表面モデル取得部１４０は、インタラクションの発生を避けるべき領域については、表面モデルの生成対象外としてコンテンツ構成情報に当該部位の表面モデル情報を記録することを禁止してもよい。

　表面モデルは、コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報であってもよい。その場合、表面モデル取得部１４０は、表面モデルを形成する点群が、伝送速度に応じた所定の粒度になるまで間引く。例えば、表面モデル取得部１４０は、伝送速度が遅ければ点群から多くの点を間引き、伝送速度が早ければ点群から少ない数の点を間引く。これにより、コンテンツ構成情報の記録装置１０から再生装置２０への伝送遅延を過不足なく防止することが可能となる。

　また、表面モデル取得部１４０は、点群のノイズを除去してもよい。ここで、ノイズとは、例えば他と著しく離れた点である。点群に含まれる点の数を削減することで、記録装置１０から再生装置２０への伝送における遅延を軽減することが可能となる。このようにして、実オブジェクトの表面モデルが生成される。

　（コンテンツ構成情報生成部１５０）
　コンテンツ構成情報生成部１５０は、ストリーミング処理部１２０及び表面モデル取得部１４０からの出力に基づいて、コンテンツ構成情報を生成する機能を有する。コンテンツ構成情報生成部１５０は、生成したコンテンツ構成情報を送信部１６０に出力する。

　コンテンツ構成情報は、再生装置２０側でＶＲコンテンツを構成するための各種情報を含む情報である。コンテンツ構成情報生成部１５０は、撮像画像、及び表面モデル、並びにこれらの情報に基づいて再生装置２０側でＶＲコンテンツを構成するための各種情報をコンテナ化することで、コンテンツ構成情報を生成する。コンテンツ構成情報は、撮像画像、表面モデル、及び撮像画像内の実オブジェクトと表面モデルとを関連付ける仮想空間関連付け情報を含む。仮想空間関連付け情報は、仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションに用いられる情報である。コンテンツ構成情報のフォーマットについては後述する。

　コンテンツ構成情報生成部１５０は、再生装置２０側で選択された視点に対応するコンテンツ構成情報を生成する。詳しくは、コンテンツ構成情報生成部１５０は、再生装置２０側で選択された視点に対応するセンサ装置（第１のセンサ装置１１又は第２のセンサ装置１２）によるセンシング結果に基づいて、コンテンツ構成情報を生成する。

　（送信部１６０）
　送信部１６０は、他の装置に情報を送信する機能を有する。具体的には、送信部１６０は、コンテンツ構成情報生成部１５０により生成されたコンテンツ構成情報を、再生装置２０に送信する。

　＜２．２．２．コンテンツ構成情報のフォーマット＞
　図５は、本実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。図５に示すように、コンテンツ構成情報は、ＶＲ用画像情報及び空間インタラクション構成情報を含む。図５では、フレーム番号が１からｎのフレームの画像及び表面モデルをコンテナ化した、コンテンツ構成情報のフォーマットが示されている。以下、フォーマットについて詳しく説明する。

　・ＶＲ用画像情報
　ＶＲ用画像情報は、ストリーミング処理部１２０から出力される画像とそれに関連する情報とを含む。

　ＶＲ用画像情報は、フレームごとのＬ画像（ステレオ画像における左側の画像）とそのフレーム番号、及びフレームごとのＲ画像（ステレオ画像における右側の画像）とそのフレーム番号を含む。フレーム番号は、画像の撮像時刻に対応する情報であり、仮想空間関連付け情報に相当する。

　ＶＲ用画像情報は、画像のメタデータを含む。メタデータは、コンテンツＩＤを含む。コンテンツＩＤは、ＶＲコンテンツの識別情報である。コンテンツＩＤは、記録対象の空間における視点を示す情報とも捉えられてもよい。換言すると、コンテンツＩＤは、撮像画像がどのセンサ装置（ＶＲカメラ１０１）により撮像されたかを示す情報、即ち撮像画像を撮像したセンサ装置の識別情報であってもよい。このコンテンツＩＤは、撮像画像と表面モデルとを関連付ける識別情報であり、仮想空間関連付け情報に相当する。

　・空間インタラクション構成情報
　空間インタラクション構成情報は、フレームごとの表面モデル、表面モデルの属性情報及びフレーム番号を含む。フレームごとの表面モデルとは、フレームごとの画像に含まれる実オブジェクトの表面モデルである。即ち、空間インタラクション構成情報は、フレームごとの画像に含まれる実オブジェクトの表面の複数の点の三次元位置情報を含む。属性情報とは、反発係数、摩擦係数及び法線方向等の、フレームごとの画像に含まれる実オブジェクトの物理係数を示す情報である。属性情報は、表面モデルに含まれる点ごとに設定され得る。フレーム番号は、表面モデルの検出時刻（即ち、深度情報の検出時刻）に対応する情報であり、仮想空間関連付け情報に相当する。ある時刻に撮像された撮像画像のフレーム番号と同一時刻に検出された表面モデルのフレーム番号とは、一致することが望ましい。これにより、撮像画像と表面モデルとの時系列的な同期（以下、タイミング同期とも称する）を確立することが容易になる。

　空間インタラクション構成情報は、メタデータを含む。メタデータは、コンテンツＩＤ、視点切り替えオブジェクト情報、センサ装置位置姿勢情報、及びフィードバック設定情報を含む。

　コンテンツＩＤは、ＶＲコンテンツの識別情報である。コンテンツＩＤは、記録対象の空間における視点を示す情報とも捉えられてもよい。換言すると、コンテンツＩＤは、表面モデルがどのセンサ装置（デプスセンサ１０２）により検出された深度情報に基づいて生成されたかを示す情報、即ち深度情報を検出したセンサ装置の識別情報であってもよい。このコンテンツＩＤは、撮像画像と表面モデルとを関連付ける識別情報であり、仮想空間関連付け情報に相当する。

　視点切り替えオブジェクト情報は、視点切り替えオブジェクトに関する情報であり、視点切り替えのために用いられる。視点切り替えオブジェクトとは、視点切り替えのためのコライダーが対応付けられる仮想オブジェクトである。視点切り替えオブジェクト情報は、視点切り替えオブジェクトのＩＤ、視点切り替えオブジェクトの三次元位置情報、及び視点切り替えオブジェクトに対応付けられるコンテンツＩＤを含む。このコンテンツＩＤは、当該視点切り替えオブジェクトに基づく視点の切り替えが行われる場合の、切り替え先のＶＲコンテンツのコンテンツＩＤである。

　センサ装置位置姿勢情報とは、撮像画像を撮像した撮像装置の座標系及び表面モデル（即ち、深度情報）を検出したセンサの座標系に関する情報であり、仮想空間関連付け情報に相当する。即ち、本実施形態に係るセンサ装置位置姿勢情報とは、ＶＲカメラ１０１の座標系及びデプスセンサ１０２の座標系に関する情報である。ＶＲカメラ１０１の座標系は、ＶＲカメラ１０１の位置に基づき設定される原点とＶＲカメラ１０１の姿勢に基づき設定される座標軸とにより定義される。デプスセンサ１０２の座標系は、デプスセンサ１０２の位置に基づき設定される原点とデプスセンサ１０２の姿勢に基づき設定される座標軸とにより定義される。

　センサ装置位置姿勢情報は、これらの座標系を定義する情報である、ＶＲカメラ１０１及びデプスセンサ１０２の位置及び姿勢を示す情報を含んでいてもよい。また、センサ装置位置姿勢情報は、ＶＲカメラ１０１及びデプスセンサ１０２の位置の差分及び姿勢の差分等の、これらの座標系のずれを示す情報を含んでいてもよい。センサ装置位置姿勢情報は、例えば、ＶＲカメラ１０１及びデプスセンサ１０２の設置状況に基づいて、手動で設定されてもよい。また、センサ装置位置姿勢情報は、認識対象物をＶＲカメラ１０１で撮像し且つデプスセンサ１０２でセンシングしたときの、撮像画像における認識対象物の位置及び姿勢と、デプス画像における認識対象物の位置及び姿勢とを比較することで、取得されてもよい。なお、認識対象物としては、所定のチェッカーパターンが付されたパネル又は立方体器具等が挙げられる。

　同一の第１のセンサ装置１１に含まれるＶＲカメラ１０１及びデプスセンサ１０２であっても、位置及び姿勢にずれが生じ得る。このずれに起因して、再生装置２０側でのＶＲコンテンツの構成時に、仮想空間内に配置された撮像画像内の実オブジェクトと当該実オブジェクトに対応付けられる表面モデルとにずれが生じ得る。この点、センサ装置位置姿勢情報がコンテンツ構成情報に含まれることにより、再生装置２０側でずれを補正することが可能となる。

　フィードバック設定情報とは、仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションが行われる場合のフィードバック内容を設定する情報である。フィードバック設定情報は、視覚的、触覚的、聴覚的、又は嗅覚的にフィードバックされる内容を設定する情報を含む。詳しくは、フィードバック設定情報は、視覚的にフィードバックされる内容を設定する視覚フィードバック設定情報を含み得る。視覚フィードバック設定情報は、例えば、衝突したときに表示されるべき、衝突したことを示すアイコンを示す情報等を含む。フィードバック設定情報は、触覚的にフィードバックされる内容を設定する触覚フィードバック設定情報を含む。触覚フィードバック設定情報は、例えば、衝突したときに出力されるべき、振動の周波数、振幅及び振動時間を示す情報等を含み得る。フィードバック設定情報は、聴覚的にフィードバックされる内容を設定する聴覚フィードバック設定情報を含み得る。聴覚フィードバック設定情報は、例えば、衝突したときに出力されるべき音を示す情報等を含む。フィードバック設定情報は、嗅覚的にフィードバックされる内容を設定する嗅覚フィードバック設定情報を含み得る。嗅覚フィードバック設定情報は、例えば、衝突したときに出力されるべき、火薬又は香水等の匂いを示す情報を含む。フィードバック設定情報は、仮想空間における視点移動の際にフィードバックされる内容を設定する視点移動設定情報を含む。視点移動設定情報は、例えば、視点切り替え位置を指定する情報、及び視点移動後の視界の回転量を指定する情報を含む。フィードバック設定情報がコンテンツ構成情報に含まれることにより、ＶＲコンテンツの制作者が意図するフィードバックをユーザに提供することが可能となる。

　ここで、撮像画像内に空間インタラクションに関与する実オブジェクトが複数含まれる場合、空間インタラクション構成情報は、表面モデル、表面モデルの属性情報、及びメタデータのセットを、実オブジェクト毎に含んでいてもよい。また、空間インタラクション構成情報は、実オブジェクト毎に、フィードバック設定情報を含んでいてもよい。その場合、これらの実オブジェクト毎の情報に対しては、実オブジェクトの識別情報が対応付けられる。

　また、フレーム間で表面モデルが流用されてもよい。その場合、空間インタラクション情報は、流用される表面モデル、及び当該表面モデルを流用する期間を識別するための情報を含む。例えば、所定時間の間動かない実オブジェクトがある場合、コンテンツ構成情報生成部１５０は、当該所定時間の開始フレームに対応付けて表面モデルを記録すると共に、その表面モデルを流用する時間情報（例えば、当該所定時間の終了フレーム）を記録する。これにより、伝送量を削減することができるので、伝送遅延を軽減することが可能となる。

　＜２．２．３．記録処理の流れ＞
　図６は、本実施形態に係る記録装置１０により実行される記録処理の流れの一例を示すフローチャートである。図６に示すように、まず、画像取得部１１０は実空間の撮像画像を取得し、深度情報取得部１３０は深度情報を取得する（ステップＳ１０２）。

　その後、表面モデル取得部１４０は、深度情報に基づいて表面モデルを生成する。詳しくは、表面モデル取得部１４０は、深度情報に基づいて、所定の条件を満たす実オブジェクトの表面を形成する点群（例えば、画素群）を抽出する（ステップＳ１０４）。ここでの所定の条件とは、例えば、動体であること、所定の閾値を超える大きさの面を有すること、前景であること、インタラクションの発生が想定される領域であること、及び／又はインタラクションの発生を避けるべき領域でないこと等である。次に、表面モデル取得部１４０は、点群が所定の粒度になるまで点を間引く（ステップＳ１０６）。次いで、表面モデル取得部１４０は、フレーム単位で点群のノイズを除去する（ステップＳ１０８）。このようにして、表面モデル取得部１４０は、表面モデルを生成する。

　そして、コンテンツ構成情報生成部１５０は、撮像画像と表面モデルとに基づいてコンテンツ構成情報を生成する（ステップＳ１１０）。その後、送信部１６０は、コンテンツ構成情報を再生装置２０へ送信する（ステップＳ１１２）。

　＜２．３．再生装置側の技術的特徴＞
　＜２．３．１．再生装置の機能構成例＞
　図７は、本実施形態に係る再生装置２０の機能構成の一例を示すブロック図である。図７に示すように、再生装置２０は、受信部２１０、コンテンツ構成情報解析部２２０、タイミング同期部２３０、座標変換部２４０、仮想オブジェクト制御部２５０、出力制御部２６０、及び選択部２７０を含む。

　また、図７では、ＨＭＤ２１及びコントローラ２２の機能構成の一例も図示されている。図７に示すように、ＨＭＤ２１は、表示部２０１、位置姿勢検出部２０２、音声出力部２０３及び音声入力部２０４を含み、コントローラ２２は、位置姿勢検出部２０５及び振動出力部２０６を含む。

　以下、これらの機能構成について説明する。

　（１）ＨＭＤ２１
　（表示部２０１）
　表示部２０１は、ＶＲコンテンツを表示する機能を有する。表示部２０１は、出力制御部２６０による制御に基づき、ＶＲコンテンツを表示する。例えば、表示部２０１は、ＬＣＤ（Liquid　Crystal　Display）またはＯＬＥＤ（Organic　Light-Emitting　Diode）等により実現され得る。

　（位置姿勢検出部２０２）
　位置姿勢検出部２０２は、ＨＭＤ２１（即ち、ＨＭＤ２１を装着したユーザの頭部）の位置及び姿勢を検出する機能を有する。例えば、位置姿勢検出部２０２は、ジャイロセンサ及び加速度センサを含み、角速度に基づいて姿勢を検出し、角速度及び加速度を用いたＩＮＳ（inertial　navigation　system）演算により位置を検出する。位置姿勢検出部２０２は、検出したＨＭＤ２１の位置及び姿勢を示す情報を、再生装置２０の出力制御部２６０に出力する。

　（音声出力部２０３）
　音声出力部２０３は、ＶＲコンテンツに関する音声を出力する機能を有する。例えば、音声出力部２０３は、スピーカ又はイヤホン、アンプ及びＤＡＣ（Digital　Analog　Converter）等を含む。音声出力部２０３は、出力制御部２６０による制御に基づいて４音声を再生する。

　（音声入力部２０４）
　音声入力部２０４は、ユーザの音声を入力する機能を有する。例えば、音声入力部２０４は、マイク、マイクアンプ及びＡＤＣ（Analog　Digital　Converter）等を含み、ユーザの音声を示すデジタル信号を生成する。音声入力部２０４は、入力されたユーザの音声を示す情報を、仮想オブジェクト制御部２５０に出力する。

　（２）コントローラ２２
　（位置姿勢検出部２０５）
　位置姿勢検出部２０５は、コントローラ２２の位置及び姿勢を検出する機能を有する。例えば、位置姿勢検出部２０５は、ジャイロセンサ及び加速度センサを含み、角速度に基づいて姿勢を検出し、角速度及び加速度を用いたＩＮＳ（inertial　navigation　system）演算により位置を検出する。位置姿勢検出部２０５は、検出したコントローラ２２の位置及び姿勢を示す情報を、仮想オブジェクト制御部２５０に出力する。

　（振動出力部２０６）
　振動出力部２０６は、振動を出力する機能を有する。振動出力部２０６は、出力制御部２６０による制御に基づいて振動を出力する。例えば、振動出力部２０６は、偏心モータ、ＬＲＡ（Linear　Resonant　Actuator）又はＶＣＭ（Voice　Coil　Motor）等により実現され得る。

　（３）再生装置２０
　（受信部２１０）
　受信部２１０は、他の装置から情報を受信する機能を有する。より詳しくは、受信部２１０は、記録装置１０から、コンテンツ構成情報を取得する取得部として機能する。受信部２１０は、選択中の視点に対応するコンテンツ構成情報、即ち選択中の視点に対応する第１のセンサ装置１１又は第２のセンサ装置１２によるセンシング結果に基づいて生成されたコンテンツ構成情報を受信する。受信部２１０は、受信したコンテンツ構成情報を、コンテンツ構成情報解析部２２０に出力する。

　（コンテンツ構成情報解析部２２０）
　コンテンツ構成情報解析部２２０は、コンテンツ構成情報から各種情報を抽出する機能を有する。例えば、コンテンツ構成情報解析部２２０は、コンテンツ構成情報からＶＲ用画像情報及び空間インタラクション構成情報を分離及び抽出して、それぞれ出力する。

　（タイミング同期部２３０）
　タイミング同期部２３０は、ＶＲ用画像情報に含まれる撮像画像と空間インタラクション構成情報に含まれる表面モデルとのタイミング同期を確立する機能を有する。詳しくは、タイミング同期部２３０は、撮像画像と、当該撮像画像の撮像時刻と同一時刻を検出時刻とする表面モデルと、を対応付けることで、撮像画像と表面モデルとのタイミング同期を確立する。その際、タイミング同期部２３０は、撮像画像のフレーム番号と表面モデルのフレーム番号に基づいて、撮像画像と表面モデルとのタイミング同期を確立する。タイミング同期部２３０は、タイミング同期が確立された撮像画像と表面モデルとを、即ち撮像画像と当該撮像画像の撮像時刻と同一時刻を検出時刻とする表面モデルとを、座標変換部２４０に出力する。

　（座標変換部２４０）
　座標変換部２４０は、ＶＲ用画像情報に含まれる撮像画像と空間インタラクション構成情報に含まれる表面モデルとの座標系の同期を確立する機能を有する。座標変換部２４０は、表面モデルに対し、センサ装置位置姿勢情報が示すＶＲカメラ１０１の座標系とデプスセンサ１０２の座標系とのずれを補正するための、座標変換処理を適用する。具体的には、座標変換部２４０は、表面モデルを形成する点群の三次元位置を、ＶＲカメラ１０１の位置に基づき設定される原点とＶＲカメラ１０１の姿勢に基づき設定される座標軸とにより定義される、ＶＲカメラ１０１の座標系における三次元位置に変換する。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと当該実オブジェクトの表面モデルとの三次元位置を合わせることが可能となる。座標変換部２４０は、タイミング同期及び座標系の同期が確立された撮像画像と表面モデルとを、出力制御部２６０及び仮想オブジェクト制御部２５０に出力する。

　（仮想オブジェクト制御部２５０）
　仮想オブジェクト制御部２５０は、仮想オブジェクトに関する各種制御を行う機能を有する。

　・位置及び姿勢の制御
　仮想オブジェクト制御部２５０は、仮想オブジェクトの位置及び姿勢を制御する。詳しくは、仮想オブジェクト制御部２５０は、仮想オブジェクトの位置及び姿勢を演算する。操作体４１に関しては、仮想オブジェクト制御部２５０は、位置姿勢検出部２０５から出力されたコントローラ２２の位置及び姿勢を示す情報に基づいて、操作体４１の位置及び姿勢を演算する。

　仮想オブジェクト制御部２５０は、仮想オブジェクトに関する物理演算を行う。例えば、仮想オブジェクト制御部２５０は、仮想オブジェクト同士が衝突したり、仮想オブジェクトが投げられたりした場合に、当該仮想オブジェクトの仮想空間での移動を演算して、移動後の仮想オブジェクトの位置及び姿勢を演算する。なお、仮想空間内に配置された撮像画像内の実オブジェクトが関与する物理演算には、当該実オブジェクトに対応付けられた物理係数等の属性情報が加味される。

　仮想オブジェクト制御部２５０は、仮想オブジェクトの位置及び姿勢の演算結果を出力制御部２６０に出力する。

　・コライダーの対応付け
　仮想オブジェクト制御部２５０は、仮想オブジェクトにコライダーを対応付ける。とりわけ、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクトにコライダーを対応付ける。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと他の仮想オブジェクトとの衝突の検出が可能となる。以下、コライダーの対応付けについて詳しく説明する。

　仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像に対し、当該撮像画像とのタイミング同期及び座標系の同期が確立された表面モデルを、対応付ける。より簡易には、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの表面モデルを対応付ける。

　仮想オブジェクト制御部２５０は、仮想空間内に配置された表面モデルに、より詳しくは表面モデルを構成する点の各々に、コライダーを対応付ける。詳しくは、仮想オブジェクト制御部２５０は、コライダーの三次元位置情報として、表面モデルの三次元位置情報を用いる。これにより、仮想空間内に配置された撮像画像内の実オブジェクトの当たり判定が可能となる。

　さらに、仮想オブジェクト制御部２５０は、仮想空間内に配置された表面モデルに、物理係数等の属性情報を対応付ける。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと仮想オブジェクトとの衝突時の感触及び跳ね返り等の表現が可能となる。

　・衝突検出
　仮想オブジェクト制御部２５０は、仮想オブジェクト同士の衝突を検出する衝突検出部としての機能も有する。例えば、仮想オブジェクト制御部２５０は、仮想オブジェクトに対応付けられたコライダー同士の衝突判定により、仮想オブジェクト同士の衝突を検出する。

　仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクトと仮想オブジェクトとの衝突も検出する。その場合、仮想オブジェクト制御部２５０は、表面モデルと他の仮想オブジェクトの三次元位置情報とに基づいて、仮想空間内に表示された撮像画像内の実オブジェクトと他の仮想オブジェクトとの衝突を検出する。詳しくは、仮想オブジェクト制御部２５０は、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクトに対応付けられた表面モデルに対応付けられたコライダーと仮想オブジェクトに対応付けられたコライダーとの衝突を検出する。

　仮想オブジェクト制御部２５０は、仮想オブジェクトの位置及び姿勢の時系列変化に基づいて、衝突時の相対速度、及び衝突角度等の衝突状況に関する情報を取得し得る。

　仮想オブジェクト制御部２５０は、衝突の有無及び衝突状況に関する情報を、出力制御部２６０に出力する。

　・その他
　仮想オブジェクト制御部２５０は、音声入力部２０４に入力されたユーザの音声指示に基づいて、仮想オブジェクトを制御してもよい。例えば、仮想オブジェクト制御部２５０は、ユーザの音声を示すテキスト情報から成る仮想オブジェクトを生成して仮想空間内で移動させたり、ユーザに対応するアバターの仮想オブジェクトの口を動かしたりする。

　（出力制御部２６０）
　出力制御部２６０は、コンテンツ構成情報に基づき、仮想空間内に撮像画像を表示する機能を有する。例えば、出力制御部２６０は、仮想空間内に撮像画像を配置することで、仮想空間内に撮像画像を表示する。

　出力制御部２６０は、位置姿勢検出部２０２から出力されたＨＭＤ２１の位置及び姿勢を示す情報に基づいて、仮想空間におけるユーザ位置を移動させたり、視界を回転させたりする。仮想空間におけるユーザ位置の移動は、仮想空間内に配置された撮像画像のズームイン／ズームアウトにより実現され得る。即ち、仮想空間におけるユーザ位置の移動は、ユーザ位置の移動ベクトルとは逆のベクトルに、仮想空間内で撮像画像を移動させることにより実現される。仮想空間における視界の回転は、仮想空間内に配置した撮像画像のうち表示部２０１に表示させる領域を移動させることにより実現され得る。これらにより、ユーザは、ＶＲコンテンツ内で自由に動き回り、３６０度ぐるりと回りを見渡す体験を享受することができる。

　出力制御部２６０は、仮想オブジェクトの表示を制御する機能を有する。例えば、出力制御部２６０は、仮想オブジェクト制御部２５０により演算された位置及び姿勢で、仮想オブジェクトを表示する。

　出力制御部２６０は、コンテンツ構成情報に基づき、仮想空間内に表示された撮像画像に含まれる実オブジェクトが関与するインタラクションに対応するフィードバックの出力を制御する機能を有する。例えば、出力制御部２６０は、仮想空間内に表示された撮像画像に含まれる実オブジェクトと他の仮想オブジェクトとの衝突が検出された場合、衝突に対応する視覚的、触覚的、聴覚的及び／又は嗅覚的なフィードバックのユーザに対する出力を制御する。

　　－視覚フィードバック
　出力制御部２６０は、仮想オブジェクト同士の衝突が検出された場合、表示部２０１に視覚的なフィードバックを出力させてもよい。例えば、出力制御部２６０は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体４１が衝突した場合に、衝突したことを示す情報を表示部２０１により出力させる。出力制御部２６０は、表示部２０１に出力させる情報を、衝突状況に関する情報に基づいて制御してもよい。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、表示部２０１に出力させる情報は、表面モデルに対応付けられた物理係数及び／又は視覚フィードバック設定情報に基づいて決定される。

　　－触覚フィードバック
　出力制御部２６０は、仮想オブジェクト同士の衝突が検出された場合、振動出力部２０６に触覚フィードバックを出力させてもよい。例えば、出力制御部２６０は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体４１が衝突した場合に、衝突したことを示す振動を振動出力部２０６により出力させる。出力制御部２６０は、振動出力部２０６に出力させる振動に関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。振動に関するパラメータとしては、出力させる振動の周波数、振幅及び振動時間等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、振動パラメータは、表面モデルに対応付けられた物理係数及び／又は触覚フィードバック設定情報に基づいて決定される。

　　－聴覚フィードバック
　出力制御部２６０は、仮想オブジェクト同士の衝突が検出された場合、音声出力部２０３に聴覚フィードバックを出力させてもよい。例えば、出力制御部２６０は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体４１が衝突した場合に、衝突したことを示す音声を音声出力部２０３により出力させる。出力制御部２６０は、音声出力部２０３に出力させる音声に関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。音声に関するパラメータとしては、再生させる音声の種類、及び音量等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、音声に関するパラメータは、表面モデルに対応付けられた物理係数及び／又は聴覚フィードバック設定情報に基づいて決定される。

　　－嗅覚フィードバック
　出力制御部２６０は、仮想オブジェクト同士の衝突が検出された場合、図示しない嗅覚出力デバイスに嗅覚フィードバックを出力させてもよい。例えば、出力制御部２６０は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体４１が衝突した場合に、衝突したことを示す匂いを嗅覚出力デバイスにより出力させる。出力制御部２６０は、嗅覚出力デバイスに出力させる匂いに関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。匂いに関するパラメータとしては、匂いの種類、及び匂いの強さ等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、匂いに関するパラメータは、表面モデルに対応付けられた物理係数及び／又は嗅覚フィードバック設定情報に基づいて決定される。

　　－補足
　出力制御部２６０は、仮想オブジェクト同士の衝突が検出された後、所定の停止条件が成立するまでの間、視覚／触覚／聴覚／嗅覚フィードバックを出力させてもよい。所定の停止条件とは、例えば、衝突発生後に所定時間が経過すること、又は仮想オブジェクト同士の距離が所定距離を超えること等である。これにより、衝突の余韻をユーザに与えることが可能となる。

　このようにして、仮想空間内に配置された撮像画像内の実オブジェクトが関与する視覚的、触覚的、聴覚的又は嗅覚的なインタラクションが実現される。

　（選択部２７０）
　選択部２７０は、視点を選択する（即ち、再生されるＶＲコンテンツを切り替える）機能を有する。より詳しくは、選択部２７０は、再生されるＶＲコンテンツの元となるコンテンツ構成情報を、どのセンサ装置によるセンシング結果に基づいて生成されたコンテンツ構成情報にするかを選択する。視点の選択は、例えばコンテンツＩＤの選択により行われる。選択部２７０は、選択結果を示す情報（例えば、コンテンツＩＤ）を記録装置１０に送信し、受信するコンテンツ構成情報を切り替えてもよい。

　＜２．３．２．空間インタラクション＞
　（１）第１の空間インタラクション
　第１の空間インタラクションは、仮想空間内に配置された撮像画像内の実オブジェクトとユーザとのインタラクションに関する。本インタラクションについては、図３を参照して上記説明した通りである。詳しくは、再生装置２０は、仮想空間内に配置された撮像画像内の実オブジェクト（ステージ１６又は演者１８）とユーザが操作する操作体４１とが衝突した場合に、衝突に対応する触覚フィードバックをコントローラ２２により出力させる。このようなインタラクションに関する処理の流れを、図８を参照して説明する。

　図８は、本実施形態に係る再生装置２０により実行される第１の空間インタラクション処理の流れの一例を示すフローチャートである。図８に示すように、まず、受信部２１０は、選択中の視点に対応するコンテンツ構成情報を受信する（ステップＳ２０２）。次いで、コンテンツ構成情報解析部２２０は、コンテンツ構成情報からＶＲ用画像情報及び空間インタラクション構成情報を抽出する（ステップＳ２０４）。次に、タイミング同期部２３０は、撮像画像と表面モデルとのタイミング同期を確立し、座標変換部２４０は、撮像画像と表面モデルとの座標系の同期を確立する（ステップＳ２０６）。次いで、出力制御部２６０は、仮想空間に撮像画像を配置する（ステップＳ２０８）。

　次に、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像に対し、コライダー及び物理係数を対応付けた表面モデルを重ね合わせて配置する（ステップＳ２１０）。次いで、仮想オブジェクト制御部２５０は、コントローラ２２の位置及び姿勢に基づいて、仮想空間における操作体４１の位置及び姿勢を制御する（ステップＳ２１２）。次に、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクトと操作体４１との衝突有無を判定する（ステップＳ２１４）。詳しくは、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像に重ね合わされた表面モデルに対応付けられたコライダーと、操作体４１に対応付けられたコライダーとの衝突有無を判定する。衝突していないと判定された場合（ステップＳ２１６／ＮＯ）、処理は再度ステップＳ２０２に戻る。衝突したと判定された場合（ステップＳ２１６／ＹＥＳ）、出力制御部２６０は、衝突に応じたフィードバックを出力する（ステップＳ２１８）。詳しくは、出力制御部２６０は、表面モデルに対応付けられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚／触覚／聴覚／嗅覚フィードバックの出力を制御する。その後、処理は再度ステップＳ２０２に戻る。

　（２）第２の空間インタラクション
　第２の空間インタラクションは、仮想空間内に配置された撮像画像内の実オブジェクトと操作体４１以外の仮想オブジェクトとのインタラクションに関する。本インタラクションに関して、図９を参照して詳しく説明する。

　図９は、本実施形態に係る第２の空間インタラクションの一例を説明するための図である。図９に示したＶＲコンテンツ４０では、仮想空間に、図２に示したステージ１６上の演者１８を含む撮像画像が配置されており、且つ、撮像画像内のステージ１６及び演者１８の各々に表面モデルが対応付けられている。ユーザは、コントローラ２２を介して、仮想空間において仮想オブジェクトであるボール４３の位置に操作体４１を合わせて掴み、その後投げる操作を行うことができる。掴む操作が行われると、ボール４３が操作体４１の子オブジェクトとなり、操作体４１がボール４３の親オブジェクトとなる。子オブジェクトは、親オブジェクトに連動して動く。投げる操作が行われると、親子関係が解除されて、子オブジェクトは物理演算の結果に従って空中を移動する。ユーザがボール４３を掴んで演者１８に投げると、ボール４３が演者１８に衝突して跳ね返る。その際の視覚フィードバックとして、衝突したことを示すアイコン４４が表示される。さらに、演者１８から跳ね返ったボール４３がステージ１６に衝突して転がる。その際、出力制御部２６０は、ステージ１６上にボール４３の影を表示したり、転がる音を出力したりしてもよい。このようなインタラクションに関する処理の流れを、図１０Ａ及び図１０Ｂを参照して説明する。

　図１０Ａ及び図１０Ｂは、本実施形態に係る再生装置２０により実行される第２の空間インタラクション処理の流れの一例を示すフローチャートである。図１０Ａに示したステップＳ３０２～Ｓ３１２に係る処理は、図８に示したステップＳ２０２～Ｓ２１２に係る処理と同様である。その後、仮想オブジェクト制御部２５０は、ボール４３と操作体４１との衝突有無、及び掴む操作の有無を判定する（ステップＳ３１４）。詳しくは、仮想オブジェクト制御部２５０は、ボール４３に対応付けられたコライダーと操作体４１に対応付けられたコライダーとの衝突有無を判定し、掴む操作が入力されたか否かを判定する。衝突していない又は掴む操作が行われていないと判定された場合（ステップＳ３１６／ＮＯ）、処理は再度ステップＳ３０２に戻る。

　衝突し、且つ掴む操作が行われたと判定された場合（ステップＳ３１６／ＹＥＳ）、図１０Ｂに示すように、仮想オブジェクト制御部２５０は、ボール４３を操作体４１の子オブジェクトとし、出力制御部２６０は、ボール４３が操作体４１に付随して移動する様子を表示する（ステップＳ３１８）。次に、仮想オブジェクト制御部２５０は、ボール４３を投げる操作が行われたか否かを判定する（ステップＳ３２０）。投げる操作が行われていないと判定された場合（ステップＳ３２０／ＮＯ）、処理は再度ステップＳ３１８に戻る。投げる操作が行われたと判定された場合（ステップＳ３２０／ＹＥＳ）、出力制御部２６０は、仮想オブジェクト制御部２５０による物理演算の結果に基づいて、投げられたボール４３の空中移動を表示する（ステップＳ３２２）。次いで、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内の実オブジェクト（ステージ１６又は演者１８）とボール４３との衝突有無を判定する（ステップＳ３２４）。衝突していないと判定された場合（ステップＳ３２６／ＮＯ）、処理は再度ステップＳ３２２に戻る。

　衝突したと判定された場合（ステップＳ３２６／ＹＥＳ）、出力制御部２６０は、仮想オブジェクト制御部２５０による物理演算の結果に基づいて、ボール４３が転がる様子を表示する（ステップＳ３２８）。例えば、仮想オブジェクト制御部２５０は、衝突したと判定されたコライダーに対応する点の属性情報に基づいて物理演算を行い、出力制御部２６０は、物理演算の結果に基づいて、ボール４３が転がる軌跡を表示する。その際、出力制御部２６０は、表面モデルに対応づけられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚／触覚／聴覚／嗅覚フィードバックの出力を制御してもよい。例えば、出力制御部２６０は、衝突したことを示すアイコンを表示し、ボールの影を表示し、ボールが転がる音を再生する。その後、処理は再度ステップＳ３０２に戻る。

　＜２．３．３．視点切り替え＞
　選択部２７０は、仮想空間におけるユーザ位置に対応するコンテンツ構成情報を、受信部２１０が取得すべきコンテンツ構成情報として選択する。つまり、選択部２７０は、仮想空間におけるユーザ位置に応じて、再生されるＶＲコンテンツを切り替える。選択部２７０は、視点切り替えオブジェクトに基づいて視点切り替えを実施する。以下、この点について詳しく説明する。

　仮想オブジェクト制御部２５０は、視点切り替えオブジェクト情報に基づいて、仮想空間に視点切り替えオブジェクトを設定する。詳しくは、仮想オブジェクト制御部２５０は、視点切り替えオブジェクト情報において指定された三次元位置に視点切り替えオブジェクトを配置し、当該視点切り替えオブジェクトにコライダー、コンテンツＩＤ及び視点切り替え位置を対応付ける。このコンテンツＩＤは、当該視点切り替えオブジェクトに基づく視点の切り替えが行われる場合の、切り替え先のＶＲコンテンツのコンテンツＩＤである。視点切り替え位置は、仮想空間における所定の位置であり、視点移動設定情報として設定され得る。なお、視点切り替えオブジェクトは、典型的には非表示である。

　仮想オブジェクト制御部２５０は、ユーザの視線と視点切り替えオブジェクトとの衝突を検出する。詳しくは、仮想オブジェクト制御部２５０は、視点切り替えオブジェクトに対応付けられたコライダーに基づいて、衝突を検出する。ここでのユーザの視線は、眼軸方向であってもよいし、顔の向きであってもよい。前者の場合、仮想オブジェクト制御部２５０は、ユーザの眼の撮像画像の画像認識結果に基づいて、ユーザの視線を認識する。後者の場合、仮想オブジェクト制御部２５０は、位置姿勢検出部２０２による検出結果に基づいて、ユーザの視線を認識する。

　出力制御部２６０は、ユーザの視線と視点切り替えオブジェクトとの衝突が検出された場合、ユーザ位置を移動させる。詳しくは、出力制御部２６０は、仮想空間におけるユーザ位置を、当該視点切り替えオブジェクトに対応付けられた視点切り替え位置まで連続的に移動させる。この連続的なユーザ位置の移動は、視点切り替え位置に対応する倍率になるまで、仮想空間内に配置された撮像画像をズームイン／ズームアウトすることにより、行われる。なお、視点切り替え位置までのユーザ位置の移動は、首振り等のユーザ操作に基づいて行われてもよい。

　そして、選択部２７０は、仮想空間におけるユーザ位置が視点切り替え位置に到達したことをトリガとして、選択するコンテンツ構成情報を切り替える。詳しくは、選択部２７０は、仮想空間内に配置された撮像画像のズームイン／ズームアウトの倍率が所定の倍率になった場合に、選択するコンテンツ構成情報を切り替える。選択部２７０は、到達した視点切り替え位置に対応する視点切り替えオブジェクトに対応付けられたコンテンツＩＤを、切り替え先のＶＲコンテンツのコンテンツＩＤとして選択する。即ち、選択部２７０は、到達した視点切り替え位置に対応する視点切り替えオブジェクトに対応付けられたコンテンツＩＤのコンテンツ構成情報を、再生するＶＲコンテンツを生成する元となるコンテンツ構成情報として選択する。

　視点切り替え位置は、切り替え先のコンテンツ構成情報の元となる撮像画像を撮像した撮像装置（即ち、ＶＲカメラ１０１）の位置に相当する仮想空間内の位置であることが望ましい。詳しくは、仮想空間における視点切り替え位置が、切り替え先のコンテンツ構成情報の元となった撮像画像を撮像したＶＲカメラ１０１の位置を仮想空間にマッピングしたときの位置と、一致する又は所定距離以内であることが望ましい。この場合、切り替え前後で、仮想空間に配置された撮像画像内の実オブジェクトまでの距離が同一となるので、切り替え前後で当該実オブジェクトのスケール感は同一となる。これにより、視点切り替えの際に、瞬間的に視点が移動したかのような違和感をユーザに与えることを防止することができる。

　視点切り替えオブジェクトに基づく視点切り替えについて、図１１を参照して詳しく説明する。

　図１１は、本実施形態に係る視点切り替えオブジェクトに基づく視点切り替えを説明するための図である。図１１に示すように、ＶＲコンテンツ＃１が選択中の視点のＶＲコンテンツであるものとする。即ち、再生装置２０は、ＶＲコンテンツ＃１を再生しているものとする。ＶＲコンテンツ＃１には、ＶＲコンテンツ＃２－１、＃２－２、＃２－３の各々が対応付けられた視点切り替えオブジェクトが配置されている。なお、ＶＲコンテンツに付された「＃」の直後の数字は選択された視点のレイヤーを示し、「－」の後の数字は同レイヤーにおけるインデックスである。ＶＲコンテンツ＃２－１に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置２０は、ＶＲコンテンツ＃２－１を再生する。ＶＲコンテンツ＃２－２に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置２０は、ＶＲコンテンツ＃２－２を再生する。ＶＲコンテンツ＃２－３に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置２０は、ＶＲコンテンツ＃２－３を再生する。その後も、同様にして視点の切り替えが行われる。

　・具体例
　以下、視点の切り替えの具体例について図１２～図１５を参照して具体的に説明する。

　図１２は、本実施形態に係るユーザ位置の移動及び切り替えの一例を説明するための図である。図１２では、再生装置２０により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図１２に示すように、演者１８がいるステージ１６上に第１のセンサ装置１１が配置され、観客席１７のうちステージ１６の近くに第２のセンサ装置１２Ａが配置され、ステージ１６から最も遠くに第２のセンサ装置１２Ｂが配置されている。

　図１３は、図１２を示した配置のセンサ装置により撮像された撮像画像を用いたＶＲコンテンツの視点切り替えの一例を示す図である。ＶＲコンテンツ４０Ｂは、第２のセンサ装置１２Ｂにより撮像された撮像画像が仮想空間内に配置されたＶＲコンテンツである。仮想オブジェクト制御部２５０は、ＶＲコンテンツ４０Ｂにおいて、演者１８を包含する三次元位置及び大きさの視点切り替えオブジェクト４５Ｂを配置し、第２のセンサ装置１２Ａの識別情報をコンテンツＩＤとして対応付けたものとする。ユーザの視線が視点切り替えオブジェクト４５Ｂに衝突し、且つユーザ位置が視点切り替え位置まで移動した場合、選択部２７０は、視点切り替えオブジェクト４５Ｂに対応付けられたコンテンツＩＤに基づく視点の選択を行う。詳しくは、選択部２７０は、第２のセンサ装置１２Ａによるセンシング結果に基づいて生成されたコンテンツ構成情報を、再生されるＶＲコンテンツの元となるコンテンツ構成情報として選択する。その結果、出力制御部２６０は、第２のセンサ装置１２Ａにより撮像された撮像画像が仮想空間内に配置されたＶＲコンテンツ４０Ａに表示を切り替える。

　ここで、仮想空間における視点切り替え位置は、実空間における第２のセンサ装置１２Ａの位置に相当する位置と一致することが望ましい。この場合、選択部２７０は、仮想空間におけるユーザ位置が、実空間における第２のセンサ装置１２Ａの位置に相当する位置に到達したときに、ＶＲコンテンツ４０Ａへの切り替えを行う。これにより、切り替え前後で、演者１８までの距離が同一となるので、切り替え前後で演者１８のスケール感は同一となる。従って、視点切り替えの際に、瞬間的に視点が移動したかのような違和感をユーザに与えることを防止することができる。

　仮想オブジェクト制御部２５０は、ＶＲコンテンツ４０Ａにおいて、演者１８を包含する三次元位置及び大きさの視点切り替えオブジェクト４５Ａを配置し、第１のセンサ装置１１の識別情報をコンテンツＩＤとして対応付けたものとする。ユーザの視線が視点切り替えオブジェクト４５Ａに衝突し、且つユーザ位置が視点切り替え位置まで移動した場合、選択部２７０は、視点切り替えオブジェクト４５Ａに対応付けられたコンテンツＩＤに基づく視点の選択を行う。詳しくは、選択部２７０は、第１のセンサ装置１１によるセンシング結果に基づいて生成されたコンテンツ構成情報を、再生されるＶＲコンテンツの元となるコンテンツ構成情報として選択する。その結果、出力制御部２６０は、第１のセンサ装置１１により撮像された撮像画像が仮想空間内に配置されたＶＲコンテンツに表示を切り替える。

　ここで、仮想空間における視点切り替え位置は、実空間における第１のセンサ装置１１の位置に相当する位置と一致することが望ましい。この場合、選択部２７０は、仮想空間におけるユーザ位置が、実空間における第１のセンサ装置１１の位置に相当する位置に到達したときに、第１のセンサ装置１１により撮像された撮像画像が仮想空間内に配置されたＶＲコンテンツへの切り替えを行う。これにより、切り替え前後で、演者１８までの距離が同一となるので、切り替え前後で演者１８のスケール感は同一となる。従って、視点切り替えに起因する違和感をユーザに与えることを防止することができる。

　このように、ユーザ位置の移動に伴い視点の切り替えを繰り返すことで、記録対象の空間内を連続的に移動しているかのような体験をユーザに提供することが可能となる。また、視点切り替え位置とＶＲカメラ１０１の位置とを一致させることで、視点切り替えに起因する違和感をユーザに与えることを防止して、ユーザ体験の劣化を防止することが可能となる。

　・補足
　図１４は、本実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。図１４では、再生装置２０により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図１４に示すように、演者１８がステージ１６上にいて、観客席１７に第２のセンサ装置１２Ａ～１２Ｄが配置されている。

　図１４に示した例では、第２のセンサ装置１２Ｄを視点とするＶＲコンテンツにおいて、視点切り替え位置が第２のセンサ装置１２Ｃの位置に設定される。そして、視点切り替え位置である第２のセンサ装置１２Ｃの位置へのユーザの移動に伴い、第２のセンサ装置１２Ｃを視点とするＶＲコンテンツへの切り替えが行われる。同様にして、第２のセンサ装置１２Ｂを視点とするＶＲコンテンツへの切り替え、第２のセンサ装置１２Ａを視点とするＶＲコンテンツへの切り替えが行われる。ユーザ位置の移動軌跡は、各々の視点間で直線であることが望ましい一方で、図１４に示すように、複数の視点間の移動軌跡同士は直線的でなくてもよい。

　図１５は、本実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。図１５では、再生装置２０により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図１５に示すように、演者１８がステージ１６上にいて、観客席１７に第２のセンサ装置１２Ａ及び１２Ｂが配置されている。図１５では、図１３に示した例と同様に、演者１８を包含するように視点切り替えオブジェクトが配置されるものとする。

　再生装置２０は、第２のセンサ装置１２Ａを視点とするＶＲコンテンツを再生していたものとする。そして、図１５に示すように、ユーザが演者１８に視線を向けながらユーザ位置が後方に移動したものとする。なお、ユーザ位置の後方への移動は、第２のセンサ装置１２Ａを視点とするＶＲコンテンツにおいて、仮想空間内に配置された撮像画像をズームアウトすることにより、実現される。ユーザ位置が視点切り替え位置１９に移動すると、第２のセンサ装置１２Ａを視点とするＶＲコンテンツから第２のセンサ装置１２Ｂを視点とするＶＲコンテンツへの切り替えが実施される。この場合、視点切り替え位置１９から第２のセンサ装置１２Ａの位置まで、視点が瞬間的に移動したような違和感をユーザに与えかねない。

　そこで、視点切り替え位置は、仮想空間に表示された撮像画像内の所定の実オブジェクトまでの距離が、切り替え先のコンテンツ構成情報の元となる撮像画像を撮像した撮像装置（即ち、ＶＲカメラ１０１）の位置に相当する仮想空間内の位置と同等であることが望ましい。図１５に示した例では、視点切り替え位置１９と第２のセンサ装置１２Ｂの位置とは、演者１８までの距離が同等であることが望ましい。なお、同等とは、同一又はその差が所定範囲内であることを意味する。この場合、切り替え前後で演者１８のスケール感は同等となる。そのため、ユーザに与える違和感を軽減することができる。

　また、視点切り替え位置１９と第２のセンサ装置１２Ｂの位置とは、演者１８との角度が異なるので、移動前後で演者１８を見る角度が変わってしまい、ユーザに違和感を与えかねない。そこで、出力制御部２６０は、仮想オブジェクト制御部２５０によるＶＲコンテンツの切り替え後、仮想空間内に表示された撮像画像内の所定の実オブジェクトが前記ユーザの視線と衝突するように、仮想空間に撮像画像を配置してもよい。具体的には、出力制御部２６０は、視点切り替えの際に、ユーザの視線上に（例えば、ユーザの顔の正面に）演者１８が位置するように視界を回転させる。これにより、切り替え前後でユーザが演者１８を見る角度が変わらなくなるので、ユーザに与える違和感を軽減することができる。なお、移動後の視界の回転量は、視点移動設定情報として設定され得る。

　・処理の流れ
　続いて、図１６を参照して、視点切り替え処理の流れの一例を説明する。

　図１６は、本実施形態に係る再生装置２０により実行される視点切り替え処理の流れの一例を示すフローチャートである。なお、図１６に示したフローチャートに基づく処理では、視点切り替えに関与する処理以外については省略されている。

　図１６に示すように、まず、受信部２１０は、選択中の視点に対応するコンテンツ構成情報を受信する（ステップＳ４０２）。次いで、コンテンツ構成情報解析部２２０は、コンテンツ構成情報からＶＲ用画像情報及び空間インタラクション構成情報を抽出する（ステップＳ４０４）。次いで、出力制御部２６０は、仮想空間に撮像画像を配置する（ステップＳ４０６）。次に、仮想オブジェクト制御部２５０は、視点切り替えオブジェクト情報に基づいて、仮想空間に視点切り替えオブジェクトを配置する（ステップＳ４０８）。

　次いで、仮想オブジェクト制御部２５０は、ユーザの視線が視点切り替えオブジェクトに衝突するか否かを判定する（ステップＳ４１０）。衝突しないと判定された場合（ステップＳ４１０／ＹＥＳ）、処理は再度ステップＳ４０２に戻る。衝突すると判定された場合（ステップＳ４１０／ＹＥＳ）、出力制御部２６０は、ユーザ位置の移動に応じて仮想空間内に配置された撮像画像をズームイン／ズームアウトする（ステップＳ４１２）。次に、仮想オブジェクト制御部２５０は、視点切り替え位置までユーザ位置が移動したか否かを判定する（ステップＳ４１４）。移動していないと判定された場合（ステップＳ４１４／ＮＯ）、処理は再度ステップＳ４０２に戻る。移動したと判定された場合（ステップＳ４１４／ＹＥＳ）、選択部２７０は、視点切り替えオブジェクトに対応付けられたコンテンツＩＤを選択する（ステップＳ４１６）。これにより、ステップＳ４０２において受信されるコンテンツ構成情報が、新たに選択されたコンテンツＩＤのコンテンツ構成情報に切り替えられ、視点の切り替えが実現される。その後、処理は再度ステップＳ４０２に戻る。

　＜＜３．第２の実施形態＞＞
　第２の実施形態は、仮想空間内に配置された撮像画像内のトラッキング対象物に当該トラッキング対象物の三次元位置情報を対応付けることで、仮想空間内に配置された撮像画像内のトラッキング対象物が関与する空間インタラクションを実現する形態である。第１の実施形態では、実オブジェクトの表面全体に対し三次元位置情報が対応付けられていたのに対し、第２の実施形態では、実オブジェクトのうちトラッキング対象物の三次元位置に対応する１点に三次元位置情報が対応付けられる。例えば、実オブジェクトのうちトラッキング対象物の三次元位置に対応する１点に対応付けられる三次元位置情報は、トラッカーに対応する実オブジェクトの三次元位置に対応する所定の座標系の特定の座標である。

　＜３．１．概要＞
　（１）記録装置の概要
　図１７は、本実施形態に係る記録装置１０の記録装置の概要を説明するための図である。図１７では、記録装置１０による情報の記録対象となる空間の一例が示されている。図１７に示すように、本空間では、観客席１７にいる大勢の観客の前で、ステージ１６上でトラッカー１４を装着した演者１８が歌っている。本空間には、記録装置１０による記録に関与する装置として、第３のセンサ装置１３が設置されている。また、本空間には、モニタ１５も配置されている。

　・第３のセンサ装置１３
　第３のセンサ装置１３は、実空間をセンシングする装置である。第３のセンサ装置１３は、撮像装置を備える。撮像装置については、第１のセンサ装置１１に関し上記説明した通りである。

　さらに、第３のセンサ装置１３は、実空間におけるトラッキング対象物の位置及び姿勢を検出するトラッカーセンサを備える。例えば、トラッカーセンサは、演者１８が手首に装着しているトラッカー１４をトラッキング対象物として、トラッカー１４の位置及び姿勢を検出する。トラッカーセンサによるトラッキングには、光学式、レーザー式又は磁気式の任意のトラッキング技術が用いられ得る。

　・モニタ１５
　モニタ１５については、第１の実施形態において上記説明した通りである。

　記録装置１０は、第３のセンサ装置１３によるセンシング結果に基づいて、再生装置２０側でＶＲコンテンツを構成するための各種情報を含むコンテンツ構成情報を生成する。そして、記録装置１０は、生成したコンテンツ構成情報を再生装置２０へ送信する。

　（２）再生装置の概要
　図１８は、本実施形態に係る再生装置２０の概要を説明するための図である。図１８では、再生装置２０によるＶＲコンテンツの再生に関与する装置として、ＨＭＤ２１及びコントローラ２２が図示されている。ＨＭＤ２１及びコントローラ２２については、第１の実施形態において上記説明した通りである。

　再生装置２０は、記録装置１０から受信したコンテンツ構成情報に基づいて、ＶＲコンテンツを生成する。本実施形態に係るＶＲコンテンツでは、仮想オブジェクトのひとつとして、実空間を撮像した撮像画像が仮想空間内に配置される。さらに、本実施形態に係るＶＲコンテンツでは、仮想空間内に配置された撮像画像内のトラッカー１４に、当該トラッカー１４の三次元位置を示す三次元位置情報が対応付けられる。これにより、仮想空間内に配置された撮像画像内の実オブジェクトであるトラッカー１４の空間インタラクションを実現することが可能となる。以下、この点について詳しく説明する。

　図１８に示すように、ＨＭＤ２１は、再生装置２０により生成されたＶＲコンテンツ４０を表示する。ＶＲコンテンツ４０では、仮想空間に、図１７に示したステージ１６上でトラッカー１４を装着した演者１８を含む撮像画像が配置されており、且つ、撮像画像内のトラッカー１４に三次元位置情報が対応付けられている。

　ユーザがコントローラ２２を操作すると、実空間におけるコントローラ２２の位置及び姿勢に応じて、仮想空間における操作体４１の位置及び姿勢が変化する。操作体４１は、仮想空間におけるユーザの操作位置を示す仮想オブジェクトである。再生装置２０は、仮想空間における操作体４１の位置とトラッカー１４に対応付けられた三次元位置情報とに基づいて、仮想空間における操作体４１とトラッカー１４との衝突を判定する。そして、再生装置２０は、衝突したと判定した場合には、衝突に対応する触覚フィードバックをコントローラ２２に出力させる。

　このように、本実施形態に係るコンテンツ配信システム１によれば、仮想空間内に配置された撮像画像内の実オブジェクトであるトラッキング対象物が関与する空間インタラクションを実現することが可能となる。

　＜３．２．記録装置側の技術的特徴＞
　＜３．２．１．記録装置の機能構成例＞
　図１９は、本実施形態に係る記録装置１０の機能構成の一例を示すブロック図である。図１９に示すように、記録装置１０は、画像取得部１１０、ストリーミング処理部１２０、トラッカー位置取得部１７０、コンテンツ構成情報生成部１５０及び送信部１６０を含む。

　また、図１９では第３のセンサ装置１３の機能構成の一例も図示されている。図１９に示すように、第３のセンサ装置１３は、ＶＲカメラ１０１及びトラッカーセンサ１０３を含む。

　以下、これらの構成要素について説明する。ただし、第１の実施形態において説明した構成要素については、第１の実施形態と同様の点については説明を省略し、第１の実施形態と異なる点について説明する。

　（１）第３のセンサ装置１３
　ＶＲカメラ１０１については第１の実施形態において、トラッカーセンサ１０３については図１７を参照しながら、上記説明した通りである。

　（２）記録装置１０
　（画像取得部１１０）
　画像取得部１１０については、第１の実施形態において上記説明した通りである。

　（ストリーミング処理部１２０）
　ストリーミング処理部１２０については、第１の実施形態において上記説明した通りである。

　（トラッカー位置取得部１７０）
　トラッカー位置取得部１７０は、第３のセンサ装置１３に含まれるトラッカーセンサ１０３から、実空間のトラッカー１４の位置を示す三次元位置情報を取得する機能を有する。ここでの三次元位置情報とは、トラッカーセンサ１０３の位置に基づき設定される原点とトラッカーセンサ１０３の姿勢に基づき設定される座標軸とにより定義される、トラッカーセンサ１０３の座標系における位置を示す情報である。トラッカー１４の三次元位置情報は、トラッカー１４の１点の三次元位置情報（被写体三次元位置情報に相当）である。トラッカー位置取得部１７０は、取得したトラッカー１４の三次元位置情報をコンテンツ構成情報生成部１５０に出力する。

　（コンテンツ構成情報生成部１５０）
　コンテンツ構成情報生成部１５０については、第１の実施形態においてした上記説明の、表面モデルをトラッカー１４の三次元位置情報に読み替えればよい。

　（送信部１６０）
　送信部１６０については、第１の実施形態において上記説明した通りである。

　＜３．２．２．コンテンツ構成情報のフォーマット＞
　図２０は、本実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。図２０に示すように、コンテンツ構成情報は、ＶＲ用画像情報及び空間インタラクション構成情報を含む。図２０では、フレーム番号が１からｎのフレームの画像及びトラッカー１４の三次元位置情報をコンテナ化した、コンテンツ構成情報のフォーマットが示されている。

　・ＶＲ用画像情報
　ＶＲ用画像情報については、第１の実施形態において上記説明した通りである。

　・空間インタラクション構成情報
　空間インタラクション構成情報は、フレームごとのトラッカー１４の三次元位置情報、トラッカー１４の位置姿勢情報の属性情報及びフレーム番号を含む。フレームごとのトラッカー１４の三次元位置情報は、フレームごとの画像におけるトラッカー１４の位置を示す情報である。属性情報とは、反発係数、摩擦係数及び法線方向等の、空間インタラクションのための物理係数を含む情報である。フレーム番号は、トラッカー１４の三次元位置情報の検出時刻に対応する情報であり、仮想空間関連付け情報に相当する。ある時刻に撮像された撮像画像のフレーム番号と同一時刻に検出されたトラッカー１４の三次元位置情報のフレーム番号とは、一致することが望ましい。これにより、撮像画像とトラッカー１４の三次元位置情報とのタイミング同期を確立することが容易になる。

　空間インタラクション構成情報は、メタデータを含む。メタデータは、コンテンツＩＤ、視点切り替えオブジェクト情報、センサ装置位置姿勢情報、及びフィードバック設定情報を含む。コンテンツＩＤ、視点切り替えオブジェクト情報、及びフィードバック設定情報については、第１の実施形態において上記説明した通りである。

　本実施形態に係るセンサ装置位置姿勢情報とは、撮像画像を撮像した撮像装置の座標系及びトラッカー１４の三次元位置情報を検出したセンサの座標系に関する情報であり、仮想空間関連付け情報に相当する。即ち、本実施形態に係るセンサ装置位置姿勢情報とは、ＶＲカメラ１０１の座標系及びトラッカーセンサ１０３の座標系に関する情報である。トラッカーセンサ１０３の座標系は、トラッカーセンサ１０３の位置に基づき設定される原点とトラッカーセンサ１０３の姿勢に基づき設定される座標軸とにより定義される。

　センサ装置位置姿勢情報は、これらの座標系を定義する情報である、ＶＲカメラ１０１及びトラッカーセンサ１０３の位置及び姿勢を示す情報を含んでいてもよい。また、センサ装置位置姿勢情報は、ＶＲカメラ１０１及びトラッカーセンサ１０３の位置の差分及び姿勢の差分等の、これらの座標系のずれを示す情報を含んでいてもよい。センサ装置位置姿勢情報は、例えば、ＶＲカメラ１０１及びトラッカーセンサ１０３の設置状況に基づいて、手動で設定されてもよい。また、センサ装置位置姿勢情報は、トラッカー１４をＶＲカメラ１０１で撮像し且つトラッカーセンサ１０３でセンシングしたときの、撮像画像内のトラッカー１４の位置及び姿勢と、トラッカーセンサ１０３により検出されるトラッカー１４の位置及び姿勢とを比較することで、取得されてもよい。

　同一の第３のセンサ装置１３に含まれるＶＲカメラ１０１及びトラッカーセンサ１０３であっても、位置及び姿勢にずれが生じ得る。このずれに起因して、再生装置２０側でのＶＲコンテンツの構成時に、仮想空間内に配置された撮像画像内のトラッカー１４の位置及び姿勢と当該トラッカー１４に対応付けられるトラッカー１４の三次元位置情報とにずれが生じ得る。この点、センサ装置位置姿勢情報がコンテンツ構成情報に含まれることにより、再生装置２０側でずれを補正することが可能となる。

　ここで、撮像画像内にトラッカー１４が複数含まれる場合、空間インタラクション構成情報は、トラッカー１４の１点の三次元位置情報、属性情報、及びメタデータのセットを、トラッカー１４毎に含んでいてもよい。また、空間インタラクション構成情報は、トラッカー１４毎に、フィードバック設定情報を含んでいてもよい。その場合、これらのトラッカー１４毎の情報に対しては、トラッカー１４の識別情報が対応付けられる。

　また、フレーム間でトラッカー１４の三次元位置情報が流用されてもよい。その場合、空間インタラクション情報は、流用されるトラッカー１４の三次元位置情報、及び当該トラッカー１４の三次元位置情報を流用する期間を識別するための情報を含む。例えば、所定時間の間動かないトラッカー１４がある場合、コンテンツ構成情報生成部１５０は、当該所定時間の開始フレームに対応付けてトラッカー１４の三次元位置情報を記録すると共に、そのトラッカー１４の三次元位置情報を流用する時間情報（例えば、当該所定時間の終了フレーム）を記録する。これにより、伝送量を削減することができるので、伝送遅延を軽減することが可能となる。

　＜３．２．３．記録処理の流れ＞
　図２１は、本実施形態に係る記録装置１０により実行される記録処理の流れの一例を示すフローチャートである。図２１に示すように、まず、画像取得部１１０は実空間の撮像画像を取得し、トラッカー位置取得部１７０はトラッカー１４の三次元位置情報を取得する（ステップＳ５０２）。次いで、コンテンツ構成情報生成部１５０は、撮像画像とトラッカー１４の三次元位置情報とに基づいてコンテンツ構成情報を生成する（ステップＳ５０４）。その後、送信部１６０は、コンテンツ構成情報を再生装置２０へ送信する（ステップＳ５０６）。

　＜３．３．再生装置側の技術的特徴＞
　＜３．３．１．再生装置の機能構成例＞
　本実施形態に係る再生装置２０は、図７に示した構成要素を同様に有する。各構成要素については、第１の実施形態においてした上記説明の、第１のセンサ装置１１及び第２のセンサ装置１２を第３のセンサ装置１３に、デプスセンサ１０２をトラッカーセンサ１０３に、表面モデルをトラッカー１４の三次元位置情報に、実オブジェクトをトラッカー１４に、それぞれ読み替えればよい。その他、本実施形態に特徴的な点について以下に説明する。

　（出力制御部２６０）
　出力制御部２６０は、トラッカー１４の三次元位置情報に基づいて、仮想空間内に表示される撮像画像内のトラッカー１４に仮想オブジェクトを重畳して表示する。これにより、演者１８が動いてトラッカー１４が動いたとしても、トラッカー１４の動きに仮想オブジェクトを付随させることが可能となる。

　また、出力制御部２６０は、トラッカー１４の三次元位置情報の精度に基づいて、トラッカー１４に重畳させる仮想オブジェクトの大きさ及び／又は鮮明度を制御してもよい。例えば、出力制御部２６０は、トラッカー１４の三次元位置情報の精度が悪い場合、仮想オブジェクトのサイズを大きくし、及び／又は仮想オブジェクトをぼかす。これにより、トラッカー１４の三次元位置情報の精度が悪く、ＶＲコンテンツにおけるトラッカー１４とそれに重畳される仮想オブジェクトとにずれが生じる場合であっても、そのずれを目立たなくすることができる。他方、出力制御部２６０は、トラッカー１４の三次元位置情報の精度が良い場合、仮想オブジェクトのサイズを小さくし、及び／又は仮想オブジェクトを強調してもよい。

　（選択部２７０）
　選択部２７０は、選択候補の視点として、第３のセンサ装置１３を選択し得る。即ち、選択部２７０は、再生されるＶＲコンテンツの元となるコンテンツ構成情報として、第３のセンサ装置１３によるセンシング結果に基づいて生成されたコンテンツ構成情報を選択し得る。

　＜３．３．２．空間インタラクション＞
　（１）第１の空間インタラクション
　第１の空間インタラクションは、仮想空間内に配置された撮像画像内のトラッカー１４とユーザとのインタラクションに関する。本インタラクションについては、図１８を参照して上記説明した通りである。詳しくは、再生装置２０は、仮想空間内に配置された撮像画像内のトラッカー１４とユーザが操作する操作体４１とが衝突した場合に、衝突に対応する触覚フィードバックをコントローラ２２により出力させる。このようなインタラクションに関する処理の流れを、図２２を参照して説明する。

　図２２は、本実施形態に係る再生装置２０により実行される第１の空間インタラクション処理の流れの一例を示すフローチャートである。図２２に示すように、まず、受信部２１０は、コンテンツ構成情報を受信する（ステップＳ６０２）。次いで、コンテンツ構成情報解析部２２０は、コンテンツ構成情報からＶＲ用画像情報及び空間インタラクション構成情報を抽出する（ステップＳ６０４）。次に、タイミング同期部２３０は、撮像画像とトラッカー１４の三次元位置情報とのタイミング同期を確立し、座標変換部２４０は、撮像画像とトラッカー１４の三次元位置情報との座標系の同期を確立する（ステップＳ６０６）。次いで、出力制御部２６０は、仮想空間に撮像画像を配置する（ステップＳ６０８）。

　次に、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内のトラッカー１４に、物理係数及びコライダーを対応付ける（ステップＳ６１０）。次いで、仮想オブジェクト制御部２５０は、コントローラ２２の位置及び姿勢に基づいて、仮想空間における操作体４１の位置及び姿勢を制御する（ステップＳ６１２）。次に、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内のトラッカー１４と操作体４１との衝突有無を判定する（ステップＳ６１４）。詳しくは、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内のトラッカー１４に対応付けられたコライダーと、操作体４１に対応付けられたコライダーとの衝突有無を判定する。衝突していないと判定された場合（ステップＳ６１６／ＮＯ）、処理は再度ステップＳ６０２に戻る。衝突したと判定された場合（ステップＳ６１６／ＹＥＳ）、出力制御部２６０は、衝突に応じたフィードバックを出力する（ステップＳ６１８）。詳しくは、出力制御部２６０は、トラッカー１４に対応づけられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚／触覚／聴覚／嗅覚フィードバックの出力を制御する。その後、処理は再度ステップＳ６０２に戻る。

　（２）第２の空間インタラクション
　第２の空間インタラクションは、仮想空間内に配置された撮像画像内のトラッカー１４に対応付けられた実オブジェクトとユーザとのインタラクションに関する。本インタラクションに関して、図２３を参照して詳しく説明する。

　図２３は、本実施形態に係る第２の空間インタラクションの一例を説明するための図である。図２３に示したＶＲコンテンツ４０Ａでは、仮想空間に、図２に示したステージ１６上でトラッカー１４を装着した演者１８を含む撮像画像が配置されており、且つ、撮像画像内のトラッカー１４に三次元位置情報が対応付けられている。出力制御部２６０は、トラッカー１４の三次元位置情報に基づいて、トラッカー１４の三次元位置に対応する実オブジェクトの三次元位置に重畳するように仮想オブジェクトであるプレゼント４７を配置する。例えば、図２３に示した例では、出力制御部２６０は、トラッカー１４を装着した側の手のひらの位置にプレゼント４７を配置する。そのために、まず、仮想オブジェクト制御部２５０は、トラッカー１４に対応する実オブジェクトの三次元位置情報を、トラッカー１４の三次元位置情報に所定の位置オフセット情報を加えることで決定する。例えば、出力制御部２６０は、トラッカー１４の装着位置である手首の位置姿勢と、手首に対する手のひらの位置姿勢との差分を、位置オフセット情報として用いる。そして、仮想オブジェクト制御部２５０は、トラッカー１４に対応する実オブジェクトの三次元位置に、コライダーを対応付ける。これにより、トラッカー１４を装着した側の手のひらに対する仮想オブジェクトの配置、及び衝突判定が可能となる。演者１８が動いてトラッカー１４が動いたとしても、トラッカー１４の動きにプレゼント４７が付随することとなる。ユーザは、コントローラ２２を介して、プレゼント４７の位置に操作体４１を合わせて受け取る操作を行うことができる。受け取る操作が行われると、プレゼント４７が操作体４１の子オブジェクトとなり、操作体４１がボール４３の親オブジェクトとなる。そのため、ＶＲコンテンツ４０Ｂに示すように、プレゼント４７が操作体４１に付随して動くようになる。このようにして、仮想空間内に配置された撮像画像内の演者１８とユーザとのプレゼント４７の受け渡しのインタラクションが実現される。このようなインタラクションに関する処理の流れを、図２４を参照して説明する。

　図２４は、本実施形態に係る再生装置２０により実行される第２の空間インタラクション処理の流れの一例を示すフローチャートである。図２４に示したステップＳ７０２～Ｓ７０８に係る処理は、図２２に示したステップＳ６０２～Ｓ６０８に係る処理と同様である。その後、仮想オブジェクト制御部２５０は、上述した通り位置オフセット情報を用いて、トラッカー１４に対応する実オブジェクト（例えば、手のひら）の三次元位置に、物理係数及びコライダーを対応付ける（ステップＳ７１０）。次いで、出力制御部２６０は、仮想空間内に配置された撮像画像内のトラッカー１４に対応する実オブジェクトの三次元位置に、プレゼント４７を配置する（ステップＳ７１２）。次いで、仮想オブジェクト制御部２５０は、コントローラ２２の位置及び姿勢に基づいて、仮想空間における操作体４１の位置及び姿勢を制御する（ステップＳ７１４）。

　その後、仮想オブジェクト制御部２５０は、トラッカー１４に対応する実オブジェクトと操作体４１と衝突有無、及び受け取る操作の有無を判定する（ステップＳ７１６）。詳しくは、仮想オブジェクト制御部２５０は、仮想空間内に配置された撮像画像内のトラッカー１４に対応する実オブジェクト（例えば、手のひら）に対応付けられたコライダーと、操作体４１に対応付けられたコライダーとの衝突有無を判定し、受け取る操作が入力されたか否かを判定する。衝突していない又は受け取る操作が行われていないと判定された場合（ステップＳ７１８／ＮＯ）、処理は再度ステップＳ７０２に戻る。衝突し、且つ受け取る操作が行われたと判定された場合（ステップＳ７１８／ＹＥＳ）、出力制御部２６０は、プレゼント４７を操作体４１の子オブジェクトとして、プレゼント４７が操作体４１に付随して移動する様子を表示する（ステップＳ７２０）。その際、出力制御部２６０は、トラッカー１４に対応付けられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚／触覚／聴覚／嗅覚フィードバックの出力を制御してもよい。その後、処理は再度ステップＳ７０２に戻る。

　＜＜４．補足＞＞
　（１）記録側
　記録装置１０は、第１のセンサ装置１１又は第２のセンサ装置１２がセンシングに失敗した場合、又はセンシングが途切れる場合には、センシング結果を予測したり、直前のセンシング結果を用いて補間したりしてもよい。また、記録装置１０は、デプスセンサ１０２とトラッカーセンサ１０３とを組み合わせてコンテンツ構成情報を生成してもよい。即ち、第１の実施形態と第２の実施形態とは、組み合わされてもよい。例えば、記録装置１０が生成するコンテンツ構成情報は、表面モデルデータとトラッカーの三次元位置情報の両方を含んでも良い。

　（２）再生側
　再生装置２０は、操作体４１による操作量を、ユーザに合わせて調整してもよい。例えば、再生装置２０は、実空間におけるコントローラ２２の位置の変化量と仮想空間における操作体４１の位置の変化量との関係を、ユーザの手の長さに応じて調整する。詳しくは、再生装置２０は、手の短いユーザについては、少しのコントローラ２２の移動で操作体４１を大きく移動させる。他にも、再生装置２０は、操作体４１が勝手に操作対象に近づくようにしてもよい。

　（３）オフセット処理について
　上記第２の実施形態において説明したように、トラッカー１４に対応する実オブジェクトが空間インタラクションの対象となる場合、位置オフセット情報を用いてトラッカー１４に対応する実オブジェクトの三次元位置情報が取得される。かかる処理を、オフセット処理とも称する。

　オフセット処理において用いられる、トラッカー１４とトラッカー１４に対応する実オブジェクトとの位置及び姿勢の関係を示す位置オフセット情報は、記録装置１０側で取得されてもよいし、再生装置２０側で取得されてもよい。記録装置１０側で取得される場合、コンテンツ構成情報生成部１５０は、トラッカー位置取得部１７０が取得したトラッカー１４の三次元位置情報と、位置オフセット情報とを、コンテンツ構成情報に含めて記録してもよい。即ち、コンテンツ構成情報は、トラッカー１４の三次元位置情報、及び位置オフセット情報を含む。そして、再生装置２０は、受信したコンテンツ構成情報に含まれるトラッカー１４の三次元位置情報及び位置オフセット情報に基づいて、トラッカー１４に対応する実オブジェクトの三次元位置情報を取得する。

　第２の実施形態においては、記録装置１０側ではオフセット処理が行われず、再生装置２０側でオフセット処理が行われる例を説明した。しかし、本技術は、かかる例に限定されない。例えば、記録装置１０側でオフセット処理が行われ、再生装置２０側ではオフセット処理が行われなくてもよい。その場合、コンテンツ構成情報生成部１５０は、トラッカー位置取得部１７０が取得したトラッカー１４の三次元位置情報に位置オフセット情報を加えることで、トラッカー１４に対応する実オブジェクトの三次元位置情報を取得する。そして、コンテンツ構成情報生成部１５０は、かかる三次元位置情報を、コンテンツ構成情報に含めて記録する。即ち、コンテンツ構成情報は、トラッカー１４に対応する実オブジェクトの三次元位置情報を含む。そして、再生装置２０は、受信したコンテンツ構成情報に基づいて、トラッカー１４に対応する実オブジェクトの三次元位置に、コライダーを対応付ける。

　＜＜５．ハードウェア構成例＞＞
　最後に、図２５を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図２５は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図２５に示す情報処理装置９００は、例えば、図４、図７及び図１９にそれぞれ示した記録装置１０又は再生装置２０を実現し得る。本実施形態に係る記録装置１０又は再生装置２０による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図２５に示すように、情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図４又は図１９に示す画像取得部１１０、ストリーミング処理部１２０、深度情報取得部１３０、表面モデル取得部１４０、コンテンツ構成情報生成部１５０及びトラッカー位置取得部１７０を形成し得る。また、ＣＰＵ９０１は、例えば、図７に示すコンテンツ構成情報解析部２２０、タイミング同期部２３０、座標変換部２４０、仮想オブジェクト制御部２５０、出力制御部２６０及び選択部２７０を形成し得る。

　ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

　入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

　出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

　ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

　接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などによりデータ伝送可能な外部機器との接続口である。

　通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、図４又は図１９に示す送信部１６０を形成し得る。また、通信装置９１３は、例えば、図７に示す受信部２１０を形成し得る。

　なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

　なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
　＜＜６．まとめ＞＞
　以上、図１～図２５を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る記録装置１０は、実オブジェクトを含む撮像画像と、実オブジェクトの三次元位置情報を取得する。そして、記録装置１０は、撮像画像、実オブジェクトの三次元位置情報、及び仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションに用いられる情報であって、撮像画像内の実オブジェクトと当該実オブジェクトの三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成する。これにより、再生装置２０側で、仮想空間内に撮像画像を配置しつつ、当該撮像画像内の実オブジェクトに三次元位置情報を対応付けることができる。再生装置２０は、かかる三次元位置情報を参照することで、仮想空間内に表示された撮像画像内の実オブジェクトと他の仮想オブジェクトとの空間インタラクションを実現することが可能となる。詳しくは、再生装置２０は、仮想空間内に表示された撮像画像内の実オブジェクトの三次元位置情報と、他の仮想オブジェクトの三次元位置情報とに基づいて、これらの衝突を検出し、衝突に伴うフィードバックを出力することが可能となる。このようにして、実写ＶＲコンテンツにおける空間インタラクションをより適切に実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、
を備える情報処理装置。
（２）
　前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、前記（１）に記載の情報処理装置。
（３）
　前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、前記（１）又は（２）に記載の情報処理装置。
（４）
　前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、前記（１）～（３）のいずれか一項に記載の情報処理装置。
（５）
　前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、前記（１）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記フィードバック設定情報は、視覚的、触覚的、聴覚的又は嗅覚的にフィードバックされる内容を設定する情報を含む、前記（５）に記載の情報処理装置。
（７）
　前記フィードバック設定情報は、前記仮想空間内における視点移動の際にフィードバックされる内容を設定する情報を含む、前記（５）又は（６）に記載の情報処理装置。
（８）
　前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、前記（１）～（７）のいずれか一項に記載の情報処理装置。
（９）
　前記被写体三次元位置情報は、前記被写体の表面の複数の点の三次元位置情報である、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記被写体三次元位置情報は、所定の条件を満たす前記被写体の、表面の複数の点の三次元位置情報である、前記（９）に記載の情報処理装置。
（１１）
　前記被写体三次元位置情報は、前記コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報である、前記（９）又は（１０）に記載の情報処理装置。
（１２）
　前記被写体三次元位置情報は、トラッキング対象物の１点の三次元位置情報である、前記（１）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
を備える情報処理装置。
（１４）
　前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、前記（１３）に記載の情報処理装置。
（１５）
　前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、前記（１３）又は（１４）に記載の情報処理装置。
（１６）
　前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、前記（１３）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、前記（１３）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、前記（１３）～（１７）のいずれか一項に記載の情報処理装置。
（１９）
　前記情報処理装置は、
　前記被写体三次元位置情報に対し、前記撮像画像を撮像した撮像装置の座標系と前記被写体三次元位置情報を検出したセンサの座標系とのずれを補正するための座標変換処理を適用する座標変換部をさらに備える、前記（１３）～（１８）のいずれか一項に記載の情報処理装置。
（２０）
　前記情報処理装置は、
　前記撮像画像と前記被写体三次元位置情報とのタイミング同期を確立するタイミング同期部をさらに備える、前記（１３）～（１９）のいずれか一項に記載の情報処理装置。
（２１）
　前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と他の仮想オブジェクトとの衝突に対応するフィードバックの出力を制御する、前記（１３）～（２０）のいずれか一項に記載の情報処理装置。
（２２）
　前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記仮想空間におけるユーザの操作位置を示す仮想オブジェクトとが衝突した場合に、衝突したことを示す触覚フィードバックの出力を制御する、前記（２１）に記載の情報処理装置。
（２３）
　前記情報処理装置は、前記被写体三次元位置情報と前記他の仮想オブジェクトの三次元位置情報とに基づいて、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記他の仮想オブジェクトとの衝突を検出する衝突検出部をさらに備える、前記（２１）又は（２２）に記載の情報処理装置。
（２４）
　前記出力制御部は、前記被写体三次元位置情報に基づいて、前記仮想空間内に表示される前記撮像画像内の前記被写体に仮想オブジェクトを重畳する、前記（１３）～（２３）のいずれか一項に記載の情報処理装置。
（２５）
　前記出力制御部は、前記被写体三次元位置情報の精度に基づいて、前記被写体に重畳させる仮想オブジェクトの大きさ及び／又は鮮明度を制御する、前記（２４）に記載の情報処理装置。
（２６）
　前記情報処理装置は、前記仮想空間におけるユーザ位置に対応する前記コンテンツ構成情報を、前記取得部が取得すべき前記コンテンツ構成情報として選択する選択部をさらに備える、前記（１３）～（２５）のいずれか一項に記載の情報処理装置。
（２７）
　前記選択部は、前記仮想空間におけるユーザ位置が所定の位置に到達したことをトリガとして、選択する前記コンテンツ構成情報を切り替える、前記（２６）に記載の情報処理装置。
（２８）
　前記所定の位置は、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置である、前記（２７）に記載の情報処理装置。
（２９）
　前記所定の位置は、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトまでの距離が、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置と同等である、前記（２７）に記載の情報処理装置。
（３０）
　前記出力制御部は、前記選択部による切り替え後、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトがユーザの視線と衝突するように、前記仮想空間に前記撮像画像を配置する、前記（２７）又は（２９）に記載の情報処理装置。
（３１）
　前記出力制御部は、前記仮想空間におけるユーザの視線が所定の仮想オブジェクトに衝突した場合に、前記ユーザ位置を移動させる、前記（２７）～（３０）のいずれか一項に記載の情報処理装置。
（３２）
　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、
を備える、プロセッサにより実行される情報処理方法。
（３３）
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、
を備える、プロセッサにより実行される情報処理方法。
（３４）
　コンピュータを、
　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、
として機能させるためのプログラム。
（３５）
　コンピュータを、
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
として機能させるためのプログラム。

　１　　コンテンツ配信システム
　１０　　記録装置
　１１０　　画像取得部
　１２０　　ストリーミング処理部
　１３０　　深度情報取得部
　１４０　　表面モデル取得部
　１５０　　コンテンツ構成情報生成部
　１６０　　送信部
　１７０　　トラッカー位置取得部
　１１　　第１のセンサ装置
　１２　　第２のセンサ装置
　１３　　第３のセンサ装置
　１０１　　ＶＲカメラ
　１０２　　デプスセンサ
　１０３　　トラッカーセンサ
　１４　　トラッカー
　１５　　モニタ
　１６　　ステージ
　１７　　観客席
　１８　　演者
　１９　　視点切り替え位置
　２０　　再生装置
　２１０　　受信部
　２２０　　コンテンツ構成情報解析部
　２３０　　タイミング同期部
　２４０　　座標変換部
　２５０　　仮想オブジェクト制御部
　２６０　　出力制御部
　２７０　　選択部
　２２　　コントローラ
　２０１　　表示部
　２０２　　位置姿勢検出部
　２０３　　音声出力部
　２０４　　音声入力部
　２０５　　位置姿勢検出部
　２０６　　振動出力部

Claims

　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、
を備える情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、請求項１に記載の情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、請求項１に記載の情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、請求項１に記載の情報処理装置。
　前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、請求項１に記載の情報処理装置。
　前記フィードバック設定情報は、視覚的、触覚的、聴覚的又は嗅覚的にフィードバックされる内容を設定する情報を含む、請求項５に記載の情報処理装置。
　前記フィードバック設定情報は、前記仮想空間内における視点移動の際にフィードバックされる内容を設定する情報を含む、請求項５に記載の情報処理装置。
　前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、請求項１に記載の情報処理装置。
　前記被写体三次元位置情報は、前記被写体の表面の複数の点の三次元位置情報である、請求項１に記載の情報処理装置。
　前記被写体三次元位置情報は、所定の条件を満たす前記被写体の、表面の複数の点の三次元位置情報である、請求項９に記載の情報処理装置。
　前記被写体三次元位置情報は、前記コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報である、請求項９に記載の情報処理装置。
　前記被写体三次元位置情報は、トラッキング対象物の１点の三次元位置情報である、請求項１に記載の情報処理装置。
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
を備える情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、請求項１３に記載の情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、請求項１３に記載の情報処理装置。
　前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、請求項１３に記載の情報処理装置。
　前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、請求項１３に記載の情報処理装置。
　前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、請求項１３に記載の情報処理装置。
　前記情報処理装置は、
　前記被写体三次元位置情報に対し、前記撮像画像を撮像した撮像装置の座標系と前記被写体三次元位置情報を検出したセンサの座標系とのずれを補正するための座標変換処理を適用する座標変換部をさらに備える、請求項１３に記載の情報処理装置。
　前記情報処理装置は、
　前記撮像画像と前記被写体三次元位置情報とのタイミング同期を確立するタイミング同期部をさらに備える、請求項１３に記載の情報処理装置。
　前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と他の仮想オブジェクトとの衝突に対応するフィードバックの出力を制御する、請求項１３に記載の情報処理装置。
　前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記仮想空間におけるユーザの操作位置を示す仮想オブジェクトとが衝突した場合に、衝突したことを示す触覚フィードバックの出力を制御する、請求項２１に記載の情報処理装置。
　前記情報処理装置は、前記被写体三次元位置情報と前記他の仮想オブジェクトの三次元位置情報とに基づいて、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記他の仮想オブジェクトとの衝突を検出する衝突検出部をさらに備える、請求項２１に記載の情報処理装置。
　前記出力制御部は、前記被写体三次元位置情報に基づいて、前記仮想空間内に表示される前記撮像画像内の前記被写体に仮想オブジェクトを重畳する、請求項１３に記載の情報処理装置。
　前記出力制御部は、前記被写体三次元位置情報の精度に基づいて、前記被写体に重畳させる仮想オブジェクトの大きさ及び／又は鮮明度を制御する、請求項２４に記載の情報処理装置。
　前記情報処理装置は、前記仮想空間におけるユーザ位置に対応する前記コンテンツ構成情報を、前記取得部が取得すべき前記コンテンツ構成情報として選択する選択部をさらに備える、請求項１３に記載の情報処理装置。
　前記選択部は、前記仮想空間におけるユーザ位置が所定の位置に到達したことをトリガとして、選択する前記コンテンツ構成情報を切り替える、請求項２６に記載の情報処理装置。
　前記所定の位置は、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置である、請求項２７に記載の情報処理装置。
　前記所定の位置は、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトまでの距離が、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置と同等である、請求項２７に記載の情報処理装置。
　前記出力制御部は、前記選択部による切り替え後、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトがユーザの視線と衝突するように、前記仮想空間に前記撮像画像を配置する、請求項２７に記載の情報処理装置。
　前記出力制御部は、前記仮想空間におけるユーザの視線が所定の仮想オブジェクトに衝突した場合に、前記ユーザ位置を移動させる、請求項２７に記載の情報処理装置。
　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、
を備える、プロセッサにより実行される情報処理方法。
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、
を備える、プロセッサにより実行される情報処理方法。
　コンピュータを、
　被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
　前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、
として機能させるためのプログラム。
　コンピュータを、
　被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
　前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
として機能させるためのプログラム。