WO2020166352A1

WO2020166352A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2020166352A1
Application number: PCT/JP2020/003351
Authority: WO
Inventors: 岳成田; 高志瀬能; 智也石川; 洋祐加治
Original assignee: ソニー株式会社
Priority date: 2019-02-13
Filing date: 2020-01-30
Publication date: 2020-08-20
Also published as: US20220108533A1; US11605207B2; JP2022051977A

Abstract

本技術は、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の一側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、所定の物体と所定の位置関係を有する三次元空間上の位置に配置されたオブジェクトの情報を含むテンプレートコンテンツを生成する。本技術は、例えば透過型のHMDに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　ユーザの目の前の風景に三次元のキャラクタの映像などを重ねて表示させるAR(Augmented Reality)が注目されている。HMD(Head Mounted Display)などの表示デバイスを用いることにより、ユーザは、自分がいる空間と同じ空間にキャラクタがいるような没入感を得ることができる。

　ARを実現するためのコンテンツであるARコンテンツは、例えば、ARコンテンツを表示させる特定のシーンの三次元形状を計測し、計測結果により表される三次元空間上にキャラクタなどのオブジェクトを配置することによって生成される。シーンの計測には、RGBカメラ、デプスセンサ、LiDARなどのセンサが用いられる。

　一方、ARコンテンツの再生は、ARコンテンツの生成時に計測したシーンと同じ特定のシーンにおけるユーザの位置と姿勢を検出し、検出した位置と姿勢に応じて、オブジェクトの位置と向きを制御するようにして行われる。

特表２０１６－５３９３９８号公報特開２０１７－０４９６５８号公報

　上述したようにして生成されたARコンテンツの再生は、三次元形状の計測を行った特定のシーンでしか行うことができない。例えば、ある特定のリビングルーム向けに生成したARコンテンツを、別のリビングルームで表示させることができない。

　本技術はこのような状況に鑑みてなされたものであり、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにするものである。

　本技術の一側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第１のマップ生成部と、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第１のコンテンツ生成部とを備える。

　本技術の他の側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、前記実空間の環境を表す実環境マップを生成するマップ生成部と、前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部とを備える。

　本技術の一側面においては、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップが生成され、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツが生成される。

　本技術の他の側面においては、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとが取得される。また、前記実空間の環境を表す実環境マップが生成され、前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツが生成される。

本技術の一実施形態に係る情報処理システムの構成例を示す図である。表示デバイスの例を示す図である。実際のシーンの例を示す図である。 ARコンテンツの表示例を示す図である。テンプレートシーンの例を示す図である。テンプレートARコンテンツの例を示す図である。全体の処理の流れの例を示す図である。 HMDの構成例を示すブロック図である。情報処理装置の構成例を示すブロック図である。情報処理装置の機能構成例を示すブロック図である。テンプレート環境マップとテンプレートARコンテンツの例を示す図である。実環境マップの生成処理の流れの例を示す図である。実環境マップの生成処理の流れの他の例を示す図である。表示用ARコンテンツ生成処理について説明するフローチャートである。実環境マップと表示用ARコンテンツの例を示す図である。各物体の位置関係の例を示す図である。オブジェクトの位置の置換の例を示す図である。実環境マップと表示用ARコンテンツの例を示す図である。各物体の位置関係の例を示す図である。オブジェクトの位置の置換の例を示す図である。実環境マップと表示用ARコンテンツの例を示す図である。各物体の位置関係の例を示す図である。オブジェクトの位置の置換の例を示す図である。情報処理システムの他の構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．ARコンテンツの表示デバイスについて
　２．表示用ARコンテンツの生成について
　３．各装置の構成
　４．各処理の詳細
　５．変形例

＜＜ARコンテンツの表示デバイスについて＞＞
　図１は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。

　図１の情報処理システムは、HMD１と情報処理装置２が、LAN(Local Area Network)やインターネットなどのネットワーク３を介して接続されることによって構成される。

　図１に示すように、HMD１は、透過型の表示部を備えた眼鏡型のウェアラブル端末である。HMD１は、ネットワーク３を介して行われる情報処理装置２による制御に従って、キャラクタなどの各種のオブジェクトを含む映像を表示部に表示する。ユーザは、自分の前方の風景に重ねてオブジェクトを見ることになる。

　オブジェクトを含む映像の投影方式は、虚像投影方式であってもよいし、ユーザの目の網膜に直接結像させる網膜投影方式であってもよい。

　情報処理装置２は、ARコンテンツを再生し、再生して得られた映像データをHMD１に送信することによって、ARコンテンツの映像をHMD１において表示させる。情報処理装置２は、例えばPCにより構成される。

　HMD１に代えて、図２のＡに示すビデオ透過型のHMDであるHMD１Ａや、図２のＢに示すスマートフォン１Ｂなどの携帯端末が、ARコンテンツの表示デバイスとして用いられるようにしてもよい。

　表示デバイスとしてHMD１Ａが用いられる場合、情報処理装置２が再生するARコンテンツの映像は、HMD１Ａに設けられたカメラにより撮影された、HMD１Ａの前方の風景の画像に重ねて表示される。HMD１Ａを装着したユーザの目の前方には、カメラにより撮影された画像に重ねてARコンテンツを表示するディスプレイが設けられている。

　また、スマートフォン１Ｂが用いられる場合、情報処理装置２が再生するARコンテンツの映像は、スマートフォン１Ｂの背面に設けられたカメラにより撮影された、スマートフォン１Ｂの前方の風景の画像に重ねて表示される。スマートフォン１Ｂの正面には、各種の画像を表示するディスプレイが設けられている。

　実際のシーンに存在する物体の表面に映像を投影するプロジェクタがARコンテンツの表示デバイスとして用いられるようにしてもよい。タブレット端末、テレビジョン受像機などの各種のデバイスをARコンテンツの表示デバイスとして用いることが可能である。

　表示デバイスと情報処理装置２がネットワーク３を介して無線で接続されるのではなく、有線で接続されるようにしてもよい。

＜＜表示用ARコンテンツの生成について＞＞
　図３は、実際のシーンの例を示す図である。

　ARコンテンツを視聴するユーザが、HMD１を装着した状態で図３に示すようなリビングルームにいるものとする。図３に示すリビングルームが、ユーザがARコンテンツを視聴する実際のシーン（実空間）となる。

　図３の例においては、実際のシーンに存在する物体（実物体）として、床面である物体Ｏ^T ₁、テーブルである物体Ｏ^T ₁₁、椅子である物体Ｏ^T ₂₁乃至Ｏ^T ₂₄、ソファである物体Ｏ^T ₁₂、および、観葉植物である物体Ｏ^T ₁₃があるものとされている。４脚の椅子である物体Ｏ^T ₂₁乃至Ｏ^T ₂₄は、略正方形の天板を有するテーブルである物体Ｏ^T ₁₁に正面を向けて配置されている。また、ソファである物体Ｏ^T ₁₂は、物体Ｏ^T ₁₁の近傍に配置されている。

　情報処理装置２においてARコンテンツの再生が行われ、ARコンテンツの映像データが送信されてきた場合、ARコンテンツの映像がこのような実際のシーンに重ねて表示される。

　図４は、ARコンテンツの表示例を示す図である。

　図４の例においては、オブジェクトとしての４人のキャラクタＣ₁乃至Ｃ₄が、それぞれ椅子である物体Ｏ^T ₂₁乃至Ｏ^T ₂₄に座っている映像が表示されている。ユーザは、前方に実際にある物体Ｏ^T ₂₁乃至Ｏ^T ₂₄にキャラクタＣ₁乃至Ｃ₄が座っている様子を見ることになる。

　キャラクタＣ₁乃至Ｃ₄を含むオブジェクトは、例えば三次元形状を有している。三次元空間上におけるユーザの位置と姿勢に応じて、大きさ、角度などのオブジェクトの見え方が異なるものとなる。

　以下、ARコンテンツに含まれるオブジェクトが人型のキャラクタである場合について主に説明するが、動物、乗り物、家具、建物などの他の物体をオブジェクトとすることも可能である。

　このような映像の表示に用いられるARコンテンツは、テンプレートとして予め用意されたARコンテンツであるテンプレートARコンテンツに基づいて、情報処理装置２により生成される。例えば、テンプレートARコンテンツにおけるオブジェクトの配置を、図３に示すような実際のシーンに応じて変更することによって、ARコンテンツが生成される。

　実際のシーンは、三次元形状の計測を行うまでは、情報処理装置２にとっては未知のシーンである。特定のシーンを想定して生成されたテンプレートARコンテンツを、未知のシーンに適用することによってARコンテンツが生成されることになる。

　テンプレートARコンテンツは、テンプレートとして想定された特定のシーンの三次元形状により表される三次元空間上にオブジェクトを配置することによって構成される。

　ここで、それぞれのシーンの三次元形状を含む環境は、環境マップにより表される。環境マップには、シーンの三次元形状を表す情報と、シーンに存在する物体に関する情報が含まれる。物体に関する情報により、物体の属性、数、位置などが表される。

　テンプレートとして想定されたシーンであるテンプレートシーンの三次元形状は、テンプレート環境マップにより表される。テンプレート環境マップには、テンプレートシーンの三次元形状を表す情報と、テンプレートシーンに存在する物体に関する情報が含まれる。テンプレートシーンは、情報処理装置２にとっては既知のシーンである。

　図５は、テンプレートシーンの例を示す図である。

　図５に示すテンプレートシーンは、特定のリビングルームを想定したシーンである。図５の例においては、テンプレートシーンに存在する物体として、床面である物体Ｏ^S ₁、テーブルである物体Ｏ^S ₁₁、椅子である物体Ｏ^S ₂₁乃至Ｏ^S ₂₄があるものとされている。４脚の椅子である物体Ｏ^S ₂₁乃至Ｏ^S ₂₄は、円形の天板を有するテーブルである物体Ｏ^S ₁₁に正面を向けて配置されている。

　テンプレート環境マップにより、物体Ｏ^S ₁、物体Ｏ^S ₁₁、物体Ｏ^S ₂₁乃至Ｏ^S ₂₄のそれぞれの三次元形状（テンプレートシーンの三次元形状）、属性、数、位置が表される。

　図６は、テンプレートARコンテンツの例を示す図である。

　図６に示すように、テンプレートARコンテンツは、三次元形状を有するオブジェクトをテンプレートシーンに配置することによって構成される。

　図６の例においては、オブジェクトとしての４人のキャラクタＣ₁乃至Ｃ₄がそれぞれ椅子である物体Ｏ^S ₂₁乃至Ｏ^S ₂₄に座っている映像により、テンプレートARコンテンツが構成されている。テンプレートARコンテンツには、物体Ｏ^S ₂₁乃至Ｏ^S ₂₄に座るキャラクタＣ₁乃至Ｃ₄の映像のデータが含まれる。

　ARコンテンツの再生は、このようなテンプレートシーンにおけるキャラクタの映像を含むテンプレートARコンテンツを、実際のシーンに応じて加工することによって生成された表示用ARコンテンツに基づいて行われる。

　表示用ARコンテンツの生成時、実際のシーンの計測が行われ、実際のシーンの三次元形状などを表す環境マップである実環境マップが生成される。実環境マップにより、図３の物体Ｏ^T ₁、物体Ｏ^T ₁₁、物体Ｏ^T ₂₁乃至Ｏ^T ₂₄などのそれぞれの三次元形状（実際のシーンの三次元形状）、属性、数、位置が表される。

　また、実際のシーンにおけるユーザの位置と姿勢が推定され、ユーザの位置を基準としたときに、実際に存在する物体Ｏ^T ₂₁乃至Ｏ^T ₂₄にキャラクタＣ₁乃至Ｃ₄が座っているように見えるようにするための図４の表示用ARコンテンツが、図６のテンプレートARコンテンツに基づいて生成される。

　このようにして生成された表示用ARコンテンツが再生されることにより、図４を参照して説明したようなオブジェクトの見え方が実現されることになる。

　図７は、全体の処理の流れの例を示す図である。

　図７に示す各処理が、例えば情報処理装置２により行われる。各処理の詳細については後述する。

　図７の右上に示すように、はじめに、ステップＳ１の処理として、テンプレート環境マップ（図５）の生成が行われる。テンプレート環境マップは、テンプレートシーンの三次元形状を表す情報と、テンプレートシーンに存在する物体に関する情報を含む情報である。

　テンプレート環境マップの生成が行われた後、ステップＳ２の処理として、テンプレートARコンテンツ（図６）の生成が行われる。テンプレートARコンテンツは、テンプレート環境マップにより三次元形状などが表されるテンプレートシーンにオブジェクトを配置することによって構成される。

　以上のようなテンプレート環境マップの生成とテンプレートARコンテンツの生成が、ARコンテンツの再生前の事前処理として行われる。

　ARコンテンツの再生時、ステップＳ１１の処理として、実際のシーンの環境データが取得される。情報処理装置２に対しては、ユーザが装着するHMD１により計測された環境データが送信されてくる。

　環境データには、例えば、HMD１に設けられたRGBカメラにより撮影されたRGB画像や、HMD１に設けられたセンサにより検出された、物体の各位置までの距離を表す距離情報が含まれる。距離情報には、例えば、デプスセンサにより計測された距離画像、LiDAR(Light Detection and Ranging)により計測された点群データ（ポイントクラウド）が含まれる。

　環境データが取得された後、ステップＳ１２の処理として、実環境マップの生成が行われる。実環境マップは、実際のシーンの三次元形状を表す情報と、実際のシーンに存在する物体に関する情報を含む情報である。

　ステップＳ１３の処理として、テンプレート環境マップ、テンプレートARコンテンツ、および実環境マップに基づいて、表示用ARコンテンツの生成が行われる。表示用ARコンテンツの生成は、テンプレート環境マップにより表されるテンプレートシーンと実環境マップにより表される実際のシーンとを比較し、テンプレートARコンテンツに含まれるオブジェクトの位置と向きを変更することによって行われる。

　また、ステップＳ１４の処理として、ステップＳ１１において取得された環境データと、ステップＳ１２において生成された実環境マップとに基づいて、実環境マップにより表される実際のシーンにおけるユーザの位置と姿勢が推定される。例えば、表示デバイスであるHMD１の位置と姿勢が、ユーザの位置と姿勢として推定される。

　ステップＳ１５の処理として、表示用ARコンテンツの再生が行われ、ステップＳ１４において推定された位置と姿勢に応じたARコンテンツの表示が行われる。ユーザの位置と姿勢に応じた映像のデータが情報処理装置２からHMD１に対して送信され、実際のシーンに重ねて映像が表示される。

　以上のようにテンプレートARコンテンツを汎用的に用いて表示用ARコンテンツが生成されるようにすることにより、以下のような効果が得られる。

　第１に、ARコンテンツの提供者は、特定のシーンに合わせたARコンテンツを個別に生成する必要がない。

　第２に、ユーザは、１つの汎用的なテンプレートARコンテンツを、様々なシーンで視聴・体験することができる。

　第３に、ARコンテンツの提供者は、ARコンテンツの視聴が行われる実際のシーンの環境マップを事前に取得する必要がない。

＜＜各装置の構成＞＞
　ここで、情報処理システムを構成する各装置の構成について説明する。

＜HMD１の構成＞
　図８は、HMD１の構成例を示すブロック図である。

　図８に示すように、HMD１は、制御部１１に対して、カメラ１２、センサ１３、通信部１４、表示部１５、およびメモリ１６が接続されることによって構成される。

　制御部１１は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部１１は、ROMやメモリ１６に記憶されているプログラムを実行し、HMD１の全体の動作を制御する。

　例えば、制御部１１は、ARコンテンツの再生時、カメラ１２により撮影されたRGB画像とセンサ１３による計測結果に基づいて環境データを生成し、通信部１４から情報処理装置２に対して送信させる。

　また、制御部１１は、表示用ARコンテンツの再生が情報処理装置２において行われ、ARコンテンツの映像データが通信部１４において受信された場合、通信部１４において受信された映像データを表示部１５に出力し、表示させる。

　カメラ１２は、ARコンテンツの再生時などの所定のタイミングにおいて、ユーザの前方の風景を撮影する。カメラ１２は、撮影することによって得られたRGB画像を制御部１１に出力する。

　センサ１３は、デプスセンサやLiDARなどにより構成される。センサ１３を構成するデプスセンサやLiDARは、実際のシーンを構成する各位置までの距離を計測し、距離画像、点群データなどを計測結果を表すデータとして制御部１１に出力する。

　センサ１３には、適宜、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサも含まれる。この場合、加速度センサ、ジャイロセンサ、測位センサによる計測結果が環境データに含まれ、情報処理装置２に対して送信される。加速度センサ、ジャイロセンサ、測位センサによる計測結果は、ユーザの位置と姿勢などの推定に用いられる。

　通信部１４は、無線LANなどの通信モジュールにより構成される。通信部１４は、ネットワーク３を介して情報処理装置２と通信を行い、制御部１１から供給された環境データを情報処理装置２に対して送信する。また、通信部１４は、情報処理装置２から送信された映像データを受信し、制御部１１に対して出力する。

　表示部１５は、制御部１１から供給された映像データに基づいて、ARコンテンツの映像を表示させる。

　メモリ１６は、フラッシュメモリなどの記憶媒体である。メモリ１６には、制御部１１のCPUが実行するプログラムなどの各種のデータが記憶される。

＜情報処理装置２の構成＞
　図９は、情報処理装置２の構成例を示すブロック図である。

　CPU５１、ROM５２、RAM５３は、バス５４により相互に接続されている。

　バス５４には、さらに、入出力インタフェース５５が接続されている。入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ディスプレイ、スピーカなどよりなる出力部５７が接続される。また、入出力インタフェース５５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５８、ネットワークインタフェースなどよりなる通信部５９、リムーバブルメディア６１を駆動するドライブ６０が接続される。

　図１０は、情報処理装置２の機能構成例を示すブロック図である。

　情報処理装置２においては、図９のCPU５１により所定のプログラムが実行されることによって情報処理部７１が実現される。

　情報処理部７１は、テンプレート環境マップ生成部８１、テンプレートARコンテンツ生成部８２、テンプレート記憶部８３、環境データ取得部８４、実環境マップ生成部８５、表示用ARコンテンツ生成部８６、推定部８７、および表示制御部８８により構成される。

　テンプレート環境マップ生成部８１は、テンプレート環境マップを生成する。図７のステップＳ１の処理が、テンプレート環境マップ生成部８１が行う処理となる。テンプレート環境マップ生成部８１により生成されたテンプレート環境マップは、テンプレートARコンテンツ生成部８２とテンプレート記憶部８３に供給される。

　テンプレートARコンテンツ生成部８２は、テンプレート環境マップ生成部８１から供給されたテンプレート環境マップを用いてテンプレートARコンテンツを生成する。図７のステップＳ２の処理が、テンプレートARコンテンツ生成部８２が行う処理となる。

　テンプレートARコンテンツ生成部８２に対しては、適宜、オブジェクトのデータや、テンプレートシーンにおけるオブジェクトの位置と向きを指定する情報なども入力され、テンプレートARコンテンツの生成に用いられる。テンプレートARコンテンツ生成部８２により生成されたテンプレートARコンテンツはテンプレート記憶部８３に供給される。

　テンプレート記憶部８３は、テンプレート環境マップ生成部８１により生成されたテンプレート環境マップと、テンプレートARコンテンツ生成部８２により生成されたテンプレートARコンテンツを記憶する。テンプレート記憶部８３に記憶されたテンプレート環境マップとテンプレートARコンテンツは、表示用ARコンテンツの生成時に表示用ARコンテンツ生成部８６により読み出される。

　環境データ取得部８４は、ARコンテンツの再生時にHMD１から送信され、通信部５９において受信された環境データを取得する。図７のステップＳ１１の処理が、環境データ取得部８４が行う処理となる。環境データ取得部８４により取得された環境データは、実環境マップ生成部８５と推定部８７に供給される。

　実環境マップ生成部８５は、環境データ取得部８４から供給された環境データに基づいて実環境マップを生成する。図７のステップＳ１２の処理が、実環境マップ生成部８５が行う処理となる。実環境マップ生成部８５により生成された実環境マップは、表示用ARコンテンツ生成部８６と推定部８７に供給される。

　表示用ARコンテンツ生成部８６は、テンプレート環境マップとテンプレートARコンテンツをテンプレート記憶部８３から読み出して取得する。表示用ARコンテンツ生成部８６は、テンプレート記憶部８３から読み出したそれらのデータと実環境マップ生成部８５から供給された実環境マップに基づいて、表示用ARコンテンツを生成する。表示用ARコンテンツの生成は、例えば、実環境マップにより表される実際のシーンに応じて、テンプレートARコンテンツを加工するようにして行われる。

　図７のステップＳ１３の処理が、表示用ARコンテンツ生成部８６が行う処理となる。表示用ARコンテンツ生成部８６により生成された表示用ARコンテンツは表示制御部８８に供給される。

　推定部８７は、環境データ取得部８４から供給された環境データと実環境マップ生成部８５から供給された実環境マップとに基づいて、実際のシーンにおけるユーザの位置と姿勢を推定する。図７のステップＳ１４の処理が、推定部８７が行う処理となる。推定部８７による推定結果を表す情報は表示制御部８８に供給される。

　表示制御部８８は、表示用ARコンテンツ生成部８６から供給された表示用ARコンテンツを再生し、推定部８７により推定された位置と姿勢に応じた映像データを生成する。図７のステップＳ１５の処理が、表示制御部８８が行う処理となる。表示制御部８８は、通信部５９を制御することによって映像データをHMD１に送信し、表示用ARコンテンツの映像をHMD１において表示させる。

＜＜各処理の詳細＞＞
　ここで、情報処理部７１の各部の処理の詳細について説明する。

＜テンプレート環境マップおよびテンプレートARコンテンツの生成＞
　はじめに、テンプレート環境マップの生成、および、テンプレートARコンテンツの生成について説明する。

・テンプレート環境マップの生成
　テンプレート環境マップ生成部８１が生成するテンプレート環境マップには、属性Ｘ_iが関連付けられた１つ以上の物体Ｏ^S_iを表す情報と、物体Ｏ^S_i同士の相対的な位置関係を表す情報が含まれる。

　属性Ｘ_iは、床面、テーブル、椅子などの、物体Ｏ^S_iのカテゴリを表す。

　物体Ｏ^S_i同士の相対的な位置関係は、例えば、三次元空間であるテンプレートシーンにおける各物体Ｏ^S_iの位置の差として表される。物体Ｏ^S_i同士の相対的な位置関係が、並進成分に加えて、回転成分によって表されるようにしてもよい。

　テンプレート環境マップ生成部８１は、例えば、属性が関連付けられた物体の3D CADモデルをゲームエンジン等の仮想的な三次元空間に配置することによってテンプレート環境マップを生成する。また、テンプレート環境マップ生成部８１は、テンプレートシーンに存在する物体の属性、数、相対的な位置関係などを表す自然言語をテンプレート環境マップとして生成する。

・テンプレートARコンテンツの生成
　テンプレートARコンテンツ生成部８２が生成するテンプレートARコンテンツには、１つ以上のオブジェクトＣ_jの情報、および、各オブジェクトＣ_jとテンプレート環境マップに記述される物体Ｏ^S_iとの相対的な位置関係を表す情報が含まれる。

　ここで、オブジェクトＣ_jと物体Ｏ^S_iとの相対的な位置関係が、並進成分に加えて、回転成分によって表されるようにしてもよい。

　図１１は、テンプレート環境マップとテンプレートARコンテンツの例を示す図である。

　図１１の例においては、テンプレート環境マップとテンプレートARコンテンツがテキストで表されている。

　図１１の上段に示すテンプレート環境マップは、床面が存在するとともに、床面上に１つのテーブルと４脚の椅子が存在し、かつ、４脚の椅子がテーブルを囲んでいる、図５に示すようなシーンを表す。

　図１１の下段に示すテンプレートARコンテンツは、テーブルを囲む４脚の椅子に、異なる４人のキャラクタをそれぞれ着席させる、図６に示すような見え方を実現するコンテンツである。

　なお、テンプレート環境マップに記述される物体に関する情報の一部または全部として、ARコンテンツを視聴するユーザに関する情報が含まれるようにしてもよい。

　この場合、例えば、「ユーザに最も近い椅子にキャラクタを着席させる」といったようなテンプレートARコンテンツが生成される。ここでは、「ユーザ」と「椅子」がそれぞれ物体Ｏ^S_iに相当する。また、「ユーザに最も近い」が、両者の相対的な位置関係を表す情報により定義される。

　また、テンプレートシーンをオブジェクトが移動する、動的なテンプレートARコンテンツが生成されるようにしてもよい。

　この場合、例えば、「床面と、床面上の２脚の椅子が存在し、一方の椅子に着席しているキャラクタが、立ち上がって床面上を移動して他方の椅子に着席する」といったようなテンプレートARコンテンツが生成される。

＜実環境マップの生成＞
　次に、実環境マップの生成について説明する。

　図１２は、実環境マップの生成処理の流れの例を示す図である。

　図１２の上方に示すように、実環境マップの生成は、RGB画像、距離画像、点群データなどを含む環境データが環境データ取得部８４から供給されたときに実環境マップ生成部８５により行われる。例えば、HMD１からは、環境データが所定の周期で繰り返し送信されてくる。順次送信されてくる環境データに基づいて、実環境マップの生成が行われる。

　例えば、実際のシーンに存在する物体表面までの打ち切り符号付き距離と、シーンに存在する物体を一意に区別するための物体IDとを格納するボクセル（voxel）から構成されるボクセル空間が用意される。また、各物体の属性を管理する物体属性テーブルが用意される。

　はじめに、矢印Ａ１１の先に示すように、ステップＳ３１の処理として、実環境マップ生成部８５は、環境データ取得部８４から供給されたRGB画像、距離画像、点群データに基づいて、画像や点群により表される物体の領域分割、属性推定、および物体ID推定を行う。

　領域分割により、実際のシーンに存在する各物体の領域が特定される。

　また、属性推定により、物体の属性が推定される。実環境マップ生成部８５は、画像や点群データにより表される形状などの特徴に基づいて物体の属性を推定するためのデータを有している。

　物体ID推定により、領域が特定されるとともに属性が推定されたそれぞれの物体の物体IDが推定される。物体ID推定は、物体に付与された物体IDとの整合性をとるために必要な処理であり、適宜、矢印Ａ１２に示すように、ボクセル空間に既に格納されている物体IDを参照して行われる。また、時系列データとして入力される画像や点群データに基づいて物体追跡処理を行い、物体追跡の結果に基づいて、物体IDが推定されるようにしてもよい。

　矢印Ａ１３の先に示すように、ステップＳ３２の処理として、実環境マップ生成部８５は、物体ID推定により推定された物体IDを、距離画像または点群データに基づいてボクセル空間に格納する。物体IDが、物体までの距離に対応する位置のボクセルの情報として設定される。

　矢印Ａ１４の先に示すように、実環境マップ生成部８５は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。物体属性テーブルにおいては、物体IDと対応付けて、それぞれの物体の属性が管理される。

　矢印Ａ１５の先に示すように、ステップＳ３３の処理として、実環境マップ生成部８５は、環境データ取得部８４から供給されたRGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。ボクセル空間を構成するボクセルに格納された情報により、各ボクセルに対応する位置にある物体のIDが表される。

　打ち切り符号付き距離の計算方法およびボクセル空間への格納方法は、例えば、下記の文献に開示されている。
“Newcombe, Richard A., et al. "KinectFusion: Real-time dense surface mapping and tracking." Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011.”

　矢印Ａ１６，Ａ１７の先に示すように、ステップＳ３４の処理として、実環境マップ生成部８５は、ボクセル空間の情報と物体属性テーブルの情報を統合し、実際のシーンの三次元形状と、実際のシーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。実環境マップ生成部８５は、矢印Ａ１８の先に示すように、抽出した情報を含む情報を実環境マップとして生成する。

　図１３は、実環境マップの生成処理の流れの他の例を示す図である。

　図１３に示す実環境マップの生成処理は、打ち切り符号付き距離のボクセル空間への格納を先に行い、ボクセル空間に格納された情報に基づいて、物体の領域分割、属性推定、物体ID推定などを行う処理である。

　すなわち、矢印Ａ３１の先に示すように、ステップＳ４１の処理として、実環境マップ生成部８５は、環境データ取得部８４から供給されたRGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。

　ステップＳ４２において、実環境マップ生成部８５は、打ち切り符号付き距離の配列、点群データ、メッシュなどをボクセル空間から抽出し、抽出した情報に基づいて、物体の領域分割、属性推定、物体ID推定を行う。

　以降の処理は、図１２を参照して説明した処理と同様の処理である。すなわち、ステップＳ４３の処理として、実環境マップ生成部８５は、物体ID推定により推定された物体IDをボクセル空間に格納する。

　矢印Ａ３２の先に示すように、実環境マップ生成部８５は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。

　矢印Ａ３３，Ａ３４の先に示すように、ステップＳ４４の処理として、実環境マップ生成部８５は、ボクセル空間の情報と物体属性テーブルの情報を統合し、実際のシーンの三次元形状と、実際のシーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。実環境マップ生成部８５は、矢印Ａ３５の先に示すように、抽出した情報を含む情報を実環境マップとして生成する。

　このように、実環境マップの生成に関する各ステップの処理は、適宜、順番を変更することが可能である。

　また、実環境マップの生成処理に用いる技術として、カメラにより撮影されたRGB画像や各種のセンサの計測結果に基づいて実際のシーンの三次元形状などを推定する各種の技術を採用することが可能である。

＜表示用ARコンテンツの生成＞
　次に、表示用ARコンテンツの生成について説明する。

　図１４のフローチャートを参照して、表示用ARコンテンツ生成部８６の表示用ARコンテンツ生成処理について説明する。

　表示用ARコンテンツの生成は、テンプレート記憶部８３から読み出されたテンプレート環境マップとテンプレートARコンテンツ、および、実環境マップ生成部８５により生成された実環境マップを用いて行われる。

　ステップＳ５１において、表示用ARコンテンツ生成部８６は、テンプレート環境マップにより表される物体Ｏ^S_iと同一の属性Ｘ_iを有する物体Ｏ^T_iを、実環境マップにより表される、実際のシーンに存在する物体Ｏ^T_iの中から検索する。

　ステップＳ５２において、表示用ARコンテンツ生成部８６は、検索された物体Ｏ^T_iの数、および、物体Ｏ^T_iの相対的な位置関係が、それぞれ、テンプレート環境マップにより表される、属性Ｘ_iを有する物体Ｏ^S_iの数、および、物体Ｏ^S_iの相対的な位置関係と一致するか否かを判定する。

　ここでは、同じ属性の物体が同じ数だけテンプレートシーンと実際のシーンのそれぞれにあり、かつ、同じ属性の物体のテンプレートシーンにおける位置関係と実際のシーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。物体の位置関係については、完全に同じである必要はなく、位置関係の類似度が閾値以上高い場合に、条件を満たすものとして判定されるようにしてもよい。

　検索された物体Ｏ^T_iの数および相対的な位置関係が、それぞれ、物体Ｏ^S_iの数および相対的な位置関係と一致するとステップＳ５２において判定された場合、処理はステップＳ５３に進む。

　ステップＳ５３において、表示用ARコンテンツ生成部８６は、テンプレートARコンテンツにおける、物体Ｏ^S_iの位置を基準としたオブジェクトの位置を、物体Ｏ^T_iの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。

　表示用ARコンテンツにおけるオブジェクトと物体Ｏ^T_iとの間の位置関係は、テンプレートARコンテンツにおけるオブジェクトと物体Ｏ^S_iとの間の位置関係と同じ位置関係となる。

　図１５は、実環境マップと表示用ARコンテンツの例（例２－１）を示す図である。

　図１５の上段に示す実環境マップは、床面が存在するとともに、床面上に１つのテーブルと４脚の椅子が存在し、かつ、４脚の椅子がテーブルを囲んでいる、図３に示すようなシーンを表す。

　例えば、図１１を参照して説明したテンプレートシーン（図５）を表すテンプレート環境マップが用意されている場合、物体Ｏ^S_iと同一の属性Ｘ_iを有する物体Ｏ^T_iとして、物体Ｏ^S ₁₁（図５）と同一の「テーブル」の属性を有する物体Ｏ^T ₁₁（図３）が検索される。

　また、物体Ｏ^S ₂₁と同一の「椅子」の属性を有する物体Ｏ^T ₂₁、物体Ｏ^S ₂₂と同一の「椅子」の属性を有する物体Ｏ^T ₂₂、物体Ｏ^S ₂₃と同一の「椅子」の属性を有する物体Ｏ^T ₂₃、および、物体Ｏ^S ₂₄と同一の「椅子」の属性を有する物体Ｏ^T ₂₄が、それぞれ検索される。

　また、テンプレートシーンにおける物体Ｏ^S ₁₁（テーブル）と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄（椅子）の数、およびそれぞれの位置関係は、実際のシーンにおける物体Ｏ^T ₁₁（テーブル）と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄（椅子）の数、およびそれぞれの位置関係と同一であると判定される。

　図１６は、各物体の位置関係の例を示す図である。

　テンプレート環境マップにより表される、テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、図１６の左側に示すような位置関係となる。

　一方、実環境マップにより表される、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄の位置関係は、図１６の右側に示すような位置関係となる。

　テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄の位置関係と、同じ「テーブル」の属性を有する物体を囲む位置に４脚の椅子が存在するという点で同一である。

　なお、図１６において、物体Ｏ^S ₂₁乃至Ｏ^S ₂₄と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄の近傍に示す矢印は椅子の向きを表す。

　この場合、図１５の下段に示すように、テーブルを囲む４脚の椅子に、異なる４人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、４人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体Ｏ^T ₂₁乃至Ｏ^T ₂₄である。

　図１７は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。

　上述した位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体Ｏ^S ₂₁に着席するキャラクタＣ₁の位置は、図１７の矢印Ａ１０１で示すように、物体Ｏ^T ₂₁の位置に置換される。図１７において、各キャラクタの位置は、所定の模様を付した円で表される。

　テンプレートARコンテンツにおいて、キャラクタＣ₁の位置は物体Ｏ^S ₁₁や物体Ｏ^S ₂₁の位置を基準として設定されるが、それと同じ位置関係が、物体Ｏ^T ₁₁や物体Ｏ^T ₂₁の位置を基準として維持される。

　同様に、テンプレートARコンテンツにおいて物体Ｏ^S ₂₂に着席するキャラクタＣ₂の位置は、矢印Ａ１０２で示すように物体Ｏ^T ₂₂の位置に置換される。また、テンプレートARコンテンツにおいて物体Ｏ^S ₂₃に着席するキャラクタＣ₃の位置は、矢印Ａ１０３で示すように物体Ｏ^T ₂₃の位置に置換される。テンプレートARコンテンツにおいて物体Ｏ^S ₂₄に着席するキャラクタＣ₄の位置は、矢印Ａ１０４で示すように物体Ｏ^T ₂₄の位置に置換される。

　このようにして位置が置換されることによって生成された表示用ARコンテンツが再生されることにより、図４を参照して説明したようなキャラクタＣ₁乃至Ｃ₄の見え方が実現されることになる。

　図１４の説明に戻り、ステップＳ５２において、検索された物体Ｏ^T_iの数および相対的な位置関係が、それぞれ、物体Ｏ^S_iの数および相対的な位置関係と一致しないと判定された場合、処理はステップＳ５４に進む。

　ステップＳ５４において、表示用ARコンテンツ生成部８６は、テンプレート環境マップにより表される物体Ｏ^S_iと類似する属性Ｘ’_iを有する物体Ｏ^T’_iを、実環境マップにより表される、実際のシーンに存在する物体Ｏ^T_iの中から検索する。

　属性Ｘ_iと類似する属性Ｘ’_iについては、例えば、テンプレートARコンテンツの生成時にテーブル等で予め定義されている。表示用ARコンテンツの生成時にユーザにより属性Ｘ’_iが指定されるようにしてもよい。

　ステップＳ５５において、表示用ARコンテンツ生成部８６は、検索された物体Ｏ^T’_iを含めて、物体Ｏ^T_iの数、および、物体Ｏ^T_iの相対的な位置関係が、それぞれ、テンプレート環境マップにより表される、属性Ｘ_iを有する物体Ｏ^S_iの数、および、物体Ｏ^S_iの相対的な位置関係と一致するか否かを判定する。

　ここでは、類似する属性の物体を含めて、同一の属性の物体が同じ数だけテンプレートシーンと実際のシーンのそれぞれにあり、かつ、それぞれの物体のテンプレートシーンにおける位置関係と実際のシーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。

　物体Ｏ^T_iの数および相対的な位置関係が、それぞれ、物体Ｏ^S_iの数および相対的な位置関係と一致するとステップＳ５５において判定された場合、処理はステップＳ５３に進む。

　ステップＳ５３においては、上述した処理と同様に、テンプレートARコンテンツにおける、物体Ｏ^S_iの位置を基準としたオブジェクトの位置を、物体Ｏ^T_iの位置を基準とした位置に置換することによって、表示用ARコンテンツが生成される。

　図１８は、実環境マップと表示用ARコンテンツの例（例２－２）を示す図である。

　図１８の上段に示す実環境マップは、床面が存在するとともに、床面上に１つのテーブルと４脚の椅子、および、１脚のソファが存在するシーンを表す。この例においては、４脚の椅子のうちの３脚の椅子はテーブルを囲んでいるものの、１脚の椅子はテーブルから離れた位置にあるものとされている。また、１脚のソファはテーブルの近傍にあるものとされている。

　例えば、図１１を参照して説明したテンプレートシーン（図５）を表すテンプレート環境マップが用意されている場合、物体Ｏ^S_iと同一の属性Ｘ_iを有する物体Ｏ^T_iとして、物体Ｏ^S ₁₁（図５）と同一の「テーブル」の属性を有する物体Ｏ^T ₁₁が検索される。

　同様に、物体Ｏ^S ₂₁と同一の「椅子」の属性を有する物体Ｏ^T ₂₁、物体Ｏ^S ₂₂と同一の「椅子」の属性を有する物体Ｏ^T ₂₂、物体Ｏ^S ₂₃と同一の「椅子」の属性を有する物体Ｏ^T ₂₃、および、物体Ｏ^S ₂₄と同一の「椅子」の属性を有する物体Ｏ^T ₂₄が、それぞれ検索される。

　また、テンプレートシーンにおける物体Ｏ^S ₁₁（テーブル）と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄（椅子）の数、およびそれぞれの位置関係は、実際のシーンにおける物体Ｏ^T ₁₁（テーブル）と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄（椅子）の数、およびそれぞれの位置関係と同一ではないと判定される。

　図１９は、各物体の位置関係の例を示す図である。

　図１９の左側に示す、テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、図１６を参照して説明した位置関係と同じである。

　一方、実環境マップにより表される、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄の位置関係は、図１９の右側に示すような位置関係となる。実際のシーンには、ソファである物体Ｏ^T ₁₂も存在する。

　テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₄の位置関係と、１脚の「椅子」である物体Ｏ^T ₂₄が離れた位置に存在するという点で同一ではない。

　この場合、「椅子」に類似する属性を有する「ソファ」の属性を有する物体Ｏ^T ₁₂が、実環境マップにより表される、実際のシーンに存在する物体Ｏ^T_iの中から検索される。

　また、テンプレートシーンにおける物体Ｏ^S ₁₁（テーブル）と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄（椅子）の数、およびそれぞれの位置関係は、物体Ｏ^T ₁₂を含めて、実際のシーンにおける物体Ｏ^T ₁₁（テーブル）と物体Ｏ^T ₂₁乃至Ｏ^T ₂₃（椅子）と物体Ｏ^T ₁₂（ソファ）の数、およびそれぞれの位置関係と同一であると判定される。

　この場合、図１８の下段に示すように、テーブルを囲む３脚の椅子とテーブルの近傍のソファに、異なる４人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、４人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体Ｏ^T ₂₁乃至Ｏ^T ₂₃、および物体Ｏ^T ₁₂である。

　図２０は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。

　図１９に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体Ｏ^S ₂₁に着席するキャラクタＣ₁の位置は、図２０の矢印Ａ１１１で示すように、物体Ｏ^T ₂₁の位置に置換される。

　同様に、テンプレートARコンテンツにおいて物体Ｏ^S ₂₂に着席するキャラクタＣ₂の位置は、矢印Ａ１１２で示すように物体Ｏ^T ₂₂の位置に置換される。テンプレートARコンテンツにおいて物体Ｏ^S ₂₃に着席するキャラクタＣ₃の位置は、矢印Ａ１１３で示すように物体Ｏ^T ₂₃の位置に置換される。

　また、テンプレートARコンテンツにおいて物体Ｏ^S ₂₄に着席するキャラクタＣ₄の位置は、矢印Ａ１１４で示すように、ソファである物体Ｏ^T ₁₂の位置に置換される。

　このように、テンプレートシーンに存在する物体と同一の属性の物体がない場合、類似する属性の物体を用いて、キャラクタの位置の置換が行われる。

　これにより、テンプレートシーンに存在する物体と完全に同じ物体が実際のシーンにない場合であっても、テンプレートARコンテンツを実際のシーンに適用することが可能となる。

　図１４の説明に戻り、ステップＳ５５において、検索された物体Ｏ^T_iの数および相対的な位置関係が、それぞれ、物体Ｏ^S_iの数および相対的な位置関係と一致しないと判定された場合、処理はステップＳ５６に進む。

　この場合、属性が類似する物体を含めたとしても、実際のシーンには、テンプレートシーンに存在する物体と同じ数、同じ位置関係の物体が存在していないことになる。

　ステップＳ５６において、表示用ARコンテンツ生成部８６は、テンプレート環境マップにより表される物体Ｏ^S_iと同一の属性Ｘ_iを有するオブジェクトＣ_j（仮想的な物体）を、不足する数だけ、生成する。

　「椅子」の属性を有する物体が実際のシーンにおいて不足する場合、「椅子」の属性を有するオブジェクトが生成される。同一の属性のオブジェクトが生成されるのではなく、類似する属性のオブジェクトが生成されるようにしてもよい。

　ステップＳ５７において、表示用ARコンテンツ生成部８６は、実際のシーンに存在する物体Ｏ^T_iと新たに生成したオブジェクトＣ_jとの相対的な位置関係が、テンプレートシーンにおける物体Ｏ^S_iの位置関係と一致するように、オブジェクトＣ_jの配置位置を決定する。ここで、物体Ｏ^T_iには、ステップＳ５４において検索された物体Ｏ^T’_iも含まれる。

　ステップＳ５８において、表示用ARコンテンツ生成部８６は、テンプレートARコンテンツにおける、物体Ｏ^S_iの位置を基準としたオブジェクトの位置を、物体Ｏ^T_iおよびオブジェクトＣ_jの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。

　図２１は、実環境マップと表示用ARコンテンツの例（例２－３）を示す図である。

　図２１の上段に示す実環境マップは、床面が存在するとともに、床面上に１つのテーブルと３脚の椅子が存在するシーンを表す。この例においては、３脚の椅子はテーブルを囲んでいるものとされている。

　同様に、物体Ｏ^S ₂₁と同一の「椅子」の属性を有する物体Ｏ^T ₂₁、物体Ｏ^S ₂₂と同一の「椅子」の属性を有する物体Ｏ^T ₂₂、および、物体Ｏ^S ₂₃と同一の「椅子」の属性を有する物体Ｏ^T ₂₃が、それぞれ検索される。

　また、テンプレートシーンにおける物体Ｏ^S ₁₁（テーブル）と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄（椅子）の数、およびそれぞれの位置関係は、実際のシーンにおける物体Ｏ^T ₁₁（テーブル）と物体Ｏ^T ₂₁乃至Ｏ^T ₂₃（椅子）の数、およびそれぞれの位置関係と同一ではないと判定される。実際のシーンにおいては、椅子の数が１脚だけ不足することになる。

　図２２は、各物体の位置関係の例を示す図である。

　図２２の左側に示す、テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、図１６、図１９を参照して説明した位置関係と同じである。

　一方、実環境マップにより表される、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₃の位置関係は、図２２の右側に示すような位置関係となる。

　テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は、実際のシーンにおける物体Ｏ^T ₁₁と物体Ｏ^T ₂₁乃至Ｏ^T ₂₃の位置関係と、１脚の「椅子」が不足しているという点で同一ではない。

　この場合、「椅子」の属性を有するオブジェクトＣ₁₁が生成される。

　また、破線で示すように、オブジェクトＣ₁₁の配置位置が、テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係と同じ位置関係を有するように決定される。図２１の右側に示す実際のシーンにおける物体Ｏ^T ₁₁、物体Ｏ^T ₂₁乃至Ｏ^T ₂₃、オブジェクトＣ₁₁の位置関係と、テンプレートシーンにおける物体Ｏ^S ₁₁と物体Ｏ^S ₂₁乃至Ｏ^S ₂₄の位置関係は同じ位置関係を有する。

　この場合、図２１の下段に示すように、テーブルを囲む３脚の椅子と仮想的な椅子に、異なる４人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、４人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体Ｏ^T ₂₁乃至Ｏ^T ₂₃、および、仮想的なオブジェクトＣ₁₁である。表示用ARコンテンツには、オブジェクトＣ₁₁を表示させるための映像データも含まれる。

　図２３は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。

　図２２に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体Ｏ^S ₂₁に着席するキャラクタＣ₁の位置は、図２３の矢印Ａ１２１で示すように、物体Ｏ^T ₂₁の位置に置換される。

　同様に、テンプレートARコンテンツにおいて物体Ｏ^S ₂₂に着席するキャラクタＣ₂の位置は、矢印Ａ１２２で示すように物体Ｏ^T ₂₂の位置に置換される。テンプレートARコンテンツにおいて物体Ｏ^S ₂₃に着席するキャラクタＣ₃の位置は、矢印Ａ１２３で示すように物体Ｏ^T ₂₃の位置に置換される。

　また、テンプレートARコンテンツにおいて物体Ｏ^S ₂₄に着席するキャラクタＣ₄の位置は、矢印Ａ１２４で示すように、オブジェクトＣ₁₁の位置に置換される。

　このように、実際のシーンに存在する物体が不足する場合、仮想的なオブジェクトを用いて、キャラクタの位置の置換が行われる。

　ステップＳ５３またはステップＳ５８において表示用ARコンテンツが生成された後、処理は終了となる。

　以上の処理により、ARコンテンツの提供者は、特定のシーンに合わせたARコンテンツを個別に生成する必要がない。また、ARコンテンツの提供者は、ARコンテンツの視聴が行われる実際のシーンの環境マップを事前に取得する必要がない。

　一方、ユーザは、１つの汎用的なテンプレートARコンテンツを、様々なシーンで視聴・体験することができる。

　例えば、実際のシーンの環境マップに基づいて、平面などのプリミティブな形状を検出し、検出した形状の位置や姿勢に応じてオブジェクトを表示させるようなARに関する技術は存在する。

　上述したように、テンプレートシーンにおける複数の物体の数および位置関係と、実際のシーンにおける複数の物体の数および位置関係とを比較してオブジェクトの位置を決定することにより、複雑な三次元形状を有するシーンにオブジェクトを配置してユーザに視聴させることが可能となる。すなわち、ARコンテンツの提供者は、表現が豊かなARコンテンツを提供することが可能となる。

＜＜変形例＞＞
＜システム構成の例＞
　図１０に示す情報処理部７１の構成のうちの少なくとも一部が、HMD１において実現されるようにしてもよい。例えば、テンプレート（テンプレート環境マップとテンプレートARコンテンツ）の生成側の構成が情報処理部７１において実現され、ARコンテンツの再生側の構成がHMD１において実現されるようにすることが可能である。

　図２４は、情報処理システムの他の構成例を示すブロック図である。

　図２４に示す構成のうち、図１０を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　HMD１においては、図８の制御部１１により所定のプログラムが実行されることによって情報処理部１０１が実現される。

　情報処理部１０１は、環境データ取得部８４、実環境マップ生成部８５、表示用ARコンテンツ生成部８６、推定部８７、表示制御部８８、および、テンプレート取得部１１１により構成される。

　テンプレート取得部１１１は、通信部１４を制御し、情報処理装置２の情報処理部７１において生成され、情報処理装置２から送信されてきたテンプレートを取得する。テンプレート取得部１１１は、ARコンテンツの再生時、取得したテンプレートを表示用ARコンテンツ生成部８６に出力する。

　このように、実環境マップの生成と表示用ARコンテンツの生成を含む処理がHMD１において行われるようにすることが可能である。

＜コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

　インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図９に示されるリムーバブルメディア６１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM５２や記憶部５８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第１のマップ生成部と、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第１のコンテンツ生成部と
　を備える情報処理装置。
（２）
　実空間の環境を表す実環境マップを生成する第２のマップ生成部と、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する第２のコンテンツ生成部と
　をさらに備える前記（１）に記載の情報処理装置。
（３）
　前記第１のマップ生成部は、前記所定の物体の属性を表す情報と、前記所定の物体の位置関係を表す情報を含む前記テンプレート環境マップを生成する
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記第２のマップ生成部は、実空間に存在する物体である実物体の属性を表す情報と、前記実物体の位置関係を表す情報を含む前記実環境マップを生成する
　前記（２）に記載の情報処理装置。
（５）
　前記第２のコンテンツ生成部は、前記テンプレートコンテンツに含まれる前記オブジェクトの位置を、前記実環境マップに含まれる情報により表される前記実物体の位置関係に基づいて設定する
　前記（４）に記載の情報処理装置。
（６）
　前記第２のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と同じ属性を有する前記実物体の位置関係に基づいて設定する
　前記（５）に記載の情報処理装置。
（７）
　前記第２のコンテンツ生成部は、前記所定の物体と同じ属性を有する前記実物体が、前記所定の物体の前記三次元空間における位置関係と同じ位置関係を有している場合、前記所定の物体を基準とした位置関係と同じ位置関係を前記実物体との間で有するように前記オブジェクトの位置を設定する
　前記（６）に記載の情報処理装置。
（８）
　前記第２のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と類似する属性を有する前記実物体の位置関係に基づいて設定する
　前記（５）に記載の情報処理装置。
（９）
　前記第２のコンテンツ生成部は、前記所定の物体と同じ属性を有する仮想的な物体のデータを含む前記表示用コンテンツを生成する
　前記（５）に記載の情報処理装置。
（１０）
　前記第２のコンテンツ生成部は、前記所定の物体の位置関係と同じ位置関係を有する位置に配置した前記仮想的な物体のデータを含む前記表示用コンテンツを生成する
　前記（９）に記載の情報処理装置。
（１１）
　前記第２のマップ生成部は、実空間をカメラにより撮影して得られた画像、および、前記実物体までの距離を距離センサにより計測して得られた距離情報のうちの少なくともいずれかに基づいて、前記実環境マップを生成する
　前記（４）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記表示用コンテンツを再生し、実空間に重ねて前記オブジェクトを表示させる表示制御部をさらに備える
　前記（２）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　情報処理装置が、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
　情報処理方法。
（１４）
　コンピュータに、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
　処理を実行させるためのプログラム。
（１５）
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、
　実空間の環境を表す実環境マップを生成するマップ生成部と、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部と
　を備える情報処理装置。
（１６）
　情報処理装置が、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
　実空間の環境を表す実環境マップを生成し、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
　を備える情報処理方法。
（１７）
　コンピュータに、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
　実空間の環境を表す実環境マップを生成し、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
　処理を実行させるためのプログラム。

　１　HMD，　２　情報処理装置，　７１　情報処理部，　８１　テンプレート環境マップ生成部，　８２　テンプレートARコンテンツ生成部，　８３　テンプレート記憶部，　８４　環境データ取得部，　８５　実環境マップ生成部，　８６　表示用ARコンテンツ生成部，　８７　推定部，　８８　表示制御部

Claims

　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第１のマップ生成部と、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第１のコンテンツ生成部と
　を備える情報処理装置。
　実空間の環境を表す実環境マップを生成する第２のマップ生成部と、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する第２のコンテンツ生成部と
　をさらに備える請求項１に記載の情報処理装置。
　前記第１のマップ生成部は、前記所定の物体の属性を表す情報と、前記所定の物体の位置関係を表す情報を含む前記テンプレート環境マップを生成する
　請求項１に記載の情報処理装置。
　前記第２のマップ生成部は、実空間に存在する物体である実物体の属性を表す情報と、前記実物体の位置関係を表す情報を含む前記実環境マップを生成する
　請求項２に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記テンプレートコンテンツに含まれる前記オブジェクトの位置を、前記実環境マップに含まれる情報により表される前記実物体の位置関係に基づいて設定する
　請求項４に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と同じ属性を有する前記実物体の位置関係に基づいて設定する
　請求項５に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記所定の物体と同じ属性を有する前記実物体が、前記所定の物体の前記三次元空間における位置関係と同じ位置関係を有している場合、前記所定の物体を基準とした位置関係と同じ位置関係を前記実物体との間で有するように前記オブジェクトの位置を設定する
　請求項６に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と類似する属性を有する前記実物体の位置関係に基づいて設定する
　請求項５に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記所定の物体と同じ属性を有する仮想的な物体のデータを含む前記表示用コンテンツを生成する
　請求項５に記載の情報処理装置。
　前記第２のコンテンツ生成部は、前記所定の物体の位置関係と同じ位置関係を有する位置に配置した前記仮想的な物体のデータを含む前記表示用コンテンツを生成する
　請求項９に記載の情報処理装置。
　前記第２のマップ生成部は、実空間をカメラにより撮影して得られた画像、および、前記実物体までの距離を距離センサにより計測して得られた距離情報のうちの少なくともいずれかに基づいて、前記実環境マップを生成する
　請求項４に記載の情報処理装置。
　前記表示用コンテンツを再生し、実空間に重ねて前記オブジェクトを表示させる表示制御部をさらに備える
　請求項２に記載の情報処理装置。
　情報処理装置が、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
　情報処理方法。
　コンピュータに、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
　実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
　処理を実行させるためのプログラム。
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、
　実空間の環境を表す実環境マップを生成するマップ生成部と、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部と
　を備える情報処理装置。
　情報処理装置が、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
　実空間の環境を表す実環境マップを生成し、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
　を備える情報処理方法。
　コンピュータに、
　所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
　実空間の環境を表す実環境マップを生成し、
　前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
　処理を実行させるためのプログラム。