WO2020080107A1

WO2020080107A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2020080107A1
Application number: PCT/JP2019/038915
Authority: WO
Inventors: 石川　毅
Original assignee: ソニー株式会社
Priority date: 2018-10-15
Filing date: 2019-10-02
Publication date: 2020-04-23
Also published as: JPWO2020080107A1; JP7459798B2; US20220012922A1; CN112840379A

Abstract

本技術の一形態に係る情報処理装置は、取得部と、動作検出部と、領域検出部と、表示制御部とを具備する。前記取得部は、実空間が撮影された１以上の撮影画像を取得する。前記動作検出部は、前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する。前記領域検出部は、前記検出された接触動作に応じて前記実物体を含む対象領域を検出する。前記表示制御部は、前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、仮想体験を提供する情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１には、実空間の画像を用いて仮想的な体験を提供するシステムが記載されている。このシステムでは、第１のユーザが装着したウェアラブルディスプレイ及び広角カメラを用いて、第１のユーザの視界を表現した画像が生成される。この画像は、第２のユーザに提示される。第２のユーザは、提示された画像にテキストやアイコン等の仮想オブジェクトを入力可能である。また、入力された仮想オブジェクトは、第１のユーザに提示される。これにより、ユーザ間で視覚を共有する仮想体験を実現することが可能となる（特許文献１の明細書段落［００１５］－［００１７］［００５１］［００６２］図１、３等）。

特開２０１５－９５８０２号公報

　このように、実空間の画像等を用いて各種の仮想体験を提供する技術が開発されており、実空間と仮想空間とをシームレスにつなぐことが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、実空間と仮想空間とをシームレスにつなぐことが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、動作検出部と、領域検出部と、表示制御部とを具備する。
　前記取得部は、実空間が撮影された１以上の撮影画像を取得する。
　前記動作検出部は、前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する。
　前記領域検出部は、前記検出された接触動作に応じて前記実物体を含む対象領域を検出する。
　前記表示制御部は、前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する。

　この情報処理装置では、実物体に触れるユーザの接触動作が検出され、接触動作に応じて実物体が含まれる対象領域が検出される。この対象領域に対応する部分画像が、実物体が存在する実空間を撮影した撮影画像から抽出され、実物体の仮想画像が生成される。そしてユーザの接触動作に応じて仮想画像の表示制御が実行される。これにより、実物体がキャプチャされた仮想画像を容易に表示させることが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成してもよい。
　これにより、遮蔽物による遮蔽のない実物体のクリアな画像を仮想空間に持ち込むことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　前記表示制御部は、前記１以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成してもよい。
　これにより、遮蔽のない実物体を表す仮想画像を容易に仮想空間に持ち込むことが可能となる。この結果、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　前記表示制御部は、前記仮想画像を前記実物体に重畳して表示してもよい。
　これにより、実物体上に実物体が複製された仮想画像が表示されることになる。この結果、仮想画像を簡単に取り扱うことが可能となり優れたユーザビリティが発揮される。

　前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記１以上の撮影画像を取得してもよい。
　これにより、例えば遮蔽のない実物体を表す精度のよい仮想画像を容易に生成することが可能となる。

　前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含んでもよい。この場合、前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定してもよい。また、前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記１以上の撮影画像を取得してもよい。
　これにより、例えばユーザが接触する直前の実物体を撮影することが可能となる。これにより、仮想画像の精度を十分に向上することが可能となる。

　前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くしてもよい。
　これにより、例えば解像度の高い仮想画像を生成することが可能となる。

　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出してもよい。この場合、前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出してもよい。
　これにより、例えば簡単な動作でキャプチャの対象や範囲等を指定することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出してもよい。
　これにより、例えば実物体とそれ以外の領域とを精度よく切り分けることが可能となり、高精度な仮想画像を生成することが可能となる。

　前記情報処理装置は、さらに、前記ユーザの視線方向を検出する視線検出部を具備してもよい。この場合、前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出してもよい。
　これにより、キャプチャ対象となる実物体とそれ以外の領域との切り分け精度を向上することが可能となる。この結果、適正な仮想画像を生成することが可能となる。

　前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出してもよい。この場合、前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出してもよい。
　これにより、キャプチャ対象となる実物体とそれ以外の領域との切り分け精度を大幅に向上することが可能となり、装置の信頼性を十分に向上することが可能となる。

　前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも１つに基づいて、前記実物体の境界を検出してもよい。
　これにより、例えば実物体の状況等に係らず実物体の境界等を精度よく検出することが可能となる。この結果、装置のユーザビリティを十分に向上することが可能となる。

　前記動作検出部は、前記ユーザの手の指先位置を検出してもよい。この場合、前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出してもよい。
　これにより、例えばキャプチャの範囲を容易に設定することが可能となる。

　前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示してもよい。
　これにより、例えばキャプチャの範囲となる対象領域を確認することが可能となり、不要な仮想画像が生成されるといった事態を十分に回避することが可能となる。

　前記領域画像は、形状、サイズ、及び位置の少なくとも１つを編集可能に表示されてもよい。この場合、前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更してもよい。
　これにより、キャプチャの範囲を精度よく設定することが可能となり、例えば所望とする実物体の仮想画像等を容易に生成することが可能となる。

　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出してもよい。この場合、前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御してもよい。
　これにより、例えば接触位置に合わせて、仮想画像を違和感なく表示させるといったことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出してもよい。この場合、前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御してもよい。
　これにより、例えば手のジェスチャーに合わせて仮想画像の表示の仕方を切り替えるといったことが可能となり、使いやすいインターフェースを提供することが可能となる。

　前記仮想画像は、前記実物体の２次元画像及び３次元画像の少なくとも１方であってもよい。
　これにより、実空間に存在する様々な実物体の仮想画像を生成することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実空間が撮影された１以上の撮影画像を取得することを含む。
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作が検出される。
　前記検出された接触動作に応じて前記実物体を含む対象領域が検出される。
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示が制御される。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　実空間が撮影された１以上の撮影画像を取得するステップ。
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップ。
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップ。
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップ。

　以上のように、本技術によれば、実空間と仮想空間とをシームレスにつなぐことが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係るＨＭＤの動作の概要を説明するための模式図である。本技術の一実施形態に係るＨＭＤの外観を模式的に示す斜視図である。図２に示すＨＭＤの構成例を示すブロック図である。ＨＭＤの動作の一例を示すフローチャートである。ユーザの実物体に対する接触動作の一例を示す模式図である。領域自動検出モードにおけるキャプチャ領域の検出処理の一例を示す模式図である。領域自動検出モードにおけるキャプチャ領域の検出処理の他の一例を示す模式図である。キャプチャ領域の修正処理の一例を示す模式図である。仮想画像の生成に用いられる撮影画像の一例を示す模式図である。仮想画像の表示の一例を示す模式図である。仮想画像の表示の一例を示す模式図である。仮想画像の表示の一例を示す模式図である。仮想画像の表示の一例を示す模式図である。仮想画像の表示の他の一例を示す模式図である。遮蔽物のあるキャプチャ領域の検出処理の一例を示す模式図である。図１５に示す検出処理により生成される仮想画像の一例を示す模式図である。ＨＭＤの動作の他の一例を示すフローチャートである。ユーザにより指定されるキャプチャ領域６の一例を示す模式図である。他の実施形態に係るＨＭＤの外観を模式的に示す斜視図である。他の実施形態に係る携帯端末の外観を模式的に示す斜視図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［ＨＭＤの構成］
　図１は、本技術の一実施形態に係るＨＭＤの動作の概要を説明するための模式図である。ＨＭＤ１００（Head Mount Display）は、透過型のディスプレイを備えたメガネ型の装置であり、ユーザ１の頭部に装着されて使用される。

　ＨＭＤ１００を装着するユーザ１は、現実の景色を視認すると同時に、透過型のディスプレイに表示される画像を視認することが可能となる。すなわち、ＨＭＤ１００を用いることで、ユーザ１の周囲の現実の空間（実空間）に仮想的な画像等を重畳して表示させることが可能となる。これにより、ユーザ１は拡張現実（ＡＲ：Augmented Reality）等を体験することが可能となる。

　図１Ａは、ユーザ１が視覚する仮想空間（ＡＲ空間）の一例を示す模式図である。図１Ａの左側の椅子には、ＨＭＤ１００を装着したユーザ１ａが座っている。ＨＭＤ１００のディスプレイには、例えば机を挟んで反対側に座っている他のユーザ１ｂの画像が表示される。この結果、ＨＭＤ１００を装着したユーザ１ａは、あたかも他のユーザ１ｂと対面して座っているような拡張現実感を体験することが可能となる。

　なお図中の実線で示された部分（ユーザ１ａが座っている椅子、テーブル、及びテーブル上の書類２等）は、ユーザ１ａが実際に存在する実空間に配置された実物体３（実オブジェクト）である。また、図中の点線で示された部分（他のユーザ１ｂとその椅子等）が、透過型のディスプレイに表示される画像であり、ＡＲ空間上の仮想画像４となる。本開示において、仮想画像４とは、例えば仮想空間内に表示される各種のオブジェクト（仮想オブジェクト）を表示するための画像である。

　このように、ＨＭＤ１００を装着することで、例えば他のユーザ１ｂが遠隔地にいるような場合であっても、ジェスチャーを交えた会話等を自然に行うことが可能となり、良好なコミュニケーションを実現することが可能となる。もちろん、ユーザ１ａと他のユーザ１ｂとが同じ空間にいるような場合であっても、本技術は適用可能である。

　ＨＭＤ１００は、実空間内の実物体３の仮想画像４を生成して、ＡＲ空間に表示するキャプチャ機能を備える。例えば、ＨＭＤ１００を装着したユーザ１ａが、テーブル上の書類２に手を伸ばし、書類２に手を触れたとする。この場合、ＨＭＤ１００では、ユーザ１ａが手を触れた書類２の仮想画像４が生成される。本実施形態では、書類２は、実空間内の実物体３の一例である。

　図１Ｂには、ユーザ１ａが書類２に触れる接触動作の一例が模式的に図示されている。例えばユーザ１ａが書類２に手を触れると、キャプチャ対象となる書類２の領域（書類２の境界）等が検出される。この検出結果に基づいて、ユーザ１ａが触れた書類２を表す仮想画像４（図中の斜線の領域）が生成され、ＨＭＤ１００のディスプレイ（ＡＲ空間）に表示される。キャプチャ対象の領域を検出する方法や、仮想画像４を生成する方法等については、後に詳しく説明する。

　例えば図１Ｂに示すように、ユーザ１ａが手で机の上の書類２を剥がすようにこすると、キャプチャされた書類２（仮想画像４）が、実際の書類２の上にめくれたように表示される。すなわち、生成された仮想画像４が、あたかも実際の書類２がめくれたかのように、実際の書類２に重畳して表示される。なお、ユーザ１ａは、実際に書類２をめくる必要はなく、例えば書類２めくるようなジェスチャーを行うだけで、仮想画像４を生成することが可能である。

　このように、ＨＭＤ１００では、ユーザ１ａの手でキャプチャ対象となる実物体３（書類２）が指定され、対象の仮想画像４が生成される。キャプチャされた仮想画像４は実物体対象上に重畳して表示される。ＡＲ空間に表示された書類２の仮想画像４は、例えば仮想画像４を掴む、変形させる、移動させるといったユーザ１ａの各種のジェスチャー等に応じて、ＡＲ空間内で自在に表示させることが可能である。

　また仮想画像４としてＡＲ空間に持ち込まれた書類２は、仮想的なＡＲ空間内を自由に移動させることが可能である。例えば図１Ｃには、ユーザ１ａが仮想物となった書類２（仮想画像４）を掴んで、ＨＭＤ１００のディスプレイ上に表示されている遠隔地の他のユーザ１ｂに手渡す様子が示されている。仮想画像４を用いることで、例えばこのようなコミュニケーションを実現することが可能となる。

　このように、ＨＭＤ１００では、実空間（実世界）に存在する実物体３が簡易的にキャプチャされて仮想空間（仮想世界）で提示される。すなわち、ＨＭＤ１００は、実空間を簡易的にキャプチャする機能を備えるとも言える。これにより、ＡＲ空間等の仮想空間に実空間の物体を容易に持ち込むことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。以下、ＨＭＤ１００の構成について具体的に説明する。

　図２は、本技術の一実施形態に係るＨＭＤ１００の外観を模式的に示す斜視図である。図３は、図２に示すＨＭＤ１００の構成例を示すブロック図である。

　ＨＭＤ１００は、フレーム１０、左眼用レンズ１１ａ及び右眼用レンズ１１ｂ、左眼用ディスプレイ１２ａ及び右眼用ディスプレイ１２ｂ、左眼用カメラ１３ａ及び右眼用カメラ１３ｂ、及び外向きカメラ１４を有する。

　フレーム１０は、メガネ型の形状でなり、リム部１５及びテンプル部１６を有する。リム部１５は、ユーザ１の左右の眼の前方に配置される部分であり、左眼用レンズ１１ａ及び右眼用レンズ１１ｂをそれぞれ支持する。テンプル部１６は、リム部１５の両端からユーザ１の両耳に向けて後方に延在し、先端が両耳に装着される。リム部１５及びテンプル部１６は、例えば合成樹脂、金属等の材料で形成される。

　左眼用レンズ１１ａ及び右眼用レンズ１１ｂは、ユーザの視野の少なくとも一部を覆うように、ユーザの左右の眼の前方にそれぞれ配置される。典型的には、各レンズは、ユーザの視力を矯正するように設計される。もちろんこれに限定されず、いわゆる度無しレンズが用いられてもよい。

　左眼用ディスプレイ１２ａ及び右眼用ディスプレイ１２ｂは、透過型ディスプレイであり、左眼用及び右眼用レンズ１１ａ及び１１ｂの一部の領域を覆うように、それぞれ配置される。すなわち左眼用及び右眼用レンズ１１ａ及び１１ｂは、ユーザの左右の眼の前方にそれぞれ配置される。

　左眼用及び右眼用ディスプレイ１２ａ及び１２ｂには、左眼用及び右眼用の画像等がそれぞれ表示される。各ディスプレイ１２ａ及び１２ｂには、例えば仮想画像４等の仮想的な表示物（仮想オブジェクト）が表示される。従って、ＨＭＤ１００を装着したユーザ１は、各ディスプレイ１２ａ及び１２ｂに表示された仮想画像４が重畳された実空間の景色（実物体３等）を視覚することになる。

　左眼用及び右眼用ディスプレイ１２ａ及び１２ｂとしては、例えば透過型の有機ＥＬディスプレイやＬＣＤ（Liquid Crystal Display、液晶表示素子）ディスプレイ等が用いられる。この他、左眼用及び右眼用ディスプレイ１２ａ及び１２ｂ具体的な構成は限定されず、例えば透明なスクリーンに画像を投影して表示する方式や、プリズム等を用いて画像を表示する方式等の任意の方式の透過型ディスプレイが適宜用いられてよい。

　左眼用カメラ１３ａ及び右眼用カメラ１３ｂは、ユーザ１の左眼及び右眼を撮像可能なように、フレーム１０に適宜設置される。例えば、左眼用及び右眼用カメラ１３ａ及び１３ｂにより撮影された左眼及び右眼の画像に基づいて、ユーザ１の視線やユーザ１が注視している注視点等を検出することが可能である。

　左眼用及び右眼用カメラ１３ａ及び１３ｂとしては、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線ＬＥＤ等の赤外線照明を搭載した赤外線カメラが用いられてもよい。

　以下では、左眼用レンズ１１ａ及び右眼用レンズ１１ｂをともにレンズ１１と記載し、左眼用ディスプレイ１２ａ及び右眼用ディスプレイ１２ｂをともに透過型ディスプレイ１２と記載する場合がある。また、左眼用カメラ１３ａ及び右眼用カメラ１３ｂをともに内向きカメラ１３と記載する場合がある。

　外向きカメラ１４は、フレーム１０（リム部１５）の中央に、外側（ユーザ１とは反対側）に向けて配置される。外向きカメラ１４は、ユーザ１の周辺の実空間を撮影し、実空間が撮影された撮影画像を出力する。外向きカメラ１４の撮影範囲は、例えばユーザ１の視野と略同様か、ユーザ１の視野よりも広い範囲となるように設定される。すなわち、外向きカメラ１４は、ユーザ１の視界を撮影しているとも言える。本実施形態では、外向きカメラ１４は、撮影装置に相当する。

　外向きカメラ１４としては、例えばＣＭＯＳセンサやＣＣＤセンサ等のイメージセンサを備えるデジタルカメラが用いられる。また例えば、実空間の奥行情報等を検出可能なステレオカメラやＴＯＦ（Time of Flight）センサ等を備えたカメラ等が、外向きカメラ１４として用いられてもよい。外向きカメラ１４の具体的な構成は限定されず、例えば所望の精度で実空間を撮影可能な任意のカメラが、外向きカメラ１４として用いられてよい。

　図３に示すように、ＨＭＤ１００はさらに、センサ部１７と、通信部１８と、記憶部２０と、コントローラ３０とを有する。

　センサ部１７は、周辺環境の状態、ＨＭＤ１００の状態、及びユーザ１の状態等を検出する各種のセンサ素子を備える。本実施形態では、センサ素子として、対象までの距離を測定する距離センサ（Ｄｅｐｔｈセンサ）が搭載される。例えば上記したステレオカメラ等は、距離センサの一例である。この他、ＬｉＤＡＲセンサや各種のレーダセンサ等が距離センサとして用いられてよい。

　またセンサ素子として、例えば３軸加速度センサ、３軸ジャイロセンサ、及び３軸コンパスセンサを含む９軸センサや、ＨＭＤ１００の現在位置の情報を取得するＧＰＳセンサ等が用いられてもよい。また、ユーザ１の生体情報を検出する脳波センサ、筋電センサ、脈拍センサ等の生体センサ（心拍）が用いられてもよい。

　またセンサ部１７は、ユーザの音声や周辺の音情報を検出するマイクを備える。例えばユーザが発話した音声等が適宜検出される。これにより、例えばユーザは、音声通話をしながらＡＲ体験を行うことや、音声入力を用いたＨＭＤ１００の操作入力を行うことが可能である。この他、センサ部１７として設けられるセンサ素子等は限定されない。

　通信部１８は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばＷｉＦｉ等の無線ＬＡＮモジュールや、Bluetooth（登録商標）等の通信モジュールが設けられる。

　記憶部２０は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。

　記憶部２０には、撮影画像データベース２１が格納される。撮影画像データベース２１は、例えば外向きカメラ１４により撮影された実空間の画像を記憶するデータベースである。また外向きカメラ１４とは異なる他のカメラ等により撮影された実空間の画像等が撮影画像データベース２１に記憶されてもよい。

　撮影画像データベース２１には、例えば、実空間の撮影画像と、各撮影画像の撮影状況に関する撮影情報とが関連づけられて記憶される。撮影情報としては、例えば撮影画像を撮影した際の、撮影時刻、撮影時のＨＭＤ１００の位置、撮影方向（ＨＭＤ１００の姿勢等）、撮影解像度、撮影倍率、露光時間等が記憶される。この他、撮影画像データベース２１の具体的な構成は限定されない。本実施形態では、撮影画像データベースは、撮影装置の出力が記憶されたデータベースに相当する。

　また記憶部２０には、ＨＭＤ１００の全体の動作を制御するための制御プログラム２２が記憶される。撮影画像データベース２１及び制御プログラム２２を、ＨＭＤ１００にインストールする方法は限定されない。

　コントローラ３０は、本実施形態に係る情報処理装置に相当し、ＨＭＤ１００が有する各ブロックの動作を制御する。コントローラ３０は、例えばＣＰＵやメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。ＣＰＵが記憶部２０に記憶されている制御プログラム２２をＲＡＭにロードして実行することにより、種々の処理が実行される。

　コントローラ３０として、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、コントローラ３０のＣＰＵが本実施形態に係るプログラムを実行することで、機能ブロックとして画像取得部３１、接触検出部３２、視線検出部３３、領域検出部３４、及びＡＲ表示部３５が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　画像取得部３１は、実空間が撮影された１以上の撮影画像を取得する。例えば、画像取得部３１は、外向きカメラ１４を適宜制御して外向きカメラ１４により撮影された撮影画像を読み込む。この場合、画像取得部３１は、リアルタイムで撮影された画像を取得可能である。

　例えば、後述する接触検出部３２によりユーザ１と実物体３が接触しそうであると通知を受けると、画像取得部３１は、外向きカメラ１４を制御して実物体３をキャプチャするための撮影を開始させる。また外向きカメラ１４が常時撮影を実行しているようなケースでは、外向きカメラ１４の撮影パラメータが変更され、より高解像度な映像の撮影に切り替えられる。すなわち、画像取得部３１は、実物体３をキャプチャするための撮影のモードに切り替わるように、外向きカメラ１４を制御する。この点については、図５等を参照して後に詳しく説明する。

　また例えば、画像取得部３１は、記憶部２０に適宜アクセスして撮影画像データベース２１に記憶された撮影画像４０を読み込む。すなわち、画像取得部３１は、撮影画像データベース２１を適宜参照して、過去に撮影された撮影画像を取得することが可能である。

　このように、本実施形態では、画像取得部３１は、実空間を撮影する外向きカメラ１４、及び外向きカメラ１４の出力が記憶された撮影画像データベース２１の少なくとも一方から、１以上の撮影画像を取得する。取得された撮影画像は、例えば他の機能ブロックに適宜供給される。また、外向きカメラ１４から取得された撮影画像は、撮影画像データベース２１に適宜格納される。本実施形態では、画像取得部３１は、取得部に相当する。

　接触検出部３２は、実空間内の実物体３に対してユーザ１が接触する際の一連の動作である接触動作を検出する。接触動作の検出には、例えばセンサ部１７として搭載された距離センサ等により検出された奥行情報や、外向きカメラ１４により撮影されたユーザ１の視界の画像（撮影画像）等が用いられる。

　本開示において、接触動作とは、ユーザ１が実物体３に触れる際に行う一連の動作（ジェスチャー）であり、典型的には、ユーザ１の手（手指）が実物体３に触れるようにユーザ１が行う動作である。例えば、ユーザ１の手が実物体３に触れる際のユーザの手指の動作（ハンドジェスチャー）は接触動作である。例えば、書類２（実物体３）をつまむ、めくる、つかむ、タップする、ずらす等のハンドジェスチャーが、接触動作に含まれる。なおハンドジェスチャーは、実物体３に触れた状態で行われるジェスチャーに限定されない。例えばユーザ１が実物体３をつまむために指を広げる、あるいは狭めるといった、実物体３に触れていない状態で行われるハンドジェスチャー等も、接触動作となる。

　また、接触動作は、実物体３に対してユーザ１が手を接近させる動作を含む。すなわち、実物体３に触れるために、対象となる実物体３にユーザ１が手を伸ばす動作も接触動作に含まれる。例えば、ユーザ１が手を移動して書類２（実物体３）に手を接近させる動作（接近動作）は、接触動作である。従って、接触検出部３２は、ユーザ１の接触動作として、接近動作や接触時のハンドジェスチャー等の、ユーザが実物体３に接触する際に行う一連の動作を検出すると言える。

　接触検出部３２は、接触動作の状態を判定する。例えば、接触検出部は、接触動作の状態が、実物体３に対するユーザ１の手の接触が予測される接触前状態であるか否かを判定する。すなわち、ユーザ１の手が実物体３に接触しそうかどうかが判定される。例えば、ユーザ１の手指と、周辺の実物体３との距離が一定の閾値よりも小さい場合等には、ユーザ１の手が実物体３に接触しそうであるとして、ユーザ１の接触動作が接触前状態であると判定される（図４のステップ１０２参照）。この場合、手指と実物体３との距離が閾値よりも小さく、かつ手指が実物体３に接触していない状態が接触前状態となる。

　また接触検出部３２は、接触動作の状態が、ユーザ１の手と実物体３とが接触した接触状態であるか否かを判定する。すなわち、接触検出部３２は、ユーザ１の手指の実物体３の表面（平面）への接触を検出する。

　ユーザ１と実物体３との接触が検出されると、接触検出部３２は、ユーザ１の手と実物体３との接触位置Ｐを検出する。接触位置Ｐとしては、例えばＨＭＤ１００に設定された所定の座標系における、ユーザ１の手と実物体３とが接触する位置の座標等が検出される。

　接触動作等を検出する方法は限定されない。例えば、接触検出部３２は、ＨＭＤ１００に取り付けられた距離センサ等を用いて、ユーザ１の手の位置及び、周辺の実物体３の位置を適宜計測する。各位置の計測結果に基づいて、例えば、接触前状態であるか否かが判定され、ユーザ１の手が実物体３に接触しそうかどうかが検出される。また例えば、接触状態であるか否かが判定され、手が実物体３に接触したかどうかが検出される。

　接触しそうであるか否かの検出には、例えば機械学習による予測処理や、ユーザ１の手と実物体３との距離が縮まったことを利用した予測処理等が用いられる。この他、ユーザ１の手の移動方向や移動速度等に基づいて、ユーザ１と実物体３との接触を予測するといった処理が実行されてもよい。

　また接触検出部３２は、外向きカメラ１４により撮影された撮影画像等に基づいてユーザ１のハンドジェスチャーを検出する。例えば、撮影画像内の手指の領域を検出してジェスチャーを検出する方法や、各指の指先を検出してジェスチャーを検出する方法等が適宜用いられる。また機械学習等を用いたハンドジェスチャーの検出処理が実行されてもよい。この他、ハンドジェスチャーを検出する方法等は限定されない。

　視線検出部３３は、ユーザ１の視線方向を検出する。例えば内向きカメラ１３により撮影されたユーザ１の左眼及び右眼の画像に基づいて、ユーザ１の視線方向が検出される。また視線検出部３３は、ユーザ１の視線方向に基づいて注視位置Ｑを検出する。例えば、ユーザ１が実空間内のある実物体３を見ている場合、その実物体３と、ユーザ１の視線方向とが交わる位置が、ユーザ１の注視位置Ｑとして検出される。

　ユーザ１の視線方向や注視位置Ｑを検出する方法は限定されない。例えば、赤外線カメラ（内向きカメラ１３）及び赤外光源が搭載された構成では、赤外光源から出射された赤外線の反射（輝点）が映り込んだ眼球の画像が撮影される。この場合、赤外線の輝点と瞳孔位置とから視線方向が推定され、注視位置Ｑが検出される。

　また、眼球の画像に基づいて、目じり等の特徴点を基準に視線方向及び注視位置Ｑを推定する方法等が用いられてもよい。また眼球が帯電することで生じる眼電位等の変化に基づいて、視線方向や注視位置Ｑが検出されてもよい。この他、ユーザ１の視線方向及び注視位置Ｑ等を検出可能な任意のアルゴリズム等が用いられてよい。

　領域検出部３４は、接触検出部３２により検出された接触動作に応じて実物体３を含むキャプチャ領域を検出する。キャプチャ領域とは、例えば実物体３が撮影（キャプチャ）された仮想画像４を生成するための領域である。すなわち、仮想画像４としてキャプチャされるべき実物体３が含まれる領域が、キャプチャ領域となるとも言える。本実施形態では、キャプチャ領域は、対象領域に相当する。

　例えば、ユーザ１が実物体３に接触した状態が撮影された撮影画像（以下、接触画像と記載する）が取得される。領域検出部３４は、接触画像を解析して仮想画像４としてキャプチャされるべき接触画像内の範囲（キャプチャ領域）を検出する。なお、接触画像からキャプチャ領域を検出する場合に限定されない。例えばユーザ１の接触位置等に基づいて、接触画像以外の撮影画像からキャプチャ領域が検出されてもよい。

　本実施形態では、キャプチャ領域を自動的に検出する領域自動検出モードが実行される。領域自動検出モードでは、例えば、ユーザ１が接触した実物体３がキャプチャ対象として自動的に識別される。そしてキャプチャ対象となる実物体３の表面の広がり、すなわち、ユーザ１が触れている実物体３の境界（周縁）を表す領域がキャプチャ領域として検出される。また、ユーザ１が触れている実物体３と関連する実物体３の境界（周縁）を表す領域がキャプチャ領域として検出されてもよい。例えばユーザ１が触れた書類の上面や背面等にある書類の境界がキャプチャ領域として検出されてもよい。あるいは、バインダ等で綴じられた一方の書類に触れた際に、他方の書類を含むようなキャプチャ領域が検出されてもよい。

　このように、領域自動検出モードでは、ユーザ１がどの面に触れようとしているのか、その面の広がりはどこまであるのかが検出される。これにより、ユーザ１が接触した面の範囲(書類２や、ホワイトボード等の範囲)を識別することが可能となる。キャプチャ領域を自動的に検出する方法等は限定されず、例えば物体検出や境界認識等が可能な任意の画像解析処理や、機械学習等による検出処理等が適宜用いられてよい。

　また本実施形態では、ユーザ１により指定されたキャプチャ領域を検出する領域手動指定モードが実行される。領域手動指定モードでは、例えば、ユーザ１が実物体３をなぞる動作等が適宜検出され、ユーザ１により指定された範囲がキャプチャ領域として検出される。領域自動検出モード及び領域手動指定モードについては、後に詳しく説明する。

　ＡＲ表示部３５は、ＨＭＤ１００の透過型ディスプレイ１２に表示されるＡＲ画像（仮想画像４）を生成し、その表示を制御する。例えば、ＨＭＤ１００の状態やユーザ１の状態等に応じて、ＡＲ画像を表示するさいの位置・形状・姿勢等を算出する。

　ＡＲ表示部３５は、１以上の撮影画像からキャプチャ領域に対応する部分画像を抽出して実物体３の仮想画像４を生成する。部分画像は、例えばキャプチャ領域に対応する撮影画像の一部が切り出して生成された画像である。この切り出された部分画像に基づいて、ＡＲ空間に表示するための仮想画像４が生成される。従って、仮想画像４は、ＡＲ空間に合わせて加工された部分画像であるとも言える。

　例えば、書類２やホワイトボード等の２次元的な広がりを持った実物体３がキャプチャされる場合、実物体３の表面に書かれた内容を表示する２次元的な広がりを持った仮想画像４が生成される。この場合、仮想画像４は、実物体３の２次元画像となる。

　またＨＭＤ１００では、立体的な形状の実物体３をキャプチャすることも可能である。例えば、ＡＲ空間において実物体３の立体的な形状を表すことが可能なように仮想画像４が生成される。この場合、仮想画像４は、実物体３の３次元画像となる。このように、ＡＲ表示部３５は、実物体３の形状に応じて仮想画像４を生成する。

　またＡＲ表示部３５は、遮蔽物により遮蔽されていない実物体３を表す仮想画像４を生成する。ここで遮蔽物により遮蔽された状態とは、実物体３の一部が遮蔽物（他の物体等）により隠されている状態である。例えば、実物体３にユーザ１の手が接触した状態で撮影された接触画像では、実物体３の一部がユーザ１の手で隠されることが考えられる。この場合、ユーザ１の手が実物体３を遮蔽する遮蔽物となる。

　本実施形態では、ＡＲ表示部３５により、実物体３が遮蔽されることなく、実物体３の全体が表示されるような仮想画像４が生成される。従って、仮想画像４は、キャプチャ対象となる実物体３全体を表すクリアな画像となる（図９等参照）。このような仮想画像４は、例えば遮蔽のない状態で実物体３が撮影された撮影画像から、部分画像が生成可能である。なお、実物体３の一部が遮蔽された仮想画像４が生成される場合もあり得る（図１６Ａ等参照）。

　ＡＲ表示部３５は、生成された仮想画像４を、実物体３と重なるように透過型ディスプレイ１２に表示する。すなわち、クリアな実物体３の画像（仮想画像４）が実物体３上に重畳表示される。また仮想画像４は、実物体３に接触しているユーザ１の手の動作（ハンドジェスチャー）等に合わせて表示される。例えば実物体３に触れる動作の種類（実物体３をタップする、こする等）ごとに、仮想画像４の表示の種類が変更される。このように、ＡＲ表示部３５は、ユーザ１の接触動作に応じて仮想画像４の表示を制御する。

　実物体３の仮想画像４を生成する方法や、仮想画像４を表示する方法等については、後に詳しく説明する。本実施形態では、ＡＲ表示部３５は、表示制御部に相当する。

　［ＨＭＤの動作］
　図４は、ＨＭＤ１００の動作の一例を示すフローチャートである。図４に示す処理は、領域自動検出モードで実行される処理であり、例えばＨＭＤ１００の動作中に繰り返し実行されるループ処理である。

　接触検出部３２により、ユーザ１の手指位置と、ユーザ１の手指の周辺に存在する実物体３の表面位置とが計測される（ステップ１０１）。ここでは、例えば手指の周辺に存在する任意の実物体３の表面の位置が計測される。なおこのタイミングでは、ユーザ１が触れようとしている実物体３が識別される必要はない。

　例えば、距離センサにより検出された奥行情報に基づいて、ＨＭＤ１００（距離センサ）に設定された座標系におけるユーザ１の手指の位置と実物体３の表面位置とが計測される。この場合、ユーザ１の手指とその周辺の実物体３との空間的な配置関係が計測されるとも言える。手指位置としては、例えば実物体３に向けられたユーザ１の指先が検出される。また表面位置としては、例えばユーザ１の手指の近くの実物体３の表面を表す形状等が検出される。

　また外向きカメラ１４によりユーザ１の視界が撮影されている場合等には、奥行情報と撮影画像とから、手指位置及び表面位置（手指と実物体との配置）が適宜検出されてもよい。外向きカメラ１４を用いることで、各位置の検出精度を向上することが可能である。この他、手指位置及び表面位置を検出する方法は限定されない。

　接触検出部３２により、ユーザ１の手指が、実物体３の表面に接触しそうであるか否かが判定される（ステップ１０２）。すなわち、ユーザ１の接触動作の状態が、接触が予測される接触前状態であるか否かが判定される。

　接触前状態の判定としては、例えば手指位置と表面位置との距離の閾値判定が実行される。すなわち、手指位置と表面位置との距離が、所定の閾値よりも大きいか否か等が判定される。所定の閾値は、例えば実物体３のキャプチャ処理が適正に実行可能となるように適宜設定される。

　例えばユーザ１の手指位置と実物体３の表面位置との距離が、所定の閾値よりも大きい場合には、ユーザ１の手指は実物体３から十分に離れているとして、接触前状態ではないと判定される（ステップ１０２のＮｏ）。この場合、ステップ１０１に戻り、次のタイミングでの手指位置及び表面位置が計測され、接触前状態であるか否かの判定が実行される。

　手指位置と表面位置との距離が、所定の閾値以下である場合には、ユーザ１の手指は実物体３に接近した状態であるとして、接触が予測される接触前状態であると判定される（ステップ１０２のＹｅｓ）。この場合、画像取得部３１により、外向きカメラ１４が制御され、キャプチャに適した設定で実空間の撮影が開始される（ステップ１０３）。すなわち、実物体３とユーザ１とのインタラクション発生が予測される際に、撮影モードを切り替えて詳細なキャプチャが開始される。

　具体的には、画像取得部３１により、外向きカメラ１４の撮影解像度、露光時間、撮影間隔等の各撮影パラメータが、キャプチャ用の値に設定される。キャプチャ用の値は、例えば所望の仮想画像４が生成可能なように適宜設定される。

　例えば、外向きカメラ１４が、ユーザ１の視界を常時撮影しているような構成では、画像のデータ量を抑えるようなモニタリング用の撮影解像度が設定される。このモニタリング用の撮影解像度が、より詳細なキャプチャ用の撮影解像度に変更される。すなわち、画像取得部３１は、接触動作の状態が、接触前状態であると判定された場合、外向きカメラ１４の撮影解像度を高くする。これにより、例えば解像度の高い詳細なキャプチャ画像（仮想画像４）を生成することが可能となる。

　また例えば、外向きカメラ１４の露光時間が、所望の明るさやコントラストの画像が撮影されるように適宜設定される。あるいは、後述するように十分な数の撮影画像が撮影可能となるように、撮影間隔が適宜設定される。

　外向きカメラ１４の各撮影パラメータがキャプチャ用の値に設定され、撮影モードが切り替えられると、外向きカメラ１４による実空間の撮影（ユーザ１の視界の撮影）が開始される。外向きカメラ１４により撮影された撮影画像は、画像取得部３１により適宜読み込まれる。なお、この撮影処理は、例えば仮想画像４を生成するための所定の条件が満たされるまで繰り返し実行される。

　図５は、ユーザ１の実物体３に対する接触動作の一例を示す模式図である。図５Ａには、接触前状態であると判定されたタイミングでのユーザ１の手指５及び実物体３（書類２）が模式的に図示されている。なお図５Ａに示す書類２が接触動作の対象（キャプチャ対象）であるか否かは、図５Ａに示す状態では識別されていない。

　図５Ａに示す状態では、外向きカメラ１４の撮影範囲（図中の点線）には、ユーザ１の手指５と、書類２の一部が含まれる。例えばこのような撮影範囲で、高解像度な撮影画像が撮影される。この場合、撮影画像は、書類２の一部のみが撮影された画像となる。

　図５Ｂには、図５Ａに示す状態よりもユーザ１の手指５が実物体３に接近した接触前状態が示されている。図５Ｂに示す状態では、外向きカメラ１４の撮影範囲に、書類２全体が含まれる。またユーザ１の手指５は、書類２に接触しておらず、書類２は遮蔽物による遮蔽のない状態で撮影される。すなわち、図５Ｂに示す状態で撮影された撮影画像は、遮蔽物により遮蔽されていない書類２（実物体３）が撮影された画像となる。

　図５Ｃには、ユーザ１の手指５と実物体３とが接触した接触状態が示されている。外向きカメラ１４による撮影処理は、接触状態においても継続される場合がある。この場合、外向きカメラ１４の撮影範囲に、書類２全体が含まれるが、書類２の一部はユーザ１の手指に遮蔽された状態となる。この場合、撮影画像は、書類２の一部が遮蔽された画像となる。

　外向きカメラ１４による撮影処理では、例えば図５Ａ～図５Ｃに示すような状態での撮影が実行され、各状態での撮影画像が適宜読み込まれる。このように、画像取得部３１は、接触動作の状態が、接触前状態であると判定された場合、外向きカメラ１４を制御して１以上の撮影画像を取得する。すなわち、画像取得部３１は、キャプチャ用の設定で撮影された映像（キャプチャ映像）を取得するともいえる。

　外向きカメラ１４によるキャプチャ用の撮影処理が実行される期間等は限定されない。例えば仮想画像４が生成されるまで、撮影処理が継続されてもよい。あるいは、所定回数の撮影処理が実行された場合に、撮影処理が終了されてもよい。また例えば、所定回数の撮影処理の後、仮想画像４の生成に必要な撮影画像がなかった場合等に、撮影処理を再開するといった処理が実行されてもよい。この他、仮想画像４を適正に生成可能となるように、撮影処理の回数やタイミング等が適宜設定されてよい。

　図４に戻り、キャプチャ用の撮影処理が開始されると、ユーザ１の手指５が実物体３の表面に接触したか否かが判定される（ステップ１０４）。すなわち、ユーザ１の接触動作の状態が、接触状態となっているか否かが判定される。

　接触状態の判定としては、例えば手指位置と表面位置との距離の閾値判定が実行される。例えば手指位置と表面位置との距離が、接触検出用の閾値よりも大きい場合、接触状態ではないと判定され、接触検出用の閾値以下の場合、接触状態であると判定される。接触状態を判定する方法は限定されない。

　例えば、図５Ａ及び図５Ｂでは、ユーザ１の手指５と実物体３（書類２）とが、接触検出用の閾値より離れている。この場合、ユーザ１の手指５は実物体３の表面に接触していないと判定され（ステップ１０４のＮｏ）、接触状態の判定が再度実行される。

　また例えば図５Ｃでは、ユーザ１の手指５と実物体３（書類２）との距離が接触検出用の閾値以下となっている。この場合、ユーザ１の手指５は実物体３の表面に接触していると判定され（ステップ１０４のＹｅｓ）、領域検出部３４により、ユーザ１の手指５が接触した表面の範囲（キャプチャ領域）を検出する処理が実行される（ステップ１０５）。

　図６は、領域自動検出モードにおけるキャプチャ領域の検出処理の一例を示す模式図である。図６には、ユーザ１の手指５が書類２（実物体３）に接触しているタイミングで撮影された撮影画像４０（接触画像４１）が模式的に図示されている。なお、ユーザ１の手指５は、点線を用いて模式的に図示されている。

　図６に示す例では、重なって配置されている複数の書類２のうち、最上部に置かれた書類２にユーザ１の手指５が接触している。従って、最上部の書類２が、ユーザ１の接触動作の対象、すなわちキャプチャ対象となる。

　本実施形態では、接触が検出された場合に、接触検出部３２により、実物体３とユーザ１の手との接触位置Ｐが検出される。例えば図６では、最上部の書類２に接触しているユーザ１の人差し指の指先の位置が、接触位置Ｐとして検出される。なお、ユーザ１が複数の指で実物体３に触れる場合には、実物体３に触れた各指の指先の位置等が接触位置Ｐとして検出されてもよい。

　図６に示す処理では、接触検出部３２により検出された接触位置Ｐに基づいてキャプチャ領域６が検出される。具体的には、領域検出部３４により、キャプチャ領域６として、接触位置Ｐを含む実物体３の境界７が検出される。ここで実物体３の境界７とは、例えば単一の実物体３の表面の外縁であり、実物体３の連続する表面の範囲を表す境目である。

　例えば接触画像４１において、接触位置Ｐは、最上部の書類２上で検出される。すなわち、最上部の書類２は、接触位置Ｐを含む実物体３となる。領域検出部３４では、所定の画像処理を実行して、最上部の書類２の境界７が検出される。すなわち、ユーザ１の手指５が触れている面の接触点（接触位置Ｐ）をヒントに画像処理によって連続する面の領域（キャプチャ領域６）が自動的に検出される。図６に示す例では、最上部の書類２の境界７に対応する矩形状のキャプチャ領域６が検出される。

　例えば、接触画像４１において色が不連続に変化する部位が境界７として検出される。あるいは、接触画像４１内の連続線（直線等や曲線等）を検出することで境界７が検出されてもよい。またキャプチャ対象が書類２等である場合には、書類表面の文字の並び等を検出することで、境界７が検出されてもよい。

　また例えば厚みのある書類２や、めくれている書類２等では、その外縁に影が発生することが考えられる。このような実物体３の影に基づいて、実物体３の境界７が検出されてもよい。これにより、背景と同色であるような実物体３についてもそのキャプチャ領域６を適正に検出することが可能である。

　またキャプチャ対象となる実物体３のサイズに基づいて、実物体３の境界７が検出されてもよい。実物体３のサイズは、例えば実空間におけるサイズであり、ユーザ１の手の大きさや、奥行情報等に基づいて適宜推定される。例えば、ユーザ１が手で持てるようなサイズの範囲が適宜設定され、その範囲に収まるように実物体３の境界７等が検出される。従って、例えば机に置かれた書類２（実物体３）に手を触れた場合には、机ではなく、書類２の境界７が検出される。これにより、不必要に大きいあるいは小さいサイズの境界等が検出されることが回避され、キャプチャ領域６を適正に検出することが可能となる。

　また例えば、書類２等のように形状が定まっている実物体３については、その形状に基づいて、実物体３の境界７が検出されてもよい。実物体３の形状は、例えば実空間における形状である。例えば斜めに撮影された接触画像４１に対して、台形補正等の補正処理を実行することで正面から見た場合の形状を推定することが可能である。例えば、アスペクト比等の形状に関する情報に基づいてＡ４形状やはがき形状等の書類２の境界７が検出される。なお、実物体３のサイズや形状に関する情報は、例えば外部のネットワーク等を介して取得されてもよいし、撮影画像データベース２１等に記憶された過去の撮影画像４０に基づいて取得されてもよい。この他、実物体３の境界７を検出可能な任意の方法が用いられてよい。

　図７は、領域自動検出モードにおけるキャプチャ領域の検出処理の他の一例を示す模式図である。図７に示す処理では、接触位置Ｐとユーザ１の注視位置Ｑとに基づいてキャプチャ領域６が検出される。すなわち、ユーザ１の手指５が触れようとしている面の広がりの検出のためにユーザ１の視線が用いられる。

　例えば、視線検出部３３により、接触画像４１が撮影されたタイミングで検出されたユーザ１の視線方向に基づいて、接触画像４１におけるユーザ１の注視位置Ｑが検出される。例えば図７に示すように、ユーザ１は、選択された実物体３（最上部の書類２）を視線でも同時に見ている可能性が高いため、ユーザ１の注視位置Ｑは、実物体３上で検出される可能性が高い。

　図７に示す処理では、領域検出部３４により、キャプチャ領域６として、接触位置Ｐ及び注視位置Ｑを含む実物体３の境界７が検出される。すなわち、接触位置Ｐと注視位置Ｑとが存在する連続した表面の境界７が検出される。境界７を検出する方法としては、例えば図６を参照して説明した各種の方法が用いられる。これにより、キャプチャ領域６（対象となる実物体３の境界７）の検出精度を大幅に向上することが可能となる。

　なお注視位置Ｑを用いる場合に限定されない。例えばユーザ１の視線方向に基づいてユーザの注視領域を算出し、接触画像４１において、接触位置Ｐと注視領域とが含まれる実物体３の境界７を検出するといった処理が実行されてもよい。この他、ユーザ１の視線方向等を利用した任意の方法を用いて、実物体３の境界７が検出されてよい。

　このように、領域検出部３４は、ユーザ１の視線方向に基づいて、実物体３の境界７を検出する。これにより、ユーザ１が接触しようとした対象を高精度に判定し、その境界７を適正に検出することが可能となる。この結果、ユーザ１が所望とする実物体３を適正にキャプチャすることが可能となり、装置の信頼性を向上することが可能となる。

　なお、ユーザ１が接触対象以外の場所を見ている場合等には、接触位置Ｐと注視位置Ｑとが同一の実物体３上で検出されないこともあり得る。このような場合、接触位置Ｐが含まれる実物体３の境界７がキャプチャ領域６として検出される。これにより、誤った領域が検出されるといった事態を十分に回避することが可能である。

　図６又は図７等に示す処理により検出されたキャプチャ領域６（実物体３の境界７）に関する情報は、ＡＲ表示部３５に出力される。

　本実施形態では、ＡＲ表示部３５は、キャプチャ領域６を表す領域画像４２を実物体３に重畳して表示する。例えば図６及び図７に示す例では、最上部の書類２の境界７を表す領域画像４２が生成され、最上部の書類２の境界７と重なるように、透過型ディスプレイ１２に表示される。この結果、ユーザ１は、これからキャプチャされる実空間上の領域を視覚することが可能となる。

　領域画像４２の具体的な構成は限定されない。例えば所定の色で表示された線等を用いて、キャプチャ領域６が表されてもよい。あるいは、キャプチャ領域６を表す線等が点滅等のアニメーションにより表示されてもよい。また、キャプチャ領域６全体が、透明性のある所定のパターン等を用いて表示されてもよい。

　なお、領域画像４２の表示は、例えばユーザ１（ＨＭＤ１００）の視点が変化した場合であっても、実物体３に重畳されるように、形状や表示位置等が適宜調整されて表示される。このように、ＡＲ表示で可視化されたキャプチャ領域６（矩形領域枠等）は、以下で説明するように、手動操作で修正される。

　図４に戻り、キャプチャ領域６が検出されると、キャプチャ領域６を修正するためのユーザ１の入力操作が受け付けられる（ステップ１０６）。すなわち、ステップ１０６では、ユーザ１は手動によりキャプチャ領域６を修正することが可能となる。

　図８は、キャプチャ領域６の修正処理の一例を示す模式図である。図８には、図６及び図７を参照して説明した接触画像４１と同様の画像が示されている。また最上部の書類２（実物体３）の境界７には、修正用の領域画像４２が模式的に図示されている。

　本実施形態では、領域画像４２は、形状、サイズ、及び位置の少なくとも１つを編集可能に表示される。ＨＭＤ１００では、例えばユーザ１の手指５の位置等を検出することで、表示画面（透過型ディスプレイ１２）上でのユーザ１による入力操作が検出される。領域画像４２は、このようなユーザ１の入力操作（修正操作）に応じて編集可能なように表示される。

　図８に示す例では、ユーザ１の左手の指先がキャプチャ領域６の左側の辺と重なる位置に配置される。またユーザ１の右手の指先がキャプチャ領域６の右側の辺と重なる位置に配置される。この場合、ＡＲ表示部３５では、キャプチャ領域６の左右の辺を選択するユーザ１の操作入力が受け付けられる。なお図８では、選択された左右の辺が点線を用いて図示されている。このように、各部が選択されたことを示すように、キャプチャ領域６の表示が適宜変更されてもよい。

　例えばユーザ１が左手を左側に動かし、右手を右側に動かした場合、キャプチャ領域６の左側の辺は左側にドラッグされ、右側の辺は右側にドラッグされる。この結果、可視化されたキャプチャ領域６は、ユーザ１が手で広げることにより左右方向に拡大され、サイズ及び形状が修正される。もちろん、キャプチャ領域６を上下方向に拡大することも可能である。

　またキャプチャ領域６の位置を修正可能であってもよい。例えばユーザ１がキャプチャ領域６の内側に手指５を配置してその手指５を動かした場合に、手指の移動方向や手指の移動量に応じてキャプチャ領域６を移動するといった修正操作が受け付けられてもよい。この他、領域画像４２は、ユーザ１のハンド操作に応じた任意の修正操作を受け付け可能となるように表示される。

　このように、キャプチャ領域６の検出処理によってキャプチャする実物体３の範囲が自動的に確定するが、この範囲を更に手動で修正することが可能である。これにより、キャプチャ領域６の微調整等を容易に実行することが可能となり、ユーザ１が所望とする範囲が適正に撮影された仮想画像４等を生成することが可能となる。ユーザ１による修正操作が終了すると、編集された領域画像４２に基づいてキャプチャ領域６が変更される。

　なお、キャプチャ領域６の修正（編集）が実行されている間にも、ステップ１０３で説明した、キャプチャ用の撮影画像４０の撮影処理が継続されていてもよい。この場合、キャプチャ用の外向きカメラ１４の設定を、編集後のキャプチャ領域６の撮影に最適な撮影パラメータに変更するといった処理が実行される。

　例えば、外向きカメラ１４が光学ズーム機能等を備えている場合には、編集後のキャプチャ領域６に合わせて、外向きカメラ１４の光学ズーム率等が適宜調整される。これにより、例えばキャプチャ領域６のサイズが小さい場合であっても、高解像度の仮想画像４等を生成することが可能となる。もちろん、他の撮影パラメータが変更されてもよい。

　なお、キャプチャ領域６を手動で修正する処理等が実行されなくてもよい。この場合、仮想画像４を表示するまでの時間を短縮することが可能となる。またキャプチャ領域６を修正するモード等が選択可能であってもよい。

　図４に戻り、外向きカメラ１４により撮影された撮影画像４０をもとに、仮想画像４が生成される（ステップ１０７）。具体的には、ステップ１０３で撮影された撮影画像４０（キャプチャ映像）から、キャプチャ領域６のクリアな部分画像が抽出される。そして、部分画像を用いて、キャプチャした実物体３の仮想画像４が生成される。

　本実施形態では、ＡＲ表示部３５により、外向きカメラ１４により撮影された１以上の撮影画像４０のうちキャプチャ領域６に遮蔽物が含まれない撮影画像４０から部分画像が生成される。すなわち、キャプチャ映像のうち、遮蔽物（ユーザ１の手指等）で遮蔽されてないフレームを用いて、キャプチャ領域６に対応する部分画像が生成される。

　例えば、接触前状態が検出されてから撮影された各撮影画像４０から、キャプチャ対象となる実物体３が検出される。キャプチャ対象となる実物体３は、例えば特徴点マッチング等を用いたマッチング処理を用いて適宜検出される。各撮影画像４０からキャプチャ対象を検出する方法等は限定されない。

　各撮影画像４０に含まれるキャプチャ対象となる実物体３が遮蔽されているか否かが判定される。すなわち、各撮影画像４０におけるキャプチャ領域６に遮蔽物が含まれているか否かが判定される。例えばキャプチャ対象となる実物体３の境界７が不連続に切れている場合等には、実物体３が遮蔽されていると判定される。また例えば、各撮影画像４０においてユーザ１の手指５を検出し、手指５がキャプチャ領域６に含まれている場合には実物体３が遮蔽されていると判定される。遮蔽の有無を判定する方法は限定されない。

　各撮影画像４０のうち、キャプチャ対象となる実物体３が遮蔽されていないと判定された撮影画像４０が選択される。このように、キャプチャ対象となる実物体３が遮蔽されていない撮影画像４０、すなわちキャプチャ対象となる実物体３がクリアに撮影されている撮影画像４０が、仮想画像４を生成するための画像として用いられる。

　図９は、仮想画像４の生成に用いられる撮影画像４０の一例を示す模式図である。図９に示す撮影画像４０は、図５Ｂに示す接触前状態で撮影された撮影画像４０を示す模式図である。

　図９に示す撮影画像４０では、キャプチャ対象となる実物体３である書類２全体が撮影されている。また書類２にはユーザ１の手指５で隠された部分等はなく、遮蔽物による遮蔽のないクリアな書類２の画像が含まれている。ＡＲ表示部３５により、このような撮影画像４０から、キャプチャ領域６に対応する部分画像４３が生成される。図９には、生成される部分画像４３（書類２）が斜線の領域で表されている。

　なお、各撮影画像４０の中には、キャプチャ領域６（実物体３）の一部が切れた画像（図５Ａ参照）や、キャプチャ領域６（実物体３）の一部が遮蔽された画像（図５Ｃ参照）等が含まれる場合がある。例えばこれらの画像のうち、キャプチャ領域６のクリアな部分を補完し合うことで、部分画像４３が生成されてもよい。例えばこのような処理も可能である。

　部分画像４３が生成されると、台形補正等の補正処理が実行される。例えば撮影画像４０が斜めの方向から撮影された場合には、矩形状の書類であっても台形状に変形して撮影されることがあり得る。このような変形が台形補正処理により補正され、例えば矩形状の部分画像４３が生成される。この他、部分画像４３のノイズ成分を除去するノイズ除去処理や、部分画像４３の色や明るさ（輝度）等を補正する処理等が適宜実行されてもよい。

　部分画像４３に基づいて、部分画像４３（キャプチャ対象となる実物体３）をＡＲ空間に表示するための仮想画像４が生成される。すなわち、平面的な部分画像４３を３次元的なＡＲ空間に表示するための仮想画像４が適宜生成される。

　このように、本実施形態では、実物体３とユーザ１の手指５との接触が予測される際に、外向きカメラ１４の撮影モードを切り替えて詳細な撮影画像４０が継続的に撮影される。そして、手指５の接触により、仮想世界に持ち込む実物体３(キャプチャ対象)が特定されたら、キャプチャ映像を遡り、ユーザ１の手指５が重なっていない映像（撮影画像４０）を用いて実物体３のクリアな仮想画像４が生成される。これにより、ユーザ１は、実物体３の高品質なコピー（仮想画像４）を簡単な操作で容易に作り出すことが可能となる。

　ＡＲ表示部３５により、仮想画像４が実物体３に重畳して表示される（ステップ１０８）。すなわち、ユーザ１は、キャプチャした実際の実物体３上に、重畳して表示された仮想画像４を視覚することが可能となる。実物体３のキャプチャ画像（仮想画像４）を実物体３上に表示することにより、例えばユーザ１は実物体３がＡＲ空間にコピーできたことを直感的に理解することが可能となる。

　実空間からコピーされた実物体３の仮想画像４は、ＡＲ空間で自在に扱うことが可能である。これにより、例えばユーザ１は、コピーされた仮想画像４を掴んで遠隔の相手に渡す等の動作を行うことが可能となる（図１参照）。このように、本技術を用いることで、実空間の情報を容易に仮想空間に持ち込むことが可能となる。

　図１０～図１３は、仮想画像４の表示の一例を示す模式図である。本実施形態では、接触検出部３２により、実物体３に触れるユーザ１の手のジェスチャーが検出される。ＡＲ表示部３５は、接触検出部３２により検出されたユーザ１の手のジェスチャーに応じて、仮想画像４の表示を制御する。

　すなわち、ユーザ１がキャプチャ対象を指定するさいの指定動作に合わせて、仮想画像４が実物体３に重畳される。以下では、図１０～図１３を参照して、ユーザ１の手のジェスチャー（ハンドジェスチャー）に応じたキャプチャ画像（仮想画像４）の重畳表示のバリエーションについて説明する。

　図１０に示す例では、ユーザ１が書類２（実物体３）をめくるハンドジェスチャーが行われる。例えば図１０の上側の図に示すように、ユーザ１が親指と一指し指とを開いた状態で、書類２の角に触れたとする。この場合、図１０の下側の図に示すように、ユーザ１の親指と人差し指との間で書類２の角がめくれているような表示となるように仮想画像４の表示が制御される。なお図１０に示す表示例は、図１Ｂに示す表示例と同様の例である。

　仮想画像４は、例えば接触位置Ｐの周辺がめくれた状態で、実際の書類２に重畳して表示される。これにより、仮想画像４が実際の紙と同様に表示され視覚効果が発揮される。この結果、ＡＲ空間においても、実際の書類２をめくっているような自然な仮想体験を提供することが可能となる。

　また例えば、仮想画像４は、ユーザ１の手指が接触した位置（書類２の角）の周辺にだけ表示されてもよい。この場合、ユーザ１が仮想画像４を掴む動作をした場合に、仮想画像４の全体が表示されるといった処理が実行される。

　このように、接触検出部３２により検出された接触位置Ｐに応じて、仮想画像４の表示が制御されてもよい。これにより、ユーザ１が実物体３（書類２）に接触した直後は、接触位置Ｐの周辺にだけ仮想画像４を表示すればよいため、画像処理の処理量等を抑制することが可能である。これにより、仮想画像４を違和感なくスムーズに表示することが可能となる。また不要な処理が回避されることで、ＨＭＤ１００の消費電力を抑制することが可能である。

　図１１に示す例では、ユーザ１が書類２（実物体３）の中央部分をつまんで引き上げるハンドジェスチャーが行われる。例えば図１１の上側の図に示すように、ユーザ１が親指と一指し指とで書類２をつまむ動作が行われると、仮想画像４の書類２（仮想物の紙）が、つまみあげられたような形状で、実際の書類２に重畳して表示される。

　また図１１の下側の図に示すように、ユーザ１が仮想画像４から手を離す動作をすると、その位置に仮想画像４はとどまる。この時、仮想画像４は、つまみあげられた形状から、平面形状に戻り、実際の書類２の上部に浮いた状態でとどまるように表示される。この場合、ユーザ１は、例えば宙に浮いて表示された仮想画像４を掴んで、移動させる等の動作が可能である。なお、ユーザ１が手を離した後に、仮想画像４が実際の書類２の直上まで、徐々に下降するといった表示が実行されてもよい。

　またつまむハンドジェスチャーにおいて、ＡＲ空間に実物体３（書類２等）が持ち込まれた際に、実空間に存在するキャプチャされた側の実物体３をグレーアウトしてもよい。すなわち、コピー元の実物体３をグレーで塗りつぶすといった処理が実行されてもよい。このように、実物体３をグレーアウトすることで、実物体３のクローンがＡＲ空間に生成されたことを、容易に提示することが可能となる。

　なお、キャプチャ後の物体、すなわちコピーされた仮想画像４に、ＡＲ上の仮想物であることが分かるようなマークが付加されてもよい。これにより、仮想画像４と実物体３とを容易に区別することが可能となる。なお、これらグレーアウトする処理やＡＲマークを付加する処理等は、他のハンドジェスチャーが実行される場合等にも適宜適用されてよい。

　図１２に示す例では、ユーザ１が書類２（実物体３）をタップするハンドジェスチャーが行われる。例えば図１２の上側の図に示すように、ユーザ１が実際の書類２の表面を指先で軽くたたいたとする。この場合、図１２の下側の図に示すように、仮想画像４は、実際の書類２が浮いたかのように、その上に重畳して表示される。この時、２次元的な仮想画像４が、実際の紙のように湾曲して浮き上がる等の効果が付加されてもよい。

　また、ユーザ１がタップする位置から仮想画像４が徐々に浮き上がって表示されるといった処理が実行されてもよい。また例えば、ユーザ１が実際の書類２を一瞬こするといったハンドジェスチャーが行われた場合に、こすった方向に向けて仮想画像４が浮き出すといった処理が実行されてもよい。

　図１３に示す例では、ユーザ１が筒形の実物体３を握るハンドジェスチャーが実行される。このような立体的な実物体３をキャプチャすることも可能である。例えば図１３の上側の図に示すように、ユーザ１が実物体３をつかむ、または強く握るとする。例えばユーザ１の手指５の配置等から実物体３に力が加わっている状態等が検出される。この場合、図１３の下側の図に示すように、筒型の実物体３がコピーされた仮想画像４が適宜生成され、仮想画像４が絞り出されるように、実物体３の近傍に徐々に表示される。

　この場合、仮想画像４は、立体的な実物体３を表す３次元画像となる。例えば立体的な実物体３（立体物）を３次元的にキャプチャする３Ｄキャプチャにより、３次元画像が生成される。３Ｄキャプチャでは、例えば外向きカメラ１４以外の他カメラも併用して、実物体３が撮影される。そして各カメラにより撮影された撮影画像４０や、距離センサにより検出された奥行情報等に基づいて、実物体３の３Ｄモデリングが実行される。なお、平面的な実物体３を撮影する場合でも、他のカメラを併用することは有り得る。

　キャプチャ済みの画像(３Ｄモデルを表す仮想画像４)の提示する場合には、モデリング等を実行するために、表示するまでに時間がかかる可能性がある。このような場合、最初は粗い仮想画像４(３Ｄモデル)を提示して、徐々に高精度なデータに差し替えてもよい。これにより、立体的な実物体３等がキャプチャされる場合であっても、高速に仮想画像４を表示させることが可能となる。

　図１４は、仮想画像の表示の他の一例を示す模式図である。図１４に示す例では、ユーザ１が書類２（実物体３）をタップするハンドジェスチャーに応じて、仮想画像４が表示される。図１４に示す例では、書類２の形状（キャプチャ領域６の形状）がコピーされた枠内に、処理中を示すアイコン４４が表示された仮想画像４が生成される。

　例えば、実物体３の仮想画像４を生成する際には、上記したように部分画像４３のノイズ除去や台形補正等の処理が実行される。これらの処理を実行することで、実物体３がキャプチャされた仮想画像４を生成するまでに、多少の時間が必要となる場合があり得る。このように、最終的な仮想画像４が生成されるまでの間、キャプチャ画像の代わりに、処理中を示すアイコン４４等が表示される。

　なお、最終的な仮想画像４が生成されると、処理中を示すアイコン４４から、実物体３がコピーされた最終的な仮想画像４へと表示が切り替えられる。アイコン４４の種類や、表示を切り替える方法等は限定されない。例えば最終的な仮想画像４が徐々に濃くなるようにフェードインさせるといった処理が実行されてもよい。

　上記では、実物体３の一例として、最上部に配置され遮蔽されていない書類２についてのキャプチャ処理について説明した。例えば、他の実物体３等に遮蔽されている実物体３についても、本技術は適用可能である。

　図１５は、遮蔽物のあるキャプチャ領域６の検出処理の一例を示す模式図である。図１６は、図１５に示す検出処理により生成される仮想画像４の一例を示す模式図である。

　図１５には、部分的に重なって配置された第１～第３の書類２ａ～２ｃが模式的に図示されている。第１の書類２ａは、最も背面側の書類であり、第２の書類２ｂにより部分的に遮蔽されている。第２の書類２ａは、第１及び第３の書類２ａ及び２ｃとの間に配置され、第３の書類２ｃにより、部分的に遮蔽されている。第３の書類２ｃは、最上部の書類であり、遮蔽されていない。

　例えば、ユーザ１の手指５が第２の書類２ｂの表面に接触したとする。この場合、領域検出部３４は、第２の書類２ｂの境界７を検出する。なお図１５に示すように、第２の書類２ｂの境界７の一部（図中の点線）は、第３の書類２ｃにより遮蔽されている。このように遮蔽された境界７は、例えば遮蔽されていない境界７（図中の太い実線）等に基づいて、適宜補完して検出される。

　このように、キャプチャ領域６の自動検出により、切り出す範囲（キャプチャ領域６）が確定するが、切り出す対象となる実物体３（第２の書類２ｂ）が部分的に隠れている場合がある。この場合、外向きカメラ１４により撮影された撮影画像４０では、目的とする実物体３の上に他の遮蔽物が乗っていて一部がキャプチャできないといったことが考えられる。

　ＡＲ表示部３５では、例えば図１６Ａ～図１６Ｃに示す方法で、遮蔽物により遮蔽された実物体３（第２の書類２ｂ）の仮想画像４が生成される。

　図１６Ａに示す例では、遮蔽物により遮蔽された状態をそのまま表す仮想画像４が生成される。例えば外向きカメラ１４により撮影された撮影画像４０から、キャプチャ領域６を含む撮影画像４０が適宜選択される。そして選択された撮影画像４０からキャプチャ領域６に対応する部分画像４３が生成されて、その部分画像４３を使った仮想画像４が生成される。

　従って、図１６Ａに示す仮想画像４は、第２の書類２ｂの一部が第３の書類２ｃにより遮蔽された状態を表す画像となる。このように、部分画像４３をそのまま使用することで、仮想画像４の生成処理を短縮することが可能となり、ユーザ１のインタラクションに対する応答速度等を向上することが可能となる。

　図１６Ｂに示す例では、遮蔽物により遮蔽された部分がグレーアウトされた仮想画像４が生成される。例えば、図１６Ａと同様に生成された部分画像４３から、実物体３の境界７が検出される。すなわち、部分画像４３に含まれる遮蔽物（第３の書類２ｃ）の境界７が検出される。そして、遮蔽物の境界７の内側がグレースケールで塗りつぶされた仮想画像４が生成される。このように不要な情報を塗りつぶすことで、明示的に欠損部位を提示することが可能となる。

　図１６Ｃに示す例では、遮蔽物により遮蔽された部分が他のデータにより補完された仮想画像４が生成される。例えば、第２の書類２ｂの表面の記載に基づいて、撮影画像データベース２１が参照され、第２の書類２ｂと類似する書類２が撮影された撮影画像４０等が検索される。類似する書類２の検索には、所定のマッチング処理等が用いられる。

　類似する書類２を含む撮影画像４０が検索された場合には、その撮影画像４０から、第３の書類２ｃにより遮蔽された欠損部位の部分画像４３ｂが生成される。そして、遮蔽されていない領域の部分画像４３ａと、欠損部位の部分画像４３ｂとを使用して、第２の書類２ｂの仮想画像４が生成される。従って、仮想画像４は、２つの部分画像４３ａ及び４３ｂを組み合わせた画像となる。

　このように、撮影画像データベース２１等に問い合わせて、対象となる書類２との類似文書から欠損部分が補完される。これにより、遮蔽物により遮蔽された実物体３がキャプチャ対象となる場合であっても、遮蔽のない状態の実物体３を表す仮想画像４を生成することが可能となる。なお、検索された類似文書が対象の書類２とは異なっている可能性もあるため、補完した領域は枠線（図中の点線）等を用いて明示的に表示される。これにより、仮想画像４が補完して生成されたことを知らせることが可能となる。

　図１７は、ＨＭＤ１００の動作の他の一例を示すフローチャートである。図１７に示す処理は、領域手動指定モードで実行される処理であり、例えばＨＭＤ１００の動作中に繰り返し実行されるループ処理である。以下では、ユーザ１が手動によりキャプチャ領域６を指定する場合（領域手動指定モード）の処理について説明する。

　図１７に示す、ステップ２０１～ステップ２０３では、例えば図４に示す領域自動検出モードでのステップ１０１～ステップ１０３とそれぞれ同様の処理が実行される。また、ステップ２０６～ステップ２０８では、ユーザ１により手動で指定されたキャプチャ領域６を用いて、例えば、図４に示すステップ２０６～ステップ２０８とそれぞれ同様の処理が実行される。

　ユーザ１の手指位置と実物体３の表面位置とが計測され（ステップ２０１）、ユーザ１の手指５が実物体３の表面に接触しそうか否かが判定される（ステップ２０２）。ユーザ１の手指５が表面に接触しそうではない（接触が予測される接触前状態ではない）と判定された場合（ステップ２０２のＮｏ）、再度ステップ２０１が実行される。

　ユーザ１の手指５が表面に接触しそうである（接触が予測される接触前状態である）と判定された場合（ステップ２０２のＹｅｓ）、外向きカメラ１４を用いてキャプチャに適した設定での撮影処理が開始される（ステップ２０３）。この撮影処理は、例えば仮想画像４が生成されるまで繰り返し実行される。

　撮影処理が開始されると、ユーザ１により指定されるキャプチャ領域６を検出する処理が実行される（ステップ２０４）。具体的には、ユーザ１の指先位置Ｒをトラッキングして、範囲指定の情報が取得される。また指定された範囲は、ＡＲ空間上に適宜表示される。

　図１８は、ユーザ１により指定されるキャプチャ領域６の一例を示す模式図である。図１８には、ユーザ１が実物体３である書類２の外周をなぞるように、一指し指（手指５）を移動している様子が模式的に図示されている。

　領域手動指定モードが実行される場合、接触検出部３２により、ユーザ１の手の指先位置Ｒが検出される。指先位置Ｒとしては、例えば、実物体３（書類２）に対して最も近い位置にあるユーザ１の手指５の先端位置が検出される。なお、ユーザ１の手指５は、実物体３の表面に接触していてもよいし、離れていてもよい。すなわち、ユーザ１の接触動作の状態が接触状態であるか、接触前状態であるかに係らず、ユーザ１の指先位置Ｒが適宜検出される。

　ユーザ１の指先位置Ｒの情報は、ユーザ１による範囲指定の情報として逐次記録される。図１７に示すように、ステップ２０４はループ処理となっており、例えばステップ２０４が実行される度に、ユーザ１の指先位置Ｒの情報が記録される。すなわち、ユーザ１の指先位置Ｒの軌跡８を記録する指先位置Ｒのトラッキング処理が実行されるとも言える。

　図１８には、ユーザ１の指先位置Ｒが黒丸を用いて模式的に図示されている。また指先位置Ｒをトラッキングして検出された指先位置Ｒの軌跡８が太い黒線を用いて模式的に図示されている。この、指先位置Ｒの軌跡８の情報が、ユーザ１による範囲指定の情報となる。

　またＡＲ表示部３５により、ユーザ１が指先でなぞった位置にはＡＲにより枠線等が表示される。すなわち、ユーザ１の指先位置Ｒの軌跡８がＡＲ空間上に表示される。従って、例えば図１８に示すように、ユーザ１は、自身の指先（手指５）がなぞった跡が実物体３に重畳して表示された状態を視覚することが可能となる。これにより、キャプチャ領域６の指定を容易に実行することが可能となり、ユーザビリティ―が向上する。

　図１７に戻り、ユーザ１による手動での範囲指定が完了したか否かが判定される（ステップ２０５）。例えば、ユーザ１により入力された範囲（指先位置Ｒの軌跡８）が閉じた範囲となったか否かが判定される。あるいは、ユーザ１の指先（手指５）が実物体３の表面から離れたか否かが判定される。この他、範囲指定の完了を判定する方法等は限定されない。例えば、ユーザ１のハンドジェスチャーやその他の入力操作に基づいて、範囲を指定する操作が終了されてもよい。

　手動での範囲指定が完了していないと判定された場合（ステップ２０５のＮｏ）、ステップ２０４が実行され、指先位置Ｒのトラッキング等が継続される。

　手動での範囲指定が完了したと判定された場合（ステップ２０５のＹｅｓ）、領域検出部３４により、ユーザ１により指定された範囲が、キャプチャ領域６として検出される。すなわち、ユーザ１の指先位置Ｒの軌跡８が、キャプチャ領域６に設定されるとも言える。

　このように、領域手動指定モードでは、領域検出部３４により、指先位置Ｒの移動に伴う指先位置Ｒの軌跡８に基づいてキャプチャ領域６が検出される。これにより、キャプチャ領域６を手動で指定することが可能となり、実空間内の任意の領域をキャプチャすることが可能となる。この結果、例えば自由度の高い仮想体験を容易に提供することが可能となる。

　範囲指定が完了してキャプチャ領域６が検出されると、手動によるキャプチャ領域６の修正を受け付ける処理が実行される（ステップ２０６）。キャプチャ領域６が修正されると、撮影画像４０からキャプチャ領域６がクリアに撮影された部分画像４３が適宜抽出され、部分画像４３に基づいて実物体３の仮想画像４が生成される（ステップ２０７）。生成された仮想画像４は、ユーザ１のハンドジェスチャー等に応じて、実物体３に重畳して適宜表示される。

　なお、手動により指定されたキャプチャ領域６に基づいて、仮想画像４を生成・表示する方法等は限定されず、例えば図１０～図１６等を参照して説明した方法が適用可能である。すなわち、上記した自動的に検出されたキャプチャ領域６についての説明は、手動で指定されたキャプチャ領域６についての説明として適宜読み替えることが可能である。

　なお、領域自動検出モード及び領域手動指定モードの各モードは、個別に実行されてもよいし、適宜切り替えて実行されてもよい。例えば、ユーザ１のハンドジェスチャーが、領域を指定するジェスチャーである場合には領域手動指定モードが実行され、実物体３をタップする等の他のジェスチャーである場合には領域自動検出モードが実行される。例えばこのような構成が採用されてもよい。

　以上、本実施形態に係るコントローラ３０では、実物体３に対してユーザが接触する際の一連の動作である接触動作が検出され、接触動作に応じて実物体３が含まれるキャプチャ領域６が検出される。このキャプチャ領域６に対応する部分画像４３が、実物体３が存在する実空間を撮影した撮影画像４０から抽出され、実物体３の仮想画像４が生成される。そしてユーザ１の接触動作に応じて仮想画像４の表示制御が実行される。これにより、実物体３がキャプチャされた仮想画像４を容易に表示させることが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　現実世界をキャプチャする方法として、例えば所定の入力操作に応じて自動的に現実世界を撮影するといった方法が考えられる。この方法では、例えばキャプチャする範囲を指定する操作等が必要となり、キャプチャ処理が煩わしくなる可能性がある。また入力操作が行われたタイミング等に合わせて自動的に撮影が実行されるため、例えば、キャプチャする範囲に遮蔽物等が含まれてしまう場合があり得る。この場合、画像を再度取り直すこと等が必要となり、ユーザの体験等を阻害する恐れが生じる。

　本実施形態では、実物体３に対するユーザ１の接触動作に応じて、キャプチャ領域６が検出される。これにより、例えばユーザ１が実物体３に触れることで、その実物体３をキャプチャするためのキャプチャ領域６が自動的に検出される。

　すなわち、ユーザ１が明示的にキャプチャ領域６等を設定しない場合であっても、所望の実物体３がキャプチャされた仮想画像４等を容易に生成する事が可能となる。この結果、ユーザ１はキャプチャ領域６を入力することなく、適正なキャプチャ画像（仮想画像４）を簡単に仮想空間に持ち込むことが可能となる。この結果、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　また本実施形態では、実空間が撮影された１以上の撮影画像４０から、キャプチャ領域６に対応する部分画像を抽出して、仮想画像４が生成される。これにより、例えば時間をさかのぼって、遮蔽の生じていない部分画像を取得し、遮蔽のない実物体３のクリアな仮想画像４等を生成することが可能となる。この結果、１回のキャプチャ処理で、所望の仮想画像４を適正に生成することが可能となり、撮り直し等が発生することを十分に回避することが可能となる。

　また、生成された仮想画像４は、ユーザ１の接触動作に応じて実物体３に重畳して表示される。このようにＨＭＤ１００では、接触動作（インタラクション）が発生した際に、直前キャプチャしておいた画像に基づいて生成された高精度な仮想画像４が提示される。また、仮想画像４の表示は接触動作の種類等に合わせて適宜制御される。これにより、ＡＲ空間等に実世界の実物体３を自然に持ち込むことが可能となる。この結果、実世界（実空間）から仮想世界（仮想空間）への物体の移動が容易となり、実世界と仮想世界のシームレスな連結を実現することが可能となる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　図４及び図１７を参照して説明した処理では、ユーザ１と実物体３との接触が予測される接触前状態が検出されてから、外向きカメラ１４によりキャプチャ用の設定で撮影処理が開始された（ステップ１０３、ステップ２０３）。キャプチャ用の撮影処理を実行するタイミングは限定されない。

　例えば接触前状態が検出されていない状態で、撮影処理が実行されてもよい。例えば、ユーザ１の周辺の接触の可能性がある物体を順次撮影（キャプチャ）して、接触に備えるといった撮影処理が実行されてもよい。

　また、ユーザ１が接触しようとしている実物体３が特定しきれない場合、ユーザ１が接触する可能性のある実物体３を投機実行的にキャプチャしてもよい。例えばＨＭＤ１００を装着したユーザ１が様々な方向に視線を向けることで、ユーザ１の周辺の様々な実物体３を撮影することが可能である。例えば、ユーザ１の周辺に存在する実物体３が外向きカメラ１４の撮影範囲に含まれた場合等に、キャプチャ用の撮影処理が投機的に実行される。

　これにより、ユーザ１の周辺の実物体３が撮影されたライブラリ等を撮影画像データベース２１内に構成することが可能となる。この結果、例えばユーザ１の接触動作の対象を直前に撮影することが難しいといった状況であっても、ユーザ１が触れた実物体３の仮想画像４を適正に生成することが可能となる。この他、撮影処理は、仮想画像４を生成する前の任意のタイミングで実行されてよい。

　また、キャプチャ失敗時には、例えばＨＭＤ１００が通信部１８等を介して接続可能なクラウド上のキャプチャ済みの物体データ等が検索されても良い。これにより、撮影画像データベース２１等に適切な撮影画像４０が含まれていなかった場合であっても、仮想画像４を生成することが可能となる。

　図１３では、ユーザ１が立体的な実物体３を掴むことで、実物体３の３次元的な形状を表す３次元画像（仮想画像４）が生成された。例えば、ジェスチャーの種類によってキャプチャの方法を、２Ｄキャプチャと３Ｄキャプチャとのどちらかに切り替えても良い。例えば、ユーザ１が実物体３をつまむジェスチャーをした場合は２Ｄキャプチャが実行され、ユーザ１が実物体３をつかむジェスチャーをした場合は３Ｄキャプチャが実行される。例えばこのような処理が実行されてもよい。

　上記の実施形態では、透過型のディスプレイを搭載した透過型のＨＭＤ１００が用いられた。これに限定されず、例えばユーザ１の視界を覆う没入型のＨＭＤが用いられる場合にも、本技術は適用可能である。

　図１９は、他の実施形態に係るＨＭＤの外観を模式的に示す斜視図である。ＨＭＤ２００は、ユーザ１の頭部に装着されるマウント部２１０と、ユーザ１の両眼の前方に配置される本体部２２０とを含む。ＨＭＤ２００は、ユーザ１の視野を覆うように構成された没入型のヘッドマウントディスプレイである。

　本体部２２０には、ユーザ１左右の眼に対向して配置されたディスプレイ（図示省略）が設けられる。このディスプレイに左眼用画像及び右眼用画像等が表示されることで、ユーザ１は仮想空間を視覚することが可能となる。

　また本体部２２０の外側には、外向きカメラ２２１が搭載される。この外向きカメラ２２１により撮影された画像を内部のディスプレイに表示することで、ユーザ１は実世界の映像を視認することが可能である。またディスプレイでは、外向きカメラにより撮影された画像に、各種の仮想画像４が重畳して表示される。これにより、拡張現実（ＡＲ）を用いた仮想体験を提供可能である。

　例えば、図３を参照して説明したコントローラ３０等を用いて、実物体３に対するユーザ１の接触動作や、キャプチャ領域６の検出、及びディスプレイでの仮想画像４等の表示制御等が実行される。これにより、ユーザ１が接触する実物体３をキャプチャした仮想画像４を容易に生成して、仮想空間に表示することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。

　図２０は、他の実施形態に係る携帯端末３００の外観を模式的に示す斜視図である。図２０の左側及び右側には、表示面３１０が設けられる携帯端末３００の表側、及び表側とは反対側の裏側がそれぞれ模式的に図示されている。携帯端末３００の表側には、内向きカメラ３２０が搭載され、裏側には外向きカメラ３３０が搭載される。

　例えば携帯端末３００の表示面３１０に、外向きカメラ３３０により撮影された実空間の画像が表示される。また表示面３１０には、実空間の画像に対して、様々な仮想画像４等が重畳して表示される。これにより、ユーザ１は実空間が拡張されたＡＲ空間を視覚することが可能となる。

　例えば、図３を参照して説明したコントローラ２０等を用いて、外向きカメラ３３０により撮影された画像から、ユーザ１の接触動作に応じて実物体３をキャプチャすることが可能である。これにより、実物体３を容易にＡＲ空間に持ち込むことが可能となる。このように、携帯端末３００等が用いられる場合にも、本技術は適用可能である。この他、タブレット端末やノート型ＰＣ等が用いられてもよい。

　また本技術は、仮想現実（ＶＲ）空間においても適用可能である。例えば、ＶＲ空間を視覚するユーザ１が実際に活動する実空間において、ユーザ１が接触した実物体３がキャプチャされる。これにより、ＶＲ空間内に、実空間の物体を容易に持ち込むことが可能となる。この結果、ＶＲ空間を体験しているユーザ間で、実物体３のクローン（仮想画像４）をやり取りするといったことが可能となり、コミュニケーションを活性化することが可能となる。

　上記ではＨＭＤ等に搭載されたコントローラにより、本技術に係る情報処理方法が実行される場合を説明した。しかしながらＨＭＤ等に搭載されたコントローラとネットワーク等を介して通信可能な他のコンピュータにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。またＨＭＤ等に搭載されたコントローラと、他のコンピュータとが連動して、本技術に係る仮想空間表示システムが構築されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばユーザの接触動作の検出や、実物体を含む対象領域の検出、仮想画像の生成、及び仮想画像の表示制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）実空間が撮影された１以上の撮影画像を取得する取得部と、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する動作検出部と、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出する領域検出部と、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する表示制御部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成する
　情報処理装置。
（３）（２）に記載の情報処理装置であって、
　前記表示制御部は、前記１以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成する
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記表示制御部は、前記仮想画像を前記実物体に重畳して表示する
　情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
　前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記１以上の撮影画像を取得する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含み、
　前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定し、
　前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記１以上の撮影画像を取得する
　情報処理装置。
（７）（６）に記載の情報処理装置であって、
　前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くする
　情報処理装置。
（８）（１）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
　前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出する
　情報処理装置。
（９）（８）に記載の情報処理装置であって、
　前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出する
　情報処理装置。
（１０）（９）に記載の情報処理装置であって、さらに、
　前記ユーザの視線方向を検出する視線検出部を具備し、
　前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出する
　情報処理装置。
（１１）（１０）に記載の情報処理装置であって、
　前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出し、
　前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出する
　情報処理装置。
（１２）（９）から（１１）のうちいずれか１つに記載の情報処理装置であって、
　前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも１つに基づいて、前記実物体の境界を検出する
　情報処理装置。
（１３）（１）から（１２）のうちいずれか１つに記載の情報処理装置であって、
　前記動作検出部は、前記ユーザの手の指先位置を検出し、
　前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出する
　情報処理装置。
（１４）（１）から（１３）のうちいずれか１つに記載の情報処理装置であって、
　前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示する
　情報処理装置。
（１５）（１４）に記載の情報処理装置であって、
　前記領域画像は、形状、サイズ、及び位置の少なくとも１つを編集可能に表示され、
　前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更する
　情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
　前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御する
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出し、
　前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御する
　情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記仮想画像は、前記実物体の２次元画像及び３次元画像の少なくとも１方である
　情報処理装置。
（１９）実空間が撮影された１以上の撮影画像を取得し、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出し、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出し、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）実空間が撮影された１以上の撮影画像を取得するステップと、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップと、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップと、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップと
　をコンピュータシステムに実行させるプログラム。

　１…ユーザ
　３…実物体
　４…仮想画像
　５…手指
　６…キャプチャ領域
　７…境界
　８…軌跡
　１２…透過型ディスプレイ
　１４…外向きカメラ
　２１…撮影画像データベース
　３０…コントローラ
　３１…画像取得部
　３２…接触検出部
　３３…視線検出部
　３４…領域検出部
　３５…ＡＲ表示部
　４０…撮影画像
　４２…領域画像
　４３、４３ａ、４３ｂ…部分画像
　１００、２００…ＨＭＤ

Claims

　実空間が撮影された１以上の撮影画像を取得する取得部と、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する動作検出部と、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出する領域検出部と、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する表示制御部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記表示制御部は、前記１以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記表示制御部は、前記仮想画像を前記実物体に重畳して表示する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記１以上の撮影画像を取得する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含み、
　前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定し、
　前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記１以上の撮影画像を取得する
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くする
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
　前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出する
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出する
　情報処理装置。
　請求項９に記載の情報処理装置であって、さらに、
　前記ユーザの視線方向を検出する視線検出部を具備し、
　前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出する
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出し、
　前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも１つに基づいて、前記実物体の境界を検出する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記動作検出部は、前記ユーザの手の指先位置を検出し、
　前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示する
　情報処理装置。
　請求項１４に記載の情報処理装置であって、
　前記領域画像は、形状、サイズ、及び位置の少なくとも１つを編集可能に表示され、
　前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
　前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出し、
　前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記仮想画像は、前記実物体の２次元画像及び３次元画像の少なくとも１方である
　情報処理装置。
　実空間が撮影された１以上の撮影画像を取得し、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出し、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出し、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する
　ことをコンピュータシステムが実行する情報処理方法。
　実空間が撮影された１以上の撮影画像を取得するステップと、
　前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップと、
　前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップと、
　前記１以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップと
　をコンピュータシステムに実行させるプログラム。