WO2022239543A1

WO2022239543A1 - 情報処理装置、情報処理方法および記憶媒体

Info

Publication number: WO2022239543A1
Application number: PCT/JP2022/015015
Authority: WO
Inventors: 岳成田; 智也石川; 高志瀬能
Original assignee: ソニーグループ株式会社
Priority date: 2021-05-11
Filing date: 2022-03-28
Publication date: 2022-11-17
Also published as: US20240221275A1; JPWO2022239543A1

Abstract

判定部は、実空間マップおよび現在の入力画像に基づいて、実空間マップに含まれない挿入オブジェクトを現在の入力画像が含むか否かを判定する。更新処理部は、現在の入力画像が挿入オブジェクトを含まないという判定結果に基づいて、現在の位置姿勢情報および過去の位置姿勢情報に従って実空間マップを更新する第１のマップ更新処理を実行し、現在の入力画像が挿入オブジェクトを含むという判定結果に基づいて、現在の位置姿勢情報に従って実空間マップを更新する、第１のマップ更新処理とは異なる第２のマップ更新処理を実行する。

Description

情報処理装置、情報処理方法および記憶媒体

　本開示は、情報処理装置、情報処理方法および記憶媒体に関する。

　従来、ＡＲ（Augmented　Reality）、ＶＲ（Virtual　Reality）やロボティクスにおいては、ユーザやロボットの周囲の環境を三次元でリアルタイムに更新することが行われている。

B.　Curless　and　M.　Levoy.　A　volumetric　method　for　building　complex　models　from　range　images.　In　ACM　Transactions　on　Graphics　(SIGGRAPH),　1996. Newcombe,　Richard　A.,　et　al.　"Kinectfusion:　Real-time　dense　surface　mapping　and　tracking."　ISMAR.　Vol.　11.　No.　2011.　2011. Lorensen,　William　E.,　and　Harvey　E.　Cline.　"Marching　cubes:　A　high　resolution　3D　surface　construction　algorithm."　ACM　siggraph　computer　graphics.　Vol.　21.　No.　4.　ACM,　1987. Fehr,　Marius,　et　al.　"TSDF-based　change　detection　for　consistent　long-term　dense　reconstruction　and　dynamic　object　discovery."　2017　IEEE　International　Conference　on　Robotics　and　automation　(ICRA).　IEEE,　2017. Oleynikova,　Helen,　et　al.　"Voxblox:　Incremental　3d　euclidean　signed　distance　fields　for　on-board　mav　planning."　2017　IEEE/RSJ　International　Conference　on　Intelligent　Robots　and　Systems　(IROS).　IEEE,　2017.

特表２０２０－５１２６４６号公報

　しかしながら、従来の技術では、実空間における現在のシーンに新たな物体が出現する等の変化が生じた場合に、実空間のマップを低遅延かつ高精度に更新する点で改善の余地があった。

　そこで、本開示では、低遅延かつ高精度にマップを更新することができる情報処理装置、情報処理方法および記憶媒体を提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、情報取得部と、判定部と、更新処理部とを備える。前記情報取得部は、記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する。前記判定部は、前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する。前記更新処理部は、前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する。

符号付距離場を説明するための図である。符号付距離場を説明するための図である。実施形態に係る情報処理装置の機能構成例を示すブロック図である。判定部による判定処理の概要を示す図である。クラスタである候補領域と挿入点群リストに含まれる挿入オブジェクトとの距離を算出する処理の目的を説明するための図である。注目画素および注目ボクセルを説明するための図である。更新処理部による更新処理の処理概要を示す図である。実施形態に係る情報処理装置によって実行される実空間マップの更新処理の処理手順を示すフローチャートである。実施形態に係る情報処理装置によって実行されるマップ更新処理の処理手順を示すフローチャートである。実施形態に係る情報処理装置によって実行される挿入オブジェクトの領域検出処理の処理手順を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．はじめに
　　２．本開示の概要
　　３．情報処理装置の機能構成
　　４．処理フロー
　　５．ハードウェア構成例
　　６．まとめ

＜＜１．はじめに＞＞
　ＡＲやＶＲ、ロボティクスにおいては、デプスセンサやステレオカメラ、測距センサ等のデバイスを用いて、ユーザやロボットの周囲の環境を三次元に再構成することが行われており、このような再構成をリアルタイムに行うことは重要である。

　例えば、屋内環境でユーザがＡＲやＶＲを行う場合や、ロボットが所定の範囲内を行動する場合、ユーザやロボットは、原則として同じ実空間を何度も訪れることになるため、以前に再構成を行った３次元のマップ（以下、３Ｄマップ）を再利用することが可能である。

　一方で、実空間に配置された家具や物体等の位置は日々変化しているために、以前に再構成を行ったシーンと比較すると、現在のシーンの一部に差異が生じる場合がある。従って、この差異を補償するためには、現在のシーンを上記デバイスによりセンシングした情報をもとに、再構成済みの３Ｄマップをリアルタイムに更新する技術が必要となる。

　シーンの再構成をリアルタイムに行う代表的なものとして、多視点の深度画像を符号付距離場に統合する方法がある（例えば、非特許文献１および２参照）。これらの方法は、リアルタイムでの処理が可能なことや、遮蔽や物理シミュレーションで重要なポリゴンメッシュの抽出（例えば、非特許文献３参照）が可能なことから、現在様々な場面で利用されている。

　ここで、図１および図２を用いて、符号付距離場について説明する。図１および図２は、符号付距離場を説明するための図である。図１は、実空間である３次元空間を格子状の配列に分割したボクセルＶを示す。ボクセルＶ全体は、単位要素である複数のボクセルＶにより構成される。符号付距離場は、図２に示すように、物体表面までの符号付距離（物体の外側が正、内側が負、物体表面がゼロとなる）と、符号付距離の信頼度を表す重みパラメータとを各ボクセルＶに格納して表される距離場である。そして、上記デバイスから深度画像と深度画像に対応したデバイスの姿勢が得られるたびに、時間的な移動平均に基づいて符号付距離場を逐次的に更新する。このように、非特許文献１および２では、移動平均を用いて多視点の深度画像を符号付距離場に統合することにより、３Ｄマップの再構成を行っている。

　しかしながら、上述した従来の技術では、以前に再構成を行った時点におけるシーンから現在のシーンまでに変化があった領域において、３Ｄマップの更新およびそのポリゴンメッシュの抽出に遅延が生じるという問題がある。これは、従来技術の符号付距離場の更新方法が移動平均に基づいているためであり、移動平均の特性に伴う遅効性により更新がシーンの変化に即座に追従できないためである。

　このような問題に対して、例えば、シーンに新たに出現する物体の３次元形状が事前に既知であることを前提とした解決法が考えられる。これは、予め登録された物体の形状データベースを参照して、深度画像から物体を検出し、さらにその物体姿勢を推定した後に、形状データベースに登録された形状データを用いて符号付距離場を更新するというものである。

　しかしながら、この方法では、シーンに挿入されうる物体の３次元形状が既知であるという強い前提条件を必要とするため、未知の形状の物体がシーンに出現した場合には、符号付距離場の更新が遅延する、もしくは、精度良く更新できないという課題がある。

　また、この他に、同一空間の異なる時刻における３Ｄスキャンに着目した文献として、非特許文献４がある。非特許文献４では、同一の部屋を異なる時刻にスキャンした２つ以上の３Ｄマップを入力として、その部屋の静的な領域の３Ｄモデルと、動的な領域の３Ｄモデルとに分離する方法が開示されている。しかしながら、非特許文献４は、オフライン環境下で、スキャン済みの複数のマップを入力として静的な領域と動的な領域とに事後的に分離することを目的としているものであり、リアルタイムで３Ｄマップを更新するものではない。

　また、特許文献１では、物体の位置変化が生じる環境において自己位置推定とマッピングとを行う方法が開示されている。特許文献１は、既知の物体データベースとのマッチング処理によりマッピングを行うため、未知の物体に対応できないことに加え、マップ表現方法として疎な特徴点マップを想定しており、密な３Ｄ再構成やメッシュの抽出を目的としたものではない。

＜＜２．本開示の概要＞＞
　そこで、本開示では、既知物体の形状データベースを用いることなく、上述した従来技術で生じる問題を解決する手法を提案する。なお、＜＜２．本開示の概要＞＞では、実施形態に係る情報処理装置１が実行する処理の概要を説明し、より詳細な処理については、＜＜３．情報処理装置の機能構成＞＞以降で後述する。

　本開示において、実施形態に係る情報処理装置１（図３参照）は、実空間マップに含まれない挿入オブジェクトを現在の入力画像が含むかどうかを判定し、判定結果に応じた実空間マップの更新処理を行う。

　例えば、実施形態に係る情報処理装置１は、現在の入力画像が挿入オブジェクトを含まないという判定結果に基づいて、現在の位置姿勢情報および過去の位置姿勢情報に従って実空間マップを更新する第１のマップ更新処理を実行する。第１のマップ更新処理は、例えば、現在の位置姿勢情報および過去の位置姿勢情報に基づいた移動平均により実空間マップを更新する更新処理である。

　一方、実施形態に係る情報処理装置１は、現在の入力画像が挿入オブジェクトを含むという判定結果に基づいて、現在の位置姿勢情報に従って実空間マップを更新する第２のマップ更新処理を実行する。第２のマップ更新処理は、第１のマップ更新処理とは異なる更新処理であり、過去の位置姿勢情報を用いずに、現在の位置姿勢情報に基づいて実空間マップを更新する更新処理である。

　つまり、実施形態に係る情報処理装置１は、現在の入力画像のうち、新たな挿入オブジェクトが存在しない領域に対しては第１のマップ更新処理を実行し、新たな挿入オブジェクトが存在する領域に対しては第２のマップ更新処理を実行する。

　これにより、情報処理装置１は、実空間マップのうち、挿入オブジェクトが存在しない領域については、現在の位置姿勢情報および過去の位置姿勢情報に基づいた移動平均による更新処理を行うことで、入力画像に含まれるノイズを低減しつつ高精度な更新を行うことができる。また、情報処理装置１は、実空間マップのうち、挿入オブジェクトが存在する領域については、現在の位置姿勢情報に基づいた更新処理を行うことで、新たに出現した挿入オブジェクトを即座に実空間マップに反映させる更新を行うことができる。このように、実施形態に係る情報処理装置１によれば、低遅延かつ高精度に実空間マップを更新することができる。

　以下、上述した実施形態に係る情報処理装置１の詳細について説明する。

＜＜３．情報処理装置の機能構成＞＞
　まず、図３を用いて、上述した情報処理装置１の機能構成例について説明する。図３は、実施形態に係る情報処理装置１の機能構成例を示すブロック図である。図３に示すように、実施形態に係る情報処理装置１は、制御部３と、記憶部４と、センサ１００と、姿勢検出部２００と、表示部３００とを備える。なお、図３では、センサ１００、姿勢検出部２００および表示部３００は、情報処理装置１の内部に組み込まれた構成を示しているが、センサ１００、姿勢検出部２００および表示部３００の少なくとも１つが情報処理装置１の外部に配置され、情報処理装置１に接続される構成であってもよい。

　センサ１００は、入力画像として深度画像を取得する。センサ１００は、例えば、ＴＯＦ(Time　of　Flight)方式の測距センサや、ステレオカメラ、ＬｉＤＡＲ（Light　Detection　and　Ranging）等の測距センサを含む。センサ１００は、実空間に存在する物体（挿入オブジェクト）までの距離を示す深度画像を生成して制御部３へ出力する。

　また、センサ１００は、入力画像として撮像画像を併せて取得してもよい。かかるセンサ１００は、例えば、ＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）イメージセンサや、ＣＣＤ（Charge　Coupled　Device）イメージセンサ等を含む。センサ１００は、取得した撮像画像を制御部３へ出力する。

　姿勢検出部２００は、入力画像の取得に用いたセンサ部２１の姿勢を任意のオドメトリを用いて検出して位置姿勢情報を取得する。例えば、姿勢検出部２２は、ＩＭＵセンサ等を用いて位置姿勢情報（例えば６Ｄｏｆ（Degrees　of　freedom））を取得して制御部３へ出力する。

　表示部３００は、ＬＣＤ（Liquid　Crystal　Display）等のディスプレイであり、制御部３から出力される情報を表示する。また、表示部３００は、ＡＲやＶＲ等の３次元の仮想オブジェクトを表示する機能を有してもよい。

　記憶部４は、例えば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図３に示す例では、記憶部４は、実空間マップ４１と、挿入点群リスト４２と、各種プログラムとを記憶する。

　実空間マップ４１は、入力画像に基づく実空間のマップ情報である。実空間マップ４１は、３次元のマップ情報であってもよく、２次元のマップ情報であってもよい。実空間マップ４１は、実空間である３次元空間を格子状の配列に分割したボクセルＶで表される。ボクセルＶ全体は、単位要素である複数のボクセルＶにより構成される。各ボクセルＶに物体表面までの符号付距離（物体の外側が正、内側が負、物体表面がゼロとなる）と、符号付距離の信頼度を表す重みパラメータとが格納される。

　挿入点群リスト４２は、挿入オブジェクトの点群（画素群）に関するリスト情報である。具体的には、挿入点群リスト４２は、現在の入力画像に含まれ、実空間マップ４１に含まれない新たに検出された挿入オブジェクトの点群の情報である。

　なお、挿入点群リスト４２の情報は、実空間マップ４１に含まれる構成であってもよい。つまり、実空間マップ４１の各ボクセルＶが挿入オブジェクトの領域であるか否かのラベルが付与される構成であってもよい。

　制御部３は、コントローラ（controller）であり、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、記憶部４に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部３は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現することができる。　

　制御部３は、情報取得部３１と、判定部３２と、更新処理部３３と、ＰＭ抽出部３４と、物理演算部３５、表示制御部３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。

　情報取得部３１は、各種情報を取得する。例えば、情報取得部３１は、実空間マップ４１を記憶部４から読み出す（取得する）。また、情報取得部３１は、センサ１００で取得された現在の入力画像を取得する。また、情報取得部３１は、現在の入力画像に対応するセンサ１００の現在の位置姿勢情報を姿勢検出部２００から取得する。具体的には、情報取得部３１は、現在の入力画像を取得した際に姿勢検出部２００によって検出されたセンサ１００の位置姿勢情報を現在の位置姿勢情報として取得する。

　また、情報取得部３１は、センサ１００で取得された過去の入力画像を取得する。例えば、情報取得部３１は、所定間隔でセンサ１００から取得される入力画像を記憶部４にバッファリングしておき、現在の入力画像の１つ以上前のフレームである入力画像を過去の入力画像として取得する。また、情報取得部３１は、過去の入力画像に対応するセンサ１００の過去の位置姿勢情報を姿勢検出部２００から取得する。具体的には、情報取得部３１は、過去の入力画像を取得した際に姿勢検出部２００によって検出されたセンサ１００の位置姿勢情報を過去の位置姿勢情報として取得する。

　判定部３２は、情報取得部３１によって取得された実空間マップ４１および現在の入力画像に基づいて、実空間マップ４１に含まれない挿入オブジェクトを現在の入力画像が含むか否かを判定する。

　ここで、図４を用いて、判定部３２による判定処理の処理概要について説明する。図４は、判定部３２による判定処理の概要を示す図である。図４において、「Ｌｉｖｅ」と記載された画像は、現在の入力画像に対応している。「Ｖｉｒｔｕａｌ」と記載された画像は、後述する仮想入力画像に対応している。「Ｉｎｓｅｒｔｅｄ」は、「Ｌｉｖｅ」から「Ｖｉｒｔｕａｌ」を減算した残差を示す画像であり、図４に示す例では、「Ｌｉｖｅ」で新たに出現した挿入オブジェクトである椅子が残差として抽出されている。つまり、判定部３２は、現在の入力画像から後述する仮想入力画像の情報を減算して、減算結果である残差から挿入オブジェクトの領域（図４の椅子の領域）の有無を判定する。

　まず、判定部３２は、現在の入力画像および実空間マップ４１に基づいて仮想入力画像を生成する。具体的には、判定部３２は、現在の入力画像に対応するセンサ１００の現在の位置姿勢情報と実質的に同じ位置姿勢情報を有する仮想入力画像を実空間マップ４１から生成する。仮想入力画像の生成は、例えば、レイマーチング法を用いる方法や、実空間マップ４１である３Ｄマップから抽出したポリゴンメッシュをグラフィックパイプラインを用いてレンダリングする方法等がある。本開示において、生成される仮想入力画像は、実空間マップ４１である３Ｄマップから仮想的に生成される二次元画像（２Ｄ画像）としてみなされてもよい。

　つづいて、判定部３２は、現在の入力画像と、生成した仮想入力画像とを用いて、残差マップを算出する。残差マップは、残差マップをＲ（ｕ）、現在の入力画像をＤ（ｕ）、仮想入力画像をＤ~（ｕ）として、下記式（１）により算出可能である。

　あるいは、残差マップは、仮想法線画像をＮ（ｕ）、現在の入力画像をセンサ１００の内部パラメータを用いて点群に変換した情報をＶ（ｕ）、仮想入力画像をセンサ１００の内部パラメータを用いて点群に変換した情報をＶ~（ｕ）として、下記式（２）により算出されてもよい。なお、仮想法線画像は、仮想入力画像を生成する際に同時に生成可能である。

　次に、判定部３２は、算出した残差マップに対して空間的なフィルタリング処理を行う。フィルタリング処理は、例えば、収縮と膨張とを組み合わせたオープニング処理を用いることができる。これにより、現在の入力画像および仮想入力画像に含まれるノイズに起因した残差マップに含まれるノイズを除去することができる。

　つづいて、判定部３２は、フィルタリング処理後の残差マップを予め設定された閾値により各画素を二値化した二値化画像を生成する。つづいて、判定部３２は、二値化画像を連結成分に基づいてクラスタリングする。このクラスタリングにより抽出されたクラスタは、二値化において値が同じ画素が連結している集合であり、挿入オブジェクトの候補領域となる。

　つづいて、判定部３２は、抽出したクラスタである候補領域について、真に挿入オブジェクトの領域であるか否かを判定する。

　まず、判定部３２は、抽出したクラスタである候補領域と、挿入点群リスト４２に含まれる挿入オブジェクトとの距離を算出する。なお、かかる距離を算出する目的については、図５で後述する。

　まず、判定部３２は、センサ１００の内部パラメータを用いて、クラスタを構成する各画素の深度を点群に変換する。つづいて、判定部３２は、記憶部４に記憶されている挿入点群リスト４２を参照して、挿入点群リスト４２に含まれる各点群Ｐ_ｉ＝｛ｐ_ｉ｝_ｉと、クラスタの点群Ｐ_ｊ＝｛ｐ_ｊ｝_ｊとの距離ｄを算出する。距離ｄは、例えば、下記式（３）のようなユークリッド距離を用いることができる。

　あるいは、距離ｄは、下記式（４）のようにクラスタの点群の分布を考慮したマハラノビス距離を用いてもよい。なお、下記式（４）におけるΣ_ｊはクラスタの点群Ｐ_ｊの分散共分散行列であり、Ｐ^－ _ｊはクラスタの点群Ｐ_ｊの重心である。

　そして、判定部３２は、距離ｄが予め設定された閾値未満であるクラスタについては、かかるクラスタが過去に検出された挿入オブジェクトと同じであると判定する、より詳細には、過去に検出された挿入オブジェクトを異なる角度（あるいは同じ角度）から検出された点群であると判定する。つまり、判定部３２は、距離ｄが予め設定された閾値未満である場合、かかるクラスタは挿入点群リスト４２に既に登録された挿入オブジェクトの点群であり、現在の入力画像において新たに検出された挿入オブジェクトではないと判定する。そして、判定部３２は、かかるクラスタに基づいて、挿入点群リスト４２に既に登録された挿入オブジェクトの情報を更新する。

　一方、判定部３２は、距離ｄが予め設定された閾値以上であるクラスタについては、かかるクラスタが現在の入力画像において新たに検出された挿入オブジェクトであるか、または、残差マップのノイズによって発生した外れ値のいずれかであると判定する。

　そして、判定部３２は、距離ｄが予め設定された閾値以上であるクラスタについて、かかるクラスタの画素数が予め設定された閾値未満である場合には、上記した外れ値であると判定し、挿入オブジェクトの領域から除外する。

　一方、判定部３２は、距離ｄが予め設定された閾値以上であるクラスタについて、かかるクラスタの画素数が予め設定された閾値以上である場合には、現在の入力画像において新たに検出された挿入オブジェクトの領域であると判定し、挿入点群リスト４２に新たな挿入オブジェクトの領域として登録する。

　すなわち、判定部３２は、抽出されたクラスタについて、距離が閾値以上、かつ、クラスタの画素数が閾値以上である場合に、実空間マップ４１に含まれない挿入オブジェクトを現在の入力画像が含むと判定する。

　また、判定部３２は、抽出したすべてのクラスタについて、距離が閾値未満、または、クラスタの画素数が閾値未満のいずれかであった場合には、実空間マップ４１に含まれない挿入オブジェクトを現在の入力画像が含まないと判定する。

　次に、図５を用いて、抽出したクラスタである候補領域と、挿入点群リスト４２に含まれる挿入オブジェクトとの距離を算出する処理の目的について説明する。

　図５は、クラスタである候補領域と挿入点群リスト４２に含まれる挿入オブジェクトとの距離を算出する処理の目的を説明するための図である。かかる処理は、換言すれば、前回検出された挿入オブジェクトの領域を挿入点群リスト４２にバッファリングしておき、今回検出された候補領域と比較する処理である。図５では、所定の挿入オブジェクトＯＢをセンサ１００によって時刻ｔ－１および時刻ｔの２フレームに亘って検出する場合を考える。

　かかる場合、時刻ｔ－１では、挿入オブジェクトＯＢの領域ＯＢｔ－１が検出され、実空間マップ４１が更新されることとなる。次に、時刻ｔでは、領域ＯＢｔが検出されるが、実空間マップ４１の更新により、領域ＯＢｔのうち、領域ＯＢｔ－１の部分についてはゼロ交差面が生じるため、時刻ｔでは、上記した残差マップの値が閾値以上となるのは領域Ｒｔのみとなる。

　このように、連続するフレームで挿入オブジェクトＯＢを計測した場合、両フレームで計測された領域ＯＢｔ－１、ＯＢｔの多くがオーバーラップするため、残差マップの値が大きくなる領域Ｒｔは、領域ＯＢｔ－１と比較して小さくなると考えられる。

　このため、仮に、挿入点群リスト４２でのバッファリングを行わなかった場合、すなわちクラスタが挿入オブジェクトの領域であるかの判定をクラスタの画素数だけで行う場合、領域Ｒｔが残差マップのノイズによって生じた外れ値なのか、既に一部の計測を行った挿入オブジェクトの領域なのかを区別することが困難である。

　なぜなら、クラスタの画素数の閾値を大きくした場合には、領域Ｒｔの画素数が閾値未満の外れ値と誤判定し、一方で閾値を小さくした場合には、対象のクラスタについては挿入オブジェクトの領域と判定できる背反で、ノイズによって生じた他のクラスタを挿入オブジェクトの領域として誤判定してしまう可能性が高くなるからである。

　これに対して、上述したように、挿入点群リスト４２へのバッファリングを行った場合、挿入点群リスト４２とクラスタの点群との距離ｄを計算することにより、図５に示す領域Ｒｔが既に計測された挿入オブジェクトＯＢの領域の一部であると判定できる。

　すなわち、既に計測した挿入オブジェクトＯＢをわずかに異なる角度から計測することで生じた小さなクラスタ（図５に示す領域Ｒｔ)ついては確実に挿入オブジェクトＯＢの領域であると判定できると同時に、外れ値である他の小さなクラスタについては画素数の閾値処理によって除外することが可能となる。

　このように、前回検出した挿入オブジェクトの領域を挿入点群リスト４２にバッファリングし、今回検出したクラスタと比較することによって、挿入オブジェクトの領域の検出精度を高めることができる。

　なお、図５に示す例の場合、挿入点群リスト４２に登録された挿入オブジェクトＯＢの領域は、領域ＯＢｔ－１に領域Ｒｔを結合した領域に更新される。

　更新処理部３３は、判定部３２による挿入オブジェクトの判定結果に応じて、異なるマップ更新処理を行う。具体的には、更新処理部３３は、判定部３２によって現在の入力画像が新たな挿入オブジェクトを含まないという判定結果に基づいて第１のマップ更新処理を実行し、現在の入力画像が新たな挿入オブジェクトを含むという判定結果に基づいて第２のマップ更新処理を実行する。

　第１のマップ更新処理は、現在の位置姿勢情報および過去の位置姿勢情報に従って実空間マップ４１を更新する更新処理を実行する。また、第２のマップ更新処理は、過去の位置姿勢情報を用いずに、現在の位置姿勢情報に従って実空間マップ４１を更新する更新処理である。

　まず、更新処理部３３は、現在の入力画像の各画素（注目画素）について、センサ１００中心からレイキャストを行い、レイが交差するボクセル（注目ボクセル）を取得する。

　図６は、注目画素および注目ボクセルを説明するための図である。図６に示すように、センサ１００の現在の位置姿勢情報に基づく入力画像により物体表面に対応する点（深度）が得られた場合、かかる点を注目画素ＩＰとして決定する。そして、注目画素ＩＰとセンサ１００とを通る線をレイとして、レイが交差するボクセルを注目ボクセルＩＶとして決定する。図６に示す例では、色付きのボクセルがすべて注目ボクセルＩＶとなっており、色が薄いほど注目画素ＩＰに近いことを示している。

　そして、更新処理部３３は、図７に示すように、注目画素ＩＰおよび注目ボクセルＩＶを用いて、第１のマップ更新処理または第２のマップ更新処理を行う。図７は、更新処理部３３による更新処理の処理概要を示す図である。図７に示す例では、新たな挿入オブジェクトが挿入された例を示している。

　図７に示すように、現在の入力画像に新たな挿入オブジェクトが挿入された場合、センサ１００により挿入オブジェクトの物体表面が深度として検出され、検出された深度が注目画素ＩＰとなり、注目画素ＩＰにより注目ボクセルＩＶが抽出される。そして、更新処理部３３は、抽出した注目ボクセルＩＶのうち、挿入オブジェクトに対応した注目ボクセルＩＶについては第２のマップ更新処理を行い、挿入オブジェクトに対応しない注目ボクセルＩＶについては第１のマップ更新処理を行う。

　具体的には、更新処理部３３は、注目画素および注目ボクセルを用いて２つの判定処理を行い、２つの判定処理の判定結果に応じて第１のマップ更新処理または第２のマップ更新処理を行う。

　更新処理部３３は、１つ目の判定処理として、注目画素が挿入オブジェクトの領域であるか否かを判定する。具体的には、更新処理部３３は、注目画素が、挿入点群リスト４２に新たに登録された挿入オブジェクトの領域に含まれる画素であるか否かを判定する。また、更新処理部３３は、２つ目の判定処理として、注目ボクセルと注目する入力画像の計測点（注目画素ＩＰ）との距離が予め設定された閾値未満であるか否かを判定する。

　更新処理部３３は、これら２つの判定処理のうち、いずれかが条件を満たさない場合、注目ボクセルが占める空間が以前に実空間マップ４１を生成（更新）した時点から大きく変化していないと考えられるため、第１のマップ更新処理を実行する。すなわち、更新処理部３３は、注目画素が挿入オブジェクトの領域でない場合、または、注目ボクセルと注目する入力画像の計測点との距離が閾値以上である場合、移動平均である下記式（５）および式（６）を用いて第１のマップ更新処理を実行することで、実空間マップ４１におけるボクセルの符号付距離および重みパラメータを更新する。

　上記式（５）および式（６）において、Ｄ_ｔ－１（ｖ）およびＷ_ｔ－１（ｖ）は、更新前の符号付距離および重みパラメータであり、ｄ_ｔ（ｖ，ｕ）およびｗ_ｔ（ｖ，ｕ）は、現在の入力画像および現在の位置姿勢情報に基づいて算出した符号付距離および重みパラメータである。

　一方、更新処理部３３は、２つの判定処理のいずれの条件も満たす場合、以前に実空間マップ４１を生成（更新）した時点と比較して、新たな物体が挿入されたことにより注目ボクセルが占める空間に変化が生じたと考えられるため、第２のマップ更新処理を実行する。すなわち、更新処理部３３は、注目画素が挿入オブジェクトの領域であり、かつ、注目ボクセルと注目する入力画像の計測点との距離が閾値未満である場合、下記式（７）および式（８）を用いて第２のマップ更新処理を実行することで、実空間マップ４１におけるボクセルの符号付距離および重みパラメータを更新する。

　この式（７）および式（８）は、センサ１００から取得される現在のシーンに関する入力画像を実空間マップ４１に即時的に反映させることを意味する。このように，注目ボクセルについて挿入オブジェクトが占める空間であるかを明示的に判定し、更新方法を適応的に切り替えることによって、第１のマップ更新処理が持つノイズ低減の効果と、第２のマップ更新処理が持つ即時性を両立させることが可能となる。すなわち、低遅延かつ高精度なマップ更新を実現できる。

　ＰＭ抽出部３４は、更新処理部３３によって更新された実空間マップ４１から挿入オブジェクト毎にポリゴンメッシュを抽出する。具体的には、ＰＭ抽出部３４は、実空間マップ４１における符号付距離がゼロであるボクセルを挿入オブジェクト毎に抽出し、抽出したボクセルに基づいて挿入オブジェクト毎のポリゴンメッシュを抽出する。

　物理演算部３５は、ＰＭ抽出部３４によって抽出されたポリゴンメッシュに基づいて、ＡＲや、ＶＲ、ロボット等の動作に関する各種演算を行い、演算結果をＡＲや、ＶＲ、ロボットに反映する。

　表示制御部３６は、ＰＭ抽出部３４によって抽出されたポリゴンメッシュに基づいて、ＡＲや、ＶＲに関する表示の演算を行い、演算結果を表示部３００に反映する。

＜＜４．処理フロー＞＞
　次に、図８を用いて、実施形態に係る情報処理装置１によって実行される実空間マップの更新処理の処理手順について説明する。図８は、実施形態に係る情報処理装置１によって実行される実空間マップの更新処理の処理手順を示すフローチャートである。

　図８に示すように、制御部３は、記憶部４に記憶された実空間マップ４１を読み込む（ステップＳ１０１）。

　つづいて、制御部３は、実空間マップ４１に対応した挿入オブジェクトの点群に関する空の挿入点群リスト４２を記憶部４に生成する（ステップＳ１０２）。

　つづいて、制御部３は、現在の入力画像と、現在の入力画像に対応するセンサ１００の現在の位置姿勢情報を取得する（ステップＳ１０３）。

　つづいて、制御部３は、現在の入力画像、現在の位置姿勢情報および実空間マップ４１に基づいて、現在の入力画像に含まれる新たな挿入オブジェクトの領域を検出する（ステップＳ１０４）。

　つづいて、制御部３は、検出した挿入オブジェクトの領域に対応する点群を挿入点群リスト４２に登録する（ステップＳ１０５）。

　つづいて、制御部３は、現在の入力画像の各画素について、挿入オブジェクトの領域に含まれる画素か否かに基づいて、実空間マップ４１を更新する（ステップＳ１０６）。

　つづいて、制御部３は、更新した実空間マップ４１からポリゴンメッシュを抽出する（ステップＳ１０７）。

　つづいて、制御部３は、マッピングを終了したか否かを判定し（ステップＳ１０８）、マッピングを終了した場合（ステップＳ１０８：Ｙｅｓ）、実空間マップ４１を記憶部４に保存し（ステップＳ１０９）、処理を終了する。一方、制御部３は、マッピングを終了していない場合（ステップＳ１０８：Ｎｏ）、ステップＳ１０３に戻る。

　次に、図９を用いて、実施形態に係る情報処理装置１によって実行されるマップ更新処理の処理手順について説明する。図９は、実施形態に係る情報処理装置１によって実行されるマップ更新処理の処理手順を示すフローチャートである。

　まず、図９に示すように、制御部３は、入力画像の各画素について、センサ１００中心からレイキャスティングを行う（ステップＳ２０１）。

　つづいて、制御部３は、レイが交差するボクセルを取得する（ステップＳ２０２）。

　つづいて、制御部３は、注目画素が挿入オブジェクトの領域であるか否かを判定する（ステップＳ２０３）。

　制御部３は、注目画素が挿入オブジェクトの領域である場合（ステップＳ２０３：Ｙｅｓ）、注目ボクセルと計測点との距離が閾値以内であるか否かを判定する（ステップＳ２０４）。

　制御部３は、注目ボクセルと計測点との距離が閾値以内である場合（ステップＳ２０４：Ｙｅｓ）、第２のマップ更新処理によりボクセルを更新する（ステップＳ２０５）。

　一方、制御部３は、注目画素が挿入オブジェクトの領域でない場合（ステップＳ２０３：Ｎｏ）、または、注目ボクセルと計測点との距離が閾値以内でない場合（ステップＳ２０４：Ｎｏ）、第１のマップ更新処理によりボクセルを更新する（ステップＳ２０６）。

　つづいて、制御部３は、第１のマップ更新処理または第２のマップ更新処理の後、レイキャスティングを継続するか否かを判定し（ステップＳ２０７）、継続する場合には（ステップＳ２０７：Ｙｅｓ）、ステップＳ２０２に戻る。

　一方、制御部３は、レイキャスティングを継続しない場合（ステップＳ２０７：Ｎｏ）、各画素についてのマップ更新処理が完了した場合、処理を終了する。なお、制御部３は、各画素についてのマップ更新処理が完了していない場合、完了するまで、ステップＳ２０１～Ｓ２０７を繰り返し実行する。

　次に、図１０を用いて、実施形態に係る情報処理装置１によって実行される挿入オブジェクトの領域検出処理の処理手順について説明する。図１０は、実施形態に係る情報処理装置１によって実行される挿入オブジェクトの領域検出処理の処理手順を示すフローチャートである。

　図１０に示すように、まず、制御部３は、実空間マップ４１から仮想深度画像（過去の入力画像）を合成する（ステップＳ３０１）。

　つづいて、制御部３は、センサから取得した深度画像（現在の入力画像）と、過去の入力画像との残差マップを算出する（ステップＳ３０２）。

　つづいて、制御部３は、残差マップに対してフィルタリングを施す（ステップＳ３０３）。

　つづいて、制御部３は、フィルタリング後の残差マップを二値化およびクラスタリングする（ステップＳ３０４）。

　つづいて、制御部３は、各クラスタについて、クラスタが挿入点群リスト４２に登録された点群から閾値以内の距離に存在しているか否かを判定する（ステップＳ３０５）。

　制御部３は、クラスタが挿入点群リスト４２に登録された点群から閾値以内の距離に存在している場合（ステップＳ３０５：Ｙｅｓ）、クラスタに含まれる画素を挿入オブジェクトの領域に指定する（ステップＳ３０６）。

　つづいて、制御部３は、クラスタ内の点群を挿入点群リスト４２に追加し（ステップＳ３０７）、各クラスタについて、上記した処理が完了した場合、処理を終了する。なお、制御部３は、各クラスタについて上記した処理が完了していない場合、完了するまで、ステップＳ３０５～Ｓ３０８を繰り返し実行する。

　なお、ステップＳ３０５において、制御部３は、クラスタが挿入点群リスト４２に登録された点群から閾値以内の距離に存在していない場合（ステップＳ３０５：Ｎｏ）、クラスタの画素数が閾値以上であるか否かを判定する（ステップＳ３０８）。

　制御部３は、クラスタの画素数が閾値以上である場合（ステップＳ３０８：Ｙｅｓ）、ステップＳ３０６に移行する。すなわち、新たな挿入オブジェクトの領域として指定する。

　一方、制御部３は、クラスタの画素数が閾値未満である場合（ステップＳ３０８：Ｎｏ）、クラスタをノイズとして検出するとともに、次のクラスタの処理へ移行する。

＜＜５．ハードウェア構成例＞＞
　続いて、図１１を参照して、本実施形態に係る情報処理装置１等のハードウェア構成の一例について説明する。図１１は、本実施形態に係る情報処理装置１のハードウェア構成の一例を示すブロック図である。　

　図１１に示すように、情報処理装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３、ホストバス９０５、ブリッジ９０７、外部バス９０６、インタフェース９０８、入力装置９１１、出力装置９１２、ストレージ装置９１３、ドライブ９１４、接続ポート９１５、及び通信装置９１６を備える。情報処理装置１は、ＣＰＵ９０１に替えて、又はこれと共に、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を備えてもよい。　

　ＣＰＵ９０１は、演算処理装置、及び制御装置として機能し、各種プログラムに従って情報処理装置１内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラム及び演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラム、及びその実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、情報取得部３１、判定部３２、更新処理部３３、ＰＭ抽出部３４、物理演算部３５および表示制御部３６の機能を実行してもよい。　

　ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０５により相互に接続されている。ホストバス９０５は、ブリッジ９０７を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０６に接続されている。なお、ホストバス９０５、ブリッジ９０７、及び外部バス９０６は、必ずしも分離構成されなくともよく、１つのバスにこれらの機能が実装されてもよい。　

　入力装置９１１は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ又はレバー等のユーザによって情報が入力される装置である。または、入力装置９１１は、赤外線又はその他の電波を利用したリモートコントロール装置であってもよく、情報処理装置１の操作に対応した携帯電話又はＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９１１は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成する入力制御回路などを含んでもよい。　

　出力装置９１２は、情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置である。出力装置９１２は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ装置、レーザープロジェクタ、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）プロジェクタ又はランプ等の表示装置であってもよく、スピーカ又はヘッドホン等の音声出力装置等であってもよい。　

　出力装置９１２は、例えば、情報処理装置１による各種処理にて得られた結果を出力してもよい。具体的には、出力装置９１２は、情報処理装置１による各種処理にて得られた結果を、テキスト、イメージ、表、又はグラフ等の様々な形式で視覚的に表示してもよい。または、出力装置９１２は、音声データ又は音響データ等のオーディオ信号をアナログ信号に変換して聴覚的に出力してもよい。入力装置９１１及び出力装置９１２は、例えば、インタフェースの機能を実行してもよい。　

　ストレージ装置９１３は、情報処理装置１の記憶部４の一例として形成されたデータ格納用の装置である。ストレージ装置９１３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現されてもよい。例えば、ストレージ装置９１３は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出装置、及び記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置９１３は、ＣＰＵ９０１が実行するプログラム、各種データ及び外部から取得した各種のデータ等を格納してもよい。ストレージ装置９１３は、例えば、実空間マップ４１および挿入点群リスト４２を記憶する機能を実行してもよい。　

　ドライブ９１４は、記憶媒体用リーダライタであり、情報処理装置１に内蔵又は外付けされる。ドライブ９１４は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９１４は、リムーバブル記憶媒体に情報を書き込むことも可能である。　

　接続ポート９１５は、外部機器と接続されるインタフェースである。接続ポート９１５は、外部機器とのデータ伝送可能な接続口であり、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）であってもよい。　

　通信装置９１６は、例えば、ネットワークＮに接続するための通信デバイス等で形成されたインタフェースである。通信装置９１６は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等であってもよい。また、通信装置９１６は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。通信装置９１６は、例えば、インターネット又は他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。　

　なお、ネットワークＮは、情報の有線又は無線の伝送路である。例えば、ネットワークＮは、インターネット、電話回線網若しくは衛星通信網などの公衆回線網、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、又はＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワークＮは、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。　

　なお、情報処理装置１に内蔵されるＣＰＵ、ＲＯＭ及びＲＡＭなどのハードウェアに対して、上述した本実施形態に係る情報処理装置１の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供することが可能である。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のフローチャート及びシーケンス図に示された各ステップは、適宜順序を変更することが可能である。

＜＜６．まとめ＞＞
　以上説明したように、本開示の一実施形態によれば、情報処理装置１は、情報取得部３１と、判定部３２と、更新処理部３３とを備える。情報取得部３１は、記憶媒体（記憶部４）に格納された実空間に対応する実空間マップ４１、センサ１００が取得した実空間を示す現在の入力画像、過去の入力画像、現在の入力画像に対応するセンサ１００の現在の位置姿勢情報、および過去の入力画像に対応するセンサ１００の過去の位置姿勢情報を取得する。判定部３２は、実空間マップ４１および現在の入力画像に基づいて、実空間マップ４１に含まれない挿入オブジェクトを現在の入力画像が含むか否かを判定する。更新処理部３３は、現在の入力画像が挿入オブジェクトを含まないという判定結果に基づいて、現在の位置姿勢情報および過去の位置姿勢情報に従って実空間マップ４１を更新する第１のマップ更新処理を実行し、現在の入力画像が挿入オブジェクトを含むという判定結果に基づいて、現在の位置姿勢情報に従って実空間マップ４１を更新する、第１のマップ更新処理とは異なる第２のマップ更新処理を実行する。

　これにより、低遅延かつ高精度に実空間マップ４１を更新することができる。

　また、更新処理部３３は、現在の入力画像が挿入オブジェクトを含むという判定結果に基づいて、現在の入力画像における注目画素ＩＰが挿入オブジェクトの領域に含まれる場合には、注目画素ＩＰに対応した注目ボクセルＩＶに対して第２のマップ更新処理を実行し、注目画素ＩＰが挿入オブジェクトの領域に含まれない場合には、注目画素ＩＰに対応した注目ボクセルＩＶに対して第１のマップ更新処理を実行する。

　これにより、現在の入力画像のうち、挿入オブジェクトの領域に対しては第２のマップ更新処理を実行することで低遅延のマップ更新を実現し、挿入オブジェクト以外の領域に対しては第１のマップ更新処理を実行することでノイズを排除した高精度のマップ更新を実現できる。

　更新処理部３３は、現在の入力画像における注目画素ＩＰが挿入オブジェクトの領域に含まれる場合において、注目画素ＩＰと、注目ボクセルＩＶとの距離が所定の閾値未満であるときには、注目ボクセルＩＶに対して第２のマップ更新処理を実行し、注目画素ＩＰと、注目ボクセルＩＶとの距離が所定の閾値以上であるときには、注目ボクセルＩＶに対して第１のマップ更新処理を実行する。

　これにより、注目画素ＩＰと注目ボクセルＩＶとが離れた場合、すなわち、注目画素ＩＰと注目ボクセルＩＶとが同一の挿入オブジェクトである可能性が低い場合でも、マップの更新精度を高めることができる。

　判定部３２は、現在の位置姿勢情報に従って実空間マップ４１から仮想入力画像を生成し、現在の入力画像および仮想入力画像に基づいて算出した残差マップを用いて、挿入オブジェクトを現在の入力画像が含むか否かを判定する。

　これにより、挿入オブジェクトを現在の入力画像が含むか否かを高精度に判定することができる。

　判定部３２は、残差マップに含まれるノイズを除去するフィルタリング処理を行った残差マップを用いて、挿入オブジェクトを現在の入力画像が含むか否かを判定する。

　これにより、現在の入力画像や仮想入力画像に含まれるノイズに起因して残差マップに含まれるノイズを除去できるため、残差マップを用いた判定精度を高めることができる。

　判定部３２は、残差マップにおける各画素を二値化した二値化画像を生成し、二値化画像における連結成分をクラスタリングしたクラスタの領域に基づいて、挿入オブジェクトを現在の入力画像が含むか否かを判定する。

　これにより、現在の入力画像に含まれる挿入オブジェクトの領域を高精度に抽出することができる。

　判定部３２は、今回抽出されたクラスタの領域と、前回抽出されたクラスタの領域との距離が所定の閾値未満である場合に、クラスタの領域が挿入オブジェクトの領域であると判定する。

　これにより、既に計測した挿入オブジェクトをわずかに異なる角度からセンサ１００で計測することで生じた小さなクラスタついては確実に挿入オブジェクトＯＢの領域であると判定できる。

　判定部３２は、クラスタの領域の画素数が所定の閾値以上である場合に、クラスタの領域が挿入オブジェクトの領域であると判定する。

　これにより、一定数以上の画素数（一定以上のサイズ）の領域を挿入オブジェクトの領域として高精度に抽出することができるとともに、残差マップのノイズによって生じた外れ値を挿入オブジェクトの領域から高精度に除外することができる。

　生成される仮想入力画像は、現在の位置姿勢情報と実質的に同じ位置姿勢情報を有する二次元画像である。

　これにより、後段の残差マップの算出において、高精度な残差マップの算出結果を得ることができる。

　実空間マップ４１は、符号付距離および前記符号付距離の信頼度を示す重みを含むボクセルＶが配列される。第１のマップ更新処理は、現在の位置姿勢情報に対応した現在の入力画像と、過去の位置姿勢情報に対応した過去の入力画像とに基づいて算出した符号付距離および重みの移動平均を更新後の値とする更新処理であり、第２のマップ更新処理は、現在の位置姿勢情報に対応した現在の入力画像に基づいて算出した符号付距離および重みを更新後の値とする更新処理である。

　これにより、現在の入力画像に含まれるノイズを低減しつつ新たに出現した挿入オブジェクトを即座に実空間マップ４１に反映させることができる。

　以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得部と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定部と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理部とを備える、情報処理装置。
（２）
　前記更新処理部は、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の入力画像における注目画素が前記挿入オブジェクトの領域に含まれる場合には、該注目画素に対応した注目ボクセルに対して前記第２のマップ更新処理を実行し、
　前記注目画素が前記挿入オブジェクトの領域に含まれない場合には、該注目画素に対応した注目ボクセルに対して前記第１のマップ更新処理を実行する、前記（１）に記載の情報処理装置。
（３）
　前記更新処理部は、
　前記現在の入力画像における前記注目画素が前記挿入オブジェクトの領域に含まれる場合において、前記注目画素と、前記注目ボクセルとの距離が所定の閾値未満であるときには、該注目ボクセルに対して前記第２のマップ更新処理を実行し、
　前記注目画素と、前記注目ボクセルとの距離が所定の閾値以上であるときには、該注目ボクセルに対して前記第１のマップ更新処理を実行する、前記（２）に記載の情報処理装置。
（４）
　前記判定部は、
　前記現在の位置姿勢情報に従って前記実空間マップから仮想入力画像を生成し、前記現在の入力画像および前記仮想入力画像に基づいて算出した残差マップを用いて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、前記（１）～（３）のいずれか１つに記載の情報処理装置。
（５）
　前記判定部は、
　前記残差マップに含まれるノイズを除去するフィルタリング処理を行った前記残差マップを用いて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、前記（４）に記載の情報処理装置。
（６）
　前記判定部は、
　前記残差マップにおける各画素を二値化した二値化画像を生成し、前記二値化画像における連結成分をクラスタリングしたクラスタの領域に基づいて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、前記（４）または（５）に記載の情報処理装置。
（７）
　前記判定部は、
　今回抽出された前記クラスタの領域と、前回抽出された前記クラスタの領域との距離が所定の閾値未満である場合に、前記クラスタの領域が前記挿入オブジェクトの領域であると判定する、前記（６）に記載の情報処理装置。
（８）
　前記判定部は、
　前記クラスタの領域の画素数が所定の閾値以上である場合に、前記クラスタの領域が前記挿入オブジェクトの領域であると判定する、前記（６）または（７）に記載の情報処理装置。
（９）
　前記生成される仮想入力画像は、前記現在の位置姿勢情報と実質的に同じ位置姿勢情報を有する二次元画像である、前記（４）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記実空間マップは、
　符号付距離および前記符号付距離の信頼度を示す重みを含むボクセルが配列され、
　前記第１のマップ更新処理は、
　前記現在の位置姿勢情報に対応した前記現在の入力画像と、前記過去の位置姿勢情報に対応した前記過去の入力画像とに基づいて算出した前記符号付距離および前記重みの移動平均を更新後の値とする更新処理であり、
　前記第２のマップ更新処理は、
　前記現在の位置姿勢情報に対応した前記現在の入力画像に基づいて算出した前記符号付距離および前記重みを更新後の値とする更新処理である、前記（１）～（９）のいずれか１つに記載の情報処理装置。
（１１）
　コンピュータが実行する情報処理方法であって、
　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得工程と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定工程と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理工程とを含む、情報処理方法。
（１２）
　コンピュータを、
　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得部と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定部と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理部と
　として機能させるためのプログラムが記憶された記憶媒体。

１　　　情報処理装置
３　　　制御部
４　　　記憶部
２１　　センサ部
２２　　姿勢検出部
３１　　情報取得部
３２　　判定部
３３　　更新処理部
３４　　ＰＭ抽出部
３５　　物理演算部
３６　　表示制御部
４１　　実空間マップ
４２　　挿入点群リスト
１００　センサ
２００　姿勢検出部
３００　表示部
ＩＰ　　注目画素
ＩＶ　　注目ボクセル
ＯＢ　　挿入オブジェクト
Ｖ　　　ボクセル

Claims

　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得部と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定部と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理部とを備える、情報処理装置。
　前記更新処理部は、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の入力画像における注目画素が前記挿入オブジェクトの領域に含まれる場合には、該注目画素に対応した注目ボクセルに対して前記第２のマップ更新処理を実行し、
　前記注目画素が前記挿入オブジェクトの領域に含まれない場合には、該注目画素に対応した注目ボクセルに対して前記第１のマップ更新処理を実行する、請求項１に記載の情報処理装置。
　前記更新処理部は、
　前記現在の入力画像における前記注目画素が前記挿入オブジェクトの領域に含まれる場合において、前記注目画素と、前記注目ボクセルとの距離が所定の閾値未満であるときには、該注目ボクセルに対して前記第２のマップ更新処理を実行し、
　前記注目画素と、前記注目ボクセルとの距離が所定の閾値以上であるときには、該注目ボクセルに対して前記第１のマップ更新処理を実行する、請求項２に記載の情報処理装置。
　前記判定部は、
　前記現在の位置姿勢情報に従って前記実空間マップから仮想入力画像を生成し、前記現在の入力画像および前記仮想入力画像に基づいて算出した残差マップを用いて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、請求項１～３のいずれか１つに記載の情報処理装置。
　前記判定部は、
　前記残差マップに含まれるノイズを除去するフィルタリング処理を行った前記残差マップを用いて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、請求項４に記載の情報処理装置。
　前記判定部は、
　前記残差マップにおける各画素を二値化した二値化画像を生成し、前記二値化画像における連結成分をクラスタリングしたクラスタの領域に基づいて、前記挿入オブジェクトを前記現在の入力画像が含むか否かを判定する、請求項４または５に記載の情報処理装置。
　前記判定部は、
　今回抽出された前記クラスタの領域と、前回抽出された前記クラスタの領域との距離が所定の閾値未満である場合に、前記クラスタの領域が前記挿入オブジェクトの領域であると判定する、請求項６に記載の情報処理装置。
　前記判定部は、
　前記クラスタの領域の画素数が所定の閾値以上である場合に、前記クラスタの領域が前記挿入オブジェクトの領域であると判定する、請求項６または７に記載の情報処理装置。
　前記生成される仮想入力画像は、前記現在の位置姿勢情報と実質的に同じ位置姿勢情報を有する二次元画像である、請求項４～８のいずれか１つに記載の情報処理装置。
　前記実空間マップは、
　符号付距離および前記符号付距離の信頼度を示す重みを含むボクセルが配列され、
　前記第１のマップ更新処理は、
　前記現在の位置姿勢情報に対応した前記現在の入力画像と、前記過去の位置姿勢情報に対応した前記過去の入力画像とに基づいて算出した前記符号付距離および前記重みの移動平均を更新後の値とする更新処理であり、
　前記第２のマップ更新処理は、
　前記現在の位置姿勢情報に対応した前記現在の入力画像に基づいて算出した前記符号付距離および前記重みを更新後の値とする更新処理である、請求項１～９のいずれか１つに記載の情報処理装置。
　コンピュータが実行する情報処理方法であって、
　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得工程と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定工程と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理工程とを含む、情報処理方法。
　コンピュータを、
　記憶媒体に格納された実空間に対応する実空間マップ、センサが取得した前記実空間を示す現在の入力画像、過去の前記入力画像、前記現在の入力画像に対応する前記センサの現在の位置姿勢情報、および前記過去の入力画像に対応する前記センサの過去の位置姿勢情報を取得する情報取得部と、
　前記実空間マップおよび前記現在の入力画像に基づいて、前記実空間マップに含まれない挿入オブジェクトを前記現在の入力画像が含むか否かを判定する判定部と、
　前記現在の入力画像が前記挿入オブジェクトを含まないという判定結果に基づいて、前記現在の位置姿勢情報および前記過去の位置姿勢情報に従って前記実空間マップを更新する第１のマップ更新処理を実行し、
　前記現在の入力画像が前記挿入オブジェクトを含むという判定結果に基づいて、前記現在の位置姿勢情報に従って前記実空間マップを更新する、前記第１のマップ更新処理とは異なる第２のマップ更新処理を実行する更新処理部と
　として機能させるためのプログラムが記憶された記憶媒体。