WO2020149147A1

WO2020149147A1 - 情報処理装置、情報処理方法、及び、記録媒体

Info

Publication number: WO2020149147A1
Application number: PCT/JP2019/051425
Authority: WO
Inventors: 脩繁田
Original assignee: ソニー株式会社
Priority date: 2019-01-18
Filing date: 2019-12-27
Publication date: 2020-07-23
Also published as: JP2020119024A

Abstract

本技術は、物体の一部分の認識精度を向上させることができるようにする情報処理装置、情報処理方法、及び、記録媒体に関する。情報処理装置は、視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する認識部を備える。本技術は、例えば、スマートフォン、タブレットコンピュータ等に適用できる。

Description

情報処理装置、情報処理方法、及び、記録媒体

　本技術は、情報処理装置、情報処理方法、及び、記録媒体に関し、特に、物体の一部分の認識精度を向上させるようにした情報処理装置、情報処理方法、及び、記録媒体に関する。

　近年、画像内の人の顔を認識する顔認識技術の普及が進んでいる（例えば、特許文献１参照）。

特開２０１７－９１０５９号公報

　しかしながら、顔認識技術では、人の顔以外の部分を認識することはできない。また、一般的に、顔認識技術のように画像を用いた物体認識技術は、顔のように視覚的な特徴が多い部分の認識は得意であるが、視覚的な特徴が少ない部分の認識は不得意である。

　本技術は、このような状況に鑑みてなされたものであり、物体の一部分の認識精度を向上させるようにするものである。

　本技術の一側面の情報処理装置は、視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する認識部を備える。

　本技術の一側面の情報処理方法は、情報処理装置が、視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する。

　本技術の一側面の記録媒体に記録されているプログラムは、視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する処理をコンピュータに実行させる。

　本技術の一側面においては、視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域が認識される。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。情報処理部の構成例を示すブロック図である。撮影部の構成例及び設置例を示す図である。認識処理を説明するためのフローチャートである。相互相関係数の計算結果の例を示す図である。対象領域の認識例を説明するための図である。対象領域の認識例を説明するための図である。対象領域の認識例を説明するための図である。対象領域の認識例を説明するための図である。認識処理の第１の変形例を説明するための図である。認識処理の第２の変形例を説明するための図である。認識処理の第３の変形例を説明するための図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜＜１．実施の形態＞＞
　まず、図１乃至図９を参照して、本技術の実施の形態について説明する。

　　＜情報処理システム１１の構成例＞
　情報処理システム１１は、物体認識処理を行うシステムである。特に、情報処理システム１１は、物体全体だけでなく、物体の一部分の認識が可能である。

　情報処理システム１は、検出部２１－１乃至検出部２１－ｍ、撮影部２２、及び、情報処理部２３を備える。

　検出部２１－１は、対象物１２－１に設けられ、対象物１２－１の一部分（以下、対象部分と称する）の状態に関するデータを検出する。対象部分は、検出部２１－１の検出対象となる部分であって、検出部２１－１を含む部分である。

　検出部２１－１は、検出結果を示す検出データを情報処理部２３に送信する。なお、検出データの送信には、任意の方式の有線通信又は無線通信を用いることができる。

　検出部２１－２乃至検出部２１－ｍも、検出部２１－１と同様に、それぞれ対象物１２－２乃至対象物１２－ｍの対象部分の状態に関するデータを検出し、検出結果を示す検出データを情報処理部２３に送信する。

　なお、以下、対象物１２－１乃至対象物１２－ｍ、及び、検出部２１－１乃至検出部２１－ｍを個々に区別する必要がない場合、単に、対象物１２及び検出部２１と称する。

　撮影部２２は、対象物１２、及び、非対象物１３－１乃至非対象物１３－ｎを含む空間（以下、撮影空間と称する）内の撮影を行う。すなわち、撮影部２２は、撮影空間内の対象物１２－１乃至対象物１２－ｍ及び非対象物１３－１乃至非対象物１３－ｎを含む画像（以下、撮影画像と称する）を撮影する。撮影部２２は、撮影画像を含むデータである撮影画像データを情報処理部２３に送信する。なお、撮影画像データの送信には、任意の方式の有線通信又は無線通信を用いることができる。

　なお、非対象物１３－１乃至非対象物１３－ｎは、撮影空間内に存在する対象物１２以外の物体であり、その種類は問わない。また、以下、非対象物１３－１乃至非対象物１３－ｎを個々に区別する必要がない場合、単に非対象物１３と称する。

　情報処理部２３は、例えば、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ、ゲーム端末等の情報処理装置により構成される。情報処理部２３は、各検出部２１からの検出データ、及び、撮影部２２からの撮影画像データに基づいて、各対象物１２の認識処理を行う。より具体的には、情報処理部２３は、撮影画像内の各対象物１２の対象部分に対応する領域（以下、対象領域と称する）の認識処理を行う。情報処理部２３は、各対象物１２の対象領域の認識結果を示すデータを出力する。

　なお、対象物１２は、検出部２１を設けることが可能な物体であれば、その種類は特に限定されない。また、対象物１２は、動体でも静止物でもよい。

　さらに、検出部２１の検出対象となる状態は、撮影画像でも検出可能な状態であれば、特に限定されない。例えば、対象部分の位置、姿勢、動き、属性等のうち１つ以上が検出される。対象部分の動きとしては、例えば、対象部分の速度、加速度、角速度、角加速度等が想定される。対象部分の属性としては、例えば、対象部分の形状、色、材質、温度等が想定される。

　また、検出部２１を設置する位置は、対象部分の状態に関するデータが検出可能な位置であればよく、特に制限はない。例えば、検出部２１は、対象物１２の表面又は内部のいずれに設けられてもよい。また、例えば、対象物１２が人である場合、検出部２１を各種のセンサを備えるウエアラブルデバイスにより構成し、対象物１２が検出部２１を装着するようにしてもよい。

　さらに、撮影画像は、各検出部２１の検出対象となる状態と同じ種類の状態が検出可能な画像であれば、その種類は特に問わない。

　また、各対象物１２は、必ずしも全て同じ種類の物体でなくてもよい。さらに、各検出部２１の検出対象となる状態の種類は、必ずしも全て同じでなくてもよい。

　　＜情報処理部２３の構成例＞
　図２は、図１の情報処理システム１１の情報処理部２３の構成例を示すブロック図である。

　情報処理部２３は、受信部５１、記憶部５２、状態検出部５３、及び、認識部５４を備える。状態検出部５３は、状態検出部５３Ａ及び状態検出部５３Ｂを備える。

　受信部５１は、各検出部２１の通信方式、及び、撮影部２２の通信方式に対応した通信が可能である。受信部５１は、各検出部２１から送信される検出データ、及び、撮影部２２から送信される撮影画像データを受信し、記憶部５２に記憶させる。

　状態検出部５３Ａは、記憶部５２に記憶されている撮影画像データに基づいて、撮影画像内の各部の状態を検出する。状態検出部５３Ａは、検出結果を示すデータを認識部５４に供給する。

　状態検出部５３Ｂは、記憶部５２に記憶されている検出データに基づいて、各対象物１２の対象部分の状態を検出する。状態検出部５３Ｂは、検出結果を示すデータを認識部５４に供給する。

　認識部５４は、撮影画像内の各部の状態、及び、各対象物１２の対象部分の状態に基づいて、撮影画像において各対象物１２の対象部分に対応する対象領域の認識処理を行う。認識部５４は、各対象物１２の対象領域の認識結果を示すデータを出力する。

　　＜撮影部２２の構成例及び設置例＞
　図３は、撮影部２２の具体的な構成例及び設置例を示す模式図である。

　ここでは、撮影部２２がデプスセンサ１０１を備える例が示されている。

　デプスセンサ１０１は、例えば、撮影空間内の天井に設置され、撮影空間を見下ろすように撮影する。また、デプスセンサ１０１は、ＩＭＵ（Inertial Measurement Unit）を備えており、デプスセンサ１０１の光軸方向とＩＭＵの設置方向との関係は既知であるものとする。ＩＭＵは、例えば、加速度センサ及び角速度センサを備え、さらに必要に応じて、地磁気センサ等を備える。従って、デプスセンサ１０１は、ＩＭＵを用いて光軸に対する重力方向を検出することが可能である。デプスセンサ１０１は、撮影により得られた撮影画像（デプス画像）、及び、重力方向の検出結果を含む撮影画像データを情報処理システム１１に送信する。

　なお、以下、この例のように、撮影部２２がデプスセンサ１０１を備える場合について説明する。

　また、以下、各検出部２１がＩＭＵを備え、状態検出部５３Ａが撮影画像内の各部の姿勢を検出し、状態検出部５３Ｂが各対象物１２の対象部分の姿勢を検出する場合について説明する。

　　＜認識処理＞
　次に、図４のフローチャートを参照して、情報処理システム１１により実行される認識処理について説明する。

　なお、この処理は、例えば、情報処理部２３の電源がオンされたとき開始され、情報処理部２３の電源がオフされたとき終了する。

　ステップＳ１において、情報処理システム１１は、撮影画像データ及び検出データの取得を開始する。

　具体的には、デプスセンサ１０１は、撮影空間の撮影及び重力方向の検出を開始する。デプスセンサ１０１は、得られた撮影画像（デプス画像）及び重力方向の検出結果を含む撮影画像データを情報処理部２３に送信する。

　各検出部２１は、各対象物１２の対象部分の加速度及び角速度、並びに、重力方向の検出を開始する。各検出部２１は、検出結果を示す検出データを情報処理部２３に送信する。

　情報処理部２３の受信部５１は、撮影画像データ及び検出データを受信し、記憶部５２に記憶させる。

　ステップＳ２において、状態検出部５３Ａは、撮影画像内の各部の状態を検出する。

　具体的には、状態検出部５３Ａは、撮影画像を複数の領域に分割する。

　なお、撮影画像の領域の分割には、任意の手法を用いることができる。

　例えば、状態検出部５３Ａは、撮影画像内の特徴点を検出し、検出した特徴点を複数フレームにわたって追跡し、同様の動きをする特徴点を含む領域を検出することにより、撮影画像を複数の領域に分割する。特徴点の種類は特に限定されないが、例えば、コーナ、人の顔のパーツ等が用いられる。

　例えば、状態検出部５３Ａは、オプティカルフローを用いて、撮影画像内の各部の追跡を複数フレームにわたって行い、同様の動きをする領域を検出することにより、撮影画像を複数の領域に分割する。

　例えば、状態検出部５３Ａは、セマンティックセグメンテーション等の任意の手法を用いて、撮影画像を複数のセグメンテーション領域に分割する。

　例えば、状態検出部５３Ａは、ボーントラッキングを用いて、撮影画像内の人やロボット等の骨格の動きを追跡することにより、撮影画像内の人やロボット等をパーツ毎に分割する。

　次に、状態検出部５３Ａは、撮影画像内の各領域（以下、分割領域と称する）の法線ベクトルを算出する。なお、撮影画像は、デプス画像であり、各画素が奥行き方向の情報を有するため、各分割領域の法線ベクトルの算出は容易である。状態検出部５３Ａは、次式（１）を用いて、算出した法線ベクトルの重力方向に対する角度θｃ（ｔ）を算出する。

　θｃ（ｔ）＝arccos（（ｎ・ｇ）／｜ｎ｜｜ｇ｜）　・・・（１）

　なお、ｎは法線ベクトルを示し、ｇは重力方向を示す重力ベクトルを示している。

　このようにして、時刻ｔにおける各分割領域の姿勢（角度θｃ（ｔ））が検出される。

　状態検出部５３Ａは、撮影画像内の各分割領域の姿勢の検出結果を示すデータを認識部５４に供給する。

　ステップＳ３において、状態検出部５３Ｂは、各対象物１２の一部分の状態を検出する。

　例えば、状態検出部５３Ｂは、各対象物１２の一部分である対象部分の角速度及び加速度の検出結果に基づいて、各対象物１２の対象部分の姿勢を算出する。例えば、状態検出部５３Ｂは、時刻ｔにおける各対象物１２の対象部分の重力方向に対する角度θｏ（ｔ）を算出する。

　状態検出部５３Ｂは、各対象物１２の対象部分の姿勢の検出結果を示すデータを認識部５４に供給する。

　ステップＳ４において、認識部５４は、撮影画像内の各部の状態と、各対象物１２の一部分の状態との相関関係を求める。具体的には、例えば、認識部５４は、状態検出部５３Ａにより検出された撮影画像内の各分割領域の姿勢（角度θｃ（ｔ））と、状態検出部５３Ｂにより検出された各対象物１２の対象部分の姿勢（角度θｏ（ｔ））との全ての組合せについて、相関係数を算出する。

　例えば、認識部５４は、撮影画像内の分割領域のうちの１つ、及び、各対象物１２の対象部分のうちの１つを選択する。認識部５４は、次式（２）を用いて、選択した分割領域の姿勢と、選択した対象部分の姿勢との相互相関係数ｒ（ｍ）を算出する。

　なお、ｆ（ｎ）は、基準時刻ｔ０からｎ番目の対象部分の姿勢のサンプル値（検出値）を示している。ｈ（ｎ＋ｍ）は、基準時刻ｔ０からｎ＋ｍ番目の分割領域の姿勢のサンプル値（検出値）を示している。Ｎは、相互相関係数ｒ（ｍ）の算出に用いるサンプルの総数を示している。従って、式（１）により、対象部分のＮ個の姿勢のサンプル値と、対象部分よりｍサンプル後の分割領域のＮ個の姿勢のサンプル値との間の相互相関係数が算出される。

　認識部５４は、現在の時刻ｔから所定の時間前の時刻を基準時刻ｔ０に設定するとともに、シフト量ｍを０に設定し、選択した分割領域の姿勢と対象部分の姿勢との相互相関係数ｒ（０）を算出する。その後、認識部５４は、シフト量ｍを所定の最大値まで１つずつシフトしながら、選択した分割領域の姿勢と対象部分の姿勢との間の相互相関係数ｒ（ｍ）を算出する。

　図５は、相互相関係数ｒ（ｍ）の計算結果の例を示している。横軸はシフト量ｍを示し、奥行き方向の軸は時刻ｔを示し、高さ方向の軸は相互相関係数ｒ（ｍ）を示している。

　また、グラフ内の曲線は、各時刻ｔにおける相互相関係数ｒ（ｍ）の波形を示し、波形上の丸は相互相関係数ｒ（ｍ）のピークを示している。

　例えば、撮影画像内の分割領域の姿勢と、対象物１２の対象部分の姿勢とを検出するタイミングに時間差があったとしても、図５に示されるように、シフト量ｍを調整することにより、両者の間の相互相関係数ｒ（ｍ）を正確に求めることができる。

　そして、認識部５４は、例えば、算出した相互相関係数ｒ（ｍ）のうちの最大値（以下、最大相互相関係数と称する）を求める。

　認識部５４は、同様の処理により、撮影画像内の各分割領域と、各対象物１２の対象部分との全ての組合せについて、最大相互相関係数を算出する。

　ステップＳ５において、認識部５４は、対象領域を認識する。

　例えば、認識部５４は、対象物１２－１の対象部分との間の最大相互相関係数が所定の時間以上継続して所定の閾値以上となる分割領域を撮影画像から抽出する。そして、認識部５４は、抽出した領域を対象物１２－１の対象部分に対応する対象領域として認識する。これにより、対象物１２－１の対象部分と姿勢が相関する分割領域が、対象領域として認識される。例えば、対象物１２－１の対象部分と同様の姿勢をとる分割領域、又は、対象物１２－１の対象部分或いは検出部２１－１と同様の動きをする分割領域が、対象領域として認識される。

　なお、複数の分割領域が抽出された場合、すなわち、対象物１２－１の対象部分との間の最大相互相関係数が所定の時間以上継続して所定の閾値以上となる分割領域が複数存在する場合、例えば、認識部５４は、最大相互相関係数の平均値が最大となる分割領域を対象領域として認識する。このとき、最大相互相関係数の平均値が最大となる分割領域の周囲の分割領域も抽出されている場合、例えば、認識部５４は、その周囲の分割領域も含む連続した領域を対象領域として認識するようにしてもよい。

　また、対象物１２－１の対象部分との間の最大相互相関係数が所定の時間以上継続して所定の閾値以上となる分割領域が存在しない場合、例えば、認識部５４は、対象物１２－１の対象部分は、撮影画像内に存在しない（デプスセンサ１０１の撮影空間の外に存在する）と認識する。

　認識部５４は、対象物１２－２乃至対象物１２－ｍについても同様の処理を行う。これにより、撮影画像において、各対象物１２の対象部分に対応する対象領域が認識される。

　なお、対象領域は、必ずしも固定されておらず、対象物１２の動きにより変化する場合がある。

　例えば、図６は、人が対象物１２である場合に、ＩＭＵを備える検出部２１としての指輪型デバイス２０３が、対象物１２の手２０１の人差し指２０２の第２関節と第３関節の間に装着されている例を示している。

　例えば、人差し指２０２の関節が動かされた場合、指輪型デバイス２０３からの検出データに基づいて検出される姿勢の変化が、人差し指２０２の第２関節と第３関節との間の部分の姿勢の変化と略一致する。この場合、人差し指２０２の第２関節と第３関節との間の部分が対象部分となり、図７に示されるように、当該対象部分を含む領域２１１が対象領域として認識される。

　一方、例えば、人差し指２０２の関節を動かさずに手２０１全体が動かされた場合、指輪型デバイス２０３からの検出データに基づいて検出される姿勢の変化が、手２０１全体の姿勢の変化と略一致する。この場合、手２０１全体が対象部分となり、図８に示されるように、手２０１全体を含む領域２１２が対象領域として認識される。

　例えば、図９は、人が対象物１２である場合に、ＩＭＵを備える検出部２１としてのイヤホン型デバイス２３３が、対象物１２の頭部２３１の耳２３２に装着されている例を示している。

　例えば、頭部２３１のみが動かされた場合、イヤホン型デバイス２３３からの検出データに基づいて検出される姿勢の変化が、頭部２３１の姿勢の変化と略一致する。この場合、頭部２３１が対象部分となり、頭部２３１を含む領域２１１が対象領域として認識される。

　一方、例えば、対象物１２が歩いて移動した場合、イヤホン型デバイス２３３からの検出データに基づいて検出される姿勢の変化が、対象物１２の腕及び脚を除く部分の姿勢の変化と略一致する。この場合、対象物１２の腕及び脚を除く部分が対象部分となり、当該対象部分を含む領域が対象領域として認識される。

　なお、例えば、対象物１２の対象部分と連なる他の物体又は他の物体の一部分が、対象部分と同じ姿勢をとったり、同じ動きをしたりする場合、対象部分と、他の物体又は他の物体の一部分とを含む領域が対象領域として認識される。例えば、対象物１２が人で、対象部分が手である場合、手と、手に持っている物体又は手に持っている物体の一部分とを含む領域が対象領域として認識される場合がある。

　認識部５４は、各対象物１２の対象領域の認識結果を示すデータを出力する。

　その後、処理はステップＳ２に戻り、ステップＳ２乃至ステップＳ５の処理が繰り返し実行される。

　以上のようにして、各対象物１２の一部分（対象部分）の認識精度が向上する。

　例えば、対象物１２の視覚的に特徴のない部分にマーカ（例えば、再帰性反射マーカ、カラーマーカ、不可視マーカ等）等を付けなくても、当該部分を正確に認識することが可能になる。例えば、対象物１２が単色の模様がない物体である場合に、その対象物１２の一部分を正確に認識することが可能になる。具体的には、例えば、複数の関節を備えるマニピュレータ等のロボットが単色で模様がない場合に、そのロボットの骨組みの一部を正確に認識することが可能になる。また、上述したようにマーカの付加が不要なのに加えて、ＩＭＵは対象物１２に内蔵できるため、対象物１２の外観を損ねることなく、対象物１２の一部分を認識することが可能になる。

　例えば、同じような外観を持つものの中から、特定の対象物１２の一部分を正確に認識することができる。例えば、同じ外観の対象物１２が複数ある場合に、その中の特定の対象物１２の一部分を正確に認識することができる。具体的には、例えば、同じ製品が陳列されている場合、そのうちの特定の製品の一部分を正確に認識することが可能になる。

　また、対象物１２が動物や多関節のロボット等の複雑な動きをする物体であっても、対象物１２の一部分を正確に認識することが可能になる。また、対象物１２が剛体ではなく変形する場合にも、対象物１２の一部分を正確に認識することが可能になる。

　さらに、例えば、対象物１２又は対象部分に関する情報を検出データに含ませることにより、対象部分を認識するだけでなく、対象物１２又は対象部分に関する情報まで認識することが可能になる。例えば、対象物１２又は対象部分の名称等の属性を認識することが可能になる。

　また、例えば、対象部分が他の物体により隠れていても、対象物１２又は対象部分に関する情報に基づいて、撮影画像内において対象部分が存在する領域を推定することができる。例えば、上述した処理では、対象物１２を握った状態で手が動かされた場合、その手を含む領域が対象領域として認識されることが想定される。この場合、例えば、対象物１２又は対象部分に関する情報に基づいて、その手の中に対象物１２が存在すると推定することが可能になる。

　さらに、例えば、速度又は加速度に基づいて対象部分を認識する場合、対象部分が一定時間以上連続して動かないと、対象部分（に対応する対象領域）を認識することは困難である。また、対象部分の動きが小さいと、対象部分の認識精度が低下する。そのため、例えば、対象物１２がゲームのコントローラ等の操作デバイスである場合、対象物１２を大きく動かす必要が生じ、ユーザの負担が増大する。また、撮影画像内に移動体が多数存在する場合、各移動体の動きを検出するための負荷が増大する。一方、負荷を軽減するために移動体の動きの検出精度を落とすと、移動体のうちの１つである対象部分の認識精度が低下する。また、撮影部２２の位置により、対象部分の動きの検出が困難な方向が生じ、対象部分がその方向に動く場合、対象部分の認識精度が低下する場合がある。

　一方、情報処理システム１１のように、対象部分の姿勢に基づいて対象部分を認識する場合、対象部分が静止していても、対象部分を正確に認識することが可能になる。ただし、対象部分と同じ姿勢の物体が多数存在する場合、例えば、対象物１２を含め多数の物体が同じ机の上に置かれている場合、対象部分の認識が困難になる可能性がある。しかし、この場合でも、対象部分が少しでも動けば、対象部分を正確に認識することが可能になる。また、撮影部２２の位置が対象部分の姿勢の検出精度に与える影響は小さい。そのため、撮影部２２の位置に関わらず、対象部分の認識精度が良好に保たれる。

　また、図５を参照して上述したように、検出部２１と撮影部２２の同期を取らなくても、撮影画像内の分割領域の姿勢と対象物１２の対象部分の姿勢との間の相互相関係数を算出し、対象部分を認識することが可能である。さらに、対象部分の重力方向に対する姿勢を検出すればよく、対象部分のワールド座標系における姿勢を検出する必要がない。そのため、情報処理部２３において、姿勢の検出に必要な装備や負荷を削減することが可能になる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　以上の説明では、撮影画像にデプス画像を用いて、撮影画像内の各領域の姿勢を検出する例を示したが、別の方法により撮影画像内の各領域の姿勢を検出したり、画像以外の視覚情報を用いて、視覚情報内の各領域の姿勢を検出したりするようにしてもよい。

　例えば、事前に登録された対象物１２の画像と撮影画像内の対象物１２の画像に基づいて、対象物１２の各部の姿勢を検出するようにしてもよい。

　例えば、ポイントクラウドのような３次元の視覚情報を用いて、視覚情報内の各領域の姿勢を検出するようにしてもよい。

　また、以上の説明では、撮影画像内の各領域の姿勢と対象物１２の対象部分の姿勢との相関関係に基づいて対象領域を認識する例を示したが、本技術では、視覚情報と検出部２１の検出データの両方で検出可能な状態であれば、任意の状態の相関関係を用いることが可能である。

　例えば、ＩＭＵを用いることにより、物体の角度以外に、速度、加速度、角速度、及び、位置を検出することが可能である。そこで、例えば、角度、速度、加速度、角速度、及び、位置のうち１つ以上の状態の相関関係を用いることが可能である。

　また、図１０は、回転運動を行う対象物１２ａの認識処理を行う例を示している。

　例えば、対象物１２ａは、回転部２５１、及び、回転部２５１の回転量を検出するロータリエンコーダ（不図示）を備えている。

　撮影部２２はカメラ２５２を備えており、カメラ２５２は、対象物１２ａの撮影が可能である。

　状態検出部５３Ａは、カメラ２５２からの撮影画像内の各領域の角度及び角加速度を検出する。

　状態検出部５３Ｂは、ロータリエンコーダからの検出データに基づいて、回転部２５１の角度及び角加速度を検出する。

　認識部５４は、状態検出部５３Ａにより検出された撮影画像内の各領域の角度及び角加速度と、状態検出部５３Ｂにより検出された回転部２５１の角度及び角加速度との相関関係に基づいて、回転部２５１に対応する対象領域を認識する。

　図１１は、並進運動を行う対象物１２ｂの認識処理を行う例を示している。

　例えば、対象物１２ｂは、台２６１の上を並進運動する可動部２６２、並びに、可動部２６２の位置を検出するリニアエンコーダ（不図示）を備えている。

　撮影部２２はカメラ２６３を備えており、カメラ２６３は、対象物１２ｂの撮影が可能である。

　状態検出部５３Ａは、カメラ２６３からの撮影画像の各領域の位置、速度、及び、加速度を検出する。

　状態検出部５３Ｂは、リニアエンコーダからの検出データに基づいて、可動部２６２の位置、速度、及び、加速度を検出する。

　認識部５４は、状態検出部５３Ａにより検出された撮影画像内の各領域の位置、速度、及び、加速度と、状態検出部５３Ｂにより検出された可動部２６２の位置、速度、及び、加速度との相関関係に基づいて、可動部２６２に対応する対象領域を認識する。

　図１２は、対象物１２ｃの温度に基づいて対象領域の認識処理を行う例を示している。

　対象物１２ｃは、温度センサ３０１を備えている。

　撮影部２２はサーマルセンサ３０２を備えている。サーマルセンサ３０２は、対象物１２ｃの表面の温度を検出し、検出した温度の分布を示すサーマル画像を生成する。

　状態検出部５３Ａは、サーマルセンサ３０２からのサーマル画像内の各領域の温度を検出する。

　状態検出部５３Ｂは、温度センサ３０１からの検出データに基づいて、対象物１２ｃの温度センサ３０１付近の温度を検出する。

　認識部５４は、状態検出部５３Ａにより検出されたサーマル画像内の各領域の温度と、状態検出部５３Ｂにより検出された対象物１２ｃの温度センサ３０１付近の温度との相関関係に基づいて、サーマル画像において対象物１２ｃの温度センサ３０１付近を含む対象領域を認識する。

　例えば、対象物１２ｃが、可動部（例えば、モータ等）を備える物体（例えば、ドローン等）である場合、可動部付近に温度センサ３０１が設けられる。これにより、可動部が動くことにより発生する熱による温度変化に基づいて、可動部を含む領域を対象領域として認識することが可能である。

　例えば、対象物１２ｃが食器である場合、食器内に温度センサ３０１が内蔵される。そして、例えば、食器に料理が盛り付けられたときの温度変化に基づいて、食器の温度センサ３０１を含む領域を対象領域として認識することが可能である。

　例えば、対象物１２ｃが、ペルチェ素子等の熱電素子を備える場合、熱電素子付近に温度センサ３０１が設けられる。例えば、対象物１２ｃが、ＶＲ（Virtual Reality）グローブ等の触覚デバイスである場合、温度の変化を用いてユーザ体験を高めるために熱電素子が設けられる。そして、例えば、熱電素子により発生する温度変化に基づいて、熱電素子を含む領域を対象領域として認識することが可能である。

　なお、対象部分の温度変化が少ない場合、対象部分に熱電素子を設け、能動的に対象部分の温度を変化させるようにしてもよい。これにより、サーマル画像内において、対象物１２の温度変化が少ない部分を正確に認識することが可能になる。

　さらに、例えば、ソフトアクチュエータのように変形可能な変形デバイスを対象物１２が備える場合、対象物１２の変形デバイスを備える部分の認識が可能である。

　例えば、変形デバイスは、自身の形状を検出し、検出結果を示す検出データを送信する。

　状態検出部５３Ａは、撮影画像内の各領域の形状を検出する。

　状態検出部５３Ｂは、検出データに基づいて、変形デバイスの形状を検出する。

　認識部５４は、状態検出部５３Ａにより検出された撮影画像内の各領域の形状と、状態検出部５３Ｂにより検出された対象物１２の変形デバイスを備える部分の形状との相関関係に基づいて、撮影画像において対象物１２の変形デバイスを備える部分を含む対象領域を認識する。

　また、例えば、物体の姿勢はクォータニオンで表現されることが一般的であるが、例えば、クォータニオンの姿勢変化量の相関関係を用いることが可能である。例えば、時間的な角速度の変化に基づく相関関係や、外積ベクトルの方向変化に基づく相関関係を用いることが可能である。この場合、３次元方向の角度に基づいて相関関係を求めるようにしてもよいし、２次元方向の角度に基づいて相関関係を求めるようにしてもよい。

　なお、相関関係の演算には、上述した相互相関係数以外の相関係数を用いたり、相関係数以外の方法を用いたりすることも可能である。

　さらに、以上の説明では、デプスセンサ１０１にＩＭＵを設けて重力方向を検出する例を示したが、異なる方法により重力方向を検出するようにしてもよい。

　例えば、撮影画像内の壁や床に基づいて、重量方向を推定するようにしてもよい。また、例えば、デプスセンサ１０１が固定される場合、事前にデプスセンサ１０１の光軸に対する重力方向を測定し、測定結果を情報処理部２３に与えておくようにしてもよい。

　また、撮影部２２が備えるイメージセンサの種類や数は、検出対象となる状態に応じて変更することが可能である。例えば、上述したデプスセンサ１０１以外にも、通常の可視光を検出するイメージセンサ、赤外線の検出が可能な赤外センサ、超音波センサ、法線ベクトルの検出が可能な偏光センサ等を用いることが可能である。

　さらに、撮影画像以外の視覚情報を用いることが可能である。例えば、上述したサーマル画像、ポイントクラウド、磁気センサにより検出される磁場画像等を用いることが可能である。

　また、例えば、状態検出部５３Ａを撮影部２２に設け、撮影部２２が、撮影画像内の各領域の状態を検出し、検出結果を示すデータを情報処理部２３に送信するようにしてもよい。

　さらに、例えば、状態検出部５３Ｂを検出部２１に設け、検出部２１が、検出データに基づいて対象部分の状態を検出し、検出結果を示すデータを情報処理部２３に送信するようにしてもよい。

　また、例えば、１つの対象物１２に複数の検出部２１を設けるようにしてもよい。これにより、１つの対象物１２の複数の対象部分を認識することができる。

　さらに、検出部２１と対象部分が離れていてもよい。すなわち、検出部２１が、対象物１２において検出部２１から離れた部分の状態を検出し、検出部２１から離れた部分に対応する対象領域が認識されるようにしてもよい。

　また、例えば、対象物１２の対象部分の動きを認識することにより、対象部分を用いたタンジブルなユーザインタフェースを実現することが可能である。

　さらに、例えば、検出部２１の検出データに基づいて対象物１２全体の状態を検出可能な場合、本技術は、対象物１２全体の認識処理にも適用することが可能である。例えば、対象物１２がシンプルな構成であり、検出部２１の検出データに基づいて対象物１２全体の姿勢が検出される場合、対象物１２全体に対応する対象領域を認識することが可能である。

　　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１，ROM（Read Only Memory）１００２，RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記録部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する認識部を
　備える情報処理装置。
（２）
　前記認識部は、前記視覚情報内の各領域の状態と、前記検出データに基づく前記物体の一部分の状態との相関関係に基づいて、前記対象領域を認識する
　前記（１）に記載の情報処理装置。
（３）
　前記認識部は、前記検出データに基づいて検出される前記物体の一部分の姿勢と同様の姿勢をとる前記視覚情報内の領域を前記対象領域として認識する
　前記（２）に記載の情報処理装置。
（４）
　前記認識部は、前記検出データに基づいて検出される前記物体の一部分の動きと同様の動きをする前記視覚情報内の領域を前記対象領域として認識する
　前記（２）又は（３）に記載の情報処理装置。
（５）
　前記物体の一部分は、前記検出部の検出対象となる部分である
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記物体の一部分は、前記検出部を含む部分である
　前記（５）に記載の情報処理装置。
（７）
　前記認識部は、前記検出部と同様の動きをする前記視覚情報内の領域を前記対象領域として認識する
　前記（６）に記載の情報処理装置。
（８）
　前記状態は、姿勢、速度、加速度、角速度、角加速度、位置、形状、及び、温度のうち少なくとも１つを含む
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記検出部は、加速度センサ及び角速度センサを備え、
　前記状態は、姿勢、速度、加速度、角速度、及び、角加速度のうち少なくとも１つを含む
　前記（８）に記載の情報処理装置。
（１０）
　前記視覚情報は、温度の分布を示す画像であるサーマル画像であり、
　前記検出部は、温度センサを備え、
　前記状態は、温度を含む
　前記（８）に記載の情報処理装置。
（１１）
　前記検出部は、エンコーダを含み、
　前記状態は、速度、加速度、角速度、角加速度、及び、位置のうち少なくとも１つを含む
　前記（８）に記載の情報処理装置。
（１２）
　前記物体の一部分は、変形可能なデバイスを備え、
　前記検出部は、前記デバイスの形状を検出するセンサを備え、
　前記状態は、形状を含む
　前記（８）に記載の情報処理装置。
（１３）
　前記視覚情報内の各領域の状態、及び、前記物体の一部分の状態のうち少なくとも１つを検出する状態検出部を
　さらに備える前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記検出データを受信する受信部を
　さらに備え、
　前記状態検出部は、受信した前記検出データに基づいて、前記物体の一部分の状態を検出する
　前記（１３）に記載の情報処理装置。
（１５）
　情報処理装置が、
　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する
　情報処理方法。
（１６）
　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する
　処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　情報処理システム，　１２，１２ａ，１２ｂ，１２ｃ　対象物，　１３　非対象物，　２１　検出部，　２２　撮影部，　２３　情報処理部，　５１　受信部，　５３，５３Ａ，５３Ｂ　状態検出部，　５４　認識部，　１０１　デプスセンサ，　２５１　回転部，　２５２　カメラ，　２６２　可動部，　２６３　カメラ，　３０１　温度センサ，　３０２　サーマルセンサ

Claims

　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する認識部を
　備える情報処理装置。
　前記認識部は、前記視覚情報内の各領域の状態と、前記検出データに基づく前記物体の一部分の状態との相関関係に基づいて、前記対象領域を認識する
　請求項１に記載の情報処理装置。
　前記認識部は、前記検出データに基づいて検出される前記物体の一部分の姿勢と同様の姿勢をとる前記視覚情報内の領域を前記対象領域として認識する
　請求項２に記載の情報処理装置。
　前記認識部は、前記検出データに基づいて検出される前記物体の一部分の動きと同様の動きをする前記視覚情報内の領域を前記対象領域として認識する
　請求項２に記載の情報処理装置。
　前記物体の一部分は、前記検出部の検出対象となる部分である
　請求項１に記載の情報処理装置。
　前記物体の一部分は、前記検出部を含む部分である
　請求項５に記載の情報処理装置。
　前記認識部は、前記検出部と同様の動きをする前記視覚情報内の領域を前記対象領域として認識する
　請求項６に記載の情報処理装置。
　前記状態は、姿勢、速度、加速度、角速度、角加速度、位置、形状、及び、温度のうち少なくとも１つを含む
　請求項１に記載の情報処理装置。
　前記検出部は、加速度センサ及び角速度センサを備え、
　前記状態は、姿勢、速度、加速度、角速度、及び、角加速度のうち少なくとも１つを含む
　請求項８に記載の情報処理装置。
　前記視覚情報は、温度の分布を示す画像であるサーマル画像であり、
　前記検出部は、温度センサを備え、
　前記状態は、温度を含む
　請求項８に記載の情報処理装置。
　前記検出部は、エンコーダを含み、
　前記状態は、速度、加速度、角速度、角加速度、及び、位置のうち少なくとも１つを含む
　請求項８に記載の情報処理装置。
　前記物体の一部分は、変形可能なデバイスを備え、
　前記検出部は、前記デバイスの形状を検出するセンサを備え、
　前記状態は、形状を含む
　請求項８に記載の情報処理装置。
　前記視覚情報内の各領域の状態、及び、前記物体の一部分の状態のうち少なくとも１つを検出する状態検出部を
　さらに備える請求項１に記載の情報処理装置。
　前記検出データを受信する受信部を
　さらに備え、
　前記状態検出部は、受信した前記検出データに基づいて、前記物体の一部分の状態を検出する
　請求項１３に記載の情報処理装置。
　情報処理装置が、
　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する
　情報処理方法。
　視覚情報内の各領域の状態、及び、前記視覚情報に含まれる物体が備える検出部により検出される検出データに基づく前記物体の一部分の状態に基づいて、前記視覚情報内の前記物体の一部分に対応する対象領域を認識する
　処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。