WO2023223704A1

WO2023223704A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2023223704A1
Application number: PCT/JP2023/014222
Authority: WO
Inventors: 泰広周藤
Original assignee: ソニーグループ株式会社
Priority date: 2022-05-20
Filing date: 2023-04-06
Publication date: 2023-11-23

Abstract

【課題】低遅延かつ高精度の物体追跡を実現する。【解決手段】時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、情報処理装置が提供される。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、時系列に取得された画像における対象物体の位置を追跡する技術が開発されている。例えば、特許文献１には、Lucas-Kanade法（以下、ＬＫ法、と称する）を用いた物体追跡技術が開示されている。

特開２０１１－２３３０３９号公報

　特許文献１に開示されるような追跡処理の速度は、画像のフレームレートに大きく依存する。

　本開示のある観点によれば、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、情報処理装置が提供される。

　また、本開示の別の観点によれば、プロセッサが、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行うこと、を含み、前記追跡を行うことは、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、情報処理方法が提供される。

　また、本開示の別の観点によれば、コンピュータを、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、情報処理装置、として機能させるプログラムが提供される。

本開示の一実施形態に係る追跡処理の流れを概略的に示す図である。同実施形態に係る近似画像１３を用いた動き量計算の概略を示す図である。同実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。同実施形態に係る画像の時系列処理の概要について説明するための図である。同実施形態に係る追跡処理の流れの一例を示すフローチャートである。同実施形態に係る学習の流れの一例を示すフローチャートである。同実施形態に係る追跡処理の結果をＮＵＩにおけるジェスチャ解析に用いる場合の構成について説明するための図である。同実施形態に係る追跡処理の結果をＲＧＢ画像１１の取得に係るパラメータの計算に用いる場合の構成について説明するための図である。同実施形態に係る２ｉｎ１センサ１６０の構造について説明するための図である。同実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。ＲＧＢ画像を用いたＬＫ法ベースの追跡処理の流れの一例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．情報処理装置１０の機能構成例
　　１．３．追跡処理の詳細
　　１．４．学習の詳細
　　１．５．アプリケーションへの適用例
　　１．６．センサの変形例
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　上述したように、近年、時系列に取得された画像における対象物体の位置を追跡する技術が開発されている。上記画像の一例としては、ＲＧＢ画像が挙げられる。

　ＲＧＢ画像を用いた一般的な追跡手法では、フレーム間の画素ごとの動きを計算することにより対象物体の追跡を行う。

　しかし、一般的な追跡処理のフローは、画像取得、動き検出、追跡、の順に実施されるため、１フレーム以上の遅延が発生することとなる。例えば、ＲＧＢ画像を６０ＦＰＳで取得する場合、１／６０秒以上の遅延が発生する。

　上記のような遅延は、追跡結果が用いられるアプリケーションの性質によっては、許容し難い場合がある。

　例えば、ジェスチャ入力に対応したＮＵＩ（Natural User Interface）のように、ＲＧＢカメラの前でユーザの手などの対象物体が大きく動くユースケースの場合、ピントのずれや対象物体の位置の変化等により、１／６０秒の間にＲＧＢ画像が大きく変化することも想定される。この場合、追跡の精度が大きく低下したり、追跡に失敗したりする可能性がある。

　一方、近年では、ＥＶＳ（Event-based Vision Sensor）を用いた追跡技術も開発されている。ＥＶＳは、各画素の輝度変化を検出し、輝度が変化したデータを座標および時間情報と組み合わせて出力する、高速かつ低遅延なデータ出力を実現するビジョンセンサーである。

　しかし、ＥＶＳが出力する信号は、「＋１」、「０」、「－１」の３値であることから、そのままでは時間方向のマッチングが困難となる場合がある。

　このため、時間方向にデータを積算することで疑似的に多階調の画像データを作成し、当該画像データに基づいて追跡処理を行う場合がある。

　しかし、この場合、ＥＶＳが有する高速応答性が犠牲となる。また、上記のような疑似的な画像データは、一般的なＲＧＢ画像と比較してノイズが多いため、動き計算の精度が低下する可能性がある。

　本開示の一実施形態に係る技術思想は、上記のような点に着目して発想されたものであり、低遅延かつ高精度の物体追跡を実現するものである。

　このために、本開示の一実施形態に係る情報処理装置１０は、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部１３０（図３参照）を備える。

　また、本開示の一実施形態に係る追跡処理部１３０は、第１の画像に基づき対象物体を検出し、第１の画像に由来する空間勾配および第２の画像に由来する時間勾配に基づき対象物体の動き量を計算し、当該動き量に基づき対象物体の追跡を行うことを特徴の一つとする。

　また、上記第２の画像は、上記第１の画像と比較して高いフレームレートで取得されることを特徴の一つとする。

　さらには、上記第１の画像は、上記第２の画像と比較してノイズの少ない画像、すなわち物体検出等に適した画像であってもよい。

　本実施形態に係る第１の画像は、例えば、ＲＧＢセンサにより取得されたＲＧＢ画像であってもよい。

　また、本実施形態に係る第２の画像は、例えば、ＥＶＳにより取得されたＥＶＳ画像であってもよい。

　本実施形態に係る情報処理方法が奏する効果について説明するために、まず、ＲＧＢ画像を用いたＬＫ法ベースの追跡処理について述べる。

　図１１は、ＲＧＢ画像を用いたＬＫ法ベースの追跡処理の流れの一例を示す図である。

　図１１に示す一例の場合、まず、ＲＧＢカメラによりＲＧＢ画像１１が取得される。ここでは、ＲＧＢ画像１１のフレームレートを６０Ｈｚとする。

　次に、取得されたＲＧＢ画像１１に基づき対象物体の検出が行われる（Ｓ９０１）。ステップＳ９０１における対象物体の検出は、例えば、１０Ｈｚ程度のレートで実施され得る。

　また、取得されたＲＧＢ画像に基づき空間微分（Ｓ９０２）および時間微分（Ｓ９０３）が実施される。

　次に、ステップＳ９０２における空間微分により求められた空間勾配、およびステップＳ９０３における時間微分により求められた時間勾配に基づいて、動き量が計算される（動き量＝時間勾配／空間勾配）（Ｓ９０４）。

　次に、ステップＳ９０１における対象物体の検出の結果、およびステップＳ９０４における動き量計算の結果に基づき追跡位置の累積計算が実施され（Ｓ９０５）、追跡後の位置データ１９が出力される。位置データ１９は、ステップＳ９０１における次の対象物体の検出に用いられる。

　ステップＳ９０２における空間微分、ステップＳ９０３における時間微分、ステップＳ９０４における動き量計算、およびステップＳ９０５における追跡処理の速度は、図示するようにＲＧＢ画像１１のフレームレート（６０Ｈｚ）に依存する。

　このため、図１１に示すような手法の場合、対象物体の動きが大きい場合等、ＲＧＢ画像１１の変化が大きい場合、対象物体を見失い追跡に失敗する可能性がある。

　一方、図１は、本開示の一実施形態に係る追跡処理の流れを概略的に示す図である。

　本実施形態に係る追跡処理では、まず、ＲＧＢセンサ１１０（図３参照）によりＲＧＢ画像１１が取得され、ＥＶＳ１２０（図３参照）によりＥＶＳ画像１２が取得される。ここでは、ＲＧＢ画像１１のフレームレートを６０Ｈｚ、ＥＶＳ画像のフレームレートを１ｋＨｚとする。

　本実施形態に係る追跡処理部１３０は、図１１に示す手法と同様に、ＲＧＢ画像１１に基づき、対象物体の検出（Ｓ１０１）および空間微分（Ｓ１０２）を実施する。

　一方、本実施形態に係る追跡処理部１３０は、図１１に示す手法とは異なり、ＥＶＳ画像１２に基づき時間微分を実施する（Ｓ１０３）。

　また、本実施形態に係る追跡処理部１３０は、ステップＳ１０２における空間微分により求めた空間勾配およびステップＳ１０３における時間微分により求めた時間勾配に基づき動き量を計算する（Ｓ１０４）。

　次に、本実施形態に係る追跡処理部１３０は、ステップＳ１０１における対象物体の検出の結果、およびステップＳ１０４における動き量計算の結果に基づいて、追跡位置の累積計算を行い（Ｓ１０５）、追跡後の位置データ１９を出力する。

　上記のような情報処理方法によれば、ステップＳ１０３における時間微分、ステップＳ１０４における動き量計算、およびステップＳ１０５における追跡位置の累積計算をＥＶＳ画像１２のフレームレート（１ｋＨｚ）で実施可能となる。

　さらには、上記のような情報処理方法によれば、フレームレートの高いＥＶＳ画像１２に基づき時間変化をとらえることで対象物体の大きな動き等にも対応が可能となるとともに、ＲＧＢ画像１１を用いることでＥＶＳ画像１２単体では追跡が難しい小さな動きにも対応が可能となる。

　しかし、ＲＧＢ画像１１とＥＶＳ画像１２はデータ素性が大きく異なるため、ＲＧＢ画像１１そのものに基づき空間勾配を計算する場合、追跡の精度が低下する場合も想定される。

　このため、本実施形態に係る追跡処理部１３０は、ＲＧＢ画像１１（第１の画像の一例）をＥＶＳ画像１２（第２の画像の一例）に近似した近似画像１３に基づき空間勾配を計算してもよい。

　また、このために、本実施形態に係る追跡処理部１３０は、第１の画像を入力とし近似画像１３を出力する推定器１３５（図２参照）を備えてもよい。

　図２は、本実施形態に係る近似画像１３を用いた動き量計算の概略を示す図である。なお、図２には、対象物体が車両のタイヤである場合の一例が示される。

　図２に示すように、本実施形態に係る追跡処理部１３０は、推定器１３５にＲＧＢ画像１１を入力し、推定器１３５が出力した近似画像１３に基づいて空間勾配を計算する。

　また、本実施形態に係る追跡処理部１３０は、ＥＶＳ画像に基づき時間勾配を計算する。

　さらには、本実施形態に係る追跡処理部１３０は、上記のように計算した空間勾配と時間勾配とに基づいて、動き量１５を算出する。

　上記のような情報処理方法によれば、動き量１５の算出、また動き量１５に基づく追跡位置の累積計算をＥＶＳ画像１２のフレームレートで処理可能となるとともに、ＲＧＢ画像１１とＥＶＳ画像１２のデータ素性の差を吸収し、より精度の高い追跡が実現可能となる。

　＜＜１．２．情報処理装置１０の機能構成例＞＞
　次に、本実施形態に係る情報処理装置１０の機能構成例について述べる。図３は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。

　図３に示すように、本実施形態に係る情報処理装置１０は、ＲＧＢセンサ１１０、ＥＶＳ１２０、追跡処理部１３０、およびアプリケーション処理部１４０を備えてもよい。

　（ＲＧＢセンサ１１０）
　本実施形態に係るＲＧＢセンサ１１０は、第１の画像を取得する第１のセンサの一例である。

　（ＥＶＳ１２０）
　本実施形態に係るＥＶＳ１２０は、第２の画像を取得する第２のセンサの一例である。

　（追跡処理部１３０）
　本実施形態に係る追跡処理部１３０は、ＲＧＢセンサ１１０により時系列に取得されるＲＧＢ画像１１およびＥＶＳ１２０により時系列に取得されるＥＶＳ画像に基づき、所定の対象物体の検出および追跡を行う。

　本実施形態に係る追跡処理部１３０は、ＲＧＢ画像１１に基づき対象物体を検出し、ＲＧＢ画像１１に由来する空間勾配およびＥＶＳ画像１２に由来する時間勾配に基づき対象物体の動き量を計算し、当該動き量に基づき対象物体の追跡を行うことを特徴の一つとする。

　本実施形態に係る追跡処理部１３０が有する機能は、各種のプロセッサにより実現される。なお、本実施形態に係る追跡処理部１３０が有する機能の詳細については後述する。

　（アプリケーション処理部１４０）
　本実施形態に係るアプリケーション処理部１４０は、追跡処理部１３０による対象物体の追跡の結果に基づきアプリケーションの制御を行う。

　本実施形態に係るアプリケーション処理部１４０が有する機能は、各種のプロセッサにより実現される。なお、上記アプリケーションの具体例については後述する。

　以上、本実施形態に係る情報処理装置１０の機能構成例について述べた。なお、図３を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成はかかる構成に限定されない。

　例えば、本実施形態に係る情報処理装置１０は、ユーザによる操作を受け付ける操作部や、各種の情報を表示する表示部１５０をさらに備えてもよい。

　また、図３に示す各構成は必ずしも単一の装置に備えられなくてもよい。例えば、追跡処理部１３０およびアプリケーション処理部１４０は、クラウドに配置されるサーバに備えられ、ローカルに設置されるＲＧＢセンサ１１０およびＥＶＳ１２０からネットワークを介して画像を受信してもよい。

　また、上述したように、本実施形態に係る第１の画像および第２の画像は、それぞれＲＧＢ画像１１、ＥＶＳ画像に限定されるものではない。

　本実施形態に係る追跡処理部１３０は、例えば、ＬＩＤＡＲ画像、ＴｏＦ画像などを用いて対象物体の追跡を行ってもよい。

　本実施形態に係る情報処理装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．追跡処理の詳細＞＞
　次に、本実施形態に係る対象物体の追跡処理について詳細に説明する。上述したように、本実施形態に係る追跡処理部１３０は、ノイズの少ないＲＧＢ画像１１と高フレームレートのＥＶＳ画像１２を用いて低遅延かつ高精度の物体追跡を実現する。

　本実施形態に係る追跡処理部１３０は、ＲＧＢ画像１１およびＥＶＳ画像１２を入力として画像における対象物体の中心位置の座標（ｕ，ｖ）をＥＶＳ画像のフレームレートで毎フレーム出力可能である。

　ただし、ＲＧＢ画像１１とＥＶＳ画像１２は、フレームレート、データ素性ともに大きく異なる。

　このため、本実施形態に係る追跡処理部１３０は、後述する教師あり学習により生成された推定器１３５を用いてＲＧＢ画像１１から近似画像１３を得ることにより差異を吸収する。

　図４は、本実施形態に係る画像の時系列処理の概要について説明するための図である。なお、図４においては、対象物体を車両のタイヤとし、当該タイヤの中心位置を斜線で強調して示す。

　図４に示すように、ＲＧＢセンサ１１０は、時刻ｔの経過に伴いＲＧＢ画像１１を取得する。同様に、ＥＶＳ１２０は、時刻ｔの経過に伴いＥＶＳ画像１２を取得する。

　ＲＧＢ画像１１は、ＥＶＳ画像１２と比べて低フレームレートで取得されるため、ＥＶＳ画像１２のフレームレート毎に動き量を計算するためには、ＲＧＢ画像１１が取得されない期間におけるデータを補間することが求められる。

　そこで、本実施形態に係る追跡処理部１３０は、ＲＧＢ画像１１をＥＶＳ画像１２に近似する教師あり学習により生成された推定器１３５を用いて近似画像１３を生成し、近似画像１３に基づいて空間勾配を計算してよい。

　上記のような情報処理方法によれば、ＥＶＳ画像１２に基づき計算した時間勾配と近似画像１３に基づき計算した空間勾配とを用いて、ＥＶＳ画像１２のフレームレート毎に動き量を精度高く計算することが可能となる。

　続いて、本実施形態に係る追跡処理の流れについてより詳細に説明する。図５は、本実施形態に係る追跡処理の流れの一例を示すフローチャートである。

　図５に示す一例の場合、まず、ＲＧＢセンサ１１０が、ＲＧＢ画像１１を取得し（Ｓ２０２）、ＥＶＳ１２０がＥＶＳ画像１２を取得する（Ｓ２０４）。

　追跡処理部１３０は、ステップＳ２０２において取得されたＲＧＢ画像１１に基づいて対象物体の検出を行い、対象物体の中心位置の座標（ｕ，ｖ）を得る（Ｓ２０６）。

　続いて、追跡処理部１３０は、一連の処理を終了するか否かを判定する（Ｓ２０８）。追跡処理部１３０は、例えば、所定の終了条件を満たしたか否か、またはユーザにより処理の終了が指示されたか否か、等に基づいて上記判定を行ってもよい。

　追跡処理部１３０は、処理を終了すると判定した場合（Ｓ２０８：ＹＥＳ）、一連の処理を終了し、処理を終了しないと判定した場合（Ｓ２０８：ＮＯ）、一連の処理を続行する。

　なお、処理を終了しない場合、ステップＳ２０６において取得された対象物体の中心位置の座標（ｕ，ｖ）は、後述するステップＳ２１６における整合処理において用いられる。

　また、追跡処理部１３０は、ステップＳ２０２において取得されたＲＧＢ画像１１を推定器１３５に入力し、近似画像１３を得る（Ｓ２１０）。

　続いて、追跡処理部１３０は、ステップＳ２０４において取得されたＥＶＳ画像１２、およびステップＳ２１０において取得した近似画像１３に基づき勾配計算を行う（Ｓ２１２）。

　すなわち、追跡処理部１３０は、ステップＳ２０４において取得されたＥＶＳ画像１２に基づき時間勾配を計算し、ステップＳ２１０において取得した近似画像から空間勾配を計算し、時間勾配と空間勾配とに基づいて動き量を計算する。

　ここで、まず、一般的な勾配計算式について述べる。一般的な勾配計算式は、以下のように設定され得る。

　　　Ｉｘ（ｕ，ｖ，ｔ）　＝　Ｉ（ｕ＋１，ｖ，ｔ）　－　Ｉ（ｕ－１，ｖ，ｔ）
　　　Ｉｙ（ｕ，ｖ，ｔ）　＝　Ｉ（ｕ，ｖ＋１，ｔ）　－　Ｉ（ｕ，ｖ－１，ｔ）
　　　Ｉｔ（ｕ，ｖ，ｔ）　＝　Ｉ（ｕ，ｖ，ｔ）　－　Ｉ（ｕ，ｖ，ｔ－１）

　上記勾配計算式において、ＩはＲＧＢ画像を、ｕはＵ座標を、ｖはＶ座標を、ｔは時刻（フレーム番号）をそれぞれ表す。また、Ｉｘはｘ軸（空間横軸）における空間勾配、Ｉｙはｙ軸（空間縦軸）における空間勾配、Ｉｔはｔ軸（時間軸）における時間勾配をそれぞれ表す。

　次に、周辺画素を組み合わせて下記の数式（１）に示す推定方程式を作る。

　上記数式（１）を下記の数式（２）に示すようにまとめて表記し、さらに最小二乗を解くと下記の数式（３）となる。

　本実施形態に係る追跡処理部１３０は、Ｉｘの計算においてＩをＥＶＳ画像１２で置き換え、ＩｙおよびＩｔの計算においてＩを近似画像１３で置き換えて上記数式（３）を解くことで動き量（ｄｕ，ｄｖ）を得る。

　まず、Ｉｔの計算においてＩをＥＶＳ画像１２に置き換える計算について説明する。上記で述べたように、ＥＶＳ画像１２とＲＧＢ画像１１は、フレームレートが大きく異なる。このため、Ｉｔの計算においてＩをＥＶＳ画像１２に置き換える場合、Ｉｔと、Ｉｘ・Ｉｙの変化を保障しながら計算を行うことが求められる。このため、以下のように式を設定する。

　　　Ｉｔ（ｕ，ｖ，ｔ＋α）　＝　ＥＶＳ（ｕ，ｖ，ｔ＋α）
　　　Ｉｘ（ｕ，ｖ，ｔ＋α）　＝　Ｉｘ（ｕ＋ｄｕ’，ｖ＋ｄｖ’，ｔ）
　　　Ｉｙ（ｕ，ｖ，ｔ＋α）　＝　Ｉｙ（ｕ＋ｄｕ’，ｖ＋ｄｖ’，ｔ）

　上記の式において、αは非常に小さい時間を表す。また、ｄｕ’およびｄｖ’は、時刻ｔから時刻ｔ＋αまでの動き量を表す。また、ＥＶＳはＥＶＳ画像１２を表す。上記の式により得られた動き量（ｄｕ，ｄｖ）は、次のＩｘおよびＩｙの計算に用いられる。

　ここで、上述したように、ＲＧＢ画像１１とＥＶＳ画像１２はデータ素性が大きく異なることから、追跡処理部１３０は、より精度の高い追跡を行うために、ＩｘおよびＩｙの計算においてＩを近似画像１３に置き換える。この場合、勾配計算式は以下のように表される。

　　　Ｉｔ（ｕ，ｖ，ｔ＋α）　＝　ＥＶＳ（ｕ，ｖ，ｔ＋α）
　　　Ｉｘ（ｕ，ｖ，ｔ＋α）　＝　ＤＮＮ（ｕ＋ｄｕ’，ｖ＋ｄｖ’，ｔ）
　　　Ｉｙ（ｕ，ｖ，ｔ＋α）　＝　ＤＮＮ（ｕ＋ｄｕ’，ｖ＋ｄｖ’，ｔ）

　なお、上記の式において、ＤＮＮは近似画像１３を表す。

　以上、本実施形態に係る追跡処理部１３０による勾配計算について説明した。

　追跡処理部１３０は、ステップＳ２１２において上述のように計算した動き量（ｄｕ，ｄｖ）に基づき、対象物体の追跡位置に係る累積計算を行い、対象物体の中心位置の座標（ｕ，ｖ）を得る（Ｓ２１４）。

　次に、追跡処理部１３０は、ステップＳ２０６において検出された対象物体の中心位置の座標（ｕ，ｖ）と、ステップＳ２１４において得た対象物体の中心位置の座標（ｕ，ｖ）とを比較し、必要に応じて整合処理を行う（Ｓ２１６）。

　ステップＳ２１６の後、追跡処理部１３０は、該当フレームにおける最終的な追跡位置（対象物体の中心位置の座標（ｕ，ｖ））を出力する（Ｓ２１８）。なお、当該追跡位置は、ステップＳ２１２における勾配計算、ステップＳ２１４における対象物体の追跡位置に係る累積計算にも用いられる。

　＜＜１．４．学習の詳細＞＞
　次に、本実施形態に係る学習方法について詳細に説明する。本実施形態に係る推定器１３５は、近似画像１３に基づく時間勾配および第２の画像に基づく時間勾配から計算した動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成されてもよい。

　本実施形態に係る推定器１３５は、例えば、微分可能または線形演算可能なＬｏｓｓ関数を有するディープニューラルネットワーク（以下、ＤＮＮ、と称する）であってもよい。

　上記の数式（３）は線形の行列計算であるため、教師となる正解動き量（ｄｕｇｔ，ｄｖｇｔ）が与えられれば、ＤＮＮのパラメータが学習可能である。

　図６は、本実施形態に係る学習の流れの一例を示すフローチャートである。

　図６に示す一例の場合、まず、ＲＧＢセンサ１１０がＲＧＢ画像１１を取得する（Ｓ３０２）。また、ＥＶＳ１２０がＥＶＳ画像１２を取得する（Ｓ３０４）。また、例えばユーザによる操作に基づいて正解動き量（ｄｕｇｔ，ｄｖｇｔ）が与えられる（Ｓ３０６）。

　追跡処理部１３０（または、学習用の他の構成）は、ステップＳ３０２において取得されたＲＧＢ画像１１を推定器１３５に入力し、近似画像１３を取得する（Ｓ３０８）。すなわち、追跡処理部１３０は、ＲＧＢ画像１１をＤＮＮのフィルタリングにかけることで近似画像１３を得る。

　次に、追跡処理部１３０は、ステップＳ３０８において取得した近似画像１３に基づく空間勾配の計算、ステップＳ３０４において取得されたＥＶＳ画像１２に基づく時間勾配の計算を行い、算出した空間勾配および時間勾配に基づき動き量（ｄｕ，ｄｖ）を計算する（Ｓ３１０）。

　次に、追跡処理部１３０は、ステップＳ３１０において計算した動き量（ｄｕ，ｄｖ）と、ステップＳ３０６において取得した正解動き量（ｄｕｇｔ，ｄｖｇｔ）とに基づきＬｏｓｓを計算する（Ｓ３１２）。

　次に、追跡処理部１３０は、学習を終了するか否かを判定する（Ｓ３１４）。追跡処理部１３０は、例えば、所定の終了条件を満たしたか否か、またはユーザにより処理の終了が指示されたか否か、等に基づいて上記判定を行ってもよい。

　追跡処理部１３０は、学習を終了すると判定した場合（Ｓ３１４：ＹＥＳ）、学習に係る一連の処理を終了する。

　一方、追跡処理部１３０は、学習を終了しないと判定した場合（Ｓ３１４：ＮＯ）、ステップＳ３１２において計算したＬｏｓｓに基づきＤＮＮのパラメータを更新し、次の学習サイクルに移行する。

　以上、本実施形態に係る学習方法の流れについて一例を挙げて説明した。上記で述べたような学習方法によれば、勾配計算の結果として取得する動き量（ｄｕ，ｄｖ）を正解動き量（ｄｕｇｔ，ｄｖｇｔ）に近づける効率的な学習を実現することができる。

　＜＜１．５．アプリケーションへの適用例＞＞
　次に、本実施形態に係る追跡処理の結果をアプリケーションにおいて用いる場合の例について述べる。

　例えば、本実施形態に係る追跡処理の結果は、ＮＵＩにおけるジェスチャ解析に用いられてもよい。図７は、本実施形態に係る追跡処理の結果をＮＵＩにおけるジェスチャ解析に用いる場合の構成について説明するための図である。

　本例の場合、対象物体は、例えば、ユーザの手８５であってもよい。追跡処理部１３０は、ユーザの手８５を被写体としてＲＧＢセンサ１１０が取得したＲＧＢ画像１１およびＥＶＳ１２０が取得したＥＶＳ画像１２に基づき追跡処理を行い、結果をジェスチャ解析部１４２に出力する。

　ジェスチャ解析部１４２は、上述したアプリケーション処理部１４０の一例である。ジェスチャ解析部１４２は、追跡処理部１３０から出力される追跡処理の結果に基づいて、ユーザの手８５が行ったジェスチャを解析する。

　また、ジェスチャ解析部１４２は、ジェスチャ解析の結果に基づいて、例えば、表示部１５０に表示されるアイコン等の制御などを行ってもよい。

　本実施形態に係る低遅延かつ高精度の追跡処理によれば、動きの大きいジェスチャなどにも広く対応することができ、またジェスチャ解析の結果に基づきＮＵＩを高精度かつ迅速に制御することが可能となる。

　また、例えば、本実施形態に係る追跡処理の結果は、第１の画像の取得に係るパラメータの計算に用いられてもよい。図８は、本実施形態に係る追跡処理の結果をＲＧＢ画像１１の取得に係るパラメータの計算に用いる場合の構成について説明するための図である。

　本例の場合、対象物体は、例えば、大きな動きを行うユーザ８０などの動体であってもよい。追跡処理部１３０は、例えば、ユーザ８０を被写体としてＲＧＢセンサ１１０が取得したＲＧＢ画像１１およびＥＶＳ１２０が取得したＥＶＳ画像１２に基づき追跡処理を行い、結果をパラメータ計算部１４４に出力する。

　パラメータ計算部１４４は、上述したアプリケーション処理部１４０の一例である。パラメータ計算部１４４は、追跡処理部１３０から出力される追跡処理の結果に基づいて、ＲＧＢ画像１１の取得により適したパラメータを計算する。

　上記パラメータには、例えば、絞り値、シャッタースピード、ＩＳＯ感度、ホワイトバランスなどが挙げられる。

　パラメータ計算部１４４は、計算した上記のようなパラメータの値をＲＧＢセンサ１１０に出力する。

　本実施形態に係る低遅延かつ高精度の追跡処理の結果を上記のようなパラメータの計算に用いることにより、対象物体にピントが合うようフォーカスを自動で調整すること等ができ、高速に動く対象物体や遠方に位置する対象物体であってもピントがずれることなく高品質な撮影が実現可能となる。

　＜＜１．６．センサの変形例＞＞
　次に、本実施形態に係るセンサの変形例について述べる。上記では、情報処理装置１０が、ＲＧＢ画像１１を撮影するＲＧＢセンサ１１０とＥＶＳ画像１２を取得するＥＶＳ１２０とを別個に備える場合を主な例として述べた。

　一方、本実施形態に係るＲＧＢ画像１１とＥＶＳ画像とは、単一のセンサにより取得されてもよい。すなわち、本実施形態に係るＲＧＢセンサ１１０およびＥＶＳ１２０は、一体形成されてもよい。

　図９は、本実施形態に係る２ｉｎ１センサ１６０の構造について説明するための図である。図９に示すように、本実施形態に係る２ｉｎ１センサ１６０は、基板上にＲＧＢ画素１１５とＥＶＳ画素１２５とが並んで配列された構造を有してもよい。

　上記のような構造によれば、ＲＧＢ画像１１の取得およびＥＶＳ画像の取得に係る光軸が自動的に合い、ＲＧＢセンサ１１０とＥＶＳ１２０を別個に備える場合に生じ得るセンサ間の視差に起因するオクルージョンや位相ずれなどを解消することが可能となる。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図１０は、本開示の一実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。情報処理装置９０は、情報処理装置１０と同等のハードウェア構成を有する装置であってよい。

　図１０に示すように、情報処理装置９０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記憶媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体９０１に記録された情報を読み出し、又はリムーバブル記憶媒体９０１に情報を書き込む装置である。

　（リムーバブル記憶媒体９０１）
リムーバブル記憶媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理装置１０は、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部１３０を備える。

　上記の構成によれば、低遅延かつ高精度の物体追跡を実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本開示において説明した処理に係る各ステップは、必ずしもフローチャートやシーケンス図に記載された順序に沿って時系列に処理される必要はない。例えば、各装置の処理に係る各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、本開示において説明した各装置による一連の処理は、コンピュータにより読み取り可能な非一過性の記憶媒体（non-transitory computer readable storage medium）に格納されるプログラムにより実現されてもよい。各プログラムは、例えば、コンピュータによる実行時にＲＡＭに読み込まれ、ＣＰＵなどのプロセッサにより実行される。上記記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のプログラムは、記憶媒体を用いずに、例えばネットワークを介して配信されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
　を備え、
　前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
情報処理装置。
（２）
　前記追跡処理部は、前記第１の画像を前記第２の画像に近似した近似画像に基づき前記空間勾配を計算する、
前記（１）に記載の情報処理装置。
（３）
　前記追跡処理部は、前記第１の画像を入力とし前記近似画像を出力する推定器を備える、
前記（２）に記載の情報処理装置。
（４）
　前記推定器は、前記近似画像に基づく前記時間勾配および前記第２の画像に基づく前記時間勾配から計算した前記動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成される、
前記（３）に記載の情報処理装置。
（５）
　前記第２の画像は、ＥＶＳにより取得される、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記第１の画像は、ＲＧＢセンサにより取得される、
前記（５）に記載の情報処理装置。
（７）
　前記ＥＶＳをさらに備える、
前記（６）に記載の情報処理装置。
（８）
　前記ＲＧＢセンサをさらに備える、
前記（７）に記載の情報処理装置。
（９）
　前記ＥＶＳおよび前記ＲＧＢセンサは一体に形成される、
前記（８）に記載の情報処理装置。
（１０）
　前記追跡処理部による前記対象物体の追跡の結果に基づきアプリケーションの制御を行うアプリケーション処理部、
　をさらに備える、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、ジェスチャ解析を行う、
前記（１０）に記載の情報処理装置。
（１２）
　前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、前記第１の画像の取得に係るパラメータを計算する、
前記（１０）に記載の情報処理装置。
（１３）
　前記パラメータは、絞り値を含む、
前記（１２）に記載の情報処理装置。
（１４）
　プロセッサが、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行うこと、
　を含み、
　前記追跡を行うことは、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
情報処理方法。
（１５）
　コンピュータを、
　時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
　を備え、
　前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
　情報処理装置、
として機能させるプログラム。

　１０　　　情報処理装置
　１１　　　ＲＧＢ画像
　１２　　　ＥＶＳ画像
　１３　　　近似画像
　１１０　　ＲＧＢセンサ
　１２０　　ＥＶＳ
　１３０　　追跡処理部
　１３５　　推定器
　１４０　　アプリケーション処理部
　１４２　　ジェスチャ解析部
　１４４　　パラメータ計算部

Claims

　時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
　を備え、
　前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
情報処理装置。
　前記追跡処理部は、前記第１の画像を前記第２の画像に近似した近似画像に基づき前記空間勾配を計算する、
請求項１に記載の情報処理装置。
　前記追跡処理部は、前記第１の画像を入力とし前記近似画像を出力する推定器を備える、
請求項２に記載の情報処理装置。
　前記推定器は、前記近似画像に基づく前記時間勾配および前記第２の画像に基づく前記時間勾配から計算した前記動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成される、
請求項３に記載の情報処理装置。
　前記第２の画像は、ＥＶＳにより取得される、
請求項１に記載の情報処理装置。
　前記第１の画像は、ＲＧＢセンサにより取得される、
請求項５に記載の情報処理装置。
　前記ＥＶＳをさらに備える、
請求項６に記載の情報処理装置。
　前記ＲＧＢセンサをさらに備える、
請求項７に記載の情報処理装置。
　前記ＥＶＳおよび前記ＲＧＢセンサは一体に形成される、
請求項８に記載の情報処理装置。
　前記追跡処理部による前記対象物体の追跡の結果に基づきアプリケーションの制御を行うアプリケーション処理部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、ジェスチャ解析を行う、
請求項１０に記載の情報処理装置。
　前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、前記第１の画像の取得に係るパラメータを計算する、
請求項１０に記載の情報処理装置。
　前記パラメータは、絞り値を含む、
請求項１２に記載の情報処理装置。
　プロセッサが、時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行うこと、
　を含み、
　前記追跡を行うことは、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
情報処理方法。
　コンピュータを、
　時系列に取得される第１の画像および第２の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
　を備え、
　前記追跡処理部は、前記第１の画像に基づき前記対象物体を検出し、前記第１の画像に由来する空間勾配および前記第２の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
　前記第２の画像は、前記第１の画像と比較して高いフレームレートで取得される、
　情報処理装置、
として機能させるプログラム。