WO2020080535A1

WO2020080535A1 - 対象追跡方法、対象追跡システムおよび対象追跡プログラム

Info

Publication number: WO2020080535A1
Application number: PCT/JP2019/041143
Authority: WO
Inventors: 抱石井; 則政岸; 明俊姜
Original assignee: 国立研究開発法人科学技術振興機構
Priority date: 2018-10-18
Filing date: 2019-10-18
Publication date: 2020-04-23
Also published as: CN112655018A; JPWO2020080535A1

Abstract

ステップＳ１は、第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識する。ステップＳ２は、学習的認識手法により認識された対象に基づいて、ＲＯＩ位置を初期化する。ステップＳ３は、ＲＯＩ位置に基づいて、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。ステップＳ４は、学習的認識手法により対象が認識された時点のフレームのＲＯＩと、第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったフレームのＲＯＩとの間の差異を補正する。

Description

対象追跡方法、対象追跡システムおよび対象追跡プログラム

　本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。

　対象追跡技術は、カメラで撮影した動画像中の特定の対象を認識し、追跡する技術である。近年の代表的な対象追跡技術には、テンプレートマッチングを用いて対象を局所的に追跡する手法（以下、局所的対象追跡手法」という）や、ディープラーニングなどの学習理論に基づく処理により対象を認識する手法（以下、「学習的認識手法」という）などがある（例えば非特許文献１）。

姜明俊、高木健、石井抱　「ディープラーニングを用いた高速対象追跡」　日本機械学会ロボティクス・メカトロニクス講演会２０１８　講演論文集　２Ａ１－Ｋ１７（２０１８）

　局所的対象追跡手法は、対象近傍のみで局所探索を行うため、実行速度を高速化できるというメリットがある反面、追跡開始時に初期テンプレートの人為的指定が必要である。このため、背景画面の複雑さや、対象のオクルージョン・姿勢変化等に起因して追跡の失敗が多発すると、追跡が困難になるという問題がある。

　一方、畳み込みニューラルネットワーク（ＣＮＮ）をベースとする学習的認識手法では、近年ディープラーニングの性能が著しく向上している。高性能ＧＰＵへの並列実装と相まって、学習的認識手法は、数十ｆｐｓ（ｆｒａｍｅ　ｐｅｒ　ｓｅｃｏｎｄ）といったフレームレートでのリアルタイム対象認識を実現している。

　学習的認識手法は、フレームごとに独立した形で対象認識を行うため、一度対象を見失っても瞬時に対象を再認識できるというメリットがある。しかしながら、必ずしもすべてのフレームで認識が安定するとは限らないため、認識結果が間欠的になるという問題がある。またアクティブビジョン等の機械的なフィードバックでは、数百ｆｐｓといった高速リアルタイム対象検出が要求される。しかしながら、これは現状のコンピュータ技術では困難である。このように学習的認識手法には、実行速度上の限界があるという問題がある。

　これに対し、近年、局所的対象追跡手法と学習的認識手法の双方のメリット活かしたハイブリッド対象追跡手法が提案されている（例えば非特許文献１）。非特許文献１に記載の技術では、あるフレームレートで実行される学習的認識手法による対象認識と、これより高いフレームレートで実行される局所的対象追跡手法による対象追跡とが並列動作している。

　この技術では、追跡が正常に機能している限り、相関フィルタによってＲＯＩ（Ｒｅｇｉｏｎ　Ｏｆ　Ｉｎｔｅｒｅｓｔ）の位置とテンプレートとが更新され、追跡が継続される。一方、追跡が外れて対象が見失われた場合は、学習的認識手法で認識された対象を基にＲＯＩ位置とテンプレートとが初期化され、これらを基に新たな追跡が行われる。これにより、オクルージョンなど、対象のアピアランス変化に対しても、ロバストな対象追跡が実現される。

　しかし実際には、学習的認識手法による対象認識は、一定の計算時間を必要とする。このため、あるフレームを基に対象認識処理を開始してから、この処理が完了して対象が認識されるまでの間に、上記の計算時間が経過する。ＲＯＩ位置やテンプレート初期化の対象となるフレームは、テンプレートマッチングを継続した結果現在に至ったフレーム（以下、「カレントフレーム」という）である。従って、対象認識処理を開始したフレームは、カレントフレームに対して遅延している。例えば、動画像のサンプリングレートが５００ｆｐｓで、対象認識処理を開始をしたフレームがカレントフレームに対して３０フレーム前のフレームだった場合、この遅延は６０ｍｓとなる。

　この遅延の間にフレーム内で対象が動くと、対象認識処理を開始したフレームと、カレントフレームとの間で、ＲＯＩ位置のずれが生じる。特に、高速カメラで撮影された動画像や、フレーム内の対象の動きが大きい動画像の場合、撮影中にカメラを左右にパンしたりすることにより発生するこのずれは大きいものとなる。このような場合、ハイブリッド対象追跡手法であっても、連続的で安定した追跡が困難となってしまう。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、高速な動画像に対しても、連続的で安定した対象追跡を実現する技術を提供することにある。

　上記課題を解決するために、本発明のある態様の対象追跡方法は、第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識するステップと、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正するステップと、補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するステップと、を備える。

　差異を補正するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像を再生するステップを備えてよい。

　実画像を再生するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像の一部を抽出したものを再生してもよい。

　カレントフレームのＲＯＩ位置は、第１のフレームレートで初期化されてよい。

　実施形態は、学習的認識手法により認識された対象に基づいて、第１のフレームレートで、テンプレートを初期化するステップをさらに備えてよい。

　実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、ＲＯＩ位置は、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、ＲＯＩ位置は、補正されたＲＯＩに基づいて初期化されてよい。

　実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、テンプレートは、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、テンプレートは、学習的認識手法により認識された対象に基づいて初期化されてよい。

　実施形態は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、差異を補正するステップは、学習的認識手法による対象の認識が開始されたフレームのＲＯＩ位置とテンプレートとを用いて、記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われてよい。

　本発明の別の対象追跡方法は、第１のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームの画像から、第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、予測されたカレントフレームのＲＯＩとの間の差異を補正するステップと、補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するステップと、を備える。

　学習的認識手法は、ディープラーニングを含んでよい。

　動画像は、高速カメラにより撮影された動画像であってよい。

　第２のフレームレートは、第１のフレームレートの８倍以上であってよい。

　本発明の別の態様は、対象追跡システムである。この対象追跡システムは、第１のフレームレートで、学習的認識手法により、動画像内の対象を認識する対象認識部と、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の少なくとも１つの対象を追跡する対象追跡部と、学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正する補正部と、補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するＲＯＩ位置初期化部と、を備える。

　本発明のさらに別の態様は、対象追跡プログラムである。この対象追跡プログラムは、第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識するステップと、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正するステップと、補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するステップと、をコンピュータに実行させる。

　なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、高速な動画像に対しても、連続的で安定した対象追跡を実現することができる。

実施形態に係る動画像のフレームを示す図である。第１実施形態に係る対象追跡方法のフロー図である。第２実施形態に係る対象追跡方法のフロー図である。第３実施形態に係る対象追跡方法のフロー図である。第４実施形態に係る対象追跡方法のフロー図である。第５実施形態に係る対象追跡方法のフロー図である。第６実施形態に係る対象追跡方法のフロー図である。第７実施形態に係る対象追跡方法のフロー図である。第８実施形態に係る対象追跡システムのブロック図である。第９実施形態に係る対象追跡システムのブロック図である。比較例に係る方法による対象追跡実験の結果を示す図である。図１１（ａ）、図１１（ｂ）は、それぞれ追跡された対象のｘ座標、ｙ座標を示す。第６実施形態による対象追跡実験の結果を示す図である。図１１（ａ）、図１１（ｂ）は、それぞれ追跡された対象のｘ座標、ｙ座標を示す。第９実施形態による対象追跡実験の結果を示す図である。

　実施形態を具体的に説明する前に、概要を説明する。
　図１は、本発明の実施形態に係る動画像のフレームを示す。フレームＦ_０、Ｆ_１、Ｆ_２、Ｆ_３、…、Ｆ_Ｎ－１は、追跡の対象となる動画像のフレームである。フレームｆ_１ｂ、ｆ_１ａ、ｆ_２ｂ、ｆ_２ａは、ディープラーニングなどの学習的認識手法により、対象認識が実行されるフレームである。フレームｆＩ_１ｂ、ｆＩ_１ａ、ｆＩ_２ｂ、ｆＩ_２ａは、バッファ等に記憶された実画像である。

　図１の例では、第１の周期ｔ１で、学習的認識手法により、動画像内の対象が周期的に認識される。以下、第１の周期ｔ１の逆数を第１のフレームレートと呼ぶ。学習的認識手法により対象が認識されると、この認識された対象に基づいて、ＲＯＩ位置が初期化される。この初期化されたＲＯＩ位置に基づいて、第２の周期ｔ２で、テンプレートを用いたテンプレートマッチングにより、動画像内の対象が追跡される。以下、第２の周期ｔ２の逆数を第２のフレームレートと呼ぶ。また、学習的手法による対象認識に要する計算時間をｔ３とする。なお動画像内の追跡対象は１つだけとは限らず、複数あってもよい。

　第１の周期ｔ１は、第２の周期ｔ２より長い。ここでは、ｔ１＝Ｎ・ｔ２であるとする。ｔ１はｔ２の８倍以上であること、すなわちＮ≧８であることが望ましい。換言すれば、第１のフレームレートは第２のフレームレートの８分の１以下であることが望ましい。

　ｆ_１ｂは、ある時点で、学習的認識手法により対象の認識が開始されるフレームを示す。このときの時刻ｔを－ｔ３とする。前述の通り対象認識に要する計算時間がｔ３であるので、ｔ＝０でこの計算が完了し、フレームｆ_１ａで対象が認識される。

　ｆ_１ｂの時点からｔ１の時間が経過してｔ＝ｔ１－ｔ３になると、フレームｆ_２ｂに対して、次の周期の対象認識が開始される。そして、ｔ＝ｔ１でこの対象認識が完了する。以下同様である。

　ｔ＝－ｔ３で対象の認識が開始されてから、ｔ＝０で対象の認識が完了するまでの実画像は、バッファ等に記憶される。本例では、ｔ＝－ｔ３における実画像ｆＩ_１ｂからｔ＝０における実画像ｆＩ_１ａが、バッファＢ１に記憶される。

　次の対象認識の周期では、ｔ＝ｔ１－ｔ３における実画像ｆＩ_２ｂからｔ＝ｔ１における実画像ｆＩ_２ａが、バッファＢ２に記憶される。以下同様である。

　Ｆ_０、Ｆ_１、Ｆ_２、Ｆ_３、…は、それぞれｔ＝０、ｔ２、２・ｔ２…で順次対象が追跡されたフレームを示す。前述の通りｔ＝０で学習的認識手法により対象が認識されるので、この時点のフレームＦ_０のＲＯＩ位置が更新される。このフレームＦ_０をカレントフレームＣＦ（Ｃｕｒｒｅｎｔ　Ｆｒａｍｅ）と呼ぶ。

　時刻ｔ＝ｔ１＝Ｎ・ｔ２で、次の周期の学習的認識手法による対象認識に基づいて、フレームＦ_Ｎ－１のＲＯＩ位置が新たな位置に初期化される。従って、もしＦ_１～Ｆ_Ｎ－２のいずれかのフレームで追跡が外れて対象が見失われた場合であっても、フレームＦ_Ｎ－１における対象認識により、Ｆ_Ｎ以降のフレームで追跡を再開することができる。

　図１の下段に示されるように、学習的認識手法による対象認識が開始されたフレームｆ_１ｂは、カレントフレームＣＦに対し、時間にしてｔ３だけ遅延している。もしこのｔ３の間に動画内で対象が大きく動くと、フレームｆ_１ｂ内の対象位置（ＲＯＩ位置）と、カレントフレームＣＦ内の対象位置との間に大きな差異が生じる。

　実施形態は、この差異を補正する。実施形態は、バッファＢ１内に記憶したフレームｆＩ_１ｂからｆＩ_１ａまでの実映像を再生して対象を追跡し、ＲＯＩ位置を補正する。この実映像の再生は、記憶したすべてのフレームを用いた高速再生であってもよく、記憶したフレームから抽出したフレームのサブセットのコマ送り的な再生であってもよい。

　図１の中段に示されるように、ｔ＝－ｔ３ではフレームｆＩ_１ｂの下左隅にあったＲＯＩＩ_１ｂは、ｔ＝０ではフレームｆＩ_１ａの下右隅のＩ_１ａに移動している。一方、図１の下段に示されるように、ｔ＝０で対象認識されたフレームｆ_１ａのＲＯＩ_１は、ｔ＝－ｔ３におけるフレームｆ_１ｂに基づいて計算されているので、フレームｆ_１ａの下左隅にある。このＲＯＩ_１は、実画像にＩ_１ａよって補正される。そしてこの補正されたＲＯＩに基づいて、カレントフレームＣＦのＲＯＩ位置が更新される。

　このようにして、更新されるＲＯＩ位置は、カレントフレームＣＦ内の対象位置から遅延したものではなく、常にカレントフレームＣＦに追随したものとなる。従って、滑らかで途切れのない対象追跡を実現することができる。

　以下、図２～図８を参照して、本発明の種々の実施形態を説明する。実施形態および変形例では、同一または同等の構成要素には同一の符号を付すものとし、適宜重複した説明は省略する。図２～図８のフロー図は、第１のフレームレートで、学習的手法により対象が認識される周期、すなわち第１の周期についての１周期分のフローを示すものである。

（第１実施形態）
　図２は、第１実施形態に係る対象追跡方法のフロー図である。
　「開始」で、ある第１の周期についての学習的手法による対象の追跡が開始される。

　ステップＳ１で本方法は、第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識する。学習的認識手法には、例えばＣＮＮをベースとするディープラーニングが使われてよい。対象の認識は例えば、（１）認識候補の検出、（２）ターゲットの決定、の２段階で行われてよい。これによりターゲットＲＯＩの画像、位置、サイズなどが認識される。

　ステップＳ２で本法は、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。動画像内の対象の追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、（１）相関フィルタに用いるＲＯＩ画像選択、（２）周波数空間での相関計算、（３）相関ピーク検出に基づく追跡ＲＯＩ領域更新、などの処理を含んでよい。

　ステップＳ３で本方法は、ステップＳ１で学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、ステップＳ２で第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して対象を追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。

　ステップＳ４で本方法は、ステップＳ３で補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化する。

　「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第１の周期についての学習的手法による対象の追跡が開始される。以下、第１の周期ごとに同様のフローが繰り返される。

　本実施例によれば、ＲＯＩ位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなる。これにより、滑らかで途切れのない対象追跡を実現することができる。

（第２実施形態）
　図３は、第２実施形態に係る対象追跡方法のフロー図である。
　第２実施形態は、第１実施形態のステップＳ４に代えて、ステップＳ４１を備える。その他の処理は、第１実施形態と共通である。

　ステップＳ４１で本方法は、ステップＳ３で補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を、第１のフレームレートで初期化する。すなわち本実施形態では、第１のフレームレートで学習的認識手法により対象が認識されると、それに応じて、ＲＯＩ位置は毎回初期化される。

　本実施形態によれば、学習的認識手法で得た認識結果を、ＲＯＩ位置の更新に最大限利用することができる。

（第３実施形態）
　図４は、第３実施形態に係る対象追跡方法のフロー図である。
　第３実施形態は、第１実施形態の各処理に加えて、ステップＳ５をさらに備える。その他の処理は、第１実施形態と共通である。

　ステップＳ５で本方法は、ステップＳ１で学習的認識手法により認識された対象に基づいて、第１のフレームレートでテンプレート及びＲＯＩ位置を初期化する。すなわち本実施形態では、第２のフレームレートで行われる対象追跡に用いられるテンプレート及びＲＯＩ位置が、第１のフレームレートで学習的認識手法によって対象が認識される度に、毎回初期化される。

　本実施形態によれば、学習的認識手法で得た認識結果を、テンプレート及びＲＯＩ位置の更新に最大限利用することができる。

（第４実施形態）
　図５は、第４実施形態に係る対象追跡方法のフロー図である。
　第４実施形態は、第１実施形態の各処理に加えて、ステップＳ４２およびステップＳ６をさらに備える。その他の処理は、第１実施形態と共通である。

　ステップＳ６で本方法は、対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のＲＯＩの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップＳ６での比較結果が所定の値以下のときは、ステップＳ４２で、テンプレートマッチングにより追跡された対象に基づいてＲＯＩ位置を初期化する。一方、ステップＳ６での比較結果が所定の値より大きいときは、ステップＳ４で、補正されたＲＯＩに基づいてカレントフレームのＲＯI位置を初期化する。すなわち本実施形態では、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、ＲＯＩ位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡が外れて対象が見失われた場合に限り、ＲＯＩ位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。

　本実施形態によれば、追跡軌跡が連続するように、ＲＯＩ位置を更新することができる。

（第５実施形態）
　図６は、第５実施形態に係る対象追跡方法のフロー図である。
　第５実施形態は、第３実施形態の各処理に加えてステップＳ５２およびステップＳ６をさらに備え、ステップＳ５に代えてステップＳ５１を備える。その他の処理は、第３実施形態と共通である。

　ステップＳ６で本方法は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のＲＯＩの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップＳ６での比較結果が所定の値以下のときは、ステップＳ５２で、テンプレートマッチングにより追跡された対象に基づいてテンプレート及びＲＯＩ位置を初期化する。一方、ステップＳ６での比較結果が所定の値より大きいときは、ステップＳ５１で、学習的認識手法により認識された対象に基づいてテンプレート及びＲＯＩ位置を初期化する。すなわち本実施形態では、対象の認識が開始されたフレームにおいて、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、テンプレート及びＲＯＩ位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡ＲＯＩが認識結果から逸脱した場合に限り、テンプレート及びＲＯＩ位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。

　本実施形態によれば、必要な場合にのみ、学習的認識手法で得た認識結果を、テンプレートの更新に利用することができる。

（第６実施形態）
　図７は、第６実施形態に係る対象追跡方法のフロー図である。
　第６実施形態は、第１実施形態の各処理に加えてステップＳ７をさらに備え、ステップＳ３に代えてステップＳ３１を備える。その他の処理は、第１実施形態と共通である。

　ステップＳ７で本方法は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶する。

　ステップＳ３１で本方法は、学習的認識手法による対象の認識が開始されたフレームのＲＯＩ位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのＲＯＩと、カレントフレームのＲＯＩとの間の差異を補正する。このときのテンプレートマッチングは、例えば、第２のフレームレートにおける１フレーム分に相当する時間で実行される。

　本実施形態によれば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのテンプレートマッチングによる追跡を実行することより、ＲＯＩ位置を補正することができる。

（第７実施形態）
　図８は、第７実施形態に係る対象追跡方法のフロー図である。
　第７実施形態は、第１実施形態の各処理に加えてステップＳ８をさらに備え、ステップＳ３に代えてステップＳ３２を備える。その他の処理は、第１実施形態と共通である。

　ステップＳ８で本方法は、Ｓ１で学習的認識手法により対象の認識が開始されたフレームから、カレントフレームの画像を予測する。この予測には、線形予測などの既知の手法が用いられてよい。

　ステップＳ４２で本方法は、ステップＳ１で学習的認識手法により対象の認識が開始されたフレームのＲＯＩと、ステップＳ８で予測されたカレントフレームのＲＯＩとの間の差異を補正する。

　本実施形態によれば、実映像のカレントフレームを用いる代わりに、カレントフレームを予測することにより、テンプレートマッチングの処理量を大きく削減することができる。

（第８実施形態）
　図９は、第８実施形態に係る対象追跡システムのブロック図である。
　対象追跡システム１は、対象認識部１０と、対象追跡部１１と、補正部１２と、初期化部１３と、を備える。

　対象認識部１０は、第１のフレームレートで、学習的認識手法により、動画像内の対象を認識する。対象追跡部１１は、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。補正部１２は、対象認識部１０で学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、対象追跡部１１で第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正する。初期化部１３は、補正部１２で補正されたＲＯＩに基づいて、カレントフレームのテンプレート及びＲＯＩ位置を初期化する。

　図１０は、第９実施形態に係る対象追跡システム２のブロック図である。
　本実施形態に係る対象追跡システムは、対象認識部１０と、対象追跡部１１と、補正部１２と、初期化部１３と、を備える対象追跡装置３と、その他の周辺装置を含む。対象追跡装置３の構成および動作は、第８実施例に係る対象追跡システム１の構成及び動作と共通であるため、説明を省略する。

　対象追跡システム２は、高速カメラ１４を備えてよい。高速カメラ１４は、例えば毎秒５００フレーム以上のフレームレートで動画像を撮影し、撮影した動画像データを対象追跡装置３に送信する。

　対象追跡システム２は、操作用ＰＣ１５を備えてよい。操作用ＰＣ１５は操作者によって操作され、操作者が設定した設定データや各種のコマンドを対象追跡装置３に送信する。

　対象追跡装置３は、表示装置１６、スマートフォン１７またはサーバ１８を備えてよい。対象追跡装置３で追跡された追跡対象データは、表示装置１６やスマートフォン１７に送信され、これらの装置で動画像として表示される。あるいは対象追跡装置３で追跡された追跡対象データは、サーバ１８に送信され、動画像データとして蓄積される。

　本実施例によれば、ＲＯＩ位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなるので、滑らかで途切れのない対象追跡を実現することができる。

（第９実施形態）
　追跡の対象は複数あってもよい。特にこれらの対象は、異なる速度で運動していてもよい。以下、図２を参照して、第９実施形態に係る対象追跡方法のフローを説明する。「開始」で、ある第１の周期についての学習的手法による対象の追跡が開始される。

　ステップＳ１で本方法は、第１のフレームレートで、学習的認識手法により、動画像内の複数の対象を認識する。複数の対象は、例えば単一のカメラで撮影された動画像内で運動する複数の対象物であってよい。特にこれらの対象物の運動速度は異なっていてもよい。以下、例示として、第１の対象として「人」、第２の対象として「自動車」を認識するものとする。なおこの場合の学習的認識手法も、単一の対象を追跡する場合と同様、例えばＣＮＮをベースとするディープラーニングが使われてよい。

　ステップＳ２で本法は、第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の人と自動車をそれぞれ追跡する。追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、（１）相関フィルタに用いるＲＯＩ画像選択、（２）周波数空間での相関計算、（３）相関ピーク検出に基づく追跡ＲＯＩ領域更新、などの処理を含んでよい。

　ステップＳ３で本方法は、人および自動車に関し、ステップＳ１で学習的認識手法による認識が開始されたフレームの人および自動車のＲＯＩと、ステップＳ２で第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により人および自動車の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。

　ステップＳ４で本方法は、ステップＳ３で補正されたＲＯＩに基づいて、カレントフレームの人および自動車のそれぞれのＲＯＩ位置を初期化する。

　「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第１の周期についての学習的手法による人および自動車の追跡が開始される。以下、第１の周期ごとに同様のフローが繰り返される。

　従来の対象追跡技術では、運動速度の異なる複数の対象物を追跡しようとした場合、対象により追跡のしやすさが異なる。すなわち、一般に高速で運動する対象は、低速で運動する対象より追跡が困難である。これは、追跡中に互いに対象物を取り違えてしまったりすることや、画面上で２つの画像が交錯することにより発生するオクルージョンに起因して対象の追跡が失敗したりすることの原因となる。本実施形態によれば、複数の対象のそれぞれのＲＯＩ位置がカレントフレームに遅延することなく、常にカレントフレームに追従したものとなるため、滑らかで途切れのない追跡が実現され、継続した追跡が可能となる。

　以上の実施形態は、任意の動画像に適用することができる。特に実施形態は、近年性能の向上が著しく、産業上広く用いられている高速カメラにより撮影された動画像に適用してよい。画像取り込みのサンプリングレートが高い高速カメラの場合、対象追跡技術における前述の課題は特に深刻となる。従って、本発明の実施形態は、高速カメラにより撮影された動画像に対して特に効果的である。

　第２のフレームレートの方が第１のフレームレートより高い限り、これらのフレームレートは任意の値であってよい。一例として、第１のフレームレートは毎秒１００フレーム以下であってよく、第２のフレームレートは毎秒５００フレーム以上であってよい。ディープラーニング等の学習的手法は、毎秒１００フレームを超えると、計算機コストや計算時間上のデメリットが大きい。一方、現在および将来の高速カメラの性能や仕様における要求条件に照らせば、テンプレートマッチングによる追跡は、毎秒５００フレーム以上で行われることが望ましい。

（検証実験）
　本発明者らは、本発明の効果を確認するために、実施形態による対象追跡実験を行った。

　図１１は、比較例に係る方法による対象追跡実験の結果を示す図である。
　ここでは比較例として、非特許文献１に記載の技術を用いた。実験は、サンプリングレート５００ｆｐｓで取得した動画像に対し、これと同じフレームレート５００ｆｐｓで相関フィルタを用いた追跡を行うとともに、フレームレート５０ｆｐｓでディープラーニングによる対象認識を行うことにより行った。追跡が正常に機能している限り、ＲＯＩ位置とテンプレートは相関フィルタによって更新され、追跡が継続される。追跡が外れて対象が見失われた場合は、ディープラーニングで認識された対象を基にテンプレートＲＯＩが更新され、これらを基に追跡が再開される。

　図１１（ａ）、図１１（ｂ）は、それぞれ追跡された対象の、画面上におけるｘ座標、ｙ座標を示す。ここでｘ座標は画像の水平方向を、ｙ座標は画像の垂直方向をそれぞれ意味する（以下同様）。図示されるように、グラフは複数の時点で途切れており、追跡が失敗している。また追跡が成功しているところであっても、グラフは滑らかな曲線を描いていない。これらは、ディープラーニングによる対象認識時点のフレームがカレントフレームに対して遅延していることに起因して、正しい追跡が行われていないことを表すと考えられる。

　図１２は、本発明に係る第６実施形態による対象追跡実験の結果を示す図である。
　本実施形態と比較例との違いは、本実施形態が、ディープラーニングによる対象認識時点のフレームとカレントフレームとの間のＲＯＩの差異を補正するステップを備える点である。その他の実験条件は、比較例と共通である。

　図１２（ａ）、図１２（ｂ）は、それぞれ追跡された対象の、画面上におけるｘ座標、ｙ座標を示す。図１１と異なり、測定時間の５秒間全体にわたって、グラフには途切れがない。またグラフ全体は、概ね滑らかな曲線を描いている。これは正しい対象追跡が実現されていることを表すと考えられ、本発明の有効性が確認された。

　図１３は、本発明の第９実施形態による対象追跡実験の結果を示す図である。図１３は、対象すなわち「人」と「自動車の」画面上におけるｘ座標を示す。追跡された自動車は、測定時間の５秒間全体にわたって、グラフにはほぼ途切れがない。一方、追跡された人は、時刻３秒から３．７秒の間にカメラの前を自動車が通過したためオクルージョンが発生し、この間グラフが途切れている。しかしながら自動車が通過した後に即座に認識がされ、その後の継続した追跡に成功している。このように、運動速度の異なる複数の対象に対して、途中にオクルージョンが発生した場合であっても、本発明の有効性が確認された。ただし移動体は反転や方向転換時などでは停止期間もあるため、速度の概念は速度＝０を含むものとする。

　以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　例えば第２のフレームレートは、動画像を取り込むときのフレームレートと一致していてよい。あるいは第２のフレームレートは、取り込んだ動画像のフレームの一部のフレームに関するものであってもよい。すなわち、テンプレートマッチングによる対象の追跡は、フレームバイフレームで行ってもよいし、フレームのサブセットで行ってもよい。

　高速カメラは、肉眼で認識できる画像を撮影するための可視光撮影カメラに代えて、赤外線等の非可視光を可視化するための非可視光撮影カメラであってもよい。

　本発明による手法は、監視カメラ等の固定カメラに限らず、車載用カメラやドローン用カメラなどの移動体用カメラ、パンなどの大きな動きを伴うカメラで撮影された画像など、広い分野での動画像に適用が可能であり、産業上の利用性が高いものである。

　Ｓ１・・・第１のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップ
　Ｓ２・・・第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップ
　Ｓ３・・・対象の認識が開始されたフレームのＲＯＩと、カレントフレームのＲＯＩとの間の差異を補正するステップ
　Ｓ３１・・・学習的認識手法による対象の認識が開始されたフレームのＲＯＩ位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのＲＯＩと、カレントフレームのＲＯＩとの間の差異を補正するステップ
　Ｓ３２・・・学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、予測されたカレントフレームのＲＯＩとの間の差異を補正するステップ
　Ｓ４・・・補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するステップ
　Ｓ４１・・・補正されたＲＯＩに基づいて、第１のフレームレートで、カレントフレームのＲＯＩ位置を初期化するステップ
　Ｓ４２・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのＲＯＩ位置を初期化
　Ｓ５・・・学習的認識手法により認識された対象に基づいて、第１のフレームレートで、テンプレート及びＲＯＩ位置を初期化するステップ
　Ｓ５１・・・学習的認識手法により認識された対象に基づいて、カレントフレームのテンプレート及びＲＯＩ位置を初期化するステップ
　Ｓ５２・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのテンプレート及びＲＯＩ位置を初期化するステップ
　Ｓ６・・・対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との差を比較するステップ
　Ｓ７・・・学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップ
　Ｓ８・・・学習的認識手法による対象の認識が開始されたフレームの画像から、
カレントフレームの画像を予測するステップ
　１・・・対象追跡システム
　１０・・・対象認識部
　１１・・・対象追跡部
　１２・・・補正部
　１３・・・初期化部

Claims

　第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識するステップと、
　前記第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
　前記学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、前記第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正するステップと、
　前記補正されたＲＯＩに基づいて、前記カレントフレームのＲＯＩ位置を初期化するステップと、を備える、
対象追跡方法。
　前記差異を補正するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像を再生するステップを備える、
請求項１に記載の対象追跡方法。
　前記実画像を再生するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像の一部を抽出したものを再生する、
請求項２に記載の対象追跡方法。
　前記カレントフレームのＲＯＩ位置は、前記第１のフレームレートで初期化されることを特徴とする、
請求項１乃至３のいずれか一項に記載の対象追跡方法。
　前記学習的認識手法により認識された対象に基づいて、前記第１のフレームレートで、前記テンプレートを初期化するステップをさらに備える、
請求項１乃至４のいずれか一項に記載の対象追跡方法。
　対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
　前記比較するステップでの比較結果が所定の値以下のときは、前記ＲＯＩ位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
　前記比較するステップでの比較結果が所定の値より大きいときは、前記ＲＯＩ位置は、前記補正されたＲＯＩに基づいて初期化されることを特徴とする、
請求項１乃至３のいずれか１項に記載の対象追跡方法。
　対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
　前記比較するステップでの比較結果が所定の値以下のときは、前記テンプレート及びＲＯＩ位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
　前記比較するステップでの比較結果が所定の値より大きいときは、前記テンプレート及びＲＯＩ位置は、前記学習的認識手法により認識された対象に基づいて初期化されることを特徴とする、
請求項１乃至３のいずれか一項に記載の対象追跡方法。
　前記学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、
　前記差異を補正するステップは、前記学習的認識手法による対象の認識が開始されたフレームのＲＯＩ位置とテンプレートとを用いて、前記記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われることを特徴とする、
請求項１に記載の対象追跡方法。
　第１のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、
　前記第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
　前記学習的認識手法による対象の認識が開始されたフレームの画像から、前記第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、
　前記学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、前記予測されたカレントフレームのＲＯＩとの間の差異を補正するステップと、
　前記補正されたＲＯＩに基づいて、カレントフレームのＲＯＩ位置を初期化するステップと、を備える、
対象追跡方法。
　前記学習的認識手法は、ディープラーニングを含むことを特徴とする、
請求項１乃至９のいずれか一項に記載の対象追跡方法。
　前記動画像は、高速カメラにより撮影された動画像であることを特徴とする、
請求項１乃至１０のいずれか一項に記載の対象追跡方法。
　前記第２のフレームレートは、前記第１のフレームレートの８倍以上であることを特徴とする、
請求項１乃至１１のいずれか一項に記載の対象追跡方法。
　第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識する対象認識部と、
　前記第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡する対象追跡部と、
　前記学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、前記第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正する補正部と、
　前記補正されたＲＯＩに基づいて、前記カレントフレームのＲＯＩ位置を初期化するＲＯＩ位置初期化部と、を備える、
対象追跡システム。
　第１のフレームレートで、学習的認識手法により、動画像内の少なくとも１つの対象を認識するステップと、
　前記第１のフレームレートより高い第２のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
　前記学習的認識手法による対象の認識が開始されたフレームのＲＯＩと、前記第２のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのＲＯＩとの間の差異を補正するステップと、
　前記補正されたＲＯＩに基づいて、前記カレントフレームのＲＯＩ位置を初期化するステップと、をコンピュータに実行させる
対象追跡プログラム。