JPWO2020080535A1 - 対象追跡方法、対象追跡システムおよび対象追跡プログラム - Google Patents

対象追跡方法、対象追跡システムおよび対象追跡プログラム Download PDF

Info

Publication number
JPWO2020080535A1
JPWO2020080535A1 JP2020553348A JP2020553348A JPWO2020080535A1 JP WO2020080535 A1 JPWO2020080535 A1 JP WO2020080535A1 JP 2020553348 A JP2020553348 A JP 2020553348A JP 2020553348 A JP2020553348 A JP 2020553348A JP WO2020080535 A1 JPWO2020080535 A1 JP WO2020080535A1
Authority
JP
Japan
Prior art keywords
frame
roi
target
recognition
frame rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020553348A
Other languages
English (en)
Other versions
JPWO2020080535A5 (ja
JP7477168B2 (ja
Inventor
抱 石井
抱 石井
則政 岸
則政 岸
明俊 姜
明俊 姜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Publication of JPWO2020080535A1 publication Critical patent/JPWO2020080535A1/ja
Publication of JPWO2020080535A5 publication Critical patent/JPWO2020080535A5/ja
Application granted granted Critical
Publication of JP7477168B2 publication Critical patent/JP7477168B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Abstract

ステップS1は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する。ステップS2は、学習的認識手法により認識された対象に基づいて、ROI位置を初期化する。ステップS3は、ROI位置に基づいて、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。ステップS4は、学習的認識手法により対象が認識された時点のフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったフレームのROIとの間の差異を補正する。

Description

本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
対象追跡技術は、カメラで撮影した動画像中の特定の対象を認識し、追跡する技術である。近年の代表的な対象追跡技術には、テンプレートマッチングを用いて対象を局所的に追跡する手法(以下、局所的対象追跡手法」という)や、ディープラーニングなどの学習理論に基づく処理により対象を認識する手法(以下、「学習的認識手法」という)などがある(例えば非特許文献1)。
姜明俊、高木健、石井抱 「ディープラーニングを用いた高速対象追跡」 日本機械学会ロボティクス・メカトロニクス講演会2018 講演論文集 2A1−K17(2018)
局所的対象追跡手法は、対象近傍のみで局所探索を行うため、実行速度を高速化できるというメリットがある反面、追跡開始時に初期テンプレートの人為的指定が必要である。このため、背景画面の複雑さや、対象のオクルージョン・姿勢変化等に起因して追跡の失敗が多発すると、追跡が困難になるという問題がある。
一方、畳み込みニューラルネットワーク(CNN)をベースとする学習的認識手法では、近年ディープラーニングの性能が著しく向上している。高性能GPUへの並列実装と相まって、学習的認識手法は、数十fps(frame per second)といったフレームレートでのリアルタイム対象認識を実現している。
学習的認識手法は、フレームごとに独立した形で対象認識を行うため、一度対象を見失っても瞬時に対象を再認識できるというメリットがある。しかしながら、必ずしもすべてのフレームで認識が安定するとは限らないため、認識結果が間欠的になるという問題がある。またアクティブビジョン等の機械的なフィードバックでは、数百fpsといった高速リアルタイム対象検出が要求される。しかしながら、これは現状のコンピュータ技術では困難である。このように学習的認識手法には、実行速度上の限界があるという問題がある。
これに対し、近年、局所的対象追跡手法と学習的認識手法の双方のメリット活かしたハイブリッド対象追跡手法が提案されている(例えば非特許文献1)。非特許文献1に記載の技術では、あるフレームレートで実行される学習的認識手法による対象認識と、これより高いフレームレートで実行される局所的対象追跡手法による対象追跡とが並列動作している。
この技術では、追跡が正常に機能している限り、相関フィルタによってROI(Region Of Interest)の位置とテンプレートとが更新され、追跡が継続される。一方、追跡が外れて対象が見失われた場合は、学習的認識手法で認識された対象を基にROI位置とテンプレートとが初期化され、これらを基に新たな追跡が行われる。これにより、オクルージョンなど、対象のアピアランス変化に対しても、ロバストな対象追跡が実現される。
しかし実際には、学習的認識手法による対象認識は、一定の計算時間を必要とする。このため、あるフレームを基に対象認識処理を開始してから、この処理が完了して対象が認識されるまでの間に、上記の計算時間が経過する。ROI位置やテンプレート初期化の対象となるフレームは、テンプレートマッチングを継続した結果現在に至ったフレーム(以下、「カレントフレーム」という)である。従って、対象認識処理を開始したフレームは、カレントフレームに対して遅延している。例えば、動画像のサンプリングレートが500fpsで、対象認識処理を開始をしたフレームがカレントフレームに対して30フレーム前のフレームだった場合、この遅延は60msとなる。
この遅延の間にフレーム内で対象が動くと、対象認識処理を開始したフレームと、カレントフレームとの間で、ROI位置のずれが生じる。特に、高速カメラで撮影された動画像や、フレーム内の対象の動きが大きい動画像の場合、撮影中にカメラを左右にパンしたりすることにより発生するこのずれは大きいものとなる。このような場合、ハイブリッド対象追跡手法であっても、連続的で安定した追跡が困難となってしまう。
本発明はこうした状況に鑑みてなされたものであり、その目的は、高速な動画像に対しても、連続的で安定した対象追跡を実現する技術を提供することにある。
上記課題を解決するために、本発明のある態様の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
差異を補正するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像を再生するステップを備えてよい。
実画像を再生するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像の一部を抽出したものを再生してもよい。
カレントフレームのROI位置は、第1のフレームレートで初期化されてよい。
実施形態は、学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレートを初期化するステップをさらに備えてよい。
実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、ROI位置は、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、ROI位置は、補正されたROIに基づいて初期化されてよい。
実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、テンプレートは、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、テンプレートは、学習的認識手法により認識された対象に基づいて初期化されてよい。
実施形態は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、差異を補正するステップは、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われてよい。
本発明の別の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームの画像から、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
学習的認識手法は、ディープラーニングを含んでよい。
動画像は、高速カメラにより撮影された動画像であってよい。
第2のフレームレートは、第1のフレームレートの8倍以上であってよい。
本発明の別の態様は、対象追跡システムである。この対象追跡システムは、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する対象認識部と、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の少なくとも1つの対象を追跡する対象追跡部と、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部と、補正されたROIに基づいて、カレントフレームのROI位置を初期化するROI位置初期化部と、を備える。
本発明のさらに別の態様は、対象追跡プログラムである。この対象追跡プログラムは、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、をコンピュータに実行させる。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、高速な動画像に対しても、連続的で安定した対象追跡を実現することができる。
実施形態に係る動画像のフレームを示す図である。 第1実施形態に係る対象追跡方法のフロー図である。 第2実施形態に係る対象追跡方法のフロー図である。 第3実施形態に係る対象追跡方法のフロー図である。 第4実施形態に係る対象追跡方法のフロー図である。 第5実施形態に係る対象追跡方法のフロー図である。 第6実施形態に係る対象追跡方法のフロー図である。 第7実施形態に係る対象追跡方法のフロー図である。 第8実施形態に係る対象追跡システムのブロック図である。 第9実施形態に係る対象追跡システムのブロック図である。 比較例に係る方法による対象追跡実験の結果を示す図である。図11(a)、図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。 第6実施形態による対象追跡実験の結果を示す図である。図11(a)、図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。 第9実施形態による対象追跡実験の結果を示す図である。
実施形態を具体的に説明する前に、概要を説明する。
図1は、本発明の実施形態に係る動画像のフレームを示す。フレームF、F、F、F、…、FN−1は、追跡の対象となる動画像のフレームである。フレームf1b、f1a、f2b、f2aは、ディープラーニングなどの学習的認識手法により、対象認識が実行されるフレームである。フレームfI1b、fI1a、fI2b、fI2aは、バッファ等に記憶された実画像である。
図1の例では、第1の周期t1で、学習的認識手法により、動画像内の対象が周期的に認識される。以下、第1の周期t1の逆数を第1のフレームレートと呼ぶ。学習的認識手法により対象が認識されると、この認識された対象に基づいて、ROI位置が初期化される。この初期化されたROI位置に基づいて、第2の周期t2で、テンプレートを用いたテンプレートマッチングにより、動画像内の対象が追跡される。以下、第2の周期t2の逆数を第2のフレームレートと呼ぶ。また、学習的手法による対象認識に要する計算時間をt3とする。なお動画像内の追跡対象は1つだけとは限らず、複数あってもよい。
第1の周期t1は、第2の周期t2より長い。ここでは、t1=N・t2であるとする。t1はt2の8倍以上であること、すなわちN≧8であることが望ましい。換言すれば、第1のフレームレートは第2のフレームレートの8分の1以下であることが望ましい。
1bは、ある時点で、学習的認識手法により対象の認識が開始されるフレームを示す。このときの時刻tを−t3とする。前述の通り対象認識に要する計算時間がt3であるので、t=0でこの計算が完了し、フレームf1aで対象が認識される。
1bの時点からt1の時間が経過してt=t1−t3になると、フレームf2bに対して、次の周期の対象認識が開始される。そして、t=t1でこの対象認識が完了する。以下同様である。
t=−t3で対象の認識が開始されてから、t=0で対象の認識が完了するまでの実画像は、バッファ等に記憶される。本例では、t=−t3における実画像fI1bからt=0における実画像fI1aが、バッファB1に記憶される。
次の対象認識の周期では、t=t1−t3における実画像fI2bからt=t1における実画像fI2aが、バッファB2に記憶される。以下同様である。
、F、F、F、…は、それぞれt=0、t2、2・t2…で順次対象が追跡されたフレームを示す。前述の通りt=0で学習的認識手法により対象が認識されるので、この時点のフレームFのROI位置が更新される。このフレームFをカレントフレームCF(Current Frame)と呼ぶ。
時刻t=t1=N・t2で、次の周期の学習的認識手法による対象認識に基づいて、フレームFN−1のROI位置が新たな位置に初期化される。従って、もしF〜FN−2のいずれかのフレームで追跡が外れて対象が見失われた場合であっても、フレームFN−1における対象認識により、F以降のフレームで追跡を再開することができる。
図1の下段に示されるように、学習的認識手法による対象認識が開始されたフレームf1bは、カレントフレームCFに対し、時間にしてt3だけ遅延している。もしこのt3の間に動画内で対象が大きく動くと、フレームf1b内の対象位置(ROI位置)と、カレントフレームCF内の対象位置との間に大きな差異が生じる。
実施形態は、この差異を補正する。実施形態は、バッファB1内に記憶したフレームfI1bからfI1aまでの実映像を再生して対象を追跡し、ROI位置を補正する。この実映像の再生は、記憶したすべてのフレームを用いた高速再生であってもよく、記憶したフレームから抽出したフレームのサブセットのコマ送り的な再生であってもよい。
図1の中段に示されるように、t=−t3ではフレームfI1bの下左隅にあったROII1bは、t=0ではフレームfI1aの下右隅のI1aに移動している。一方、図1の下段に示されるように、t=0で対象認識されたフレームf1aのROIは、t=−t3におけるフレームf1bに基づいて計算されているので、フレームf1aの下左隅にある。このROIは、実画像にI1aよって補正される。そしてこの補正されたROIに基づいて、カレントフレームCFのROI位置が更新される。
このようにして、更新されるROI位置は、カレントフレームCF内の対象位置から遅延したものではなく、常にカレントフレームCFに追随したものとなる。従って、滑らかで途切れのない対象追跡を実現することができる。
以下、図2〜図8を参照して、本発明の種々の実施形態を説明する。実施形態および変形例では、同一または同等の構成要素には同一の符号を付すものとし、適宜重複した説明は省略する。図2〜図8のフロー図は、第1のフレームレートで、学習的手法により対象が認識される周期、すなわち第1の周期についての1周期分のフローを示すものである。
(第1実施形態)
図2は、第1実施形態に係る対象追跡方法のフロー図である。
「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する。学習的認識手法には、例えばCNNをベースとするディープラーニングが使われてよい。対象の認識は例えば、(1)認識候補の検出、(2)ターゲットの決定、の2段階で行われてよい。これによりターゲットROIの画像、位置、サイズなどが認識される。
ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。動画像内の対象の追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
ステップS3で本方法は、ステップS1で学習的認識手法による対象の認識が開始されたフレームのROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して対象を追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を初期化する。
「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による対象の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなる。これにより、滑らかで途切れのない対象追跡を実現することができる。
(第2実施形態)
図3は、第2実施形態に係る対象追跡方法のフロー図である。
第2実施形態は、第1実施形態のステップS4に代えて、ステップS41を備える。その他の処理は、第1実施形態と共通である。
ステップS41で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を、第1のフレームレートで初期化する。すなわち本実施形態では、第1のフレームレートで学習的認識手法により対象が認識されると、それに応じて、ROI位置は毎回初期化される。
本実施形態によれば、学習的認識手法で得た認識結果を、ROI位置の更新に最大限利用することができる。
(第3実施形態)
図4は、第3実施形態に係る対象追跡方法のフロー図である。
第3実施形態は、第1実施形態の各処理に加えて、ステップS5をさらに備える。その他の処理は、第1実施形態と共通である。
ステップS5で本方法は、ステップS1で学習的認識手法により認識された対象に基づいて、第1のフレームレートでテンプレート及びROI位置を初期化する。すなわち本実施形態では、第2のフレームレートで行われる対象追跡に用いられるテンプレート及びROI位置が、第1のフレームレートで学習的認識手法によって対象が認識される度に、毎回初期化される。
本実施形態によれば、学習的認識手法で得た認識結果を、テンプレート及びROI位置の更新に最大限利用することができる。
(第4実施形態)
図5は、第4実施形態に係る対象追跡方法のフロー図である。
第4実施形態は、第1実施形態の各処理に加えて、ステップS42およびステップS6をさらに備える。その他の処理は、第1実施形態と共通である。
ステップS6で本方法は、対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS42で、テンプレートマッチングにより追跡された対象に基づいてROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS4で、補正されたROIに基づいてカレントフレームのROI位置を初期化する。すなわち本実施形態では、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、ROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡が外れて対象が見失われた場合に限り、ROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
本実施形態によれば、追跡軌跡が連続するように、ROI位置を更新することができる。
(第5実施形態)
図6は、第5実施形態に係る対象追跡方法のフロー図である。
第5実施形態は、第3実施形態の各処理に加えてステップS52およびステップS6をさらに備え、ステップS5に代えてステップS51を備える。その他の処理は、第3実施形態と共通である。
ステップS6で本方法は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS52で、テンプレートマッチングにより追跡された対象に基づいてテンプレート及びROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS51で、学習的認識手法により認識された対象に基づいてテンプレート及びROI位置を初期化する。すなわち本実施形態では、対象の認識が開始されたフレームにおいて、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、テンプレート及びROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡ROIが認識結果から逸脱した場合に限り、テンプレート及びROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
本実施形態によれば、必要な場合にのみ、学習的認識手法で得た認識結果を、テンプレートの更新に利用することができる。
(第6実施形態)
図7は、第6実施形態に係る対象追跡方法のフロー図である。
第6実施形態は、第1実施形態の各処理に加えてステップS7をさらに備え、ステップS3に代えてステップS31を備える。その他の処理は、第1実施形態と共通である。
ステップS7で本方法は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶する。
ステップS31で本方法は、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正する。このときのテンプレートマッチングは、例えば、第2のフレームレートにおける1フレーム分に相当する時間で実行される。
本実施形態によれば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのテンプレートマッチングによる追跡を実行することより、ROI位置を補正することができる。
(第7実施形態)
図8は、第7実施形態に係る対象追跡方法のフロー図である。
第7実施形態は、第1実施形態の各処理に加えてステップS8をさらに備え、ステップS3に代えてステップS32を備える。その他の処理は、第1実施形態と共通である。
ステップS8で本方法は、S1で学習的認識手法により対象の認識が開始されたフレームから、カレントフレームの画像を予測する。この予測には、線形予測などの既知の手法が用いられてよい。
ステップS42で本方法は、ステップS1で学習的認識手法により対象の認識が開始されたフレームのROIと、ステップS8で予測されたカレントフレームのROIとの間の差異を補正する。
本実施形態によれば、実映像のカレントフレームを用いる代わりに、カレントフレームを予測することにより、テンプレートマッチングの処理量を大きく削減することができる。
(第8実施形態)
図9は、第8実施形態に係る対象追跡システムのブロック図である。
対象追跡システム1は、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える。
対象認識部10は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する。対象追跡部11は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。補正部12は、対象認識部10で学習的認識手法による対象の認識が開始されたフレームのROIと、対象追跡部11で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。初期化部13は、補正部12で補正されたROIに基づいて、カレントフレームのテンプレート及びROI位置を初期化する。
図10は、第9実施形態に係る対象追跡システム2のブロック図である。
本実施形態に係る対象追跡システムは、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える対象追跡装置3と、その他の周辺装置を含む。対象追跡装置3の構成および動作は、第8実施例に係る対象追跡システム1の構成及び動作と共通であるため、説明を省略する。
対象追跡システム2は、高速カメラ14を備えてよい。高速カメラ14は、例えば毎秒500フレーム以上のフレームレートで動画像を撮影し、撮影した動画像データを対象追跡装置3に送信する。
対象追跡システム2は、操作用PC15を備えてよい。操作用PC15は操作者によって操作され、操作者が設定した設定データや各種のコマンドを対象追跡装置3に送信する。
対象追跡装置3は、表示装置16、スマートフォン17またはサーバ18を備えてよい。対象追跡装置3で追跡された追跡対象データは、表示装置16やスマートフォン17に送信され、これらの装置で動画像として表示される。あるいは対象追跡装置3で追跡された追跡対象データは、サーバ18に送信され、動画像データとして蓄積される。
本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなるので、滑らかで途切れのない対象追跡を実現することができる。
(第9実施形態)
追跡の対象は複数あってもよい。特にこれらの対象は、異なる速度で運動していてもよい。以下、図2を参照して、第9実施形態に係る対象追跡方法のフローを説明する。「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の複数の対象を認識する。複数の対象は、例えば単一のカメラで撮影された動画像内で運動する複数の対象物であってよい。特にこれらの対象物の運動速度は異なっていてもよい。以下、例示として、第1の対象として「人」、第2の対象として「自動車」を認識するものとする。なおこの場合の学習的認識手法も、単一の対象を追跡する場合と同様、例えばCNNをベースとするディープラーニングが使われてよい。
ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の人と自動車をそれぞれ追跡する。追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
ステップS3で本方法は、人および自動車に関し、ステップS1で学習的認識手法による認識が開始されたフレームの人および自動車のROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により人および自動車の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームの人および自動車のそれぞれのROI位置を初期化する。
「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による人および自動車の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
従来の対象追跡技術では、運動速度の異なる複数の対象物を追跡しようとした場合、対象により追跡のしやすさが異なる。すなわち、一般に高速で運動する対象は、低速で運動する対象より追跡が困難である。これは、追跡中に互いに対象物を取り違えてしまったりすることや、画面上で2つの画像が交錯することにより発生するオクルージョンに起因して対象の追跡が失敗したりすることの原因となる。本実施形態によれば、複数の対象のそれぞれのROI位置がカレントフレームに遅延することなく、常にカレントフレームに追従したものとなるため、滑らかで途切れのない追跡が実現され、継続した追跡が可能となる。
以上の実施形態は、任意の動画像に適用することができる。特に実施形態は、近年性能の向上が著しく、産業上広く用いられている高速カメラにより撮影された動画像に適用してよい。画像取り込みのサンプリングレートが高い高速カメラの場合、対象追跡技術における前述の課題は特に深刻となる。従って、本発明の実施形態は、高速カメラにより撮影された動画像に対して特に効果的である。
第2のフレームレートの方が第1のフレームレートより高い限り、これらのフレームレートは任意の値であってよい。一例として、第1のフレームレートは毎秒100フレーム以下であってよく、第2のフレームレートは毎秒500フレーム以上であってよい。ディープラーニング等の学習的手法は、毎秒100フレームを超えると、計算機コストや計算時間上のデメリットが大きい。一方、現在および将来の高速カメラの性能や仕様における要求条件に照らせば、テンプレートマッチングによる追跡は、毎秒500フレーム以上で行われることが望ましい。
(検証実験)
本発明者らは、本発明の効果を確認するために、実施形態による対象追跡実験を行った。
図11は、比較例に係る方法による対象追跡実験の結果を示す図である。
ここでは比較例として、非特許文献1に記載の技術を用いた。実験は、サンプリングレート500fpsで取得した動画像に対し、これと同じフレームレート500fpsで相関フィルタを用いた追跡を行うとともに、フレームレート50fpsでディープラーニングによる対象認識を行うことにより行った。追跡が正常に機能している限り、ROI位置とテンプレートは相関フィルタによって更新され、追跡が継続される。追跡が外れて対象が見失われた場合は、ディープラーニングで認識された対象を基にテンプレートROIが更新され、これらを基に追跡が再開される。
図11(a)、図11(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。ここでx座標は画像の水平方向を、y座標は画像の垂直方向をそれぞれ意味する(以下同様)。図示されるように、グラフは複数の時点で途切れており、追跡が失敗している。また追跡が成功しているところであっても、グラフは滑らかな曲線を描いていない。これらは、ディープラーニングによる対象認識時点のフレームがカレントフレームに対して遅延していることに起因して、正しい追跡が行われていないことを表すと考えられる。
図12は、本発明に係る第6実施形態による対象追跡実験の結果を示す図である。
本実施形態と比較例との違いは、本実施形態が、ディープラーニングによる対象認識時点のフレームとカレントフレームとの間のROIの差異を補正するステップを備える点である。その他の実験条件は、比較例と共通である。
図12(a)、図12(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。図11と異なり、測定時間の5秒間全体にわたって、グラフには途切れがない。またグラフ全体は、概ね滑らかな曲線を描いている。これは正しい対象追跡が実現されていることを表すと考えられ、本発明の有効性が確認された。
図13は、本発明の第9実施形態による対象追跡実験の結果を示す図である。図13は、対象すなわち「人」と「自動車の」画面上におけるx座標を示す。追跡された自動車は、測定時間の5秒間全体にわたって、グラフにはほぼ途切れがない。一方、追跡された人は、時刻3秒から3.7秒の間にカメラの前を自動車が通過したためオクルージョンが発生し、この間グラフが途切れている。しかしながら自動車が通過した後に即座に認識がされ、その後の継続した追跡に成功している。このように、運動速度の異なる複数の対象に対して、途中にオクルージョンが発生した場合であっても、本発明の有効性が確認された。ただし移動体は反転や方向転換時などでは停止期間もあるため、速度の概念は速度=0を含むものとする。
以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば第2のフレームレートは、動画像を取り込むときのフレームレートと一致していてよい。あるいは第2のフレームレートは、取り込んだ動画像のフレームの一部のフレームに関するものであってもよい。すなわち、テンプレートマッチングによる対象の追跡は、フレームバイフレームで行ってもよいし、フレームのサブセットで行ってもよい。
高速カメラは、肉眼で認識できる画像を撮影するための可視光撮影カメラに代えて、赤外線等の非可視光を可視化するための非可視光撮影カメラであってもよい。
本発明による手法は、監視カメラ等の固定カメラに限らず、車載用カメラやドローン用カメラなどの移動体用カメラ、パンなどの大きな動きを伴うカメラで撮影された画像など、広い分野での動画像に適用が可能であり、産業上の利用性が高いものである。
本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
S1・・・第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップ
S2・・・第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップ
S3・・・対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
S31・・・学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
S32・・・学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップ
S4・・・補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップ
S41・・・補正されたROIに基づいて、第1のフレームレートで、カレントフレームのROI位置を初期化するステップ
S42・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのROI位置を初期化
S5・・・学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレート及びROI位置を初期化するステップ
S51・・・学習的認識手法により認識された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
S52・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
S6・・・対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との差を比較するステップ
S7・・・学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップ
S8・・・学習的認識手法による対象の認識が開始されたフレームの画像から、
カレントフレームの画像を予測するステップ
1・・・対象追跡システム
10・・・対象認識部
11・・・対象追跡部
12・・・補正部
13・・・初期化部

Claims (14)

  1. 第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、
    前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
    前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、
    前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するステップと、を備える、
    対象追跡方法。
  2. 前記差異を補正するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像を再生するステップを備える、
    請求項1に記載の対象追跡方法。
  3. 前記実画像を再生するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像の一部を抽出したものを再生する、
    請求項2に記載の対象追跡方法。
  4. 前記カレントフレームのROI位置は、前記第1のフレームレートで初期化されることを特徴とする、
    請求項1乃至3のいずれか一項に記載の対象追跡方法。
  5. 前記学習的認識手法により認識された対象に基づいて、前記第1のフレームレートで、前記テンプレートを初期化するステップをさらに備える、
    請求項1乃至4のいずれか一項に記載の対象追跡方法。
  6. 対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
    前記比較するステップでの比較結果が所定の値以下のときは、前記ROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
    前記比較するステップでの比較結果が所定の値より大きいときは、前記ROI位置は、前記補正されたROIに基づいて初期化されることを特徴とする、
    請求項1乃至3のいずれか1項に記載の対象追跡方法。
  7. 対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
    前記比較するステップでの比較結果が所定の値以下のときは、前記テンプレート及びROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
    前記比較するステップでの比較結果が所定の値より大きいときは、前記テンプレート及びROI位置は、前記学習的認識手法により認識された対象に基づいて初期化されることを特徴とする、
    請求項1乃至3のいずれか一項に記載の対象追跡方法。
  8. 前記学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、
    前記差異を補正するステップは、前記学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、前記記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われることを特徴とする、
    請求項1に記載の対象追跡方法。
  9. 第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、
    前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
    前記学習的認識手法による対象の認識が開始されたフレームの画像から、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、
    前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記予測されたカレントフレームのROIとの間の差異を補正するステップと、
    前記補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える、
    対象追跡方法。
  10. 前記学習的認識手法は、ディープラーニングを含むことを特徴とする、
    請求項1乃至9のいずれか一項に記載の対象追跡方法。
  11. 前記動画像は、高速カメラにより撮影された動画像であることを特徴とする、
    請求項1乃至10のいずれか一項に記載の対象追跡方法。
  12. 前記第2のフレームレートは、前記第1のフレームレートの8倍以上であることを特徴とする、
    請求項1乃至11のいずれか一項に記載の対象追跡方法。
  13. 第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する対象認識部と、
    前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡する対象追跡部と、
    前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部と、
    前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するROI位置初期化部と、を備える、
    対象追跡システム。
  14. 第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、
    前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡するステップと、
    前記学習的認識手法による対象の認識が開始されたフレームのROIと、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、
    前記補正されたROIに基づいて、前記カレントフレームのROI位置を初期化するステップと、をコンピュータに実行させる
    対象追跡プログラム。
JP2020553348A 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム Active JP7477168B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018196575 2018-10-18
JP2018196575 2018-10-18
PCT/JP2019/041143 WO2020080535A1 (ja) 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム

Publications (3)

Publication Number Publication Date
JPWO2020080535A1 true JPWO2020080535A1 (ja) 2021-10-07
JPWO2020080535A5 JPWO2020080535A5 (ja) 2022-09-27
JP7477168B2 JP7477168B2 (ja) 2024-05-01

Family

ID=70283112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020553348A Active JP7477168B2 (ja) 2018-10-18 2019-10-18 対象追跡方法、対象追跡システムおよび対象追跡プログラム

Country Status (3)

Country Link
JP (1) JP7477168B2 (ja)
CN (1) CN112655018A (ja)
WO (1) WO2020080535A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7053057B2 (ja) * 2020-05-19 2022-04-12 技研トラステム株式会社 移動体追跡装置及び移動体追跡方法
CN112489085A (zh) * 2020-12-11 2021-03-12 北京澎思科技有限公司 目标跟踪方法、目标跟踪装置、电子设备及存储介质
TWI770725B (zh) * 2020-12-17 2022-07-11 竹陞科技股份有限公司 軌跡追蹤系統以及軌跡追蹤方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5488076B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
JP5613016B2 (ja) * 2010-10-29 2014-10-22 株式会社キーエンス 動画追尾装置、動画追尾方法および動画追尾プログラム
JP5789578B2 (ja) * 2012-09-20 2015-10-07 富士フイルム株式会社 眼の開閉判断方法及び装置、プログラム、並びに監視映像システム
JP2014063280A (ja) * 2012-09-20 2014-04-10 Fujifilm Corp オブジェクト追跡方法及び装置、並びにプログラム
CN103679130B (zh) * 2012-09-24 2018-04-13 富士通株式会社 手追踪方法、手追踪设备和手势识别系统
JP6265370B2 (ja) * 2013-08-21 2018-01-24 国立大学法人富山大学 対象物追跡方法及び対象物追跡システム
JP6420605B2 (ja) * 2014-09-24 2018-11-07 Kddi株式会社 画像処理装置
EP3023938A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for tracking the motion of image content in a video frames sequence using sub-pixel resolution motion estimation
JP6491517B2 (ja) * 2015-03-31 2019-03-27 Kddi株式会社 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置
CN105631899B (zh) * 2015-12-28 2019-01-04 哈尔滨工业大学 一种基于灰度纹理特征的超声图像运动目标跟踪方法
JP6869672B2 (ja) * 2016-09-14 2021-05-12 株式会社デンソーアイティーラボラトリ 物体追従システム、物体追従装置、物体追従方法、及び物体追従プログラム

Also Published As

Publication number Publication date
CN112655018A (zh) 2021-04-13
JP7477168B2 (ja) 2024-05-01
WO2020080535A1 (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
JP7477168B2 (ja) 対象追跡方法、対象追跡システムおよび対象追跡プログラム
US10165157B2 (en) Method and device for hybrid robotic/virtual pan-tilt-zoom cameras for autonomous event recording
US8098885B2 (en) Robust online face tracking
CN108198199B (zh) 运动物体跟踪方法、运动物体跟踪装置和电子设备
US10853950B2 (en) Moving object detection apparatus, moving object detection method and program
KR101071352B1 (ko) 좌표맵을 이용한 팬틸트줌 카메라 기반의 객체 추적 장치 및 방법
US9838604B2 (en) Method and system for stabilizing video frames
US20200160539A1 (en) Moving object detection system and method
CN110555377B (zh) 一种基于鱼眼相机俯视拍摄的行人检测与跟踪方法
US20050052533A1 (en) Object tracking method and object tracking apparatus
US20140037212A1 (en) Image processing method and device
US10200618B2 (en) Automatic device operation and object tracking based on learning of smooth predictors
US11593949B2 (en) Method of detecting moving objects via a moving camera, and related processing system, device and computer-program product
WO2010151215A1 (en) Real time video stabilization
KR101396838B1 (ko) 다수의 모션 모델을 선택적으로 이용하는 영상 안정화 방법 및 시스템
Liu et al. Application of ghost-deblurGAN to fiducial marker detection
Ueno et al. Motion-blur-free microscopic video shooting based on frame-by-frame intermittent tracking
Monari et al. A real-time image-to-panorama registration approach for background subtraction using pan-tilt-cameras
Wang et al. Motion prediction in visual object tracking
KR101576426B1 (ko) 어안 렌즈를 이용한 감시 장치 및 방법
CN110119649B (zh) 电子设备状态跟踪方法、装置、电子设备及控制系统
US10708501B2 (en) Prominent region detection in scenes from sequence of image frames
Qigui Search on automatic target tracking based on PTZ system
Jain et al. Inter-bmv: Interpolation with block motion vectors for fast semantic segmentation on video
Liu et al. BACTrack: Building Appearance Collection for Aerial Tracking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240411