WO2022172341A1

WO2022172341A1 - 物体検出装置、方法、及びプログラム

Info

Publication number: WO2022172341A1
Application number: PCT/JP2021/004839
Authority: WO
Inventors: 健中村; 寛之鵜澤; 大祐小林; 彩希八田; 優也大森; 周平吉田
Original assignee: 日本電信電話株式会社
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-18
Also published as: JPWO2022172341A1; EP4293611A1; US20240119605A1

Abstract

算出部（２２）が、複数のフレームを含む動画像の各フレームを対象フレームとし、対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、動きベクトルを用いて表される、キーフレームと対象フレームとの間の変化の大きさを示す指標を算出し、判定部（２５）が、算出された指標が予め定められた閾値以上か否かを判定し、第１検出部（２７）が、指標が閾値以上の場合に、物体検出モデルを用いて、対象フレームから物体を示す領域を検出し、第２検出部（２８）が、指標が閾値未満の場合に、参照フレームにおいて検出された領域の位置を、動きベクトルを用いて補正した対象フレーム上の領域を検出し、出力部（３０）が、第１検出部（２７）により検出された領域の情報、及び第２検出部（２８）により検出された領域の情報を出力する。

Description

物体検出装置、方法、及びプログラム

　開示の技術は、物体検出装置、物体検出方法、及び物体検出プログラムに関する。

　近年、畳み込みニューラルネット渡辺（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ、以下「ＣＮＮ」という）による物体検出手法が普及している。例えば、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ、非特許文献１）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）ｖ３（非特許文献２）等の手法が知られている。これらの方法では、入力画像を物体検出モデルであるＣＮＮに入力し、入力画像に含まれる物体を示す領域を検出する。入力画像に複数の物体が含まれる場合には、物体毎に領域が検出される。そして、これらの方法では、検出した領域の画像が示す物体の属性、検出結果の信頼度、画像内における検出した領域の位置及び大きさを表す矩形情報等を、物体検出の検出結果として出力することが一般的である。なお、物体の属性とは、車、人、犬等の物体の種別である。これらの手法を動画像（映像）に適用する場合、動画像に含まれる全てのフレームに対して、物体検出の処理を繰り返す必要があり、処理量が多くなるという課題がある。

　これに対し、ＣＮＮによる物体検出を行うフレームと、その結果に基づいて物体を追跡（トラッキング）するフレームとに分けることで、全てのフレームでＣＮＮによる物体検出を行う場合より、処理量を削減しつつ類似の効果を得ようとする方法が存在する。

　また、キーフレームではＣＮＮによる物体検出を行い、それ以外のフレームではＣＮＮの途中層の特徴マップをキーフレームから動き補償で予測し、それ以降の層については、ＣＮＮの通常の処理を行う手法が提案されている（非特許文献３）。

Wei Liu, et.al., "SSD: Single Shot MultiBox Detector", ECCV2016 J. Redomon, et.al., "YOLOv3: An Incremental Improvement", https://arxiv.org/abs/1804.02767 M.Buckler, et.al., "EVA2: Exploiting Temporal Redundancy In Live Computer Vision", ISCA2018

　しかし、ＣＮＮによる物体検出を行うフレームと、その結果に基づいて物体を追跡するフレームとに分ける手法では、追跡のみを行うフレームにおいて新たな物体が出現した場合に、その新たな物体を検出できない、という課題がある。

　また、非特許文献３に記載の手法では、ＣＮＮの後半層の処理量が大きいという問題がある。また、非特許文献３に記載の手法では、動きの細かな変化が多い動画像に対しては、特徴マップの動き補償が有効に機能せず、物体検出の精度や効率が低下する、という課題がある。

　また、より高精細な動画像に対する物体検出をリアルタイムで処理したい場合など、動画像の各フレームに対する物体検出を、精度を低下させることなく、より効率的に行う手法が求められている。

　開示の技術は、上記の点に鑑みてなされたものであり、動画像に対する物体検出において、精度を低下させることなく、効率を向上させることを目的とする。

　本開示の第１態様は、物体検出装置であって、複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出する算出部と、前記算出部により算出された指標が、予め定められた閾値以上か否かを判定する判定部と、前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出する第１検出部と、前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出する第２検出部と、前記第１検出部により検出された前記領域の情報、及び前記第２検出部により検出された前記領域の情報を出力する出力部と、を含む。

　本開示の第２態様は、物体検出方法であって、算出部が、複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出し、判定部が、前記算出部により算出された指標が、予め定められた閾値以上か否かを判定し、第１検出部が、前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出し、第２検出部が、前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出し、出力部が、前記第１検出部により検出された前記領域の情報、及び前記第２検出部により検出された前記領域の情報を出力する方法である。

　本開示の第３態様は、物体検出プログラムであって、コンピュータを、上記の物体検出装置の各部として機能させるためのプログラムである。

　開示の技術によれば、動画像に対する物体検出において、精度を低下させることなく、効率を向上させることができる。

物体検出装置のハードウェア構成を示すブロック図である。第１実施形態に係る物体検出装置の機能構成の例を示すブロック図である。参照フレーム及び動きベクトルを用いて、対象フレームから物体を示す領域を検出する方法を説明するための図である。第１実施形態における物体検出処理の流れを示すフローチャートである。第２実施形態に係る物体検出装置の機能構成の例を示すブロック図である。部分画像及び縮小画像の生成を説明するための図である。第２実施形態における物体検出処理の流れを示すフローチャートである。第２実施形態における物体検出処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜第１実施形態＞
　第１実施形態に係る物体検出装置は、物体検出の対象となる動画像のフレーム毎に動きベクトルを算出すると共に、動きベクトルを用いて、フレーム間の変化の大きさを示す指標を算出する。そして、物体検出装置は、指標が大きい場合は、物体検出モデルによる物体検出を行い、そうでない場合は、動きベクトル算出の基準とした参照フレームの物体検出結果の位置情報を補正して出力する。これにより、新たな物体の出現や物体の変形に対する物体検出の精度の低下を回避しつつ、効率的な処理を実現する。

　図１は、第１実施形態に係る物体検出装置１０のハードウェア構成を示すブロック図である。図１に示すように、物体検出装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６、及び通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、後述する物体検出処理を実行するための物体検出プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

　通信Ｉ／Ｆ１７は、他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

　次に、物体検出装置１０の機能構成について説明する。図２は、物体検出装置１０の機能構成の例を示すブロック図である。図２に示すように、物体検出装置１０は、機能構成として、入力部２１と、算出部２２と、参照フレームバッファ２３と、動きベクトルバッファ２４と、判定部２５と、画像形成部２６とを有する。さらに、物体検出装置１０は、機能構成として、第１検出部２７と、第２検出部２８と、検出結果バッファ２９と、出力部３０とを有する。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された物体検出プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　入力部２１は、物体検出装置１０に入力された動画像を受け付け、動画像を構成する各フレームを入力画像として、動画像の時系列順に算出部２２及び画像形成部２６の各々へ順次出力する。ここでは、動画像に含まれる各フレームに、先頭から順に、ｎ＝０，１，２，・・・のフレーム番号が付与されているものとする。以下では、フレーム番号ｎのフレームを「フレームｎ」と表記する。入力部２１は、フレームｎを対象フレームとして設定する。

　算出部２２は、入力部２１から出力された対象フレーム受け付け、対象フレームの全体に亘って、すなわち入力画像全体について、参照フレームバッファ２３に記憶された参照フレームを基準とした動きベクトルを算出する。参照フレームバッファ２３には、対象フレームよりも時系列順に前のフレームであって、算出部２２により動きベクトルを算出する際の基準となる参照フレームが記憶される。以下では、参照フレームを、対象フレームの直前のフレームとする場合、すなわち、フレームｎの参照フレームはフレームｎ－１である場合について説明する。

　算出部２２は、具体的には、対象フレームと参照フレームとの間で動き探索を行い、対象フレーム（フレームｎ）全体を分割したブロック毎の動きベクトルで表される動きベクトル場Ｖ（ｎ）を算出する。ブロックとは、動きベクトルを求める最小単位の領域であり、例えば、横方向画素数ｓｘ、縦方向画素数ｓｙのブロックとしてよい。また、動き探索の手法としては、ブロックマッチングを用いた手法、勾配を用いた手法等、従来既知の手法を用いてよく、第１実施形態において、その手法は限定しない。算出部２２は、算出した動きベクトル場Ｖ（ｎ）を動きベクトルバッファ２４に記憶する。

　また、算出部２２は、動きベクトルを用いて表される、キーフレームと対象フレームとの間の変化の大きさを示す指標を算出する。キーフレームは、後述する第１検出部２７において、物体検出モデルにより物体検出が行われたフレームのうち、対象フレームの直近のフレームである。具体的には、算出部２２は、まず、参照フレームと対象フレーム間の指標として、参照フレームと、算出した動きベクトル場とを用いて生成される動き補償予測画像と、対象フレームとの誤差である、動き補償の予測誤差の大きさを示す指標を算出してよい。算出部２２は、動き補償の予測誤差として、例えば下記（１）式に示す、対象フレーム（フレームｎ）全体の予測差分絶対値和ｓａｄ（ｎ）を算出してよい。

ｓａｄ（ｎ）＝Σ＿ｃΣ＿ｘΣ＿ｙ｜Ｉ（ｃ，ｎ，ｘ，ｙ）
　－Ｉ（ｃ，ｎ－１，ｘ－ｍｖｘ（ｘ，ｙ），ｙ－ｍｖｙ（ｘ，ｙ））｜
　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　（１）式において、Ｉ（ｃ，ｎ，ｘ，ｙ）は、フレームｎの画像内座標（ｘ，ｙ）のチャネルｃの画素値、ｍｖｘ（ｘ，ｙ）及びｍｖｙ（ｘ，ｙ）は、フレームｎの画像内座標（ｘ，ｙ）における動きベクトルのｘ成分及びｙ成分を表す。チャネルｃは、例えば、物体検出装置１０に入力された動画像が、ＲＧＢの３成分からなる場合は、その各成分に相当する。また、ｘ及びｙは整数値であるが、ｍｖｘ（ｘ，ｙ）及びｍｖｙ（ｘ，ｙ）は小数値を取り得る。Ｉ（）の引数の画像内座標が小数の場合、既存の小数画素補間手法を適用してよい。また、フレームｎに含まれるノイズや動きベクトルの精度誤差の影響が支配的になることを回避するために、フレームｎのブロック毎の分散や隣接画素間差分等を元に、予測差分絶対値和ｓａｄ（ｎ）を予め定めた閾値未満に抑圧するように補正してもよい。

　また、算出部２２は、参照フレームと対象フレーム間の指標として、対象フレーム全体における動きベクトルのばらつきの大きさを示す指標を算出してよい。算出部２２は、動きベクトルのばらつきを示す指標として、例えば下記（２）式に示す、動きベクトル成分の差分絶対値和ｄｉｆｆ（ｎ）を算出してよい。

ｄｉｆｆ（ｎ）
＝Σ＿ｘΣ＿ｙ｛｜ｍｖｘ（ｘ，ｙ）－ｍｖｘ（ｘ＋ｓｘ，ｙ）｜
　　　　　　　＋｜ｍｖｘ（ｘ，ｙ）－ｍｖｘ（ｘ，ｙ＋ｓｙ）｜
　　　　　　　＋｜ｍｖｙ（ｘ，ｙ）－ｍｖｙ（ｘ＋ｓｘ，ｙ）｜
　　　　　　　＋｜ｍｖｙ（ｘ，ｙ）－ｍｖｙ（ｘ，ｙ＋ｓｙ）｜｝
　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（２）

　（２）式において、ｓｘ及びｓｙは、上述したように、動きベクトルを求める最小単位のブロックの横方向画素数及び縦方向画素数である。すなわち、（２）式に示す差分絶対値和ｄｉｆｆ（ｎ）は、横方向及び縦方向に隣接するブロック同士の動きベクトルのｘ成分及びｙ成分の差分の絶対値の和である。

　また、算出部２２は、キーフレームから対象フレームまでの各フレームについて算出した上記の指標の累積値（以下、「累積指標」という）を、後述する判定部２５で閾値と比較するための指標として算出する。具体的には、算出部２２は、ｓａｄ（ｎ）の累積指標ｓａｄ＿ａｃｔ、及びｄｉｆｆ（ｎ）の累積指標ｄｉｆｆ＿ａｃを算出する。算出部２２は、算出した累積指標を判定部２５へ出力する。

　また、算出部２２は、フレームｎを、フレームｎ＋１が対象フレームとなった際の参照フレームとして用いるために、参照フレームバッファ２３に記憶する。

　判定部２５は、算出部２２から出力された累積指標を受け取り、累積指標が、予め定められた閾値以上か否かを判定する。具体的には、判定部２５は、ｓａｄ＿ａｃが閾値ＴＨ＿ｓａｄ以上、又はｄｉｆｆ＿ａｃが閾値ＴＨ＿ｄｉｆｆ以上の場合には、累積指標が閾値以上であると判定する。一方、判定部２５は、ｓａｄ＿ａｃが閾値ＴＨ＿ｓａｄ未満、かつｄｉｆｆ＿ａｃが閾値ＴＨ＿ｄｉｆｆ未満の場合には、累積指標が閾値未満であると判定する。

　判定部２５は、累積指標が閾値以上の場合には、キーフレームと対象フレーム間の変化が大きいと判断し、物体検出モデルを用いた物体検出を行う第１検出部２７へ、物体検出の処理を指示する検出指示を出力する。一方、判定部２５は、累積指標が閾値未満の場合には、キーフレームと対象フレーム間の変化が小さいと判断し、物体検出モデルによる物体検出をスキップし、過去の検出結果を補正して物体検出を行う第２検出部２８へ検出指示を出力する。判定部２５は、第１検出部２７へ検出指示を出力した場合、算出部２２で算出されている累積指標（ｓａｄ＿ａｃ及びｄｉｆｆ＿ａｃ）を初期化、すなわち０にする。

　画像形成部２６は、入力部２１から出力された対象フレームを受け取り、第１検出部２７の物体検出モデルへ入力可能なサイズにリサイズし、第１検出部２７へ出力する。

　第１検出部２７は、判定部２５から出力された検出指示を受け取った場合に、画像形成部２６から出力された対象フレームを受け取り、物体検出モデルを用いて、対象フレームから物体を示す領域を検出する。物体検出モデルは、例えば、ＳＳＤやＹＯＬＯ等のＣＮＮを利用したモデルとしてよい。具体的には、第１検出部２７は、物体検出モデルを用いて、対象フレームに含まれる複数の物体を示す領域の各々を検出する。そして、第１検出部２７は、検出した領域の各々について、領域の画像が示す物体の属性、検出結果の信頼度、対象フレーム内における検出した領域の位置及び大きさを表す矩形情報等を、物体検出の検出結果として、出力部３０へ出力する。

　第２検出部２８は、判定部２５から出力された検出指示を受け取った場合に、参照フレームにおいて検出された領域の位置を、動きベクトルを用いて補正した、対象フレーム上の領域を検出する。具体的には、第２検出部２８は、検出結果バッファ２９に記憶されている参照フレームの検出結果を取得する。そして、第２検出部２８は、図３に示すように、参照フレームにおいて検出された各物体の矩形情報の中心座標に対応する対象フレームの座標（位置情報）についての動きベクトルを動きベクトルバッファ２４から取得する。そして、第２検出部２８は、参照フレームにおける矩形の中心座標を、取得した動きベクトルの分補正した位置に対応する対象フレーム上の座標を中心座標とする矩形であって、参照フレームにおける矩形と同サイズの矩形を、対象フレームから検出する。例えば、図３に示すように、参照フレームで検出された矩形の中心座標が（ｘ，ｙ）、対象フレームの座標（ｘ，ｙ）についての動きベクトルが（ｍｖｘ（ｘ，ｙ），ｍｖｙ（ｘ，ｙ））であるとする。この場合、第２検出部２８は、対象フレームにおける補正後の中心座標を（ｘ＋ｍｖｘ（ｘ，ｙ），ｙ＋ｍｖｙ（ｘ，ｙ））とする。

　なお、厳密には、図３に示すとおり、動きベクトル（ｍｖｘ（ｘ，ｙ），ｍｖｙ（ｘ，ｙ））は、対象フレームの画像内座標（ｘ，ｙ）における動きベクトルであり、参照フレームの画像内座標（ｘ，ｙ）における動きベクトルとは異なる。そのため、対象フレームにおいて検出される矩形の位置にずれが生じる可能性がある。そこで、第２検出部２８は、対象フレームの座標（ｘ＋ｍｖｘ（ｘ，ｙ），ｙ＋ｍｖｙ（ｘ，ｙ））についての動きベクトルを再度参照して置き換えるなどの追加補正を行ってもよい。また、第２検出部２８は、動きベクトルの局所的なばらつきの影響を緩和するために、近傍の複数の動きベクトルの平均値を計算して保存しておき、その値を（ｍｖｘ（ｘ，ｙ），ｍｖｙ（ｘ，ｙ））の代わりに用いてもよい。

　第２検出部２８は、動きベクトルを用いた補正後の中心座標に基づいて検出した領域について、その領域（矩形）の位置及び大きさを表す矩形情報を取得する。また、第２検出部２８は、検出結果バッファ２９から、参照フレームで検出された対応する領域についての物体の属性、及び検出結果の信頼度等を取得する。第２検出部２８は、これらの情報をまとめて、対象フレームにおける物体検出の検出結果として、出力部３０へ出力する。

　出力部３０は、第１検出部２７から出力された検出結果、又は第２検出部２８から出力された検出結果を受け取り、出力する。また、出力部３０は、フレームｎの検出結果を、フレームｎ＋１が対象フレームとなった際に参照するために、検出結果バッファ２９に記憶する。

　次に、物体検出装置１０の作用について説明する。図４は、物体検出装置１０による物体検出処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から物体検出プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、物体検出処理が行なわれる。なお、物体検出処理は、本開示の物体検出方法の一例である。

　ステップＳ１０１で、ＣＰＵ１１は、入力部２１として、動画像を構成する各フレームのフレーム番号を示す変数ｎを０に設定する。次に、ステップＳ１０２で、ＣＰＵ１１は、入力部２１として、動画像のフレームｎを対象フレームに設定する。次に、ステップＳ１０３で、ＣＰＵ１１は、入力部２１として、ｎが０より大きいか否かを判定する。ｎ＞０の場合には、ステップＳ１０４へ移行し、ｎ＝０の場合には、ステップＳ１１０へ移行する。ステップＳ１０４では、ＣＰＵ１１は、入力部２１として、フレームｎ－１を参照フレームに設定する。

　次に、ステップＳ１０５で、ＣＰＵ１１は、算出部２２として、フレームｎとフレームｎ－１との間で動き探索を行い、フレームｎの画像全体を分割したブロック毎の動きベクトルで表される動きベクトル場Ｖ（ｎ）を算出する。そして、ＣＰＵ１１は、算出部２２として、算出した動きベクトル場Ｖ（ｎ）動きベクトルバッファ２４に記憶する。

　次に、ステップＳ１０６で、ＣＰＵ１１は、算出部２２として、動きベクトルを用いて、フレームｎ－１とフレームｎとの間の変化の大きさを示す指標として、例えば（１）式に示すｓａｄ（ｎ）、及び（２）式に示すｄｉｆｆ（ｎ）を算出する。

　次に、ステップＳ１０７で、ＣＰＵ１１は、算出部２２として、上記ステップＳ１０６で算出したｓａｄ（ｎ）をｓａｄ＿ａｃに加算し、ｄｉｆｆ（ｎ）をｄｉｆｆ＿ａｃに加算することにより、キーフレームから対象フレームまでの累積指標を算出する。そして、ＣＰＵ１１は、算出部２２として、算出した累積指標を判定部２５へ出力する。

　次に、ステップＳ１０８で、ＣＰＵ１１は、判定部２５として、ｓａｄ＿ａｃが閾値ＴＨ＿ｓａｄ未満、かつｄｉｆｆ＿ａｃが閾値ＴＨ＿ｄｉｆｆ未満か否かを判定する。ｓａｄ＿ａｃ＜ＴＨ＿ｓａｄ、かつｄｉｆｆ＿ａｃ＜ＴＨ＿ｄｉｆｆの場合には、ステップＳ１０９へ移行し、ｓａｄ＿ａｃ≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ≧ＴＨ＿ｄｉｆｆの場合には、ステップＳ１１０へ移行する。

　ステップＳ１０９では、ＣＰＵ１１は、判定部２５として、第２検出部２８に検出指示を出力する。そして、ＣＰＵ１１は、第２検出部２８として、フレームｎ－１において検出された領域の位置を、動きベクトルを用いて補正した、フレームｎ上の領域を検出する。また、ＣＰＵ１１は、第２検出部２８として、フレームｎから検出した領域の各々について、物体の属性、信頼度、矩形情報等を含む検出結果を、出力部３０へ出力し、ステップＳ１１２へ移行する。

　一方、ステップＳ１１０では、ＣＰＵ１１は、判定部２５として、第１検出部２７に検出指示を出力する。また、ＣＰＵ１１は、画像形成部２６として、フレームｎを、第１検出部２７の物体検出モデルへ入力可能なサイズにリサイズし、第１検出部２７へ出力する。そして、ＣＰＵ１１は、第１検出部２７として、画像形成部２６から出力されたフレームｎを受け取り、物体検出モデルを用いて、フレームｎから物体を示す領域を検出する。さらに、ＣＰＵ１１は、第１検出部２７として、フレームｎから検出した領域の各々について、物体の属性、信頼度、矩形情報等を含む検出結果を、出力部３０へ出力する。

　次に、ステップＳ１１１で、ＣＰＵ１１は、判定部２５として、算出部２２で算出されている累積指標であるｓａｄ＿ａｃ及びｄｉｆｆ＿ａｃを初期化、すなわち０にし、ステップＳ１１２へ移行する。

　ステップＳ１１２では、ＣＰＵ１１は、出力部３０として、上記ステップＳ１０９又はＳ１１０で出力された検出結果を受け取り、出力する。また、ＣＰＵ１１は、出力部３０として、フレームｎの検出結果を検出結果バッファ２９に記憶する。

　次に、ステップＳ１１３で、ＣＰＵ１１は、入力部２１として、ｎを１インクリメントして、ステップＳ１０２に戻る。

　以上説明したように、第１実施形態に係る物体検出装置は、複数のフレームを含む動画像の各フレームを対象フレームとし、対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出する。また、物体検出装置は、動きベクトルを用いて表される、キーフレームと対象フレームとの間の変化の大きさを示す指標を算出する。キーフレームは、物体検出モデルを用いて物体検出が行われたフレームのうち、対象フレームの直近のフレームである。そして、物体検出装置は、指標が、予め定められた閾値以上の場合に、物体検出モデルを用いて、対象フレームから物体を示す領域を検出する。一方、物体検出装置は、指標が閾値未満の場合に、参照フレームにおいて検出された領域の位置を、動きベクトルを用いて補正した対象フレーム上の領域を検出する。そして、物体検出装置は、何れかの検出方法で検出された領域について、物体の属性、信頼度、矩形情報等を含む検出結果を出力する。これにより、第１実施形態に係る物体検出装置は、動画像に対する物体検出において、精度を低下させることなく、効率を向上させることができる。

＜第２実施形態＞
　次に、第２実施形態について説明する。第２実施形態に係る物体検出装置は、フレームを複数に分割した各部分画像の物体検出結果と、フレーム全体を縮小した縮小画像の物体検出結果との統合、すなわち、フレームの分割と合成とを用いた物体検出を行う。第２実施形態に係る物体検出装置は、その中の部分画像毎の物体検出の処理において、第１実施形態と同様に、キーフレームと対象フレーム間の変化の大きさを示す指標を用いて、物体検出モデルを用いた物体検出の処理をスキップするか否かを判定する。

　なお、第２実施形態に係る物体検出装置において、第１実施形態に係る物体検出装置１０と同様の構成については、同一符号を付して詳細な説明を省略する。また、第２実施形態に係る物体検出装置のハードウェア構成は、図１に示す第１実施形態に係る物体検出装置１０のハードウェア構成と同様であるため、説明を省略する。

　まず、第２実施形態に係る物体検出装置の機能構成について説明する。図５は、第２実施形態に係る物体検出装置２１０の機能構成の例を示すブロック図である。図５に示すように、物体検出装置２１０は、機能構成として、入力部２２１と、算出部２２２と、参照フレームバッファ２３と、動きベクトルバッファ２４と、判定部２２５と、部分画像生成部２２６Ａと、縮小画像生成部２２６Ｂとを有する。さらに、物体検出装置２１０は、機能構成として、第１検出部２２７と、第２検出部２２８と、検出結果バッファ２９と、出力部２３０とを有する。さらに、第１検出部２２７は、部分画像検出部２２７－ｍ（ｍ＝１，２，３，４）と、縮小画像検出部２２７Ｂとを有する。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された物体検出プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　なお、第２実施形態に係る物体検出装置２１０の機能構成と、第１実施形態に係る物体検出装置１０の機能構成とで、符号の数字の末尾２桁が共通する機能構成同士において、共通する内容については、詳細な説明を省略する。

　入力部２２１は、動画像のフレームｎを対象フレームとして、算出部２２２、部分画像生成部２２６Ａ、及び縮小画像生成部２２６Ｂの各々へ出力する。

　部分画像生成部２２６Ａは、対象フレームを複数の部分に分割した複数の部分画像を生成する。例えば、部分画像生成部２２６Ａは、図６上図に示すように、対象フレームの左上、右上、左下、及び右下に位置する互いに重複した４つの部分をそれぞれ抽出する。そして、部分画像生成部２２６Ａは、抽出したそれぞれの部分を、部分画像１（実線）、部分画像２（破線）、部分画像３（点線）、及び部分画像４（一点鎖線）として生成する。部分画像ｍ（ここでは、ｍ＝１，２，３，４）のｍは部分画像の番号である。なお、部分画像生成部２２６Ａが生成する部分画像の数は図６の例に限定されない。

　部分画像生成部２２６Ａは、生成した各部分画像ｍを、それぞれ対応する部分画像検出部２２７－ｍへ出力する。ここでは、部分画像１は部分画像検出部２２７－１へ出力され、部分画像２は部分画像検出部２２７－２へ出力され、部分画像３は部分画像検出部２２７－３へ出力され、部分画像４は部分画像検出部２２７－４へ出力されるものとする。

　縮小画像生成部２２６Ｂは、図６下図に示すように、対象フレーム全体を縮小した縮小画像（二点鎖線）を生成し、縮小画像検出部２２７Ｂへ出力する。

　算出部２２２は、第１実施形態における算出部２２と同様に、対象フレーム（フレームｎ）について、参照フレームを基準とした動きベクトル場Ｖ（ｎ）を算出する。また、算出部２２２は、部分画像生成部２２６Ａで生成される部分画像ｍの各々に対応した、対象フレームの部分（以下、「部分ｍ」という）それぞれについて、第１実施形態における算出部２２と同様の方法により、累積指標を算出する。具体的には、算出部２２２は、対象フレームの部分ｍから、参照フレームと対象フレーム間の変化の大きさを示す指標として、ｓａｄ（ｎ，ｍ）及びｄｉｆｆ（ｎ，ｍ）を算出する。また、対象フレームの部分ｍ毎に、キーフレームと対象フレーム間の変化の大きさを示す累積指標として、ｓａｄ＿ａｃ（ｍ）及びｄｉｆｆ＿ａｃ（ｍ）を算出する。

　判定部２２５は、部分ｍ毎に、第１実施形態における判定部２５と同様の方法で、累積指標が閾値以上か否かを判定する。判定部２２５は、部分ｍの累積指標が閾値以上の場合には、部分画像ｍに対応する部分画像検出部２２７－ｍへ、物体検出の処理を指示する検出指示を出力する。具体的には、判定部２２５は、ｓａｄ＿ａｃ（１）≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ（１）≧ＴＨ＿ｄｉｆｆの場合には、部分画像検出部２２７－１へ検出指示を出力する。また、判定部２２５は、ｓａｄ＿ａｃ（２）≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ（２）≧ＴＨ＿ｄｉｆｆの場合には、部分画像検出部２２７－２へ検出指示を出力する。また、判定部２２５は、ｓａｄ＿ａｃ（３）≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ（３）≧ＴＨ＿ｄｉｆｆの場合には、部分画像検出部２２７－３へ検出指示を出力する。また、判定部２２５は、ｓａｄ＿ａｃ（４）≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ（４）≧ＴＨ＿ｄｉｆｆの場合には、部分画像検出部２２７－４へ検出指示を出力する。一方、判定部２２５は、部分ｍの累積指標が閾値未満の場合には、第２検出部２２８へ、部分ｍについての検出指示を出力する。

　なお、判定部２２５は、処理量を平準化するために、ｓａｄ（ｎ，ｍ）又はｄｉｆｆ（ｎ，ｍ）が下位から一定数の部分ｍについて、第２検出部２２８へ検出指示を出力してもよい。この場合、判定部２２５は、残りの部分ｍについては、第１検出部２２７の対応する部分画像検出部２２７－ｍに検出指示を出力する。

　第１検出部２２７に含まれる各検出部は、第１実施形態における第１検出部２７と同様に、物体検出モデルを用いて、部分画像ｍ又は縮小画像から物体を示す領域を検出し、物体の属性、信頼度、矩形情報等を含む検出結果を出力する。すなわち、検出指示が出力された部分画像検出部２２７－ｍから、部分画像ｍについての検出結果が出力される。また、縮小画像検出部２２７Ｂについては、フレーム毎に、縮小画像についての検出結果が出力される。なお、矩形情報については、部分画像ｍ及び縮小画像のいずれの場合も、対象フレームの画像内座標に変換された情報が出力されるものとする。

　第２検出部２２８は、判定部２２５から検出指示が出力された部分ｍについて、参照フレームにおいて検出された領域の位置を、動きベクトルを用いて補正した、対象フレームの部分ｍ上の領域を検出する。具体的には、第２検出部２２８は、第１実施形態における第２検出部２８と同様に、検出結果バッファ２９に記憶されている参照フレームの検出結果を取得する。そして、第２検出部２２８は、参照フレームの部分ｍにおいて検出された各物体の矩形情報の中心座標に対応する対象フレームの部分ｍの座標（位置情報）についての動きベクトルを動きベクトルバッファ２４から取得する。そして、第２検出部２２８は、参照フレームにおける矩形の中心座標を、取得した動きベクトルの分補正した位置に対応する対象フレームの部分ｍ上の座標を特定する。第２検出部２２８は、特定した座標を中心座標とする矩形であって、参照フレームにおける矩形と同サイズの矩形を、対象フレームの部分ｍから検出する。

　なお、位置を補正した矩形が対象フレームの部分ｍの範囲を超える場合には、その矩形が他の部分ｍから検出できる可能性が高い。この場合、第２検出部２８は、部分ｍの範囲を超えないように矩形の位置を補正する等の処理を行うことなく、対象フレームの部分ｍからは該当の矩形が検出されなかったものとして処理してよい。

　出力部２３０は、第１検出部２２７の検出結果と、第２検出部２２８の検出結果とを統合して、対象フレームについての検出結果を出力すると共に、検出結果バッファ２９に記憶する。具体的には、出力部２３０は、部分画像検出部２２７－ｍ、及び第２検出部２２８から、部分画像ｍ（ｍ＝１，２，３，４）の検出結果を取得する。例えば、判定部２２５により、部分１及び部分２については部分画像検出部２２７－１、２２７－２の各々に検出指示が出力され、部分３及び部分４については第２検出部２２８に検出指示が出力されたとする。この場合、出力部２３０は、部分画像検出部２２７－１から部分画像１の検出結果を取得し、部分画像検出部２２７－２から部分画像２の検出結果を取得し、第２検出部２２８から部分画像３及び部分画像４の検出結果を取得する。さらに、出力部２３０は、縮小画像検出部２２７Ｂから出力された縮小画像の検出結果を取得する。各検出結果には、各画像から検出された複数の領域、すなわち複数の物体についての検出結果が含まれる。

　そして、出力部２３０は、縮小画像の検出結果と部分画像の検出結果とで、同一の物体についての検出結果であると判断される場合に、部分画像の検出結果を削除する。具体的には、出力部２３０は、縮小画像の検出結果に含まれる領域と、部分画像ｍのいずれかの検出結果に含まれる領域とで、物体の属性が一致する領域同士の位置が、対象フレーム上で対応する位置関係にあるか否かを判定する。例えば、出力部２３０は、物体の属性が一致する領域同士の重複度が予め定めた閾値ＴＨ＿Ｓ１以上の場合に、両領域が、対象フレーム上で対応する位置関係にあると判定してよい。

　例えば、出力部２３０は、縮小画像の検出結果に含まれる領域と、部分画像ｍの検出結果に含まれる領域とで、物体の属性が一致する領域同士が重複する面積を、縮小領域の検出結果に含まれる領域の面積で除算した値を重複度として算出してよい。各領域の面積及び重複する面積は、各領域の矩形情報に基づいて算出される。なお、各領域の矩形情報は、上述のように、対象フレームの画像座標内の座標値に変換されている。出力部２３０は、算出した重複度が、予め定めた閾値ＴＨ＿Ｓ１以上の場合には、部分画像ｍの検出結果から、該当の領域についての検出結果を削除する。なお、複数の部分画像にまたがるように存在する物体については、複数の部分画像の各々に領域が分割されて検出結果が含まれている。そのため、これら全てを、縮小画像に含まれる検出結果の１つと共通するものとして削除するため、縮小画像の検出結果ではなく、部分画像ｍの検出結果から該当の領域の検出結果を削除している。

　なお、部分画像ｍの検出結果から領域を削除するか否かの判定方法は、上記の例に限定されない。例えば、出力部２３０は、上記の重複度が閾値ＴＨ＿Ｓ１以上、かつ縮小画像の検出結果に含まれる領域の面積と、部分画像ｍの検出結果に含まれる領域の面積との比が、予め定められた閾値ＴＨ＿Ｓ２以上か否かを判定する。出力部２３０は、この判定条件を満たす場合に、部分画像ｍの検出結果から該当の領域の検出結果を削除してもよい。縮小画像に含まれる領域のサイズが、対象フレームのサイズに対して比較的大きく、その領域と物体の属性が一致する領域が部分画像ｍに複数存在する場合には、縮小画像の領域と、部分画像の複数の領域の各々との重複度が閾値ＴＨ＿Ｓ１を超える場合がある。このような場合を考慮して、縮小画像に含まれる領域と、部分画像に含まれる領域との位置関係の対応だけでなく、領域のサイズも同等か否かを判定することにより、部分画像ｍに含まれる領域の検出結果を誤って削除することを防止するものである。

　また、例えば、出力部２３０は、上記の重複度、及び重複度と面積比とを用いた判定に加え、以下の判定により、部分画像ｍに含まれる領域の検出結果を削除してもよい。具体的には、出力部２３０は、縮小画像の検出結果に含まれる全ての領域の各々の物体の属性のいずれとも一致しない物体の属性を有する領域が、部分画像ｍの検出結果に含まれるか否かを判定する。出力部２３０は、物体の属性がいずれとも一致しない領域が部分画像ｍに存在する場合、その領域の面積を、対象フレームの面積で除算して得られる値が、予め定められた閾値ＴＨ＿Ｓ３以上か否かを判定する。出力部２３０は、得られた値が閾値ＴＨ＿Ｓ３以上の場合、部分画像ｍに含まれる領域の検出結果から、該当の領域の検出結果を削除する。これにより、１つの物体を示す領域が複数の部分画像にまたがって存在したため、物体の特徴量が分割されて１つの部分画像ｍで抽出されたことによる誤検出を排除する。

　出力部２３０は、上記処理後に残った部分画像ｍ、及び縮小画像の各々の検出結果をまとめて、最終的な検出結果として出力する。

　次に、物体検出装置２１０の作用について説明する。図７及び図８は、物体検出装置２１０による物体検出処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から物体検出プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、物体検出処理が行なわれる。なお、第２実施形態における物体検出処理において、第１実施形態における物体検出処理（図４）と同一の処理については、同一のステップ番号を付して詳細な説明を省略する。

　ステップＳ１０１及びＳ１０２を経て、ステップＳ１０３でｎ＝０と判定されると、ステップＳ２０３へ移行する。また、ステップＳ１０４～Ｓ１０５を経て、フレームｎの動きベクトル場Ｖ（ｎ）が算出されると、ステップＳ２０１へ移行する。

　ステップＳ２０１では、ＣＰＵ１１は、算出部２２２として、フレームｎの部分ｍ毎に、参照フレームと対象フレーム間の変化の大きさを示す指標として、ｓａｄ（ｎ，ｍ）及びｄｉｆｆ（ｎ，ｍ）を算出する。

　次に、ステップＳ２０２で、ＣＰＵ１１は、算出部２２２として、フレームｎの部分ｍ毎に、上記ステップＳ２０１で算出したｓａｄ（ｎ，ｍ）をｓａｄ＿ａｃ（ｍ）に加算し、ｄｉｆｆ（ｎ，ｍ）をｄｉｆｆ＿ａｃ（ｍ）に加算する。これにより、算出部２２２は、キーフレームから対象フレームまでの累積指標を算出する。そして、ＣＰＵ１１は、算出部２２２として、算出した累積指標を判定部２２５へ出力し、ステップＳ２０４（図８）へ移行する。

　ステップＳ２０３では、ＣＰＵ１１は、判定部２２５として、部分画像検出部２２７－ｍの各々に検出指示を出力する。また、ＣＰＵ１１は、部分画像生成部２２６Ａとして、フレームｎから部分画像１～ｍｍａｘを生成し、対応する部分画像検出部２２７－ｍへ出力する。ｍｍａｘは、部分画像の番号の最大値であり、ここでは「４」である。すなわち、部分画像１、部分画像２、部分画像３、及び部分画像４が生成される。そして、ＣＰＵ１１は、部分画像検出部２２７－ｍの各々として、部分画像生成部２２６Ａから出力された部分画像ｍを受け取り、物体検出モデルを用いて、部分画像ｍから物体を示す領域を検出する。さらに、ＣＰＵ１１は、部分画像検出部２２７－ｍとして、部分画像ｍから検出した領域の各々について、物体の属性、信頼度、矩形情報等を含む検出結果を、出力部２３０へ出力し、ステップＳ２１１（図８）へ移行する。

　ステップＳ２０４（図８）では、ＣＰＵ１１は、判定部２２５として、部分画像の番号を示す変数ｍに１を設定する。

　次に、ステップＳ２０５で、ＣＰＵ１１は、判定部２２５として、ｓａｄ＿ａｃ（ｍ）が閾値ＴＨ＿ｓａｄ未満、かつｄｉｆｆ＿ａｃ（ｍ）が閾値ＴＨ＿ｄｉｆｆ未満か否かを判定する。ｓａｄ＿ａｃ（ｍ）＜ＴＨ＿ｓａｄ、かつｄｉｆｆ＿ａｃ（ｍ）＜ＴＨ＿ｄｉｆｆの場合には、ステップＳ２０６へ移行し、ｓａｄ＿ａｃ（ｍ）≧ＴＨ＿ｓａｄ、又はｄｉｆｆ＿ａｃ（ｍ）≧ＴＨ＿ｄｉｆｆの場合には、ステップＳ２０７へ移行する。

　ステップＳ２０６では、ＣＰＵ１１は、判定部２２５として、第２検出部２２８に、部分ｍの物体検出を指示する検出指示を出力する。そして、ＣＰＵ１１は、第２検出部２２８として、フレームｎ－１において検出された領域の位置を、動きベクトルを用いて補正した、フレームｎの部分ｍ上の領域を検出する。また、ＣＰＵ１１は、第２検出部２２８として、フレームｎの部分ｍから検出した領域の各々について、物体の属性、信頼度、矩形情報等を含む検出結果を、出力部２３０へ出力し、ステップＳ２０９へ移行する。

　一方、ステップＳ２０７では、ＣＰＵ１１は、判定部２２５として、部分画像検出部２２７－ｍに検出指示を出力する。また、ＣＰＵ１１は、部分画像生成部２２６Ａとして、フレームｎから部分画像ｍを生成し、部分画像検出部２２７－ｍに出力する。そして、ＣＰＵ１１は、部分画像検出部２２７－ｍとして、部分画像生成部２２６Ａから出力された部分画像ｍを受け取り、物体検出モデルを用いて、部分画像ｍから物体を示す領域を検出する。さらに、ＣＰＵ１１は、部分画像検出部２２７－ｍとして、部分画像ｍから検出した領域の各々について、物体の属性、信頼度、矩形情報等を含む検出結果を、出力部２３０へ出力する。

　次に、ステップＳ２０８で、ＣＰＵ１１は、判定部２２５として、算出部２２２で算出されている累積指標であるｓａｄ＿ａｃ（ｍ）及びｄｉｆｆ＿ａｃ（ｍ）を初期化、すなわち０にし、ステップＳ２０９へ移行する。

　ステップＳ２０９では、ＣＰＵ１１は、判定部２２５として、ｍを１インクリメントする。次に、ステップＳ２１０で、ＣＰＵ１１は、判定部２２５として、ｍがｍｍａｘを超えたか否かを判定する。ｍ＞ｍｍａｘの場合には、ステップＳ２１１へ移行し、ｍ≦ｍｍａｘの場合には、ステップＳ２０５に戻る。

　ステップＳ２１１では、ＣＰＵ１１は、縮小画像生成部２２６Ｂとして、フレームｎ全体を縮小した縮小画像を生成し、縮小画像検出部２２７Ｂへ出力する。そして、ＣＰＵ１１は、縮小画像検出部２２７Ｂとして、物体検出モデルを用いて、縮小画像から物体を示す領域を検出し、物体の属性、信頼度、矩形情報等を含む検出結果を出力する。

　次に、ステップＳ２１２で、ＣＰＵ１１は、出力部２３０として、上記ステップＳ２０６、Ｓ２０７、及びＳ２１１で出力された検出結果を受け取り、共通する検出結果を削除することにより、縮小画像の検出結果と部分画像ｍの検出結果とを統合する。次に、ステップＳ１１２で、ＣＰＵ１１は、出力部２３０として、上記ステップＳ２１２で統合した検出結果を、フレームｎの最終的な検出結果として出力すると共に、検出結果バッファ２９に記憶する。

　以上説明したように、第２実施形態に係る物体検出装置は、第１実施形態と同様に、動きベクトルを用いて算出される指標が閾値以上の場合に、物体検出モデルを用いて、対象フレームの物体検出を行う。一方、物体検出装置は、指標が閾値未満の場合に、参照フレームにおいて検出された領域の位置を、動きベクトルを用いて補正した対象フレーム上の領域を検出する。この際、物体検出装置は、部分画像毎に指標の算出、閾値判定、及び物体検出の処理を実行する。また、物体検出装置は、対象フレームを縮小した縮小画像から、物体検出モデルを用いて物体検出を行い、縮小画像の検出結果と部分画像の検出結果とを統合する。これにより、第１実施形態と同様に、第２実施形態に係る物体検出装置は、動画像に対する物体検出において、精度を低下させることなく、効率を向上させることができる。また、第２実施形態に係る物体検出装置は、対象フレームを部分画像に分割して各種処理を実行することにより、動きの変化が少ない部分毎に、参照フレームの検出結果を用いた領域の検出を行うことができ、より効率を向上させることができる。さらに、第２実施形態に係る物体検出装置は、縮小画像と部分画像とで検出結果を統合することで、縮小した場合に抽出が困難となる、対象フレームに対する大きさが比較的小さい物体、及び、複数の部分画像にまたがる比較的大きい物体の両方を検出可能になる。そのため、第２実施形態に係る物体検出装置は、高精細な動画像を対象とする場合であっても、物体検出の精度を低下させることなく、効率的な物体検出を行うことができる。

　なお、第２実施形態では、第１検出部として、部分画像検出部及び縮小画像検出部を含む場合について説明したが、部分画像検出部のみを含む構成としてもよい。この場合でも、動きの変化が少ない部分毎に、参照フレームの検出結果を用いた領域の検出を行うことによる効率の向上を実現することができる。

　また、第２実施形態では、生成される部分画像毎に部分画像検出部を設ける場合について説明したが、これに限定されない。少なくとも１つの部分画像検出部を設けておき、判定部により、物体検出モデルによる物体検出を行うと判定された部分画像についての検出指示を部分画像生成部に出力するようにしてもよい。この場合、検出指示の対象である部分画像のみを部分画像生成部から部分画像検出部に出力するようにすればよい。

　また、上記各実施形態では、動き補償の予測差分絶対値和ｓａｄ及び動きベクトル成分の差分絶対値和ｄｉｆｆの累積値の両方が閾値未満の場合に、物体検出モデルを用いた物体検出をスキップする場合について説明したが、これに限定されない。いずれか一方の指標が閾値未満の場合に、物体検出モデルを用いた物体検出をスキップするようにしてもよい。また、ｓａｄ及びｄｉｆｆの積や重み付き和等、ｓａｄ及びｄｉｆｆを用いた１つの指標が閾値未満の場合に、物体検出モデルを用いた物体検出をスキップするようにしてもよい。さらに、キーフレームと対象フレーム間の変化の大きさを示す指標として、ｓａｄ及びｄｉｆｆ以外の指標を用いてもよい。

　また、上記各実施形態では、参照フレームを対象フレームの直前のフレームとする場合について説明したが、これに限定されない。なお、参照フレームを、物体検出モデルによる物体検出が行われた直近のフレームであるキーフレームとする場合には、上記各実施形態のように、指標を累積する処理は不要である。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した物体検出処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、物体検出処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　より具体的には、上記各実施形態で説明した各機能構成（図２及び図５の各部）をそれぞれ専用回路で実現し、ＬＳＩ（Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）内部で複数の専用回路が並列で動作する構成としてもよい。また、一部の機能構成については専用回路で実現し、他の機能構成については、ＣＰＵがソフトウェア（プログラム）を読み込んで実行することで実現されるようにしてもよい。例えば、上記各実施形態における判定部や第２検出部のような処理量が少ない機能構成の処理については、ＬＳＩ内のＣＰＵが実行し、その他の部分は専用回路を適用するようにしてもよい。

　また、上記各実施形態では、物体検出処理プログラムがＲＯＭ１２又はストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、さらに以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出し、
　算出された指標が、予め定められた閾値以上か否かを判定し、
　前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出し、
　前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出し、
　前記対象フレームから検出された前記領域の情報を出力する
　ように構成されている物体検出装置。

　（付記項２）
　物体検出処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記録媒体であって、
　前記物体検出処理は、
　複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出し、
　算出された指標が、予め定められた閾値以上か否かを判定し、
　前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出し、
　前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出し、
　前記対象フレームから検出された前記領域の情報を出力する
　ことを含む非一時的記録媒体。

１０、２１０  物体検出装置
１１   ＣＰＵ
１２   ＲＯＭ
１３   ＲＡＭ
１４   ストレージ
１５   入力部
１６   表示部
１７   通信Ｉ／Ｆ
１９   バス
２１、２２１  入力部
２２、２２２  算出部
２３   参照フレームバッファ
２４   動きベクトルバッファ
２５、２２５  判定部
２６   画像形成部
２２６Ａ      部分画像生成部
２２６Ｂ      縮小画像生成部
２７、２２７  第１検出部
２２７－１～４       部分画像検出部
２２７Ｂ      縮小画像検出部
２８、２２８  第２検出部
２９   検出結果バッファ
３０、２３０  出力部

Claims

　複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出する算出部と、
　前記算出部により算出された指標が、予め定められた閾値以上か否かを判定する判定部と、
　前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出する第１検出部と、
　前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出する第２検出部と、
　前記第１検出部により検出された前記領域の情報、及び前記第２検出部により検出された前記領域の情報を出力する出力部と、
　を含む物体検出装置。
　前記キーフレームは、前記第１検出部により前記領域が検出されたフレームのうち、前記対象フレームの直近のフレームであり、
　前記算出部は、前記キーフレームから前記対象フレームまでの各フレームで得られる前記指標の累積値を、前記判定部で前記閾値と比較するための指標として算出する
　請求項１に記載の物体検出装置。
　前記指標は、前記動きベクトルを用いた動き補償の予測誤差の大きさを示す指標、及び前記動きベクトルのばらつきの大きさを示す指標の少なくとも一方である請求項１又は請求項２に記載の物体検出装置。
　前記対象フレームを複数の部分に分割した複数の部分画像を生成する部分画像生成部をさらに含み、
　前記算出部は、前記部分画像毎に、前記指標を算出し、
　前記判定部は、前記部分画像毎に、前記指標が前記閾値以上か否かを判定し、
　前記第１検出部は、前記判定部により前記指標が前記閾値以上と判定された前記部分画像から、前記物体を示す領域を検出し、
　前記第２検出部は、前記判定部により前記指標が前記閾値未満と判定された前記部分画像から、前記物体を示す領域を検出し、
　前記出力部は、前記第１検出部により検出された領域と、前記第２検出部により検出された領域とを統合して、前記対象フレームにおける物体を示す領域の情報を出力する
　請求項１～請求項３の何れか１項に記載の物体検出装置。
　前記対象フレーム全体を縮小した縮小画像を生成する縮小画像生成部をさらに含み、
　前記第１検出部は、さらに、前記縮小画像から前記物体を示す領域を検出する
　請求項４に記載の物体検出装置。
　前記物体検出モデルは、畳み込みニューラルネットワークである請求項１～請求項５の何れか１項に記載の物体検出装置。
　算出部が、複数のフレームを含む動画像の各フレームを対象フレームとし、前記対象フレームの全体に亘って、参照フレームを基準とした動きベクトルを算出すると共に、前記動きベクトルを用いて表される、キーフレームと前記対象フレームとの間の変化の大きさを示す指標を算出し、
　判定部が、前記算出部により算出された指標が、予め定められた閾値以上か否かを判定し、
　第１検出部が、前記指標が前記閾値以上の場合に、物体検出モデルを用いて、前記対象フレームから物体を示す領域を検出し、
　第２検出部が、前記指標が前記閾値未満の場合に、前記参照フレームにおいて検出された領域の位置を、前記動きベクトルを用いて補正した前記対象フレーム上の領域を検出し、
　出力部が、前記第１検出部により検出された前記領域の情報、及び前記第２検出部により検出された前記領域の情報を出力する
　物体検出方法。
　コンピュータを、請求項１～請求項６の何れか１項に記載の物体検出装置の各部として機能させるための物体検出プログラム。