WO2022190531A1

WO2022190531A1 - 物体検出装置、物体検出方法、およびプログラム

Info

Publication number: WO2022190531A1
Application number: PCT/JP2021/047100
Authority: WO
Inventors: 真也阪田
Original assignee: オムロン株式会社
Priority date: 2021-03-08
Filing date: 2021-12-20
Publication date: 2022-09-15
Also published as: US20240144631A1; JP2022136840A; DE112021007212T5; CN116868227A

Abstract

画像から所定の物体を検出する物体検出装置であって、前記画像から前記物体が存在する候補領域を検出する第１の検出手段と、前記第１の検出手段によって検出された１つ以上の前記候補領域から対象領域を決定する判定手段と、前記対象領域を対象として、前記第１の検出手段とは異なる検出アルゴリズムによって前記物体を検出する第２の検出手段と、前記対象領域に対する前記２の検出手段による検出結果を表す検出情報を記憶する記憶手段と、を有し、前記判定手段は、１つ以上前のフレームに対する前記検出情報に基づいて、１つ以上の前記候補領域から前記対象領域を決定する、ことを特徴とする物体検出装置。

Description

物体検出装置、物体検出方法、およびプログラム

　本発明は、物体を検出する技術に関する。

　従来より、物体検出において、前段と後段に分かれた二段構成の検出器を用いて検出を行う技術が知られている。例えば、特許文献１、特許文献２では、前段の検出器で検出対象（例えば、顔）の候補領域を検出して、後段の検出器で当該複数の候補領域から検出対象を検出することで、高精度な物体検出を行っている。

特開２００６－２９３７２０号公報特開２０１９－０２１００１号公報

　しかしながら、従来技術では、２段階の検出処理を行うことで、処理時間が増大するという問題がある。特に、固定カメラでは、検出対象の物体（例えば、動体）以外は見え方が変わらないため、前段の検出器で一度発生した誤検出は何度も同じ場所で発生する。誤検出された領域に対しても後段の検出器で再度検出処理を行われてしまい、処理時間をより一層増大させてしまう問題がある。

　本発明は、高速かつ高精度に物体検出が可能な技術を提供することを目的とする。

　上記目的を達成するために本発明は、以下の構成を採用する。

　本発明の第一側面は、画像から所定の物体を検出する物体検出装置であって、前記画像から前記物体が存在する候補領域を検出する第１の検出手段と、前記第１の検出手段によって検出された１つ以上の前記候補領域から対象領域を決定する判定手段と、前記対象領域を対象として、前記第１の検出手段とは異なる検出アルゴリズムによって前記物体を検出する第２の検出手段と、前記対象領域に対する前記２の検出手段による検出結果を表す検出情報を記憶する記憶手段と、を有し、前記判定手段は、１つ以上前のフレームに対する前記検出情報に基づいて、１つ以上の前記候補領域から前記対象領域を決定する、ことを特徴とする物体検出装置である。

　検出対象の物体は、特に限定されないが、例えば、人体、顔、特定の動物、自動車、特定の商品などが挙げられる。候補領域は、検出対象の物体が存在する確率が高いと第１の検出手段によって判断された領域であり、第２の検出手段の検出の対象とする領域（対象領域）はこの候補領域に基づいて決定される。第１の検出手段および第２の検出手段は、どのようなアルゴリズムを用いたものであってもよいが、第２の検出手段の検出アルゴリズムは、第１の検出手段の検出アルゴリズムよりも高精度に検出が可能かつ計算量がより多いことが望ましい。検出情報は、第２の検出手段によって行われる物体検出処理を行って得られた情報であって、例えば、対象領域の位置やサイズ、対象領域に対応する画像、対象領域に検出対象の物体が含まれる確からしさを表すスコア等が含まれる。

　検出情報は、第２の検出手段によって物体が検出されなかった対象領域に関する情報を含むとよい。この場合、判定手段は、候補領域のうち、前フレームにおいて物体が検出されなかった対象領域との類似度が所定値以上の候補領域以外を、前記対象領域として決定するとよい。また、第１の検出手段は、候補領域に物体が含まれる確からしさを表す第１の検出信頼度も出力し、判定手段は、前フレームにおいて物体が検出されなかった対象領域との類似度が所定値以上の候補領域については第１の検出信頼度から所定の値を減算した値に基づいて、その他の候補領域については第１の検出信頼度に基づいて、対象領域を決定してもよい。上記の構成によれば、第２の検出手段に渡る候補領域の数が減るので、２段階の検出処理を行うことで検出性能を維持したまま、処理時間を削減することができる。

　また、第１の検出信頼度から減算する所定の値は、第２の検出手段によって物体が検出されなかった連続フレーム数に応じた値であるとよい。例えば、連続フレーム数が増加するほど、所定の値を大きくしてもよいし、連続フレーム数が一定数以上の場合に初めて第１の検出信頼度から減算する所定の値を減算してもよい。なお、第１の検出信頼度から減算する所定の値は、固定値であってもよい。

　また、第１の検出手段は、候補領域に物体が含まれる確からしさを表す第１の検出信頼度も出力し、検出情報は、第２の検出手段によって判定される、対象領域に物体が含まれる確からしさを表す第２の検出信頼度を含み、判定手段は、検出情報に示される対象領域との類似度が所定値以上の候補領域については第１の検出信頼度から第２の検出信頼度に応じた値を減算した値に基づいて、その他の候補領域については第１の検出信頼度に基づいて、対象領域を決定するとよい。例えば、第２の検出信頼度が高い程、第１の検出信頼度から減算する所定の値を大きくすればよい。

　検出情報は、対象領域の位置および／またはサイズを含み、判定手段は、候補領域の位置および／またはサイズと、対象領域の位置および／またはサイズとに基づいて、類似度を求めるとよい。物体検出において、入力画像中の同じ物に対し、何度も誤検出が発生することがあるが、上記の構成によれば、同じ位置・サイズのものを何度も誤検出することを効果的に減らすことができる。これにより、第２の検出部に渡る候補領域の数が減るので、２段階の検出処理を行うことで検出性能を維持したまま、処理時間を削減することができる。

　検出情報は、対象領域に対応する画像を含み、判定手段は、検出情報に含まれる画像と、候補領域に対応する画像とに基づいて、類似度を求めるとよい。これにより、誤検出情報に対応する領域と候補領域との位置やサイズが一致または類似するが、２つの領域に対応する画像が全く異なる場合にも高精度に物体検出を行うことができる。

　本発明の第二側面は、画像から所定の物体を検出する物体検出方法であって、前記画像から前記物体が存在する候補領域を検出する第１の検出ステップと、前記第１の検出ステップで検出された１つ以上の前記候補領域から対象領域を決定する判定ステップと、前記対象領域を対象として、前記第１の検出ステップとは異なる検出アルゴリズムによって前記物体を検出する第２の検出ステップと、前記対象領域に対する前記２の検出ステップにおける検出結果を表す検出情報を記憶する記憶ステップと、を有し、前記判定ステップでは、１つ以上前のフレームに対する前記検出情報に基づいて、１つ以上の前記候補領域から前記対象領域を決定する、を有することを特徴とする物体検出方法である。

　本発明は、上記手段の少なくとも一部を有する物体検出装置として捉えてもよいし、検出対象の物体を認識または追跡する装置、あるいは画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体検出方法、物体認識方法、物体追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

　本発明によれば、高速かつ高精度に物体検出を行うことができる。

図１は、物体検出の適用例を示す図である。図２は、物体検出装置の構成を示す図である。図３は、物体検出処理のフローチャートである。図４は、判定処理のフローチャートである。図５は、判定処理のフローチャートである。

（適用例）
　図１を参照して、本発明に係る物体検出装置の適用例を説明する。物体検出装置は、検出対象エリアの上方（例えば、天井）に取り付けられた固定カメラによって取得される画像から対象物（例えば、人体）を検出する。また、物体検出装置は、前段と後段に分かれた二段構成の検出器を用いる。物体１０１および物体１０２は、検出物（例えば、人体）であって、固定カメラ１の撮像範囲を移動する動体である。物体１０３は、固定カメラ１の撮像範囲内に設けられる物体（例えば、花）である。物体検出装置は、入力画像に対して上述の前段の検出器を用いて対象物が存在する候補領域１１１～１１３を検出する。候補領域１１１～１１３は、物体１０１～１０３に対応する領域である。物体１０３は検出対象の人体ではないが、物体１０３の特徴が人体に類似している場合に候補領域１１３が発生する。そして、物体検出装置は、上述の後段の検出器を用いて物体検出を行い、検出結果を記憶装置に記録する。後段の検出器は、基本的に候補領域１１１～１１３に対応する対象領域１２１～１２３を対象として行う。ここで、前段の検出器は、物体（花）１０３を対象物であると誤検出するが、後段の検出器は対象物ではないと検出できるものとする。この場合、前段の検出器は物体１０３の誤検出し続けることが考えられる。候補領域の全てを後段の検出器の対象領域とすると、図１の状況において、後段の検出器は対象物が存在しないにもかかわらず、毎フレーム検出処理を行うことになり無駄な処理が発生する。

　そこで、本適用例においては、前段の検出器が物体を検出した領域（候補領域）のうちから、後段の検出器が物体検出を行う領域（対象領域）を、１つ以上前のフレームに対する検出情報に基づいて決定する。例えば、１つ以上前のフレームにおいて後段の検出器が対象物を検出しなかった領域との類似度が高い現フレームの候補領域は、対象領域から除外することが考えられる。あるいは、候補領域のうち前段の検出器の検出スコア（信頼度）に基づいて対象領域を決定するが、１つ以上前のフレームにおいて後段の検出器が対象物を検出しなかった領域については、検出スコアから所定の値を減算した値に基づいて対象領域と決定してもよい。減算する値は、固定値であってもよいし、対象物が検出されなかった連続フレーム数に応じた値としてもよい。このように、前段の検出器が対象物を検出した領域であっても、後段の検出器が対象物を検出しなかった領域と類似する場合には、後段の検出器の処理対象から除外することで、物体検出の精度を保ちつつ処理を高速化できる。

（実施形態１）
＜構成＞
　図２は、本実施形態に係る物体検出装置１０における機能ブロック図である。物体検出装置１０は、演算装置（ＣＰＵ；プロセッサ）、メモリ、記憶装置（記憶部１６）、入出力装置等を含む情報処理装置（コンピュータ）である。記憶装置に格納されたプログラムを物体検出装置１０が実行することで、画像入力部１１、第１の検出部１２、判定部１３、第２の検出部１４、出力部１５等の機能が提供される。これらの機能の一部または全部は、ＡＳＩＣやＦＰＧＡなどの専用の論理回路により実装されてもよい。

　画像入力部１１は、カメラ２０から画像データを取り込む機能を有する。取り込まれた画像データは、第１の検出部１２に引き渡される。この画像データは記憶部１６に格納されてもよい。なお、本実施形態ではカメラ２０から、直接、画像データを受け取っているが、通信装置等を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。なお、入力される画像は特に限定されず、ＲＧＢ画像やグレー画像、距離または温度等を表す画像であってもよい。

　第１の検出部１２は、入力画像から候補領域（検出対象の物体が存在しそうな領域）を検出する。本実施形態では、第１の検出部１２は、Ｈａａｒ－ｌｉｋｅ特徴量とａｄａｂｏｏｓｔを用いた検出器を用いて候補領域の検出を行う。検出結果は、判定部１３に引き渡される。検出結果には、検出された候補領域が含まれ、さらに、当該候補領域に検出対象の物体が存在する確からしさ（第１の検出信頼度、検出スコア）が含まれてもよい。なお、検出に用いる特徴量および検出器の学習アルゴリズムは特に限定されない。例えば、特徴量として、ＨｏＧ（Ｈｉｓｔｇｒａｍ　ｏｆ　Ｇｒａｄｉｅｎｔ）特徴量、ＳＩＦＴ特徴量、ＳＵＲＦ特徴量、Ｓｐａｒｓｅ特徴量など任意の特徴量を用いることができる。また、学習アルゴリズムも、ａｄａｂｏｏｓｔ以外のｂｏｏｓｔｉｎｇ手法や、ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）、ニューラルネットワーク、決定木学習などの任意の学習手法を用いることができる。

　判定部１３は、第１の検出部１２によって検出された候補領域の中から、第２の検出部１４による検出の対象とする領域（対象領域）を決定する。本実施形態においては、判定部１３は、記憶部１６に記憶される前フレームの検出情報を用いて、候補領域の中から対象領域を決定する。検出情報は、１つ以上前のフレームにおいて、後述する第２の検出部１４によって物体が検出されなかった対象領域（誤検出領域）に関する情報を含む。判定部１３は、候補領域のうち、誤検出領域との類似度が所定値以上の候補領域以外を、対象領域として決定し、後段の第２の検出部１４に出力する。なお、判定部１３は、第１の検出部１２の検出結果に、上述の第１の検出信頼度が含まれる場合、当該第１の検出信頼度が所定値以上の候補領域の中から、誤検出領域に類似する候補領域を除いた領域を、候補領域として決定してもよい。

　第２の検出部１４は、判定部１３によって決定された対象領域に対して物体検出を行う。検出結果には、対象領域に検出対象の物体が存在するか否かを示す情報が含まれ、さらに、対象領域に検出対象の物体が存在する確からしさ（第２の検出信頼度、検出スコア）等が含まれてもよい。また、本実施形態では、第２の検出部１４は、物体検出を行った結果、検出対象の物体が存在しないと判断された対象領域の位置および／またはサイズを、検出情報として記憶部１６に記録する。なお、第２の検出部１４は、判定部１３によって決定された対象領域すべての検出情報（位置および／またはサイズ）を記憶部１６に記録してもよい。本実施形態では、第２の検出部１４は、深層学習を用いた検出器を用いて物体の検出を行う。なお、深層学習の手法は特に限定されず、例えば、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＳＡＥ（Ｓｔａｃｋｅｄ　Ａｕｔｏ　Ｅｎｃｏｄｅｒ）、ＤＢＮ（Ｄｅｅｐ　Ｂｅｌｉｅｆ　Ｎｅｔｗｏｒｋ）などの任意の手法による検出器であってもよい。また、第２の検出部１４は、深層学習を用いた検出器でなくても構わない。ただし、第２の検出部１４の検出アルゴリズムは、第１の検出部１２の検出アルゴリズムよりも高精度に検出が可能かつ計算量がより多いことが望ましい。

　出力部１５は、第２の検出部１４によって検出された物体について検出結果を出力する。例えば、出力部１５は、第２検出部１４による検出結果の信頼度が閾値以上である候補領域について、物体が検出されたことを示す結果情報を出力する。信頼度が閾値未満の候補領域については、結果情報に含めなくてよい。検出結果情報は、特に限定されないが、例えば顔検出の場合には、顔領域、信頼度、顔の向き、年齢、性別、人種、表情など情報が挙げられる。

＜処理内容＞
　図３は、物体検出装置１０による物体検出処理の全体の流れを示すフローチャートである。以下、図３のフローチャートにしたがって、物体検出装置１００の詳細について説明する。

≪Ｓ３１：画像入力処理≫
　ステップＳ３１において、物体検出装置１０は、画像（入力画像）を取得する。入力画像は、画像入力部１１を介してカメラ２０から取得されてもよいし、通信装置１０４を介して他のコンピュータから取得されてもよいし、記憶部１６から取得されてもよい。

≪Ｓ３２：第１の検出処理≫
　ステップＳ３２において、第１の検出部１２は、入力画像から候補領域（検出対象の物体が存在すると推定される領域）を検出する（第１の検出処理）。本実施形態では、第１の検出部１２は、画像特徴量としてＨａａｒ－ｌｉｋｅ特徴量を用い、学習アルゴリズムとしてＡｄａＢｏｏｓｔを用いるように構成される。第１の検出処理の検出結果として、上述の候補領域の他に、当該候補領域に検出対象の物体が存在する確からしさ（第１の検出信頼度、検出スコア）が含まれてもよい。

≪Ｓ３３：判定処理≫
　ステップＳ３３において、判定部１３は、ステップＳ３２で検出された候補領域のうち、誤検出領域との類似度が所定値以上の候補領域以外を、対象領域として決定する。誤検出領域は、１つ以上前のフレームにおける後述する第２の検出処理において、物体が検出されなかった対象領域である。判定部１３は、ステップＳ３２で検出された候補領域の中から誤検出領域に類似するものを除いた領域を対象領域として出力する。

　ステップＳ３３で行われる判定処理について、図４を用いて詳しく説明する。図４は、本実施形態に係る判定処理のフローチャートである。まず、判定部１３は、記憶部１６から検出情報（誤検出領域の位置およびサイズ）を取得する（Ｓ４１）。判定部１３は、直前のフレームに対する誤検出情報のみを取得してもよいし、直近の所定数フレームに対する誤検出情報を取得してもよい。そして、判定部１３は、１つ以上の候補領域のそれぞれに対して、誤検出領域との類似度を算出する（Ｓ４２）。本実施形態では、領域同士における類似度の指標として、ＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）を用いる。ＩｏＵは、２つの領域の積集合の面積を、当該２つの領域の和集合の面積で割った値である。ＩｏＵは、０から１の間の値をとり、２つの領域が完全に重なると１、全く重ならないと０となる。ＩｏＵの算出には、候補領域の位置およびサイズ、ならびに誤検出領域の位置およびサイズを用いればよい。そして、判定部１３は、ＩｏＵが所定の閾値Ｔ１以上か否かを判定して（Ｓ４３）、ＩｏＵが閾値Ｔ１以上である場合に、該当する候補領域を除いた領域を対象領域として出力する（Ｓ４４）。

≪Ｓ３４～Ｓ３６：第２の検出処理≫
　ステップＳ３４において、第２の検出部１４は、ステップＳ３３で出力された１つ以上の対象領域に対して、検出対象の物体が含まれるか否かを判定する（第２の検出処理）。本実施形態では、第２の検出部１４は、たたみ込みニューラルネットワーク（ＣＮＮ）と呼ばれる多層ニューラルネットワークを用いて学習した識別器を用いて物体検出を行う。

　ステップＳ３５において、第２の検出部１４は、ステップＳ３４の処理において、検出対象の物体が含まれないと判定された対象領域があるか否かを判定する。

　ステップＳ３６において、第２の検出部１４は、検出対象の物体が含まれないと判定された対象領域に関する情報を検出情報として記憶部１６に記録する。本実施形態では、検出情報として、検出対象の物体が含まれないと判定された対象領域の位置およびサイズが記憶部１６に記録される。

≪Ｓ３７：検出結果出力処理≫
　ステップＳ３７において、出力部１５は、ステップＳ３４で物体が検出された領域について検出結果を出力する。出力部１５は、物体検出領域による検出結果の信頼度（第２の検出信頼度）が閾値以上である検出対象領域について、検出対象の物体が検出されたことを示す結果情報を出力する。信頼度が閾値未満の検出対象領域については、結果情報に含めなくてよい。

＜本実施形態の有利な効果＞
　物体検出において、入力画像中の同じ物に対し、何度も誤検出が発生することがあるが、本実施形態によれば、同じ位置・サイズのものを何度も誤検出することを効果的に減らすことができる。これにより、第２の検出部に渡る候補領域（対象領域）の数が減るので、２段階の検出処理を行うことで検出性能を維持したまま、処理時間を削減することができる。

（実施形態２）
　上述の実施形態１では、ステップＳ３３において、候補領域および誤検出領域の位置や大きさに基づいて、類似度を決定する例について説明した。本実施形態では、ステップＳ３３において、候補領域に対応する画像と誤検出領域に対応する画像とのパターンマッチングを行うことで類似度を決定する例について説明する。上述の実施形態１と同じ処理については説明を省略し、相違する処理である判定処理（Ｓ３３）について説明する。

＜判定処理（Ｓ３３）＞
　図５は、本実施形態において、ステップＳ３３で行われる判定処理のフローチャートである。まず、判定部１３は、記憶部１６から検出情報を取得する（Ｓ５１）。本実施形態では、検出情報には、誤検出領域に対応する画像が含まれる。そして、判定部１３は、１つ以上の候補領域に対応する画像のそれぞれに対して、誤検出領域に対応する画像を用いてパターンマッチング処理を行う（Ｓ５２）。そして、判定部１３は、パターンマッチングによって得られる画像同士の類似度が所定の閾値Ｔ２以上であるか否かを判断して（Ｓ５３）、類似度が閾値Ｔ２以上である場合に、該当する候補領域を除いた領域を対象領域として出力する（Ｓ５４）。

＜本実施形態の有利な効果＞
　本実施形態によれば、誤検出領域と候補領域との位置やサイズが一致または類似するが、２つの領域に対応する画像が全く異なる場合にも高精度に物体検出を行うことができる。例えば、図１に示す物体１０３の位置に、検出対象の物体が重なった場合にも、画像に基づいて類似度を算出しているため、当該位置に対応する領域を対象領域とすることができる。

（変形例）
　上述の実施形態１および実施形態２では、判定部１３は、候補領域の中から誤検出領域に類似するものを除いた候補領域を、対象領域として決定する例について説明したが、これに限定されない。例えば、第１の検出部１２が上述の第１の検出信頼度を出力する場合に、判定部１３は、当該第１の検出信頼度が所定の閾値Ｔ３以上である候補領域を対象領域として決定する。このとき、判定部１３は、誤検出領域との類似度が所定の閾値Ｔ４以上の候補領域については、第１の検出信頼度から所定の値を減算した値が上述の所定の閾値Ｔ３以上である候補領域を対象領域として決定してもよい。

　なお、第１の検出信頼度から減算する所定の値の決定方法は特に限定されない。信頼度から減算する所定の値は、固定値でもよい。また、信頼度から減算する所定の値は、第２の検出部１４によって対象物体が検出されなかった連続フレーム数に応じて決定してもよい。例えば、連続フレーム数が増加するほど、所定の値を大きくしてもよいし、連続フレーム数が一定数以上の場合に初めて第１の検出信頼度から減算する所定の値を減算してもよい。さらに、第２の検出部１４によって第２の検出信頼度が出力される場合、信頼度から減算する所定の値は、当該第２の検出信頼度に基づいて決定されもよい。例えば、判定部１３は、第１の検出信頼度が所定の閾値Ｔ３以上である候補領域を対象領域として決定する。このとき、判定部１３は、誤検出領域との類似度が所定の閾値Ｔ４以上の候補領域については、第１の検出信頼度から、第２の検出信頼度に基づく値を減算した値が上述の所定の閾値Ｔ３以上である候補領域を対象領域として決定してもよい。例えば、第２の検出信頼度が高い程、信頼度から減算する所定の値を大きくすればよい。

　上述の実施形態１では、領域同士における類似度の指標として、ＩｏＵを用いる例について説明したが、これに限定されない。例えば、領域同士のサイズの比や差、または領域同士の位置（例えば、中央の座標値）の差、あるいはこれらの組合せを類似度の指標として用いてもよい。

　上述の実施形態２では、画像同士の類似度を求める際にパターンマッチングを行う例について説明したが、これに限定されない。例えば、画像における色情報の差や輝度情報の差を類似度の指標として用いてもよい。

１０：物体検出装置
１１：画像入力部
１２：第１の検出部
１３：判定部
１４：第２の検出部
１５：出力部
１６：記憶部
１，２０：カメラ
１０１，１０２，１０３：物体
１１１，１１２，１１３：候補領域
１２１，１２２，１２３：対象領域

Claims

　画像から所定の物体を検出する物体検出装置であって、
　前記画像から前記物体が存在する候補領域を検出する第１の検出手段と、
　前記第１の検出手段によって検出された１つ以上の前記候補領域から対象領域を決定する判定手段と、
　前記対象領域を対象として、前記第１の検出手段とは異なる検出アルゴリズムによって前記物体を検出する第２の検出手段と、
　前記対象領域に対する前記第２の検出手段による検出結果を表す検出情報を記憶する記憶手段と、
　を有し、
　前記判定手段は、１つ以上前のフレームに対する前記検出情報に基づいて、１つ以上の前記候補領域から前記対象領域を決定する、
　ことを特徴とする物体検出装置。
　前記検出情報は、前記第２の検出手段によって前記物体が検出されなかった対象領域に関する情報を含む、
　請求項１に記載の物体検出装置。
　前記判定手段は、前記候補領域のうち、前フレームにおいて前記物体が検出されなかった対象領域との類似度が所定値以上の候補領域以外を、前記対象領域として決定する、
　請求項２に記載の物体検出装置。
　前記第１の検出手段は、前記候補領域に前記物体が含まれる確からしさを表す第１の検出信頼度も出力し、
　前記判定手段は、前フレームにおいて前記物体が検出されなかった対象領域との類似度が所定値以上の候補領域については前記第１の検出信頼度から所定の値を減算した値に基づいて、その他の候補領域については前記第１の検出信頼度に基づいて、前記対象領域を決定する、
　請求項２に記載の物体検出装置。
　前記所定の値は、前記第２の検出手段によって前記物体が検出されなかった連続フレーム数に応じた値である、
　請求項４に記載の物体検出装置。
　前記所定の値は、固定値である、
　請求項４に記載の物体検出装置。
　前記第１の検出手段は、前記候補領域に前記物体が含まれる確からしさを表す第１の検出信頼度も出力し、
　前記検出情報は、前記第２の検出手段によって判定される、前記対象領域に前記物体が含まれる確からしさを表す第２の検出信頼度を含み、
　前記判定手段は、前記検出情報に示される対象領域との類似度が所定値以上の候補領域については前記第１の検出信頼度から前記第２の検出信頼度に応じた値を減算した値に基づいて、その他の候補領域については前記第１の検出信頼度に基づいて、前記対象領域を決定する、
　請求項１に記載の物体検出装置。
　前記検出情報は、前記対象領域の位置および／またはサイズを含み、
　前記判定手段は、前記候補領域の位置および／またはサイズと、前記対象領域の位置および／またはサイズとに基づいて、前記類似度を求める、
　ことを特徴とする請求項３から７のいずれか一項に記載の物体検出装置。
　前記検出情報は、前記対象領域に対応する画像を含み、
　前記判定手段は、前記検出情報に含まれる前記画像と、前記候補領域に対応する画像とに基づいて、前記類似度を求める、
　ことを特徴とする請求項３から７のいずれか一項に記載の物体検出装置。
　画像から所定の物体を検出する物体検出方法であって、
　前記画像から前記物体が存在する候補領域を検出する第１の検出ステップと、
　前記第１の検出ステップで検出された１つ以上の前記候補領域から対象領域を決定する判定ステップと、
　前記対象領域を対象として、前記第１の検出ステップとは異なる検出アルゴリズムによって前記物体を検出する第２の検出ステップと、
　前記対象領域に対する前記２の検出ステップにおける検出結果を表す検出情報を記憶する記憶ステップと、
　を有し、
　前記判定ステップでは、１つ以上前のフレームに対する前記検出情報に基づいて、１つ以上の前記候補領域から前記対象領域を決定する、
　を有することを特徴とする物体検出方法。
　請求項１０に記載の物体検出方法の各ステップをコンピュータに実行させるためのプログラム。