WO2021130881A1

WO2021130881A1 - 物体検出装置、モニタリング装置及び学習装置

Info

Publication number: WO2021130881A1
Application number: PCT/JP2019/050749
Authority: WO
Inventors: 友哉澤田; 賢福地; 守屋　芳美
Original assignee: 三菱電機株式会社
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-07-01
Also published as: JP7031081B2; JPWO2021130881A1

Abstract

物体検出装置（２００）は、カメラ（１）による撮像画像を示す画像データを取得する画像データ取得部（２１）と、画像データを用いて第１特徴マップ（ＦＭ１）を生成する第１特徴量抽出部（２２）と、画像データを用いて第２特徴マップ（ＦＭ２）を生成するとともに、第１特徴マップ（ＦＭ１）を用いて第２特徴マップ（ＦＭ２）に対する重み付けをすることにより第３特徴マップ（ＦＭ３）を生成する第２特徴量抽出部（２３）と、第３特徴マップ（ＦＭ３）を用いて撮像画像における物体を検出する物体検出部（２４）と、を備え、第１特徴マップ（ＦＭ１）における第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップ（ＦＭ２）における第２特徴量は、高レベル特徴を用いたものである。

Description

物体検出装置、モニタリング装置及び学習装置

　本開示は、物体検出装置、モニタリング装置及び学習装置に関する。

　従来、深層学習により学習自在な畳み込みニューラルネットワーク（以下「ＣＮＮ」と記載することがある。）を用いて、カメラにより撮像された動画における個々の物体をリアルタイムに検出する技術が開発されている。すなわち、個々の物体の位置を推定するとともに、個々の物体の種別を推定する技術が開発されている。例えば、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）及びＦａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎ－ｂａｓｅｄ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が開発されている。非特許文献１には、ＳＳＤが開示されている。

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: Single Shot MultiBox Detector," v5, 29 Dec 2016, https://arxiv.org/pdf/1512.02325v5.pdf

　従来の物体検出（Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ）は、ディープなＣＮＮを用いたものである。このため、主にプーリングにより、空間的な情報が消失する。この結果、特に画像における物体のサイズが小さいとき、かかる物体の位置を推定することが技術的に困難であるという問題があった。すなわち、小さい物体を検出することが技術的に困難であるという問題があった。

　ここで、従来の物体検出において、個々の特徴マップのサイズを大きくすることにより、小さい物体の検出に対応することが考えられる。しかしながら、ディープなＣＮＮにおいて個々の特徴マップのサイズを大きくすることにより、演算量が爆発的に増加する。このため、かかる方法は非実際的である。

　本開示は、上記のような課題を解決するためになされたものであり、小さい物体の検出を実現することを目的とする。

　本開示に係る物体検出装置は、カメラによる撮像画像を示す画像データを取得する画像データ取得部と、画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、画像データを用いて第２特徴マップを生成するとともに、第１特徴マップを用いて第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、第３特徴マップを用いて撮像画像における物体を検出する物体検出部と、を備え、第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである。

　本開示によれば、上記のように構成したので、小さい物体の検出を実現することができる。

実施の形態１に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態１に係る物体検出装置における第１特徴量抽出部、第２特徴量抽出部及び物体検出部の要部を示すブロック図である。実施の形態１に係る物体検出装置における物体検出部により分類されるクラスの例を示す説明図である。実施の形態１に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態１に係る物体検出装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る物体検出装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る物体検出装置の動作を示すフローチャートである。実施の形態１に係る学習装置の動作を示すフローチャートである。第１ニューラルネットワークの構造を示す説明図である。個々の顕著性ブロック層の構造を示す説明図である。顕著性ガイド層の構造を示す説明図である。顕著性ガイド層の他の構造を示す説明図である。撮像画像の例を示す説明図である。顕著性マップに対応するフィーチャーマップの例を示す説明図である。複数個の特徴マップのうちの第１の特徴マップに対応するフィーチャーマップの例を示す説明図である。複数個の第３特徴マップのうちの第１の第３特徴マップに対応するフィーチャーマップの例を示す説明図である。比較用の物体検出装置による検出結果の例を示す説明図である。実施の形態１に係る物体検出装置による検出結果の例を示す説明図である。比較用の物体検出装置による検出精度の例、及び実施の形態１に係る物体検出装置による検出精度の例を示す説明図である。比較用の物体検出装置による検出精度の他の例、及び実施の形態１に係る物体検出装置による検出精度の他の例を示す説明図である。顕著性ガイド層の他の構造を示す説明図である。顕著性ガイド層の他の構造を示す説明図である。個々の顕著性ブロック層の他の構造を示す説明図である。個々の顕著性ブロック層の他の構造を示す説明図である。実施の形態２に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態２に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態２に係る物体検出装置の動作を示すフローチャートである。実施の形態３に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。実施の形態３に係る学習装置を含む学習システムの要部を示すブロック図である。実施の形態３に係る物体検出装置の動作を示すフローチャートである。実施の形態４に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。実施の形態４に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。リスクマップ画像の例を示す説明図である。実施の形態４に係るモニタリング装置の要部のハードウェア構成を示すブロック図である。実施の形態４に係るモニタリング装置の要部の他のハードウェア構成を示すブロック図である。実施の形態４に係るモニタリング装置の動作を示すフローチャートである。実施の形態４に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。実施の形態４に係る他のモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。

　以下、この開示をより詳細に説明するために、この開示を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
　図１は、実施の形態１に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図２は、実施の形態１に係る物体検出装置における第１特徴量抽出部、第２特徴量抽出部及び物体検出部の要部を示すブロック図である。図１及び図２を参照して、実施の形態１に係る物体検出装置を含む物体検出システムについて説明する。

　図１に示す如く、物体検出システム１００は、カメラ１、記憶装置２及び物体検出装置２００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。物体検出装置２００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４を有している。カメラ１は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。すなわち、カメラ１は、動画撮像用のカメラにより構成されている。記憶装置２は、メモリにより構成されている。

　以下、カメラ１が電子ミラー用のカメラにより構成されている場合の例を中心に説明する。この場合、カメラ１、記憶装置２及び物体検出装置２００は、車両（不図示）に設けられている。以下、かかる車両を「自車両」ということがある。

　図２に示す如く、第１特徴量抽出部２２は、第１特徴マップ生成部３１を有している。第２特徴量抽出部２３は、第１ニューラルネットワークＮＮ１により構成されている。第１ニューラルネットワークＮＮ１は、第２特徴マップ生成部３２及び第３特徴マップ生成部３３を有している。物体検出部２４は、第２ニューラルネットワークＮＮ２により構成されている。第２ニューラルネットワークＮＮ２は、位置推定部３４及び種別推定部３５を有している。

　画像データ取得部２１は、カメラ１により撮像された画像を示す画像データを取得するものである。すなわち、画像データ取得部２１は、カメラ１により撮像された動画を構成する個々の静止画（以下「撮像画像」ということがある。）を示す画像データを取得するものである。

　第１特徴マップ生成部３１は、画像データ取得部２１により取得された画像データを用いて、個々の撮像画像に対応する１個の特徴マップ（以下「第１特徴マップ」という。）ＦＭ１を生成するものである。第１特徴マップＦＭ１は、二次元状に配列された複数個の特徴量（以下「第１特徴量」という。）により構成されている。個々の第１特徴量は、物体らしさ（Ｏｂｊｅｃｔｎｅｓｓ）に対応する中レベル特徴（Ｍｉｄ－ｌｅｖｅｌ　Ｆｅａｔｕｒｅ）を用いたものである。

　ここで、中レベル特徴における「中レベル」とは、人の視覚モデルに基づくレベルと同等のレベルである。すなわち、かかる「中レベル」とは、従来の物体検出に用いられる特徴のレベルに比して低いレベルである。

　具体的には、例えば、個々の第１特徴量は、顕著性（Ｓａｌｉｅｎｃｙ）を用いたものである。第１特徴マップ生成部３１は、顕著性推定（Ｓａｌｉｅｎｃｙ　Ｅｓｔｉｍａｔｉｏｎ）を実行することにより、顕著性マップ（Ｓａｌｉｅｎｃｙ　Ｍａｐ）を生成する。このとき、第１特徴マップ生成部３１は、例えば、以下の参考文献１に記載された方法と同様の方法により顕著性マップを生成する。すなわち、第１特徴マップ生成部３１は、参考文献１に記載された物体検出装置における画像特徴マップ生成部による生成方法と同様の生成方法により顕著性マップを生成する。

［参考文献１］
国際公開第２０１８／０５１４５９号

　かかる方法により、画像データ取得部２１により取得された画像データを用いて、他の特徴マップを経ることなく直接的に顕著性マップが生成される。また、ＣＮＮを用いることなく顕著性マップが生成される。

　第１特徴マップ生成部３１は、教師なし学習により学習自在なものである。すなわち、第１特徴量抽出部２２は、教師なし学習により学習自在なものである。かかる教師なし学習には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。

　第２特徴マップ生成部３２は、画像データ取得部２１により取得された画像データを用いて、個々の撮像画像に対応する複数個の特徴マップ（以下「第２特徴マップ」という。）ＦＭ２を生成するものである。個々の第２特徴マップＦＭ２は、二次元状に配列された複数個の特徴量（以下「第２特徴量」という。）により構成されている。個々の第２特徴量は、高レベル特徴（Ｈｉｇｈ－ｌｅｖｅｌ　Ｆｅａｔｕｒｅ）を用いたものである。

　ここで、高レベル特徴における「高レベル」とは、従来の物体検出に用いられる特徴のレベルと同等のレベルである。すなわち、かかる「高レベル」とは、人の視覚モデルに基づくレベルに比して高いレベルである。

　具体的には、例えば、第１ニューラルネットワークＮＮ１のうちの第２特徴マップ生成部３２に対応する部位により、ＣＮＮが構成されている。かかるＣＮＮにより、複数個の第２特徴マップＦＭ２が順次生成される。

　第３特徴マップ生成部３３は、第１特徴マップＦＭ１における個々の第１特徴量を用いて、個々の第２特徴マップＦＭ２における対応する第２特徴量に対する重み付けをするものである。これにより、第３特徴マップ生成部３３は、複数個の第２特徴マップＦＭ２に対応する複数個の特徴マップ（以下「第３特徴マップ」という。）ＦＭ３を生成するものである。

　このとき、第３特徴マップ生成部３３は、第１特徴マップＦＭ１における個々の第１特徴量と個々の第２特徴マップＦＭ２における対応する第２特徴量とを比較することにより、個々の第２特徴量に付与される重みを示す値（以下「重要度」という。）Ｗを設定する。以下、重要度Ｗの設定方法の具体例について説明する。

　まず、第３特徴マップ生成部３３は、第１特徴マップＦＭ１における個々の第１特徴量と個々の第２特徴マップＦＭ２における対応する第２特徴量との類似度Ｓを算出する。類似度Ｓは、例えば、ＥＭＤ（Ｅａｒｔｈ　Ｍｏｖｅｒ’ｓ　Ｄｉｓｔａｎｃｅ）、コサイン類似度（Ｃｏｓｉｎｅ　Ｓｉｍｉｌａｒｉｔｙ）、ＫＬＤ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ　Ｄｉｖｅｒｇｅｎｃｅ）、Ｌ２ノルム、Ｌ１ノルム及びマンハッタン距離（Ｍａｎｈａｔｔａｎ　Ｄｉｓｔａｎｃｅ）のうちの少なくとも一つに基づく値である。

　次いで、第３特徴マップ生成部３３は、当該算出された類似度Ｓを用いて、個々の第２特徴量に対応する重要度Ｗを設定する。このとき、第３特徴マップ生成部３３は、個々の第２特徴量について、対応する類似度Ｓが大きいほど（すなわち対応する距離が小さいほど）重要度Ｗを大きい値に設定する。換言すれば、第３特徴マップ生成部３３は、個々の第２特徴量について、対応する類似度Ｓが小さいほど（すなわち対応する距離が大きいほど）重要度Ｗを小さい値に設定する。

　上記のとおり、個々の第１特徴量は、物体らしさに対応する中レベル特徴を用いたものである。このため、かかる重み付けがなされることにより、個々の第２特徴量が対応する物体らしさに応じて補強されることになる。すなわち、より高い物体らしさに対応する第２特徴量は、より低い物体らしさに対応する第２特徴量に比して相対的に強められる。他方、より低い物体らしさに対応する第２特徴量は、より高い物体らしさに対応する第２特徴量に比して相対的に弱められる。個々の第３特徴マップＦＭ３は、かかる補強がなされた複数個の特徴量（以下「第３特徴量」ということがある。）によるものである。

　第１ニューラルネットワークＮＮ１は、教師あり学習により学習自在なものである。すなわち、第２特徴量抽出部２３は、教師あり学習により学習自在なものである。ここで、上記のとおり、第１ニューラルネットワークＮＮ１は、ＣＮＮを含むものである。すなわち、第２特徴量抽出部２３は、ＣＮＮを含むものである。このため、第２特徴量抽出部２３は、深層学習により学習自在なものである。第１ニューラルネットワークＮＮ１の構造については、図１１～図１４を参照して後述する。

　特徴マップ記憶部１１は、第２特徴マップ生成部３２により個々の第２特徴マップＦＭ２が生成されたとき、当該生成された第２特徴マップＦＭ２を一時的に記憶するものである。特徴マップ記憶部１１が第２特徴量抽出部２３外に設けられていることにより、記憶容量の使用効率の向上を図ることができる。

　物体検出部２４は、第３特徴マップ生成部３３により生成された複数個の第３特徴マップＦＭ３を用いて、個々の撮像画像における個々の物体を検出するものである。より具体的には、位置推定部３４が回帰（Ｒｅｇｒｅｓｓｉｏｎ）により個々の物体の位置を推定するとともに、種別推定部３５が分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）により個々の物体の種別を推定するものである。すなわち、第２ニューラルネットワークＮＮ２は、教師あり学習により学習自在なものである。換言すれば、物体検出部２４は、教師あり学習により学習自在なものである。

　具体的には、例えば、物体検出部２４は、ＳＳＤにより個々の物体を検出する。すなわち、第２ニューラルネットワークＮＮ２は、非特許文献１に記載されたＳＳＤにおける「ＶＧＧ－１６」よりも後段のニューラルネットワークと同様のニューラルネットワークにより構成されている（非特許文献１のＦｉｇ．２等参照。）。すなわち、第２ニューラルネットワークＮＮ２は、非特許文献１に記載されたＳＳＤにおける「Ｅｘｔｒａ　Ｆｅａｔｕｒｅ　Ｌａｙｅｒｓ」と同様のニューラルネットワークを含むニューラルネットワークにより構成されている。かかるニューラルネットワークにより、複数回の畳み込み演算が実行される。これにより、個々の物体の位置が推定されるとともに、個々の物体の種別が推定される。

　ここで、かかる複数回の畳み込み演算は、互いに異なるカーネルサイズによるものである。より具体的には、カーネルサイズが次第に小さくなるものである。これにより、撮像画像における個々の物体のサイズの変動に対応することができる。すなわち、いわゆる「マルチスケール」による物体検出を実現することができる。

　図３は、種別推定部３５により推定される種別の例を示している。すなわち、図３は、種別推定部３５により分類されるクラスの例を示している。

　図中「ｃａｒｓ（ｓａｍｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の自動車を示している。図中「ｌａｒｇｅ　ｖｅｈｉｃｌｅｓ（ｓａｍｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の大型自動車を示している。図中「ｍｏｔｏｒｂｉｋｅｓ（ｓａｍｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する同一方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する同一方向に走行中の他車両を示している。換言すれば、これらのクラスは、後続車両又は追越し車両を示している。

　図中「ｃａｒｓ（ｏｐｐｏｓｉｔｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の自動車を示している。図中「ｌａｒｇｅ　ｖｅｈｉｃｌｅｓ（ｏｐｐｏｓｉｔｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の大型自動車を示している。図中「ｍｏｔｏｒｂｉｋｅｓ（ｏｐｐｏｓｉｔｅ　ｄｉｒｅｃｔｉｏｎ）」は、自車両の走行方向に対する反対方向に走行中の自動二輪車を示している。すなわち、これらのクラスは、自車両の走行方向に対する反対方向に走行中の他車両を示している。換言すれば、これらのクラスは、対向車両を示している。

　このように、種別推定部３５により分類されるクラスは、個々の物体の進行方向を含むものである。すなわち、種別推定部３５により推定される種別は、個々の物体の進行方向を含むものである。これにより、物体検出部２４に対する後段の処理において、かかる進行方向の判定を不要とすることができる。この結果、物体検出部２４に対する後段の処理における演算量を低減することができる。

　図４は、実施の形態１に係る学習装置を含む学習システムの要部を示すブロック図である。図４を参照して、実施の形態１に係る学習装置を含む学習システムについて説明する。なお、図４において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図４に示す如く、学習システム３００は、記憶装置２、記憶装置３及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３は、画像データ記憶部１２を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。記憶装置３は、メモリにより構成されている。

　画像データ記憶部１２は、複数個の学習用の画像（以下「学習用画像」ということがある。）を含むデータベース（以下「学習用画像データベース」という。）を記憶するものである。学習装置４００における画像データ取得部２１は、個々の撮像画像を示す画像データを取得するのに代えて、個々の学習用画像を示す画像データを取得するものである。

　学習装置４００における第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４は、物体検出装置２００における第１特徴量抽出部２２、第２特徴量抽出部２３及び物体検出部２４とそれぞれ同様のものである。このため、詳細な説明は省略する。

　学習部２５は、物体検出部２４による検出結果に基づき、教師あり学習（より具体的には深層学習）による第２特徴量抽出部２３の学習をするものである。また、学習部２５は、物体検出部２４による検出結果に基づき、教師あり学習による物体検出部２４の学習をするものである。

　すなわち、学習部２５は、画像データ取得部２１により取得された画像データが示す学習用画像に対応する物体検出に係る正解を示すデータ（以下「正解データ」という。）を取得する。正解データは、人（例えば物体検出装置２００の製造者又は物体検出システム１００を用いた役務の提供者）により予め入力されたものである。学習部２５は、物体検出部２４による検出結果と当該取得された正解データが示す正解とを比較する。学習部２５は、かかる比較の結果に基づき、必要に応じて第１ニューラルネットワークＮＮ１におけるパラメータを更新するとともに、必要に応じて第２ニューラルネットワークＮＮ２におけるパラメータを更新する。かかるパラメータの更新には、公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。

　以下、画像データ取得部２１の機能に「Ｆ１」の符号を用いることがある。また、第１特徴量抽出部２２の機能に「Ｆ２」の符号を用いることがある。また、第２特徴量抽出部２３の機能に「Ｆ３」の符号を用いることがある。また、物体検出部２４の機能に「Ｆ４」の符号を用いることがある。また、学習部２５の機能に「Ｆ５」の符号を用いることがある。

　以下、画像データ取得部２１により実行される処理を総称して「画像データ取得処理」ということがある。また、第１特徴量抽出部２２により実行される処理を総称して「第１特徴量抽出処理」ということがある。また、第２特徴量抽出部２３により実行される処理を総称して「第２特徴量抽出処理」ということがある。また、物体検出部２４により実行される処理を総称して「物体検出処理」ということがある。また、学習部２５により実行される処理を総称して「学習処理」ということがある。

　次に、図５及び図６を参照して、物体検出装置２００の要部のハードウェア構成について説明する。

　図５に示す如く、物体検出装置２００は、プロセッサ４１及びメモリ４２を有している。メモリ４２には、複数個の機能Ｆ１～Ｆ４に対応するプログラムが記憶されている。プロセッサ４１は、メモリ４２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ４が実現される。

　または、図６に示す如く、物体検出装置２００は、処理回路４３を有している。この場合、専用の処理回路４３により複数個の機能Ｆ１～Ｆ４が実現される。

　または、物体検出装置２００は、プロセッサ４１、メモリ４２及び処理回路４３を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ４のうちの一部の機能がプロセッサ４１及びメモリ４２により実現されるとともに、複数個の機能Ｆ１～Ｆ４のうちの残余の機能が専用の処理回路４３により実現される。

　プロセッサ４１は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）を用いたものである。

　メモリ４２は、１個以上の不揮発性メモリにより構成されている。または、メモリ４２は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ４２は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

　より具体的には、個々の揮発性メモリは、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を用いたものである。また、個々の不揮発性メモリは、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ブルーレイディスク又はミニディスクを用いたものである。

　処理回路４３は、１個以上のデジタル回路により構成されている。または、処理回路４３は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路４３は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　ａ　Ｃｈｉｐ）又はシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）を用いたものである。

　ここで、処理回路４３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ４と複数個の処理回路との対応関係は任意である。例えば、物体検出装置２００は、複数個の機能Ｆ１～Ｆ４と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ４の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

　次に、図７及び図８を参照して、学習装置４００の要部のハードウェア構成について説明する。

　図７に示す如く、学習装置４００は、プロセッサ４４及びメモリ４５を有している。メモリ４５には、複数個の機能Ｆ１～Ｆ５に対応するプログラムが記憶されている。プロセッサ４４は、メモリ４５に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ５が実現される。

　または、図８に示す如く、学習装置４００は、処理回路４６を有している。この場合、専用の処理回路４６により複数個の機能Ｆ１～Ｆ５が実現される。

　または、学習装置４００は、プロセッサ４４、メモリ４５及び処理回路４６を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ５のうちの一部の機能がプロセッサ４４及びメモリ４５により実現されるとともに、複数個の機能Ｆ１～Ｆ５のうちの残余の機能が専用の処理回路４６により実現される。

　プロセッサ４４は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、マイクロコントローラ又はＤＳＰを用いたものである。

　メモリ４５は、１個以上の不揮発性メモリにより構成されている。または、メモリ４５は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ４５は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

　より具体的には、個々の揮発性メモリは、例えば、ＲＡＭを用いたものである。また、個々の不揮発性メモリは、例えば、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、ＤＶＤ、ブルーレイディスク又はミニディスクを用いたものである。

　処理回路４６は、１個以上のデジタル回路により構成されている。または、処理回路４６は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路４６は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡ、ＳｏＣ又はシステムＬＳＩを用いたものである。

　ここで、処理回路４６が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ５と複数個の処理回路との対応関係は任意である。例えば、学習装置４００は、複数個の機能Ｆ１～Ｆ５と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ５の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

　次に、図９のフローチャートを参照して、物体検出装置２００の動作について説明する。

　まず、画像データ取得部２１が画像データ取得処理を実行する（ステップＳＴ１）。次いで、第１特徴量抽出部２２が第１特徴量抽出処理を実行する（ステップＳＴ２）。次いで、第２特徴量抽出部２３が第２特徴量抽出処理を実行する（ステップＳＴ３）。次いで、物体検出部２４が物体検出処理を実行する（ステップＳＴ４）。

　次に、図１０のフローチャートを参照して、学習装置４００の動作について説明する。

　まず、画像データ取得部２１が画像データ取得処理を実行する（ステップＳＴ１１）。次いで、第１特徴量抽出部２２が第１特徴量抽出処理を実行する（ステップＳＴ１２）。次いで、第２特徴量抽出部２３が第２特徴量抽出処理を実行する（ステップＳＴ１３）。次いで、物体検出部２４が物体検出処理を実行する（ステップＳＴ１４）。次いで、学習部２５が学習処理を実行する（ステップＳＴ１５）。

　次に、図１１～図１４を参照して、第１ニューラルネットワークＮＮ１の構造について説明する。

　図１１に示す如く、第１ニューラルネットワークＮＮ１は、複数個の顕著性ブロック層Ｌ１を有している。図中「Ｉｎｐｕｔ　ｉｍａｇｅ」は、画像データ取得部２１により取得された画像データが示す撮像画像又は学習用画像を示している。図中「Ｓａｌｉｅｎｃｙ　Ｍａｐ」は、第１特徴マップ生成部３１により生成された第１特徴マップＦＭ１を示している。図中「Ｆｅａｔｕｒｅ　Ｍａｐ」は、第３特徴マップ生成部３３により生成される個々の第３特徴マップＦＭ３を示している。

　図１２に示す如く、個々の顕著性ブロック層Ｌ１は、３×３による畳み込み層Ｌ１１、ＢＮ（Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ）層Ｌ１２、ＥＬＵ（Ｅｘｐｏｎｅｎｔｉａｌ　Ｌｉｎｅａｒ　Ｕｎｉｔ）層Ｌ１３、最大プーリング層Ｌ１４及び顕著性ガイド層Ｌ１５を有している。

　以下、ＶＧＧネットワークを「ＶＧＧＮｅｔ」と記載する。また、ＢＮが追加されたＶＧＧＮｅｔを「ＶＧＧ＋ＢＮ」と記載する。また、残差ネットワーク（Ｒｅｓｉｄｕａｌ　Ｎｅｔｗｏｒｋ）を「ＲｅｓＮｅｔ」と記載する。図１３は、第１ニューラルネットワークＮＮ１におけるＣＮＮにＶＧＧ＋ＢＮを用いた場合における顕著性ガイド層Ｌ１５の例を示している。これに対して、図１４は、第１ニューラルネットワークＮＮ１におけるＣＮＮにＲｅｓＮｅｔを用いた場合における顕著性ガイド層Ｌ１５の例を示している。

　図１３に示す如く、顕著性ガイド層Ｌ１５は、畳み込みブロック層Ｌ２１及びスケール層Ｌ２２を有している。これらの層Ｌ２１，Ｌ２２は、第２特徴マップ生成部３２に対応するものである。また、顕著性ガイド層Ｌ１５は、重み演算層Ｌ２３、１×１による畳み込み層Ｌ２４、ＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）層Ｌ２５、１×１による畳み込み層Ｌ２６及びシグモイド層Ｌ２７を有している。これらの層Ｌ２３～Ｌ２７は、第３特徴マップ生成部３３に対応するものである。

　または、図１４に示す如く、顕著性ガイド層Ｌ１５は、残差ブロック層Ｌ３１及びスケール層Ｌ３２を有している。これらの層Ｌ３２，Ｌ３３は、第２特徴マップ生成部３２に対応するものである。また、顕著性ガイド層Ｌ１５は、重み演算層Ｌ３３、１×１による畳み込み層Ｌ３４、ＲｅＬＵ層Ｌ３５、１×１による畳み込み層Ｌ３６及びシグモイド層Ｌ３７を有している。これらの層Ｌ３３～Ｌ３７は、第３特徴マップ生成部３３に対応するものである。

　すなわち、図１４に示す構造は、いわゆる「Ａｔｔｅｎｔｉｏｎ機構」を用いたものである。これは、ＣＮＮｓにより獲得された特徴を空間的に展開して、高次元特徴を自己精錬（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）するものである。これにより、学習すべき特徴を高度に判別して、認識精度を向上するものである。

　これらの構造を有する第１ニューラルネットワークＮＮ１を用いることにより、個々の顕著性ブロック層Ｌ１にて、複数個の第２特徴マップＦＭ２のうちの対応する第２特徴マップＦＭ２が生成されるとともに、当該生成された第２特徴マップＦＭ２に対する重み付けがなされる。すなわち、第１特徴マップＦＭ１による個々の第２特徴マップＦＭ２に対する重み付けがなされる。

　次に、図１５～図２２を参照して、物体検出装置２００の効果について説明する。

　以下、ＳＥ（Ｓｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ）ネットワークを「ＳＥＮｅｔ」と記載する。また、ＳＥＮｅｔが追加されたＶＧＧ＋ＢＮを「ＶＧＧ＋ＢＮ＋ＳＥ」と記載する。また、ＳＥＮｅｔが追加されたＲｅｓＮｅｔを「ＲｅｓＮｅｔ＋ＳＥ」と記載する。

　以下、ＶＧＧ＋ＢＮ又はＲｅｓＮｅｔによる特徴量抽出部を有し、かつ、ＳＳＤによる物体検出部を有する従来の物体検出装置（不図示）に「２００’＿１」の符号を用いる。また、ＶＧＧ＋ＢＮ＋ＳＥ又はＲｅｓＮｅｔ＋ＳＥによる特徴量抽出部を有し、かつ、ＳＳＤによる物体検出部を有する従来の物体検出装置（不図示）に「２００’＿２」の符号を用いる。すなわち、これらの物体検出装置２００’＿１，２００’＿２は、物体検出装置２００に対する比較対象となるものである。また、これらの物体検出装置２００’＿１，２００’＿２は、第１特徴マップ生成部３１に相当する部位を有しないものであり、かつ、第３特徴マップ生成部３３に相当する部位を有しないものである。

　以下、図１３に示す顕著性ガイド層Ｌ１５を用いた場合における第１ニューラルネットワークＮＮ１の構造を「ＶＧＧ＋ＢＮ＋ＳＭ」と記載する。また、図１４に示す顕著性ガイド層Ｌ１５を用いた場合における第１ニューラルネットワークＮＮ１の構造を「ＲｅｓＮｅｔ＋ＳＭ」と記載する。

　以下、個々の撮像画像における個々の物体のサイズに対する範囲について、中程度のサイズを含む範囲Ｒ２を「第２範囲」という。また、第２範囲Ｒ２に含まれるサイズに比して小さいサイズを含む範囲Ｒ１を「第１範囲」という。また、第２範囲Ｒ２に含まれるサイズに比して大きいサイズを含む範囲Ｒ３を「第３範囲」という。また、第１範囲Ｒ１、第２範囲Ｒ２及び第３範囲Ｒ３を含む範囲Ｒ４を「第４範囲」という。

　以下、ＣＭＳ－ＤＤ（Ｃａｍｅｒａ　Ｍｏｎｉｔｏｒｉｎｇ　Ｓｙｓｔｅｍ　Ｄｒｉｖｉｎｇ　Ｄａｔａｓｅｔ）によるデータセットであって、図３に示す８個のクラスを分類対象に含むデータセットを「ＣＭＳ－ＤＤ（８ｃｌａｓｓｅｓ）」と記載する。また、ＣＭＳ－ＤＤによるデータセットであって、図３に示す８個のクラスのうちの２個のクラスのみを分類対象に含むデータセットを「ＣＭＳ－ＤＤ（２ｃｌａｓｓｅｓ）」と記載する。すなわち、ＣＭＳ－ＤＤ（２ｃｌａｓｓｅｓ）は、「ｃａｒｓ（ｓａｍｅ　ｄｉｒｅｃｔｉｏｎ）」及び「ｌａｒｇｅ　ｖｅｈｉｃｌｅｓ（ｓａｍｅ　ｄｉｒｅｃｔｉｏｎ）」のみを分類対象に含むものである。

　図１５は、撮像画像の例を示している。

　図１６は、図１５に示す撮像画像を示す画像データが物体検出装置２００に入力されたとき、物体検出装置２００にて生成される第１特徴マップＦＭ１に対応するフィーチャーマップの例を示している。より具体的には、図１６は、物体検出装置２００にて生成される顕著性マップに対応するフィーチャーマップの例を示している。

　図１７は、図１５に示す撮像画像を示す画像データが物体検出装置２００’＿２に入力されたとき、物体検出装置２００’＿２にて生成される複数個の特徴マップＦＭ’のうちの１個の特徴マップＦＭ’に対応するフィーチャーマップの例を示している。より具体的には、図１７は、複数個の特徴マップＦＭ’のうちの第１の特徴マップＦＭ’に対応するフィーチャーマップの例を示している。ここで、物体検出装置２００’＿２における物体検出部は、ＶＧＧ＋ＢＮ＋ＳＥによるものである。

　図１８は、図１５に示す撮像画像を示す画像データが物体検出装置２００に入力されたとき、物体検出装置２００にて生成される複数個の第３特徴マップＦＭ３のうちの１個の第３特徴マップＦＭ３に対応するフィーチャーマップの例を示している。より具体的には、図１８は、複数個の第３特徴マップＦＭ３のうちの第１の第３特徴マップＦＭ３に対応するフィーチャーマップの例を示している。ここで、第１ニューラルネットワークＮＮ１は、ＶＧＧ＋ＢＮ＋ＳＭによるものである。

　図１７に示すフィーチャーマップにおいては、検出対象となる物体（すなわち他車両）に対応する領域と異なる領域が活性化している。より具体的には、背景のうちの空に対応する領域が活性化している。これに対して、図１８に示すフィーチャーマップにおいては、検出対象となる物体（すなわち他車両）に対応する領域が活性化している。これは、図１６に示すフィーチャーマップに対応する顕著性マップによる重み付けがなされたことによるものである。

　すなわち、ＳＥＮｅｔを使用した場合、大域特徴として広いエリアにて発火したフィーチャーマップがより良い特徴を得たものとして評価される。このため、実際には発火した領域の意味にまで踏み込んでいないことになる。このため、物体検出においては、顕著性のような物体由来の特徴により重み付けがなされる手法の方が優れるのである。

　したがって、重み付け後の第３特徴マップＦＭ３を物体検出に用いることにより、特徴マップＦＭ’を物体検出に用いる場合に比して（すなわち仮に重み付け前の第１特徴マップＦＭ１を物体検出に用いる場合に比して）、以下のような効果が得られる。

　第一に、物体検出の精度を向上することができる。また、物体らしさに係るコンテクスクトが考慮されることになるため、誤検出の発生を抑制することができる。

　第二に、よりシャローなＣＮＮを用いて抽出された特徴量（すなわち第２特徴量及び第３特徴量）による物体検出を実現することができる。この結果、特徴量抽出部（すなわち第２特徴量抽出部２３）における演算量を低減することができる。

　第三に、よりシャローなＣＮＮを用いることにより、プーリングによる空間的な情報の消失を抑制することができる。また、演算量の爆発的な増加を回避しつつ、個々の特徴マップ（すなわち個々の第２特徴マップＦＭ２及び個々の第３特徴マップＦＭ３）のサイズを大きくすることができる。この結果、小さい物体の検出を実現することができる。

　特に、物体検出装置２００が電子ミラーに用いられるものである場合、車載用のプロセッサ４１又は処理回路４３を用いることが要求される。すなわち、安価なプロセッサ４１又は処理回路４３を用いることが要求される。換言すれば、低い演算能力を有するプロセッサ４１又は処理回路４３を用いることが要求される。他方、この場合、自車両の位置に対する遠い位置を走行中の他車両等を検出する観点から、小さい物体の検出を実現することが要求される。これに対して、物体検出装置２００を用いることにより、演算量を低減することができるとともに、小さい物体の検出を実現することができる。

　図１９は、図１５に示す撮像画像に係る物体検出装置２００’＿２による検出結果の例を示している。これに対して、図２０は、図１５に示す撮像画像に係る物体検出装置２００による検出結果の例を示している。図１９及び図２０に示す如く、物体検出装置２００を用いることにより、物体検出装置２００’＿２を用いた場合に比して、小さい物体の検出を実現することができる。すなわち、自車両の位置に対する遠い位置を走行中の他車両等の検出を実現することができる。

　図２１は、ＣＭＳ－ＤＤ（８ｃｌａｓｓｅｓ）を用いた場合における物体検出装置２００’＿１，２００’＿２，２００の各々による検出精度に係る実験結果を示す説明図である。図２２は、ＣＭＳ－ＤＤ（２ｃｌａｓｓｅｓ）を用いた場合における物体検出装置２００’＿１，２００’＿２，２００の各々による検出精度に係る実験結果を示す説明図である。図２１及び図２２における数値の単位は、ｍＡＰ（ｍｅａｎ　Ａｖｅｒａｇｅ　Ｐｒｅｃｉｓｉｏｎ）である。なお、ＶＧＧＮｅｔにおける層数は、１６に設定されている。また、ＲｅｓＮｅｔにおける層数は、５０に設定されている。

　図２１に示す如く、ＣＭＳ－ＤＤ（８ｃｌａｓｓｅｓ）について、物体検出装置２００を用いることにより、物体検出装置２００’＿１又は物体検出装置２００’＿２を用いた場合に比して、第１範囲Ｒ１内のサイズを有する物体に対する検出精度を向上することができる。また、第２範囲Ｒ２内のサイズを有する物体に対する検出精度を向上することができる。この結果、第４範囲Ｒ４内のサイズを有する物体に対する検出精度を向上することができる。すなわち、物体検出の精度を向上することができる。

　図２２に示す如く、ＣＭＳ－ＤＤ（２ｃｌａｓｓｅｓ）について、物体検出装置２００を用いることにより、物体検出装置２００’＿１又は物体検出装置２００’＿２を用いた場合に比して、第１範囲Ｒ１内のサイズを有する物体に対する検出精度を向上することができる。また、第２範囲Ｒ２内のサイズを有する物体に対する検出精度を向上することができる。また、第３範囲Ｒ３内のサイズを有する物体に対する検出精度を向上することができる。この結果、第４範囲Ｒ４内のサイズを有する物体に対する検出精度を向上することができる。すなわち、物体検出の精度を向上することができる。

　次に、図２３～図２６を参照して、第１ニューラルネットワークＮＮ１の変形例について説明する。

　以下、Ｄｅｎｓｅネットワークを「ＤｅｎｓｅＮｅｔ」と記載する。また、Ｍｏｂｉｌｅネットワークを「ＭｏｂｉｌｅＮｅｔ」と記載する。第１ニューラルネットワークＮＮ１におけるＣＮＮは、ＶＧＧ＋ＢＮ又はＲｅｓＮｅｔに限定されるものではない。第１ニューラルネットワークＮＮ１におけるＣＮＮは、ＤｅｎｓｅＮｅｔ又はＭｏｂｉｌｅＮｅｔを用いたものであっても良い。

　図２３は、第１ニューラルネットワークＮＮ１におけるＣＮＮにＤｅｎｓｅＮｅｔを用いた場合における顕著性ガイド層Ｌ１５の例を示している。図２３に示す如く、顕著性ガイド層Ｌ１５は、Ｄｅｎｓｅブロック層Ｌ４１、スケール層Ｌ４２及び連結層Ｌ４３を有している。これらの層Ｌ４１～Ｌ４３は、第２特徴マップ生成部３２に対応するものである。また、顕著性ガイド層Ｌ１５は、重み演算層Ｌ４４、１×１による畳み込み層Ｌ４５、ＲｅＬＵ層Ｌ４６、１×１による畳み込み層Ｌ４７及びシグモイド層Ｌ４８を有している。これらの層Ｌ４４～Ｌ４８は、第３特徴マップ生成部３３に対応するものである。

　図２４は、第１ニューラルネットワークＮＮ１におけるＣＮＮにＭｏｂｉｌｅＮｅｔを用いた場合における顕著性ガイド層Ｌ１５の例を示している。図２４に示す如く、顕著性ガイド層Ｌ１５は、Ｄｅｐｔｈｗｉｓｅ畳み込み層Ｌ５１、スケール層Ｌ５２及びＰｏｉｎｔｗｉｓｅ畳み込み層Ｌ５３を有している。これらの層Ｌ５１～Ｌ５３は、第２特徴マップ生成部３２に対応するものである。また、顕著性ガイド層Ｌ１５は、重み演算層Ｌ５４、１×１による畳み込み層Ｌ５５、ＲｅＬＵ層Ｌ５６、１×１による畳み込み層Ｌ５７及びシグモイド層Ｌ５８を有している。これらの層Ｌ５４～Ｌ５８は、第３特徴マップ生成部３３に対応するものである。

　第１ニューラルネットワークＮＮ１におけるＣＮＮは、以下の参考文献２に記載された技術を用いたものであっても良い。

［参考文献２］
Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu, "Semantic Image Synthesis with Spatially-Adaptive Normalization," v2, 5 Nov 2019, https://arxiv.org/pdf/1903.07291v2.pdf

　図２５は、参考文献２に係る構造を簡略化してなる独自の構造を用いた場合における個々の顕著性ブロック層Ｌ１の例を示している。図２５に示す如く、個々の顕著性ブロック層Ｌ１は、３×３による畳み込み層Ｌ６１、ＢＮ層Ｌ６２、ＥＬＵ層Ｌ６３、顕著性ガイド層Ｌ６４及び最大プーリング層Ｌ６５を有している。顕著性ガイド層Ｌ６４の構造は、図１３、図１４、図２３又は図２４に示すものと同様である。このため、図示及び説明を省略する。

　図２６は、参考文献２に係る構造を用いた場合における個々の顕著性ブロック層Ｌ１の例を示している。図２６に示す如く、個々の顕著性ブロック層Ｌ１は、３×３による畳み込み層Ｌ７１、ＲｅＬＵ層Ｌ７２、ＢＮ層Ｌ７３、顕著性ガイド層Ｌ７４、３×３による畳み込み層Ｌ７５、ＲｅＬＵ層Ｌ７６、ＢＮ層Ｌ７７及び顕著性ガイド層Ｌ７８を有している。顕著性ガイド層Ｌ７４，Ｌ７８の各々の構造は、図１３、図１４、図２３又は図２４に示すものと同様である。このため、図示及び説明を省略する。

　次に、物体検出装置２００の変形例について説明する。

　個々の第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであれば良い。すなわち、第１特徴量は、顕著性に限定されるものではない。第１特徴マップは、顕著性マップに限定されるものではない。例えば、第１特徴マップ生成部３１は、個々の撮像画像に対応する距離画像を用いて、深度マップ（Ｄｅｐｔｈ　Ｍａｐ）を生成するものであっても良い。または、例えば、第１特徴マップ生成部３１は、個々の撮像画像に対応する温度画像を用いて、熱マップ（Ｔｈｅｒｍａｌ　Ｍａｐ）を生成するものであっても良い。すなわち、第２特徴量抽出部２３における重み付けは、いわゆる「Ｍｉｄｄｌｅ－ｌｅｖｅｌ　Ｓｅｎｓｏｒ　Ｆｕｓｉｏｎ」によるものであっても良い。

　したがって、第１特徴マップ生成部３１による第１特徴マップＦＭ１の生成方法は、顕著性推定に限定されるものではない。例えば、第１特徴マップ生成部３１は、顕著性推定に代えて又は加えて、画像勾配検出（Ｅｄｇｅ　Ｄｅｔｅｃｔｉｏｎ）、物体らしさ推定（Ｏｂｊｅｃｔｎｅｓｓ　Ｅｓｔｉｍａｔｉｏｎ）及び領域分割（Ｓｅｇｍｅｎｔａｔｉｏｎ）のうちの少なくとも一つを実行することにより第１特徴マップＦＭ１を生成するものであっても良い。

　物体検出部２４における物体検出は、ＳＳＤに限定されるものではない。例えば、物体検出部２４における物体検出は、ＲｅｔｉｎａＮｅｔ、Ｍａｓｋ　Ｒ－ＣＮＮ、ＹＯＬＯ又はＦａｓｔｅｒ　Ｒ－ＣＮＮによるものであっても良い。

　物体検出装置２００は、学習部２５を有するものであっても良い。物体検出装置２００における学習部２５は、カメラ１による撮像画像を学習用画像に用いて、第２特徴量抽出部２３及び物体検出部２４の学習をするものであっても良い。

　以上のように、実施の形態１に係る物体検出装置２００は、カメラ１による撮像画像を示す画像データを取得する画像データ取得部２１と、画像データを用いて第１特徴マップＦＭ１を生成する第１特徴量抽出部２２と、画像データを用いて第２特徴マップＦＭ２を生成するとともに、第１特徴マップＦＭ１を用いて第２特徴マップＦＭ２に対する重み付けをすることにより第３特徴マップＦＭ３を生成する第２特徴量抽出部２３と、第３特徴マップＦＭ３を用いて撮像画像における物体を検出する物体検出部２４と、を備え、第１特徴マップＦＭ１における第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップＦＭ２における第２特徴量は、高レベル特徴を用いたものである。これにより、物体検出の精度を向上することができる。また、演算量を低減することができる。また、小さい物体の検出を実現することができる。

　また、実施の形態１に係る学習装置４００は、学習用画像を示す画像データを取得する画像データ取得部２１と、画像データを用いて第１特徴マップＦＭ１を生成する第１特徴量抽出部２２と、画像データを用いて第２特徴マップＦＭ２を生成するとともに、第１特徴マップＦＭ１を用いて第２特徴マップＦＭ２に対する重み付けをすることにより第３特徴マップＦＭ３を生成する第２特徴量抽出部２３と、第３特徴マップＦＭ３を用いて学習用画像における物体を検出する物体検出部２４と、物体検出部２４による検出結果に応じて第２特徴量抽出部２３及び物体検出部２４の学習をする学習部２５と、を備え、第１特徴マップＦＭ１における第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、第２特徴マップＦＭ２における第２特徴量は、高レベル特徴を用いたものである。これにより、物体検出装置２００用の学習装置４００を実現することができる。

実施の形態２．
　図２７は、実施の形態２に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図２７を参照して、実施の形態２に係る物体検出装置を含む物体検出システムについて説明する。なお、図２７において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図２７に示す如く、物体検出システム１００ａは、カメラ１、記憶装置２、時計４、記憶装置５及び物体検出装置２００ａを含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置５は、時刻別パラメータ記憶部１３を有している。物体検出装置２００ａは、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４、時刻情報取得部２６及びパラメータ選択部２７を有している。記憶装置５は、メモリにより構成されている。

　時刻情報取得部２６は、時計４を用いて、時刻を示す情報（以下「時刻情報」という。）を取得するものである。時刻情報は、例えば、現在時刻を示すものである。

　時刻別パラメータ記憶部１３は、複数個のパラメータセットを含むデータベース（以下「時刻別学習済みパラメータデータベース」という。）を記憶するものである。個々のパラメータセットは、第１ニューラルネットワークＮＮ１用の学習済みパラメータを含むものであり、かつ、第２ニューラルネットワークＮＮ２用の学習済みパラメータを含むものである。

　ここで、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる時間帯に対応するものである。例えば、時刻別学習済みパラメータデータベースは、昼間（ｄａｙｔｉｍｅ）に対応するパラメータセット、夕刻（ｅｖｅｎｉｎｇ）に対応するパラメータセット、夕闇（ｄｕｓｋ）に対応するパラメータセット、及び夜間（ｎｉｇｈｔ　ｔｉｍｅ）に対応するパラメータセットを含むものである。

　パラメータ選択部２７は、時刻別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、時刻情報が示す時刻を含む時間帯に対応するパラメータセットを選択するものである。パラメータ選択部２７は、当該選択されたパラメータセットを用いて、第１ニューラルネットワークＮＮ１におけるパラメータを設定するとともに、第２ニューラルネットワークＮＮ２におけるパラメータを設定するものである。

　これにより、第２特徴量抽出部２３は、パラメータ選択部２７により設定されたパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２７により設定されたパラメータを用いて物体検出処理を実行するようになっている。

　換言すれば、第２特徴量抽出部２３は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。

　図２８は、実施の形態２に係る学習装置を含む学習システムの要部を示すブロック図である。図２８を参照して、実施の形態２に係る学習装置を含む学習システムについて説明する。なお、図２８において、図４に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図２８に示す如く、学習システム３００ａは、記憶装置２、記憶装置３ａ、記憶装置５及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３ａは、時刻別画像データ記憶部１４を有している。記憶装置５は、時刻別パラメータ記憶部１３を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。

　時刻別画像データ記憶部１４は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる時間帯に対応するものである。例えば、複数個の学習用画像データベースは、昼間に対応する学習用画像データベース、夕刻に対応する学習用画像データベース、夕闇に対応する学習用画像データベース、及び夜間に対応する学習用画像データベースを含むものである。

　すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する時間帯内の時刻にカメラ１と同様のカメラにより撮像されたものである。

　学習システム３００ａにおいて、学習部２５による第２特徴量抽出部２３及び物体検出部２４の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる時間帯に対応する複数個のパラメータセットが生成される。学習部２５は、当該生成された複数個のパラメータセットを時刻別パラメータ記憶部１３に記憶させる。これにより、時刻別学習済みパラメータデータベースが生成される。

　以下、時刻情報取得部２６の機能に「Ｆ６」の符号を用いることがある。また、パラメータ選択部２７の機能に「Ｆ７」の符号を用いることがある。

　以下、時刻情報取得部２６により実行される処理を総称して「時刻情報取得処理」ということがある。また、パラメータ選択部２７により実行される処理を総称して「パラメータ選択処理」ということがある。

　物体検出装置２００ａの要部のハードウェア構成は、実施の形態１にて図５及び図６を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置２００ａは、複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７を有している。複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７の各々は、プロセッサ４１及びメモリ４２により実現されるものであっても良く、又は専用の処理回路４３により実現されるものであっても良い。また、処理回路４３は、複数個の機能Ｆ１～Ｆ４，Ｆ６，Ｆ７に対応する複数個の処理回路を含むものであっても良い。

　学習装置４００の要部のハードウェア構成は、実施の形態１にて図７及び図８を参照して説明したものと同様である。このため、図示及び説明を省略する。

　次に、図２９のフローチャートを参照して、物体検出装置２００ａの動作について説明する。なお、図２９において、図９に示すステップと同様のステップには同一符号を付して説明を省略する。

　まず、時刻情報取得部２６が時刻情報取得処理を実行する（ステップＳＴ５）。次いで、パラメータ選択部２７がパラメータ選択処理を実行する（ステップＳＴ６）。次いで、ステップＳＴ１～ＳＴ４の処理が実行される。

　学習装置４００の動作は、実施の形態１にて図１０のフローチャートを参照して説明したものと同様である。このため、図示及び説明を省略する。

　このように、時刻別学習用画像データベースを学習に用いるとともに、時刻別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度（Ｎｅｔｗｏｒｋ　Ｆｌｅｘｉｂｉｌｉｔｙ）を実現することができる。

　なお、物体検出装置２００ａは、実施の形態１にて説明したものと同様の種々の変形例を採用することができる。

　以上のように、実施の形態２に係る物体検出装置２００ａは、時刻情報を取得する時刻情報取得部２６と、時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部２７と、を備え、第２特徴量抽出部２３は、パラメータ選択部２７により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴マップＦＭ２及び第３特徴マップＦＭ３を生成する。これにより、物体検出の精度を更に向上することができる。

実施の形態３．
　図３０は、実施の形態３に係る物体検出装置を含む物体検出システムの要部を示すブロック図である。図３０を参照して、実施の形態３に係る物体検出装置を含む物体検出システムについて説明する。なお、図３０において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図３０に示す如く、物体検出システム１００ｂは、カメラ１、記憶装置２、ロケータ６、記憶装置７及び物体検出装置２００ｂを含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置７は、場所別パラメータ記憶部１５を有している。物体検出装置２００ｂは、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４、場所情報取得部２８及びパラメータ選択部２９を有している。記憶装置７は、メモリにより構成されている。

　場所情報取得部２８は、ロケータ６を用いて、場所を示す情報（以下「場所情報」という。）を取得するものである。より具体的には、場所情報は、自車両の現在位置に対応する場所の種別を示すものである。例えば、場所情報は、自車両の現在位置に対応する場所が都市圏（ｕｒｂａｎ　ａｒｅａ）、幹線道路（ｈｉｇｈｗａｙ）及び郊外（ｓｕｂｕｒｂｓ）のうちのいずれであるかを示すものである。

　場所別パラメータ記憶部１５は、複数個のパラメータセットを含むデータベース（以下「場所別学習済みパラメータデータベース」という。）を記憶するものである。個々のパラメータセットは、第１ニューラルネットワークＮＮ１用の学習済みパラメータを含むものであり、かつ、第２ニューラルネットワークＮＮ２用の学習済みパラメータを含むものである。

　ここで、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットは、互いに異なる場所に対応するものである。例えば、場所別学習済みパラメータデータベースは、首都圏に対応するパラメータセット、幹線道路に対応するパラメータセット、及び郊外に対応するパラメータセットを含むものである。

　パラメータ選択部２９は、場所別学習済みパラメータデータベースに含まれる複数個のパラメータセットのうち、場所情報が示す場所に対応するパラメータセットを選択するものである。パラメータ選択部２９は、当該選択されたパラメータセットを用いて、第１ニューラルネットワークＮＮ１におけるパラメータを設定するとともに、第２ニューラルネットワークＮＮ２におけるパラメータを設定するものである。

　これにより、第２特徴量抽出部２３は、パラメータ選択部２９により設定されたパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２９により設定されたパラメータを用いて物体検出処理を実行するようになっている。

　換言すれば、第２特徴量抽出部２３は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴量抽出処理を実行するようになっている。また、物体検出部２４は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて物体検出処理を実行するようになっている。

　図３１は、実施の形態３に係る学習装置を含む学習システムの要部を示すブロック図である。図３１を参照して、実施の形態３に係る学習装置を含む学習システムについて説明する。なお、図３１において、図４に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図３１に示す如く、学習システム３００ｂは、記憶装置２、記憶装置３ｂ、記憶装置７及び学習装置４００を含むものである。記憶装置２は、特徴マップ記憶部１１を有している。記憶装置３ｂは、場所別画像データ記憶部１６を有している。記憶装置７は、場所別パラメータ記憶部１５を有している。学習装置４００は、画像データ取得部２１、第１特徴量抽出部２２、第２特徴量抽出部２３、物体検出部２４及び学習部２５を有している。

　場所別画像データ記憶部１６は、複数個の学習用画像データベースを記憶するものである。複数個の学習用画像データベースは、互いに異なる場所に対応するものである。例えば、複数個の学習用画像データベースは、都市圏に対応する学習用画像データベース、幹線道路に対応する学習用画像データベース、及び郊外に対応する学習用画像データベースを含むものである。

　すなわち、個々の学習用画像データベースに含まれる複数個の学習用画像は、対応する場所にてカメラ１と同様のカメラにより撮像されたものである。

　学習システム３００ｂにおいて、学習部２５による第２特徴量抽出部２３及び物体検出部２４の学習は、個々の学習用画像データベースを用いて実行されるようになっている。すなわち、かかる学習は、学習用画像データベース毎に実行されるようになっている。これにより、互いに異なる場所に対応する複数個のパラメータセットが生成される。学習部２５は、当該生成された複数個のパラメータセットを場所別パラメータ記憶部１５に記憶させる。これにより、場所別学習済みパラメータデータベースが生成される。

　以下、場所情報取得部２８の機能に「Ｆ８」の符号を用いることがある。また、パラメータ選択部２９の機能に「Ｆ９」の符号を用いることがある。

　以下、場所情報取得部２８により実行される処理を総称して「場所情報取得処理」ということがある。また、パラメータ選択部２９により実行される処理を総称して「パラメータ選択処理」ということがある。

　物体検出装置２００ｂの要部のハードウェア構成は、実施の形態１にて図５及び図６を参照して説明したものと同様である。このため、図示及び説明を省略する。すなわち、物体検出装置２００ｂは、複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９を有している。複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９の各々は、プロセッサ４１及びメモリ４２により実現されるものであっても良く、又は専用の処理回路４３により実現されるものであっても良い。また、処理回路４３は、複数個の機能Ｆ１～Ｆ４，Ｆ８，Ｆ９に対応する複数個の処理回路を含むものであっても良い。

　次に、図３２のフローチャートを参照して、物体検出装置２００ｂの動作について説明する。なお、図３２において、図９に示すステップと同様のステップには同一符号を付して説明を省略する。

　まず、場所情報取得部２８が場所情報取得処理を実行する（ステップＳＴ７）。次いで、パラメータ選択部２９がパラメータ選択処理を実行する（ステップＳＴ８）。次いで、ステップＳＴ１～ＳＴ４の処理が実行される。

　学習装置４００の動作は、実施の形態１にて図１０を参照して説明したものと同様である。このため、図示及び説明を省略する。

　このように、場所別学習用画像データベースを学習に用いるとともに、場所別学習済みパラメータデータベースを推論に用いることにより、物体検出の精度を更に向上することができる。すなわち、適切なネットワーク自由度を実現することができる。

　なお、物体検出装置２００ｂは、実施の形態１にて説明したものと同様の種々の変形例を採用することができる。

　以上のように、実施の形態３に係る物体検出装置２００ｂは、場所情報を取得する場所情報取得部２８と、場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部２９と、を備え、第２特徴量抽出部２３は、パラメータ選択部２９により選択されたパラメータセットに含まれる学習済みパラメータを用いて第２特徴マップＦＭ２及び第３特徴マップＦＭ３を生成する。これにより、物体検出の精度を更に向上することができる。

実施の形態４．
　図３３は、実施の形態４に係るモニタリング装置を含むモニタリングシステムの要部を示すブロック図である。図３４は、実施の形態４に係るモニタリング装置における解析部及び出力制御部の要部を示すブロック図である。図３３及び図３４を参照して、実施の形態４に係るモニタリング装置を含むモニタリングシステムについて説明する。なお、図３３において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

　図３３に示す如く、モニタリングシステム５００は、カメラ１、記憶装置２、出力装置８及びモニタリング装置６００を含むものである。モニタリング装置６００は、物体検出装置２００、解析部５１及び出力制御部５２を有している。

　図３４に示す如く、解析部５１は、異常判定部６１、時間解析部６２、脅威判定部６３及び空間解析部６４を有している。出力制御部５２は、画像出力制御部６５及び音声出力制御部６６を有している。出力装置８は、ディスプレイ７１及びスピーカ７２を含むものである。

　実施の形態１にて説明したとおり、カメラ１は、例えば、監視カメラ、防犯カメラ又は電子ミラー用のカメラにより構成されている。ここで、カメラ１が電子ミラー用のカメラにより構成されている場合、ディスプレイ７１は、電子ミラー用のディスプレイにより構成されている。すなわち、この場合、カメラ１及びディスプレイ７１により、電子ミラーの要部が構成されている。以下、この場合の例を中心に説明する。

　異常判定部６１は、物体検出部２４による検出結果を用いて、個々の物体の異常度Ａを判定するものである。より具体的には、異常判定部６１は、位置推定部３４による推定結果を用いて、個々の物体の位置に基づき異常度Ａを判定するものである。

　例えば、物体検出部２４により他車両が検出された場合において、かかる他車両が正常な位置（例えば所定値以上の車間距離に対応する位置）に位置しているときは、かかる他車両が異常な位置（例えば所定値未満の車間距離に対応する位置）に位置しているときに比して、異常度Ａが小さい値に設定される。他方、この場合において、かかる他車両が異常な位置（同上）に位置しているときは、かかる他車両が正常な位置（同上）に位置しているときに比して、異常度Ａが大きい値に設定される。

　時間解析部６２は、物体検出部２４による検出結果を時間的に解析するものである。すなわち、時間解析部６２は、時間的に連続する複数個の撮像画像に対応する複数回分の物体検出処理の結果を時間的に解析するものである。換言すれば、時間解析部６２は、複数フレーム分の物体検出処理の結果を時間的に解析するものである。これにより、時間解析部６２は、カメラ１により撮像された動画における個々の物体のサイズの時間変化量ΔＳを算出するものである。

　具体的には、例えば、時間解析部６２は、個々の物体に対応するバウンディングボックスの単位時間当たりの膨張率を算出する。時間解析部６２は、当該算出された膨張率を積算することにより時間変化量ΔＳを算出する。

　脅威判定部６３は、物体検出部２４による検出結果を用いて、個々の物体の脅威度Ｔを判定するものである。より具体的には、脅威判定部６３は、種別推定部３５による推定結果を用いて、個々の物体の進行方向に基づき脅威度Ｔを判定するものである。

　すなわち、実施の形態１にて説明したとおり、種別推定部３５により分類されるクラスは、物体の進行方向を含むものである。そこで、例えば、物体検出部２４により他車両が検出された場合において、かかる他車両が後続車両又は追越し車両であるときは、かかる他車両が対向車両であるときに比して、脅威度Ｔが大きい値に設定される。他方、この場合において、かかる他車両が対向車両であるときは、かかる車両が後続車両又は追越し車両であるときに比して、脅威度Ｔが小さい値に設定される。

　また、脅威判定部６３は、時間解析部６２による解析結果を用いて、個々の物体の脅威度Ｔを判定するものである。

　すなわち、脅威判定部６３は、個々の物体について、以下のような演算を実行する。脅威判定部６３は、時間解析部６２により時間変化量ΔＳが算出される毎に、当該算出された時間変化量ΔＳを閾値ΔＳｔｈと比較する。かかる時間変化量ΔＳが閾値ΔＳｔｈを超えているときは、かかる時間変化量ΔＳが閾値ΔＳｔｈ以下であるときに比して、脅威度Ｔが大きい値に設定される。他方、かかる時間変化量ΔＳが閾値ΔＳｔｈ以下であるときは、かかる時間変化量ΔＳが閾値ΔＳｔｈを超えているときに比して、脅威度Ｔが小さい値に設定される。このとき、閾値ΔＳｔｈは、対応する物体について過去に算出された時間変化量ΔＳの平均値ΔＳ＿ａｖｅに基づく値に設定される。

　空間解析部６４は、異常判定部６１による判定結果及び脅威判定部６３による判定結果を空間的に解析することにより、リスクマップを生成するものである。リスクマップは、二次元状に配列された複数個のリスク値により構成されている。個々のリスク値は、対応する異常度Ａによる重み付けがなされた値であり、かつ、対応する脅威度Ｔによる重み付けがなされた値である。

　このように、解析部５１は、物体検出部２４による検出結果を解析するものである。

　画像出力制御部６５は、解析部５１による解析結果に対応する画像信号をディスプレイ７１に出力するものである。これにより、画像出力制御部６５は、解析部５１による解析結果に対応する画像をディスプレイ７１に表示させる制御を実行するものである。また、音声出力制御部６６は、解析部５１による解析結果に対応する音声信号をスピーカ７２に出力するものである。これにより、音声出力制御部６６は、解析部５１による解析結果に対応する音声をスピーカ７２に出力させる制御を実行するものである。

　このように、出力制御部５２は、解析部５１による解析結果に対応する信号を出力装置８に出力するものである。以下、出力制御部５２により出力される信号を総称して「解析結果信号」ということがある。

　ここで、画像出力制御部６５により出力される画像信号は、空間解析部６４により生成されたリスクマップを含む画像（以下「リスクマップ画像」という。）を示すものであっても良い。これにより、リスクマップ画像がディスプレイ７１に表示されるものであっても良い。

　図３５は、リスクマップ画像の例を示している。図３５に示すリスクマップ画像に対応するリスクマップにおいては、２個の領域Ａ１，Ａ２におけるリスク値が他の領域におけるリスク値に比して高い値に設定されている。これにより、図２５に示すリスクマップ画像においては、２個の領域Ａ１，Ａ２における色が他の領域における色と異なる色により表示されている。２個の領域Ａ１，Ａ２は、例えば、２台の他車両にそれぞれ対応するものである。

　このように、リスクマップ画像においては、リスクマップにおける個々のリスク値が可視化されている。ディスプレイ７１がリスクマップ画像を表示することにより、かかるリスク値を自車両の搭乗者に対して視覚的に提示することができる。

　以下、解析部５１の機能に「Ｆ１１」の符号を用いることがある。また、出力制御部５２の機能に「Ｆ１２」の符号を用いることがある。

　以下、物体検出装置２００により実行される処理を総称して「物体検出処理等」ということがある。すなわち、物体検出処理等は、画像データ取得処理、第１特徴量抽出処理、第２特徴量抽出処理及び物体検出処理を含むものである。また、解析部５１により実行される処理を総称して「解析処理」ということがある。また、出力制御部５２により実行される処理及び制御を総称して「出力制御」ということがある。

　次に、図３６及び図３７を参照して、モニタリング装置６００の要部のハードウェア構成について説明する。

　図３６に示す如く、モニタリング装置６００は、プロセッサ８１及びメモリ８２を有している。メモリ８２には、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２に対応するプログラムが記憶されている。プロセッサ８１は、メモリ８２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２が実現される。

　または、図３７に示す如く、モニタリング装置６００は、処理回路８３を有している。この場合、専用の処理回路８３により複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２が実現される。

　または、モニタリング装置６００は、プロセッサ８１、メモリ８２及び処理回路８３を有している（不図示）。この場合、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２のうちの一部の機能がプロセッサ８１及びメモリ８２により実現されるとともに、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２のうちの残余の機能が専用の処理回路８３により実現される。

　プロセッサ８１は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、マイクロコントローラ又はＤＳＰを用いたものである。

　メモリ８２は、１個以上の不揮発性メモリにより構成されている。または、メモリ８２は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ８２は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク又は磁気テープを用いたものである。

　処理回路８３は、１個以上のデジタル回路により構成されている。または、処理回路８３は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路８３は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡ、ＳｏＣ又はシステムＬＳＩを用いたものである。

　ここで、処理回路８３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２と複数個の処理回路との対応関係は任意である。例えば、モニタリング装置６００は、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２と一対一に対応する複数個の処理回路を有するものであっても良い。この場合、複数個の機能Ｆ１～Ｆ４，Ｆ１１，Ｆ１２の各々は、複数個の処理回路のうちの対応する１個の処理回路により専ら実現されるものであっても良い。

　次に、図３８のフローチャートを参照して、モニタリング装置６００の動作について説明する。

　まず、物体検出装置２００が物体検出処理等を実行する（ステップＳＴ２１）。次いで、解析部５１が解析処理を実行する（ステップＳＴ２２）。次いで、出力制御部５２が出力制御を実行する（ステップＳＴ２３）。

　次に、図３９及び図４０を参照して、モニタリングシステム５００の変形例について説明する。

　図３９に示す如く、モニタリング装置６００は、物体検出装置２００に代えて物体検出装置２００ａを有するものであっても良い。この場合、モニタリングシステム５００は、時計４及び記憶装置５を含むものであっても良い。

　または、図４０に示す如く、モニタリング装置６００は、物体検出装置２００に代えて物体検出装置２００ｂを有するものであっても良い。この場合、モニタリングシステム５００は、ロケータ６及び記憶装置７を含むものであっても良い。

　次に、モニタリング装置６００の変形例について説明する。

　解析部５１は、異常判定部６１及び脅威判定部６３のうちのいずれか一方のみを有するものであっても良い。解析部５１が異常判定部６１のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する異常度Ａによる重み付けがなされた値となる。他方、解析部５１が脅威判定部６３のみを有するものである場合、リスクマップにおける個々のリスク値は、対応する脅威度Ｔによる重み付けがなされた値となる。

　脅威判定部６３は、種別推定部３５による推定結果に基づく脅威度Ｔの判定、及び時間解析部６２による解析結果に基づく脅威度Ｔの判定のうちのいずれか一方にのみを実行するものであっても良い。

　出力制御部５２は、画像出力制御部６５及び音声出力制御部６６のうちのいずれか一方のみを有するものであっても良い。出力制御部５２が画像出力制御部６５のみを有するものである場合、出力装置８は、ディスプレイ７１及びスピーカ７２のうちのディスプレイ７１のみを含むものであっても良い。他方、出力制御部５２が音声出力制御部６６のみを有するものである場合、出力装置８は、ディスプレイ７１及びスピーカ７２のうちのスピーカ７２のみを含むものであっても良い。

　次に、モニタリング装置６００における物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂの変形例について説明する。

　上記のとおり、時間解析部６２は、物体検出部２４による検出結果を時間的に解析するものである。かかる解析に対応する観点から、モニタリング装置６００における物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂは、以下のように構成されたものであっても良い。

　画像データ取得部２１は、時間的に連続する複数個の撮像画像（すなわち複数フレーム分の静止画）に対応する画像データを取得するものであっても良い。すなわち、画像データ取得部２１は、時系列データを取得するものであっても良い。

　第１特徴量抽出部２２は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ（すなわち第１特徴マップＦＭ１）を生成するものであっても良い。また、第２特徴量抽出部２３は、上記取得された時系列データを用いて、時間的な情報を含む特徴マップ（すなわち個々の第２特徴マップＦＭ２及び個々の第３特徴マップＦＭ３）を生成するものであっても良い。

　これにより、時間解析部６２による時間的な解析に対応することができるのはもちろんのこと、いわゆる「検出ぶれ」の発生を抑制することができる。すなわち、ある物体について、当該物体が検出される状態と当該物体が検出されない状態とが時間的に交互に繰り返される現象の発生を抑制することができる。

　また、第１ニューラルネットワークＮＮ１は、上記取得された時系列データを時系列的に処理する構造を有するものであっても良い。例えば、第１ニューラルネットワークＮＮ１におけるＣＮＮは、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）ネットワークを用いたものであっても良い。

　以上のように、実施の形態４に係るモニタリング装置６００は、物体検出装置２００、物体検出装置２００ａ又は物体検出装置２００ｂと、物体検出部２４による検出結果を解析する解析部５１と、解析部５１による解析結果に対応する解析結果信号を出力する出力制御部５２と、を備える。これにより、高精度な物体検出の結果に基づくモニタリングを実現することができる。

　なお、本願開示はその開示の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　本開示に係る物体検出装置、モニタリング装置及び学習装置は、例えば、電子ミラーに用いることができる。

　１　カメラ、２　記憶装置、３，３ａ，３ｂ　記憶装置、４　時計、５　記憶装置、６　ロケータ、７　記憶装置、８　出力装置、１１　特徴マップ記憶部、１２　画像データ記憶部、１３　時刻別パラメータ記憶部、１４　時刻別画像データ記憶部、１５　場所別パラメータ記憶部、１６　場所別画像データ記憶部、２１　画像データ取得部、２２　第１特徴量抽出部、２３　第２特徴量抽出部、２４　物体検出部、２５　学習部、２６　時刻情報取得部、２７　パラメータ選択部、２８　場所情報取得部、２９　パラメータ選択部、３１　第１特徴マップ生成部、３２　第２特徴マップ生成部、３３　第３特徴マップ生成部、３４　位置推定部、３５　種別推定部、４１　プロセッサ、４２　メモリ、４３　処理回路、４４　プロセッサ、４５　メモリ、４６　処理回路、５１　解析部、５２　出力制御部、６１　異常判定部、６２　時間解析部、６３　脅威判定部、６４　空間解析部、６５　画像出力制御部、６６　音声出力制御部、７１　ディスプレイ、７２　スピーカ、８１　プロセッサ、８２　メモリ、８３　処理回路、１００，１００ａ，１００ｂ　物体検出システム、２００，２００ａ，２００ｂ　物体検出装置、３００，３００ａ，３００ｂ　学習システム、４００　学習装置、５００　モニタリングシステム、６００　モニタリング装置。

Claims

　カメラによる撮像画像を示す画像データを取得する画像データ取得部と、
　前記画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、
　前記画像データを用いて第２特徴マップを生成するとともに、前記第１特徴マップを用いて前記第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、
　前記第３特徴マップを用いて前記撮像画像における物体を検出する物体検出部と、を備え、
　前記第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
　前記第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである
　ことを特徴とする物体検出装置。
　前記第１特徴量抽出部は、教師なし学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
　前記第２特徴量抽出部は、教師あり学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
　前記第２特徴量抽出部は、畳み込みニューラルネットワークを用いて前記第２特徴マップを生成することを特徴とする請求項３記載の物体検出装置。
　前記第２特徴量抽出部は、深層学習により学習自在であることを特徴とする請求項４記載の物体検出装置。
　前記第１特徴量抽出部は、画像勾配検出、顕著性推定、物体らしさ推定及び領域分割のうちの少なくとも一つにより前記第１特徴マップを生成することを特徴とする請求項２記載の物体検出装置。
　前記第１特徴マップは、顕著性マップを用いたものであることを特徴とする請求項６記載の物体検出装置。
　前記第２特徴量抽出部は、前記第１特徴マップにおける個々の前記第１特徴量と個々の前記第２特徴マップにおける対応する前記第２特徴量とを比較することにより前記重み付けにおける重要度を設定することを特徴とする請求項３記載の物体検出装置。
　前記第２特徴量抽出部は、前記第１特徴マップにおける個々の前記第１特徴量と個々の前記第２特徴マップにおける対応する前記第２特徴量との類似度を算出して、前記類似度に基づき前記重要度を設定することを特徴とする請求項８記載の物体検出装置。
　前記類似度は、ＥＭＤ、コサイン類似度、ＫＬＤ、Ｌ２ノルム、Ｌ１ノルム及びマンハッタン距離のうちの少なくとも一つに基づく値であることを特徴とする請求項９記載の物体検出装置。
　前記重み付けがなされることにより、個々の前記第２特徴マップにおける個々の前記第２特徴量が対応する前記物体らしさに応じて補強されるものであることを特徴とする請求項８記載の物体検出装置。
　前記物体検出部は、互いに異なるカーネルサイズによる複数回の畳み込み演算を実行することにより前記物体を検出することを特徴とする請求項１記載の物体検出装置。
　前記物体検出部は、ＳＳＤにより前記物体を検出することを特徴とする請求項１２記載の物体検出装置。
　前記物体検出部は、教師あり学習により学習自在であることを特徴とする請求項１記載の物体検出装置。
　前記物体検出部は、回帰により前記物体の位置を推定するとともに、分類により前記物体の種別を推定することを特徴とする請求項１４記載の物体検出装置。
　前記物体の種別は、前記物体の進行方向を含むことを特徴とする請求項１５記載の物体検出装置。
　時刻情報を取得する時刻情報取得部と、
　時刻別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記時刻情報が示す時刻に対応するパラメータセットを選択するパラメータ選択部と、を備え、
　前記第２特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第２特徴マップ及び前記第３特徴マップを生成する
　ことを特徴とする請求項３記載の物体検出装置。
　場所情報を取得する場所情報取得部と、
　場所別学習済みパラメータデータベースに含まれるパラメータセットのうちの前記場所情報が示す場所に対応するパラメータセットを選択するパラメータ選択部と、を備え、
　前記第２特徴量抽出部は、前記パラメータ選択部により選択されたパラメータセットに含まれる学習済みパラメータを用いて前記第２特徴マップ及び前記第３特徴マップを生成する
　ことを特徴とする請求項３記載の物体検出装置。
　請求項１記載の物体検出装置と、
　前記物体検出部による検出結果を解析する解析部と、
　前記解析部による解析結果に対応する解析結果信号を出力する出力制御部と、
　を備えるモニタリング装置。
　前記解析部は、前記物体の異常度を判定する異常判定部及び前記物体の脅威度を判定する脅威判定部のうちの少なくとも一方を有することを特徴とする請求項１９記載のモニタリング装置。
　前記異常判定部は、前記物体検出部による検出結果が示す前記物体の位置に基づき前記異常度を判定することを特徴とする請求項２０記載のモニタリング装置。
　前記脅威判定部は、前記物体検出部による検出結果が示す前記物体の進行方向に基づき前記脅威度を判定することを特徴とする請求項２０記載のモニタリング装置。
　前記脅威判定部は、前記撮像画像における前記物体のサイズの時間変化量に基づき前記脅威度を判定することを特徴とする請求項２０記載のモニタリング装置。
　前記解析部は、前記物体検出部による検出結果を時間的に解析することにより前記時間変化量を算出する時間解析部を有することを特徴とする請求項２３記載のモニタリング装置。
　前記解析部は、前記異常判定部による判定結果及び前記脅威判定部による判定結果のうちの少なくとも一方を空間的に解析することによりリスクマップを生成する空間解析部を有することを特徴とする請求項２０記載のモニタリング装置。
　前記出力制御部は、前記解析結果信号をディスプレイに出力することにより、前記リスクマップに対応するリスクマップ画像を前記ディスプレイに表示させることを特徴とする請求項２５記載のモニタリング装置。
　学習用画像を示す画像データを取得する画像データ取得部と、
　前記画像データを用いて第１特徴マップを生成する第１特徴量抽出部と、
　前記画像データを用いて第２特徴マップを生成するとともに、前記第１特徴マップを用いて前記第２特徴マップに対する重み付けをすることにより第３特徴マップを生成する第２特徴量抽出部と、
　前記第３特徴マップを用いて前記学習用画像における物体を検出する物体検出部と、
　前記物体検出部による検出結果に応じて前記第２特徴量抽出部及び前記物体検出部の学習をする学習部と、を備え、
　前記第１特徴マップにおける第１特徴量は、物体らしさに対応する中レベル特徴を用いたものであり、
　前記第２特徴マップにおける第２特徴量は、高レベル特徴を用いたものである
　ことを特徴とする学習装置。