WO2021005775A1

WO2021005775A1 - 物体検知装置、学習方法、及び、記録媒体

Info

Publication number: WO2021005775A1
Application number: PCT/JP2019/027481
Authority: WO
Inventors: 高橋　勝彦; 裕一中谷; 哲夫井下; 遊哉石井; 中野　学
Original assignee: 日本電気株式会社
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-01-14
Also published as: JPWO2021005775A1; JP7164048B2; US20220277552A1

Abstract

物体検知装置において、複数の物体検知部は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部は、画像データに基づいて、重み算出パラメータを用いて、複数の物体検知部が出力するスコアを融合する際の重みを前記複数の物体検知部の各々について算出する。融合部は、重み算出部が算出した重みで、複数の物体検知部が出力するスコアを部分領域毎に融合する。ロス算出部は、画像データの正解ラベルと、融合部が融合したスコアとの差異をロスとして算出する。そして、パラメータ修正部は、重み算出パラメータを、算出されたロスが減少するように修正する。

Description

物体検知装置、学習方法、及び、記録媒体

　本発明は、画像に含まれる物体を検知する技術に関する。

　多くのパターンデータを用いて学習を行うことで、認識器の性能を向上できることが知られている。基礎となる認識器から各環境に適合させた認識器にチューニングすることも行われている。また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献１には、文字の書かれている環境に応じた認識処理を行うパターン認識装置が記載されている。このパターン認識装置では、入力画像から抽出された処理対象の状態に応じて、複数登録されている認識器の中のいずれか１つ又は複数を呼び出して認識処理を行わせる。

　また、認識器の性能を向上する別の方策として、特性の異なる複数の認識器を構築して、それらの出力に基づいて総合判断する方式が提案されている。例えば、特許文献２には、障害物の有無を判定する複数の判定部の判定結果に基づいて最終判定を行う障害物検出装置が記載されている。

特開２００７－０５８８８２号公報特開２０１９－０３６２４０号公報

　上記の手法では、複数の認識装置や判定装置の精度がほぼ同等であることを前提としている。このため、複数の認識装置や判定装置の精度が異なる場合には、最終的に得られる結果の精度が低下してしまう場合がある。

　本発明の１つの目的は、特性の異なる複数の認識器を用いて、入力画像に応じた高精度な物体検知を可能とする物体検知装置を提供することにある。

　上記の課題を解決するため、本発明の一つの観点では、物体検知装置は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データの正解ラベルと、前記融合部が融合したスコアとの差異をロスとして算出するロス算出部と、
　前記重み算出パラメータを、前記ロスが減少するように修正するパラメータ修正部と、を備える。

　本発明の他の観点では、物体検知装置の学習方法は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する。

　本発明のさらに他の観点では、記録媒体は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、特性の異なる複数の物体検知用の認識器を統合することで、入力画像に応じた高精度の物体検知が可能となる。

物体検知装置のハードウェア構成を示すブロック図である。第１実施形態に係る学習のための物体検知装置の機能構成を示す。アンカーボックスの概念を説明する図である。アンカーの例を説明する図である。第１実施形態に係る物体検知装置による学習処理のフローチャートである。第１実施形態に係る推論のための物体検知装置の機能構成を示す。第１実施形態に係る物体検知装置による推論処理のフローチャートである。第２実施形態に係る学習のための物体検知装置の機能構成を示す。第２実施形態に係る推論のための物体検知装置の機能構成を示す。第３実施形態に係る学習のための物体検知装置の機能構成を示す。第３実施形態の物体検知装置による学習処理のフローチャートである。第３実施形態に係る推論のための物体検知装置の機能構成を示す。第４実施形態に係る学習のための物体検知装置の機能構成を示す。

　［第１実施形態］
　次に、本発明の第１実施形態について説明する。
　（ハードウェア構成）
　図１は、物体検知装置のハードウェア構成を示すブロック図である。図示のように、物体検知装置１０は、インタフェース（ＩＦ）２と、プロセッサ３と、メモリ４と、記録媒体５と、データベース（ＤＢ）６と、を備える。

　インタフェース２は、外部装置との通信を行う。具体的に、インタフェース２は、物体検知の対象となる画像データや学習用の画像データを外部から入力したり、物体検知の結果を外部装置へ出力する際に使用される。

　プロセッサ３は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＣＰＵとＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置１０の全体を制御する。メモリ４は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ４は、プロセッサ３により実行される各種のプログラムを記憶する。また、メモリ４は、プロセッサ３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置１０に対して着脱可能に構成される。記録媒体５は、プロセッサ３が実行する各種のプログラムを記録している。物体検知装置１０が学習処理を実行する際には、記録媒体５に記録されているプログラムがメモリ４にロードされ、プロセッサ３により実行される。

　データベース６は、物体検知装置１０の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは、正解ラベルを含む。なお、上記に加えて、物体検知装置１０は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

　（学習のための機能構成）
　次に、学習のための物体検知装置１０の機能構成について説明する。図２は、学習のための物体検知装置１０の機能構成を示すブロック図である。なお、図２は、複数の物体検知部からの出力に対する最適な融合割合を学習する学習ステップを実行するための構成を示す。図示のように、物体検知装置１０は、画像入力部１１と、重み算出部１２と、第１の物体検知部１３と、第２の物体検知部１４と、積和部１５と、パラメータ修正部１６と、ロス算出部１７と、正解ラベル記憶部１８とを備える。画像入力部１１は、図１に示すインタフェース２により実現される、重み算出部１２、第１の物体検知部１３、第２の物体検知部１４、積和部１５、パラメータ修正部１６、および、ロス算出部１７は、図１に示すプロセッサ３により実現される。正解ラベル記憶部１８は図１に示すデータベース６により実現される。

　物体検知装置１０の学習ステップでは、重み算出部１２が内部に有する重み算出のためのパラメータ（以下、「重み算出パラメータ」と呼ぶ。）を最適化する。なお、第１の物体検知部１３及び第２の物体検知部１４は、事前に学習済みであり、この学習ステップにおいて学習は行わない。

　画像入力部１１には、画像データが入力される。画像データは、学習用の画像データであり、物体検知の対象となるエリアで撮影されたものである。前述のように、各画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。

　第１の物体検知部１３は、例えばＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）、ＲｅｔｉｎａＮｅｔ、Ｆａｓｔｅｒ－ＲＣＮＮ（Ｒｅｇｉｏｎａｌ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などのディープラーニングによる物体検知用のニューラルネットワークに類似する構成を有する。但し、第１の物体検知部１３は、ＮＭＳ（Ｎｏｎ　Ｍａｘｉｍｕｍ　Ｓｕｐｐｒｅｓｓｉｏｎ）処理を行って、検知した物体とそのスコアおよび座標情報をリスト形式などで出力する処理までは行わず、ＮＭＳ処理前のアンカーボックス毎に算出された認識対象物体のスコア情報および座標情報をそのまま出力する。ここでは、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。

　図３は、アンカーボックスの概念を説明する図である。図示のように、ＣＮＮの畳み込みにより得られた特徴マップ上に、スライディングウィンドウ（ｓｌｉｄｉｎｇ　ｗｉｎｄｏｗ）が設定される。図３の例では、１つのスライディングウィンドウに対してｋ通りの大きさの異なるアンカーボックス（以下、単に「アンカー」とも呼ぶ。）が設定され、各アンカーに対して認識対象物体の有無が検証される。即ち、各アンカーは、すべてのスライディングウィンドウに対してｋ通りずつ設定される部分領域を指す。

　アンカーの数はニューラルネットワークの構造やサイズに依存する。一例として、図４を参照して、モデルとしてＲｅｔｉｎａＮｅｔを使った場合のアンカーの例を説明する。図４は、ＲｅｔｉｎａＮｅｔの構造を示す図である。出力ネットワーク９０１の上段は、Ｗ×Ｈ×Ａ個のアンカーに対するスコア情報（Ｋ次元。つまり、Ｋ種類の認識対象）を記憶しており、下段はＷ×Ｈ×Ａ個のアンカーに対する座標情報（４次元）を記憶する。ここで、「Ｗ」はアンカー中心の横方向のバリエーション数、「Ｈ」はアンカー中心の縦方向バリエーション数、「Ａ」はアンカーの縦横サイズのバリエーション数を示す。座標情報は、認識対象物が存在する矩形領域の左右、上下４辺の座標情報を絶対値もしくはアンカーに対して一意に定められる基準位置からの相対位置で表してもよいし、上下４辺ではなく左辺と上辺および幅と高さの観点で表してもよい。

　図示の出力ネットワーク９０１はｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔ（特徴ピラミッドネット）の１層分に対して設定されたもので、ｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔの別の階層に対しても同様にＫ次元のスコア情報と４次元の座標情報が出力される。以下、ｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔのすべての階層に対して設定されるアンカーの数を「Ｎａ」と記すこととする。同一のアンカーに対するスコア情報と座標情報は、それらの情報を記憶するためのメモリの予め定められたメモリ位置に保存されるので、それらを容易に対応づけることができる。なお、前述のように、第１の物体検知部１３は事前に学習済みで、そのパラメータは固定されており、物体検知装置１０の学習ステップにおいて学習は行わない。

　第２の物体検知部１４は、第１の物体検知部１３と同様であり、モデルの構造も同一とする。ただし、第１の物体検知部１３と第２の物体検知部１４とは、学習データが異なるか、もしくは学習時のパラメータの初期値が異なるなどの要因により、内部に所持するネットワークのパラメータは一致しておらず、認識特性も異なるものとする。

　重み算出部１２は、ＲｅｓＮｅｔ（Ｒｅｓｉｄｕａｌ　Ｎｅｔｗｏｒｋ：残差ネットワーク）などの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み算出部１２は、画像入力部１１に入力された画像データに対して、第１の物体検知部１３と第２の物体検知部１４が出力するスコア情報および座標情報を融合する際の重みを決定し、それぞれの重みを示す情報を積和部１５へ出力する。基本的に、重みの次元数は用いる物体検知部の数に等しい。この場合、重み算出部１２は、第１の物体検知部１３に対する重みと第２の物体検知部１４に対する重みの総和が「１」になるように重みを算出することが好ましい。例えば、重み算出部１２は、第１の物体検知部１３に対する重みを「α」とし、第２の物体検知部１４に対する重みを「１－α」とすればよい。これにより、積和部１５における平均値算出処理を簡略化することができる。なお、物体検知部において、１つの物体に関するパラメータが２つある場合（例えば、ある物体らしいことを示すパラメータと、ある物体らしくないことを示すパラメータ）、重みの次元数は用いる物体検知部の数の２倍となる。

　積和部１５は、第１の物体検知部１３および第２の物体検知部１４が出力するスコア情報および座標情報を、それぞれ対応するアンカー同士で、重み算出部１２が出力する重みに基づき積和した後に平均値を求める。なお、座標情報の積和演算は、正解ラベルに認識対象物体の存在が示されているアンカーに対してのみ行い、それ以外のアンカーに対しては計算不要である。平均値はアンカー毎かつ認識対象物体毎に算出され、Ｎａ×（ｋ＋４）次元となる。なお、積和部１５は、本発明の融合部の一例である。

　正解ラベル記憶部１８は、学習用の画像データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部１８は、正解ラベルとして、各アンカーに存在する認識対象物体のクラス情報、および座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部１８は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すクラス情報、および座標情報を記憶する。クラス情報は、物体の種類を示すクラスコードと、そのクラスコードが示す物体が存在する確からしさを示すスコア情報とを含む。なお、学習用の画像データに対するもともとの正解情報は、入力画像に写っている認識対象物体の種類とその矩形領域を示すテキスト情報である場合が多いが、正解ラベル記憶部１８に記憶されている正解ラベルは、その正解情報をアンカー毎のクラス情報および座標情報に変換したデータとなっている。

　例えば、正解ラベル記憶部１８は、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有するアンカーについては、当該物体のスコアを表す正解ラベルの位置に、クラス情報として当該物体のスコアを示す値１．０を格納し、座標情報として当該アンカーの標準矩形位置に対する当該物体が写っている矩形領域の位置の相対量（左端ｘ座標のずれ量、上端ｙ座標のずれ量、幅のずれ量、高さのずれ量）を格納する。また、正解ラベル記憶部１８は、他の物体のスコアを表す正解ラベルの位置には物体が存在しない旨を示す値を格納する。また、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有さないアンカーに対しては、正解ラベル記憶部１８は、物体のスコアおよび座標情報を格納する正解ラベルの位置に物体が存在しない旨を示す値を格納する。１つのアンカーに対し、クラス情報はｋ次元、座標情報は４次元となる。すべてのアンカーに対しては、クラス情報はＮａ×ｋ次元、座標情報はＮａ×４次元となる。この変換には、広く一般に公開されている物体検知課題向けのディープニューラルネットワークプログラムで使われている手法を適用することができる。

　ロス算出部１７は、積和部１５が出力するＮａ×（ｋ＋４）次元のスコア情報および座標情報と、正解ラベル記憶部１８に記憶されている正解ラベルとを照合してロスの値を算出する。具体的には、ロス算出部１７は、スコア情報に関する識別ロス、および、座標情報に関する回帰ロス（Ｒｅｇｒｅｓｓｉｏｎ　ｌｏｓｓ）を算出する。積和部１５が出力するＮａ×（ｋ＋４）次元の平均値は、第１の物体検知部１３がアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報と同義である。したがって、ロス算出部１７は、第１の物体検知部１３の出力に対する識別ロスの算出方法と全く等しい方法で識別ロスの値を算出することができる。ロス算出部１７は、すべてのアンカーに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、ロス算出部１７は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。

　なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献として取り込む。
　　”Ｌｅａｒｎｉｎｇ　Ｅｆｆｉｃｉｅｎｔ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ　Ｍｏｄｅｌｓ　ｗｉｔｈ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｔｉｌｌａｔｉｏｎ”，ＮｅｕｒＩＰＳ２０１７

　パラメータ修正部１６は、ロス算出部１７が算出したロスを減少させるように、重み算出部１２に内在するネットワークのパラメータを修正する。この時、パラメータ修正部１６は、第１の物体検知部１３および第２の物体検知部１４のネットワークのパラメータを固定し、重み算出部１２のパラメータのみを修正する。パラメータ修正部１６は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。このようにして重み算出部１２のパラメータを学習することで、第１の物体検知部１３および第２の物体検知部１４の出力を最適に積和し、総合的に判定を行う物体検知装置を構築することが可能となる。

　次に、学習のための物体検知装置１０の動作について説明する。図５は、物体検知装置１０による学習処理のフローチャートである。この処理は、図１に示すプロセッサ３が予め用意されたプログラムを実行することにより実現される。

　まず、画像入力部１１に学習用の画像データが入力される（ステップＳ１１）。第１の物体検知部１３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１２）。同様に、第２の物体検知部１４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１３）。また、重み算出部１２は、画像データを読み込み、第１の物体検知部１３および第２の物体検知部１４の出力それぞれに対する重みを算出する（ステップＳ１４）。

　次に、積和部１５は、第１の物体検知部１３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部１４が出力した認識対象物体のスコア情報と座標情報に、重み算出部１２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ１５）。次に、ロス算出部１７は、得られた平均値と正解ラベルとの差を照合し、ロスを算出する（ステップＳ１６）。そして、パラメータ修正部１６は、ロスの値が減少するように、重み算出部１２に内在する重み算出パラメータを修正する（ステップＳ１７）。

　物体検知装置１０は、上記のステップＳ１１～Ｓ１７を所定の条件の間だけ繰返し、処理を終了する。なお、「所定の条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。

　以上のように、第１実施形態の物体検知装置１０によれば、重み算出部１２が入力画像に対する各物体検知部の得手・不得手を予測して重みを最適化し、その重みを各物体検知部の出力に乗じて平均する。よって、単体の物体検知部に比べて高精度な最終判定を行うことができる。例えば、第１の物体検知部１３は単独で歩く歩行者の検知を得意とし、第２の物体検知部１４は集団で歩く歩行者の検知を得意としている場合、入力画像にたまたま単独で歩く人が映っていたならば、重み算出部１２は第１の物体検知部１３により大きな重みを割り当てる。また、パラメータ修正部１６は、学習用の画像データの認識を得意とする物体検知部に対して重み算出部１２が大きな重みを算出するように、重み算出部１２のパラメータを修正する。

　（推論のための機能構成）
　次に、推論のための物体検知装置の機能構成について説明する。図６は、推論のための物体検知装置１０ｘの機能構成を示すブロック図である。なお、推論のための物体検知装置１０ｘも、基本的に図１に示すハードウェア構成で実現される。

　図６に示すように、推論のための物体検知装置１０ｘは、画像入力部１１と、重み算出部１２と、第１の物体検知部１３と、第２の物体検知部１４と、積和部１５と、極大値選択部１９と、を備える。ここで、画像入力部１１、重み算出部１２、第１の物体検知部１３、第２の物体検知部１４、および、積和部１５は、図２に示す学習のための物体検知装置１０と同様である。そして、重み算出部１２は、上記の学習処理により学習されたものを使用する。

　極大値選択部１９は、積和部１５が出力するＮａ×ｋ次元のスコア情報にＮＭＳ処理を施して認識対象物体の種類を同定し、そのアンカーに対応する座標情報からその位置を特定して物体検知結果を出力する。物体検知結果は、認識対象物体毎に、その種類と位置とを含む。これにより、第１の物体検知部１３および第２の物体検知部１４の出力を最適に融合して総合判断した場合の物体検知結果を得ることができる。

　次に、推論のための物体検知装置１０ｘの動作について説明する。図７は、物体検知装置１０ｘによる推論処理のフローチャートである。この処理は、図１に示すプロセッサ３が予め用意されたプログラムを実行することにより実現される。

　まず、画像入力部１１に学習用の画像データが入力される（ステップＳ２１）。第１の物体検知部１３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ２２）。同様に、第２の物体検知部１４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ２３）。また、重み算出部１２は、画像データを読み込み、第１の物体検知部１３および第２の物体検知部１４の出力それぞれに対する重みを算出する（ステップＳ２４）。

　次に、積和部１５は、第１の物体検知部１３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部１４が出力した認識対象物体のスコア情報と座標情報に、重み算出部１２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ２５）。最後に、極大値選択部１９は、平均値に対してＮＭＳ処理を施し、認識対象物体の種類とその位置を物体検知結果として出力する（ステップＳ２６）。

　（変形例）
　上記の第１実施形態に対しては、以下の変形例を適用することができる。
（１）上記の第１実施形態では、各物体検知部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。

（２）上記の第１実施形態では、第１の物体検知部１３および第２の物体検知部１４の２つの物体検知部を用いたが、物体検知部は原理上３つ以上でも全く問題ない。その場合は、重み算出部２２が出力する重みの次元数（数）を、物体検知部の数と等しくすればよい。

（３）第１の物体検知部１３および第２の物体検知部１４を構成する具体的なアルゴリズムとしては、物体検知のためのディープラーニング手法であれば何を用いてもよい。また、重み算出部１２としては、回帰問題向けのディープラーニングに限らず、誤差逆伝搬法で学習できる関数、いいかえると、重みを算出する関数のパラメータで誤差関数を偏微分可能な関数、であれば何を用いても構わない。

（４）また、上記の第１実施形態は物体検知装置としたが、物体の検知に限らず、映像中で起きている事象情報とその座標情報を出力する事象検知装置としてもよい。「事象」とは、例えばあらかじめ定めた人物の振る舞いや動作、ジェスチャーのようなものや、土砂崩れや雪崩、河川の水位上昇といった自然現象などを指す。

（５）また、上記の第１実施形態では、第１の物体検知部１３と第２の物体検知部１４とはモデルの構造の等しいものを用いるものとしているが、異なるモデルを用いてもよい。ただし、その場合は、積和部１５にて、略等しい位置に対応する双方のアンカーの対応づけを工夫する必要がある。これは、異なるモデル間のアンカーは、完全一致しないためである。現実的な実装としては、第２の物体検知部１４で設定される各アンカーを第１の物体検知部１３で設定されるアンカーのいずれか１つに対応させ、第１の物体検知部１３で設定されるアンカー毎に重み付け平均を計算し、第１の物体検知部１３で設定されるアンカー毎かつ認識対象物体毎のスコア情報および座標情報を出力するようにすればよい。アンカーの対応の決め方としては、アンカーに対応する画像領域（物体が存在する矩形領域）を求め、その画像領域がもっとも過不足なく重複するアンカー同士を対応付ければよい。

　［第２実施形態］
　次に、本発明の第２実施形態について説明する。なお、以下に説明する学習のための物体検知装置２０及び推論のための物体検知装置２０ｘは、いずれも図１に示すハードウェア構成により実現される。

　（学習のための機能構成）
　図８は、第２実施形態に係る学習のための物体検知装置２０の機能構成を示すブロック図である。図示のように、学習のための物体検知装置２０は、図２に示す物体検知装置１０における重み算出部１２及びパラメータ修正部１６の代わりに、アンカー毎重み算出部２１及びアンカー毎パラメータ修正部２２を有する。これ以外は、第２実施形態の物体検知装置２０は、第１実施形態の物体検知装置１０と同一である。即ち、画像入力部１１、第１の物体検知部１３、第２の物体検知部１４、積和部１５、ロス算出部１７および正解ラベル記憶部１８は、第１実施形態の物体検知装置１０とそれぞれ同一であり、基本的に第１実施形態と同様に動作する。

　アンカー毎重み算出部２１は、画像入力部１１に入力された画像データに基づいて、その画像データに設定される各アンカーに対して、第１の物体検知部１３と第２の物体検知部１４の出力に対する重みを算出し、積和部１５に出力する。ここで、第１実施形態の重み算出部１２が画像全体に対して１通りの重みを設定していたのに対し、第２実施形態のアンカー毎重み算出部２１は、画像のアンカー毎、即ち部分領域毎に、各物体検知部の出力に対する重みを算出する。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、アンカー毎重み算出部２１が出力する倍率を示す情報の次元数はＮａ×Ｎｆ次元となる。アンカー毎重み算出部２１は、多次元の回帰問題に適用できるディープニューラルネットワークなどで構成することができる。また、アンカー毎重み算出部２１は、それぞれの物体検知部に対する近傍のアンカー同士ができるだけ近い重みを持つように、近傍のアンカーに対応する重みを平均化するような構造のネットワークを含んでもよい。

　積和部１５は、第１の物体検知部１３および第２の物体検知部１４がそれぞれアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報を、同じもの同士対応づけながら、アンカー毎重み算出部２１が出力する物体検知部毎かつアンカー毎の重みに基づき積和した後に平均値を求める。平均値の次元数は、第１実施形態と等しくＮａ×（ｋ＋４）次元となる。

　アンカー毎パラメータ修正部２２は、ロス算出部１７が算出したロスを減少させるようにアンカー毎重み算出部２１に含まれる物体検知部毎かつアンカー毎の重み算出パラメータを修正する。この時、第１実施形態と同様に、第１の物体検知部１３および第２の物体検知部１４のネットワークのパラメータは固定し、アンカー毎パラメータ修正部２２は、アンカー毎重み算出部２１のパラメータのみを修正する。パラメータの修正量は、通常の誤差逆伝搬法により求めることができる。

　学習時において、第２実施形態の物体検知装置２０は、基本的に図５に示す第１実施形態の学習処理と同様の処理を実行する。但し、第２実施形態では、図５に示す学習処理において、ステップＳ１４でアンカー毎重み算出部２１がアンカー毎に各物体検知部の出力に対する重みを算出する。また、ステップＳ１７では、アンカー毎パラメータ修正部２２がアンカー毎に、アンカー毎重み算出部２１内の重み算出パラメータを修正する。

　（推論のための機能構成）
　第２実施形態における、推論のための物体検知装置の構成について説明する。図９は、第２実施形態における、推論のための物体検知装置２０ｘの機能構成を示すブロック図である。第２実施形態の推論のための物体検知装置２０ｘは、図６に示す第１実施形態の推論のための物体検知装置１０ｘにおける重み算出部１２の代わりに、アンカー毎重み算出部２１を有する。これ以外の点では、第２実施形態の推論のための物体検知装置２０ｘは、第１実施形態の推論のための物体検知装置１０ｘと同一である。よって、第２実施形態では、アンカー毎重み算出部２１がアンカー毎に重みを算出し、第１の物体検知部１３及び第２の物体検知部１４に出力する。

　推論時において、第２実施形態の物体検知装置２０ｘは、基本的に図７に示す第１実施形態の学習処理と同様の処理を実行する。但し、第２実施形態では、図７に示す学習処理において、ステップＳ２４でアンカー毎重み算出部２１がアンカー毎に各物体検知部の出力に対する重みを算出する。

　第２実施形態では、入力された画像データに基づいて、各物体検知部の出力の確からしさをアンカー毎、言い換えると場所毎に推測して重みを算出し、その重みを用いて各物体検知部の出力を重み付け平均する。よって、複数の物体検知部の出力を用いて、より高精度な最終判定を行うことができる。例えば、第１の物体検知部１３は単独で歩く歩行者の検知を得意とし、第２の物体検知部１４は集団で歩く歩行者の検知を得意としている場合、入力された画像に単独で歩く人と集団で歩く人が共に映っていたならば、アンカー毎重み算出部２１は単独で歩く人の位置付近に対応するアンカーには第１の物体検知部１３の出力をより重視し、集団で歩く人の位置付近に対応するアンカーには第２の物体検知部１４の出力をより重視するような重みを出力する。こうして、より高精度な最終判定が可能となる。また、アンカー毎パラメータ修正部２２は、学習用の画像データの認識を得意とする物体検知部の出力をより重視する重みをアンカー毎重み算出部２１が出力するよう、画像の部分領域毎にパラメータを修正することができる。

　（変形例）
　上述した第１実施形態における変形例（１）～（５）は、第２実施形態においても適用することができる。さらに、第２実施形態では、以下の変形例（６）を適用することができる。

（６）上記の第２実施形態では、アンカー毎重み算出部２１がアンカー毎に最適な重み付けを行っているが、例えばＲｅｔｉｎａＮｅｔのように各物体検知部がクラス毎に異なるバイナリ識別器を持っているならば、アンカー毎ではなくクラス毎に重みを変えられるようにしてもよい。この場合は、アンカー毎重み算出部２１に代えてクラス毎重み算出部を設け、アンカー毎パラメータ修正部２２に代えてクラス毎パラメータ修正部を設ければよい。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、アンカー毎重み算出部２１が出力する重みの次元数はＮａ×Ｎｆ次元である。これに対し、クラス数をＮｃ次元とすると、クラス毎重み算出部が出力する重みの次元数はＮｃ×Ｎｆ次元となる。クラス毎パラメータ修正部によるクラス毎重み算出部のパラメータの学習は、通常のように出力層ニューロン側からロスを最小化するようにバックプロパゲーションを適用すればよい。この構成によれば、例えば、物体検知部毎に検知が得意なクラスが異なる場合、クラス毎に異なる最適な重み付けを行うことが可能となる。

　［第３実施形態］
　次に、本発明の第３実施形態について説明する。第３実施形態は、画像データの撮影環境情報を用いて、各物体検知部に対する重み付けを行うものである。なお、以下に説明する学習のための物体検知装置３０及び推論のための物体検知装置３０ｘは、いずれも図１に示すハードウェア構成により実現される。

　（学習のための機能構成）
　図１０は、第３実施形態に係る学習のための物体検知装置３０の機能構成を示すブロック図である。図示のように、学習のための物体検知装置３０は、図２に示す物体検知装置１０における重み算出部１２の代わりに重み算出／環境予測部３１を備え、さらに予測ロス算出部３２を追加した構成を有する。これ以外は、第３実施形態の物体検知装置３０は、第１実施形態の物体検知装置１０と同一である。即ち、画像入力部１１、第１の物体検知部１３、第２の物体検知部１４、積和部１５、ロス算出部１７および正解ラベル記憶部１８は、第１実施形態の物体検知装置１０とそれぞれ同一であり、基本的に第１実施形態と同様に動作する。

　予測ロス算出部３２には、撮影環境情報が入力される。撮影環境情報は、画像入力部１１に入力される画像データが撮影された環境を示す情報である。例えば、撮影環境情報は、（ａ）画像データを撮影したカメラの設置位置の屋内外の別（屋内または屋外）、（ｂ）その時の天候（晴天、曇天、雨または雪）、（ｃ）時刻（昼または夜）、（ｄ）カメラの俯角（０～３０度、３０～６０度または６０～９０度）などである。

　重み算出／環境予測部３１は、重み算出パラメータを用いて第１の物体検知部１３および第２の物体検知部１４に対する重みを算出すると同時に、撮影環境を予測するためのパラメータ（以下、「撮影環境予測パラメータ」と呼ぶ。）を用いて、入力された画像データの撮影環境を予測して予測環境情報を生成し、予測ロス算出部３２に出力する。例えば、撮影環境情報として上記（ａ）～（ｄ）の４種類のものを用いるとすれば、重み算出／環境予測部３１は、各種類の情報の属性値を１次元で表し、予測環境情報として４次元の値を出力する。重み算出／環境予測部３１は、重みと予測環境情報を算出するにあたり、計算の一部を共通化する。例えば、ディープニューラルネットワークで算出する場合、重み算出／環境予測部３１は、ネットワークの下位層を共通化し、上位層のみを重みおよび予測環境情報の算出に特化させる。即ち、重み算出／環境予測部３１はいわゆるマルチタスク学習を行う。これにより、重み算出パラメータと環境予測パラメータは、その一部が共通することとなる。

　予測ロス算出部３２は、撮影環境情報と、重み算出／環境予測部３１が算出した予測環境との差異を計算し、予測ロスとしてパラメータ修正部１６に出力する。パラメータ修正部１６は、ロス算出部１７が算出したロスおよび予測ロス算出部３２が算出した予測ロスを減少させるように、重み算出／環境予測部３１に内在するネットワークのパラメータを修正する。

　第３実施形態では、重み算出／環境予測部３１において、重みの算出と予測環境情報の算出に一部のネットワークを共有しているので、類似した撮影環境のモデル同士は類似した重みをもちやすくなる。その結果、重み算出／環境予測部３１における学習を安定させる効果が得られる。

　なお、上記の第３実施形態では、重み算出／環境予測部３１およびパラメータ修正部１６は、第１実施形態と同様に画像全体に対して等しい重み付けを行っている。その代わりに、重み算出／環境予測部３１およびパラメータ修正部１６が、第２実施形態のようにアンカー毎（部分領域毎）に重み付けを行うように構成してもよい。

　次に、学習のための物体検知装置３０の動作について説明する。図１１は、第３実施形態の物体検知装置３０による学習処理のフローチャートである。この処理は、図１に示すプロセッサ３が予め用意されたプログラムを実行することにより実現される。図５と比較するとわかるように、第３実施形態の物体検知装置３０による学習処理は、第１実施形態の物体検知処理１０による学習処理に、ステップＳ３１～Ｓ３３を追加したものとなっている。

　図１１において、ステップＳ１１～Ｓ１６は、第１実施形態の学習処理と同様である。ステップＳ１６で、ロス算出部１７は、得られた平均値と正解ラベルとの差を照合し、ロスを算出してパラメータ修正部１６に出力する。一方、ステップＳ１１～Ｓ１６と並行して、ステップＳ３１～Ｓ３３が実行される。具体的には、まず、撮影環境情報が予測ロス算出部３２に入力される（ステップＳ３１）。次に、重み算出／環境予測部３１は、画像入力部１１から出力された画像データに基づいて、その画像データが撮影された環境を予測し、予測環境情報を生成して予測ロス算出部３２に出力する（ステップＳ３２）。予測ロス算出部３２は、ステップＳ３１で入力された撮影環境情報と、ステップＳ３２で入力された予測環境情報とに基づいて予測ロスを算出し、パラメータ修正部１６に出力する（ステップＳ３３）。そして、パラメータ修正部１６は、ロス算出部１７が算出したロスおよび予測ロス算出部３２が算出した予測ロスの値が減少するように、重み算出／環境予測部３１に内在するパラメータを修正する（ステップＳ１７）。物体検知装置３０は、上記のステップＳ１１～Ｓ１７及びＳ３１～３３を所定の条件の間だけ繰返し、処理を終了する。

　（推論のための機能構成）
　次に、第３実施形態における、推論のための物体検知装置の構成について説明する。図１２は、第３実施形態における、推論のための物体検知装置３０ｘの機能構成を示すブロック図である。第３実施形態の推論のための物体検知装置２０ｘは、図６に示す第１実施形態の推論のための物体検知装置１０ｘにおける重み算出部１２の代わりに、重み算出部３５を有する。これ以外の点では、第３実施形態の推論のための物体検知装置３０ｘは、第１実施形態の推論のための物体検知装置１０ｘと同一である。

　推論時において、第３実施形態の物体検知装置３０ｘは、基本的に図７に示す第１実施形態の学習処理と同様の処理を実行する。但し、第３実施形態では、重み算出部３５は、上述の学習のための物体検知装置３０により撮影環境情報を用いて学習した内部パラメータを用いて第１の物体検知部１３及び第２の物体検知部１４に対する重みを算出し、積和部１５に入力する。この点以外では、第３実施形態の物体検知装置３０ｘは、第１実施形態の物体検知装置１０ｘと同様に動作する。よって、第３実施形態の物体検知装置３０ｘは、第１実施形態の物体検知装置１０ｘと同様に、図７に示すフローチャートに従って推論処理を行う。但し、ステップＳ２４において、重み算出部３５は、撮影環境情報を用いて学習した内部パラメータを用いて重みを算出する。

　（変形例）
　上述した第１実施形態における変形例（１）～（５）は、第３実施形態においても適用することができる。

　［第４実施形態］
　次に、本発明の第４実施形態について説明する。図１３は、第４実施形態による、学習のための物体検知装置４０の機能構成を示すブロック図である。なお、物体検知装置４０は、図１に示すハードウェア構成により実現される。

　学習のための物体検知装置４０は、複数の物体検知部４１と、重み算出部４２と、融合部４３と、ロス算出部４４と、パラメータ修正部４５とを備える。学習用の画像データとして、正解ラベルを有する画像データが用意される。複数の物体検知部４１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部４２は、画像データに基づいて、重み算出パラメータを用いて、複数の物体検知部４１が出力するスコアを融合する際の重みを算出する。融合部４３は、重み算出部４２が算出した重みで、複数の物体検知部４１が出力するスコアを部分領域毎に融合する。ロス算出部４４は、画像データの正解ラベルと、融合部４３が融合したスコアとの差異をロスとして算出する。そして、パラメータ修正部４５は、重み算出パラメータを、算出されたロスが減少するように修正する。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データの正解ラベルと、前記融合部が融合したスコアとの差異をロスとして算出するロス算出部と、
　前記重み算出パラメータを、前記ロスが減少するように修正するパラメータ修正部と、
　を備える物体検知装置。

　（付記２）
　前記重み算出部は、前記画像データの全体に対して１つの重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記１つの重みで融合する付記１に記載の物体検知装置。

　（付記３）
　前記重み算出部は、前記画像データの前記部分領域毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する付記１に記載の物体検知装置。

　（付記４）
　前記重み算出部は、前記物体を示すクラス毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記クラス毎に算出された重みで融合する付記１に記載の物体検知装置。

　（付記５）
　前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記１乃至４のいずれか一項に記載の物体検知装置。

　（付記６）
　前記複数の物体検知部の各々は、前記物体が存在する矩形領域の座標情報を前記部分領域毎に出力し、
　前記融合部は、前記重み算出部が算出した重みで、前記物体が存在する矩形領域の座標情報を融合し、
　前記ロス算出部は、前記正解ラベルと前記融合部が融合した座標情報との差異を含むロスを算出する付記１乃至４のいずれか一項に記載の物体検知装置。

　（付記７）
　前記融合部は、前記複数の物体検知部が出力する前記座標情報に、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記６に記載の物体検知装置。

　（付記８）
　前記重み算出部は、撮影環境予測パラメータを用いて、前記画像データの撮影環境を予測して予測環境情報を出力し、
　前記画像データについて予め用意された撮影環境情報と、前記予測環境情報とに基づいて、撮影環境の予測ロスを算出する予測ロス算出部をさらに備え、
　前記パラメータ修正部は、前記撮影環境予測パラメータを、前記予測ロスが減少するように修正する付記１乃至７のいずれか一項に記載の物体検知装置。

　（付記９）
　前記重み算出部は、前記重み算出パラメータを有する第１のネットワークと、前記撮影環境予測パラメータを有する第２のネットワークとを備え、前記第１のネットワークと前記第２のネットワークは一部が共通化されている付記８に記載の物体検知装置。

　（付記１０）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する、物体検知装置の学習方法。

　（付記１１）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０、１０ｘ、２０、２０ｘ、３０、３０ｘ、４０　物体検知装置
　１１　画像入力部
　１２、３５、４２　重み算出部
　１３、１４、４１　物体検知部
　１５　積和部
　１６、４５　パラメータ修正部
　１７、４４　ロス算出部
　１８　正解ラベル記憶部
　１９　極大値選択部
　２１　アンカー毎重み算出部
　２２　アンカー毎パラメータ修正部
　３１　重み算出／環境予測部
　３２　予測ロス算出部
　４３　融合部

Claims

　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データの正解ラベルと、前記融合部が融合したスコアとの差異をロスとして算出するロス算出部と、
　前記重み算出パラメータを、前記ロスが減少するように修正するパラメータ修正部と、
　を備える物体検知装置。
　前記重み算出部は、前記画像データの全体に対して１つの重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記１つの重みで融合する請求項１に記載の物体検知装置。
　前記重み算出部は、前記画像データの前記部分領域毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する請求項１に記載の物体検知装置。
　前記重み算出部は、前記物体を示すクラス毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記クラス毎に算出された重みで融合する請求項１に記載の物体検知装置。
　前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める請求項１乃至４のいずれか一項に記載の物体検知装置。
　前記複数の物体検知部の各々は、前記物体が存在する矩形領域の座標情報を前記部分領域毎に出力し、
　前記融合部は、前記重み算出部が算出した重みで、前記物体が存在する矩形領域の座標情報を融合し、
　前記ロス算出部は、前記正解ラベルと前記融合部が融合した座標情報との差異を含むロスを算出する請求項１乃至４のいずれか一項に記載の物体検知装置。
　前記融合部は、前記複数の物体検知部が出力する前記座標情報に、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める請求項６に記載の物体検知装置。
　前記重み算出部は、撮影環境予測パラメータを用いて、前記画像データの撮影環境を予測して予測環境情報を出力し、
　前記画像データについて予め用意された撮影環境情報と、前記予測環境情報とに基づいて、撮影環境の予測ロスを算出する予測ロス算出部をさらに備え、
　前記パラメータ修正部は、前記撮影環境予測パラメータを、前記予測ロスが減少するように修正する請求項１乃至７のいずれか一項に記載の物体検知装置。
　前記重み算出部は、前記重み算出パラメータを有する第１のネットワークと、前記撮影環境予測パラメータを有する第２のネットワークとを備え、前記第１のネットワークと前記第２のネットワークは一部が共通化されている請求項８に記載の物体検知装置。
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する、物体検知装置の学習方法。
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて、前記複数の物体検知部の各々について算出し、
　算出された重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データの正解ラベルと、融合したスコアとの差異をロスとして算出し、
　前記重み算出パラメータを、前記ロスが減少するように修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録した記録媒体。