WO2021005776A1

WO2021005776A1 - 物体検知装置、学習方法、及び、記録媒体

Info

Publication number: WO2021005776A1
Application number: PCT/JP2019/027483
Authority: WO
Inventors: 高橋　勝彦; 裕一中谷; 遊哉石井; 哲夫井下; 中野　学
Original assignee: 日本電気株式会社
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-01-14
Also published as: US20220277553A1; JP7164049B2; JPWO2021005776A1

Abstract

物体検知装置において、複数の物体検知部は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部は、画像データに基づいて、複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する。融合部は、重み算出部が算出した重みで、複数の物体検知部が出力するスコアを部分領域毎に融合する。ターゲットモデルの物体検知部は、部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。ロス算出部は、ターゲットモデルの物体検知部の出力と、画像データの正解ラベルおよび融合部が融合したスコアとの差異を示すロスを算出する。パラメータ修正部は、そのロスが減少するように、ターゲットモデルの物体検知部のパラメータを修正する。

Description

物体検知装置、学習方法、及び、記録媒体

　本発明は、画像に含まれる物体を検知する技術に関する。

　多くのパターンデータを用いて学習を行うことで、認識器の性能を向上できることが知られている。基礎となる認識器から各環境に適合させた認識器にチューニングすることも行われている。また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献１には、文字の書かれている環境に応じた認識処理を行うパターン認識装置が記載されている。このパターン認識装置では、入力画像から抽出された処理対象の状態に応じて、複数登録されている認識器の中のいずれか１つ又は複数を呼び出して認識処理を行わせる。

　また、認識器の性能を向上する別の方策として、特性の異なる複数の認識器を構築して、それらの出力に基づいて総合判断する方式が提案されている。例えば、特許文献２には、障害物の有無を判定する複数の判定部の判定結果に基づいて最終判定を行う障害物検出装置が記載されている。

特開２００７－０５８８８２号公報特開２０１９－０３６２４０号公報

　上記の手法では、複数の認識器を用いて認識性能を向上させているため、必然的に装置が大規模となる。このため、映像監視などの用途で使用する物体検出装置を現場にデプロイするような場合には、上記の手法は適当とは言えない。

　本発明の１つの目的は、さまざまな現場環境で学習したモデルを用いて、新たな現場向けの小規模なターゲットモデルを構築することが可能な物体検知装置を提供することにある。

　上記の課題を解決するため、本発明の一つの観点では、物体検知装置は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第１のロスを算出する第１のロス算出部と、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第１のパラメータ修正部と、を備える。

　本発明の他の観点では、物体検知装置の学習方法は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する。

　本発明のさらに他の観点では、記録媒体は、
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、さまざまな現場環境で学習したモデルを用いて、新たな現場向けの小規模なターゲットモデルを構築することが可能となる。

複数の学習済みモデルを用いて大規模モデルを構築する構成を示す。大規模モデルを構築する処理の一例を模式的に示す。アンカーボックスの概念を説明する図である。大規模モデルを用いてターゲットモデルを構築する構成を示す。ターゲットモデルを構築する処理の一例を模式的に示す。物体検知装置のハードウェア構成を示すブロック図である。第１実施形態に係る学習のための物体検知装置の機能構成を示す。第１実施形態の物体検知装置による学習処理のフローチャートである。第１実施形態の推論のための物体検知装置の機能構成を示す。第２実施形態に係る学習のための物体検知装置の機能構成を示す。第２実施形態の物体検知装置による学習処理のフローチャートである。第３実施形態に係る学習のための物体検知装置の機能構成を示す。

　［原理説明］
　まず、本発明の実施形態における基本原理について説明する。一般的に、映像監視向けＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）モデルを現場にデプロイする際、その認識精度不足により、現場毎にモデルの再構築（現場での画像の収集、正解付け、学習など）のためのシステムインテグレーション作業が必要となることが多い。本実施形態では、システムインテグレーションのコストを低減するために、まず、さまざまな現場環境で学習済みのソースモデルを収集し、融合することにより、環境変動に頑健な大規模モデルを構築する。そして、この大規模モデルをベースとして、新たな現場向けの小規模モデル、即ち、ターゲットモデルを構築する。

　図１は、複数の学習済みモデルを用いて大規模モデルを構築するための構成を示す。図１に示すように、大規模モデル１は、複数（図１の例では３つ）の学習済みモデル２と、ゲーティングネットワーク３と、演算部４とを備える。学習済みモデル２は、それぞれが異なる環境で学習されたソースモデルであり、ここでは画像データから物体検知を行うモデルである。新規の現場で収集された画像データは、学習データとして複数の学習済みモデル２およびゲーティングネットワーク３に入力される。なお、学習データには、予め対応する正解ラベルとして、クラスの正解値と座標の正解値が用意されている。

　各学習済みモデル２は、入力された学習データに基づいて物体検知を行い、物体検知の途中段階で設定される部分領域毎に、検出された物体のクラスに関するクラス情報と、その部分領域の位置を示す座標情報とを出力する。クラス情報は、物体の種類を示すクラスコードと、そのクラスコードが示す物体が存在する確からしさを示すスコアとを含む。

　ゲーティングネットワーク３は、各学習済みモデル２が出力する情報に対する重みを出力する。演算部４は、各学習済みモデル２が出力する情報を、ゲーティングネットワーク３が出力する重みを用いて融合する。演算部４は、各学習済みモデル２が出力するクラス情報を、重みを用いて融合して得られるクラス情報を出力する。また、演算部４は、各学習済みモデル２が出力する座標情報を、重みを用いて融合して得られる座標情報として出力する。

　演算部４から出力されたクラス情報および座標情報は、それぞれ予め用意されたクラスの正解値および座標の正解値と比較され、誤差が算出される。そして、それらの誤差を最小化するように、ゲーティングネットワーク３を学習する。具体的には、それらの誤差が減少するように、ゲーティングネットワーク３のパラメータを修正する。ゲーティングネットワーク３は、入力される画像データ毎に、各学習済みモデル２の得手不得手を推定して、各学習済みモデル２の最適な融合割合を示す重みの値を学習する。大規模モデル１の学習は、一定の精度が得られるまで行われる。こうして、複数の学習済みのソースモデルを用いて、高精度な大規模モデルが構築される。

　次に、大規模モデルを構築する具体例を説明する。図２は、大規模モデル１を構築する処理の一例を模式的に示す。なお、図２では、学習済みモデル２の数を２つとしている。図２の例では、学習済みモデル２をＲｅｔｉｎａＮｅｔにより構成している。なお、図２の例では、説明の便宜上、各学習済みモデル２が出力する情報のうち、クラス情報のみを使用するものとする。

　学習済みモデル２は、ＲｅｓＮｅｔ（Ｒｅｓｉｄｕａｌ　Ｎｅｔｗｏｒｋ：残差ネットワーク）により、入力された画像データから、サイズの異なる複数の特徴マップからなるｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔ（特徴ピラミッドネット）を生成する。各特徴マップには、アンカーボックスが設定され、学習済みモデル２は、アンカーボックス毎に物体の検出を行う。但し、大規模モデル１においては、学習済みモデル２は、検知した物体とそのスコアおよび座標情報をリスト形式などで出力する極大値選択処理、具体的にはＮＭＳ（Ｎｏｎ　Ｍａｘｉｍｕｍ　Ｓｕｐｐｒｅｓｓｉｏｎ）処理までは行わず、ＮＭＳ処理前のアンカーボックス毎に算出された認識対象物体のクラス情報および座標情報をそのまま出力する。ここでは、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。

　図３は、アンカーボックスの概念を説明する図である。図示のように、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）の畳み込みにより得られた特徴マップ上に、スライディングウィンドウ（ｓｌｉｄｉｎｇ　ｗｉｎｄｏｗ）が設定される。図３の例では、１つのスライディングウィンドウに対してｋ通りの大きさの異なるアンカーボックス（以下、単に「アンカー」とも呼ぶ。）が設定され、各アンカーに対して認識対象物体の有無が検証される。即ち、各アンカーは、すべてのスライディングウィンドウに対してｋ通りずつ設定される部分領域を指す。

　アンカーの数はニューラルネットワークの構造やサイズに依存する。図２において、出力ネットワーク７０の上段は、Ｗ×Ｈ×Ａ個のアンカーに対するクラス情報７１（Ｋ次元。つまり、Ｋ種類の認識対象）を記憶しており、下段はＷ×Ｈ×Ａ個のアンカーに対する座標情報（４次元）を記憶する。ここで、「Ｗ」はアンカー中心の横方向のバリエーション数、「Ｈ」はアンカー中心の縦方向バリエーション数、「Ａ」はアンカーの縦横サイズのバリエーション数を示す。座標情報は、認識対象物が存在する矩形領域の左右、上下４辺の座標情報を絶対値もしくはアンカーに対して一意に定められる基準位置からの相対位置で表してもよいし、上下４辺ではなく左辺と上辺および幅と高さの観点で表してもよい。

　図２に示す出力ネットワーク７０はｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔの１層分に対して設定されたもので、ｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔの別の階層に対しても同様にＫ次元のスコア情報と４次元の座標情報が出力される。以下、ｆｅａｔｕｒｅ　ｐｙｒａｍｉｄ　ｎｅｔのすべての階層に対して設定されるアンカーの数を「Ｎａ」と記すこととする。同一のアンカーに対するスコア情報と座標情報は、それらの情報を記憶するためのメモリの予め定められたメモリ位置に保存されるので、それらを容易に対応づけることができる。

　各学習済みモデル２は、アンカー数×クラス数分のクラス情報７１を出力する。ゲーティングネットワーク３は、学習済みモデル２毎に決定した重みを出力する。演算部４は、各学習済みモデル２から出力されるクラス情報に対して、同一アンカー毎に重み付け和を計算し、クラス情報７２を出力する。クラス情報７２と、予め用意されたクラスの正解値（教師データ）７３との差の二乗和をロスとして定義し、このロスを最小化するように、ゲーティングネットワーク３が出力する重みを学習する。こうして、大規模モデル１が構築される。

　次に、学習が完了した大規模モデル１を用いて、ターゲットモデルを構築する。図４は、大規模モデル１を用いてターゲットモデルを構築するための構成を示す。大規模モデル１は、ゲーティングネットワーク３の学習が完了したものとなっており、ここではターゲットモデル５の学習を行う。ターゲットモデル５には、学習データが入力される。なお、ターゲットモデル５は、学習済みモデル２と同一のモデルで構成する。ターゲットモデル５の学習では、教師データとして、予め用意された正解ラベルに加えて、大規模モデル１が出力する情報が使用される。具体的に、入力された学習データに基づいてターゲットモデル５が出力したクラス情報および座標情報は、その学習データについて予め用意されたクラスの正解値および座標の正解値と比較され、その誤差ａを最小化するようにターゲットモデル５の学習が行われる。これに加えて、ターゲットモデル５が出力したクラス情報および座標情報は、同じ学習データに基づいて大規模モデル１が出力したクラス情報および座標情報と比較され、その誤差ｂを最小化するようにターゲットモデル５の学習が行われる。但し、座標情報の誤差を計算するのは、正解ラベルにおいて物体が存在する位置のアンカーについてのみであり、物体が存在しない位置のアンカーについては座標情報の誤差は「０」とする。

　図５は、学習が完了した大規模モデルを用いて、ターゲットモデルを構築する処理の具体例を模式的に示す。図５の例では、学習済みモデル２をＲｅｔｉｎａＮｅｔにより構成している。なお、図５では、説明の便宜上、クラス情報のみを用いた学習を行うものとする。大規模モデル１は、各学習済みモデル２が出力したクラス情報７１と、ゲーティングネットワーク３が出力した重みとの重み付け和を計算し、クラス情報７６を出力する。一方、ターゲットモデル５は、学習データに基づいてクラス情報７４を出力する。ターゲットモデル５が出力したクラス情報７４と予め用意されたクラスの正解値７５との誤差ａ、および、ターゲットモデルが出力したクラス情報７４と大規模モデル１が出力したクラス情報７６との誤差ｂをロスとし、このロスを最小化するようにターゲットモデル５の学習が行われる。

　このように、本発明の実施形態では、さまざまな環境で学習済みの複数のソースモデルを融合して、環境変動に頑健な大規模モデルを構築する。そして、その大規模モデルの推論結果を教師データとし、新たな現場で収集した学習データを用いてターゲットモデルを学習する。これにより、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。

　［第１実施形態］
　次に、本発明の第１実施形態について説明する。
　（ハードウェア構成）
　図６は、物体検知装置のハードウェア構成を示すブロック図である。図示のように、物体検知装置１０は、インタフェース（ＩＦ）１２と、プロセッサ１３と、メモリ１４と、記録媒体１５と、データベース（ＤＢ）１６と、を備える。

　インタフェース１２は、外部装置との通信を行う。具体的に、インタフェース１２は、物体検知の対象となる画像データや学習用の画像データを外部から入力したり、物体検知の結果を外部装置へ出力する際に使用される。

　プロセッサ１３は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＣＰＵとＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置１０の全体を制御する。メモリ１４は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１４は、プロセッサ１３により実行される各種のプログラムを記憶する。また、メモリ１４は、プロセッサ１３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置１０に対して着脱可能に構成される。記録媒体１５は、プロセッサ１３が実行する各種のプログラムを記録している。物体検知装置１０が学習処理を実行する際には、記録媒体１５に記録されているプログラムがメモリ１４にロードされ、プロセッサ１３により実行される。

　データベース１６は、物体検知装置１０の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは、正解ラベルを含む。なお、上記に加えて、物体検知装置１０は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

　（学習のための機能構成）
　次に、学習のための物体検知装置の機能構成について説明する。図７は、学習のための物体検知装置１０の機能構成を示すブロック図である。物体検知装置１０は、まず複数の物体検知部を含む大規模モデルを学習するステップ（以下、「大規模モデル学習ステップ」と呼ぶ。）を実行し、次に学習済みの大規模モデルを用いてターゲットモデルを学習するステップ（以下、「ターゲットモデル学習ステップ」と呼ぶ。）を実行する。

　図示のように、物体検知装置１０は、大別して、大規模モデル部２０と、ターゲットモデル部３０とを備える。大規模モデル部２０は、画像入力部２１と、重み算出部２２と、第１の物体検知部２３と、第２の物体検知部２４と、積和部２５と、パラメータ修正部２６と、ロス算出部１７と、正解ラベル記憶部２８とを備える。また、ターゲットモデル部３０は、ターゲットモデル物体検知部３１と、ロス算出部３２と、パラメータ修正部３３とを備える。なお、第１の物体検知部２３及び第２の物体検知部２４は、事前に学習済みであり、以下に説明する処理において学習は行わない。上記の構成において、画像入力部２１は図６に示すインタフェース１２により実現され、正解ラベル記憶部２８は図６に示すデータベース１６により実現され、その他の構成要素は図６に示すプロセッサ１３により実現される。

　画像入力部２１には、画像データが入力される。画像データは、学習用の画像データであり、物体検知の対象となるエリアで撮影されたものである。前述のように、各画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。

　第１の物体検知部２３は、例えばＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）、ＲｅｔｉｎａＮｅｔ、Ｆａｓｔｅｒ－ＲＣＮＮ（Ｒｅｇｉｏｎａｌ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などのディープラーニングによる物体検知用のニューラルネットワークに類似する構成を有する。但し、先にも述べたように、第１の物体検知部２３は、ＮＭＳ処理前のアンカーボックス毎に算出された認識対象物体のスコア情報および座標情報をそのまま出力する。なお、前述のように、第１の物体検知部２３は事前に学習済みで、そのパラメータは固定されている。

　第２の物体検知部２４は、第１の物体検知部２３と同様であり、モデルの構造も同一とする。ただし、第１の物体検知部２３と第２の物体検知部２４とは、学習データが異なるか、もしくは学習時のパラメータの初期値が異なるなどの要因により、内部に所持するネットワークのパラメータは一致しておらず、認識特性も異なるものとする。

　重み算出部２２は、内部に有する重み算出のためのパラメータ（以下、「重み算出パラメータ」と呼ぶ。）を最適化する。重み算出部２２は、ＲｅｓＮｅｔなどの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み算出部２２は、画像入力部２１に入力された画像データに基づいて、第１の物体検知部２３と第２の物体検知部２４が出力するスコア情報および座標情報を融合する際の重みを決定し、それぞれの重みを示す情報を積和部２５へ出力する。基本的に、重みの次元数は用いる物体検知部の数に等しい。この場合、重み算出部２２は、第１の物体検知部２３に対する重みと第２の物体検知部２４に対する重みの総和が「１」になるように重みを算出することが好ましい。例えば、重み算出部２２は、第１の物体検知部２３に対する重みを「α」とし、第２の物体検知部２４に対する重みを「１－α」とすればよい。これにより、積和部２５における平均値算出処理を簡略化することができる。なお、物体検知部において、１つの物体に関するパラメータが２つある場合（例えば、ある物体らしいことを示すパラメータと、ある物体らしくないことを示すパラメータ）、重みの次元数は用いる物体検知部の数の２倍となる。

　積和部２５は、第１の物体検知部２３および第２の物体検知部２４が出力するスコア情報および座標情報を、それぞれ対応するアンカー同士で、重み算出部２２が出力する重みに基づき積和した後に平均値を求める。なお、座標情報の積和演算は、正解ラベルに認識対象物体の存在が示されているアンカーに対してのみ行い、それ以外のアンカーに対しては計算不要である。平均値はアンカー毎かつ認識対象物体毎に算出され、Ｎａ×（ｋ＋４）次元となる。積和部２５は、本発明の融合部の一例である。

　正解ラベル記憶部２８は、学習用の画像データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部２８は、正解ラベルとして、各アンカーに存在する認識対象物体のスコア情報、および、座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部２８は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すスコア情報、および座標情報を記憶する。なお、学習用の画像データに対するもともとの正解情報は、入力画像に写っている認識対象物体の種類とその矩形領域を示すテキスト情報である場合が多いが、正解ラベル記憶部２８に記憶されている正解ラベルは、その正解情報をアンカー毎のスコア情報および座標情報に変換したデータとなっている。

　例えば、正解ラベル記憶部２８は、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有するアンカーについては、当該物体のスコアを表す正解ラベルの位置に、スコア情報として当該物体のスコアを示す値１．０を格納し、座標情報として当該アンカーの標準矩形位置に対する当該物体が写っている矩形領域の位置の相対量（左端ｘ座標のずれ量、上端ｙ座標のずれ量、幅のずれ量、高さのずれ量）を格納する。また、正解ラベル記憶部２８は、他の物体のスコアを表す正解ラベルの位置には物体が存在しない旨を示す値を格納する。また、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有さないアンカーに対しては、正解ラベル記憶部２８は、物体のスコアおよび座標情報を格納する正解ラベルの位置に物体が存在しない旨を示す値を格納する。１つのアンカーに対し、スコア情報はｋ次元、座標情報は４次元となる。すべてのアンカーに対しては、スコア情報はＮａ×ｋ次元、座標情報はＮａ×４次元となる。この変換には、広く一般に公開されている物体検知課題向けのディープニューラルネットワークプログラムで使われている手法を適用することができる。

　ロス算出部２７は、積和部２５が出力するＮａ×（ｋ＋４）次元のスコア情報および座標情報と、正解ラベル記憶部２８に記憶されている正解ラベルとを照合してロスを算出する。具体的には、ロス算出部２７は、スコア情報に関する識別ロス、および、座標情報に関する回帰ロス（Ｒｅｇｒｅｓｓｉｏｎ　ｌｏｓｓ）を算出する。積和部２５が出力するＮａ×（ｋ＋４）次元の平均値は、第１の物体検知部２３がアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報と同義である。したがって、ロス算出部２７は、第１の物体検知部２３の出力に対する識別ロスの算出方法と全く等しい方法で識別ロスの値を算出することができる。ロス算出部２７は、すべてのアンカーに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、ロス算出部２７は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。

　なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献として取り込む。
　　”Ｌｅａｒｎｉｎｇ　Ｅｆｆｉｃｉｅｎｔ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ　Ｍｏｄｅｌｓ　ｗｉｔｈ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｔｉｌｌａｔｉｏｎ”，ＮｅｕｒＩＰＳ２０１７
　以下、ロス算出部２７が算出するロスを「大規模モデルロス」とも呼ぶ。なお、ロス算出部２７は本発明の第２のロス算出部に相当し、大規模モデルロスは本発明の第２のロスに相当する。

　パラメータ修正部２６は、ロス算出部２７が算出したロスを減少させるように、重み算出部２２に内在するネットワークのパラメータを修正する。この時、パラメータ修正部２６は、第１の物体検知部２３および第２の物体検知部２４のネットワークのパラメータを固定し、重み算出部２２のパラメータのみを修正する。パラメータ修正部２６は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。

　重み算出部２２は、入力画像に対する各物体検知部の得手・不得手を予測して重みを最適化し、積和部２５は、その重みを各物体検知部の出力に乗じて平均する。よって、単体の物体検知部に比べて高精度な最終判定を行うことができる。例えば、第１の物体検知部２３は単独で歩く歩行者の検知を得意とし、第２の物体検知部２４は集団で歩く歩行者の検知を得意としている場合、入力画像にたまたま単独で歩く人が映っていたならば、重み算出部２２は第１の物体検知部２３により大きな重みを割り当てる。また、パラメータ修正部２６は、学習用の画像データの認識を得意とする物体検知部に対して重み算出部２２が大きな重みを算出するように、重み算出部２２のパラメータを修正する。このようにして重み算出部２２のパラメータを学習することで、第１の物体検知部２３および第２の物体検知部２４の出力を最適に積和し、総合的に判定を行うことができる大規模モデルを構築することが可能となる。

　ターゲットモデル物体検知部３１は、新規に構築されるターゲットモデルの物体検知部である。ターゲットモデル物体検知部３１は、第１の物体検知部２３および第２の物体検知部２４と同一の、物体検知用のニューラルネットワークに類似した構成を有する。ターゲットモデル物体検知部３１は、画像入力部２１に入力された学習用の画像データに基づいて、認識対象物体のスコア情報および座標情報をロス算出部３２に出力する。

　ロス算出部３２は、ターゲットモデル物体検知部３１が出力したスコア情報および座標情報を、ロス算出部２７と同様に、正解ラベル記憶部２８に記憶されている正解ラベルと照合して識別ロスおよび回帰ロスを算出する。さらに、ロス算出部３３は、ターゲットモデル物体検知部３１が出力したスコア情報および座標情報を、積和部２５が出力するスコア情報および座標情報と照合して識別ロスおよび回帰ロスを算出する。積和部２５が出力するスコア情報および座標情報は、大規模モデルによるスコア情報および座標情報に相当する。そして、ロス算出部３２は、算出したロスをパラメータ修正部３３に供給する。

　なお、学習用の画像データは、正解ラベルを有しない画像データ（「ラベルなし画像データ」と呼ぶ。）を含んでいてもよい。ラベルなし画像データについては、ロス算出部３２は、ターゲットモデル物体検知部３１が出力したスコア情報および座標情報を、積和部２５が出力するスコア情報および座標情報と照合して生成した識別ロスおよび回帰ロスのみをパラメータ修正部３３に出力すればよい。以下、ロス算出部３２が算出するロスを「ターゲットモデルロス」とも呼ぶ。なお、ロス算出部３２は本発明の第１のロス算出部に相当し、ターゲットモデルロスは本発明の第１のロスに相当する。

　パラメータ修正部３３は、ロス算出部３２が算出したロスを減少させるように、ターゲットモデル物体検知部３１に内在するネットワークのパラメータを修正する。パラメータ修正部３３は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。

　次に、学習のための物体検知装置１０の動作について説明する。図８は、物体検知装置１０による学習処理のフローチャートである。この処理は、図６に示すプロセッサ１３が予め用意されたプログラムを実行することにより実現される。図８において、ステップＳ１１～Ｓ１８は大規模モデル学習ステップに相当し、ステップＳ１９～Ｓ２４はターゲットモデル学習ステップに相当する。なお、大規模モデル学習ステップの実行中には、ターゲットモデル物体検知部３１、ロス算出部３２およびパラメータ修正部３３は動作しない。

　まず、画像入力部２１に学習用の画像データが入力される（ステップＳ１１）。第１の物体検知部２３は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１２）。同様に、第２の物体検知部２４は、画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１３）。また、重み算出部２２は、画像データを読み込み、第１の物体検知部２３および第２の物体検知部２４の出力それぞれに対する重みを算出する（ステップＳ１４）。

　次に、積和部２５は、アンカー毎に、第１の物体検知部２３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体検知部２４が出力した認識対象物体のスコア情報と座標情報に、重み算出部２２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ１５）。次に、ロス算出部２７は、得られた平均値と正解ラベルとの差を照合し、大規模モデルロスを算出する（ステップＳ１６）。そして、パラメータ修正部２６は、大規模モデルロスの値が減少するように、重み算出部２２に内在する重み算出パラメータを修正する（ステップＳ１７）。

　物体検知装置１０は、上記のステップＳ１１～Ｓ１７を所定の条件の間だけ繰返し、処理を終了する。なお、「所定の条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。こうして、大規模モデルが構築される。

　こうして、大規模モデル学習ステップが終了すると（ステップＳ１８：Ｙｅｓ）、次に、ターゲットモデル学習ステップが行われる。ターゲットモデル学習ステップでは、重み算出部２２の内部パラメータは、大規模モデル学習ステップで学習された値に固定される。なお、第１の物体検知部２３および第２の物体検知部２４の内部パラメータも事前に学習済みの値に固定されている。

　画像入力部２１に学習用の画像データが入力されると（ステップＳ１９）、大規模モデル部２０は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部３２に出力する（ステップＳ２０）。また、ターゲットモデル物体検知部３１は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部３２に出力する（ステップＳ２１）。次に、ロス算出部３２は、ターゲットモデル物体検知部３１が出力したスコア情報および座標情報を、正解ラベル記憶部２８に記憶されている正解ラベル並びに大規模モデル部２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出する（ステップＳ２２）。そして、パラメータ修正部３３は、ターゲットモデルロスの値が減少するように、ターゲットモデル物体検知部３１に内在するパラメータを修正する（ステップＳ２３）。物体検知装置１０は、上記のステップＳ１９～Ｓ２４を所定の条件の間だけ繰返し、処理を終了する。

　以上のように、第１実施形態の物体検知装置１０によれば、まず、複数の学習済みの物体検知部を用いて大規模モデルを学習し、次に、その大規模モデルを用いてターゲットモデルを学習する。よって、新たな現場の環境に適した小規模で高精度なターゲットモデルを構築することが可能となる。

　（推論のための機能構成）
　次に、推論のための物体検知装置の機能構成について説明する。図９は、推論のための物体検知装置４０の機能構成を示すブロック図である。なお、推論のための物体検知装置４０も、基本的に図１に示すハードウェア構成で実現される。

　図９に示すように、推論のための物体検知装置４０は、画像入力部２１と、ターゲットモデル物体検知部３１と、極大値選択部４１と、を備える。ここで、画像入力部２１およびターゲットモデル物体検知部３１は、図７に示す学習のための物体検知装置１０と同様である。なお、ターゲットモデル物体検知部３１は、上記のターゲットモデル学習ステップにより学習済みのものを使用する。

　推論のための画像データが画像入力部２１に入力されると、ターゲットモデル物体検知部３１は、学習済みの内部パラメータを用いて物体検知を行い、認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する。極大値選択部４１は、ターゲットモデル物体検知部３１が出力するＮａ×ｋ次元のスコア情報にＮＭＳ処理を施して認識対象物体の種類を同定し、そのアンカーに対応する座標情報からその位置を特定して物体検知結果を出力する。物体検知結果は、認識対象物体毎に、その種類と位置とを含む。これにより、大規模モデルを利用して学習したターゲットモデル物体検知部３１を使用した物体検知結果を得ることができる。

　（変形例１）
　上記の第１実施形態については、以下の変形例を適用することができる。
（１）上記の第１実施形態では、各物体検知部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。

（２）上記の第１実施形態では、第１の物体検知部２３および第２の物体検知部２４の２つの物体検知部を用いたが、物体検知部は原理上３つ以上でも全く問題ない。その場合は、重み算出部２２が出力する重みの次元数（数）を、物体検知部の数と等しくすればよい。

（３）第１の物体検知部２３および第２の物体検知部２４を構成する具体的なアルゴリズムとしては、物体検知のためのディープラーニング手法であれば何を用いてもよい。また、重み算出部２２としては、回帰問題向けのディープラーニングに限らず、誤差逆伝搬法で学習できる関数、いいかえると、重みを算出する関数のパラメータで誤差関数を偏微分可能な関数、であれば何を用いても構わない。

（４）また、上記の第１実施形態は物体検知装置としたが、物体の検知に限らず、映像中で起きている事象情報とその座標情報を出力する事象検知装置としてもよい。「事象」とは、例えばあらかじめ定めた人物の振る舞いや動作、ジェスチャーのようなものや、土砂崩れや雪崩、河川の水位上昇といった自然現象などを指す。

（５）また、上記の第１実施形態では、第１の物体検知部２３と第２の物体検知部２４とはモデルの構造の等しいものを用いるものとしているが、異なるモデルを用いてもよい。ただし、その場合は、積和部２５にて、略等しい位置に対応する双方のアンカーの対応づけを工夫する必要がある。これは、異なるモデル間のアンカーは、完全一致しないためである。現実的な実装としては、第２の物体検知部２４で設定される各アンカーを第１の物体検知部２３で設定されるアンカーのいずれか１つに対応させ、第１の物体検知部２３で設定されるアンカー毎に重み付け平均を計算し、第１の物体検知部２３で設定されるアンカー毎かつ認識対象物体毎のスコア情報および座標情報を出力するようにすればよい。アンカーの対応の決め方としては、アンカーに対応する画像領域（物体が存在する矩形領域）を求め、その画像領域がもっとも過不足なく重複するアンカー同士を対応付ければよい。

（６）第１実施形態の重み算出部２２は画像全体に対して１通りの重みを設定しているが、その代わりに、重み算出部２２が画像のアンカー毎、即ち部分領域毎に、各物体検知部の出力に対する重みを算出することとしても良い。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、重み算出部２２が出力する倍率を示す情報の次元数はＮａ×Ｎｆ次元となる。重み算出部２２は、多次元の回帰問題に適用できるディープニューラルネットワークなどで構成することができる。また、重み算出部２２は、それぞれの物体検知部に対する近傍のアンカー同士ができるだけ近い重みを持つように、近傍のアンカーに対応する重みを平均化するような構造のネットワークを含んでもよい。

（７）重み算出部２２が、例えばＲｅｔｉｎａＮｅｔのように各物体検知部がクラス毎に異なるバイナリ識別器を持っているならば、アンカー毎ではなくクラス毎に重みを変えられるようにしてもよい。この場合は、重み算出部２２がクラス毎に重みを算出し、パラメータ修正部２６がクラス毎にパラメータを修正すればよい。画像データに設定されるアンカー数をＮａ、物体検知部の数をＮｆとすると、重み算出部２２が出力する重みの次元数はＮａ×Ｎｆ次元である。これに対し、クラス数をＮｃ次元とすると、クラス毎に重みを算出する場合、重み算出部２２が出力する重みの次元数はＮｃ×Ｎｆ次元となる。パラメータ修正部によるクラス毎の重み算出パラメータの学習は、通常のように出力層ニューロン側からロスを最小化するようにバックプロパゲーションを適用すればよい。この構成によれば、例えば、物体検知部毎に検知が得意なクラスが異なる場合、クラス毎に異なる最適な重み付けを行うことが可能となる。

　［第２実施形態］
　次に、本発明の第２実施形態について説明する。なお、以下に説明する学習のための物体検知装置１０ｘは、図６に示すハードウェア構成により実現される。第１実施形態では、まず、大規模モデルを学習し、その後に大規模モデルを用いてターゲットモデルを学習している。これに対し、第２実施形態では、大規模モデルの学習とターゲットモデルの学習を同時に行う。

　（学習のための機能構成）
　図１０は、第２実施形態に係る学習のための物体検知装置１０ｘの機能構成を示すブロック図である。図示のように、第２実施形態に係る学習のための物体検知装置１０ｘでは、ロス算出部３２の出力がパラメータ修正部２６にも供給されている。この点以外は、第２実施形態に係る学習のための物体検知装置１０ｘは、図７に示す第１実施形態の物体検知装置１０と同一であり、各要素は基本的に第１実施形態と同様に動作する。

　第２実施形態では、ロス算出部３２は、ターゲットモデルロスをパラメータ修正部３３のみならず、パラメータ修正部２６にも供給する。パラメータ修正部２６は、ターゲットモデルロスも考慮して、重み算出部２２の重み算出パラメータを修正する。具体的には、パラメータ修正部２６は、大規模モデルロス及びターゲットモデルロスが減少するように、重み算出パラメータを修正する。

　次に、学習のための物体検知装置１０ｘの動作について説明する。図１１は、物体検知装置１０ｘによる学習処理のフローチャートである。この処理は、図６に示すプロセッサ１３が予め用意されたプログラムを実行することにより実現される。図１１に示す学習処理において、ステップＳ４１～Ｓ４６は、図８に示す第１実施形態の物体検知装置１０による学習処理のステップＳ１１～Ｓ１６と同様であるので説明を省略する。

　ステップＳ４６でロス算出部２７が大規模モデルロスを算出すると、ターゲットモデル物体検知部３１は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ４７）。次に、ロス算出部３２は、ターゲットモデル物体検知部３１が出力したスコア情報および座標情報を、正解ラベル並びに大規模モデル部２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出し、パラメータ修正部２６及びパラメータ修正部３３に供給する（ステップＳ４８）。

　パラメータ修正部２６は、大規模モデルロスおよびターゲットモデルロスが減少するように、重み算出部２２の重み算出パラメータを修正する（ステップＳ４９）。また、パラメータ修正部３３は、ターゲットモデルロスが減少するように、ターゲットモデル物体検知部３１に内在するパラメータを修正する（ステップＳ５０）。物体検知装置１０ｘは、上記のステップＳ４１～Ｓ５０を所定の条件の間だけ繰返し、処理を終了する。

　以上のように、第２実施形態の物体検知装置１０によれば、大規模モデルの学習ステップと、ターゲットモデルの学習ステップを同時に実行することができる。よって、新たな現場の環境に適したターゲットモデルを効率的に構築することが可能となる。

　（推論のための機能構成）
　第２実施形態に係る推論のための物体検知装置は、図９に示す第１実施形態に係る推論のための物体検知装置４０と同一であり、同様に動作するので、説明を省略する。

　（変形例）
　第１実施形態における変形例（１）～（７）は、第２実施形態においても同様に適用することができる。

　［第３実施形態］
　次に、本発明の第３実施形態について説明する。図１２は、第３実施形態による、学習のための物体検知装置４０の機能構成を示す。なお、物体検知装置４０は、図１に示すハードウェア構成により実現される。

　物体検知装置５０は、複数の物体検知部５１と、重み算出部５２と、融合部５３と、ターゲットモデルの物体検知部５４と、ロス算出部５５と、パラメータ修正部５６とを備える。複数の物体検知部５１は、入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。重み算出部５２は、画像データに基づいて、複数の物体検知部５１が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する。融合部５３は、重み算出部５２が算出した重みで、複数の物体検知部５１が出力するスコアを部分領域毎に融合する。

　ターゲットモデルの物体検知部５４は、画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する。ロス算出部５５は、ターゲットモデルの物体検知部５４の出力と、画像データの正解ラベルおよび融合部５３が融合したスコアとの差異を示すロスを算出する。そして、パラメータ修正部５６は、そのロスが減少するように、ターゲットモデルの物体検知部５４のパラメータを修正する。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第１のロスを算出する第１のロス算出部と、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第１のパラメータ修正部と、
　を備える物体検知装置。

　（付記２）
　前記正解ラベルと、前記融合部が融合したスコアとの差異を示す第２のロスを算出する第２のロス算出部と、
　前記第２のロスが減少するように、前記重み算出パラメータを修正する第２のパラメータ修正部と、
　を備える付記１に記載の物体検知装置。

　（付記３）
　前記第２のパラメータ修正部は、前記第１のロス及び前記第２のロスに基づいて、前記重み算出パラメータを修正する付記２に記載の物体検知装置。

　（付記４）
　前記画像データは、対応する正解ラベルを有しないラベルなし画像データを含み、
　前記第１のロス算出部は、前記ラベルなし画像データについては、前記ターゲットモデルの物体検知部が出力したスコアと、前記融合部が出力したスコアとの差異を前記第１のロスとして算出する付記１乃至３のいずれか一項に記載の物体検知装置。

　（付記５）
　前記重み算出部は、前記画像データに対して１つの重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記１つの重みで融合する付記１乃至４のいずれか一項に記載の物体検知装置。

　（付記６）
　前記重み算出部は、前記部分領域毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する付記１乃至４のいずれか一項に記載の物体検知装置。

　（付記７）
　前記重み算出部は、前記物体を示すクラス毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記クラス毎に算出された重みで融合する付記１乃至４のいずれか一項に記載の物体検知装置。

　（付記８）
　前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記１乃至７のいずれか一項に記載の物体検知装置。

　（付記９）
　前記複数の物体検知部の各々および前記ターゲットモデルの物体検知部は、前記物体が存在する矩形領域の座標情報を前記部分領域毎に出力し、
　前記融合部は、前記重み算出部が算出した重みで前記座標情報を融合し、
　前記第１のロス算出部は、前記ターゲットモデルの物体検知部の出力と、前記正解ラベルおよび前記融合部が融合したスコアとの差異を示す第１のロスを算出し、
　前記第２のロス算出部は、前記融合部が融合した座標情報と、前記正解ラベルとの差異を含むロスを算出する付記２に記載の物体検知装置。

　（付記１０）
　前記融合部は、前記複数の物体検知部が出力する前記座標情報に、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める付記９に記載の物体検知装置。

　（付記１１）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習方法。

　（付記１２）
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１　大規模モデル
　２　学習済みモデル
　３　ゲーティングネットワーク
　４　演算部
　５　ターゲットモデル
　１０、１０ｘ、４０、５０　物体検知装置
　２１　画像入力部
　２２、５２　重み算出部
　２３、２４、５１　物体検知部
　２５　積和部
　２６、３３、５６　パラメータ修正部
　２７、３２、５５　ロス算出部
　２８　正解ラベル記憶部
　３１　ターゲットモデル物体検知部
　４１　極大値選択部
　５３　融合部

Claims

　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力する複数の物体検知部と、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出する重み算出部と、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合する融合部と、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを出力するターゲットモデルの物体検知部と、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび前記融合部が融合したスコアとの差異を示す第１のロスを算出する第１のロス算出部と、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する第１のパラメータ修正部と、
　を備える物体検知装置。
　前記正解ラベルと、前記融合部が融合したスコアとの差異を示す第２のロスを算出する第２のロス算出部と、
　前記第２のロスが減少するように、前記重み算出パラメータを修正する第２のパラメータ修正部と、
　を備える請求項１に記載の物体検知装置。
　前記第２のパラメータ修正部は、前記第１のロス及び前記第２のロスに基づいて、前記重み算出パラメータを修正する請求項２に記載の物体検知装置。
　前記画像データは、対応する正解ラベルを有しないラベルなし画像データを含み、
　前記第１のロス算出部は、前記ラベルなし画像データについては、前記ターゲットモデルの物体検知部が出力したスコアと、前記融合部が出力したスコアとの差異を前記第１のロスとして算出する請求項１乃至３のいずれか一項に記載の物体検知装置。
　前記重み算出部は、前記画像データに対して１つの重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記１つの重みで融合する請求項１乃至４のいずれか一項に記載の物体検知装置。
　前記重み算出部は、前記部分領域毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記部分領域毎に算出された重みで融合する請求項１乃至４のいずれか一項に記載の物体検知装置。
　前記重み算出部は、前記物体を示すクラス毎に前記重みを算出し、
　前記融合部は、前記複数の物体検知部が出力するスコアを、前記クラス毎に算出された重みで融合する請求項１乃至４のいずれか一項に記載の物体検知装置。
　前記融合部は、前記複数の物体検知部が出力するスコアに、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める請求項１乃至７のいずれか一項に記載の物体検知装置。
　前記複数の物体検知部の各々および前記ターゲットモデルの物体検知部は、前記物体が存在する矩形領域の座標情報を前記部分領域毎に出力し、
　前記融合部は、前記重み算出部が算出した重みで前記座標情報を融合し、
　前記第１のロス算出部は、前記ターゲットモデルの物体検知部の出力と、前記正解ラベルおよび前記融合部が融合したスコアとの差異を示す第１のロスを算出し、
　前記第２のロス算出部は、前記融合部が融合した座標情報と、前記正解ラベルとの差異を含むロスを算出する請求項２に記載の物体検知装置。
　前記融合部は、前記複数の物体検知部が出力する前記座標情報に、前記重み算出部が算出したそれぞれの物体検知部についての重みを乗じて加算した後、平均値を求める請求項９に記載の物体検知装置。
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習方法。
　入力された画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアを複数の物体検知部から出力し、
　前記画像データに基づいて、前記複数の物体検知部が出力するスコアを融合する際の重みを、重み算出パラメータを用いて算出し、
　前記重み算出部が算出した重みで、前記複数の物体検知部が出力するスコアを前記部分領域毎に融合し、
　前記画像データに対して設定される部分領域毎に、予め定めた物体が存在する確からしさを示すスコアをターゲットモデルの物体検知部から出力し、
　前記ターゲットモデルの物体検知部の出力と、前記画像データの正解ラベルおよび融合したスコアとの差異を示す第１のロスを算出し、
　前記第１のロスが減少するように、前記ターゲットモデルの物体検知部のパラメータを修正する、物体検知装置の学習処理をコンピュータに実行させるプログラムを記録した記録媒体。