WO2022185473A1

WO2022185473A1 - 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体

Info

Publication number: WO2022185473A1
Application number: PCT/JP2021/008387
Authority: WO
Inventors: 智一金子; 真寺尾
Original assignee: 日本電気株式会社
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-09-09
Also published as: JPWO2022185473A1

Abstract

物体検知モデル生成装置において、前景抽出手段は、入力画像中の前景を抽出し、前景マスクを出力する。学習用画像生成手段は、入力画像及び正解データを含む学習用データセットと、前景マスクとに基づいて、学習用画像を生成して出力する。物体位置推定手段は、物体検知モデルを用いて、学習用画像中の物体の位置を推定して推定結果を出力する。損失計算手段は、推定結果と、正解データとを用いて損失を計算する。学習手段は、損失に基づいて、物体検知モデルのパラメータを更新する。

Description

物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体

　本開示は、画像に含まれる物体を検知する技術に関する。

　物体の撮影画像から物体を検知する技術が知られている。例えば、店舗において顧客が商品棚から商品を取り出す様子をカメラで撮影し、撮影画像からその商品を認識して決済を行うシステムが提案されている。このようなシステムでは、事前に各種の商品の撮影画像を用いて、撮影画像から商品を検知する物体検知モデルを学習する。そして、実際の運用時には、学習済みの物体検知モデルを用いて、各店舗で実際に顧客が手にした商品を特定する。なお、特許文献１は、画像中の物体を認識するためのパラメータを学習するシステムにおいて、背景領域の特徴量を別の値で置換する手法を記載している。

特開２００８－５９１１０号公報

　上記のシステムでは、物体検知モデルの学習に使用する画像を取得する環境と、実際に物体検知モデルを使用して物体の検知を行う店舗などの環境とが異なることがある。物体検知モデルの学習時と推論時で画像の撮影環境が変わると、物体検知モデルによる検知精度が低下する可能性がある。

　本開示の１つの目的は、学習時と推論時の環境の変化などに対して頑健な物体検知モデルを生成することにある。

　本開示の一つの観点では、物体検知モデル生成装置は、
　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
　前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
　を備える。

　本開示の他の観点では、物体検知モデル生成方法は、
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する。

　本開示のさらに他の観点では、記録媒体は、
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録する。

　本開示のさらに他の観点では、物体検知装置は、
　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、を備える。

　本開示のさらに他の観点では、物体検知方法は、
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する。

　本開示のさらに他の観点では、記録媒体は、
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録する。

　本開示によれば、学習時と推論時の環境の変化などに対して頑健な物体検知モデルを生成することが可能となる。

第１実施形態に係る物体検知装置の全体構成を示す。物体検知装置が使用される店舗環境の例を示す。物体検知装置のハードウェア構成を示すブロック図である。学習時の物体検知装置の基本的機能構成を示すブロック図である。第１実施例に係る物体検知装置の機能構成を示すブロック図である。前景マスクの生成例を示す。前景マスクの生成例を示す。第２実施例に係る物体検知装置の機能構成を示すブロック図である。第３実施例に係る物体検出装置の機能構成を示すブロック図である。第４実施例に係る物体検知装置の機能構成を示すブロック図である。物体検知モデルの学習処理のフローチャートである。推論時の物体検知装置の機能構成を示すブロック図である。第２実施形態に係る物体検知装置の学習時の機能構成を示すブロック図である。第２実施形態の物体検知装置の学習処理のフローチャートである。第２実施形態に係る物体検知装置の推論時の機能構成を示すブロック図である。第３実施形態に係る物体検知モデル生成装置の機能構成を示すブロック図である。物体検知モデル生成装置による処理のフローチャートである。第４実施形態に係る物体検知装置の機能構成を示すブロック図である。物体検知装置による処理のフローチャートである。

　以下、図面を参照して、本開示の好適な実施形態について説明する。

　＜第１実施形態＞
　［全体構成］
　図１は、第１実施形態に係る物体検知装置の全体構成を示す。物体検知装置１００は、画像データベース（以下、「データベース」を「ＤＢ」と記す。）３から画像データを取得し、物体検知を行う。物体検知装置１００の学習時には、画像ＤＢ３に学習用データセットが記憶される。一方、物体検知装置１００を実際の店舗などに設置して使用する際、即ち推論時には、画像ＤＢ３に店舗で撮影された画像が記憶される。

　［店舗環境の例］
　図２は、物体検知装置１００が使用される店舗環境の例を示す。店舗には商品棚５が設置されており、商品棚５には各種の商品が陳列されている。顧客は、商品棚５から希望する商品を取り出す。商品棚５の近くにはカメラ２が設置されている。カメラ２は、顧客が商品棚５から商品を取り出す際に、顧客の手元、即ち商品を持っている顧客の手の付近を撮影できるように設定されている。カメラ２が撮影した画像（動画）は、店舗に設置された端末装置４に送られ、端末装置４に接続された画像ＤＢ３に記憶される。物体検知装置１００は、例えば端末装置４又は別の端末装置により実現される。

　［ハードウェア構成］
　図３は、物体検知装置１００のハードウェア構成を示すブロック図である。図示のように、物体検知装置１００は、通信部１０１と、プロセッサ１０２と、メモリ１０３と、記録媒体１０４とを備える。

　通信部１０１は、有線又は無線により画像ＤＢ３と通信し、予め用意された学習用データセットや、店舗のカメラ２で撮影された画像などを取得する。プロセッサ１０２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置１００の全体を制御する。なお、プロセッサ１０２は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）であってもよい。具体的に、プロセッサ１０２は、後述する学習処理を実行する。

　メモリ１０３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１０３は、プロセッサ１０２による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１０４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置１００に対して着脱可能に構成される。記録媒体１０４は、プロセッサ１０２が実行する各種のプログラムを記録している。物体検知装置１００が各種の処理を実行する際には、記録媒体１０４に記録されているプログラムがメモリ１０３にロードされ、プロセッサ１０２により実行される。

　［物体検知装置の学習］
　次に、物体検知装置１００の学習について説明する。

　（学習時の基本構成）
　図４は、物体検知装置１００の学習時の基本的な機能構成を示す。物体検知装置１００は、学習用画像生成部１０と、前景抽出部２０と、物体位置推定部３０と、損失計算部４０とを備える。学習用画像生成部１０及び前景抽出部２０には、学習用データセットに含まれる入力画像が入力される。

　学習用データセットは、物体検知装置１００の学習用に予め用意されたものであり、入力画像と正解データとを含む。入力画像は、検知の対象となる物体を含む動画であり、例えば人が商品を手に取った状態の手元を撮影した動画である。好適には、入力画像として、検知対象となる商品をカメラの前で回転させる様子を撮影した画像などが使用される。正解データは、各入力画像に含まれる物体を示す矩形の位置（以下、「矩形位置」と呼ぶ。）と、その物体のクラスとを含む。矩形位置は、入力画像における矩形の位置を示す座標などにより示される。また、物体のクラスは、その物体が何であるかを示すコードなどである。

　前景抽出部２０は、学習用データセットに含まれる入力画像から、動いている物体のみを前景として抽出する。前景抽出部２０は、例えば背景差分モデルを用いて、入力画像を構成する複数のフレーム画像を比較し、変化の大きい画素及びその周辺のみを前景として抽出し、前景マスク１ｃｈ画像（以下、「前景マスク」と呼ぶ。）を生成して学習用画像生成部１０へ出力する。前景マスクは、例えば画像の前景領域と背景領域を２値で示す画像である。なお、背景差分手法の一例が下記の文献に記載されており、この文献を参照により援用する。

　Z. Zivkovic, "Improved adaptive Gaussian mixture model for background subtraction," Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004., Cambridge, UK, 2004, pp. 28-31 Vol.2, doi: 10.1109/ICPR.2004.1333992.

　学習用画像生成部１０は、学習用データセットに含まれる入力画像と、前景抽出部２０から入力された前景マスクとを用いて、入力画像の前景を抽出した学習用画像を生成し、物体位置推定部３０へ出力する。学習用画像は、物体位置推定部３０の学習に使用される画像である。なお、学習用画像生成部１０の詳細については後述する。

　物体位置推定部３０は、物体検知モデルを用いて、入力された画像に含まれる物体を検知する。具体的に、物体位置推定部３０は、物体検知モデルを用いて、学習用画像生成部１０から入力された学習用画像に含まれる物体の矩形位置と、その物体のクラスとを推定する。物体検知モデルは、例えばＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などを用いたニューラルネットワークにより構成される。物体位置推定部３０は、推定した矩形位置及びクラスを損失計算部４０へ出力する。

　損失計算部４０は、物体位置推定部３０による推定結果に基づいて損失を計算する。損失計算部４０は、学習用データセットに含まれる正解データと、物体位置推定部３０による推定結果とを用いて損失を計算する。具体的に、損失計算部４０は、物体位置推定部３０が推定した矩形位置及びクラスと、正解データに含まれる物体の矩形位置及びクラスとを用いて損失を計算する。そして、損失計算部４０は、計算された損失が小さくなるように、物体位置推定部３０の物体検知モデルのパラメータを更新する。こうして、損失の値が所定値以下に収束するまで物体検知モデルのパラメータが更新され、損失の値が収束した時点で物体検知モデルの学習が終了する。学習が終了した時点における物体検知モデルが、学習済みの物体検知モデルとして得られる。

　このように、物体検知装置１００は、入力画像から前景を抽出した学習用画像を用いて物体検知モデルの学習を行うので、学習時と推論時で撮影環境が変化して背景が変わったような場合でも、物体検知精度の低下を防止することができる。

　上記の構成において、学習用画像生成部１０は学習用画像生成手段の一例であり、前景抽出部２０は前景抽出手段の一例であり、物体位置推定部３０は物体位置推定手段の一例であり、損失計算部４０は損失計算手段及び学習手段の一例である。

　（第１実施例）
　図５は、第１実施例に係る物体検知装置１００ａの機能構成を示すブロック図である。第１実施例では、学習用画像生成部１０は、背景マスク処理部１１を備え、入力画像の背景をマスクして学習用画像を生成する。

　まず、前景抽出部２０は、学習用データセットに含まれる入力画像であるＲＧＢ３チャンネル（ｃｈ）画像から前景を抽出し、前景マスクを生成して学習用画像生成部１０へ出力する。

　図６は、前景マスクの生成例を示す。図６（Ａ）は、入力画像のあるフレーム画像の例である。このフレーム画像では、中央に物体（ペットボトル飲料）を持った人の手元が映っている。また、物体の右側には商品棚５が映っており、人の腕及び物体の背後には別の商品棚８が映っている。前景抽出部２０は、入力画像の複数のフレーム画像から、動きの大きい領域、例えば図６（Ｂ）に示すように人の腕及び物体の領域を前景として抽出する。そして、前景抽出部２０は、図７（Ａ）に例示するように、前景と背景とを区別して示す前景マスクを生成し、学習用画像生成部１０へ出力する。図７（Ａ）の例では、前景マスクは、前景領域を「１」（白）で示し、背景領域を「０」（黒）で示す画像である。

　学習用画像生成部１０の背景マスク処理部１１は、前景マスクを用いて、ＲＧＢ３ｃｈ画像の背景をマスクした背景マスク画像（動画）を生成し、物体位置推定部３０へ出力する。ＲＧＢ３ｃｈ画像は、例えば図６（Ａ）に示すように前景と背景を含む動画である。背景マスク処理部１１は、図７（Ａ）に示す前景マスクを用いて、ＲＧＢ３ｃｈ画像の背景をマスクし、図７（Ｂ）に示すような背景マスク画像（動画）を生成する。こうして、学習用画像生成部１０は、入力画像の前景を抽出した学習用画像を生成し、物体位置推定部３０へ出力する。この学習用画像を用いて、物体位置推定部３０を構成する物体検知モデルの学習が行われる。

　（第２実施例）
　第２実施例では、第１実施例における背景マスク画像の背景を、入力画像の背景とは別の背景に置き換えた画像を生成し、学習用画像として使用する。図８は、第２実施例に係る物体検知装置１００ｂの機能構成を示すブロック図である。第２実施例では、学習用画像生成部１０は、背景マスク処理部１１と、背景合成部１２とを備える。背景合成部１２以外では、第２実施例の物体検知装置１００ｂは第１実施例の物体検知装置１００ａと同様である。

　背景合成部１２は、背景マスク処理部１１が生成した背景マスク画像の背景を、元の画像、即ち、背景マスク処理部１１に入力されたＲＧＢ３ｃｈ画像の背景とは別の背景に置き換える。具体的には、合成すべき別の背景画像を予め用意しておき、背景合成部１２は、背景マスク処理部１１が出力した背景マスク画像の背景領域に別の背景画像を合成して、背景が変更された画像（以下、「背景合成画像」と呼ぶ。）を生成する。そして、背景合成部１２は、背景合成画像を物体位置推定部３０へ出力する。こうして、背景合成画像を学習用画像として用いて、物体位置推定部３０を構成する物体検知モデルの学習が行われる。

　第２実施例では、背景マスク画像の背景を多様な画像に置き換えることにより、前景はそのままで、背景を多様に変化させた学習用画像を生成することができる。これにより、物体検知モデルの学習に使用する学習用画像の数を増やすことができる。また、多様な画像を背景とした学習用画像を生成して、物体検知モデルを学習することができる。

　（第３実施例）
　第３実施例は、学習用データセットに含まれるＲＧＢ３ｃｈ画像と、そのＲＧＢ３ｃｈ画像から前景を取り出した画像とを統合して学習用画像として使用するものである。図９は、第３実施例に係る物体検出装置１００ｃの機能構成を示すブロック図である。図示のように、第３実施例では、学習用画像生成部１０は、前景画像取り出し部１３と、結合処理部１４とを備える。また、物体位置推定部３０は、矩形・クラススコア推論部３１を備える。なお、図９では物体位置推定部３０について矩形・クラススコア推論部３１を図示しているが、物体位置推定部３０の構成は基本的に第１、第２実施例と同様である。また、前景抽出部２０及び損失計算部４０も第１、第２実施例と同様である。

　学習用画像生成部１０の前景画像取り出し部１３は、前景抽出部２０から入力される前景マスクを用いて、ＲＧＢ３ｃｈ画像から前景領域を取り出した３ｃｈの前景取り出し画像（動画）を生成し、結合処理部１４へ出力する。前景取り出し画像は、例えば、図６（Ｂ）に示すような画像となる。

　結合処理部１４は、ＲＧＢ３ｃｈ画像と、前景画像取り出し部１３が生成した３ｃｈの前景取り出し画像とを受け取り、それらを結合してＲＧＢｆ６ｃｈ画像（「ｆ」は前景を意味する。）を生成し、これを学習用画像として物体位置推定部３０へ出力する。即ち、第３実施例では、学習用画像は、元のＲＧＢ３ｃｈ画像と、それらから前景を取り出した３ｃｈの前景取り出し画像とを含む画像となる。

　物体位置推定部３０は、学習用画像中の物体の矩形位置及びクラスを推定し、推定結果として損失計算部４０へ出力する。具体的には、物体位置推定部３０の矩形・クラススコア推論部３１は、物体検知モデルを用いて、学習用画像中の物体の矩形位置及びクラススコアを算出し、損失計算部４０へ出力する。矩形・クラススコア推論部３１に相当する物体検知モデルは、前述のようにニューラルネットワークなどにより構成される。ここで、第１及び第２実施例では、学習用画像が３ｃｈの背景マスク画像又は背景合成画像であるので、３ｃｈの入力画像に対応するニューラルネットワークを用いて物体位置推定部３０が構成されている。これに対し、第３実施例では学習用画像がＲＧＢｆ６ｃｈ画像であるため、矩形・クラススコア推論部３１は、６ｃｈの入力画像に対応するように畳み込みパラメータなどが変更されたニューラルネットワークにより構成される。

　損失計算部４０は、物体位置推定部３０から入力された推定結果、即ち、矩形位置とクラススコアを、学習用データセットに含まれる正解データと比較して損失を計算し、得られた損失が小さくなるように物体検知モデルのパラメータを更新する。こうして、学習用画像を用いて物体検知モデルが学習される。

　第１及び第２実施例では、前景抽出部２０が抽出した前景マスクを用いて元のＲＧＢ３ｃｈ画像の背景をマスクしてしまうので、前景抽出部２０による前景の抽出に誤差があるような場合には、元のＲＧＢ画像の前景の一部が誤ってマスクされてしまう可能性がある。この点、第３実施例では、上記のように学習用画像が元のＲＧＢ３ｃｈ画像と、３ｃｈの前景取り出し画像とを含み、物体検知モデルはこれら６ｃｈの画像を用いて物体の検知を行う。即ち、物体検知モデルは、元のＲＧＢ３ｃｈ画像も用いて物体検知を行うので、前景抽出部２０による前景の抽出に誤差がある場合でも、その誤差の影響を低減できる。

　なお、上記の第３実施例では、結合処理部１４はＲＧＢ３ｃｈ画像と、３ｃｈの前景取り出し画像とを結合し、学習用画像としてＲＧＢｆ６ｃｈ画像を生成している。その代わりに、図９に破線１７で示すように、前景抽出部２０が出力する前景マスクを結合処理部１４に直接入力し、結合処理部１４がＲＧＢ３ｃｈ画像と、前景マスクとを結合した４ｃｈの画像を学習用画像として出力してもよい。この場合、前景画像取り出し部１３は不要となる。

　また、前景抽出部２０が前景マスクの代わりに１ｃｈの注視領域画像を生成し、結合処理部１４に入力してもよい。注視領域画像とは、マスク画像のように１ビットではなく、多ビット（グレースケール）によって前景と背景を区別する画像である。この場合、結合処理部１４は、ＲＧＢ３ｃｈ画像と、１ｃｈの注視領域画像とを結合した４ｃｈの画像を学習用画像として出力する。多ビットの注視領域画像を用いることにより、前景マスクを用いる場合と比較して、前景の輪郭領域をより正確に抽出することが可能となる。

　（第４実施例）
　第４実施例では、学習用画像として、元のＲＧＢ３ｃｈ画像と、３ｃｈの前景取り出し画像とが個別に物体位置推定部３０に入力され、それぞれに基づいて物体検知が個別に行われる。図１０は、第４実施例に係る物体検知装置１００ｄの機能構成を示すブロック図である。第４実施例では、物体位置推定部３０内に２つの矩形・クラススコア推論部３１、３２を設ける。また、損失計算部４０は、個別損失計算部４１、４２と、損失結合部４３とを備える。

　学習用データセットに含まれるＲＧＢ３ｃｈ画像と、前景画像取り出し部１３が生成した３ｃｈの前景取り出し画像は、学習用画像として個別に物体位置推定部３０に入力される。物体位置推定部３０では、矩形・クラススコア推論部３１はＲＧＢ３ｃｈ画像から物体を検知し、矩形位置及びクラススコアを推定結果として個別損失計算部４１へ出力する。一方、矩形・クラススコア推論部３２は、３ｃｈの前景取り出し画像から物体を検知し、矩形位置及びクラススコアを推定結果として個別損失計算部４２へ出力する。

　損失計算部４０では、個別損失計算部４１は矩形・クラススコア推論部３１が出力した推定結果に基づいて損失を計算し、損失結合部４３へ出力する。また、個別損失計算部４２は、矩形・クラススコア推論部３２が出力した推定結果に基づいて損失を計算し、損失結合部４３へ出力する。損失結合部４３は、個別損失計算部４１及び４２が計算した損失を結合し、得られた損失に基づいて物体位置推定部３０における物体検知モデル、具体的には矩形・クラススコア推論部３１及び３２のパラメータを更新する。なお、損失結合部４３は、ハイパーパラメータとして設定された重みを用いて、個別損失計算部４１及び４２が計算した損失を結合してもよい。こうして、学習用画像に基づいて物体位置推定部３０内の物体検知モデルが学習される。

　（学習処理）
　図１１は、物体検知モデルの学習処理のフローチャートである。この処理は、図３に示すプロセッサ１０２が予め用意されたプログラムを実行し、図４に示す各要素として動作することにより実現される。

　まず、学習用データセットの入力画像が前景抽出部２０と学習用画像生成部１０に入力される（ステップＳ１１）。前景抽出部２０は、予め用意された背景差分モデルを用いて入力画像から前景を抽出し、前景マスクを学習用画像生成部１０へ出力する（ステップＳ１２）。学習用画像生成部１０は、入力画像と前景マスクとを用いて学習用画像を生成し、物体位置推定部３０へ出力する（ステップＳ１３）。なお、この場合の学習用画像は、前述の第１～第４実施例のいずれかに従って生成される。

　物体位置推定部３０は、物体検知モデルを用いて学習用画像から物体を検知し、物体の矩形位置及びクラススコアを含む推定結果を損失計算部４０へ出力する（ステップＳ１４）。具体的には、物体位置推定部３０は、学習用画像に含まれる物体を示す矩形位置及びクラススコアを推定結果として出力する。

　損失計算部４０は、入力された推定結果と、学習用データセットに含まれる正解データとを用いて損失を計算する（ステップＳ１５）。そして、損失計算部４０は、損失が所定値以下に収束したか否かを判定する（ステップＳ１６）。損失が収束していない場合（ステップＳ１６：Ｎｏ）、損失計算部４０は、損失が小さくなるように物体位置推定部３０を構成する物体検知モデルのパラメータを更新する（ステップＳ１７）。そして、処理はステップＳ１１へ戻る。一方、損失が収束した場合（ステップＳ１６：Ｙｅｓ）、処理は終了する。

　［物体検知装置による推論］
　次に、物体検知装置による推論について説明する。図１２は、推論時の物体検知装置１１０の機能構成を示すブロック図である。推論時の物体検知装置１１０は、対象画像生成部１０ｘと、前景抽出部２０と、物体位置推定部３０ｘとを備える。

　推論時には、物体検知の対象となる画像（動画）（以下、「対象画像」と呼ぶ。）が対象画像生成部１０ｘ及び前景抽出部２０へ入力される。前景抽出部２０は、学習時と同様の構成を有し、対象画像から前景を抽出し、前景マスクを対象画像生成部１０ｘへ出力する。

　対象画像生成部１０ｘは、基本的に学習時における学習用画像生成部１０と同様の構成を有する。具体的には、対象画像生成部１０ｘは、前述の第１～第４実施例のうち、学習時の学習用画像生成部１０に適用した実施例と同様の構成を有する。対象画像生成部１０ｘは、対象画像と前景マスクとを用いて、学習用画像生成部１０と同様の手法で対象画像を生成し、物体位置推定部３０ｘへ出力する。

　物体位置推定部３０ｘは、前述の学習処理により生成された学習済みの物体検知モデルを用いて、対象画像から物体を検知する。具体的に、物体位置推定部３０は、入力された対象画像から物体の矩形位置及びクラススコアを推定し、推定結果を出力する。

　上記の構成において、対象画像生成部１０ｘは対象画像生成手段の一例であり、前景抽出部２０は前景抽出手段の一例であり、物体位置推定部３０ｘは物体位置推定手段の一例である。

　［第１実施形態による効果］
　以上のように、第１実施形態の物体検知装置では、学習用データセットの入力画像から抽出された前景マスクを用いて学習用画像を生成し、物体検知モデルの学習を行うので、画像の撮影環境の変化や新たな物体の出現などに影響されにくい物体検知モデルを生成することができる。よって、推論時にその物体検知モデルを用いることにより、環境変化などに頑健な物体検知が可能となる。

　＜第２実施形態＞
　次に、物体検知装置の第２実施形態について説明する。第２実施形態の物体検知装置は、画像に含まれる人間の手の影響を排除するものである。なお、第２実施形態に係る物体検知装置のハードウェア構成は、図３に示す第１実施形態のものと同様である。

　［物体検知装置の学習］
　（機能構成）
　図１３は、第２実施形態に係る物体検知装置の学習時の機能構成を示すブロック図である。第２実施形態の物体検知装置２００は、図４に示す第１実施形態の物体検知装置１００に対して、手領域推定部５０を付加したものである。なお、学習用画像生成部１０、前景抽出部２０、物体位置推定部３０及び損失計算部４０は第１実施形態の物体検知装置１００と同様である。

　手領域推定部５０には、前景抽出部２０及び学習用画像生成部１０と同様に、学習用データセットの入力画像が入力される。手領域推定部５０は、予め用意された手領域推定モデルを用いて、入力画像中の手領域、即ち人の手の領域を推定し、手領域を示す画像（以下、「手領域画像」と呼ぶ。）を学習用画像生成部１０へ出力する。なお、手領域推定部５０は手領域推定手段の一例である。

　学習用画像生成部１０は、学習用データセットの入力画像と、前景抽出部２０から入力された前景マスクと、手領域推定部５０から入力された手領域画像とを用いて、学習用画像を生成する。具体的に、学習用画像生成部１０は、前景マスクが示す背景に対して行う処理と同様の処理を、手領域画像が示す手領域に対しても行う。これにより、学習用画像生成部１０は、入力画像における背景と、手領域とを除去した学習用画像を生成する。

　具体的に、学習用画像生成部１０には、第１実施形態の第１～第４実施例のいずれかを適用することができる。第１実施例を適用した場合、学習用画像生成部１０は、入力画像の背景及び手領域をマスクした画像を学習用画像として生成する。第２実施例を適用した場合、学習用画像生成部１０は、入力画像の背景及び手領域を別の背景に置き換えた画像を学習用画像として生成する。第３実施例を適用した場合、学習用画像生成部１０は、学習用データセットに含まれるＲＧＢ３ｃｈ画像と、そのＲＧＢ３ｃｈ画像から背景及び手領域を除いた３ｃｈの画像を結合したＲＧＢｆ６ｃｈ画像を学習用画像として生成する。また、第４実施例を適用した場合、学習用画像生成部１０は、学習用データセットに含まれるＲＧＢ３ｃｈ画像と、そのＲＧＢ３ｃｈ画像から背景及び手領域を除いた３ｃｈの画像をそれぞれ学習用画像として出力する。

　なお、手領域推定部５０は入力画像中の手領域を推定して入力画像から排除しているが、手以外の前景として抽出されうる領域を推定し、排除してもよい。例えば、入力画像に腕、足などの領域が含まれる場合には、手領域に加えて、人骨格推定モデルなどを用いて腕や足などの領域を推定し、入力画像から除去してもよい。また、服の袖などを推定する領域推定モデルを予め学習しておき、入力画像から服の袖などの領域を推定し、除外してもよい。

　（学習処理）
　図１４は、物体検知装置２００の学習処理のフローチャートである。この処理は、図３に示すプロセッサ１０２が予め用意されたプログラムを実行し、図１３に示す各要素として動作することにより実現される。

　まず、学習用データセットの入力画像が、前景抽出部２０と、学習用画像生成部１０と、手領域推定部５０とに入力される（ステップＳ２１）。前景抽出部２０は、予め用意された背景差分モデルを用いて入力画像から前景を抽出し、前景マスクを学習用画像生成部１０へ出力する（ステップＳ２２）。また、手領域推定部５０は、入力画像における手領域を推定し、手領域画像を学習用画像生成部１０へ出力する（ステップＳ２３）。

　学習用画像生成部１０は、入力画像と、前景マスクと、手領域画像とを用いて学習用画像を生成し、物体位置推定部３０へ出力する（ステップＳ２４）。ステップＳ２５～Ｓ２８の処理は、図１１に示す第１実施形態の学習処理のステップＳ１４～Ｓ１７と同様であるので、説明を省略する。

　［物体検知装置による推論］
　次に、物体検知装置による推論について説明する。図１５は、推論時の物体検知装置２１０の機能構成を示すブロック図である。推論時の物体検知装置２１０は、対象画像生成部１０ｘと、前景抽出部２０と、物体位置推定部３０ｘと、手領域推定部５０とを備える。

　推論時には、物体検知の対象である対象画像（動画）が対象画像生成部１０ｘ、前景抽出部２０及び手領域推定部５０へ入力される。前景抽出部２０は、学習時と同様の構成を有し、対象画像から前景を抽出し、前景マスクを対象画像生成部１０ｘへ出力する。手領域推定部５０は、学習時と同様の構成を有し、対象画像の手領域を推定する。

　対象画像生成部１０ｘは、基本的に学習時における学習用画像生成部１０と同様の構成を有する。対象画像生成部１０ｘは、対象画像と、前景マスクと、手領域画像とを用いて、学習用画像生成部１０と同様の手法で対象画像を生成し、物体位置推定部３０ｘへ出力する。

　物体位置推定部３０ｘは、前述の学習処理により生成された学習済みの物体検知モデルを用いて、対象画像から物体を検知する。具体的に、物体位置推定部３０は、入力された対象画像から、物体の矩形位置及びクラススコア推定し、推定結果を出力する。

　［第２実施形態による効果］
　以上のように、第２実施形態の物体検知装置では、学習用データセットの入力画像から手領域を推定し、手領域を除いた学習用画像を生成して物体検知モデルの学習を行う。これにより、物体を持つ手が前景として誤検知されることを防止できる。

　＜第３実施形態＞
　次に、本開示の第３実施形態について説明する。図１６は、第３実施形態に係る物体検知モデル生成装置の機能構成を示すブロック図である。物体検知モデル生成装置７０は、前景抽出手段７１と、学習用画像生成手段７２と、物体位置推定手段７３と、損失計算手段７４と、学習手段７５とを備える。

　図１７は、物体検知モデル生成装置７０による処理のフローチャートである。前景抽出手段７１は、入力画像中の前景を抽出し、前景マスクを出力する（ステップＳ４１）。学習用画像生成手段７２は、入力画像及び正解データを含む学習用データセットと、前景マスクとに基づいて、学習用画像を生成して出力する（ステップＳ４２）。物体位置推定手段７３はと、物体検知モデルを用いて、学習用画像中の物体の位置を推定して推定結果を出力する（ステップＳ４３）。損失計算手段７４は、推定結果と、正解データとを用いて損失を計算する（ステップＳ４４）。学習手段７５は、損失に基づいて、物体検知モデルのパラメータを更新する（ステップＳ４５）。

　第３実施形態の物体検知モデル生成装置７０によれば、画像の撮影環境の変化や新たな物体の出現などに影響されにくい物体検知モデルを生成することができる。

　＜第４実施形態＞
　次に、本開示の第４実施形態について説明する。図１８は、第４実施形態に係る物体検知装置の機能構成を示すブロック図である。物体検知装置８０は、前景抽出手段８１と、対象画像生成手段８２と、物体位置推定手段８３とを備える。

　図１９は、物体検知装置８０による処理のフローチャートである。前景抽出手段８１は、入力画像中の前景を抽出し、前景マスクを出力する（ステップＳ５１）。対象画像生成手段８２は、入力画像と、前景マスクとに基づいて対象画像を生成して出力する（ステップＳ５２）。物体位置推定手段８３は、学習済みの物体検知モデルを用いて、対象画像に含まれる物体の位置を推定して推定結果を出力する（ステップＳ５３）。

　第４実施形態の物体検知装置８０によれば、環境変化などに頑健な物体検知が可能となる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
　前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
　を備える物体検知モデル生成装置。

　（付記２）
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景をマスクした画像を前記学習用画像として生成する付記１に記載の物体検知モデル生成装置。

　（付記３）
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景を別の背景に置き換えた画像を前記学習用画像として生成する付記１に記載の物体検知モデル生成装置。

　（付記４）
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像から前景を抽出した画像と、前記入力画像とを結合して前記学習用画像を生成する付記１に記載の物体検知モデル生成装置。

　（付記５）
　前記学習用画像生成手段は、前記前景マスクと前記入力画像とを結合して前記学習用画像を生成する付記１に記載の物体検知モデル生成装置。

　（付記６）
　前記学習用画像生成手段は、前記入力画像と、前記前景マスクを用いて前記入力画像から前景を取り出した前景取り出し画像とを前記学習用画像として出力し、
　前記物体位置推定手段は、前記入力画像を用いて物体の位置を推定して第１の推定結果を出力し、前記前景取り出し画像を用いて物体の位置を推定して第２の推定結果を出力し、
　前記損失計算手段は、前記第１の推定結果と前記正解データを用いて第１の損失を計算し、前記第２の推定結果と前記正解データを用いて第２の損失を計算し、前記第１の損失と前記第２の損失を結合して前記損失を計算する付記１に記載の物体検知モデル生成装置。

　（付記７）
　前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
　前記学習用画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、学習用画像を生成して出力する付記１に記載の物体検知モデル生成装置。

　（付記８）
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する物体検知モデル生成方法。

　（付記９）
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　（付記１０）
　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、
　を備える物体検知装置。

　（付記１１）
　前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
　前記対象画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、前記対象画像を生成して出力する付記１０に記載の物体検知装置。

　（付記１２）
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体検知方法。

　（付記１３）
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　３　画像データベース
　１０　学習用画像生成部
　１０ｘ　対象画像生成部
　１１　背景マスク処理部
　１２　背景合成部
　１３　前景画像取り出し部
　１４　結合処理部
　２０　前景抽出部
　３０、３０ｘ　物体位置推定部
　３１、３２　矩形・クラススコア推論部
　４０　損失計算部
　５０　手領域推定部
　１０２　プロセッサ

Claims

　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
　前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
　を備える物体検知モデル生成装置。
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景をマスクした画像を前記学習用画像として生成する請求項１に記載の物体検知モデル生成装置。
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景を別の背景に置き換えた画像を前記学習用画像として生成する請求項１に記載の物体検知モデル生成装置。
　前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像から前景を抽出した画像と、前記入力画像とを結合して前記学習用画像を生成する請求項１に記載の物体検知モデル生成装置。
　前記学習用画像生成手段は、前記前景マスクと前記入力画像とを結合して前記学習用画像を生成する請求項１に記載の物体検知モデル生成装置。
　前記学習用画像生成手段は、前記入力画像と、前記前景マスクを用いて前記入力画像から前景を取り出した前景取り出し画像とを前記学習用画像として出力し、
　前記物体位置推定手段は、前記入力画像を用いて物体の位置を推定して第１の推定結果を出力し、前記前景取り出し画像を用いて物体の位置を推定して第２の推定結果を出力し、
　前記損失計算手段は、前記第１の推定結果と前記正解データを用いて第１の損失を計算し、前記第２の推定結果と前記正解データを用いて第２の損失を計算し、前記第１の損失と前記第２の損失を結合して前記損失を計算する請求項１に記載の物体検知モデル生成装置。
　前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
　前記学習用画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、学習用画像を生成して出力する請求項１に記載の物体検知モデル生成装置。
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する物体検知モデル生成方法。
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
　物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
　前記推定結果と、前記正解データとを用いて損失を計算し、
　前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
　入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、
　を備える物体検知装置。
　前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
　前記対象画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、前記対象画像を生成して出力する請求項１０に記載の物体検知装置。
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体検知方法。
　入力画像中の前景を抽出し、前景マスクを出力し、
　前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
　学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。