JPWO2023037494A5

JPWO2023037494A5 - モデル訓練装置、制御方法、及びプログラム

Info

Publication number: JPWO2023037494A5
Application number: JP2023546668A
Authority: JP
Filing date: 2021-09-10
Publication date: 2023-11-10

Description

訓練画像５０と出力画像２０のそれぞれから得られる複数の特徴マップを利用してパッチワイズ損失を算出する場合、例えばパッチワイズ損失は以下の式（３）で表される。

ここで、L は特徴抽出を行うレイヤの集合を表し、l は１つのレイヤを表す。v^l_s は、出力画像２０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ２２に対応する特徴量である。vp^l_s は、訓練画像５０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ５２に対応する特徴量である。vn^l_s は、訓練画像５０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の負例パッチ５４に対応する特徴量の集合である。なお、記号「^」は上付き文字を表している。

Claims

第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、モデル訓練装置。
前記訓練実行部は、前記特定領域の中と外のどちらから前記第１正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第１正例パッチが抽出される確率が、前記特定領域の外から前記第１正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第１正例パッチを前記訓練画像から抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出する、請求項１に記載のモデル訓練装置。
前記訓練実行部は、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行部は、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、請求項１に記載のモデル訓練装置。
前記訓練実行部は、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、請求項３に記載のモデル訓練装置。
前記訓練実行部は、前記パッチワイズ損失を、前記第１正例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１負例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、請求項１から４いずれか一項に記載のモデル訓練装置。
コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、制御方法。
コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、プログラム。
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、モデル訓練装置。
コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、制御方法。
コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、プログラム。