WO2023152882A1

WO2023152882A1 - モデル訓練装置、モデル訓練方法、及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2023152882A1
Application number: PCT/JP2022/005395
Authority: WO
Inventors: 哲夫井下; 裕一中谷
Original assignee: 日本電気株式会社
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-08-17

Abstract

モデル訓練装置（２０００）は、第１環境下のシーンを表す第１訓練画像（５２）と、第１訓練画像（５２）に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報（５４）とを含む第１訓練データセット（５０）を取得する。モデル訓練装置（２０００）は、画像変換モデル（１００）に対して第１訓練画像（５２）を入力して、第２環境下のシーンを表す出力画像（２０）を取得し、その出力画像（２０）を識別モデル（２００）に入力して、識別データ（４０）を取得し、識別データ（４０）と第１クラス情報（５４）を用いて画像変換モデル（１００）を訓練する。識別データ（４０）は、識別モデル（２００）に入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す。

Description

モデル訓練装置、モデル訓練方法、及び非一時的なコンピュータ可読媒体

　本開示は、画像の変換を行うモデルを訓練する技術に関する。

　入力された画像に基づいて別の画像を生成するモデル、すなわち、画像の変換を行うモデルが開発されている。例えば非特許文献１には、馬の画像をシマウマの画像に変換するなどのように、入力画像を別のクラスの画像に変換するモデルが開示されている。

Taesung Park、Alexei A. Efros、Richard Zhang、及び Jun-Yan Zhu、「Contrastive Learning for Unpaired Image-to-Image Translation」、［online］、２０２０年８月２０日、arXiv、［２０２２年１月３１日検索］、インターネット＜URL: https://arxiv.org/pdf/2007.15651.pdf＞ Taesung Park、Ming-Yu Liu、Ting-Chun Wang、及び Jun-Yan Zhu、「Semantic Image Synthesis with Spatially-Adaptive Normalization」、２０１９年１１月５日、arXiv、［２０２２年１月３１日検索］、インターネット＜URL: https://arxiv.org/pdf/1903.07291.pdf＞ Vadim Sushko、Edgar Schonfeld、Dan Zhang、Juergen Gall、Bernt Schiele、及び Anna Khoreva、「You Only Need Adversarial Supervision for Semantic Image Synthesis」、［online］、２０２１年３月１９日、arXiv、［２０２２年１月３１日検索］、インターネット＜URL: https://arxiv.org/pdf/2012.04781.pdf＞ Jun-Yan Zhu、Taesung Park、Phillip Isola、及び Alexei A. Efros、「Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks」、２０２０年８月２４日、arXiv、［２０２２年１月３１日検索］、インターネット＜URL: https://arxiv.org/pdf/2007.15651.pdf＞

　非特許文献１では、画像の変換の際に、物体のクラスが変換されてしまう。本開示は上記の課題に鑑みてなされたものであり、その目的の一つは、画像の変換を行うモデルを訓練するための新たな技術を提供することである。

　本開示のモデル訓練装置は、第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得手段と、前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行手段と、を有する。
　前記訓練実行手段は、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新する。
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す。

　本開示のモデル訓練方法は、コンピュータによって実行される。当該モデル訓練方法は、第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得ステップと、前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行ステップと、を有する。
　前記訓練実行ステップにおいて、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新する。
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す。

　本開示のコンピュータ可読媒体は、本開示のモデル訓練方法をコンピュータに実行させるプログラムを格納している。

　本開示によれば、画像の変換を行うモデルを訓練するための新たな技術が提供される。

モデル訓練装置によって訓練される画像変換モデルの概要を例示する図である。識別モデルの概要を例示する図である。モデル訓練装置の概要を例示する図である。モデル訓練装置の機能構成を例示するブロック図である。モデル訓練装置を実現するコンピュータのハードウエア構成を例示するブロック図である。モデル訓練装置によって実行される処理の流れを例示するフローチャートである。画像変換モデルを用いたデータ拡張の効果を例示する図である。画像変換モデルの構成を例示する図である。識別モデルの構成を例示する図である。正例パッチと負例パッチを例示する図である。パッチワイズコントラスティブ損失の算出方法を例示する図である。抽出確率マップを例示する図である。

　以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶装置などに予め格納されている。さらに、特に説明しない限り、記憶部は、１つ以上の任意の数の記憶装置によって構成される。

＜概要＞
　図１は、本実施形態のモデル訓練装置によって訓練される画像変換モデルの概要を例示する図である。画像変換モデル１００は、入力画像１０が入力されたことに応じて、出力画像２０を出力する。入力画像１０は、画像変換モデル１００に対して入力される画像である。出力画像２０は、画像変換モデル１００から出力される画像である。例えば画像変換モデル１００は、任意の機械学習モデル（例えばニューラルネットワーク）として実現される。

　画像変換モデル１００は、「入力画像１０として、第１環境下のシーンを表す画像が入力された場合に、出力画像２０として、第１環境とは異なる第２環境下におけるそのシーンを表す画像を出力する」という処理を行うように訓練される。これにより、画像変換モデル１００は、ある特定の環境下で撮像されたシーンの画像から、別の環境下で当該シーンが撮像された画像を擬似的に生成することができるようになる。

　例えば第１環境が昼間であり、第２環境が夜間であるとする。また、入力画像１０が、特定の道路をカメラで撮像することで得られた画像であるとする。ここで、夜間の道路の様子は、全体的に暗いという点、車のライトや街灯などといった種々のライトが点灯しているという点、ライトに照らされている場所が他の場所と比較して明るいという点などにおいて、昼間の道路の様子とは異なる。画像変換モデル１００は、このような夜間の道路の特徴を擬似的に再現するように、昼間の道路の様子が撮像された画像から、夜間の道路の様子が撮像された画像を生成する。これにより、例えば後述するように、データ拡張（data augmentation）を実現することができる。

　なお、環境は、昼間や夜間などといった時間帯に限定されない。例えば環境の他の例としては、天候に関する環境が挙げられる。例えば第１環境が晴れであり、第２環境が雨であるとする。この場合、画像変換モデル１００は、晴天下のシーンを表す入力画像１０から、雨天下のそのシーンを表す出力画像２０を生成する。なお、雨の代わりに、雪などの天候を採用することもできる。

　さらに画像変換モデル１００は、入力画像１０から出力画像２０を生成する際、第１環境から第２環境という環境の変換は行うものの、各画像領域のクラスの変換は行わないように訓練される。画像領域のクラスは、例えば、その画像領域に含まれるオブジェクトの種類で表される。そのため例えば、入力画像１０において車を表している画像領域が、出力画像２０においても車を表すように、入力画像１０から出力画像２０への変換が行われる。このように画像変換モデル１００を訓練することにより、入力画像１０から出力画像２０への変換を行う際に、環境の変換は行いつつも、車などといった所定の種類のオブジェクトが消失しないようにすることができる。なお、オブジェクトの消失を防ぐことの重要性については後述する。

　画像変換モデル１００の訓練は、識別モデルを利用して行われる。図２は、識別モデル２００の概要を例示する図である。例えば識別モデル２００は、任意の機械学習モデル（例えばニューラルネットワーク）として実現される。

　識別モデル２００は、入力画像３０に含まれる複数の画像領域それぞれについて、その画像領域が、第２環境下のシーンを表す真の画像領域であるか否かを識別する。ここで、真の画像領域とは、画像変換モデル１００によって生成された画像領域ではない（すなわち、擬似的に生成された画像領域ではない）画像領域を意味する。また、識別モデル２００は、真の画像領域については、その画像領域のクラスを識別する。以下、画像変換モデル１００によって生成された画像（すなわち、擬似的な画像）と、画像変換モデル１００によって生成されたものではない画像とをそれぞれ、「偽の画像」及び「真の画像」と表記する。また、真の画像領域ではない画像領域のことを、「偽の画像領域」と表記する。

　識別データ４０は、識別モデル２００による識別の結果を表す。例えば識別データ４０は、入力画像１０に含まれる複数の画像領域それぞれについて、各クラスに属する真の画像領域である確率、及び偽の画像領域である確率を示す。例えば、クラスとして C1 から Cn の n 種類が用意されているとする。この場合、識別データ４０は、入力された画像に含まれる複数の画像領域それぞれについて、（N+1）次元のベクトル（以下、スコアベクトル）を示す。スコアベクトルは、対応する画像領域がクラス C1 から CN それぞれに属する真の画像領域である確率、及び、対応する画像領域が偽の画像領域である確率を示す。例えばスコアベクトルは、対応する画像領域がクラス Ci（1<=i<=n）に属する真の画像領域である確率をｉ番目の要素に示し、対応する画像領域が偽の画像領域である確率を N+1 番目の要素に示す。

　識別モデル２００が識別対象とする画像領域は、１つのピクセルであってもよいし、複数のピクセルで構成される領域であってもよい。前者の場合、識別モデル２００は、入力画像１０の各ピクセルについて、真偽の識別及びクラスの識別を行う。一方、後者の場合、例えば識別モデル２００は、入力画像１０を所定サイズの複数の画像領域に分割し、各画像領域を対象として、真偽の識別及びクラス識別を行う。

　上述した画像変換モデル１００と識別モデル２００の構成を前提として、本実施形態のモデル訓練装置２０００の動作の概要について説明する。図３は、本実施形態のモデル訓練装置２０００の概要を例示する図である。ここで、図３は、モデル訓練装置２０００の概要の理解を容易にするための図であり、モデル訓練装置２０００の動作は、図１に示したものに限定されない。

　モデル訓練装置２０００は、第１訓練データセット５０を取得する。第１訓練データセット５０は第１訓練画像５２及び第１クラス情報５４を含む。第１訓練画像５２は、第１環境下のシーンを表す画像である。第１クラス情報５４は、第１訓練画像５２に含まれる複数の画像領域それぞれのクラスを示す。

　モデル訓練装置２０００は、画像変換モデル１００に対し、第１訓練データセット５０を入力画像１０として入力することにより、画像変換モデル１００から出力画像２０を得る。さらに識別モデル２００は、この出力画像２０を識別モデル２００に入力する。その結果、モデル訓練装置２０００は、出力画像２０に含まれる各画像領域についての識別結果を表す識別データ４０を得る。

　ここで、画像変換モデル１００は、前述したように、環境の変換は行うものの、クラスの変換は行わないことが望ましい。そのため、出力画像２０の各画像領域が、「真の画像領域であり、かつ、対応する入力画像１０の画像領域と同じクラスに属する」と識別モデル２００によって識別されるように、画像変換モデル１００を訓練することが好適である。すなわち、識別データ４０によって特定される各画像領域のクラスが、第１クラス情報５４によって示される各画像領域のクラスと一致するように、画像変換モデル１００を訓練することが好適である。

　そこでモデル訓練装置２０００は、識別データ４０と第１クラス情報５４との差異の大きさを表す第１損失を算出し、第１損失を小さくするように画像変換モデル１００を訓練する。具体的には、モデル訓練装置２０００は、第１損失を小さくするように、画像変換モデル１００に含まれる訓練可能なパラメータ（例えば、ニューラルネットワークの各重み）を更新する。

　なお、識別データ４０によって特定される画像領域のクラスは、例えば、前述したスコアベクトルにおいて値が最大の要素に対応するクラスである。なお、スコアベクトルにおいて値が最大の要素が偽の画像領域に対応する場合、そのスコアベクトルは、対応する画像領域が偽の画像領域であることを示す。

＜作用効果の例＞
　非特許文献１の手法では、馬の画像をシマウマの画像に変換するというように、画像全体でクラスの変換が行われる。そのため、非特許文献１の手法では、画像全体が表すシーンの環境を変換しつつも、各画像領域のクラス（例えば物体の種類）は維持するといった画像変換はできない。このような画像変換の例としては、車が走っている昼の道路の画像を、車が走っている夜の画像に変換するという画像変換が考えられる。この画像変換では、画像全体が表すシーンの環境を昼から夜に変換しつつ、変換前の画像で車を表している画像領域が、変換後の画像領域でも車を表すようにする必要がある。

　この点、モデル訓練装置２０００は、画像変換モデル１００から得られた出力画像２０を識別モデル２００へ入力し、識別モデル２００から得られた識別データ４０と第１クラス情報５４とを用いて、画像変換モデル１００を訓練する。これにより、「各画像領域のクラスを維持したまま、第１環境下のシーンから第２環境下のシーンへ変換する」という機能を持つ画像変換モデル１００を得ることができる。

　以下、本実施形態のモデル訓練装置２０００について、より詳細に説明する。

＜機能構成の例＞
　図４は、本実施形態のモデル訓練装置２０００の機能構成を例示するブロック図である。モデル訓練装置２０００は、取得部２０２０及び訓練実行部２０４０を有する。取得部２０２０は第１訓練データセット５０を取得する。訓練実行部２０４０は、第１訓練データセット５０を利用して画像変換モデル１００の訓練を行う。具体的には、訓練実行部２０４０は、第１訓練画像５２を画像変換モデル１００に入力して、画像変換モデル１００から出力画像２０を得る。さらに訓練実行部２０４０は、出力画像２０を識別モデル２００に入力して、識別モデル２００から識別データ４０を得る。そして訓練実行部２０４０は、識別データ４０と第１クラス情報５４との差異の大きさを表す第１損失を算出し、第１損失を用いて画像変換モデル１００を更新する。

＜ハードウエア構成の例＞
　モデル訓練装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、モデル訓練装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

　図５は、モデル訓練装置２０００を実現するコンピュータ１０００のハードウエア構成を例示するブロック図である。コンピュータ１０００は、任意のコンピュータである。例えばコンピュータ１０００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ１０００は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ１０００は、モデル訓練装置２０００を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。

　例えば、コンピュータ１０００に対して所定のアプリケーションをインストールすることにより、コンピュータ１０００で、モデル訓練装置２０００の各機能が実現される。上記アプリケーションは、モデル訓練装置２０００の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体（DVD ディスクや USB メモリなど）から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。

　コンピュータ１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

　入出力インタフェース１１００は、コンピュータ１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

　ネットワークインタフェース１１２０は、コンピュータ１０００をネットワークに接続するためのインタフェースである。このネットワークは、LAN（Local Area Network）であってもよいし、WAN（Wide Area Network）であってもよい。

　ストレージデバイス１０８０は、モデル訓練装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ１０４０は、このプログラムをメモリ１０６０に読み出して実行することで、モデル訓練装置２０００の各機能構成部を実現する。

　モデル訓練装置２０００は、１つのコンピュータ１０００で実現されてもよいし、複数のコンピュータ１０００で実現されてもよい。後者の場合において、各コンピュータ１０００の構成は同一である必要はなく、それぞれ異なるものとすることができる。

＜処理の流れ＞
　図６は、本実施形態のモデル訓練装置２０００によって実行される処理の流れを例示するフローチャートである。取得部２０２０は第１訓練データセット５０を取得する（Ｓ１０２）。訓練実行部２０４０は、第１訓練画像５２を画像変換モデル１００に入力する（Ｓ１０４）。訓練実行部２０４０は、画像変換モデル１００から出力された出力画像２０を識別モデル２００に入力する（Ｓ１０６）。訓練実行部２０４０は、識別モデル２００から出力された識別データ４０と第１クラス情報５４との差異の大きさに基づく第１損失を算出する（Ｓ１０８）。訓練実行部２０４０は、第１損失を用いて画像変換モデル１００を更新する（Ｓ１１０）。

　なお、モデル訓練装置２０００は、複数の第１訓練データセット５０を取得し、それら複数の第１訓練データセット５０を利用して画像変換モデル１００の更新を繰り返し行うことで、画像変換モデル１００を訓練する。

＜画像変換モデル１００の利用例＞
　モデル訓練装置２０００の有用性の理解を容易にするため、画像変換モデル１００の利用シーンを例示する。ここで説明する利用シーンは例示であり、モデル訓練装置２０００の利用シーンは以下で説明する例に限定されない。

　利用シーンとして、道路を撮像する監視カメラから得られたビデオデータが、車の監視に利用されるケースを想定する。車の監視は、監視装置を用いて、ビデオデータの各ビデオフレームから車を検出することによって行われる。監視装置は、画像から車を検出するように予め訓練された検出モデルを有する。

　ここで、画像における物体の見え方（物体の画像特徴）は、その物体が撮像された環境によって異なりうる。例えば、昼間に撮像された車と夜間に撮像された車とでは、その見え方が互いに異なる。また、晴天時に撮像された車と雨天時に撮像された車とでも、その見え方が互いに異なる。

　車の監視に利用される検出モデルは、このような環境の変化にロバストであることが好適である。すなわち、検出モデルは、時間帯や天候によらずに、各ビデオフレームから車を検出できるように訓練される必要がある。そのためには、様々な環境下で撮像された道路の画像を訓練画像として用いて、検出モデルを訓練する必要がある。

　この点、訓練画像を入手する容易さは、環境ごとに異なりうる。例えば、夜間は昼間と比較して車の数が少ないため、夜間の道路の車が撮像された画像は、昼間の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。また、晴れが多い場所では、雨や雪などといった晴天時以外の道路の車が撮像された画像は、晴天時の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。このように入手できる画像の数が環境ごとに異なることに起因し、監視カメラから入手できる画像だけを利用して検出モデルの訓練を行うと、夜間や雨天などといった環境下の車の検出精度が低くなってしまう。

　そこで、モデル訓練装置２０００によって訓練された画像変換モデル１００を利用して、入手が容易な環境の画像を利用したデータ拡張を行うことにより、入手が難しい環境の画像を擬似的に生成する。例えば画像変換モデル１００が、昼間の道路における車の画像が入力画像１０として入力されたことに応じて、夜間の道路における車の画像が出力画像２０として出力されるように、モデル訓練装置２０００によって予め訓練されているとする。図７は、画像変換モデル１００を用いたデータ拡張の効果を例示する図である。

　図７の上段は、画像変換モデル１００によるデータ拡張を行わず、監視カメラから得られた画像だけを利用して検出モデルの訓練が行われるケースを表している。このケースでは、夜間の車が撮像された訓練画像の数が不十分であるため、夜間の車の検出精度が低くなってしまう。

　一方、図７の下段は、画像変換モデル１００によるデータ拡張が行われるケースを例示している。ユーザは、監視カメラから得られた昼間の道路における車の画像を画像変換モデル１００に入力することで、夜間の道路における車を擬似的に表す画像を得る。こうすることによって、昼間の道路における車の画像と同等の数だけ、夜間の道路における車の画像を得ることができる。このように画像変換モデル１００を利用して得た画像も訓練画像として用いて検出モデルの訓練を行うことで、夜間の車も精度良く検出できる検出モデルを生成することができる。すなわち、環境の変化にロバストな検出モデルを生成することができる。

　ここで、検出モデルを訓練するためには、訓練画像に加え、その訓練画像のどの部分に車が位置しているのかを示す情報も必要となる。この情報は、訓練画像に含まれる各画像領域について、車とそれ以外という２種類のクラスのどちらに属するかを示すクラス情報と見ることができる。ただし、検出モデルが車だけでなく、その他の種類の物体（例えば人や道路など）も検出できるようにする場合には、それらの種類もクラス情報によって示されるようにする。

　ここで、画像変換モデル１００を利用して生成された画像について、クラス情報の生成を手動で行わなければならないとすると、画像変換モデル１００を利用したデータ拡張（訓練データセットの生成）に多くの時間を要することになってしまう。この点、入力画像１０の各画像領域のクラスと、出力画像２０の各画像領域のクラスとが互いに一致するのであれば、出力画像２０のクラス情報として、入力画像１０のクラス情報をそのまま流用できる。よって、画像変換モデル１００を利用したデータ拡張に要する時間を大きく削減することができる。そこで前述したように、画像変換モデル１００は、環境の変換をするものの、クラスの変換は行わないように訓練される。

＜クラスについて＞
　モデル訓練装置２０００によって扱われる画像領域のクラスの種類は、画像変換モデル１００によって扱われる画像が表すシーンの特徴などに応じて、任意に設定することができる。例えば画像領域は、画像変換モデル１００によって扱われる画像に含まれうる所定の物体と、それ以外という、２つのクラスに分類される。例えば所定の物体が車である場合、第１クラス情報５４は、車を表す画像領域には「車」というクラスを示し、車以外を表す画像領域には「車以外」というクラスを示す。

　所定の物体としては、複数の種類の物体が扱われてもよい。例えば、車をさらに細かく分類することが考えられる。具体的には、「普通車」、「バス」、「トラック」、「バイク」、及び「自転車」などといったクラスを設けることが考えられる。その他にも例えば、「道路」、「建物」、又は「人」などのように、車以外のクラスがさらに設けられてもよい。なお、道路というクラスを設ける場合、車の進行方向に応じて道路がさらに分類されてもよい。

＜画像変換モデル１００の構成＞
　例えば画像変換モデル１００は、入力画像１０から特徴を抽出し、抽出した特徴に基づいて出力画像２０を生成するように構成される。図８は、画像変換モデル１００の構成を例示する図である。画像変換モデル１００は、特徴抽出モデル１１０及び画像生成モデル１２０という２つのモデルを含む。特徴抽出モデル１１０は、入力画像１０から特徴マップを抽出するように構成される。ここで、画像から抽出される特徴マップは、画像に含まれる複数の部分領域それぞれから得られる特徴量の集合である。画像生成モデル１２０は、特徴マップから出力画像２０を生成するように構成される。

　特徴抽出モデル１１０及び画像生成モデル１２０はいずれも、任意の種類の機械学習モデルとして構成される。例えば特徴抽出モデル１１０及び画像生成モデル１２０はいずれも、ニューラルネットワークで構成される。

　なお、画像変換モデル１００は、出力画像２０の生成に、入力画像１０に対応するクラス情報を利用してもよい。この場合、例えば画像変換モデル１００は、第１訓練画像５２から出力画像２０を生成する際に、第１クラス情報５４をさらに利用する。例えば第１訓練画像５２は、画像生成モデル１２０に対して入力される。ここで、画像を生成するモデルにおいてクラスの情報を利用する技術には、例えば、非特許文献２に開示されている技術を利用することができる。

＜第１訓練データセット５０の取得：Ｓ１０２＞
　取得部２０２０は第１訓練データセット５０を取得する（Ｓ１０２）。取得部２０２０が第１訓練データセット５０を取得する方法は様々である。例えば第１訓練データセット５０は、予め、モデル訓練装置２０００から取得可能な態様で、任意の記憶装置に格納されている。この場合、取得部２０２０は、当該記憶装置から第１訓練データセット５０を読み出す。その他にも例えば、取得部２０２０は、他の装置から送信された第１訓練データセット５０を受信することで、第１訓練データセット５０を取得してもよい。

＜画像変換モデル１００の訓練：Ｓ１０４～Ｓ１１０＞
　訓練実行部２０４０は、第１訓練データセット５０を用いて画像変換モデル１００の訓練を行う。前述したように、訓練実行部２０４０は、第１訓練画像５２を画像変換モデル１００に入力し（Ｓ１０４）、画像変換モデル１００から出力される出力画像２０を識別モデル２００に入力する（Ｓ１０６）。さらに訓練実行部２０４０は、識別モデル２００から出力される識別データ４０と第１クラス情報５４との差異の大きさを表す第１損失を算出し、第１損失を用いて画像変換モデル１００を更新する。なお、損失に基づいてモデルのパラメータを更新する具体的な方法には、既存の種々の手法を利用することができる。

　ここで、第１損失を算出するための損失関数（以下、第１損失関数）としては、識別データ４０と第１クラス情報５４との差異の大きさを表すことができる種々の関数を利用することができる。例えば第１損失関数としては、以下の式（１）を利用することができる。

　ここで、x1 と t1 はそれぞれ、第１訓練画像５２と第１クラス情報５４を表す。L1(x1,t) は第１訓練画像 x1 と第１クラス情報 t1 を利用して算出された第１損失を表す。c はクラスの識別子を表す。N はクラスの総数を表す。α_c は、識別子 c のクラスに与える重みを表す。なお、この重みの算出方法は非特許文献３に開示されている。また、記号「_」は下付き文字を表している。i は識別対象の画像領域の識別子を表す。Mは出力画像２０に含まれる画像領域の総数を表す。例えば、各ピクセルが画像領域として扱われ、出力画像２０における縦方向と横方向のピクセル数がそれぞれ H と W である場合、M=H*W となる。t1_i,c は、第１クラス情報 t1 において画像領域 i のクラスが c である場合には１を示し、第１クラス情報 t1 において画像領域 i のクラスが c でない場合には０を示す。G(x1) は、第１訓練画像 x1 を画像変換モデル１００に入力することで生成された出力画像２０を表す。なお、画像変換モデル１００に第１訓練画像５２も入力される場合、G(x1) の代わりに G(x1,t1) が用いられる。D(G(x1))は、出力画像２０が入力されたことに応じて識別モデル２００が出力した識別データ４０を表す。D(G(x1))_i,cは、識別データ４０において、画像領域 i に対応するスコアベクトルがクラス c について示す値である。すなわち、識別モデル２００によって算出された、出力画像２０の画像領域 i のクラスが c である確率を表す。

　訓練実行部２０４０は、第１訓練画像５２と出力画像２０との差異に基づく損失をさらに算出し、当該損失と前述した第１損失の双方に基づいて画像変換モデル１００の更新を行ってもよい。例えばこの場合、訓練実行部２０４０は、これら２つの損失の重み付き和として総合的な損失を算出し、当該総合的な損失が小さくなるように、画像変換モデル１００を更新する。

　第１訓練画像５２と出力画像２０との差異に基づく損失としては、例えば、非特許文献１に開示されているパッチワイズコントラスティブ損失（patchwise contrastive loss）や、非特許文献４に開示されているサイクルコンシステンシー損失（cycle consistency loss）などを利用することができる。しかしながら、第１訓練画像５２と出力画像２０との差異に基づく損失は、これらの非特許文献に開示されているものに限定されない。また、パッチワイズコントラスティブ損失を利用する際には、後述する工夫が施されてもよい。

　なお、損失は、複数の第１訓練データセット５０についてまとめて算出されてもよい。この場合、画像変換モデル１００を訓練するための損失は、例えば以下の式で一般化することができる。

　ここで、集合 S1 は第１訓練データセット５０の集合である。L_G(S1) は、集合 S1 を利用して算出される損失である。L_d(x1) は、第１訓練画像 x1 とこの x1 を画像変換モデル１００に入力することで得られた出力画像２０との差分に基づく算出である。例えば L_d としては、後述するパッチワイズコントラスティブ損失 L_pw を利用することができる。β は、第１損失に与える重みである。

＜識別モデル２００について＞
　前述したように、識別モデル２００は、入力された画像に含まれる複数の画像領域それぞれについて、その画像領域の真偽及びクラスを識別する。ここで、「偽の画像領域である」を１つのクラスとして扱えば、識別モデル２００は、入力された画像に含まれる複数の画像領域それぞれについてクラスの識別を行うモデル、すなわち、セマンティックセグメンテーションを行うモデルと見ることができる。そのため、識別モデル２００としては、セマンティックセグメンテーションを実現可能な種々のモデルを採用することができる。このようなモデルとしては、例えば非特許文献３に開示されている OASIS discriminator と同様に、エンコーダとデコーダで構成するモデルを採用することができる。

　図９は、識別モデル２００の構成を例示する図である。エンコーダ２１０は、入力画像３０を入力として取得し、入力画像３０の特徴マップを生成する。デコーダ２２０は、エンコーダ２１０から出力された特徴マップを入力として取得し、当該特徴マップから識別データ４０を算出する。例えばエンコーダ２１０とデコーダ２２０はいずれも、OASIS discriminator と同様に、複数の resblock で構成される。また、エンコーダ２１０の中間出力をデコーダ２２０でも活用できるようにするために、エンコーダ２１０とデコーダ２２０との間にスキップコネクションが設けられてもよい。

　識別モデル２００は、事前に訓練されていてもよいし、画像変換モデル１００と共に訓練されてもよい。後者の場合、例えばモデル訓練装置２０００は、画像変換モデル１００と識別モデル２００で構成される敵対的生成ネットワークの訓練を行うことで、画像変換モデル１００と識別モデル２００の訓練を行う。以下、このケースについてさらに説明する。

　取得部２０２０は、識別モデル２００の訓練に利用する第２訓練データセット６０及び第３訓練画像７０を取得する。第２訓練データセット６０は、第２訓練画像６２及び第２クラス情報６４を含む。第２訓練画像６２は、第２環境下のシーンを表す真の画像である。例えば第２訓練画像６２は、第２環境下のシーンをカメラで実際に撮像することによって生成される。第２クラス情報６４は、第２訓練画像６２に含まれる各画像領域のクラスを示す。第３訓練画像７０は、第１環境下のシーンを表す画像である。

　第２訓練データセット６０は、真の画像領域のクラスを正しく識別可能な識別モデル２００を得るために利用される。訓練実行部２０４０は、第２訓練画像６２を識別モデル２００に入力することで識別データ４０を得る。そして、訓練実行部２０４０は、この識別データ４０と第２クラス情報６４を用いて第２損失を算出する。

　ここで、第２訓練画像６２は真の画像であるため、識別モデル２００は、第２訓練画像６２に含まれる各画像領域のクラスを正しく識別できることが望ましい。すなわち、全ての画像領域について、第２クラス情報６４に示されているクラスと識別データ４０によって特定されるクラスとが、互いに一致することが好適である。そこで例えば、識別データ４０が各画像領域について示すクラスが、第２クラス情報６４に示されているクラスと一致するほど、第２損失が小さくなるようにする。

　一方、第３訓練画像７０は、偽の画像領域を正しく識別可能な識別モデル２００を得るために利用される。訓練実行部２０４０は、第３訓練画像７０を画像変換モデル１００に入力することで出力画像２０を得る。さらに訓練実行部２０４０は、その出力画像２０を識別モデル２００に入力することで、識別データ４０を得る。そして、訓練実行部２０４０は、この識別データ４０を用いて第３損失を算出する。

　なお、画像変換モデル１００が出力画像２０の生成にクラス情報を利用する場合、取得部２０２０は、第３訓練画像７０に対応するクラス情報をさらに取得する。そして、訓練実行部２０４０は、第３訓練画像７０とこのクラス情報を画像変換モデル１００に入力することで出力画像２０を得る。

　ここで、識別モデル２００に入力される出力画像２０は偽の画像であるため、識別モデル２００は、第３訓練画像７０に含まれる各画像領域について、偽の画像領域であると識別できることが好ましい。すなわち、第３訓練画像７０を利用して得られた識別データ４０は、全ての画像領域について、偽の画像領域であることを示すことが好ましい。そこで例えば、識別データ４０が各画像領域について示す、偽の画像領域である確率が高いほど、第３損失が小さくなるようにする。

　以上のことに鑑み、訓練実行部２０４０は、第２訓練データセット６０を利用して算出された第２損失と、第３訓練画像７０を利用して算出された第３損失とを用いて、識別モデル２００の訓練可能なパラメータを更新する。例えば訓練実行部２０４０は、第２損失と第３損失の重み付き和を算出し、当該重み付き和を小さくするように、識別モデル２００の訓練可能なパラメータを更新する。例えばこの重み付き和は、以下の式（３）で表すことができる。

　特に説明しない限り、式（３）に含まれる記号のうち、式（１）にも含まれる記号は、式（１）における意味と同じ意味を持つ。x2、t2、及び x3 はそれぞれ、第２訓練画像６２、第２クラス情報６４、及び第３訓練画像７０を表す。L_D(x2,t2,x3) は、第２訓練画像 x2、第２クラス情報 t2、及び第３訓練画像 x3 を利用して算出された、識別モデル２００を訓練するための損失をを表す。L2(x2,t2) は、第２訓練画像 x2 及び第２クラス情報 t2 を利用して算出された第２損失を表す。L3(x3) は、第３訓練画像 x3 を利用して算出された第３損失を表す。γ は第３損失に与える重みを表す。t2_i,c は、第２クラス情報 t2 において画像領域 i のクラスが c である場合に１を表し、第２クラス情報 t2 において画像領域 i のクラスが c でない場合に０を表す。D(x2) は、第２訓練画像 x2 の入力に応じて識別モデル２００によって出力される識別データ４０を表す。D(x2)_i,c は、この識別データ４０によって示される、画像領域 i のクラスが c である確率を表す。

　G(x3) は、第３訓練画像 x3 の入力に応じて画像変換モデル１００が出力する出力画像２０を表す。D(G(x3)) は、この出力画像２０の入力に応じて識別モデル２００によって出力される識別データ４０を表す。D(G(x3))_i,c=N+1 は、この識別データ４０によって示される、画像領域 i が偽の画像領域である確率を表す。ここでは、識別データ４０のスコアベクトルは、N+1 番目の要素に、対象の画像領域が偽の画像領域である確率を示している。

　なお、識別モデル２００を訓練するための損失 L_D についても、画像変換モデル１００を訓練するための損失 L_G と同様に、複数の第２訓練データセット６０及び第３訓練画像７０についてまとめて算出されてもよい。この場合、損失 L_D は、以下の様に一般化することができる。

　ここで、集合 S2 は第２訓練データセット６０の集合であり、集合 X3 は第３訓練画像７０の集合である。

　訓練実行部２０４０は、画像変換モデル１００の訓練と識別モデル２００の訓練の双方を繰り返し行うことで、画像変換モデル１００と識別モデル２００の双方の精度を向上させていく。例えば訓練実行部２０４０は、画像変換モデル１００の訓練と識別モデル２００の訓練を交互に繰り返す。その他にも例えば、訓練実行部２０４０は、所定回の画像変換モデル１００の訓練と、所定回の識別モデル２００の訓練とを、交互に繰り返してもよい。ただし、画像変換モデル１００の訓練と識別モデル２００の訓練の回数は、互いに異なっていてもよい。

＜処理結果の出力＞
　モデル訓練装置２０００は、処理結果として、訓練済みの画像変換モデル１００を特定可能な情報（以下、出力情報）を出力する。出力情報には、少なくとも、訓練によって得られた画像変換モデル１００のパラメータ群が含まれる。これに加え、出力情報には、画像変換モデル１００を実現するプログラムが含まれていてもよい。また、出力情報には、識別モデル２００のパラメータ群や、識別モデル２００を実現するプログラムがさらに含まれていてもよい。

　出力情報の出力態様は任意である。例えばモデル訓練装置２０００は、出力情報を任意の記憶部に格納する。その他にも例えば、モデル訓練装置２０００は、出力情報を他の装置（例えば、画像変換モデル１００の運用に利用される装置）へ送信する。

＜パッチワイズコントラスティブ損失の算出における工夫について＞
　ここでは、画像変換モデル１００の訓練にパッチワイズコントラスティブ損失を利用するケースについて、その算出における工夫点について説明する。まずは、パッチワイズコントラスティブ損失について簡単に説明する。

　図１０は、パッチワイズコントラスティブ損失の算出方法を例示する図である。訓練実行部２０４０は、第１訓練画像５２を画像変換モデル１００に入力することで、出力画像２０を得る。また、訓練実行部２０４０は、特徴抽出モデル１１０によって算出された第１訓練画像５２の特徴マップである第１特徴マップ１３０を得る。さらに訓練実行部２０４０は、出力画像２０を特徴抽出モデル１１０に入力することで、出力画像２０の特徴マップである第２特徴マップ１４０を得る。訓練実行部２０４０は、第１特徴マップ１３０及び第２特徴マップ１４０を用いてパッチワイズコントラスティブ損失を算出する。

　より具体的には、訓練実行部２０４０は、第１訓練画像５２の正例パッチ及び１つ以上の負例パッチそれぞれに対応する特徴量を第１特徴マップ１３０から抽出する。また、訓練実行部２０４０は、出力画像２０の正例パッチに対応する特徴量を第２特徴マップ１４０から抽出する。

　ここで、正例パッチと負例パッチについて説明する。図１１は、正例パッチと負例パッチを例示する図である。正例パッチ５２２及び負例パッチ５２４はいずれも、第１訓練画像５２の一部の画像領域である。また、正例パッチ２２は、出力画像２０の一部の画像領域のうち、正例パッチ５２２によって表される場所と同一の場所を表す画像領域である。このように、第１訓練画像５２と出力画像２０の双方で特徴量の抽出対象とする画像領域のことを、正例パッチと呼ぶ。一方で、第１訓練画像５２についてのみ特徴量の抽出対象とする画像領域のことを、負例パッチと呼ぶ。以下、正例パッチ５２２、負例パッチ５２４、及び正例パッチ２２の組み合わせのことを、パッチセットと呼ぶ。

　図１１に示すように、第１特徴マップ１３０に含まれる特徴量の中には、第１訓練画像５２の各画像領域に対応する特徴量が含まれる。そこで訓練実行部２０４０は、第１特徴マップ１３０の中から、正例パッチ５２２と負例パッチ５２４のそれぞれに対応する特徴量を抽出する。同様に、訓練実行部２０４０は、第２特徴マップ１４０の中から、正例パッチ２２に対応する特徴量を抽出する。

　訓練実行部２０４０は、第１訓練画像５２と出力画像２０のペアについて、パッチセットを１つ以上生成する。そして、訓練実行部２０４０は、各パッチセットについて、第１特徴マップ１３０と第２特徴マップ１４０から特徴量を抽出する。

　ここで、非特許文献１では、正例パッチの位置がランダムに選択されている。この点、例えば訓練実行部２０４０では、特定のクラスに属する画像領域（以下、特定領域）から正例パッチを重点的に抽出するという工夫が施される。ここでいう「重点的」とは、特定領域から正例パッチ５２２が抽出されるケースが、それ以外の部分領域から正例パッチ５２２が抽出されるケースよりも多くなることを意味する。このように特定領域から重点的に正例パッチ５２２を抽出することにより、特定のクラスに属する画像領域の特徴（例えば、特定の種類の物体の特徴）を重点的に画像変換モデル１００に学習させることができる。そのため、画像変換モデル１００が、第１環境下における特定のクラスの画像領域を、第２環境下における画像領域に正確に変換できるようになる。

　例えば図７を用いて例示した検出モデルの訓練データについてデータ拡張を行うために、画像変換モデル１００が利用されるとする。この場合、画像変換モデル１００は、第１環境下の車の特徴を第２環境下の車の特徴に正確に変換できることが好ましい。そこで、正例パッチとして車の画像領域を重点的に利用することで、車の特徴を重点的に画像変換モデル１００に学習させる。

　なお、正例パッチとして特定のクラスの画像領域を重点的に利用する具体的な方法については後述することとし、まずはパッチワイズコントラスティブ損失の算出方法についてより具体的に説明する。

　訓練実行部２０４０は、各パッチセットについて得られた正例パッチ５２２に対応する特徴量、負例パッチ５２４に対応する特徴量、及び正例パッチ２２に対応する特徴量を用いて、パッチワイズコントラスティブ損失を算出する。１つのパッチセットについての損失は、例えば以下の式（５）で表されるクロスエントロピー損失として算出される。

　ここで、y(v,vp,vn) は、特徴量 v,vp,vn について算出されるクロスエントロピー損失を表す。v は正例パッチ２２に対応する特徴量を表す。vp は５２２に対応する特徴量を表す。vn は負例パッチ５２４に対応する特徴量の集合を表す。τは、温度付きソフトマックにおける温度パラメータであり、予め定数が設定されている。N は負例パッチ５２４の総数を表す。vn_k は、k 番目の負例パッチ５２４に対応する特徴量を表す。

　パッチセットが１つである場合、パッチワイズコントラスティブ損失は、上記式（５）で算出される。一方、パッチセットが複数ある場合も考慮すると、パッチワイズコントラスティブ損失は以下の式（６）ように一般化できる。

　ここで、L_pw(S) は、パッチセットの集合 Sp を利用して得られるパッチワイズコントラスティブ損失を表す。s は１つのパッチセットを表す。v_sはパッチセット s の正例パッチ２２に対応する特徴量を表す。vp_s はパッチセット s の正例パッチ５２２に対応する特徴量を表す。vn_sはパッチセット s の負例パッチ５２４に対応する特徴量の集合を表す。

　特徴抽出モデル１１０は、多段階の特徴抽出を行うように構成されていてもよい。例えばこのような特徴抽出モデル１１０としては、複数の畳み込み層を持つ畳み込みニューラルネットワークが挙げられる。複数の畳み込み層を持つ畳み込みニューラルネットワークにおいて、n 番目の畳み込み層は、(n-1）番目の畳み込み層から出力された (n-1)番目の特徴マップに対し、(n-1) 番目のフィルタの畳み込み演算を行うことで、n 番目の特徴マップを出力する（ｎは２以上の整数）。

　このように多段階の特徴抽出が行われる場合、最終的に得られる特徴マップである第１特徴マップ１３０や第２特徴マップ１４０だけでなく、途中段階で得られる特徴マップも、パッチワイズコントラスティブ損失の算出に利用することができる。すなわち、第１訓練画像５２から得られる複数の特徴マップと、出力画像２０から得られる複数の特徴マップとを、パッチワイズコントラスティブ損失の算出に利用することができる。

　例えば特徴抽出モデル１１０がｎ層の畳み込みニューラルネットワークである場合、各層から特徴マップを得ることで、ｎ個の特徴マップを得ることができる。そして、５２２、負例パッチ５２４、及び正例パッチ２２に対応する特徴量は、ｎ個の特徴マップそれぞれから抽出することができる。そこで訓練実行部２０４０は、５２２、負例パッチ５２４、及び正例パッチ２２に対応する特徴量を、ｎ個の特徴マップそれぞれから抽出し、抽出した特徴量を用いてパッチワイズコントラスティブ損失を算出する。

　第１訓練画像５２と出力画像２０のそれぞれから得られる複数の特徴マップを利用してパッチワイズコントラスティブ損失を算出する場合、例えばパッチワイズコントラスティブ損失は以下の式（７）で表される。

　ここで、L は特徴抽出を行うレイヤの集合を表し、l は１つのレイヤを表す。v^l_s は、出力画像２０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ２２に対応する特徴量である。vp^l_s は、第１訓練画像５２が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ５２２に対応する特徴量である。vn^l_s は、第１訓練画像５２が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の負例パッチ５２４に対応する特徴量の集合である。なお、記号「^」は上付き文字を表している。

　また、前述したように、パッチワイズコントラスティブ損失は、複数の第１訓練画像５２についてまとめて算出されてもよい。この場合、パッチワイズコントラスティブ損失は以下の式（８）で一般化することができる。

　ここで、X1 は第１訓練画像５２の集合を表し、x1 は当該集合から選択された１つの第１訓練画像５２を表す。

　訓練実行部２０４０は、１つ以上の第１訓練データセット５０を用いて、第１損失とパッチワイズコントラスティブ損失とを算出し、これらを用いて算出される総合的な損失を用いて、画像変換モデル１００を更新する。例えばこの総合的な損失は、前述した式（２）で表される。

＜＜パッチセットの生成について＞＞
　訓練実行部２０４０は、第１訓練画像５２及び出力画像２０についてパッチセットを生成する。前述したように、１つのパッチセットには、１つの正例パッチ５２２、１つ以上の負例パッチ５２４、及び１つの正例パッチ２２が含まれる。例えば訓練実行部２０４０は、第１訓練画像５２から正例パッチ５２２を抽出する処理を行った後、第１訓練画像５２のうちの正例パッチ５２２以外の領域から１つ以上の負例パッチ５２４を抽出する処理、及び出力画像２０から正例パッチ２２を抽出する処理を行う。

　前述したように、正例パッチ５２２は、特定領域から重点的に抽出されることが好ましい。そこで訓練実行部２０４０は、正例パッチ５２２の抽出に利用するために、第１訓練画像５２から特定領域を検出する。ここで、第１訓練画像５２から特定のクラスの画像領域を検出する技術には、既存の技術を利用することができる。以下、この「特定のクラス」のことを「対象クラス」と呼ぶ。

　対象クラスは、予め定められていてもよいし、ユーザによって指定可能であってもよい。後者の場合、訓練実行部２０４０は、対象クラスを表す情報を取得し、その情報に示されている対象クラスの画像領域を、特定領域として検出する。対象クラスを表す情報は、例えば、ユーザ入力の結果として得られる。

　以下、検出された特定領域に基づいて正例パッチ５２２を抽出する方法について、いくつか例示する。

＜＜方法１＞＞
　まず訓練実行部２０４０は、特定領域の中と外のどちらから正例パッチ５２２を抽出するのかを決定する。この決定は、特定領域の中から抽出される正例パッチ５２２の数が、特定領域の外から抽出される正例パッチ５２２の数よりも多くなるように行われる。このようにすることで、特定領域から重点的に正例パッチ５２２が抽出される。

　例えば上述の決定は確率的に行われる。このように２つの選択肢のうちの１つを確率的に選択する方法としては、例えば、ベルヌーイ分布から値をサンプルし、サンプル値に基づいて決定するという方法が考えられる。より具体的には、例えば、サンプル値が１である場合には特定領域の中から正例パッチ５２２が抽出され、サンプル値が０である場合には特定領域の外から正例パッチ５２２が抽出されるようにする。この際、サンプル値が１となる確率を５０％より大きくすることにより、特定領域の中から抽出される正例パッチ５２２の数を、特定領域の外から抽出される正例パッチ５２２の数よりも確率的に多くすることができる。

　特定領域の中と外のどちらから正例パッチ５２２を抽出するのかを決定した後、訓練実行部２０４０は、当該決定に基づいて、正例パッチ５２２の抽出を行う。ここで、正例パッチ５２２のサイズ（以下、パッチサイズ）は予め定めておく。特定領域の中から正例パッチ５２２を抽出する場合、訓練実行部２０４０は特定領域の中の任意の箇所からパッチサイズの領域を抽出し、この領域を正例パッチ５２２として扱う。一方、特定領域の外から正例パッチ５２２を抽出する場合、訓練実行部２０４０は、特定領域の外の任意の箇所からパッチサイズの領域を選択し、選択した領域を正例パッチ５２２として決定する。なお、ある領域の中から所定サイズの領域を任意に選ぶ技術には、既存の技術を利用することができる。

　なお、特定領域の中から正例パッチ５２２を抽出する場合において、正例パッチ５２２の一部が特定領域の外にあってもよい。例えばこの場合、「正例パッチ５２２の所定割合以上が特定領域の中にある」という条件を満たすように、正例パッチ５２２が抽出される。

＜＜方法２＞＞
　訓練実行部２０４０は、特定領域との重なりが大きい領域ほど正例パッチ５２２として抽出される確率が高くなるように、正例パッチ５２２の抽出を行う。そのために、例えば訓練実行部２０４０は、特定領域との重なり率が高いほど高い抽出確率を示す抽出確率マップを生成する。例えば抽出確率マップは、第１訓練画像５２の各ピクセルについて、そのピクセルを起点（例えば、正例パッチ５２２の左上端）とするパッチサイズの領域が正例パッチ５２２として抽出される確率を示す確率分布として生成される。特定領域との重なり率が高いほど抽出確率を高くするために、抽出確率マップは、各ピクセルについて、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いが高いほど高い抽出確率を示すように生成される。なお、抽出確率マップは、第１訓練画像５２に含まれるパッチサイズの各部分領域について、その部分領域が正例パッチ５２２として抽出される確率を示しているとも言える。そして、各部分領域の抽出確率は、その部分領域と特定領域との重複度合いが高いほど高く設定される。

　このような抽出確率マップを生成するために、例えばまず、訓練実行部２０４０は、抽出確率マップの各ピクセルに対し、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いを表す値を設定する。その後、訓練実行部２０４０は、抽出確率マップの各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。

　図１２は、抽出確率マップを例示する図である。この例において、正例パッチ５２２のサイズは 2x2 である。また、特定領域４１０のサイズは 4x3 である。抽出確率マップ４００の各ピクセルは、そのピクセルを左上端として正例パッチ５２２を抽出した場合に、その正例パッチ５２２と特定領域との重複度合いが大きいほど高い抽出確率を示す。ここで、図１２において、抽出確率が高いピクセルほど濃いドットで表現されている。そのため、図１２において、より濃いドットで表現されているピクセルほど、そのピクセルを起点として正例パッチ５２２が抽出される確率がより高いことを表している。

　訓練実行部２０４０は、抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ５２２として抽出する。

＜＜方法３＞＞
　対象クラスが物体のクラスを表す場合、その物体をさらに細かい小分類に分類し、当該小分類に基づいて、上述した抽出確率マップの各ピクセルの抽出確率が決定されてもよい。例えば対象クラスが車である場合、小分類には乗用車、トラック、又はバスなどの種類を設定しうる。以下、第１訓練画像５２に含まれる物体が属する小分類上のクラスのことを、サブクラスと呼ぶ。

　小分類を考慮する場合、対象クラスに属する物体の中でも、そのサブクラスごとに、画像変換モデル１００の訓練における重要さが異なりうる。例えば、第１訓練画像５２に出現する頻度が低いクラスの物体については、少ない訓練でその特徴を画像変換モデル１００が学習できるようにする必要があることから、訓練上重要な物体であると言える。

　具体的な例として、昼間の道路の様子を表す画像を入力画像１０とし、その入力画像１０から、夜間の道路の様子を表す出力画像２０が生成されるように、画像変換モデル１００が訓練されるとする。ここで、第１訓練画像５２を生成するために撮像された道路において、乗用車と比較して、トラックの出現頻度が低いとする。この場合、トラックの特徴を学習できる機会は、乗用車の特徴を学習できる機会より少ない。そのため、少ない訓練でトラックの特徴を画像変換モデル１００が学習できるようにする必要がある。

　そこで例えば、出現頻度が低いサブクラスほど、訓練における重要度を高くする。より具体的には、訓練実行部２０４０は、第１訓練画像５２において、出現頻度がより低いサブクラスに属する物体を表す特定領域ほど抽出確率がより高くなるように、抽出確率マップを生成する。そのために、各サブクラスに対し、その出現頻度が低いほど高い重みが設定される。

　訓練実行部２０４０は、抽出確率マップの各ピクセルに対し、そのピクセルと特定領域との重複度合いに、その特定領域によって表される物体のサブクラスに対応する重みを掛けた値を設定する。そして、訓練実行部２０４０は、各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。

　訓練実行部２０４０は、この抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ５２２として抽出する。

　ここで、各サブクラスの重みは、予め定められていてもよいし、訓練実行部２０４０によって決定されてもよい。後者の場合、例えば訓練実行部２０４０は、正例パッチ５２２の抽出を行う前に、取得部２０２０によって取得された各第１訓練画像５２に対して対象クラスの物体を検出する処理を行い、検出された物体の数をサブクラスごとにカウントする。これにより、訓練画像群におけるサブクラスごとの出現数が特定される。訓練実行部２０４０は、各サブクラスの出現数に基づいて、各サブクラスの重みを決定する。この重みは、出現数が少ないサブクラスの重みほど大きくなるように決定される。

＜＜負例パッチ５２４の抽出方法＞＞
　訓練実行部２０４０は、第１訓練画像５２に含まれる領域のうち、正例パッチ５２２として抽出された領域以外の領域から任意に（例えばランダムに）パッチサイズの領域を抽出し、その領域を負例パッチ５２４として利用する。前述したように、１つのパッチセットには複数の負例パッチ５２４が含まれてもよい。１つのパッチセットに含まれる負例パッチ５２４の数は、予め定めておく。

＜＜正例パッチ２２の抽出方法＞＞
　訓練実行部２０４０は、正例パッチ５２２が抽出された第１訓練画像５２上の位置と対応する出力画像２０の位置から、正例パッチ２２を抽出する。すなわち、正例パッチ２２の抽出の起点とするピクセルの座標には、正例パッチ５２２の抽出の起点として利用された座標と同一の座標が利用される。

＜その他の方法＞
　上述のモデル訓練装置２０００では、対象クラスの画像領域から重点的に正例パッチ５２２を抽出することにより、対象クラスの物体の特徴が特に高い精度で学習されるようにしている。しかしながら、対象クラスの物体の特徴が高い精度で学習されるようにする方法は、特定領域から重点的に正例パッチ５２２を抽出するという方法に限定されない。

　例えばモデル訓練装置２０００は、特定領域から重点的に正例パッチ５２２を抽出することに加え、又はこれに代えて、特定領域から抽出された正例パッチ５２２に対応する特徴を用いて算出される損失（例えば前述したクロスエントロピー損失）の影響が、他の領域から抽出された正例パッチ５２２に対応する特徴量を用いて算出される損失の影響よりも大きくなるように、パッチワイズコントラスティブ損失を算出する。なお、特定領域から重点的に正例パッチ５２２を抽出するという手法を採用しない場合、例えば正例パッチ５２２は、第１訓練画像５２の任意の箇所から同確率で抽出される。

　以下、正例パッチ５２２が特定領域の中と外のどちらから抽出されたかにより、その正例パッチ５２２に対応する特徴量に基づく損失の影響度を決める方法について説明する。

　例えば訓練実行部２０４０は、以下の式（９）を用いてパッチワイズコントラスティブ損失を算出する。

　式（７）では、パッチセットごとに算出される損失に対し、そのパッチセットに含まれる正例パッチ５２２が特定領域の中から抽出された場合には重み a が掛けられる一方、そのパッチセットに含まれる正例パッチ５２２が特定領域の外から抽出された場合には重み b が掛けられる。a>b>0であることから、正例パッチ５２２が特定領域の中から抽出された場合における損失の影響が、正例パッチ５２２が特定領域の外から抽出された場合における損失の影響よりも大きくなる。

　なお、前述した式（７）や（８）を用いてパッチワイズコントラスティブ損失を算出する場合についても同様とすることができる。すなわち、特徴抽出モデル１１０の複数のレイヤから特徴マップが得られる場合、各レイヤから得られた特徴マップについて算出する損失において、上述した重み付けを行うようにする。

　また、w_s と同様の重みが、第１損失、第２喪失、及び第３損失の算出に利用されてもよい。この場合、例えば以下の式（１０）でこれらの損失を算出することができる。

　複数のレイヤから特徴マップが得られる場合、特徴マップの１つのセルに対応する入力画像の部分領域のサイズとパッチサイズとの関係に基づいて、レイヤごとに重みを設定したり、特定のレイヤのみに重みを付したりしてもよい。以下、この方法について説明する。

　複数のレイヤから特徴マップが得られる場合、特徴マップの１つのセルに対応する入力画像の部分領域のサイズは、特徴マップごと（レイヤごと）に異なる。例えば、各レイヤにおいてサイズ 3x3 のフィルタの畳み込み処理が行われるとする。この場合、１番目の特徴マップの１つのセルは、入力画像におけるサイズ 3x3 の部分領域に対応する。また、２番目の特徴マップの１つのセルは、１番目の特徴マップにおけるサイズ 3x3 のセルの集合に対応する。このことから、２番目の特徴マップの１つのセルは、入力画像におけるサイズ 9x9 の領域に対応する。同様の理由により、３番目の特徴マップの１つのセルは、入力画像におけるサイズ 27x27 の領域に対応する。このように、後段のレイヤによって生成される特徴マップほど、入力画像のより大きい部分領域に対応する。

　この点、第１訓練画像５２についてそれぞれ異なるレイヤから生成される複数の特徴マップにおいて、１つのセルに対応する第１訓練画像５２の部分領域のサイズがパッチサイズに近い特徴マップほど、正例パッチ５２２の特徴をより正確に表していると考えられる。負例パッチ５２４や正例パッチ２２についても同様である。

　そこで例えば、訓練実行部２０４０は、１つのセルに対応する第１訓練画像５２の部分領域のサイズがパッチサイズにより近い特徴マップほど、その特徴マップから抽出された特徴量に対してより大きい重みを付すように、パッチワイズコントラスティブ損失を算出する。正例パッチ２２と負例パッチ５２４についても同様である。この場合、例えばパッチワイズコントラスティブ損失は、以下の式（１１）を用いて算出される。

　ここで、z_p はパッチサイズである。z_l は、l 番目のレイヤから抽出された特徴マップの１つのセルに対応する入力画像（第１訓練画像５２又は出力画像２０）の部分領域のサイズである。f()は、zp と zl の差異が小さいほど大きい値を出力する関数である。なお、f()>0である。

　なお、z_p と z_l の差異が最小のレイヤ l についてのみ１より大きい重みを付し、他のレイヤについては重みを付さないようにすることで、特徴マップのセルに対応する入力画像の部分領域のサイズがパッチサイズに最も近くなるレイヤのみに重みを付してもよい。また、z_p と z_l の差異が小さい順で上位所定個のレイヤについてのみ１より大きい重みを付すといった方法が採用されてもよい。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得手段と、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行手段と、を有し、
　前記訓練実行手段は、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、モデル訓練装置。
　（付記２）
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、付記１に記載のモデル訓練装置。
　（付記３）
　前記訓練実行手段は、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、付記２に記載のモデル訓練装置。
　（付記４）
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行手段は、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、付記１から３いずれか一項に記載のモデル訓練装置。
　（付記５）
　前記訓練実行手段は、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行手段は、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、付記４に記載のモデル訓練装置。
　（付記６）
　前記取得手段は、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行手段は、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、付記１から５いずれか一項に記載のモデル訓練装置。
　（付記７）
　コンピュータによって実行されるモデル訓練方法であって、
　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得ステップと、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行ステップと、を有し、
　前記訓練実行ステップにおいて、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、モデル訓練方法。
　（付記８）
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、付記７に記載のモデル訓練方法。
　（付記９）
　前記訓練実行ステップにおいて、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、付記８に記載のモデル訓練方法。
　（付記１０）
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行ステップにおいて、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、付記７から９いずれか一項に記載のモデル訓練方法。
　（付記１１）
　前記訓練実行ステップにおいて、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行ステップにおいて、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、付記１０に記載のモデル訓練方法。
　（付記１２）
　前記取得ステップにおいて、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行ステップにおいて、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、付記７から１１いずれか一項に記載のモデル訓練方法。
　（付記１３）
　コンピュータに、
　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得ステップと、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行ステップと、を実行させるプログラムが格納されており、
　前記訓練実行ステップにおいて、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、非一時的なコンピュータ可読媒体。
　（付記１４）
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、付記１３に記載のコンピュータ可読媒体。
　（付記１５）
　前記訓練実行ステップにおいて、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、付記１４に記載のコンピュータ可読媒体。
　（付記１６）
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行ステップにおいて、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、付記１３から１５いずれか一項に記載のコンピュータ可読媒体。
　（付記１７）
　前記訓練実行ステップにおいて、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行ステップにおいて、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、付記１６に記載のコンピュータ可読媒体。
　（付記１８）
　前記取得ステップにおいて、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行ステップにおいて、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、付記１３から１７いずれか一項に記載のコンピュータ可読媒体。

１０　　　　　　入力画像
２０　　　　　　出力画像
２２　　　　　　正例パッチ
３０　　　　　　入力画像
４０　　　　　　識別データ
５０　　　　　　第１訓練データセット
５２　　　　　　第１訓練画像
５４　　　　　　第１クラス情報
６０　　　　　　第２訓練データセット
６２　　　　　　第２訓練画像
６４　　　　　　第２クラス情報
７０　　　　　　第３訓練画像
１００　　　　　　画像変換モデル
１１０　　　　　　特徴抽出モデル
１２０　　　　　　画像生成モデル
１３０　　　　　　第１特徴マップ
１４０　　　　　　第２特徴マップ
２００　　　　　　識別モデル
２１０　　　　　　エンコーダ
２２０　　　　　　デコーダ
４００　　　　　　抽出確率マップ
４１０　　　　　　特定領域
５２２　　　　　　正例パッチ
５２４　　　　　　負例パッチ
１０００　　　　　コンピュータ
１０２０　　　　　バス
１０４０　　　　　プロセッサ
１０６０　　　　　メモリ
１０８０　　　　　ストレージデバイス
１１００　　　　　入出力インタフェース
１１２０　　　　　ネットワークインタフェース
２０００　　　　　モデル訓練装置
２０２０　　　　　取得部
２０４０　　　　　訓練実行部

Claims

　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得手段と、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行手段と、を有し、
　前記訓練実行手段は、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、モデル訓練装置。
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、請求項１に記載のモデル訓練装置。
　前記訓練実行手段は、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、請求項２に記載のモデル訓練装置。
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行手段は、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、請求項１から３いずれか一項に記載のモデル訓練装置。
　前記訓練実行手段は、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行手段は、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、請求項４に記載のモデル訓練装置。
　前記取得手段は、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行手段は、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、請求項１から５いずれか一項に記載のモデル訓練装置。
　コンピュータによって実行されるモデル訓練方法であって、
　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得ステップと、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行ステップと、を有し、
　前記訓練実行ステップにおいて、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、モデル訓練方法。
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、請求項７に記載のモデル訓練方法。
　前記訓練実行ステップにおいて、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、請求項８に記載のモデル訓練方法。
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行ステップにおいて、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、請求項７から９いずれか一項に記載のモデル訓練方法。
　前記訓練実行ステップにおいて、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行ステップにおいて、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、請求項１０に記載のモデル訓練方法。
　前記取得ステップにおいて、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行ステップにおいて、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、請求項７から１１いずれか一項に記載のモデル訓練方法。
　コンピュータに、
　第１環境下のシーンを表す第１訓練画像と、前記第１訓練画像に含まれる複数の画像領域それぞれのクラスを示す第１クラス情報とを含む第１訓練データセットを取得する取得ステップと、
　前記第１訓練データセットを用いて、前記第１環境下のシーンを表す画像が入力されたことに応じて第２環境下のシーンを表す画像を出力する画像変換モデルの訓練を行う訓練実行ステップと、を実行させるプログラムが格納されており、
　前記訓練実行ステップにおいて、前記第１訓練画像を前記画像変換モデルに入力し、前記画像変換モデルから出力された第１出力画像を識別モデルに入力し、前記識別モデルから出力された識別データと前記第１クラス情報とを用いて第１損失を算出し、前記第１損失を用いて前記画像変換モデルのパラメータを更新し、
　前記識別データは、前記識別モデルに入力された画像に含まれる複数の部分領域それぞれについて、その部分領域が偽の画像領域であるか否かを示し、かつ、その部分領域が偽の画像でない場合にはその部分領域のクラスを示す、非一時的なコンピュータ可読媒体。
　前記第１損失は、前記識別データによって示されているクラスと前記第１クラス情報によって示されているクラスとが一致する画像領域が多いほど小さい、請求項１３に記載のコンピュータ可読媒体。
　前記訓練実行ステップにおいて、特定のクラスに属する画像領域に対して、前記特定のクラスに属さない画像領域よりも大きい重みを与えて、前記第１損失を算出する、請求項１４に記載のコンピュータ可読媒体。
　前記画像変換モデルは、入力された画像から特徴マップを抽出する特徴抽出モデルを含み、
　前記訓練実行ステップにおいて、
　　前記第１訓練画像を前記画像変換モデルに入力して、前記第１出力画像と、前記第１訓練画像の前記特徴マップである第１特徴マップとを前記画像変換モデルから取得し、
　　前記第１出力画像を前記特徴抽出モデルに入力して、前記第１出力画像の前記特徴マップである第２特徴マップを前記特徴抽出モデルから取得し、
　　前記第１特徴マップと前記第２特徴マップを用いて算出される特徴損失と、前記第１損失との双方を用いて、前記画像変換モデルをパラメータを更新する、請求項１３から１５いずれか一項に記載のコンピュータ可読媒体。
　前記訓練実行ステップにおいて、
　　前記第１訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記第１出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
　　前記第１特徴マップから前記第１正例パッチと前記第１負例パッチそれぞれに対応する特徴量を抽出し、前記第２特徴マップから前記第２正例パッチに対応する特徴量を抽出し、各前記抽出した特徴量を用いて前記特徴損失を算出し、
　前記訓練実行ステップにおいて、
　　前記パッチセットの生成において、前記第１訓練画像に含まれる領域のうち、特定のクラスに属する特定領域から重点的に前記第１正例パッチを抽出するか、又は、
　　前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるように、前記特徴損失を算出する、請求項１６に記載のコンピュータ可読媒体。
　前記取得ステップにおいて、前記第１環境下のシーンを表す第２訓練画像と、前記第２訓練画像に含まれる複数の画像領域それぞれのクラスを示す第２クラス情報とを含む第２訓練データセット、及び前記第２環境下のシーンを表す第３訓練画像を取得し、
　前記訓練実行ステップにおいて、
　　前記第２訓練画像を前記画像変換モデルに入力することで得られる第２出力画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データと前記第２クラス情報とを用いて第２損失を算出し、
　　前記第３訓練画像を前記識別モデルに入力し、前記識別モデルから出力された前記識別データを用いて第３損失を算出し、
　　前記第２損失及び前記第３損失を用いて前記識別モデルのパラメータを更新する、請求項１３から１７いずれか一項に記載のコンピュータ可読媒体。