JPWO2019146057A1

JPWO2019146057A1 - 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム

Info

Publication number: JPWO2019146057A1
Application number: JP2019567481A
Authority: JP
Inventors: 大地小野
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2020-10-01
Anticipated expiration: 2038-01-26
Also published as: US11308367B2; US20210064912A1; JP7013489B2; WO2019146057A1

Abstract

ターゲットドメインに属する画像の分類精度を向上できる学習装置、学習方法及びプログラムを提供する。分類学習部（７４）は、特徴量データを分類部（３２）に入力した際の出力と、ソースドメイン学習画像に対応付けられる複数のクラスについての教師データと、の比較結果に基づいて、特徴量抽出部（７２）及び分類部（３２）の学習を実行する。分割部（５０）は、画像の入力に応じて特徴量抽出部（７２）が出力する特徴量データを、それぞれ１又は複数のクラスの特徴マップを含む当該画像に対応する複数の部分特徴量データに分割する。ドメイン識別学習部（７６）は、ドメイン識別部（５６）に画像に対応する部分特徴量データを入力した際の出力と、当該画像がソースドメインに属するかターゲットドメインに属するかを示すデータと、の比較結果に基づいて、特徴量抽出部（７２）の学習を実行する。

Description

本発明は、学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラムに関する。

ソースドメインに属する学習画像を学習した機械学習モデルを用いて、ターゲットドメインに属する画像についての、複数のクラスへの分類処理を実行するドメインアダプテーションの技術が知られている。ここで複数のクラスへの分類処理の一例として、例えば入力された画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味を特定するセマンティックセグメンテーションが挙げられる。また複数のクラスへの分類処理の別の例としては、入力された画像が何の画像であるかを特定する画像分類や、入力された画像内のどこに何が配置されているのかを特定する画像検出などが挙げられる。

ドメインアダプテーションでは、まず、ソースドメインに属する学習画像の教師あり学習が実行される。ここでは例えば、未学習である分類装置に含まれる特徴量抽出部が、学習画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する。このようにして特徴量抽出部により出力される特徴量データは、当該分類装置に含まれる分類部に入力される。当該分類部は、当該特徴量データの入力に応じて、複数のクラスについての当該学習画像の分類処理の結果を出力する。そして当該出力と、当該学習画像に対応付けられる複数のクラスについての教師データと、の比較結果に基づいて、特徴量抽出部及び分類部の学習が実行される。

その後、ソースドメインに属する学習画像とターゲットドメインに属する学習画像とを用いた教師なし学習が実行される。この教師なし学習では、学習画像がソースドメインに属するかターゲットドメインに属するかを示すデータは必要であるが、上述の複数のクラスについての教師データは不要である。

当該教師なし学習では例えば、分類装置に含まれる特徴量抽出部が、学習画像の入力に応じて上述の特徴量データを出力する。当該特徴量データは、ソースドメインに属する画像とターゲットドメインに属する画像とを識別するドメイン識別部に入力される。そして当該特徴量データが当該ドメイン識別部に入力された際の出力と、当該学習画像がソースドメインに属するかターゲットドメインに属するかを示すデータとの比較結果に基づいて、特徴量抽出部及びドメイン識別部の学習が実行される。

従来のドメインアダプテーションでは、上述の教師なし学習において所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データの全体がドメイン識別部に入力されていた。

そのため上述の教師なし学習において特徴量抽出部及びドメイン識別部についての学習精度が充分でなく、その結果ターゲットドメインに属する画像の分類精度が充分に得られないことがあった。

また従来のドメインアダプテーションの技術において、ＣＧ画像によって学習済である１つの機械学習モデルを用いて、複数のユーザのそれぞれの環境に適応した、実写画像の分類処理を実行することは提案されていない。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、ターゲットドメインに属する画像の分類精度を向上できる学習装置、学習方法及びプログラムを提供することにある。

また本発明の別の目的の１つは、ＣＧ画像によって学習済である１つの機械学習モデルを用いて、複数のユーザのそれぞれの環境に適応した、実写画像についての複数のクラスへの分類処理を実行する実写画像分類装置を生成できる実写画像分類装置の生成システム及び実写画像分類装置の生成装置を提供することにある。

上記課題を解決するために、本発明に係る学習装置は、画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習を実行する学習装置であって、ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行する分類学習部と、それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割する分割部と、前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行するドメイン識別学習部と、を含む。

本発明の一態様では、前記ドメイン識別学習部は、複数の前記部分特徴量データのそれぞれについての、当該部分特徴量データを前記ドメイン識別部に入力した際の出力に応じた目的関数の値の重み付き和に基づいて、前記特徴量抽出部の学習を実行する。

あるいは、前記ドメイン識別部は、前記分割部により分割される複数の前記部分特徴量データにそれぞれ対応する複数のサブドメイン識別部、を含み、前記ドメイン識別学習部は、前記部分特徴量データを当該部分特徴量データに対応する前記サブドメイン識別部に入力した際の出力に基づいて、前記特徴量抽出部の学習を実行する。

また、本発明に係る実写画像分類装置の生成システムは、サーバと、複数の装置と、を含み、前記サーバは、ＣＧ画像によって学習済である、ＣＧ画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力するＣＧ特徴量抽出部と、当該特徴量データの入力に応じて前記特徴量抽出部に入力された画像についての前記複数のクラスへの分類処理の結果を出力する分類部と、を含む機械学習モデルを、前記複数の装置のそれぞれに送信する送信部、を含み、前記複数の装置のそれぞれは、前記サーバが送信する前記機械学習モデルを受信する受信部と、当該装置を利用するユーザの環境における実写画像と、学習済の前記機械学習モデルと、に基づいて、当該ユーザの環境における実写画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する実写特徴量抽出部の学習を実行する学習部と、学習済の前記実写特徴量抽出部と、前記機械学習モデルに含まれる学習済の前記分類部と、に基づいて、前記ユーザの環境における実写画像についての前記複数のクラスへの分類処理を実行する実写画像分類装置を生成する生成部と、を含む。

また、本発明に係る実写画像分類装置の生成装置は、ＣＧ画像によって学習済である、ＣＧ画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力するＣＧ特徴量抽出部と、当該特徴量データの入力に応じて前記特徴量抽出部に入力された画像についての前記複数のクラスへの分類処理の結果を出力する分類部と、を含む機械学習モデルをサーバから受信する受信部と、ユーザの環境における実写画像と、学習済である前記機械学習モデルと、に基づいて、当該ユーザの環境における実写画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する実写特徴量抽出部の学習を実行する学習部と、学習済の前記実写特徴量抽出部と、前記機械学習モデルに含まれる学習済の前記分類部と、に基づいて、前記ユーザの環境における実写画像についての前記複数のクラスへの分類処理を実行する実写画像分類装置を生成する生成部と、を含む。

また、本発明に係る学習方法は、画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習を実行する学習方法であって、ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行するステップと、それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割するステップと、前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行するステップと、を含む。

また、本発明に係るプログラムは、画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習をコンピュータに実行させるプログラムであって、ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行する手順、それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割する手順、前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行する手順、を前記コンピュータに実行させる。

本発明の一実施形態に係る画像処理装置の構成図である。本発明の一実施形態に係る画像処理装置における分類学習の一例を示す図である。本発明の一実施形態に係る画像処理装置におけるドメイン識別学習の一例を示す図である。本発明の一実施形態に係る画像処理装置における分類処理の一例を示す図である。本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る画像処理装置で行われる分類学習の処理の流れの一例を示すフロー図である。本発明の一実施形態に係る画像処理装置で行われるドメイン識別学習の処理の流れの一例を示すフロー図である。本発明の一実施形態に係る実写画像分類装置の生成システムの構成図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る画像処理装置１０の構成図である。本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８、通信部２０を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

通信部２０は、ネットワークボードや無線ＬＡＮモジュールなどの通信インタフェースなどである。

なお、画像処理装置１０は、ＤＶＤ−ＲＯＭやＢｌｕ−ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る画像処理装置１０では、ドメインアダプテーションの技術により、ソースドメインに属する学習画像を学習した機械学習モデルを用いた、ターゲットドメインに属する画像についての複数のクラスへの分類処理が実行される。具体的には例えば、コンピュータグラフィック（ＣＧ）画像を学習した機械学習モデルを用いた、実写画像についてのセマンティックセグメンテーションが実行される。なお本実施形態に係る画像処理装置１０の適用範囲はセマンティックセグメンテーションに限定されず、例えば入力された画像が何の画像であるかを特定する画像分類や、入力された画像内のどこに何が配置されているのかを特定する画像検出にも適用可能である。

以下、本実施形態に係る画像処理装置１０における機械学習モデルの学習の一実装例について説明する。

本実施形態ではまず、図２に示すように、ソースドメインに属する画像を用いた、ソースドメイン特徴量抽出部３０及び分類部３２の教師あり学習が実行される。ソースドメイン特徴量抽出部３０は、例えば畳み込みニューラルネットワーク（ＣＮＮ）における畳み込み層やプーリング層を含んで実装される。またソースドメイン特徴量抽出部３０に、ＣＮＮにおける逆畳み込み層が含まれていてもよい。分類部３２は、例えば、ＣＮＮにおける畳み込み層、プーリング層、全結合層を含んで実装される。

以下、当該教師あり学習を分類学習と呼ぶこととする。また、分類学習に用いられるソースドメインに属する画像を、ソース分類学習画像と呼ぶこととする。上述のように、ソース分類学習画像の一例としては、ＣＧ画像が挙げられる。

分類学習では、ソース分類学習画像が入力３４としてソースドメイン特徴量抽出部３０に入力される。そしてソースドメイン特徴量抽出部３０が、ソース分類学習画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データ３６を出力する。ここで当該複数のクラスのそれぞれは、例えばセマンティックセグメンテーションの対象となる画像に含まれる各画素について推定される、当該画素が表す物体などといった当該画素の意味に対応付けられる。

本実施形態では例えば、特徴量データ３６のサイズは、Ｗ×Ｈ×ｎであることとする。ここで例えば、値Ｗは、ソース分類学習画像の横の画素数を示す値であり、値Ｈは、ソース分類学習画像の縦の画素数を示す値であり、値ｎは、上述の所与の複数のクラスにおけるクラス数を示す値である。すなわち、ソース分類学習画像とサイズが同じである特徴マップをクラス数だけ含む特徴量データ３６が出力されることとなる。

そしてソースドメイン特徴量抽出部３０が出力する特徴量データ３６が分類部３２に入力される。分類部３２は、特徴量データ３６の入力に応じて、ソース分類学習画像のそれぞれの画素についての、当該画素がそれぞれのクラスに属する可能性の高さを示すデータを出力３８として出力する。１個の画素に対応付けられる出力３８は、例えば、ｎ個の要素ｕ１（ｋ１）（ｋ１＝１〜ｎ）を含むベクトルとして表現される。ここで値ｎはクラス数であり、値ｋ１はクラスに対応付けられる番号（クラス識別子）である。

そして本実施形態では、出力３８とソース分類学習画像に対応付けられた教師データとが比較される。ここで教師データは、各画素に対応付けられるｏｎｅ−ｏｆ−ｎベクトルによって表現される。例えばクラス識別子がｊ１であるクラスに属する画素の教師データは、ｊ１番目の要素が１であり他の要素が０である、要素数がｎのベクトルｄ１として表現される。

ここで例えば、当該出力３８とソース分類学習画像に対応付けられた教師データとの比較結果が、目的関数の値Ｌ１として表現されてもよい。例えば以下の式（１）における値Ｌ１が当該目的関数の値Ｌ１とされてもよい。なお式（１）における、値ｘはソース分類学習画像のｘ座標値、値ｙはソース分類学習画像のｙ座標値である。値ｄ１（ｊ１）（ｘ，ｙ）はソース分類学習画像における座標値（ｘ，ｙ）の画素に対応する教師データのｊ１番目の要素の値である。値ｐ１（ｊ１）（ｘ，ｙ）は、ソース分類学習画像における座標値（ｘ，ｙ）の画素に対応するソフトマックスクロスエントロピーのｊ１番目の要素の値である。

式（１）に示すようにここでは例えば、各クラスについて、ソース分類学習画像における座標値（ｘ，ｙ）の画素に対応する教師データの要素の値ｄ１（ｊ１）（ｘ，ｙ）とソフトマックスクロスエントロピーの値ｐ１（ｊ１）（ｘ，ｙ）の対数との積が算出される。そして各クラスについて算出される当該積の総和が算出される。そしてソース分類学習画像に含まれる各画素について算出される当該総和の合計をＷとＨの積で割ることによって平均化した値の符号を反転させた値が目的関数の値Ｌ１として算出される。

ここで例えば、ソフトマックスクロスエントロピーの値ｐ１（ｊ１）は、以下の式（２）で計算される値である。

式（２）に示すように例えば、出力３８のｊ１番目の要素ｕ１（ｊ１）の値を引数とする指数関数の値を、出力３８の要素ｕ１の値を引数とする指数関数の値を各要素について合計した値で割った値が、ソフトマックスクロスエントロピーの値ｐ１（ｊ１）となる。

本実施形態では、ソース分類学習画像の入力に応じて算出される目的関数の値Ｌ１が極小化されるよう、ソースドメイン特徴量抽出部３０及び分類部３２を構成する要素の重み係数等のパラメータの値が変更される。そして本実施形態では例えば、複数のソース分類学習画像の入力に応じてソースドメイン特徴量抽出部３０及び分類部３２を構成する要素のパラメータの値の変更が実行されることにより、ソースドメイン特徴量抽出部３０及び分類部３２の学習が実行される。

上述の分類学習が実行されると、次に、図３に示すように、ソースドメインに属する画像とターゲットドメインに属する画像とを用いた教師なし学習が実行される。以下、当該教師なし学習をドメイン識別学習と呼ぶこととする。またドメイン識別学習に用いられる、ソースドメインに属する画像をソースドメイン学習画像と呼び、ドメイン識別学習に用いられる、ターゲットドメインに属する画像をターゲットドメイン学習画像と呼ぶこととする。上述のように、ソースドメイン学習画像の一例としては、ＣＧ画像が挙げられ、ターゲットドメイン学習画像の一例としては実写画像が挙げられる。なお分類学習に用いられたソース分類学習画像をソースドメイン学習画像として流用してもよい。

なお以下ではドメイン識別学習の一例として、ＡＤＤＡ（Adversarial Discriminative Domain Adaptation）の技術を用いたものについて説明する。なお以下で説明するドメイン識別学習の実装例はあくまでもドメイン識別学習の一実装例にすぎず、他の技術によりドメイン識別学習が実装されてもよい。

ドメイン識別学習における初期状態では、ソースドメイン特徴量抽出部３０のコピーがターゲットドメイン特徴量抽出部４０として設定される。すなわち初期状態では、ターゲットドメイン特徴量抽出部４０を構成する各要素のパラメータの値は、ソースドメイン特徴量抽出部３０を構成する各要素のパラメータの値と同じになる。

ドメイン識別学習では、ソースドメイン学習画像については、入力４２としてソースドメイン特徴量抽出部３０に入力される。そしてソースドメイン特徴量抽出部３０が、ソースドメイン学習画像の入力に応じて上述の所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データ４４を出力する。またターゲットドメイン学習画像については、入力４６としてターゲットドメイン特徴量抽出部４０に入力される。そしてターゲットドメイン特徴量抽出部４０が、ターゲットドメイン学習画像の入力に応じて上述の所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データ４８を出力する。

ここで本実施形態では、ソースドメイン学習画像やターゲットドメイン学習画像の画素数は、ソース分類学習画像と同じＷ×Ｈであることとする。そして特徴量データ４４や特徴量データ４８のサイズは、Ｗ×Ｈ×ｎであることとする。ここで例えば、値Ｗは、ソースドメイン学習画像及びターゲットドメイン学習画像の横の画素数であり、値Ｈは、ソースドメイン学習画像及びターゲットドメイン学習画像の縦の画素数であり、値ｎは、上述のクラス数である。

そして分割部５０が、ソースドメイン特徴量抽出部３０が出力する特徴量データ４４を、それぞれ１又は複数のクラスの特徴マップを含む複数の部分特徴量データ５２に分割する。また分割部５０は、ターゲットドメイン特徴量抽出部４０が出力する特徴量データ４８を、それぞれ１又は複数のクラスの特徴マップを含む複数の部分特徴量データ５４に分割する。ここで例えば、特徴量データ４４は、クラス数であるｎ個に分割され、それぞれサイズがＷ×Ｈである１クラスの特徴マップを含むｎ個の部分特徴量データ５２が生成されることとする。また特徴量データ４８についても同様に、クラス数であるｎ個に分割され、それぞれサイズがＷ×Ｈである１クラスの特徴マップを含むｎ個の部分特徴量データ５４が生成されることとする。

そして本実施形態では例えば、ソースドメインに属する画像とターゲットドメインに属する画像とを識別するドメイン識別部５６に部分特徴量データ５２又は部分特徴量データ５４が入力される。ドメイン識別部５６は、部分特徴量データ５２又は部分特徴量データ５４の入力に応じて、部分特徴量データ５２が入力された可能性の高さ及び部分特徴量データ５４が入力された可能性の高さを示すデータを出力５８として出力する。すなわちドメイン識別部５６は、入力された部分特徴量データがソースドメイン学習画像に基づくものである可能性の高さ及びターゲットドメイン学習画像に基づくものである可能性の高さを示すデータを出力５８として出力する。

本実施形態では例えば、１個のソースドメイン学習画像に基づいて生成されるｎ個の部分特徴量データ５２又は１個のターゲットドメイン学習画像に基づいて生成されるｎ個の部分特徴量データ５４がドメイン識別部５６に入力される。そしてｎ個の部分特徴量データのそれぞれに対応する出力５８が特定される。例えばソースドメイン学習画像又はターゲットドメイン学習画像のそれぞれの画素についての、当該画素がソースドメイン学習画像の画素である可能性の高さ及びターゲットドメイン学習画像の画素である可能性の高さを示すデータが出力５８として出力される。画素に対応付けられる出力５８は、例えば、２個の要素ｕ２（ｋ２）（ｋ２＝１又は２）を含むベクトルとして表現される。ここで、値ｋ２はソースドメイン又はターゲットドメインに対応付けられる番号（ドメイン識別子）である。ここでは例えば、ｕ２（１）は当該画素がソースドメイン学習画像の画素である可能性の高さを示し、ｕ２（２）は当該画素がターゲットドメイン学習画像の画素である可能性の高さを示すこととする。

そして部分特徴量データ５２又は部分特徴量データ５４がドメイン識別部５６に入力された際の出力５８と、入力された画像がソースドメイン学習画像であるかターゲットドメイン学習画像であるかを示すデータとが比較される。

以下、ドメイン識別学習における、入力された画像がソースドメイン学習画像であるかターゲットドメイン学習画像であるかを示すデータをドメイン識別データと呼ぶこととする。ここで例えばドメイン識別データの値として、ソースドメイン又はターゲットドメインに対応付けられる値が設定されてもよい。ここで例えば、ソースドメイン学習画像に対応付けられるドメイン識別データの値が二次元ベクトル（１，０）で表現され、ターゲットドメイン学習画像に対応付けられるドメイン識別データの値が二次元ベクトル（０，１）で表現されてもよい。

そして本実施形態では、出力５８とドメイン識別データとが比較される。ここで例えば、ｉ番目のクラスに対応付けられる部分特徴量データ５２又は部分特徴量データ５４がドメイン識別部５６に入力された際の出力５８とドメイン識別データとの比較結果が、目的関数の値Ｌ２（ｉ）として表現されてもよい。例えば以下の式（３）における値Ｌ２（ｉ）が当該目的関数の値Ｌ２（ｉ）とされてもよい。なお式（３）における、値ｘはソースドメイン学習画像又はターゲットドメイン学習画像のｘ座標値、値ｙはソースドメイン学習画像又はターゲットドメイン学習画像のｙ座標値である。また、値ｄ２（ｊ２）は出力５８と比較されるドメイン識別データのｊ２番目の要素の値である。例えばドメイン識別データの値が（１，０）である場合は、値ｄ２（１）は１となり値ｄ２（２）は０となる。また例えば、ドメイン識別データの値が（０，１）である場合は、値ｄ２（１）は０となり値ｄ２（２）は１となる。また、値ｐ２（ｊ２）（ｘ，ｙ）は、ソースドメイン学習画像又はターゲットドメイン学習画像における座標値（ｘ，ｙ）の画素に対応するソフトマックスクロスエントロピーのｊ２番目の要素である。

式（３）に示すようにここでは例えば、各ドメインについて、ドメイン識別データの要素の値ｄ２（ｊ２）とソフトマックスクロスエントロピーの値ｐ２（ｊ２）（ｘ，ｙ）の対数との積が算出される。そして各ドメインについて算出される当該積の和が算出される。そしてソース分類学習画像に含まれる各画素について算出される当該和の合計をＷとＨの積で割ることによって平均化した値の符号を反転させた値が目的関数の値Ｌ２（ｉ）として算出される。

ここで例えば、ソフトマックスクロスエントロピーの値ｐ２（ｊ２）は、例えば、以下の式（４）で計算される値である。

式（４）に示すように例えば、出力５８のｊ２番目の要素ｕ２（ｊ２）の値を引数とする指数関数の値を、出力５８の要素ｕ２の値を引数とする指数関数の値を各要素について合計した値で割った値が、ソフトマックスクロスエントロピーの値ｐ２（ｊ２）となる。

そして本実施形態では、１個のソースドメイン学習画像に対応付けられるｎ個の部分特徴量データ５２又は１個のターゲットドメイン学習画像に対応付けられるｎ個の部分特徴量データ５４について、目的関数の値Ｌ２（ｉ）（ｉ＝１〜ｎ）が算出される。

そしてこのようにして算出されるｎ個の目的関数の値Ｌ２（ｉ）に基づいて、１個のソースドメイン学習画像又は１個のターゲットドメイン学習画像に対応付けられる目的関数の値Ｌ３が算出される。例えば以下の式（５）における値Ｌ３が当該目的関数の値Ｌ３に相当する。ここで値ａ（ｉ）は、例えばユーザによって任意に設定される、ｉ番目のクラスに対する重みを表す値である。

式（５）に示すように例えば、重みａ（ｉ）による、目的関数の値Ｌ２（ｉ）の重み付き和が、目的関数の値Ｌ３となる。

本実施形態では、算出される目的関数の値Ｌ３を最適化するよう、ターゲットドメイン特徴量抽出部４０又はドメイン識別部５６を構成する要素の重み係数などといったパラメータの値が変更される。

ここで例えば、ドメイン識別部５６のパラメータの値の変更と、ターゲットドメイン特徴量抽出部４０のパラメータの値の変更とが交互に実行されてもよい。ここでドメイン識別部５６のパラメータの値の変更の際には、ターゲットドメイン特徴量抽出部４０のパラメータの値は固定されるようにしてもよい。またターゲットドメイン特徴量抽出部４０のパラメータの値の変更の際には、ドメイン識別部５６のパラメータの値は固定されるようにしてもよい。

例えば所定数の画像を用いたドメイン識別部５６のパラメータの値の変更と所定数の画像を用いたターゲットドメイン特徴量抽出部４０のパラメータの値の変更とが、交互に繰り返し実行されるようにしてもよい。ここでドメイン識別部５６については、算出される目的関数の値Ｌ３を極小化するようパラメータの値が変更されてもよい。ターゲットドメイン特徴量抽出部４０については、算出される目的関数の値Ｌ３の正負を反転させた値を極小化するよう（目的関数の値Ｌ３を極大化するよう）パラメータの値が変更されてもよい。

以上で説明したように本実施形態に係るドメイン識別学習では、ドメイン識別データは必要であるが、上述のベクトルｄ１のような、複数のクラスについての教師データは不要である。

そして本実施形態では例えば、図４に示すように、以上のようにして分類学習及びドメイン識別学習が実行された機械学習モデルを分類装置として用いて、ターゲットドメインに属する画像についての複数のクラスへの分類処理が実行される。

図４に示すように、本実施形態に係る分類装置として、ドメイン識別学習による学習が実行されたターゲットドメイン特徴量抽出部４０と、分類学習による学習が実行された分類部３２と、が用いられる。

本実施形態に係る分類処理では例えば、分類処理の対象となるターゲットドメインに属する画像がターゲットドメイン特徴量抽出部４０に入力６０として入力される。そしてターゲットドメイン特徴量抽出部４０は、当該画像に対応する特徴量データ６２を出力する。当該特徴量データ６２は、分類部３２に入力される。そして分類部３２に当該特徴量データ６２が入力された際の出力６４に基づいて、ターゲットドメイン特徴量抽出部４０に入力された画像に対する分類処理を実行する。ここで例えば当該画像に対するセマンティックセグメンテーションの実行結果を示す画像が生成されるようにしてもよい。

セマンティックセグメンテーションの実行結果を示す画像は、例えば、上述の所与の複数のクラスのそれぞれに対応付けられる複数の領域に画素単位で分割された画像であってよい。ここで各領域が、当該領域に対応付けられるクラスに応じた色で表現されてもよい。こうすれば、ユーザはセマンティックセグメンテーションの実行結果を示す画像を表示部１８に表示させることなどによって、それぞれの領域について、当該領域に対応するクラスを確認できる。また当該画像が、自動車の自動運転制御などといった各種の制御における入力として用いられてもよい。

例えばドメイン識別学習において、分割部５０による分割が行われずに特徴量データ４４又は特徴量データ４８がドメイン識別部５６に入力されるとする。またこの場合に、ドメイン識別部５６の出力は、例えば、１個のソースドメイン学習画像又は１個のターゲットドメイン学習画像に対応する、２個の要素ｕ３（ｋ３）（ｋ３＝１又は２）を含むベクトルとして表現されることとする。

この場合における目的関数の値Ｌ４は、例えば、下記の式（６）により算出される。値ｄ３（ｊ３）はドメイン識別部５６の出力と比較されるドメイン識別データのｊ３番目の要素の値である。例えばドメイン識別データの値が（１，０）である場合は、値ｄ３（１）は１となり値ｄ３（２）は０となる。また例えば、ドメイン識別データの値が（０，１）である場合は、値ｄ３（１）は０となり値ｄ３（２）は１となる。また、値ｐ３（ｊ３）は、ソースドメイン学習画像又はターゲットドメイン学習画像に対応するソフトマックスクロスエントロピーのｊ３番目の要素である。

式（６）に示すようにここでは例えば、各ドメインについて、ドメイン識別データの要素の値ｄ３（ｊ３）とソフトマックスクロスエントロピーの値ｐ３（ｊ３）の対数との積が算出される。そして各ドメインについて算出される当該積の和が算出される。当該和の合計の符号を反転させた値が目的関数の値Ｌ４として算出される。

ここで例えば、ソフトマックスクロスエントロピーの値ｐ３（ｊ３）は、例えば、以下の式（７）で計算される値である。

式（７）に示すように例えば、出力のｊ３番目の要素ｕ３（ｊ３）の値を引数とする指数関数の値を、出力の要素ｕ３の値を引数とする指数関数の値を各要素について合計した値で割った値が、ソフトマックスクロスエントロピーの値ｐ３（ｊ３）となる。

上述の目的関数の値Ｌ３は、１個の画像に対応付けられる、個々のクラスに対応する部分特徴量データのドメイン識別部５６への入力に基づいて算出される目的関数の値Ｌ２（ｉ）に応じたものである。一方で、目的関数の値Ｌ４は、１個の画像に対応付けられる特徴量データの全体のドメイン識別部５６への入力に基づいて算出される。ここで特徴量データの全体よりも部分特徴量データの方が、その特徴には一定の傾向があるものと考えられる。そのためソースドメインに属する画像が入力されたかターゲットドメインに属する画像が入力されたかというドメイン識別部５６が解くべき課題は、部分特徴量データが入力される場合の方が特徴量データの全体が入力される場合よりも単純化されているといえる。

そのため本実施形態に係る画像処理装置１０では、特徴量データを分割した部分特徴量データによるドメイン識別学習を実行することにより、特徴量データ全体によるドメイン識別学習を実行するよりも高い学習精度を得ることができることとなる。その結果、本実施形態に係る画像処理装置１０では、ターゲットドメインに属する画像の分類精度を向上できることとなる。

なお目的関数の値Ｌ２（ｉ）として、式（３）に示したソフトマックスクロスエントロピーに基づくものの代わりに、以下の式（８）で計算される、二乗誤差に基づくものを用いてもよい。ここで例えば、式（８）における値ｕ２（ｊ２）（ｘ，ｙ）は、ソースドメイン学習画像又はターゲットドメイン学習画像における座標値（ｘ，ｙ）の画素に対応する出力５８のｊ２番目の要素の値である。

またドメイン識別部５６が、それぞれクラスに対応付けられるｎ個のサブドメイン識別部を含んでいてもよい。そして、ｉ番目のクラスに対応付けられる部分特徴量データ５２又は部分特徴量データ５４は、ｉ番目のサブドメイン識別部に入力されるようにしてもよい。そして、目的関数の値Ｌ２（ｉ）に基づいて、ｉ番目のサブドメイン識別部の学習が実行されるようにしてもよい。このようにすれば、クラスに応じたサブドメイン識別部の学習が実行されるため、ドメイン識別学習において高い学習精度を得ることができることとなる。

また例えば上述のＡＤＤＡの技術の代わりに、"Ganin, Y. and V. Lempitsky, Unsupervised domain adaptation by backpropagation. arXiv preprint arXiv:1409.7495, 2014."に記載されている技術を用いたドメイン識別学習が実行されるようにしてもよい。またこの場合に、ＡＤＤＡの技術を用いたドメイン識別学習と同様に、ドメイン識別部５６には、部分特徴量データが入力されるようにしてもよい。この技術では、ソースドメイン特徴量抽出部３０を構成する要素のパラメータの値と、ターゲットドメイン特徴量抽出部４０を構成する要素のパラメータの値と、は共通化されるようドメイン識別学習が行われる。当該ドメイン識別学習では、ソースドメインの画像とターゲットドメインの画像とを区別する特徴量を打ち消すような学習が実行される。その結果、分類処理において、ターゲットドメイン特徴量抽出部４０は、ドメインに依存しない特徴量データ６２を出力するようになる。

またこの技術によるドメイン識別学習では、１個の画像に対応するドメイン識別部５６の出力と当該画像に対応するドメイン識別データとの比較結果に基づいて、特徴量抽出部７２及びドメイン識別部５６の両方の学習が実行される。

またソースドメインに属する画像とターゲットドメインに属する画像は、それぞれ、ＣＧ画像と実写画像である必要はない。例えば、ソースドメインに属する画像が特定の季節に撮影された画像（例えば秋に撮影された画像）であり、ターゲットドメインに属する画像が別の季節に撮影された画像（例えば冬に撮影された画像）であってもよい。また例えば、ソースドメインに属する画像が特定の国で撮影された画像（例えば日本で撮影された画像）であり、ターゲットドメインに属する画像が別の国で撮影された画像（例えばアメリカで撮影された画像）であってもよい。

以下、分類学習及びドメイン識別学習に注目して、画像処理装置１０の機能及び画像処理装置１０で実行される処理についてさらに説明する。

図５は、本実施形態に係る画像処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１０で、図５に示す機能のすべてが実装される必要はなく、また、図５に示す機能以外の機能が実装されていても構わない。例えば本実施形態に係る画像処理装置１０には、図４を参照して説明したような分類装置の機能が実装されていてもよい。

図５に示すように、画像処理装置１０は、機能的には例えば、学習画像取得部７０、特徴量抽出部７２、分類部３２、分類学習部７４、分割部５０、ドメイン識別部５６、ドメイン識別学習部７６を含んでいる。また特徴量抽出部７２には、例えば、ソースドメイン特徴量抽出部３０と、ターゲットドメイン特徴量抽出部４０と、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

学習画像取得部７０は、本実施形態では例えば、画像処理装置１０に実装されている機械学習モデルの学習に用いられる学習画像を取得する。例えば学習画像取得部７０が、上述のソース分類学習画像や、ソースドメイン学習画像や、ターゲットドメイン学習画像を取得してもよい。

特徴量抽出部７２は、本実施形態では例えば、画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む、当該画像に対応する特徴量データを出力する。ここで例えば特徴量抽出部７２に含まれるソースドメイン特徴量抽出部３０には、ソース分類学習画像やソースドメイン学習画像が入力されるようにしてもよい。そしてソースドメイン特徴量抽出部３０は、入力されるソースドメイン学習画像に対応する特徴量データを出力してもよい。また例えば、特徴量抽出部７２に含まれるターゲットドメイン特徴量抽出部４０には、ターゲットドメイン学習画像が入力されるようにしてもよい。そしてターゲットドメイン特徴量抽出部４０は、入力されるターゲットドメイン学習画像に対応する特徴量データを出力してもよい。

分類部３２は、本実施形態では例えば、画像に対応する特徴量データの入力に応じて複数のクラスについての当該画像の分類処理の結果を出力する。例えば分類部３２は、ソース分類学習画像の入力に応じてソースドメイン特徴量抽出部３０が出力する特徴量データ３６の入力を受け付ける。そして分類部３２は、当該特徴量データ３６の入力に応じて上述の所与の複数のクラスについてのソース分類学習画像の分類処理の結果を出力する。

分類学習部７４は、本実施形態では例えば、上述の分類学習を実行する。分類学習部７４は例えば、ソース分類学習画像に対応する特徴量データ３６を分類部３２に入力した際の出力と、当該ソース分類学習画像に対応付けられる複数のクラスについての教師データと、の比較結果を特定する。そして分類学習部７４は、特定される比較結果に基づいて、特徴量抽出部７２及び分類部３２の学習を実行する。

分類学習部７４は、ソース分類学習画像をソースドメイン特徴量抽出部３０に入力してもよい。この場合、ソースドメイン特徴量抽出部３０は、当該ソース分類学習画像の入力に応じて当該ソース分類学習画像に対応する特徴量データ３６を出力して、当該特徴量データ３６を分類部３２に入力してもよい。そして分類部３２が上述のように当該ソース分類学習画像の分類処理の結果を出力してもよい。そして分類学習部７４が、ソースドメイン特徴量抽出部３０が出力する特徴量データ３６を分類部３２に入力した際の出力である当該結果に基づいて、ソースドメイン特徴量抽出部３０及び分類部３２の学習を実行してもよい。

分割部５０は、本実施形態では例えば、ソースドメイン学習画像又はターゲットドメイン学習画像の入力に応じて特徴量抽出部７２が出力する特徴量データを特定する。そして分割部５０は、本実施形態では例えば、特定される特徴量データを、それぞれ１又は複数のクラスの特徴マップを含む、当該ソースドメイン学習画像又は当該ターゲットドメイン学習画像に対応する複数の部分特徴量データに分割する。ここで上述のように特徴量データがｎ個に分割され、それぞれ１個のクラスの特徴マップを含むｎ個の部分特徴量データが生成されてもよい。

また例えば、特徴量抽出部７２が出力する特徴量データが、それぞれがｎ／ｍ個のクラスの特徴マップを含むｍ個の部分特徴量データに分割されてもよい。例えば自然物である物体に対応付けられるクラスと、人工物である物体に対応付けられるクラスとが、それぞれｎ／２個あるとする。この場合、特徴量データが、自然物である物体に対応付けられるｎ／２個のクラスの特徴マップを含む部分特徴量データと、人工物である物体に対応付けられるｎ／２個のクラスの特徴マップを含む部分特徴量データと、に分割されてもよい。

ドメイン識別部５６は、本実施形態では例えば、ソースドメインに属する画像とターゲットドメインに属する画像とを識別する。ドメイン識別部５６は、例えば、ソースドメイン学習画像又はターゲットドメイン学習画像に対応する１又は複数の部分特徴量データの入力を受け付ける。そしてドメイン識別部５６は、当該入力に応じて、入力された部分特徴量データがソースドメイン学習画像に基づくものである可能性の高さ及びターゲットドメイン学習画像に基づくものである可能性の高さを示すデータを出力する。

ドメイン識別学習部７６は、本実施形態では例えば、複数の画像を用いた特徴量抽出部７２及びドメイン識別部５６の学習を実行する。

ドメイン識別学習部７６は、例えばソースドメイン学習画像についてはソースドメイン特徴量抽出部３０に入力してもよい。この場合、分割部５０が、ソースドメイン特徴量抽出部３０が出力する当該ソースドメイン学習画像に対応する特徴量データ４４を複数の部分特徴量データ５２に分割してもよい。またドメイン識別学習部７６は、例えばターゲットドメイン学習画像についてはターゲットドメイン特徴量抽出部４０に入力してもよい。この場合、分割部５０が、ターゲットドメイン特徴量抽出部４０が出力する当該ターゲットドメイン学習画像に対応する特徴量データ４８を複数の部分特徴量データ５４に分割してもよい。

そしてドメイン識別学習部７６が、分割部５０によって生成された複数の部分特徴量データのそれぞれについて、ドメイン識別部５６に入力してもよい。そしてドメイン識別学習部７６が、特徴量抽出部７２及びドメイン識別部５６の学習を実行してもよい。ここで特徴量抽出部７２及びドメイン識別部５６の学習が、１個の画像に対応する複数の部分特徴量データにそれぞれに対応するドメイン識別部５６からの出力と当該画像に対応するドメイン識別データとの比較結果に基づいて実行されてもよい。ここで上述のように、ドメイン識別学習部７６が、ドメイン識別部５６からの出力とドメイン識別データとの比較結果に基づいて、ドメイン識別部５６の学習、又は、ターゲットドメイン特徴量抽出部４０の学習のいずれかを実行してもよい。

なお、ドメイン識別学習部７６は、分割部５０によって生成された部分特徴量データのすべてをドメイン識別部５６に入力する必要はない。例えば他のいずれのクラスにも分類されない「その他」のクラスに対応付けられる部分特徴量データはドメイン識別部５６に入力されなくてもよい。

また式（５）に示すように、ドメイン識別学習部７６が、複数の部分特徴量データのそれぞれについての、当該部分特徴量データをドメイン識別部５６に入力した際の出力に応じた目的関数の値の重み付き和に基づいて、特徴量抽出部７２の学習を実行してもよい。ここで例えば、ＣＧ画像と実写画像とで特徴が大きく異なるクラスの重みａ（ｉ）が他のクラスの重みａ（ｉ）よりも重くなるよう、重みａ（ｉ）が設定されてもよい。

また上述のように、ドメイン識別部５６が、分割部５０により分割される複数の部分特徴量データにそれぞれ対応する複数のサブドメイン識別部を含んでいてもよい。そしてドメイン識別学習部７６が、部分特徴量データを当該部分特徴量データに対応するサブドメイン識別部に入力した際の出力に基づいて、特徴量抽出部７２の学習を実行してもよい。

ここで、本実施形態に係る画像処理装置１０で行われる分類学習の処理の流れの一例を、図６に例示するフロー図を参照しながら説明する。ここでは例えば、ｑ１個のソース分類学習画像によって実行される分類学習の処理の流れの一例について説明することとする。

まず、分類学習部７４が、変数ｑ２の値として１を設定する（Ｓ１０１）。

そして分類学習部７４が、ｑ２番目のソース分類学習画像をソースドメイン特徴量抽出部３０に入力する（Ｓ１０２）。

するとソースドメイン特徴量抽出部３０は、Ｓ１０２に示す処理で入力されたソース分類学習画像に応じた特徴量データ３６を出力する（Ｓ１０３）。

すると分類部３２が、Ｓ１０３に示す処理でソースドメイン特徴量抽出部３０から出力された特徴量データ３６を受け付ける（Ｓ１０４）。

そして分類部３２が、Ｓ１０４に示す処理で入力された特徴量データに応じて、上述の所与の複数のクラスについての、Ｓ１０２に示す処理で入力されたソース分類学習画像の分類処理の結果を出力する（Ｓ１０５）。

そして分類学習部７４が、Ｓ１０５に示す処理における分類部３２の出力とＳ１０２に示す処理で入力されたソース分類学習画像に対応付けられる教師データとを比較する（Ｓ１０６）。ここでは例えば、上述の目的関数の値Ｌ１が算出されてもよい。

そして分類学習部７４が、Ｓ１０６に示す処理での比較の結果に基づいて、ソースドメイン特徴量抽出部３０及び分類部３２の学習を実行する（Ｓ１０７）。ここでは例えば、ソースドメイン特徴量抽出部３０及び分類部３２を構成する要素のパラメータの値が更新される。

そして分類学習部７４は、変数ｑ２の値がｑ１未満であるか否かを確認する（Ｓ１０８）。変数ｑ２の値がｑ１未満である場合は（Ｓ１０８：Ｙ）、分類学習部７４は、変数ｑ２の値を１増やして（Ｓ１０９）、Ｓ１０２に示す処理に戻る。変数ｑ２の値がｑ１未満でない場合は（Ｓ１０８：Ｎ）、本処理例に示す処理は終了される。

次に、本実施形態に係る画像処理装置１０で行われるドメイン識別学習の処理の流れの一例を、図７に例示するフロー図を参照しながら説明する。ここでは例えば、それぞれｑ３個の画像によって構成されるｒ１個の画像群によって実行されるドメイン識別学習の処理の流れの一例について説明することとする。ここで画像群に含まれる画像には、ソースドメイン学習画像とターゲットドメイン学習画像とが含まれることとする。また値ｒ１は偶数であることとする。

まず、ドメイン識別学習部７６が、変数ｑ４の値として１を設定し、変数ｒ２の値として１を設定する（Ｓ２０１）。

そしてドメイン識別学習部７６が、ｒ２番目の画像群に含まれる、ｑ４番目の画像を特徴量抽出部７２に入力する（Ｓ２０２）。ここで当該画像がソースドメイン学習画像である場合はソースドメイン特徴量抽出部３０に入力され、当該画像がターゲットドメイン学習画像である場合はターゲットドメイン特徴量抽出部４０に入力されるようにしてもよい。

そして特徴量抽出部７２は、Ｓ２０２に示す処理で入力された画像に応じた特徴量データを出力する（Ｓ２０３）。

そして分割部５０が、Ｓ２０３に示す処理で特徴量抽出部７２が出力した特徴量データを、複数の部分特徴量データに分割する（Ｓ２０４）。

そしてドメイン識別学習部７６は、Ｓ２０４に示す処理で生成された複数の部分特徴量データのそれぞれについて、ドメイン識別部５６に入力された際の出力を特定する（Ｓ２０５）。ここで例えば上述のように、Ｓ２０４に示す処理で生成された複数の部分特徴量データのすべてが共通のドメイン識別部５６に入力されてもよいし、クラスに対応付けられるサブドメイン識別部に当該クラスに対応する部分特徴量データが入力されてもよい。

そしてドメイン識別学習部７６は、Ｓ２０５に示す処理で特定される出力と当該出力に対応するドメイン識別データとを比較する（Ｓ２０６）。ここでは例えば、上述の目的関数の値Ｌ２（ｉ）、及び、値Ｌ２（ｉ）に応じた値Ｌ３が算出されてもよい。

そしてドメイン識別学習部７６が、変数ｒ２の値が奇数であるか偶数であるかを確認する（Ｓ２０７）。

変数ｒ２の値が奇数である場合は、ドメイン識別学習部７６が、Ｓ２０６に示す処理での比較の結果に基づいて、ターゲットドメイン特徴量抽出部４０の学習を実行する（Ｓ２０８）。ここでは例えば、ターゲットドメイン特徴量抽出部４０を構成する要素のパラメータの値が更新される。この場合は、Ｓ２０８に示す処理においてソースドメイン特徴量抽出部３０及びドメイン識別部５６を構成する要素のパラメータの値は固定される。

変数ｒ２の値が偶数である場合は、ドメイン識別学習部７６が、Ｓ２０６に示す処理での比較の結果に基づいて、ドメイン識別部５６の学習を実行する（Ｓ２０９）。ここでは例えば、ドメイン識別部５６を構成する要素のパラメータの値が更新される。この場合は、Ｓ２０９に示す処理においてソースドメイン特徴量抽出部３０及びターゲットドメイン特徴量抽出部４０を構成する要素のパラメータの値は固定される。

そしてドメイン識別学習部７６は、変数ｑ４の値がｑ３未満であるか否かを確認する（Ｓ２１０）。変数ｑ４の値がｑ３未満である場合は（Ｓ２１０：Ｙ）、ドメイン識別学習部７６は、変数ｑ４の値を１増やして（Ｓ２１１）、Ｓ２０２に示す処理に戻る。

変数ｑ４の値がｑ３未満でない場合は（Ｓ２１０：Ｎ）、ドメイン識別学習部７６は、変数ｒ２の値がｒ１未満であるか否かを確認する（Ｓ２１２）。変数ｒ２の値がｒ１未満である場合は（Ｓ２１２：Ｙ）、ドメイン識別学習部７６は、変数ｑ４の値を１に設定し、変数ｒ２の値を１増やして（Ｓ２１３）、Ｓ２０２に示す処理に戻る。

変数ｒ２の値がｒ１未満でない場合は（Ｓ２１２：Ｎ）、本処理例に示す処理は終了される。

以上のようにして、図７に示す処理例では、例えば、ｑ３個の画像によるターゲットドメイン特徴量抽出部４０の学習と、ｑ３個の画像によるドメイン識別部５６の学習と、が交互に実行されることとなる。

以下、ドメインアダプテーションの一活用例について説明する。

図８は、ドメインアダプテーションに一活用例に係る実写画像分類装置の生成システムの構成図である。図８に示すように本活用例に係る実写画像分類装置の生成システムには、インターネット等のコンピュータネットワーク８０を介して互いに通信可能である、サーバ８２と、複数の画像処理装置１０と、が含まれる。

図８に例示する画像処理装置１０には、上述のように、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８、通信部２０が含まれる。

またサーバ８２には、プロセッサ８２ａ、記憶部８２ｂ、通信部８２ｃ、が含まれる。プロセッサ８２ａは、例えばサーバ８２にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。記憶部８２ｂは、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部８２ｂには、プロセッサ８２ａによって実行されるプログラムなどが記憶される。通信部８２ｃは、ネットワークボードや無線ＬＡＮモジュールなどの通信インタフェースなどである。

本活用例では例えば、サーバ８２が、ＣＧ画像によって学習済である機械学習モデルを複数の画像処理装置１０のそれぞれに送信する。ここでは例えば１つの機械学習モデル（共通の機械学習モデル）が複数の画像処理装置１０のそれぞれに送信される。そして複数の画像処理装置１０のそれぞれは、サーバ８２が送信する機械学習モデルを取得する。当該機械学習モデルは、例えばＣＧ画像による分類学習が実行済である、ソースドメイン特徴量抽出部３０及び分類部３２に相当する。本活用例では例えば、ソースドメイン特徴量抽出部３０は、ＣＧ画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する。そして分類部３２は、当該特徴量データの入力に応じてソースドメイン特徴量抽出部３０に入力されたＣＧ画像についての複数のクラスへの分類処理の結果を出力する。ここで画像処理装置１０が、通信部２０を介して通信可能なサーバから当該学習済の機械学習モデルを受信してもよい。

そして複数の画像処理装置１０のそれぞれにおいて、ＣＧ画像と、当該画像処理装置１０を利用するユーザの環境における実写画像と、受信した学習済である機械学習モデルと、に基づいて、ドメイン識別学習部７６が、ドメイン識別学習を実行してもよい。ここでドメイン識別学習に用いられるＣＧ画像は、サーバ８２から受信した機械学習モデルの学習に用いられたＣＧ画像であってもよい。また例えば、ドメイン識別学習において、ユーザが撮影した実写画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力するターゲットドメイン特徴量抽出部４０の学習が実行されてもよい。

そして画像処理装置１０が、当該画像処理装置１０を利用するユーザの環境における実写画像についての複数のクラスへの分類処理を実行する実写画像分類装置を生成してもよい。この場合、例えば、学習済のターゲットドメイン特徴量抽出部４０と、取得した機械学習モデルに含まれる学習済の分類部３２と、に基づいて、実写画像分類装置が生成されてもよい。そしてこのようにして生成された実写画像分類装置を用いて、ユーザの環境における実写画像についての複数のクラスへの分類処理が実行されてもよい。

なお以上で説明した実写画像分類装置の生成におけるドメイン識別学習の実装は、図２〜図７を参照して説明した一実装例における実装には限定されない。図２〜図７を参照して説明した実装とは異なる実装により、実写画像分類装置の生成におけるドメイン識別学習が実行されてもよい。

以上のようにすれば、ＣＧ画像によって学習済である１つの機械学習モデルを用いて、複数のユーザのそれぞれの環境に適応した、実写画像についての複数のクラスへの分類処理を実行する実写画像分類装置を生成できる。

なお、以上の活用例における実写画像分類装置の生成に係る機能は、コンピュータであるサーバ８２や画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ８２や画像処理装置１０に供給されてもよい。

なお、本発明は上述の実施形態に限定されるものではない。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習を実行する学習装置であって、
ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行する分類学習部と、
それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割する分割部と、
前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行するドメイン識別学習部と、
を含むことを特徴とする学習装置。
前記ドメイン識別学習部は、複数の前記部分特徴量データのそれぞれについての、当該部分特徴量データを前記ドメイン識別部に入力した際の出力に応じた目的関数の値の重み付き和に基づいて、前記特徴量抽出部の学習を実行する、
ことを特徴とする請求項１に記載の学習装置。
前記ドメイン識別部は、前記分割部により分割される複数の前記部分特徴量データにそれぞれ対応する複数のサブドメイン識別部、を含み、
前記ドメイン識別学習部は、前記部分特徴量データを当該部分特徴量データに対応する前記サブドメイン識別部に入力した際の出力に基づいて、前記特徴量抽出部の学習を実行する、
ことを特徴とする請求項１に記載の学習装置。
サーバと、複数の装置と、を含み、
前記サーバは、
ＣＧ画像によって学習済である、ＣＧ画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力するＣＧ特徴量抽出部と、当該特徴量データの入力に応じて前記特徴量抽出部に入力された画像についての前記複数のクラスへの分類処理の結果を出力する分類部と、を含む機械学習モデルを、前記複数の装置のそれぞれに送信する送信部、を含み、
前記複数の装置のそれぞれは、
前記サーバが送信する前記機械学習モデルを受信する受信部と、
当該装置を利用するユーザの環境における実写画像と、学習済の前記機械学習モデルと、に基づいて、当該ユーザの環境における実写画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する実写特徴量抽出部の学習を実行する学習部と、
学習済の前記実写特徴量抽出部と、前記機械学習モデルに含まれる学習済の前記分類部と、に基づいて、前記ユーザの環境における実写画像についての前記複数のクラスへの分類処理を実行する実写画像分類装置を生成する生成部と、
を含むことを特徴とする実写画像分類装置の生成システム。
ＣＧ画像によって学習済である、ＣＧ画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力するＣＧ特徴量抽出部と、当該特徴量データの入力に応じて前記特徴量抽出部に入力された画像についての前記複数のクラスへの分類処理の結果を出力する分類部と、を含む機械学習モデルをサーバから受信する受信部と、
ユーザの環境における実写画像と、学習済である前記機械学習モデルと、に基づいて、当該ユーザの環境における実写画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する実写特徴量抽出部の学習を実行する学習部と、
学習済の前記実写特徴量抽出部と、前記機械学習モデルに含まれる学習済の前記分類部と、に基づいて、前記ユーザの環境における実写画像についての前記複数のクラスへの分類処理を実行する実写画像分類装置を生成する生成部と、
を含むことを特徴とする実写画像分類装置の生成装置。
画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習を実行する学習方法であって、
ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行するステップと、
それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割するステップと、
前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行するステップと、
を含むことを特徴とする学習方法。
画像の入力に応じて所与の複数のクラスのそれぞれに対応する特徴マップを含む特徴量データを出力する特徴量抽出部と、当該特徴量データの入力に応じて前記複数のクラスについての当該画像の分類処理の結果を出力する分類部と、を含む分類装置の学習をコンピュータに実行させるプログラムであって、
ソースドメインに属する分類学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを前記分類部に入力した際の出力と、当該分類学習画像に対応付けられる前記複数のクラスについての教師データと、の比較結果に基づいて、前記特徴量抽出部及び前記分類部の学習を実行する手順、
それぞれ前記ソースドメイン又はターゲットドメインのいずれかに属するドメイン学習画像の入力に応じて前記特徴量抽出部が出力する前記特徴量データを、それぞれ１又は複数の前記クラスの前記特徴マップを含む当該ドメイン学習画像に対応する複数の部分特徴量データに分割する手順、
前記ソースドメインに属する画像と前記ターゲットドメインに属する画像とを識別するドメイン識別部に当該ドメイン学習画像に対応する前記部分特徴量データを入力した際の出力と、当該ドメイン学習画像が前記ソースドメインに属するか前記ターゲットドメインに属するかを示すデータと、の比較結果に基づいて、前記特徴量抽出部の学習を実行する手順、
を前記コンピュータに実行させることを特徴とするプログラム。