WO2022208632A1

WO2022208632A1 - 推論装置、推論方法、学習装置、学習方法、及びプログラム

Info

Publication number: WO2022208632A1
Application number: PCT/JP2021/013407
Authority: WO
Inventors: 友哉澤田
Original assignee: 三菱電機株式会社
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-06
Also published as: JP7274071B2; KR20230144087A; CN117099127A; US20230394807A1; EP4296939A1; JPWO2022208632A1; EP4296939A4; KR102658990B1

Abstract

本開示技術に係る学習装置（１）は、機械学習可能な結合数理モデル（１４０）を備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置（１）であって、前記結合数理モデル（１４０）の前段部は、入力された画像データから複数の低レベル特徴マップを生成し、前記画像データのうち前記オリジナルドメインと前記ターゲットドメインについて同じ種類の学習対象に属するデータセットの前記低レベル特徴マップを比較し、ドメイン共有特徴量を算出し、前記ドメイン共有特徴量のうち、｛１｝色、｛２｝輝度、｛３｝低周波成分、及び｛４｝高周波成分のそれぞれの空間についてドメイン緩和学習情報を算出する。

Description

推論装置、推論方法、学習装置、学習方法、及びプログラム

　本開示技術は、推論装置、推論方法、学習装置、学習方法、及びプログラムに関する。

　あらかじめ学習した情報を使用して、カメラによって撮像された撮像画像に対して推論を行い、各種の識別を行う識別装置に関する技術が知られている。この推論を行う識別装置は、ニューラルネットワークを利用したものが開示されており、ディープラーニングなどの機械学習によって強化されている。

　また、識別装置に関する従来技術には、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて撮影画像が撮影されたときの天候など外的要因に対してロバストな推論を行う技術が開示されている（例えば特許文献１）。

特開２０１９－１７５１０７号公報

　特許文献１に例示された先行技術は、天候などの外的要因による画像の変化レベルに対しては、たしかにロバストである。しかし、ドメインが異なる画像を扱おうとした場合、画像の変化レベルが大きすぎるため、先行技術では正しく学習と推論とが行えない。ここでドメインとは画像の種類を意味し、例えば、実写のＲＧＢ画像、赤外線カメラによるＴｈｅｒｍａｌ　Ｉｎｆｒａｒｅｄ画像（以下「ＴＩＲ画像」という）、イラスト画像、ＣＧシミュレータが生成する画像、などがあげられる。ドメインが異なる画像を扱う必要が生じる場面は、赤外線画像を用いた監視カメラによる人物認識において、学習用の実写のＲＧＢ画像が潤沢にあるが、本来学習したいＴＩＲ画像が潤沢にない、といったものである。

　本開示技術は上記課題を解決し、ドメインが異なる画像に対しても正しく学習と推論とが行える推論装置、推論方法、学習装置、学習方法、及びプログラムを提供することを目的とする。

　本開示技術に係る学習装置は、機械学習可能な結合数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置であって、前記結合数理モデルの前段部は、入力された画像データから複数の低レベル特徴マップを生成し、前記画像データのうち前記オリジナルドメインと前記ターゲットドメインについて同じ種類の学習対象に属するデータセットの前記低レベル特徴マップを比較し、ドメイン共有特徴量を算出し、前記ドメイン共有特徴量のうち、（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分のそれぞれの空間についてドメイン緩和学習情報を算出する。

　本開示技術に係る学習装置は、獲得特徴量の順序という学習の本質をうまく利用している。どのような本質かというと、ＣＮＮに代表される数理モデルは、学習において「色」に代表される単純な特徴量ほど早く学習を完了させている、というものである。その結果、本開示技術に係る学習装置は、学習においてドメインが異なる画像を扱うことができる。また、本開示技術に係る学習装置が学習した情報を用いれば、推論においてドメインが異なる画像を扱うことができる。

図１は、実施の形態１に係る学習装置と推論装置とを備えたシステムの構成例を示すシステムブロック図である。図２は、実施の形態１に係るシステムの処理フローを示すフローチャートである。図２Ａは、オリジナルドメインの画像を学習し推論するフローを示している。図２Ｂは、ターゲットドメイン画像を処理する準備のためのフィルタ学習のフローを示している。図２Ｃは、ターゲットドメインの画像を学習し推論するときのフローを示している。図３は、実施の形態２に係る学習装置と推論装置とを備えたシステムの構成例を示すシステムブロック図である。図４は、本開示技術の考え方を示した模式図である。図５は、本開示技術の考え方を補足した説明図その１である。図６は、本開示技術の考え方を補足した説明図その２である。

　本開示技術は、以下の実施の形態ごとに図面に沿った説明により明らかにされる。本開示技術は、あらかじめ学習した情報を使用してカメラによって撮像された撮像画像に対して推論を行う各種の識別装置に用いられる。本開示技術は、例えば赤外線画像を用いた監視カメラ、人物検知カメラを備えた未来型ルームエアコン、等にも使用できる。より具体的に本開示技術は、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習し、推論することに関する。

　本開示技術は、ドメインが異なる画像を扱う必要が生じる場面で効果を発揮する。例えば赤外線画像を用いた監視カメラによる人物認識において、学習用のデータセットである実写のＲＧＢ画像が潤沢にあるが、本来学習したいＴＩＲ画像が潤沢にない、といった場面である。ここで、実写のＲＧＢ画像のように学習用に潤沢に準備できる画像の種類は「オリジナルドメイン」と呼ばれ、ＴＩＲ画像のように本来学習したい画像の種類は「ターゲットドメイン」と呼ばれる。

　本開示技術はＣＮＮを基礎とした技術であるため、ＣＮＮの簡単な概要とＣＮＮで用いられる用語の簡単な説明についてここで触れておく。ＣＮＮは畳込みニューラルネットワークとも呼ばれ、大局的な位置不変性と回転不変性といった性質を備える。ＣＮＮは、畳込み層（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｌａｙｅｒ）と、プーリング層（Ｐｏｏｌｉｎｇ　Ｌａｙｅｒ）と、全結合層（Ｆｕｌｌｙ　Ｃｏｎｎｅｃｔｅｄ　Ｌａｙｅｒ）と、を組み合わせた多層パーセプトロンの一種である。

　本開示技術が扱う画像及びＣＮＮの各層は、それぞれ特徴マップの空間解像度とチャネルとで表現することができる。画像の次元数は、横方向の画素数と縦方向の画素数とチャネル数とで決まる。ここでチャネル数とはＲＧＢ画像であれば３、ＴＩＲ画像であれば１、となる横と縦とは別次元の値である。つまり画像の総次元数は、横方向画素数×縦方向画素数×チャネルで表すことができる。

　ＣＮＮにおける畳込み層は、二次元畳込みと呼ばれる操作を行う。一般的な画像処理における畳込み操作を行うものには、ぼかし操作を行うガウシアンフィルタなどが有名である。畳込み操作を行うフィルタは、畳込みフィルタと呼ばれる。畳込みフィルタによる処理は、例えば、3x3などの小さな画像パッチとみなせるカーネルを入力画像の各画素に置き、入力画像とカーネルとの内積を各画素に出力するものである。ＣＮＮにおける畳込み層は、通常畳込みフィルタを複数備えた多段層を持ち、ディープラーニングでは活性化関数（Ａｃｔｉｖａｔｉｏｎ）とバッチ正規化（Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ）を畳込み層の前後に取り入れることで、勾配消失を起こさずかつ学習データの局所性に対する過学習を防ぐ効果を備える。
活性化関数は、例えばＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）やＳｉｇｍｏｉｄ、Ｓｏｆｔｍａｘなどの非線形関数が用いられ、線形空間から逃れることで誤差逆伝播法（Ｂａｃｋ　Ｐｒｏｐａｇａｔｉｏｎ）による畳込み層への勾配伝播の際に、線形空間で微分できなくなる勾配消失問題を避けることができる。
　畳込み層は、入力がＭチャネルであり出力がＮチャネルである、といった任意の次元操作が可能である。畳込み層が有する畳込みフィルタの枚数は、チャネルと表現する。畳込み層のサイズは、出力層のチャネル数×フィーチャーマップの縦サイズ×フィーチャーマップの横サイズで表すことができる。畳込み層の出力は、空間情報を備えるものでありフィーチャーマップ（Ｆｅａｔｕｒｅ　Ｍａｐ）又は特徴量マップと呼ばれる。

　ＣＮＮにおけるプーリング層は、サブサンプリングともよばれる画像の解像度を下げる操作を行い、特徴を残しながらサイズを小さくすることで特徴の位置感度を低下させ、大局的な位置不変性と回転不変性を獲得させる。画像分類のためのＣＮＮは最終的にはベクトルを出力するため、段階的に解像度を下げることを行う。プーリング層にはいくつかの方法が考えられるが、最大値プーリングがよく使われている。最大値プーリングは、フィーチャーマップごとの最大値を出力するリサイズを行うものである。畳込み層とプーリング層とは、画像の構造を活用した層であり、空間情報を持つ。

　ＣＮＮでは、全結合層をネットワークの最後に配置することがある。全結合層は、畳込み層及びプーリング層とは異なり、横×縦×チャネルといった構造を持たず、ベクトルとして量子化された特徴が記述される。全結合層は次元削減や拡張に用いられることがあり、フィーチャーマップの各画素を近傍領域だけでなく全領域に渡って結合することで、より概念的な高次元の意味特徴（ｓｅｍａｎｔｉｃｓ）を獲得することが可能となる。

実施の形態１．
　図１は、実施の形態１に係る学習装置１と推論装置２とを備えたシステムの構成例を示すシステムブロック図である。図１が示すとおり本開示技術に係るシステムは、学習装置１と、推論装置２と、学習装置１と推論装置２とが情報を共有できる共有記憶装置３と、学習装置１がアクセスする外部記憶装置４と、から構成される。

　図１が示すとおり学習装置１は、画像入力部１０と、浅層特徴量抽出部１１と、共通特徴量算出部１２と、ドメイン緩和学習情報算出部１３と、高次元特徴量付与部１４と、学習情報補正部１５と、を備える。また、図１が示すとおり推論装置２は、深層特徴量抽出部２０と、属性回帰部２１と、を備える。

　図２は、実施の形態１に係るシステムの処理フローを示すフローチャートである。図２Ａは、オリジナルドメインの画像を学習し推論するフローを示している。図２Ｂは、ターゲットドメイン画像を処理する準備のためのフィルタ学習のフローを示している。図２Ｃは、ターゲットドメインの画像を学習し推論するときのフローを示している。ここで、オリジナルドメインの画像の学習もターゲットドメインの画像の学習も、いずれも教師あり学習に分類される。図２Ｂ及び図２Ｃにおいて模様のついている部分は、後述する浅層ＣＮＮ１００が実施するステップを示している。

　オリジナルドメインの画像の学習は、ディープラーニングの代表的手法であるＣＮＮにより画像認識を行う機械学習モデルを構築して行ってよい。この機械学習モデルを構築する処理は、図２Ａが示すとおり画像を入力するステップＳＴ１と、特徴量を抽出するステップＳＴ２と、物体位置又は属性を算出するステップＳＴ３と、推論結果を出力するステップＳＴ４と、を有する。

　機械学習は、機械学習モデルが使われる場面によってその目的が異なる。例えば物体認識装置に機械学習モデルを使う場合、その目的はどこに何があるのかを推定することである。例えば、画像に写っているものが車である場合、画像内のどの位置にどんな属性の車があるかを推論することが目的となる。あらかじめカテゴライズされた教師画像に対して、その画像の特徴量を抽出し、特徴量空間でのプロットから機械学習モデルを構築する手法が知られている。この特徴量空間での各カテゴリーの境界を求める方法には、ＳＶＭ（サポートベクターマシン）などが知られている。特徴量は通常複数次元であるため、特徴量空間は高次元特徴量空間とも呼ばれる。なお「同じカテゴリーに属する」という表現は、より広くは「同じ種類の学習対象に属する」と読み替えることができる。
　この画像の属性を分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）させる処理、又は物体の位置を回帰（Ｒｅｇｒｅｓｓｉｏｎ）する処理は、図２Ａの中の物体位置又は属性を算出するステップＳＴ３が該当する。

　ターゲットドメインの画像の学習は、オリジナルドメインの画像の学習が完了した段階で行われる。ターゲットドメインの画像の学習は、２段階の学習で行われる。２段階の学習とは、浅層特徴量抽出部１１、共通特徴量算出部１２、及びドメイン緩和学習情報算出部１３における学習（以下、「フィルタ学習」と呼ぶ）と、深層特徴量抽出部２０における学習（以下、「メイン学習」と呼ぶ）と、である。ターゲットドメインの画像データは、まず画像入力部１０を介して学習装置１へ入力される。画像入力部１０を介して入力された画像データは、浅層特徴量抽出部１１へ出力される。フィルタ学習における処理のフローは図２Ｂに、メイン学習における処理のフローは図２Ｃに、それぞれ示されている。

　浅層特徴量抽出部１１は、入力された画像データから複数の低レベル特徴（Ｌｏｗ－ｌｅｖｅｌ　Ｆｅａｔｕｒｅ）マップを出力する複数の画像フィルタから構成されているものである。浅層特徴量抽出部１１は複数の画像フィルタであるから、ＣＮＮの畳込み層で構成することが考えられる。実施の形態１に係る学習装置１は、浅層特徴量抽出部１１、共通特徴量算出部１２、及びドメイン緩和学習情報算出部１３を浅い層のＣＮＮ（以下、「浅層ＣＮＮ１００」と呼ぶ）で構成する。
　Ｓｈａｌｌｏｗ　ＣＮＮである浅層ＣＮＮ１００は、オリジナルドメインの画像データの特徴量とターゲットドメインの画像データの特徴量とを、それぞれ高次元特徴量空間でプロットしたときに、共通する特徴量（英語ではＤｏｍａｉｎ　Ｓｈａｒｅｄ　Ｆｅａｔｕｒｅｓであり、以下「ドメイン共有特徴量」と呼ぶ）を抽出するように設計する。そこで浅層特徴量抽出部１１には、オリジナルドメインの画像データとターゲットドメインの画像データとが教師データとして入力される。フィルタ学習の初期段階では高次元特徴量空間へのプロットはランダムのように映るが、次第に画像のカテゴリーごとに、分布に一定の法則が見られるようになる。

　図５は、本開示技術の考え方を補足した説明図その１である。図５が示すように本開示技術は、学習のＥｐｏｃｈに応じて低レベル特徴（Ｌｏｗ－ｌｅｖｅｌ　Ｆｅａｔｕｒｅ）である（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分を強度に教師する。具体的には浅層特徴量抽出部１１が出力する特徴マップは、（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分のそれぞれの低レベル特徴（Ｌｏｗ－ｌｅｖｅｌ　Ｆｅａｔｕｒｅ）となるように設計する。（３）低周波成分は、画像中のボケ情報と言い換えてもよい。また（４）高周波成分は、エッジとテクスチャと言い換えてもよい。浅層特徴量抽出部１１は、低レベル特徴量を抽出するステップＳＴ１２を実施する。
　共通特徴量算出部１２で抽出した低レベル特徴量のうちドメイン共有特徴量は、ターゲットドメインの画像のメイン学習が進む度合に応じて、ドメイン共有特徴量を強度に教師する。

　浅層ＣＮＮ１００において、ドメイン共有特徴量が強調された特徴マップ（以下、「重付け特徴マップ」と呼ぶ）を得る方法には、Ａｔｔｅｎｔｉｏｎと呼ばれる方法を用いる。簡単に言えばＡｔｔｅｎｔｉｏｎとは、ＣＮＮが出力した特徴マップのどの領域に注目すればいいのかを自動的に学習する方法である。別の言い方をすれば、Ａｔｔｅｎｔｉｏｎは注目すべき領域の重み付けである。特徴マップには横×縦の空間的な次元とチャネルの次元とがあるように、Ａｔｔｅｎｔｉｏｎを用いた教師方法にも空間方向のＡｔｔｅｎｔｉｏｎとチャネル方向のＡｔｔｅｎｔｉｏｎとが存在する。チャネル方向のＡｔｔｅｎｔｉｏｎには、ＳＥブロックと呼ばれる技術が開示されている（例えば、非特許文献１）。
　　　非特許文献１：
Ｈｕ，　Ｊｉｅ，　Ｌｉ　Ｓｈｅｎ，　ａｎｄ　Ｇａｎｇ　Ｓｕｎ．　”Ｓｑｕｅｅｚｅ－ａｎｄ－ｅｘｃｉｔａｔｉｏｎ　ｎｅｔｗｏｒｋｓ．”　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ｃｏｍｐｕｔｅｒ　ｖｉｓｉｏｎ　ａｎｄ　ｐａｔｔｅｒｎ　ｒｅｃｏｇｎｉｔｉｏｎ．２０１８．

　図６は、本開示技術の考え方を補足した説明図その２である。図６が示すように浅層ＣＮＮ１００の共通特徴量算出部１２は、２つのドメインについて同じカテゴリーに属するデータセットの特徴マップを比較する。高次元特徴量空間におけるプロットの比較は、図６の右側のグラフに例示した。図６は、オリジナルドメインを写真、ターゲットドメインをイラストとし、「ヘアドライヤーで髪を乾かす」というカテゴリーのデータセットの比較を例示している。以下は、別のプロットの比較の具体例である。例えばカテゴリーは１０代の男性とし、２つのドメインはＲＧＢ画像というオリジナルドメインとＴＩＲ画像というターゲットドメインとする。それぞれの教師画像は浅層特徴量抽出部１１へ入力され、それぞれの特徴マップが出力される。共通特徴量算出部１２は特徴マップをチャネルごとに比較し、ドメイン共有特徴量が存在するチャネルに対しては大きな重みを付与する。
　より具体的に共通特徴量算出部１２は、共通特徴量算出部１２より算出されたオリジナルドメインとターゲットドメインのそれぞれのフィーチャーマップを空間的に比較し、最も類似するフィーチャーマップ間の距離を、例えば画像相関やピクセル単位での類似性、ＳＳＩＭ（Ｓｔｒｕｃｔｕｒｅ　Ｓｉｍｉｌａｒｉｔｙ）などで算出し、重みとしてもよい。
　また、より簡易的に共通特徴量算出部１２は、Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ（ＧＡＰ）をフィーチャーマップに適用して代表値を算出し、最も類似するフィーチャーマップの代表値間の距離を、例えば画像相関やピクセル単位での類似性、ＳＳＩＭ（Ｓｔｒｕｃｔｕｒｅ　Ｓｉｍｉｌａｒｉｔｙ）などで算出し、重みとしてもよい。
　このようにして共通特徴量算出部１２は、注目すべきチャネルを強調した特徴マップを算出する（ドメイン共有特徴量を算出するステップＳＴ１３）。前記の重みは、「ドメイン緩和重み」と呼ぶ。ドメイン共有特徴量が強調された特徴マップは、「ドメイン緩和教師信号」と呼ぶ。前記の重みと教師信号とは、まとめて「ドメイン緩和学習情報」と呼ぶ。浅層ＣＮＮ１００の共通特徴量算出部１２は、ドメイン緩和重みを算出するステップＳＴ１４を実施する。
　ここではチャネル方向のＡｔｔｅｎｔｉｏｎを用いた実施の形態を説明したが、本開示技術はチャネル方向のＡｔｔｅｎｔｉｏｎと空間方向のＡｔｔｅｎｔｉｏｎとを適宜組み合わせてもよい。

　ドメイン緩和学習情報は、後述するメイン学習の教師信号として用いる。ドメイン共有特徴量は、（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分に分類することができる。浅層ＣＮＮ１００のドメイン緩和学習情報算出部１３は、（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分のそれぞれについて、ドメイン緩和学習情報を算出する（ドメイン緩和学習情報を算出するステップＳＴ２４）。

　浅層ＣＮＮ１００を備える効果は、浅層ＣＮＮ１００を備えない場合の従来のシステムと比較することにより明らかにされる。まずターゲットドメインのデータセットは潤沢にないため、ターゲットドメインのデータセットのみでは機械学習モデルを十分に学習させることはできない。そこで、データセットが潤沢な他のドメインの画像で機械学習モデルを構築し、ターゲットドメインの画像で再学習しようといった試みも考えられる。すなわち、オリジナルドメインのデータセットを使ってＰｒｅ－Ｔｒａｉｎｉｎｇをし、ターゲットドメインへの転移学習とＦｉｎｅ－Ｔｕｎｉｎｇするといった試みが考え得る。ところがこれを実際に行うと、ドメイン間であまりにも画像の特徴が違いすぎて事前の学習結果を破壊してしまう、ということが生じる。浅層ＣＮＮ１００を備える効果は、事前の学習結果を破壊させないことで、ターゲットドメインの学習データが少ない場合でも効率的にドメイン間での特徴量の違いを緩和できるという効果を奏する。

　浅層ＣＮＮ１００におけるフィルタ学習が終了すれば、いよいよメイン学習を実施することができる。推論装置２の深層特徴量抽出部２０と属性回帰部２１とは、浅層ＣＮＮ１００とは別の深い層からなるＣＮＮ（以下、「深層ＣＮＮ１１０」と呼ぶ）で構成することが考えられる。メイン学習は、潤沢に存在するオリジナルドメインの画像のデータセットを用いて初期的な学習を行う。オリジナルドメインの画像のデータセットは、大きく２通りの使い方が考えられる。オリジナルドメインの画像のデータセットをそのまま使う方法と、前述の浅層ＣＮＮ１００を通してドメイン共有特徴量が強調された特徴マップを使う方法と、が考えられる。本開示技術に係る学習装置１は、いずれの方法でオリジナルドメインの画像のデータセットを使ってもよい。

　メイン学習の初期的な学習が終了すると、深層ＣＮＮ１１０の初期状態が決まり、いよいよメイン学習の本格的な学習を実施することができる（図２Ｃに示したフロー参照）。図４は、本開示技術の考え方を示した模式図である。図４が示すとおり、メイン学習の本格的な学習の教師データは、浅層ＣＮＮ１００を通過したターゲットドメインの画像のデータセットである。フィルタ学習が完了している浅層ＣＮＮ１００を通過しているため、ターゲットドメインの画像はドメイン共有特徴量が強調される。

　図２Ｃは、ターゲットドメインの画像を学習し推論するときの処理フローを示している。図２Ｃが示すとおり、本処理には、ターゲットドメイン画像を入力するステップＳＴ２１と、低レベル特徴マップを算出するステップＳＴ２２と、ドメイン緩和重みを乗算するステップＳＴ２３と、ドメイン緩和学習情報を算出するステップＳＴ２４と、ドメイン緩和学習情報を入力するステップＳＴ２５と、高次特徴マップを算出するステップＳＴ２６と、物体位置又は属性を算出するステップＳＴ２７と、推論結果を出力するステップＳＴ２８と、を有する。フィルタ学習が完了している浅層ＣＮＮ１００は、低レベル特徴マップを算出するステップＳＴ２２と、ドメイン緩和重みを乗算するステップＳＴ２３と、ドメイン緩和学習情報を算出するステップＳＴ２４と、を実施する。また、深層ＣＮＮ１１０は、高次特徴マップを算出するステップＳＴ２６と、物体位置又は属性を算出するステップＳＴ２７と、を実施する。

　本開示技術に係る学習装置１の最大の特徴は、メイン学習の本格的な学習のＥｐｏｃｈに応じて、（１）色、（２）輝度、（３）低周波成分、（４）高周波成分の順番で強調するドメイン共有特徴量を変えることである。この強調するドメイン共有特徴量の切換えは、学習装置１の学習情報補正部１５が行う。Ｅｐｏｃｈとは、ひとやまのデータセットをニューラルネットワークに順伝搬と逆伝搬と１回通す単位のことである。１つのＥｐｏｃｈはコンピュータが１度に扱う量としては大きいため、通常いくつかのＢａｔｃｈに分けられる。Ｉｔｅｒａｔｉｏｎは、１つのＥｐｏｃｈを完了するために必要なＢａｔｃｈの数である。例えば、教師画像が２０００枚のデータセットがあるとする。この２０００枚の画像は、５００枚ずつのＢａｔｃｈに分けたとする。この例では１つのＥｐｏｃｈを完了するため、Ｉｔｅｒａｔｉｏｎが４必要となる。
　本開示技術においてこのような順番で強調する特徴量を変える理由は、ＣＮＮが獲得する特徴量の順序も（１）色、（２）輝度、（３）低周波成分、（４）高周波成分の順番であるというＣＮＮの特質に由来している。

　どれぐらいのＥｐｏｃｈでどの特徴量を用いるかの判断は、ケースバイケースである。或る使用態様においては、Ｅｐｏｃｈが１前後のときの（１）色と（２）輝度とを用い、Ｅｐｏｃｈが２０のときに（３）低周波成分を用い、Ｅｐｏｃｈが６０のときに（４）高周波成分を用い、効果的であった。ただしこれは例示に過ぎず、これに限定したものではない。

　メイン学習の評価は、ターゲットドメインの画像を用いて行う。ターゲットドメインの画像を直接加工なしで深層ＣＮＮ１１０へ入力しても所望の正答率で推論が行えた場合、推論装置２はこのメイン学習が完了した深層ＣＮＮ１１０をそのまま使えばよい。所望の正答率で推論が行えなかった場合、ターゲットドメインの画像は学習装置１の高次元特徴量付与部１４において、加工なし画像と学習済みの浅層ＣＮＮ１００が算出したドメイン緩和重みとを乗算して加工画像を生成し（ドメイン緩和重みを乗算するステップＳＴ２３）、深層ＣＮＮ１１０へ入力する。最初に述べたケースは、深層ＣＮＮ１１０のみで推論装置２を構成するものであり、次に述べたケースは浅層ＣＮＮ１００と深層ＣＮＮ１１０との組合せで推論装置２を構成するものである。

　メイン学習の評価が完了すれば、推論装置２はターゲットドメインの画像についての推論を行うことができる。推論装置２の処理フローは、以下の図２Ｃに基づいた説明により明らかにされる。ここでの説明は、浅層ＣＮＮ１００と深層ＣＮＮ１１０との組合せで推論装置２を構成することを前提とする。
　推論対象であるターゲットドメインの画像は、まず画像入力部１０へ入力される（ターゲットドメイン画像を入力するステップＳＴ２１）。入力された画像は、浅層ＣＮＮ１００の浅層特徴量抽出部１１において低レベル特徴マップが作成される（低レベル特徴マップを算出するステップＳＴ２２）。作成された低レベル特徴マップは、高次元特徴量付与部１４においてドメイン緩和重みが乗算され（ドメイン緩和重みを乗算するステップＳＴ２３）、深層ＣＮＮ１１０への入力画像が生成される。深層ＣＮＮ１１０は、属性回帰部２１において入力された画像についての物体位置又は属性を算出し（物体位置又は属性を算出するステップＳＴ２７）、推論結果を出力する（推論結果を出力するステップＳＴ２８）。

　オリジナルドメインのデータセットとターゲットドメインのデータセットとがともに潤沢であれば、それぞれのドメインごとに学習を行えばよく問題とはならない。また、それぞれのドメインでの学習結果から、それぞれドメインについての高次元特徴量空間でのカテゴリーごとの分布を対応づけることも考えられる。本開示技術に係る学習装置１及び推論装置２は、ターゲットドメインのデータセットのデータ量が少ない場合でも認識率が低下しないように学習が進むという効果を奏する。

実施の形態２．
　実施の形態１に係る学習装置１と推論装置２とを備えたシステムは、潤沢にはないにせよ学習用に一定量のターゲットドメインのデータセットがあることを前提とした。実施の形態２に係る学習装置１と推論装置２とを備えたシステムは、学習段階において全くターゲットドメインのデータセットがない場合に対応できるものである。一般に、学習段階において推論すべき教師データがないクラスを学習する問題は、Ｚｅｒｏ－Ｓｈｏｔ　Ｌｅａｒｎｉｎｇ問題と呼ばれている。以降の実施の形態２についての説明において、実施の形態１と共通する構成要素は同じ符号を用い、重複する説明については適宜省略する。

　図３は、実施の形態２に係る学習装置１と推論装置２とを備えたシステムの構成例を示すシステムブロック図である。図３と図１との比較が示すとおり、実施の形態２に係る学習装置１は、高次元特徴量付与部１４と学習情報補正部１５との代わりに学習情報更新部１４Ｂを備える。

　実施の形態２に係る学習装置１と推論装置２とを備えたシステムの場合においても、課題を解決するコアの考え方は実施の形態１の場合と同じである。すなわち実施の形態２におけるシステムは、初めに与えられた１枚のターゲットドメイン画像から、フィルタ学習とメイン学習とを同時に実施することで、課題の解決を試みる。具体的に学習情報更新部１４Ｂは、高次元特徴量付与部１４が行うドメイン緩和重みを乗算するステップＳＴ２３と、学習情報補正部１５が行う強調するドメイン共有特徴量の切換えを、同時に行う。

　実施の形態２に係る推論装置２の深層ＣＮＮ１１０は、オリジナルドメインの画像用に準備した推論装置２のニューラルネットワークと同じものを用いる（図２Ａ参照）。また、深層ＣＮＮ１１０の初期状態は、オリジナルドメインの大規模画像データセットで十分に学習が完了したニューラルネットワークの初期状態を用いればよい。

　以上のように実施の形態２に係る学習装置１と推論装置２とを備えたシステムは上記の構成を備えるため、ターゲットドメインのデータセットがまったく得られないＺｅｒｏ－Ｓｈｏｔ　Ｌｅａｒｎｉｎｇ問題の場合においても、一定の正答率で推論を行えるという効果を奏する。

実施の形態３．
　実施の形態１と実施の形態２とにおいて、コアとなる構成要素である浅層ＣＮＮ１００と深層ＣＮＮ１１０とは、ともにＣＮＮを採用した「２つの独立したＣＮＮ」として描写がなされた。しかし、本開示技術に係る浅層ＣＮＮ１００と深層ＣＮＮ１１０とに該当する構成要素は、２つの独立したＣＮＮである必要はないしそもそもＣＮＮである必要もない。実施の形態３は、「２つの独立したＣＮＮ」以外の構成例を採用した本開示技術を明らかにするものである。

　まず１つ目の構成例は、浅層ＣＮＮ１００と深層ＣＮＮ１１０とを、１つの大きな結合ＣＮＮ１２０として実現し、学習装置１と推論装置２とで共有するものである。結合ＣＮＮ１２０は、多層のニューラルネットワークの一種であるから、前段層１２１と後段層１２２とに分けることができる。結合ＣＮＮ１２０の前段層１２１が浅層ＣＮＮ１００の役割を果たし、結合ＣＮＮ１２０の後段層１２２が深層ＣＮＮ１１０の役割を果たすようにすればよい。すなわち結合ＣＮＮ１２０は、入力された画像に対して高次元特徴量を抽出する機能を備える。
　結合ＣＮＮ１２０を共有する方法は、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。

　２つ目の構成例は、結合ＣＮＮ１２０をＣＮＮではないニューラルネットワークで実現するものである。結合ＣＮＮ１２０をＣＮＮではないニューラルネットワークで実現した構成要素は、結合ＮＮ１３０と名付ける。結合ＮＮ１３０は、結合ＮＮ前段層１３１と結合ＮＮ後段層１３２とに分ける。結合ＮＮ前段層１３１が浅層ＣＮＮ１００の役割を果たし、結合ＮＮ後段層１３２が深層ＣＮＮ１１０の役割を果たすようにすればよい。すなわち結合ＮＮ１３０は、入力された画像に対して高次元特徴量を抽出する機能を備える。
　なお結合ＮＮ１３０は多層のニューラルネットワークであるから、その学習方法は深層学習であると言える。
　結合ＮＮ１３０を共有する方法も、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。

　３つ目の構成例は、結合ＣＮＮ１２０をニューラルネットワーク以外の数理モデルで実現するものである。結合ＣＮＮ１２０をニューラルネットワーク以外の数理モデルで実現した構成要素は、結合数理モデル１４０と名付ける。結合数理モデル１４０は、結合数理モデル前段部１４１と結合数理モデル後段部１４２とを備える。結合数理モデル前段部１４１が浅層ＣＮＮ１００の役割を果たし、結合数理モデル後段部１４２が深層ＣＮＮ１１０の役割を果たすようにすればよい。すなわち結合数理モデル１４０は、入力された画像に対して高次元特徴量を抽出する機能を備える。
　結合数理モデル１４０は、結合ＣＮＮ１２０と同様に、入力部と、可変なパラメータによって入力から出力を計算する計算部と、出力部と、を備えなければならない。また、結合数理モデル１４０は、出力を評価する評価関数に基づいて、可変なパラメータを変更し、機械学習が可能でなければならない。このような結合数理モデル１４０は、ここでは「学習自在である」と形容する。
　結合数理モデル１４０を共有する方法も、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。

　結合ＮＮ１３０を用いる場合でも結合数理モデル１４０を用いる場合でも、本開示技術はメイン学習の本格的な学習のＥｐｏｃｈに応じて、（１）色、（２）輝度、（３）低周波成分、（４）高周波成分の順番で強調するドメイン共有特徴量を変える。これは、画像認識等における機械学習において、「色」に代表される単純な特徴であればあるほど学習の初期の段階において学習が完了する、という性質を利用している。

　以上のように実施の形態３に係る学習装置１と推論装置２とは上記の構成を備えるため、２つの独立したＣＮＮを採用せずとも、ドメインが異なる画像に対しても正しく学習と推論とが行える。

　本開示技術に係る推論装置２、推論方法、学習装置１、学習方法、及びプログラムは、撮像画像に対して各種の識別を行う識別装置に利用でき、産業上の利用可能性がある。

　１　学習装置、　２　推論装置、　３　共有記憶装置、　４　外部記憶装置、　１０　画像入力部、　１１　浅層特徴量抽出部、　１２　共通特徴量算出部、　１３　ドメイン緩和学習情報算出部、　１４　高次元特徴量付与部、　１４Ｂ　学習情報更新部、　１５　学習情報補正部、　２０　深層特徴量抽出部、　２１　属性回帰部、　１００　浅層ＣＮＮ、　１１０　深層ＣＮＮ、　１２０　結合ＣＮＮ、　１２１　前段層、　１２２　後段層、　１３０　結合ＮＮ、　１３１　結合ＮＮ前段層、　１３２　結合ＮＮ後段層、　１４０　結合数理モデル、　１４１　結合数理モデル前段部、　１４２　結合数理モデル後段部。

Claims

　機械学習可能な結合数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置であって、
　前記結合数理モデルの前段部は、
　入力された画像データから複数の低レベル特徴マップを生成し、
　前記画像データのうち前記オリジナルドメインと前記ターゲットドメインについて同じ種類の学習対象に属するデータセットの前記低レベル特徴マップを比較し、ドメイン共有特徴量を算出し、
　前記ドメイン共有特徴量のうち、（１）色、（２）輝度、（３）低周波成分、及び（４）高周波成分のそれぞれの空間についてドメイン緩和学習情報を算出することを特徴とする学習装置。
　前記結合数理モデルは、教師あり学習により学習自在であることを特徴とする請求項１に記載の学習装置。
　前記結合数理モデルの前記前段部は、畳み込みニューラルネットワークであることを特徴とする請求項２に記載の学習装置。
　前記結合数理モデルの前記前段部は、学習方法が深層学習であることを特徴とする請求項３に記載の学習装置。
　前記ドメイン緩和学習情報を用いて入力された前記ターゲットドメインの特徴マップを重み付けし新たな重付け特徴マップを生成する高次元特徴量付与部と、
　算出された前記ドメイン緩和学習情報のうち、強調するドメイン共有特徴量の切換える学習情報補正部と、
をさらに備えることを特徴とする請求項１に記載の学習装置。
　機械学習可能な前記結合数理モデルを備え、前記ターゲットドメインの特徴マップについて推論を実施する推論装置であって、
　前記結合数理モデルの後段部は、請求項５に記載の学習装置が生成した前記重付け特徴マップを用いてメイン学習されたことを特徴とする推論装置。
前記結合数理モデルの前記後段部は、教師あり学習により学習自在であることを特徴とする請求項６に記載の推論装置。
前記結合数理モデルの前記後段部は、畳み込みニューラルネットワークであることを特徴とする請求項６に記載の推論装置。
前記結合数理モデルの前記後段部は、学習方法が深層学習であることを特徴とする請求項６記載の推論装置。
　前記学習情報補正部は、推論装置のメイン学習のＥｐｏｃｈに応じて前記強調するドメイン共有特徴量を切換えることを特徴とする請求項５に記載の学習装置。
　機械学習可能な数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置の学習方法であって、
　２つのドメインの画像を入力するステップと、
　入力された前記画像から低レベル特徴量を抽出するステップと、
　抽出された前記低レベル特徴量からドメイン共有特徴量を算出するステップと、
　前記ドメイン共有特徴量からドメイン緩和重みを算出するステップと、
を有する学習方法。
　機械学習可能な数理モデルを備え、ターゲットドメインの画像について特徴マップを受け取り推論を実施する推論装置の推論方法であって、
　ターゲットドメイン画像の前記特徴マップを入力するステップと、
　入力された前記ターゲットドメイン画像の前記特徴マップから低レベル特徴マップを算出するステップと、
を備え、
　前記数理モデルは、前記低レベル特徴マップからドメイン緩和学習情報を算出し推論することを特徴とする推論方法。
　機械学習可能な数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する処理を実行するプログラムであって、
　２つのドメインの画像を入力するステップと、
　入力された前記画像から低レベル特徴量を抽出するステップと、
　抽出された前記低レベル特徴量からドメイン共有特徴量を算出するステップと、
　前記ドメイン共有特徴量からドメイン緩和重みを算出するステップと、
を有するプログラム。
　機械学習可能な数理モデルを備え、ターゲットドメインの画像の特徴マップについて推論を実施する処理を実行するプログラムであって、
　ターゲットドメイン画像の前記特徴マップを入力するステップと、
　入力された前記ターゲットドメイン画像から低レベル特徴マップを算出するステップと、を備え、
　前記数理モデルは、前記低レベル特徴マップからドメイン緩和学習情報を算出し推論することを特徴とするプログラム。