WO2019116494A1

WO2019116494A1 - 学習装置、学習方法、分類方法、および記憶媒体

Info

Publication number: WO2019116494A1
Application number: PCT/JP2017/044894
Authority: WO
Inventors: 和俊鷺; 貴裕戸泉; 裕三仙田
Original assignee: 日本電気株式会社
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2019-06-20
Also published as: EP3726463A1; US11270163B2; US20210081721A1; JPWO2019116494A1; JP7184801B2; EP3726463A4

Abstract

対象が記録されたデータのサンプルが少ない場合でも、様々な態様の対象を識別することが可能な識別器を生成できる、学習装置を提供する。一実施態様に係る学習装置は、異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得部と、前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換部と、第２の特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新部と、を備える。

Description

学習装置、学習方法、分類方法、および記憶媒体

　本開示は、コンピュータが行う学習の技術に関する。

　データにおいて示された対象の分類を行う、分類器を構築する上で、対象の特徴を良く表す変数を用いることが、分類の精度の向上につながる。入力されたデータから対象の特徴を良く表す変数を導出する方法として、オートエンコーダ（自己符号化器）を使う方法が、良く知られている。

　典型的なオートエンコーダは、入力層、中間層、および出力層からなる。典型的なオートエンコーダは、入力層に入力されるデータと出力層により出力されるデータとの比較に基づき、符号化（すなわち、入力層のデータから中間層のデータへの変換）に用いられる重みおよびバイアスと、復号（すなわち、中間層のデータから出力層のデータへの変換）に用いられる重みおよびバイアスと、を最適な値へと決定する。

　オートエンコーダによる学習の結果決定された重みとバイアスとを用いた符号化によって中間層において出力されるデータは、対象の特徴を良く表す情報とみなすことができる。この中間層において出力されるデータは、一般的には、「特徴量ベクトル」、「特徴ベクトル」、または単に「特徴量」や「特徴」と呼ばれる。本開示では、中間層において出力されるデータを、「潜在変数の値の組」または「潜在変数ベクトル」とも呼ぶ。

　特許文献１は、本願発明に関連する技術を記載する文献である。特許文献１は、画像における対象の大きさ、回転角度、および位置等を、識別を行うために適した状態に変換する（別の言葉では、正規化する）画像処理装置を開示している。正規化するための変換の大きさは、画像が粗視化された後のデータを非線形変換によって空間Ｆに写像した時のベクトル（写像ベクトル）と、学習サンプルの特徴を表す基底ベクトルを含む部分空間との関係に基づいて決まる係数によって決められる。この技術にオートエンコーダを用いる場合、オートエンコーダの出力層の出力が上記の非線形変換による写像に相当し、中間層の出力が写像ベクトルの部分空間への射影に相当する、ということが、特許文献１には記載されている。

特開２００４－６２７１９号公報

　一般的なオートエンコーダにより最適化されたニューラルネットワークにより導出される特徴量ベクトルは、必ずしも、異なる態様をとる同一の対象に対し、互いに関連するようには表されない。そのため、例えば、一般的なオートエンコーダにより最適化されたニューラルネットワークにより導出される特徴量ベクトルを用いて、画像に写る椅子を椅子に分類するための分類器を、図１Ａで示される向きで撮影された椅子の画像ばかりを学習用データとして使用した学習により生成したとする。そのような場合、生成した分類器は、図１Ｂで示される向きや、図１Ｃで示されるアングルで撮影された椅子を、椅子と識別できないことがある。これは、同一の対象であっても、互いに異なる態様（上記の例では、向きやアングル）で記録されたデータからは、互いに無関係な特徴量ベクトルが導出され得るからである。

　様々な態様をとりうる対象物を正しく識別するためには、一般的には、分類器の学習において様々な態様を網羅した学習用データを用いる必要がある。しかし、様々な態様を網羅した学習用データを用意することは、必ずしも容易ではない。

　特許文献１に記載の技術は、画像を正規化することにより様々な態様をとりうる対象に対する識別の性能を向上させる技術である。しかし、この正規化を行うための関数は、様々な態様で対象が写る画像を学習用データとした学習によって導出される必要がある。なお、対象の識別を行うパターン識別部１００は、正規化された画像を識別の対象とするので、学習用データに含まれていない態様をとっている対象を正しく識別する保証はない。

　本発明は、対象が記録されたデータのサンプルが少ない場合でも、様々な態様の対象を識別することが可能な識別器を生成できる、学習装置を提供することを、目的の１つとする。

　本発明の一態様に係る学習装置は、異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得手段と、前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換手段と、特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新手段と、を備える。

　本発明の一態様に係る学習方法は、異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得し、前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成し、特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する。

　本発明の一態様に係る記憶媒体は、異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得処理と、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換処理と、特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新処理と、をコンピュータに実行させるプログラムを記憶する。上記記憶媒体は、例えば、コンピュータ読み取り可能な、非一時的な記憶媒体である。

　本発明によれば、対象が記録されたデータのサンプルが少ない場合でも、様々な態様の対象を識別することが可能な識別器を生成できる。

対象が記録されたデータの例を示す図である。別の態様の対象が記録されたデータの例を示す図である。別の態様の対象が記録されたデータの別の例を示す図である。本発明の第１の実施形態に係る学習装置の構成を示すブロック図である。変数変換に用いられる行列の例を示す図である。第１の実施形態に係る変数導出の学習について説明するための概念図である。変数導出の学習に係る処理の流れを示すフローチャートである。識別処理に係る処理の流れを示すフローチャートである。本発明の第２の実施形態に係る学習装置の構成を示すブロック図である。所望の機能を持つエンコーダを作成する学習装置の例の構成を示すブロック図である。本発明の一実施形態に係る学習装置の構成を示すブロック図である。本発明の一実施形態に係る学習装置による学習方法の処理の流れを示すブロック図である。本発明の各実施形態の各部を構成するハードウェアの例を示すブロック図である。

　以下、図面を参照しながら、本発明の実施形態を詳細に説明する。

　＜＜第１の実施形態＞＞
　まず、本発明の第１の実施形態について説明する。図２は、第１の実施形態に係る学習装置３１の構成を示すブロック図である。

　学習装置３１は、変数導出の学習と、分類の学習と、の２つの学習を行う。本開示では、変数導出の学習に関わる部を変数導出部１１０と呼び、分類の学習を行う部を分類学習部３１０と呼ぶ。

　以下、まず、変数導出部１１０の構成と動作について説明する。

　［変数導出部１１０］
　＜構成＞
　変数導出部１１０は、データ取得部１１１と、エンコーダ１１２と、変換部１１３と、デコーダ１１４と、パラメータ更新部１１５と、パラメータ記憶部１１９と、を含む。

　データ取得部１１１と、エンコーダ１１２と、変換部１１３と、デコーダ１１４と、パラメータ更新部１１５と、は、例えば、プログラムを実行する１つまたは複数のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）により実現される。

　パラメータ記憶部１１９は、例えば、メモリである。パラメータ記憶部１１９は、ハードディスク等の補助記憶装置でもよい。別の実施形態では、パラメータ記憶部１１９は学習装置３１の外部にあり、有線または無線により学習装置３１と通信可能であるように構成されていてもよい。パラメータ記憶部１１９は、エンコーダ１１２が行う変換において用いられるパラメータと、デコーダ１１４が行う変換において用いられるパラメータと、を記憶する。

　なお、変数導出部１１０は、パラメータ記憶部１１９とは別に、データを一時的又は非一時的に記憶する記憶装置を備えていてもよい。

　＝＝＝データ取得部１１１＝＝＝
　データ取得部１１１は、変数導出部１１０が使用するデータを取得する。変数導出部１１０が使用するデータは、入力データ、正解データ、および、入力データと正解データとの関係を示す差異情報である。

　入力データは、変数導出部１１０による学習の対象が記録されたデータである。理解を容易にするため、本実施形態の説明では、入力データの一例として、光学画像を想定する。光学画像以外の入力データの例は、「補足」の項目で説明する。

　入力データが光学画像である場合、入力データは、対象（例えば、物体および人物等）が写った画像である。入力データは、例えば、画像の各画素の画素値を成分とするベクトルである。縦２８画素、横２８画素のグレースケールの画像を入力データとする場合、入力データの成分の数は、２８×２８＝７８４である。

　画像のサイズはどのようなサイズでもよい。画素値は、０から２５５の整数値でも、０か１かのバイナリの値でも、浮動小数点数でもよい。色の種類は１つでも、２つ以上でもよい。色の種類が複数種類である場合は、その種類の数に比例して、入力データの成分数は増加する。入力データの例として、ＲＧＢ画像、マルチスペクトルの画像、ハイパースペクトルの画像等が挙げられる。

　データ取得部１１１は、入力データを、例えば、学習装置３１の内部または外部にある記憶装置から受け取ることにより、取得する。学習装置３１が、カメラ等、入力データを取得可能なデバイスを含み、データ取得部１１１はそのデバイスから入力データを受け取ってもよい。

　正解データは、変数導出の学習、具体的には、後述するパラメータ更新部１１５によるパラメータの値の更新において、使用されるデータである。

　正解データは、入力データにより示される対象が記録されたデータである。少なくとも一つの正解データは、入力データにより示される対象が、入力データにおける態様とは異なる態様で記録された、データである。入力データおよび正解データが画像である場合、態様は「写り方」または「見え方」と言い換えられてもよい。画像における態様の例としては、向き、アングル、姿勢、大きさ、歪み方、色合い、鮮明さ、等が挙げられる。入力データと正解データとの間で異なり得る態様は、予め定義される。つまり、変数導出部１１０は、少なくとも１つの特定の態様が異なる、入力データと正解データとのセットを扱う。なお、学習装置３１は、入力データを、正解データの一つとして扱ってもよい。

　データ取得部１１１は、正解データを、例えば、学習装置３１の内部または外部にある記憶装置から受け取ることにより、取得する。学習装置３１が、カメラ等、正解データを取得可能なデバイスを含み、データ取得部１１１はそのデバイスから正解データを受け取ってもよい。

　あるいは、データ取得部１１１は、入力データを加工することにより、正解データを生成してもよい。例えば、対象の回転角度を変化される加工や、色合いまたは鮮明さを変化させる既知の技術を用いれば、データ取得部１１１は、入力データの加工により正解データを生成可能である。

　差異情報は、入力データと正解データとの関係を示す情報である。具体的には、差異情報は、入力データにより示される対象の態様と、正解データにより示される対象の態様と、の間の差異を示す。差異情報は、例えば、差異があるかないか、または差異がどの程度あるか、を示す、パラメータで表されてもよい。

　簡単な例として、入力データが、椅子が写る画像であり、正解データが、その椅子が入力データにおける向きとは異なる向きで撮影された画像であるとする。入力データおよび正解データのセットの例は、図１Ａの画像と図１Ｂの画像とのセット、または図１Ａの画像と図１Ｃの画像とのセット等である。図１Ａの画像と図１Ｂの画像との関係を示す差異情報の例は、回転の角度を示す値（「＋６０（度）」等）である。図１Ａの画像と図１Ｃの画像との関係を示す差異情報の例は、方位角の変化を示す値（「－２０（度）」等）である。

　入力データが光学画像である場合は、差異情報が示す差異の例には、例えば、入力データと比較しての、画像の表示面に垂直な方向を軸とした回転の角度、アングル（撮像を行うデバイスに対する対象の向き）の違い、明度の上がり具合（または下がり具合）、コントラストの違い、ノイズ（雨および霧等の存在、もしくは解像度の低さに由来するノイズ）の多さの違い、および、障害物または付属物または装飾物の有無の違い、等が含まれる。対象が髪および旗等、風になびく物である場合は、風の強さを示す情報が差異情報であってもよい。また、以上に挙げた例と強い関係のあるパラメータが、差異情報として採用されてもよい。入力データと正解データとが別々に取得される場合は、採用される差異情報が示す対象となる態様は、入力データの加工によって変化を表現できる態様である必要はない。

　差異情報は、定量的なパラメータであってもよいし、複数の段階を持つパラメータでもよい。一例として、差異情報が雨の強さを示すパラメータである場合、「降っていない」、「弱い」、「やや強い」、「強い」の４種類の値で表されてもよい。差異情報は、二つの値（たとえば「有」と「無」）のみをとるパラメータでもよい。

　データ取得部１１１は、差異情報を、例えば、学習装置３１の内部または外部にある記憶装置から受け取ることにより、取得する。データ取得部１１１は、入力データと正解データの関係を把握している、人、または装置から、差異情報の入力を受け付け、入力された差異情報を取得してもよい。データ取得部１１１は、差異情報を、入力データと正解データとの比較により差異を特定することで、取得してもよい。

　＝＝＝エンコーダ１１２＝＝＝
　エンコーダ１１２は、入力データから、潜在変数の値の組を導出する。エンコーダ１１２は、例えば、ニューラルネットワークを使用して、入力データをニューラルネットワークの入力層に入力し、出力としてｎ個の値を導出する。ｎは、ニューラルネットワークの出力層のユニット数である。このｎ個の値の組を、本開示では潜在変数の値の組、または潜在変数ベクトルと呼ぶ。本実施形態では「ベクトル」という語を用いるが、潜在変数ベクトルは、複数の値の１次元的な配列に限られない。出力する値の数は１個であってもよい。あるいは、潜在変数ベクトルは２次元以上の配列であってもよい。潜在変数ベクトルは、配列の形式以外の形式で学習装置３１において保持されてもよい。なお、ニューラルネットワークにより潜在変数ベクトルを導出することは、符号化（エンコード）とも呼ばれる。

　エンコーダ１１２が使用するニューラルネットワークの構造は自由に設計され得る。例えば、層の数、各層の成分数、成分間の接続の仕方に、制限はない。一例として、エンコーダ１１２は、成分数が７８４である入力層と、成分数が５１２である中間層と、成分数が１４４である出力層と、から成る、畳み込みニューラルネットワークを使用してもよい。エンコーダ１１２が出力する値の個数（すなわち、潜在変数ベクトルの成分の数）は、典型的には、入力データにおける成分の数よりも少なくなるように構成される。ただし、エンコーダ１１２が出力する値の個数は、入力データにおける成分の数と同じか多くなるように構成されてもよい。

　また、エンコーダ１１２が使用するニューラルネットワークで使われる活性化関数はどのような活性化関数でもよい。活性化関数の例としては、恒等関数、シグモイド関数、ＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）関数、双曲線正接関数、等が挙げられる。

　エンコーダ１１２は、使用するニューラルネットワークにおけるパラメータ（典型的には、重みおよびバイアス）を、パラメータ記憶部１１９から読み出して、入力データの符号化を行う。

　＝＝＝変換部１１３＝＝＝
　変換部１１３は、エンコーダ１１２により出力された潜在変数ベクトルを、別の潜在変数ベクトルへと変換する。変換部１１３が潜在変数ベクトルを変換することを、本開示では変数変換と称す。

　変換部１１３は、変換関数を用いて、潜在変数ベクトルを変換する。変換部１１３は、上述の差異情報に応じて異なる変換関数を用いる。

　例えば、変換部１１３は、差異情報に応じて異なり得る値をとる変換パラメータを用いた変換関数を用いる。変換部１１３は、差異情報に応じて変換パラメータを決定した後、決定した変換パラメータを用いた変換関数を用いて、潜在変数ベクトルを変換すればよい。

　変換関数の例として、潜在変数ベクトルの成分の配置を変更する関数が挙げられる。例えば、変換関数は、潜在変数ベクトルの成分の配置をシフトする関数である。シフトする量が、変換パラメータによって決められてもよい。なお、成分数がｎであるベクトルの成分の配置をｋ個シフトする操作とは、ベクトルの１番目からｎ－ｋ番目の成分をｋ＋１番目からｎ番目に移動させ、ｎ－ｋ番目からｎ番目にあった成分を１番目からｋ番目までに移動させる操作である。

　具体的な例として、変換関数は、成分数が１４４である潜在変数ベクトルの成分の配置を、変換パラメータｐの値に基づいてシフトする、関数であるとする。データ取得部１１１により取得される差異情報は、回転角度θであり、θは０以上３６０未満の整数のうち５の倍数の値をとるとする。このような場合、変換パラメータｐとして、θを５で除した値が定義されてもよい。そうすると、ｐは０から７１の範囲の整数値を取りうるパラメータである。そして、ｐの２倍の値が、潜在変数ベクトルの成分の配置をシフトさせる量に相当するよう、変換関数が定義されてよい。例えば、４０度の回転に相当する変換パラメータｐの値は８であり、潜在変数ベクトルの成分の配置を１６個シフトすることに対応する。

　潜在変数ベクトルの成分の配置をシフトする変換関数は、例えば、シフトを表す変換行列の乗算として表現できる。潜在変数ベクトルをＺ_０、潜在変数ベクトルの成分数をｎ、変換パラメータの値をｋ、シフトを表す変換行列をＳ_ｋとすると、Ｓ_ｋはｎ×ｎの行列であり、上記変換関数は次の式で表される。
Ｆ（ｋ，Ｚ_０）＝Ｓ_ｋ・Ｚ_０
　行列Ｓ_ｋは、図３に示される行列である。すなわち、行列Ｓ_ｋは、１≦ｉ≦ｎ－ｋｒであるｉについて、第ｉ行、第ｋｒ＋ｉ列の数値が１であり、１≦ｊ≦ｋｒであるｊについて、第（ｎ－ｋｒ＋ｊ）行、第ｊ列の数値が１であり、それ以外の数値が０である行列である。ただし、ｋｒは、ｋがとりうる値の個数をＮ（ｋ）としたとき、ｋ×ｎ／Ｎ（ｋ）で求められる値である。

　変換部１１３による変換により、成分数がｎである、新たな潜在変数ベクトルが生成される。

　変数変換のための関数や行列の作り方は、上記に限られない。例えば、変換部１１３は、上記の行列Ｓ_ｋの代わりに、行列Ｓ_ｋにガウシアンフィルタを適用することで生成される行列を用いてもよい。

　変数変換の種類は、上記に説明されたシフト操作に制限されない。例えば、変数変換は、差異情報が示す差異の大きさに応じて減算量が大きくなる、成分値の減算処理でもよい。差異情報が示す差異の大きさに応じた回数実行される、平滑化処理でもよい。変数変換は、所定の成分に対する演算であり、演算の内容または演算を受ける成分の数が、差異情報が示す差異の大きさに依存してもよい。

　変換部１１３が行う変数変換には、恒等変換が含まれていてもよい。特に、差異情報が差異が無いことを示す場合の変数変換は、恒等変換であってもよい。

　なお、入力データと正解データとの間で異なり得る態様の種類が２種類以上である場合、変換部１１３は、それぞれの態様に係る差異情報に基づき、それぞれ変数変換を行えばよい。一例として、差異情報が、三次元的な向きの変化を示す２つのパラメータ（α、β）で表される場合、変換部１１３は、潜在変数ベクトルに、αに依存する変換関数を適用した後、βに依存する変換関数を適用し、新たな潜在変数ベクトルを生成してもよい。また、αに依存する変換関数とβに依存する変換関数を並列で適用してもよい。あるいは、変換部１１３は、２種類以上の態様の差異のそれぞれの差異情報に基づき、１つの変換関数を決定し、その変換関数を用いて変数変換を実行してもよい。

　＝＝＝デコーダ１１４＝＝＝
　デコーダ１１４は、変換部１１３による変換後の潜在変数ベクトルから、出力データを生成する。デコーダ１１４は、例えば、ニューラルネットワーク（エンコーダ１１２が使用するニューラルネットワークとは異なる）を使用して、潜在変数ベクトルをニューラルネットワークの入力層に入力し、出力としてｍ個の成分からなる出力データを生成する。ｍは、デコーダ１１４が使用するニューラルネットワークの出力層のユニット数である。このｍは、正解データの成分数と同じ値に設定される。入力データと正解データとが同じ形式で表現されるデータである場合、ｍは、入力データの成分数、すなわちエンコーダ１１２の入力層のユニット数に、一致する。ニューラルネットワークにより潜在変数ベクトルから出力データを生成することは、復号（デコード）とも呼ばれる。

　デコーダ１１４が使用するニューラルネットワークの構造は自由に設計され得る。たとえば、層の数、（多層ニューラルネットワークである場合は）中間層の成分数、成分間の接続の仕方に、制限はない。一例として、デコーダ１１４は、成分数が１４４である入力層と、成分数が５１２である中間層と、成分数が７８４である出力層と、から成る、ニューラルネットワークを使用してもよい。

　また、デコーダ１１４が使用するニューラルネットワークで使われる活性化関数はどのような活性化関数でもよい。活性化関数の例としては、恒等関数、シグモイド関数、ＲｅＬＵ関数、双曲線正接関数、等が挙げられる。

　デコーダ１１４は、使用するニューラルネットワークにおけるパラメータ（典型的には、重みおよびバイアス）の値を、パラメータ記憶部１１９から読み出して、潜在変数ベクトルの復号を行う。

　＝＝＝パラメータ更新部１１５＝＝＝
　パラメータ更新部１１５は、デコーダ１１４により生成された出力データと、データ取得部１１１により取得された正解データと、の比較に基づき、エンコーダ１１２およびデコーダ１１４に用いられるニューラルネットワークのパラメータの値を更新する。

　パラメータの値の更新の手順の具体例を示す。まず、パラメータ更新部１１５は、１組以上の、正解データと出力データとのセットについて、正解データに対する出力データの誤差を算出する。パラメータ更新部１１５は、誤差を求めるための誤差関数として、たとえば平均二乗誤差を用いてもよい。そして、パラメータ更新部１１５は、算出された誤差がより小さくなるように、新たなパラメータの値を決定する。新たなパラメータの値を決定するための手法は、一般的なオートエンコーダにおいて採用される、パラメータの値の最適化の方法として既知である方法が、用いられればよい。一例として、パラメータ更新部１１５は、誤差逆伝搬法を用いて勾配を計算し、Ｓｔｏｃｈａｓｔｉｃ　Ｇｒａｄｉｅｎｔ　Ｄｅｃｅｎｔ（ＳＧＤ）を用いてパラメータの値を決定してもよい。他に採用され得る手法として、「ＲＭＳｐｒｏｐ」、「Ａｄａｇｒａｄ」、「Ａｄａｄｅｌｔａ」、「Ａｄａｍ」等が挙げられる。

　そして、パラメータ更新部１１５は、決定した新たなパラメータの値を、パラメータ記憶部１１９に記録する。以降、エンコーダ１１２およびデコーダ１１４は新たなパラメータの値を使用する。以上が更新の具体的手順である。

　なお、パラメータ更新部１１５が更新する対象のパラメータの値は、エンコーダ１１２が使用するニューラルネットワークの重みおよびバイアス、ならびにデコーダ１１４が使用するニューラルネットワークの重みおよびバイアスである。変数変換に使用される変換パラメータは、パラメータ更新部１１５が更新する対象のパラメータに含まれない。

　なお、パラメータ更新部１１５は、所定の回数だけ、パラメータの値の更新を繰り返し行ってもよい。所定の回数は、例えば、学習装置３１のユーザから入力インタフェースを介して所定の回数を示す数値の入力を受け取った値に決定されてもよい。

　パラメータ更新部１１５が誤差を求めるために使用する誤差関数は、自由に設計され得る。パラメータ更新部１１５は、ＶＡＥ（Ｖａｒｉａｔｉｏｎａｌ　ＡｕｔｏＥｎｃｏｄｅｒ）で使用される誤差関数のように、潜在変数ベクトルの平均と分散の値を考慮した誤差関数を使用してもよい。

　＜変数導出の学習に係る処理の概要＞
　変数導出部１１０による変数導出の学習に係る処理の概要を、図４を参照しながら説明する。

　まず、ｍ個のデータ値（ｘ_１、ｘ_２、・・・、ｘ_ｍ）を成分として持つ入力データから、エンコーダ１１２のニューラルネットワークにより、ｎ個の成分（ｚ_１、ｚ_２、・・・、ｚ_ｎ)を持つ潜在変数ベクトルが導出される。この潜在変数ベクトルは、変換部１１３による変数変換により、ｎ個の成分（ｚ’_１、ｚ’_２、・・・、ｚ’ｎ)を持つ別の潜在変数ベクトルに変換される。この別の潜在変数ベクトルから、デコーダ１１４のニューラルネットワークにより、ｍ個の成分（ｙ’_１、ｙ’_２、・・・、ｙ’_ｍ）を持つ出力データが生成される。

　こうして生成される出力データと、入力データに対して対象の態様が異なる関係である、ｍ個の成分（ｙ_１、ｙ_２、・・・、ｙ_ｍ）を持つ正解データと、のセットが、訓練用データセットとして、学習に用いられる。

　＜変数導出の学習に係る処理の流れ＞
　変数導出部１１０による、変数導出の学習に係る処理の流れを、図５のフローチャートを参照しながら説明する。なお、変数導出の学習に係る処理に含まれる各処理は、各処理がプログラムを実行するデバイスによって実行される場合においては、プログラムの中の命令の順序に従って実行されればよい。各処理が別個のデバイスによって実行される場合においては、処理を完了したデバイスが次の処理を実行するデバイスに通知を行うことで、次の処理が実行されればよい。なお、処理を行う各部は、例えば、めいめいの処理によって生成したデータを、学習装置３１に含まれる記憶領域または外部の記憶装置に記録する。また、処理を行う各部は、めいめいの処理に必要なデータを、そのデータを生成した部から受け取るか、上記の学習装置３１に含まれる記憶領域または外部の記憶装置から読み出せばよい。

　まず、データ取得部１１１が、入力データと、正解データと、差異情報とを取得する（ステップＳ１１）。ただし、各種のデータが取得されるタイミングは同時でなくてもよい。データが取得されるタイミングは、そのデータが使用されるステップの処理が行われる前であればいつでもよい。

　次に、エンコーダ１１２が、入力データを潜在変数ベクトルに変換する（ステップＳ１２）。

　次に、変換部１１３が、差異情報が示す差異に応じた変換パラメータの値を用いて、潜在変数ベクトルを変換する（ステップＳ１３）。

　次に、デコーダ１１４が、変換後の潜在変数ベクトルを出力データに変換する（ステップＳ１４）。

　次に、パラメータ更新部１１５が、エンコーダ１１２およびデコーダ１１４に用いられるパラメータの値の更新を終了するかを判定する。

　更新を終了する場合とは、例えば、パラメータ更新部１１５がパラメータの値の更新を行った回数が、所定の回数に達した場合である。

　別の例として、更新を終了する場合とは、正解データに対する出力データの誤差が十分に小さい場合でもよい。パラメータ更新部１１５は、例えば、次のような場合に、誤差が十分に小さいと判定し、更新を終了すると判定してもよい。
・誤差を示す値が所定の基準値を下回った場合
・誤差をこれ以上小さくすることができない場合、または、
・誤差の減少量（すなわち、最後に行った更新の直前における誤差と更新後の誤差との差）もしくは減少率（すなわち、現在の誤差に対する減少量の比）が所定の基準値を下回った場合。

　あるいは、パラメータ更新部１１５は、各パラメータの値の絶対変化量（すなわち、更新する場合のパラメータの値の変化量の絶対値）の平均値もしくは最大値、または変化率（すなわち、現在の値に対する絶対変化量の比）の平均値もしくは最大値が、所定の基準値を下回った場合に、更新を終了すると判定してもよい。

　更新を終了しない場合は（ステップＳ１６においてＮＯ）、パラメータ更新部１１５はパラメータの値を更新し（ステップＳ１７）、変数導出部１１０は再びステップＳ１２からステップＳ１４の処理を行う。２回目以降のステップＳ１２およびステップＳ１４の処理では、エンコーダ１１２およびデコーダ１１４は、更新されたパラメータの値を用いて、処理を行う。パラメータ更新部１１５は、ステップＳ１４の処理により新たに生成された出力データを、再び正解データと比較し（ステップＳ１５）、パラメータの値の更新を終了するかを判定する。このように、変数導出部１１０は、パラメータの更新を終了すると判定されるまで、パラメータの値の更新と、更新されたパラメータの値を用いた出力データの生成と、を繰り返す。このような繰り返しを通してパラメータの値を更新する処理が、変数導出の学習である。パラメータ更新部１１５は、いわば、出力データと正解データとの組を訓練用データセットとした学習により、パラメータの値を更新する。更新を繰り返し行うことでパラメータの値をより好適な値にすることを、最適化とも呼ぶ。

　パラメータの値の更新を終了すると判定されたら（ステップＳ１６においてＹＥＳ）、変数導出の学習の処理は終了する。

　＜変数導出の学習による効果＞
　変数導出部１１０によれば、同一の対象について、異なる態様の該対象の特徴をそれぞれ表現し、かつ互いに関連性を持つ潜在変数ベクトルを、導出できる。

　上述した具体例に基づくと、変数導出部１１０が奏する効果の例は次の通りである。

　学習が完了した後の変数導出部１１０のエンコーダ１１２、変換部１１３およびデコーダ１１４は、変換パラメータに応じて、異なる態様の対象を示す、複数の画像を生成することができる。したがって、エンコーダ１１２が出力する潜在変数ベクトルは、画像における対象の態様が変化した場合でも、変換によってその変化を表現できる。つまり、エンコーダ１１２と変換部１１３との組み合わせによれば、異なる態様の対象の特徴をそれぞれ表現し、かつ互いに関連性を持つ潜在変数ベクトルを、生成できる。

　態様の差異が定量的に表され得る差異である場合、変換部１１３およびデコーダ１１４の組は、正解データにない態様が記録されたデータを生成できる可能性がある。例えば、変数導出の学習において、ある態様（「態様ＳＡ」とする）の対象が記録されたデータおよび別の態様（「態様ＳＣ」とする）の対象が記録されたデータが、それぞれ正解データとして用いられたとする。変換部１１３は、態様ＳＡから態様ＳＣへの変化に相当する変換パラメータの値の半値を用いた変数変換により、態様ＳＡの対象を表現する潜在変数ベクトルから、態様ＳＡと態様ＳＣの間の態様に相当する態様（「態様ＳＢ」とする）の対象を表現する潜在変数ベクトルを生成可能である。デコーダ１１４がこの潜在変数ベクトルから出力データを生成することにより、態様ＳＢの対象が記録された出力データが生成される可能性がある。

　態様の差異が定量的に表されない差異である場合であっても、変換部１１３およびデコーダ１１４の組は、正解データにない態様が記録されたデータを生成できる場合がある。例えば、変数導出の学習において、態様ＳＡのある対象（「対象ＴＡ」とする）が記録されたデータ、態様ＳＢの対象ＴＡが記録されたデータ、および態様ＳＡの別の対象（「対象ＴＢ」とする）が記録されたデータが、それぞれ正解データとして用いられたとする。この学習により、変換部１１３およびデコーダ１１４の組は、潜在変数ベクトルから、態様ＳＡの対象ＴＡが記録されたデータおよび態様ＳＢの対象ＴＡが記録されたデータを生成できる。したがって、変換部１１３は、態様ＳＡの対象ＴＢが表現された潜在変数ベクトルを変換することにより、態様ＳＢの対象ＴＢを表現する潜在変数ベクトルを導出することができると考えられる。そして、この変換後の潜在変数ベクトルは、デコードにより態様ＳＢの対象ＴＢが記録されたデータを生成することも可能であると期待される。

　態様の差異が定量的に表され得る差異である場合、エンコーダ１１２は、入力データにない態様の対象を表現する潜在変数ベクトルを導出できる可能性がある。例えば、変数導出の学習において、態様ＳＡの対象が記録されたデータおよび態様ＳＣの対象が記録されたデータがそれぞれ入力データとして用いられたとする。パラメータの値が最適化された後のエンコーダ１１２に、態様ＳＡと態様ＳＣの間の態様に相当する態様ＳＢの対象が記録されたデータを入力すると、導出される潜在変数ベクトルは、態様ＳＡの対象を表現する潜在変数ベクトルから変数変換を行うことにより生成可能な潜在変数ベクトルに類似する（または一致する）可能性がある。すなわち、エンコーダ１１２は、学習に使用されていない態様の対象から、その態様とは別の態様を表現する潜在変数ベクトルに変換することが可能な潜在変数ベクトルを導出できる可能性がある。

　態様の差異が定量的に表されない差異である場合であっても、エンコーダ１１２は、入力データにない態様の対象を表現する潜在変数ベクトルを導出できる場合がある。例えば、変数導出の学習において、態様ＳＡの対象ＴＡが記録されたデータ、態様ＳＢの対象ＴＡが記録されたデータ、および態様ＳＡの対象ＴＢが記録されたデータが、それぞれ入力データとして用いられたとする。この学習により、エンコーダ１１２は、態様ＳＢの対象ＴＡを表現する潜在変数ベクトルを導出可能になる。したがって、エンコーダ１１２は、態様ＳＢの対象ＴＢが記録されたデータから、態様ＳＢの対象ＴＢを表現する潜在変数ベクトルを導出することもできると考えられる。そして、この導出される潜在変数ベクトルから、変数変換により態様ＳＡの対象ＴＢを表現する潜在変数ベクトルへと変換することも可能であると期待される。

　以上に述べた通り、変数導出の学習により、エンコーダ１１２は、異なる態様の同一の対象に対して、変換パラメータを用いた変換により互いに変換可能な潜在変数ベクトルを導出できる可能性がある。

　［補足］
　学習装置３１は、対象の態様が異なる２つ以上のデータとそれらのデータの間の差異を示す情報（差異情報）を取得可能であれば、どのようなデータ、対象、および態様の差異を扱ってもよい。

　入力データは光学画像に限られない。入力データは、態様が変化し得る対象を記録し、ニューラルネットワークによって変換され得る変数で表すことが可能なデータであれば、何でもよい。

　入力データの一例は、ＳＡＲデータである。ＳＡＲデータは、ＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ；合成開口レーダ）によって取得されるセンシングデータである。ＳＡＲデータにより記録される対象の例は、地形、構造物、車両、航空機、および船舶である。変化し得る態様の例は、ＳＡＲデータの取得時の方位角、および俯角である。つまり、ＳＡＲによるセンシング時の条件に起因する差異が、学習装置３１が扱う差異に採用されてもよい。

　例えば、入力データは、センシングデバイスによって取得されるセンシングデータの、時系列データでもよい。

　例えば、入力データは、音データでもよい。音データは、音が記録されたデータである。入力データが音データである場合は、入力データは、具体的には、時間ごとの振幅、または時間窓ごとのスペクトログラムの強度等により表されればよい。

　入力データが音データである場合、対象の例は、人の声、発話内容、音響イベント、および音楽、等である。音響イベントとは、悲鳴やガラスの破砕音等、何らかのイベントの発生を示す音のことである。入力データが音データである場合、異なり得る態様の例は、周波数（音の高さ）、録音場所、エコーの程度、音色、データの再生速度（テンポ）、ノイズの程度、音を発生した物の種類、音を発生した人物、またはその人物の感情の状態、等である。

　［分類学習部３１０］
　分類学習部３１０の構成および動作について説明する。

　＜構成＞
　図２を参照すると、分類学習部３１０は、データ取得部３１１と、変換部３１３と、分類部３１７と、パラメータ更新部３１５と、出力部３１６と、パラメータ記憶部３１９と、を備える。

　データ取得部３１１と、変換部３１３と、分類部３１７と、パラメータ更新部３１５と、出力部３１６と、は、例えば、プログラムを実行する１つまたは複数のＣＰＵにより実現される。

　パラメータ記憶部３１９は、例えば、メモリである。パラメータ記憶部３１９は、ハードディスク等の補助記憶装置でもよい。別の実施形態では、パラメータ記憶部３１９は学習装置３１の外部にあり、有線または無線により学習装置３１と通信可能であるように構成されていてもよい。パラメータ記憶部３１９は、分類部３１７が行う分類において用いられるパラメータを記憶する。

　なお、学習装置３１は、パラメータ記憶部３１９とは別に、データを一時的又は非一時的に記憶する記憶装置を備えていてもよい。

　＝＝＝データ取得部３１１＝＝＝
　データ取得部３１１は、分類学習部３１０が使用するデータを取得する。分類学習部３１０が使用するデータは、エンコーダ１１２により導出された潜在変数ベクトルと、正解情報である。

　正解情報は、後述する分類部３１７が分類結果として出力すべき情報として望ましいとされる情報である。正解情報は入力データとセットで与えられる。正解情報は、正解情報に関連づけられる入力データにおいて示される対象が正しく識別された場合に出力されるべき情報である。

　例えば、分類部３１７が行う分類が、Ｌ個（Ｌは２以上の任意の整数）のクラスのうち対象がいずれに属するかを識別する多クラス分類である場合、正解情報は、いずれか１つの成分の値が「１」であり、他の成分の値が「０」であるような、Ｌ次元のベクトルでもよい。このようなベクトルはＯｎｅ－ｈｏｔデータとも呼ばれる。このＯｎｅ－ｈｏｔデータにおいて、成分はそれぞれクラスに関連づけられている。つまり、このＯｎｅ－ｈｏｔデータは、対象が、値が「１」である成分に関連づけられているクラスに分類されたことを示す。

　また、例えば、分類部３１７が行う分類が、対象がある特定の物であるか否かを識別する二値分類である場合、正解情報は、「１」か「０」かの値をとる情報でもよい。

　正解情報は、後述するパラメータ更新部３１５によるパラメータの値の更新において、分類部３１７の分類結果と比較される。

　データ取得部３１１は、エンコーダ１１２により導出された潜在変数ベクトルを、潜在変数記憶部１１８から読み出すことにより、取得すればよい。

　＝＝＝変換部３１３＝＝＝
　変換部３１３は、エンコーダ１１２により導出された潜在変数ベクトルを、別の潜在変数ベクトルへと変換する。変換部３１３は、変換部１１３と同様、変換関数を用いた変数変換を行う。

　変換部３１３が用いる変換関数は、変換部１１３と同じ種類の、すなわち、高々変換パラメータの値のみが異なる、変換関数である。

　変換部３１３は、変換パラメータの様々な値を用いた複数の変数変換により、複数の別の潜在変数ベクトルを生成してもよい。

　＝＝＝分類部３１７＝＝＝
　分類部３１７は、変換部３１３が出力する潜在変数ベクトルに対して、分類を行う。

　分類部３１７は、例えば、ニューラルネットワークを使用して、潜在変数ベクトルをニューラルネットワークの入力層に入力し、出力として分類結果を示す情報を生成する。

　分類結果を示す情報は、例えば、分類部３１７が多クラス分類器として使用される場合、対象が分類先のクラスに属する確率（尤度といってもよい）の分布を示す多次元ベクトルである。このような場合の多次元ベクトルの成分の数は、分類先のクラスの個数である。分類部３１７が二値分類器として使用される場合、分類結果を示す情報は、対象が所定の認識対象である確率を示す数値でもよい。いずれにせよ、分類結果を示す情報は、正解情報と比較可能な形式で表現されたデータである。

　分類部３１７が使用するニューラルネットワークの構造は自由に設計され得る。たとえば、層の数、（多層ニューラルネットワークである場合は）中間層の成分数、成分間の接続の仕方に、制限はない。また、分類部３１７が使用するニューラルネットワークで使われる活性化関数はどのような活性化関数でもよい。

　分類部３１７は、使用するニューラルネットワークにおけるパラメータ（典型的には、重みおよびバイアス）の値を、パラメータ記憶部３１９から読み出して、分類を行う。

　＝＝＝パラメータ更新部３１５＝＝＝
　パラメータ更新部３１５は、分類部３１７による分類結果を示す情報と、データ取得部３１１により取得された正解情報と、の比較に基づき、分類部３１７に用いられるニューラルネットワークのパラメータの値を更新する。

　パラメータの値の更新の手順の具体例を示す。まず、パラメータ更新部３１５は、１組以上の、分類結果を示す情報と正解情報とのセットについて、分類結果を示す情報の、正解情報に対する誤差を算出する。パラメータ更新部３１５は、誤差を求めるための誤差関数として、たとえば交差エントロピーを用いてもよい。そして、パラメータ更新部３１５は、算出された誤差がより小さくなるように、新たなパラメータの値を決定する。新たなパラメータの値を決定するための手法は、一般的な分類器の学習において採用される、パラメータの値の最適化の方法として既知である方法が、用いられればよい。一例として、パラメータ更新部３１５は、誤差逆伝搬法を用いて勾配を計算し、ＳＧＤを用いてパラメータの値を決定してもよい。他に採用され得る手法として、「ＲＭＳｐｒｏｐ」、「Ａｄａｇｒａｄ」、「Ａｄａｄｅｌｔａ」、「Ａｄａｍ」等が挙げられる。

　そして、パラメータ更新部３１５は、決定した新たなパラメータの値を、パラメータ記憶部３１９に記録する。以降、分類部３１７は新たなパラメータの値を使用する。以上が更新の具体的手順である。

　なお、パラメータ更新部３１５は、所定の回数だけ、パラメータの値の更新を繰り返し行ってもよい。所定の回数は、例えば、学習装置３１のユーザから入力インタフェースを介して所定の回数を示す数値の入力を受け取った値に決定されてもよい。

　＝＝＝出力部３１６＝＝＝
　出力部３１６は、パラメータ更新部３１５により更新されたパラメータの値の情報を、出力する。例えば、出力部３１６は、パラメータ更新部３１５が繰り返しパラメータの値を更新することにより最適化されたパラメータの値を、出力する。出力部３１６による出力の出力先の例には、表示装置、記憶装置、および通信ネットワークが含まれる。出力部３１６が情報を表示装置に出力する場合、出力部３１６は、表示装置が該情報を表示できるよう、情報を変換してもよい。なお、上記した表示装置および記憶装置は、学習装置３１の外部のデバイスであってもよいし、学習装置３１に含まれる構成要素であってもよい。

　＜分類の学習に係る処理の流れ＞
　分類学習部３１０による、分類の学習に係る処理の流れを、図６のフローチャートを参照しながら説明する。なお、分類の学習に係る処理に含まれる各処理は、各処理がプログラムを実行するデバイスによって実行される場合においては、プログラムの中の命令の順序に従って実行されればよい。各処理が別個のデバイスによって実行される場合においては、処理を完了したデバイスが次の処理を実行するデバイスに通知を行うことで、次の処理が実行されればよい。なお、処理を行う各部は、例えば、めいめいの処理によって生成したデータを、学習装置３１に含まれる記憶領域または外部の記憶装置に記録する。また、処理を行う各部は、めいめいの処理に必要なデータを、そのデータを生成した部から受け取るか、上記の学習装置３１に含まれる記憶領域または外部の記憶装置から読み出せばよい。

　まず、エンコーダ１１２が、変数導出の学習によって最適化されたパラメータの値を用いて、入力データから潜在変数ベクトルを導出する（ステップＳ３１）。エンコーダ１１２は、導出した潜在変数ベクトルを潜在変数記憶部１１８に記録する。

　次に、データ取得部３１１が、エンコーダ１１２によって導出された潜在変数ベクトルと正解情報とを取得する（ステップＳ３２）。正解情報は、入力データとセットで学習装置３１に入力される。すなわち、正解情報は、入力データ、および、入力データから導出された潜在変数ベクトルに関連づけられている。

　次に、変換部３１３が、潜在変数ベクトルを別の潜在変数ベクトルに変換する（ステップＳ３３）。

　次に、分類部３１７が、上記別の潜在変数ベクトルに対して分類を行う（ステップＳ３４）。

　次に、パラメータ更新部３１５が、エンコーダ１１２およびデコーダ１１４に用いられるパラメータの値の更新を終了するかを判定する。

　更新を終了する場合とは、例えば、パラメータ更新部３１５がパラメータの値の更新を行った回数が、所定の回数に達した場合である。

　別の例として、更新を終了する場合とは、正解データに対する出力データの誤差が十分に小さい場合でもよい。パラメータ更新部３１５は、例えば、次のような場合に、誤差が十分に小さいと判定し、更新を終了すると判定してもよい。
・誤差を示す値が所定の基準値を下回った場合
・誤差をこれ以上小さくすることができない場合、または、
・誤差の減少量（すなわち、最後に行った更新の直前における誤差と更新後の誤差との差）もしくは減少率（すなわち、現在の誤差に対する減少量の比）が所定の基準値を下回った場合。

　あるいは、パラメータ更新部３１５は、各パラメータの値の絶対変化量（すなわち、更新する場合のパラメータの値の変化量の絶対値）の平均値もしくは最大値、または変化率（すなわち、現在の値に対する絶対変化量の比）の平均値もしくは最大値が、所定の基準値を下回った場合に、更新を終了すると判定してもよい。

　更新を終了しない場合は（ステップＳ３６においてＮＯ）、パラメータ更新部３１５はパラメータの値を更新し（ステップＳ３７）、分類学習部３１０は再びステップＳ３４およびステップＳ３５の処理を行う。２回目以降のステップＳ３４の処理では、分類部３１７は、更新されたパラメータの値を用いて、分類を行う。パラメータ更新部３１５は、ステップＳ３４の処理により新たに生成された分類結果を、再び正解情報と比較し（ステップＳ３５）、パラメータの値の更新を終了するかを判定する。このように、分類学習部３１０は、パラメータの更新を終了すると判定されるまで、パラメータの値の更新と、更新されたパラメータの値を用いた分類とを繰り返す。このような繰り返しを通してパラメータの値を更新する処理が、分類の学習である。パラメータ更新部３１５は、いわば、分類結果と正解情報との組を訓練用データセットとした学習により、パラメータの値を更新する。

　パラメータの値の更新を終了すると判定されたら（ステップＳ３６においてＹＥＳ）、出力部３１６はそのパラメータの値を出力する（ステップＳ３８）。

　＜効果＞
　以上に説明した分類の学習の結果、更新されたパラメータの値を用いる分類部３１７は、様々な態様の対象を表現する潜在ベクトルのそれぞれから、正しい分類結果を出力できる。したがって、エンコーダ１１２と分類部３１７とを組み合わせることにより、様々な態様の対象を識別することが可能な識別器を生成できる。

　ところで、エンコーダ１１２を作成するための学習においては、既に述べたように、対象があらゆる態様をとるデータを用意することは必ずしも要求されない。つまり、学習装置３１によれば、対象が記録されたデータのサンプルが少ない場合でも、様々な態様の対象を識別することが可能な識別器を生成できる。

　＜＜第２の実施形態＞＞
　学習装置は、変数導出部１１０を備えていなくてもよい。学習装置は、異なる態様の同一の対象に対して、変数変換により互いに変換可能な潜在変数ベクトルを導出するように構成されたエンコーダにより導出された潜在変数ベクトルを取得できるように、構成されていればよい。

　図７は、本発明の第２の実施形態に係る学習装置３２の構成を示すブロック図である。学習装置３２は、第１の実施形態における分類学習部３１０に含まれる構成、すなわち、データ取得部３１１と、変換部３１３と、分類部３１７と、パラメータ更新部３１５と、出力部３１６と、パラメータ記憶部３１９と、を備える。学習装置３２はエンコーダ３１２と、有線または無線によって通信可能に接続される。

　エンコーダ３１２は、例えば、第１の実施形態におけるエンコーダ１１２である。エンコーダ１１２は、第１の実施形態の説明で説明された、変数導出の学習により、最適化されたパラメータの値を用いたニューラルネットワークを用いて、潜在変数ベクトルの導出を行うように構成されている。

　学習装置３２によっても、様々な態様の対象を識別することが可能な識別器を生成できる。その理由は、第１の実施形態の説明で述べた理由と同じである。

　なお、エンコーダ３１２は、第１の実施形態におけるエンコーダ１１２でなくてもよい。所望の機能（すなわち、異なる態様の同一の対象に対して、変数変換により互いに変換可能な潜在変数ベクトルを導出する機能）を持つエンコーダ３１２を構成するための別の方法を、以下説明する。

　例えば、様々な態様の対象を正解データとして、互いに変換可能な潜在変数ベクトルをそれぞれの正解とする学習を行うことにより、エンコーダ３１２を生成し得る。この学習において、正解データには、第１の実施形態におけるデコーダ１１４が生成する出力データが採用され、正解となる潜在変数ベクトルには、第１の実施形態における変換部１１３が出力する潜在変数ベクトルが採用されてもよい。

　例として、所望の機能を持つエンコーダ３１２を生成する方法の１つは、次の方法である。まず、図８に示されるような、変数導出部１１０を備える学習装置１３を用意する。学習装置１３は、様々な態様の対象ＴＡがそれぞれ記録されたデータを、入力データとして使用して、第１の実施形態で説明される変数導出の学習を行う。そうすることで、エンコーダ１１２と変換部１１３とデコーダ１１４との組み合わせによって、様々な態様の対象ＴＡがそれぞれ記録された出力データが出力できるようになる。次に、学習装置１３は、エンコーダ１１２により、ある態様の対象ＴＢが記録されたデータから、潜在変数ベクトルを導出する。そして、学習装置１３は、潜在変数ベクトルを変数変換により変換し、出力データを生成することにより、未学習の態様の対象ＴＢが記録された出力データと潜在変数ベクトルとのセットを取得する。

　上記のセットを用いて、エンコーダ３１２は、未学習の態様の対象ＴＢが記録されたデータから正しい潜在変数ベクトルを導出するための学習を行う。これにより、エンコーダ３１２は、未学習の態様の対象ＴＢが記録されたデータから、学習済みの態様の対象ＴＢを表現する潜在変数ベクトルに変換可能な潜在変数ベクトルを導出可能になる。

　上記の方法において用意する必要があるデータは、様々な態様の対象ＴＡがそれぞれ記録されたデータと、ある態様の対象ＴＢが記録されたデータである。未学習の態様の対象ＴＢが記録されたデータは、用意する必要がない。

　＜＜第３の実施形態＞＞
　本発明の一実施形態に係る学習装置３０について説明する。図９は、学習装置３０の構成を示すブロック図である。学習装置３０は、データ取得部３０１と、変換部３０３と、パラメータ更新部３０５と、を備える。

　データ取得部３０１は、識別対象が記録されたデータから導出された、第１の特徴量を取得する。第１の特徴量は、異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、導出された特徴量である。上記エンコーダを実装する方法は既に述べた通りである。

　なお、本実施形態において、特徴量とは、エンコーダにより入力データから導出される、値の組を指す。特徴量は、対象を表す情報、データの表現、等と呼ばれてもよい。特徴量を導出することは、「特徴量を抽出する」と呼ばれることもある。上記各実施形態における、「潜在変数ベクトル」は、本実施形態の「特徴量」に相当する。特徴量が学習装置３０において保持される態様は問わない。例えば、特徴量は、配列の形式で保持されていてもよいし、名前が付与された変数の値としてそれぞれ保持されていてもよい。

　変換部３０３は、データ取得部３０１が取得した第１の特徴量に対し、変換パラメータを用いた変換を行うことで、第２の特徴量を生成する。

　パラメータ更新部３０５は、分類器（不図示）による分類に使用されるパラメータ（以下、「分類パラメータ」とも表記）の値を更新する。分類器は、特徴量を入力として分類を行うよう構成されたモジュールである。上記各実施形態の分類部３１７は、この分類器に相当する。分類器は、学習装置３０に含まれていてもよいし、含まれていなくてもよい。学習装置３０と分類器の機能を持つ装置とが、互いに通信可能に接続されていてもよい。分類パラメータは、学習装置によって記憶されていてもよいし、分類器の機能を持つ装置によって記憶されていてもよい。なお、分類パラメータは、例えば、ニューラルネットワークにおいて一般的に使用される重みおよびバイアスである。

　パラメータ更新部３０５は、分類器が、第２の特徴量を入力とした場合に識別対象に関連づけられるクラスを分類先として示す結果を出力するように、分類パラメータの値を更新する。つまり、学習装置３０は、第２の特徴量と、識別対象に関連づけられるクラスを分類先として示す結果と、の組を訓練用データとして、学習を行う。

　分類パラメータの値を更新するとは、例えば、分類パラメータを記憶する記憶部に、分類パラメータの新たな値を記録することである。パラメータ更新部３０５は、分類パラメータの新たな値を、学習装置３０の外部の装置（例えば、記憶装置、表示装置または分類器を使用する情報処理装置）に、出力してもよい。

　図１０のフローチャートを参照しながら、学習装置３０による処理の流れの例を説明する。まず、データ取得部３０１が、第１の特徴量を取得する（ステップＳ３０１）。次に、変換部３０３が、第１の特徴量に対し、変換パラメータを用いた変換を行うことで、第２の特徴量を生成する（ステップＳ３０２）。そして、パラメータ更新部３０５は、分類器が、第２の特徴量を入力とした場合に識別対象に関連づけられるクラスを分類先として示す結果を出力するように、分類パラメータの値を更新する（ステップＳ３０３）。

　学習装置３０によれば、対象が記録されたデータのサンプルが少ない場合でも、様々な態様の対象を識別することが可能な識別器を生成できる。その理由は、分類器が更新された分類パラメータの値を用いれば、第２の特徴量により表現され得る、識別対象が記録されたデータが、学習において用いられなかったとしても、正しく（すなわち、識別対象に関連づけられるクラスに）分類されるからである。

　＜実施形態の各部を実現するハードウェアの構成＞
　以上で説明された本発明の各実施形態において、各装置の各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のモジュールにより構成されることを必ずしも意味していない。

　各構成要素の処理は、たとえば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）およびハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、および、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。

　「コンピュータシステム」とは、一例として、図１１に示されるようなコンピュータ９００を含むシステムである。コンピュータ９００は、以下のような構成を含む。
・１つまたは複数のＣＰＵ９０１
・ＲＯＭ９０２
・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
・ＲＡＭ９０３へロードされるプログラム９０４Ａおよび記憶情報９０４Ｂ
・プログラム９０４Ａおよび記憶情報９０４Ｂを格納する記憶装置９０５
・記憶媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１

　たとえば、各実施形態における各装置の各構成要素は、その構成要素の機能を実現するプログラム９０４ＡをＣＰＵ９０１がＲＡＭ９０３にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム９０４Ａは、例えば、予め、記憶装置９０５やＲＯＭ９０２に格納される。そして、必要に応じてＣＰＵ９０１がプログラム９０４Ａを読み出す。記憶装置９０５は、たとえば、ハードディスクである。プログラム９０４Ａは、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記憶媒体９０６に格納されており、ドライブ装置９０７に読み出され、ＣＰＵ９０１に供給されてもよい。なお、記憶媒体９０６は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の、可搬媒体である。

　各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。

　また、各装置の各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

　各装置の各構成要素の一部または全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。

　＜＜付記＞＞
［付記１］
　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得手段と、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換手段と、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新手段と、
　を備える学習装置。
［付記２］
　前記変換手段は、相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記パラメータ更新手段は、前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　付記１に記載の学習装置。
［付記３］
　前記変換手段は、前記第１の特徴量の成分の配置を変更する前記変換を行う、
　付記１または２に記載の学習装置。
［付記４］
　前記データは画像であり、前記識別対象は物体または人物である、
　付記１から３のいずれかに記載の学習装置。
［付記５］
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　付記１から３のいずれかに記載の学習装置。
［付記６］
　前記第２の特徴量を入力として分類を行う前記分類手段をさらに備える、付記１から５のいずれかに記載の学習装置。
［付記７］
　前記エンコーダをさらに備える、付記１から６のいずれかに記載の学習装置。
［付記８］
　付記１から６のいずれかに記載の学習装置により更新された前記分類パラメータの値を用いる前記分類手段により、前記エンコーダを用いて新たなデータから導出される第３の特徴量を、入力として、分類を行う、分類方法。
［付記９］
　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得し、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成し、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、
　学習方法。
［付記１０］
　相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　付記９に記載の学習方法。
［付記１１］
　前記第１の特徴量の成分の配置を変更する前記変換を行う、
　付記９または１０に記載の学習方法。
［付記１２］
　前記データは画像であり、前記識別対象は物体または人物である、
　付記９から１１のいずれかに記載の学習方法。
［付記１３］
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　付記９から１１のいずれかに記載の学習方法。
［付記１４］
　付記９から１３のいずれかに記載の学習方法により更新された前記分類パラメータの値を用いる前記分類手段により、前記エンコーダを用いて新たなデータから導出される第３の特徴量を、入力として、分類を行う、分類方法。
［付記１５］
　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得処理と、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換処理と、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新処理と、
　をコンピュータに実行させるプログラムを記憶した、コンピュータ読み取り可能な記憶媒体。
［付記１６］
　前記変換処理は、相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記パラメータ更新処理は、前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　付記１５に記載の記憶媒体。
［付記１７］
　前記変換処理は、前記第１の特徴量の成分の配置を変更する前記変換を行う、
　付記１５または１６に記載の記憶媒体。
［付記１８］
　前記データは画像であり、前記識別対象は物体または人物である、
　付記１５から１７のいずれかに記載の記憶媒体。
［付記１９］
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　付記１５から１７のいずれかに記載の記憶媒体。

　本願発明は以上に説明した実施形態に限定されるものではない。以上に説明した実施形態の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１３、３０－３２　　学習装置
　１１０　　変数導出部
　１１１　　データ取得部
　１１２　　エンコーダ
　１１３　　変換部
　１１４　　デコーダ
　１１５　　パラメータ更新部
　１１８　　潜在変数記憶部
　１１９　　パラメータ記憶部
　３１０　　分類学習部
　３０１、３１１　　データ取得部
　３１２　　エンコーダ
　３０３、３１３　　変換部
　３０５、３１５　　パラメータ更新部
　３１６　　出力部
　３１７　　分類部
　９００　　コンピュータ
　９０１　　ＣＰＵ
　９０２　　ＲＯＭ
　９０３　　ＲＡＭ
　９０４Ａ　　プログラム
　９０４Ｂ　　記憶情報
　９０５　　記憶装置
　９０６　　記憶媒体
　９０７　　ドライブ装置
　９０８　　通信インタフェース
　９０９　　通信ネットワーク
　９１０　　入出力インタフェース
　９１１　　バス

Claims

　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得手段と、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換手段と、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新手段と、
　を備える学習装置。
　前記変換手段は、相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記パラメータ更新手段は、前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　請求項１に記載の学習装置。
　前記変換手段は、前記第１の特徴量の成分の配置を変更する前記変換を行う、
　請求項１または２に記載の学習装置。
　前記データは画像であり、前記識別対象は物体または人物である、
　請求項１から３のいずれかに記載の学習装置。
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　請求項１から３のいずれかに記載の学習装置。
　前記第２の特徴量を入力として分類を行う前記分類手段をさらに備える、請求項１から５のいずれかに記載の学習装置。
　前記エンコーダをさらに備える、請求項１から６のいずれかに記載の学習装置。
　請求項１から６のいずれかに記載の学習装置により更新された前記分類パラメータの値を用いる前記分類手段により、前記エンコーダを用いて新たなデータから導出される第３の特徴量を、入力として、分類を行う、分類方法。
　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得し、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成し、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、
　学習方法。
　相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　請求項９に記載の学習方法。
　前記第１の特徴量の成分の配置を変更する前記変換を行う、
　請求項９または１０に記載の学習方法。
　前記データは画像であり、前記識別対象は物体または人物である、
　請求項９から１１のいずれかに記載の学習方法。
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　請求項９から１１のいずれかに記載の学習方法。
　請求項９から１３のいずれかに記載の学習方法により更新された前記分類パラメータの値を用いる前記分類手段により、前記エンコーダを用いて新たなデータから導出される第３の特徴量を、入力として、分類を行う、分類方法。
　異なる態様の同一の対象がそれぞれ記録されたデータから、前記態様の差異に応じた値をとる変換パラメータを用いた変換により互いに変換可能な特徴量をそれぞれ導出するように構成された、エンコーダにより、識別対象が記録されたデータから導出された、第１の特徴量を取得する取得処理と、
　前記第１の特徴量に対し、前記変換パラメータの値を用いた変換を行うことで、第２の特徴量を生成する変換処理と、
　特徴量を入力として分類を行うよう構成された分類手段が、前記第２の特徴量を入力とした場合に前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類手段による分類に使用される分類パラメータの値を更新する、パラメータ更新処理と、
　をコンピュータに実行させるプログラムを記憶した、コンピュータ読み取り可能な記憶媒体。
　前記変換処理は、相異なる前記変換パラメータの値をそれぞれ用いた複数の変換により、前記第１の特徴量から複数の第２の特徴量を生成し、
　前記パラメータ更新処理は、前記分類手段が前記複数の第２の特徴量のいずれを入力としても前記識別対象に関連づけられるクラスを分類先として示す結果を出力するように、前記分類パラメータの値を更新する、
　請求項１５に記載の記憶媒体。
　前記変換処理は、前記第１の特徴量の成分の配置を変更する前記変換を行う、
　請求項１５または１６に記載の記憶媒体。
　前記データは画像であり、前記識別対象は物体または人物である、
　請求項１５から１７のいずれかに記載の記憶媒体。
　前記データはＳＡＲ（Ｓｙｎｔｈｅｔｉｃ　Ａｐｅｒｔｕｒｅ　Ｒａｄａｒ）によるセンシングデータから生成される画像であり、前記態様の差異はＳＡＲによるセンシング時の条件に起因する差異である、
　請求項１５から１７のいずれかに記載の記憶媒体。