WO2022162719A1

WO2022162719A1 - 分離方法、分離装置、学習方法、学習装置及びプログラム

Info

Publication number: WO2022162719A1
Application number: PCT/JP2021/002554
Authority: WO
Inventors: 忍工藤; 隆一谷田; 英明木全
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-08-04
Also published as: JPWO2022162719A1

Abstract

分離対象のデータから特徴量を分離する分離方法であって、分離対象のデータである分離対象データを取得する取得ステップと、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、を有し、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離方法。

Description

分離方法、分離装置、学習方法、学習装置及びプログラム

　本発明は、分離方法、分離装置、学習方法、学習装置及びプログラム
に関する。

　ラベル特徴を抽出するＷｃとラベル以外特徴を抽出するＷｕの２つのニューラルネットワークで構成され、ラベル特徴を更にクラス分類用のニューラルネットワークへ入力し、クラス分類タスクを解く学習方法が提案されている。そして、この提案の学習方法では、ラベル特徴の再構成とラベル以外特徴の再構成を１：１で加重和したもので入力ｘを復元する（例えば非特許文献１参照）。

Thomas Robert, Nicolas Thome, Matthieu Cord、"HybridNet: Classification and Reconstruction Cooperation for Semi-Supervised Learning"、2018、インターネット検索、＜URL: https://arxiv.org/abs/1807.11407＞

　しかしながら、従来技術は、ラベル特徴のクラス分類を解く際に、ラベル特徴の特徴を更にクラス分類用のＮＷへ入力しているため、この処理でクラス以外の情報が消失する可能性がある。このため、従来技術では、ラベル特徴がクラス以外の情報を含んでいたとしてもそれを検知できない。このように、従来技術では、学習時に特徴が漏れるため、データを任意の特徴に明確に分離することができない場合があるという問題があった。

　上記事情に鑑み、本発明は、データを任意の特徴に明確に分離することができる技術の提供を目的としている。

　本発明の一態様は、分離対象のデータから特徴量を分離する分離方法であって、分離対象のデータである分離対象データを取得する取得ステップと、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、を有し、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離方法である。

　本発明の一態様は、分離対象のデータから特徴量を分離する分離装置であって、分離対象のデータである分離対象データを取得する分離対象取得部と、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する分離部と、を備え、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離装置。

　本発明の一態様は、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得ステップと、データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習ステップと、を有する学習方法。

　本発明の一態様は、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得部と、データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習部と、を備える学習装置。

　本発明の一態様は、上記の分離装置をコンピュータに機能させるためのプログラムである。

　本発明の一態様は、上記の学習装置をコンピュータに機能させるためのプログラムである。

　本発明により、データを任意の特徴に明確に分離することができる。

実施形態のデータ分離システム１００の概要を説明する説明図。実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第１の説明図。実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第２の説明図。実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第３の説明図。実施形態におけるデータ分離モデル学習装置１を説明する説明図。実施形態におけるデータ分離モデル学習装置１のハードウェア構成の一例を示す図。実施形態における制御部１１の機能構成の一例を示す図。実施形態におけるデータ分離モデル学習装置１が実行する処理の流れの一例を示すフローチャート。実施形態における分離装置２のハードウェア構成の一例を示す図。実施形態における制御部２１の機能構成の一例を示す図。実施形態における分離装置２が実行する処理の流れの一例を示すフローチャート。実施形態における分離装置２を用いた実験結果の一例を第１の説明図。実施形態における分離装置２を用いた実験結果の一例を第２の説明図。実施形態における分離装置２を用いた実験結果の一例を第３の説明図。

（実施形態）
　図１は、実施形態のデータ分離システム１００の概要を説明する説明図である。まず、データ分離システム１００の基本的な概念を説明する。クラス分類の精度を向上させようとした場合、クラス分類を行うための特徴が過不足なく得られればよい。さらに、クラス分類を行うための特徴以外の特徴に、クラス分類に貢献しうる特徴が少なくなればよい。これを実現するための一例として、クラス分類を行うための特徴、すなわちラベル特徴からラベル以外の入力データを再構成しづらいかつ当該ラベル特徴を用いたクラス分類の精度が高くなるようにラベル特徴を取得すればよい。また、さらに、ラベル特徴以外の特徴からラベル以外の入力データを再構成しやすいかつクラス分類の精度が低くなるようにラベル特徴以外の特徴を取得すればよい。なお、特徴量の抽出処理及び抽出した特徴量から再構成することができる仕組みであればオートエンコーダ以外を用いてもよい。

　データ分離システム１００は、データ分離モデル学習装置１及び分離装置２を備える。
　データ分離モデル学習装置１は、入力されたデータを任意の特徴に明確に分離する数理モデル（以下「データ分離モデル」という。）を、１又は複数の学習データを用いた機械学習の方法により得る。入力されたデータは例えば画像である。学習データは、学習用の入力側のデータ（以下「学習用入力側データ」という。）と正解データとの対のデータ（以下「対データ」という。）を含むデータである。正解データは対応する学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である。

　なお、データを特徴に分離するとは、データの特徴量を得ることを意味する。データを任意の特徴に明確に分離するとは、得られる特徴量間の違いが大きい特徴量を得ることを意味する。データを任意の特徴に明確に分離するとは、より具体的には、得られる特徴量それぞれが独立しつつ、なおかつ、得られる特徴量間の違いが大きい、という条件を満たす特徴量を得ることを意味する。すなわち、データを特徴に分離するとは特徴量間の線形独立の度合が高い状態で特徴量を得ることを意味する。データを任意の特徴に分離するとは、ユーザ等のデータ分離モデル学習装置１の外部の装置又は人によって指示された任意の特徴量を、他の特徴量との間の線形独立の度合が高い状態で得ることを意味する。

　具体的には、データ分離モデル学習装置１は、予め用意された機械学習のモデルであって入力されたデータを任意の特徴に分離する機械学習のモデル（以下「データ分離学習モデル」という。）を、１又は複数の学習データを用いて更新する。学習済みのデータ分離学習モデルが、データ分離モデルである。以下、学習データを用いて機械学習のモデル（以下「機械学習モデル」という。）を更新することを学習という。

　以下の説明において、Ａ^０であるように学習するとは、機械学習モデルにおけるパラメータの値がＡ^０を満たすように調整されることを意味する。Ａ^０は条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習モデルは、実行される条件と順番とが予め定められた１又は複数の処理を含む集合である。

　学習済みとは、所定の終了条件（以下「学習終了条件」という。）が満たされた、ということを意味する。学習終了条件は、例えば所定の数の学習データを用いた学習が終了した、という条件である。学習終了条件は、例えばデータ分離学習モデルの更新による変化が所定の変化よりも小さい、という条件であってもよい。

　データ分離モデル学習装置１は学習に際して、より明確にデータを任意の特徴に分離するように学習する。より明確にデータを特徴に分離するとは、データの特徴への分離によって得られる各特徴量間の違いがより大きいように各特徴量を得ることを意味する。

　分離装置２は、データ分離モデル学習装置１が得たデータ分離モデルを用いて、入力された分離対象のデータ（以下「分離対象データ」という。）を特徴に分離する。

　図２～図４を用いてデータ分離モデル学習装置１の動作の概要を説明する。

　図２は、実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第１の説明図である。データ分離モデル学習装置１はデータ分離学習モデルを実行する。データ分離学習モデルは、少なくともエンコーダとデコーダとを備えるニューラルネットワーク等の回路によって表現される。すなわち、データ分離モデル学習装置１は、データ分離学習モデルを表現する回路を備え、データ分離学習モデルを実行する。

　なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。学習によってニューラルネットワークが更新されるとは、ニューラルネットワークのパラメータの値が更新されることを意味する。またニューラルネットワークのパラメータは、ニューラルネットワークを構成する回路のパラメータであり、ニューラルネットワークを構成する回路が表現する機械学習モデルのパラメータでもある。なお、機械学習モデルを実行するとは、機械学習モデルを表現する回路が機械学習モデルを実行することを意味する。

　データ分離モデル学習装置１は、エンコーダを用いて、入力されたデータからラベル特徴量Ｚｙと非ラベル特徴量Ｚｙｃとの値を推測する。ラベル特徴量Ｚｙは、入力されたデータの特徴量であって学習時に正解データが値を示す量である。非ラベル特徴量Ｚｙｃは、入力されたデータの特徴量であってラベル特徴量以外の特徴量である。入力されたデータは、具体的には学習用入力側学習データである。ラベル特徴量Ｚｙの値と非ラベル特徴量Ｚｙｃの値とは、どちらも潜在変数の値である。図２において“元のデータ”は、入力されたデータを表す。

　エンコーダの出力は、Ｍ個のパラメータから構成される特徴量の値の集合であって、ラベル特徴量Ｚｙと非ラベル特徴量Ｚｙｃとを含む特徴量の値の集合である。Ｍ個のパラメータから構成される特徴量であってラベル特徴量Ｚｙと非ラベル特徴量Ｚｙｃとを含む特徴量Ｚは、例えばＭ個の要素を有するベクトルで表現される。Ｍは１以上の整数である。特徴量ＺがＭ個の要素を有するベクトルで表現される場合、例えばベクトルの各要素はラベル特徴量Ｚｙの値と非ラベル特徴量Ｚｙｃの値とのいずれか一方を表す。

　ラベル特徴量ＺｙがＬ個のパラメータから構成される場合、ラベル特徴量Ｚｙは例えばＬ個の要素を有するベクトルで表現される。ＬはＭ以下の整数である。ラベル特徴量Ｚｙは例えばＬ個の要素を有するベクトルで表現される場合、非ラベル特徴量Ｚｙｃは、例えば（Ｍ－Ｌ）個のパラメータから構成され（Ｍ－Ｌ）個の要素を有するベクトルで表現される。

　データ分離モデル学習装置１は、ラベル特徴量Ｚｙの値に基づき、デコーダを用いて、入力されたデータを推定する。データ分離モデル学習装置１は、非ラベル特徴量Ｚｙｃの値に基づき、デコーダを用いて、入力されたデータを推定する。図２において“再構成されたデータ”は、データ分離モデル学習装置１が推定した結果の入力されたデータを表す。

　データ分離モデル学習装置１は、入力されたデータとラベル特徴量Ｚｙの値とに基づき得られた入力されたデータの推定結果との違いを取得する。データ分離モデル学習装置１は、入力されたデータと非ラベル特徴量Ｚｙｃの値とに基づき得られた入力されたデータの推定結果との違いとの和を取得する。また、データ分離モデル学習装置１は、ラベル特徴量Ｚｙと非ラベル特徴量Ｚｙｃとについて、それぞれ正解データとの違いも取得する。

　データ分離モデル学習装置１は、得られた違いの和に少なくとも基づきデータ分離学習モデルの更新を行う。データ分離学習モデルがニューラルネットワークで表現される場合、違いは機械学習における損失である。

　なお、上述したように非ラベル特徴量Ｚｙｃは入力されたデータが有する情報のうちラベル特徴量以外の情報である。そのため集合論の言葉で説明すれば、非ラベル特徴量Ｚｙｃの集合は、入力されたデータの集合を全体集合としてラベル特徴量Ｚｙの集合の補集合である。非ラベル特徴量Ｚｙｃの“ｃ”は“complementary”の意味であり、非ラベル特徴量Ｚｙｃの集合がラベル特徴量Ｚｙの集合の補集合であることを示す。

　図３は、実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第２の説明図である。より具体的には図３は、データ分離モデル学習装置１がデータ分離学習モデルの更新を行う規則（以下「更新規則」という。）を、ベン図を用いて説明する第１の説明図である。

　図３に記載の“ｙ”は正解データを表す。図３に記載のＩ（Ｚｙ；ｙ）は、ラベル特徴量Ｚｙの値と正解データｙとの相互情報量を表す。図３に記載の、Ｉ（Ｚｙｃ；ｙ）は、非ラベル特徴量Ｚｙｃの値と正解データｙとの相互情報量を表す。データ分離モデル学習装置１は、相互情報量Ｉ（Ｚｙ；ｙ）が大きくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量Ｉ（Ｚｙ；ｙ）を増大させるという条件（以下「第１更新条件」という。）を含む。また、データ分離モデル学習装置１は、相互情報量Ｉ（Ｚｙｃ；ｙ）が小さくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量Ｉ（Ｚｙｃ；ｙ）を減少させるという条件（以下「第２更新条件」という。）を含む。

　図４は、実施形態におけるデータ分離モデル学習装置１の動作の概要を説明する第３の説明図である。より具体的には図４は、更新規則を、ベン図を用いて説明する第２の説明図である。

　図４に記載の“ｙ”は正解データを表す。図４に記載の“ｘ”は、学習用入力側データを表す。図４に記載のＩ（（Ｚｙ｜ｙ）；ｘ）は、正解データｙがｙである場合のラベル特徴量Ｚｙの値と学習用入力側データｘの相互情報量である。図４に記載のＩ（（Ｚｙｃ｜ｙ）；ｘ）は、正解データｙがｙである場合の非ラベル特徴量Ｚｙｃの値と学習用入力側データｘの相互情報量である。

　データ分離モデル学習装置１は、相互情報量Ｉ（（Ｚｙ｜ｙ）；ｘ）が小さくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量Ｉ（（Ｚｙ｜ｙ）；ｘ）を減少させるという条件（以下「第３更新条件」という。）を含む。また、データ分離モデル学習装置１は、相互情報量Ｉ（（Ｚｙｃ｜ｙ）；ｘ）が大きくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量Ｉ（（Ｚｙｃ｜ｙ）；ｘ）を増大させるという条件（以下「第４更新条件」という。）を含む。

　データ分離モデル学習装置１は、更新規則の内容を関数（以下「更新関数」という。）によって表現し更新関数を最適化するようにデータ分離学習モデルの更新を行う。なお、更新関数の最適化は、更新関数の内容に応じて予め定められた処理であり、更新関数の値の最大化を行うか又は最小化を行うかが予め定められた処理である。例えば以下の式（１）の例の場合、更新関数の最適化は更新関数の値を最小化する処理を意味する。データ分離学習モデルがニューラルネットワークによって表現される場合、更新関数は機械学習における目的関数である。

　更新関数は例えば以下の式（１）を含む。式（１）の左辺Ｌ´が更新関数に含まれる関数（以下「部分更新関数」という。）の一例を表す。なお、更新関数は式（１）の部分更新関数そのものであってもよい。

　分離性能Ｌｙは、正解データｙに関する分離の度合を表す。正解データｙに関する分離の度合とは、ｙとＺｙとの近さを表す度合である。ｙとＺｙとが近いほどｙとＺｙｃとが離れることを意味するので、正解データｙに関する分離の度合とは、ｙとＺｙｃとの遠さを表す度合でもある。

　分離性能Ｌｙｃは、非正解データｙ^ｃに関する分離の度合を表す。非正解データｙ^ｃは、正解データｙを表す線形空間又は非線形空間（すなわち多様体）の直交補空間の点である。線形空間又は非線形空間は、例えばノルム空間である。非正解データｙ^ｃに関する分離の度合とは、ｙ^ｃとＺｙとの近さを表す度合である。ｙｃとＺｙとが近いほどｙ^ｃとＺｙｃとが離れることを意味するので、非正解データｙ^ｃに関する分離の度合とは、ｙ^ｃとＺｙｃとの遠さを表す度合でもある。

　式（３）の４行目から５行目への式変形においてラベル特徴量ｙが助変数として追加され、式（３）の６行目の式は非正解データｙ^Ｃを含まない。この理由は、非正解データｙ^ｃについてはデータ分離モデル学習装置１の動作の理論の理解を助けるために導入された量でありデータ分離モデル学習装置１が取得する量では無いためである。

　式（２）及び（３）に記載のＨは、条件付きエントロピーを表す。より具体的には、式（２）及び（３）に記載のＨ（Ａ｜Ｂ）の形式で表現される記号は、条件Ｂで条件を付けたＡの条件付きエントロピーを表す。Ｈ（Ａ｜Ｂ）の値を得るには確率Ｐ（Ａ｜Ｂ）の値が必要である。しかしながら、確率Ｐ（Ａ｜Ｂ）は一般に解析解が得られるものではないため、厳密に計算することが難しい。

　そこで、データ分離モデル学習装置１では、部分更新関数Ｌ´として、変分下界を算出する方法を用いることで得られる条件付きエントロピーＨ（Ａ｜Ｂ）によって表現される部分更新関数Ｌ´を用いる。変分下界を算出する方法は、具体的には以下の式（４）～式（７）の各式変形である。データ分離モデル学習装置１は、エントロピーＨ（Ａ｜Ｂ）の各項を対応する変分下界に置き換えた式を更新関数として用いる。ここで、Ｅ[・]は期待値演算、Ｆ１、Ｆ２、Ｆ３及びＦ４は補助分布を表す。

　このように、データ分離モデル学習装置１は、第１更新条件、第２更新条件、第３更新条件及び第４更新条件を少なくとも含む更新規則に従ってデータ分離学習モデルの更新を行う。したがって、データ分離モデル学習装置１は、分離性能Ｌｙと分離性能Ｌｙｃとが大きなデータ分離モデルを得ることができる。そのため、データ分離モデル学習装置１は、データを任意の特徴に明確に分離する数理モデルを得ることができる。

　図５は、実施形態におけるデータ分離モデル学習装置１を説明する説明図である。入力側データ取得部１０１、ラベル情報取得部１０２、エンコード部１０３、ラベル特徴量抽出部１０４、ラベル特徴デコード部１０５、ラベル側再構成誤差算出部１０６、ラベル特徴分類器１０７、ラベル側分類誤差算出部１０８、非ラベル特徴量抽出部１０９、非ラベル特徴分類器１１０、非ラベル側分類誤差算出部１１１、非ラベル特徴デコード部１１２、非ラベル側再構成誤差算出部１１３、非分離デコード部１１４、非分離再構成誤差算出部１１５及び最適化部１１６を備える。

　入力側データ取得部１０１、ラベル情報取得部１０２、エンコード部１０３、ラベル特徴量抽出部１０４、ラベル特徴デコード部１０５、ラベル側再構成誤差算出部１０６、ラベル特徴分類器１０７、ラベル側分類誤差算出部１０８、非ラベル特徴量抽出部１０９、非ラベル特徴分類器１１０、非ラベル側分類誤差算出部１１１、非ラベル特徴デコード部１１２、非ラベル側再構成誤差算出部１１３、非分離デコード部１１４、非分離再構成誤差算出部１１５及び最適化部１１６のうち、少なくとも入力側データ取得部１０１、ラベル情報取得部１０２、ラベル側再構成誤差算出部１０６、ラベル側分類誤差算出部１０８、非ラベル側分類誤差算出部１１１、非ラベル側再構成誤差算出部１１３、非分離再構成誤差算出部１１５及び最適化部１１６以外は、学習によって更新される回路である。

　エンコード部１０３、ラベル特徴量抽出部１０４、ラベル特徴デコード部１０５、ラベル特徴分類器１０７、非ラベル特徴量抽出部１０９、非ラベル特徴分類器１１０、非ラベル特徴デコード部１１２及び非分離デコード部１１４によって構成される回路は、データ分離学習モデルを表現する回路（以下「モデル学習ネットワーク」という。）の一例である。モデル学習ネットワークは、例えばニューラルネットワークによって構成される。

　モデル学習ネットワークがニューラルネットワークによって構成される場合、モデル学習ネットワークを構成するニューラルネットワークは、データ分離学習モデルを表現するニューラルネットワークであればどのようなニューラルネットワークであってもよい。モデル学習ネットワークを構成するニューラルネットワークは、例えば深層ニューラルネットワークであってもよい。

　なお、データ分離学習モデルを実行するとは、データ分離学習モデルを表現する回路（すなわちモデル学習ネットワーク）がデータ分離学習モデルを実行することを意味する。

　入力側データ取得部１０１は、学習データが含む学習用入力側データを得る。ラベル情報取得部１０２は、学習データが含む正解データを得る。エンコード部１０３は、入力側データ取得部１０１が得た学習用入力側データをエンコードする。

　ラベル特徴量抽出部１０４は、エンコード部１０３がエンコードした結果（以下「エンコード結果」という。）に基づき、ラベル特徴量の値を得る。すなわち、ラベル特徴量抽出部１０４が得るラベル特徴量の値は、ラベル特徴量抽出部１０４の推定結果である。

　ラベル特徴デコード部１０５は、正解データとラベル特徴量抽出部１０４が取得したラベル特徴量の値に基づき、学習用入力側学習データをデコードする。

　ラベル側再構成誤差算出部１０６は、ラベル特徴デコード部１０５のデコードの結果と、入力側データ取得部１０１が得た学習用入力側学習データとの違い（以下「ラベル側データ損失」という。）を得る。

　ラベル特徴分類器１０７は、ラベル特徴量抽出部１０４が取得したラベル特徴量の値について、各ラベル特徴量の値をクラスタリング等の分類の方法によって分類する。

　ラベル側分類誤差算出部１０８は、ラベル特徴分類器１０７の分類の結果と、ラベル情報取得部１０２が得た正解データとの違い（以下「ラベル側分類損失」という。）を得る。

　非ラベル特徴量抽出部１０９は、エンコード結果に基づき、非ラベル特徴量の値を得る。すなわち、非ラベル特徴量抽出部１０９が得る非ラベル特徴量の値は、非ラベル特徴量抽出部１０９の推定結果である。

　非ラベル特徴分類器１１０は、非ラベル特徴量抽出部１０９が取得した非ラベル特徴量の値について、各非ラベル特徴量の値をクラスタリング等の分類の方法によって分類する。

　非ラベル側分類誤差算出部１１１は、非ラベル特徴分類器１１０の分類の結果と、ラベル情報取得部１０２が得た正解データとの違い（以下「非ラベル側分類損失」という。）を得る。

　非ラベル特徴デコード部１１２は、正解データと非ラベル特徴量抽出部１０９が取得した非ラベル特徴量の値とに基づき、学習用入力側学習データをデコードする。

　非ラベル側再構成誤差算出部１１３は、非ラベル特徴デコード部１１２のデコードの結果と、入力側データ取得部１０１が得た学習用入力側学習データとの違い（以下「非ラベル側データ損失」という。）を得る。

　非分離デコード部１１４は、ラベル特徴量の値と非ラベル特徴量の値とを用いてエンコード結果をデコードする。非分離再構成誤差算出部１１５は、非分離デコード部１１４のデコードの結果と、入力側データ取得部１０１が得た学習用入力側学習データとの違い（以下「非分離データ損失」という。）を得る。

　最適化部１１６は、ラベル特徴量の値を用いて生成されたデータと学習データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。なお、ラベル特徴量の値を用いて生成されたデータとは、具体的にはラベル特徴デコード部１０５の出力結果である。非ラベル特徴量の値を用いて生成されたデータとは、具体的には非ラベル特徴デコード部１１２の出力結果である。最適化部１１６はラベル特徴量の値を用いて分類した結果と正解ラベルとの違いが小さくなり、非ラベル特徴量の値を用いて分類した結果と正解ラベルとの違いが大きくなるようにデータ分離学習モデルを更新する。ラベル特徴量の値を用いて分類した結果とは、ラベル特徴分類器１０７の出力結果である。非ラベル特徴量の値を用いて分類した結果とは、非ラベル特徴分類器１１０の出力結果である。

　具体的には、最適化部１１６は、モデル学習ネットワークによるデータ分離学習モデルの実行結果に基づき、以下の損失関連条件が満たされるようにデータ分離学習モデルを更新する。

　より具体的には、最適化部１１６は、少なくともラベル側データ損失、ラベル側分類損失、非ラベル側データ損失及び非ラベル側分類損失に基づき、以下の損失関連条件が満たされるようにデータ分離学習モデルを更新する。損失関連条件は、第１損失関連条件、第２損失関連条件、第３損失関連条件及び第４損失関連条件を含む条件である。

　第１損失関連条件は、ラベル側データ損失が大きくなるという条件である。第２損失関連条件は、ラベル側分類損失が小さくなるという条件である。第３損失関連条件は、非ラベル側分類損失が大きくなるという条件である。第４損失関連条件は、非ラベル側データ損失が小さくなるという条件である。

　損失関連条件が表す条件は、第１更新条件、第２更新条件、第３更新条件及び第４更新条件の４条件によって表される内容を、ラベル側データ損失、ラベル側分類損失、非ラベル側分類損失及び非ラベル側データ損失を用いて表現した条件である。

　最適化部１１６は、例えば以下の式（８）で表される更新関数を最小化するようにデータ分離学習モデルを更新する。式（８）が表す更新関数は、損失関連条件を表現する関数の一例である。

　式（８）におけるＬ_０は、非分離データ損失を表す。Ｌ_０は、例えばＭＳＥ　Ｌｏｓｓ（Mean Squared Error）やＫＬ（Kullback-Leibler）　Ｌｏｓｓ等のＡＥ（AutoEncoder）又はＶＡＥ（Variational AutoEncoder）の目的関数である。式（８）のＬ_１は、ラベル側データ損失を表す。式（８）のＬ_２は、ラベル側分類損失を表す。式（８）のＬ_３は、非ラベル側分類損失を表す。式（８）のＬ_４は、非ラベル側データ損失を表す。Ｌ_０、Ｌ_１、Ｌ_２、Ｌ_３及びＬ_４の各例は以下の式（９）～式（１３）で表される関数である。

　なお、式（９）～式（１３）はいずれも以下の条件（以下「例示表現条件」という。）の下で表現された関数である。例示表現条件は、学習データを｛ｘ_ｉ、ｙ_ｉ｝で表すという条件を含む。ｉは、１からＮまでの整数である。ｘ_ｉは、学習用入力側データを表す。ｙ_ｉは正解データを表す。ｙ_ｉの値は、１からＫまでのいずれ１つの値である。Ｋは１以上の整数である。そのためＫは、ラベル特徴分類器１０７によるラベル特徴量の値の分類先の候補の数である。

　式（９）～式（１３）に含まれる表現で以下の式（１４）の式は、２つのベクトル間の距離を算出する関数を表す。２つのベクトル間の距離を算出する関数は、例えば平均二乗誤差和である。２つのベクトル間の距離を算出する関数は、例えばバイナリークロスエントロピーであってもよい。

　ハット記号は、デコードの結果を表す。例えば式（９）の学習用入力側データｘ_ｌにハット記号が付与された記号は、エンコード部１０３による学習用入力側データｘ_ｌに対するエンコードの結果得られた特徴量Ｚをデコードして得られるデータを表す。ｌ（エル）は、１以上Ｎ以下の整数である。

　式（１０）の学習用入力側データｘ_ｌ ^ｙにハット記号が付与された記号は、第１ラベル特徴量と正解データｙｌとがラベル特徴デコード部１０５に入力された結果、ラベル特徴デコード部１０５が出力するデータを表す。第１ラベル特徴量は、エンコード部１０３による学習用入力側データｘ_ｌに対するエンコードの結果得られたラベル特徴量である。

　式（１３）の学習用入力側データｘ_ｌ ^ｙｃにハット記号が付与された記号は、第２ラベル特徴量と正解データｙｌとが非ラベル特徴デコード部１１２に入力された結果、非ラベル特徴デコード部１１２が出力するデータを表す。第２ラベル特徴量は、エンコード部１０３による学習用入力側データｘ_ｌに対するエンコードの結果得られた非ラベル特徴量である。

　ｓ_ｉ、ｋは、分類確率Ｆ２と以下の関係を満たす。分類確率Ｆ２は、学習用入力側データｘ_ｉのラベル特徴量Ｚ_ｉｙをラベル特徴分類器１０７が分類した結果の確からしさを分類先の候補ごとに示す量である。ｋは、１以上Ｋ以下の整数であって、ラベル特徴分類器１０７によるラベル特徴量の値の分類先を示す識別子である。

　ｓ^ｃ _ｉ、ｋは、分類確率Ｆ３と以下の関係を満たす。分類確率Ｆ３は、学習用入力側データｘ_ｉの非ラベル特徴量Ｚ_ｉｙｃをラベル特徴分類器１０７が分類した結果の確からしさをラベル特徴分類器１０７によるラベル特徴量の値の分類先の候補ごとに示す量である。

　更新関数は、例えば以下の式（１５）で表されてもよい。

　式（１５）において、λ_０、λ_１、λ_２、λ_３及びλ_４は、いずれも予め定められた所定の係数である。更新関数が式（１５）である場合、最適化部１１６は、式（１５）で表される更新関数を最小化するようにデータ分離学習モデルを更新する。

　図６は、実施形態におけるデータ分離モデル学習装置１のハードウェア構成の一例を示す図である。データ分離モデル学習装置１は、バスで接続されたＣＰＵ等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。データ分離モデル学習装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、データ分離モデル学習装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　制御部１１は、データ分離モデル学習装置１が備える各種機能部の動作を制御する。制御部１１は、データ分離学習モデルを実行する。制御部１１は、例えばデータ分離学習モデルの実行結果に基づきデータ分離学習モデルを更新する。すなわち、制御部１１は、例えばデータ分離学習モデルの学習を行う。制御部１１は、例えば出力部１５の動作を制御し、出力部１５にデータ分離学習モデルの実行結果を出力させる。制御部１１は、例えばデータ分離学習モデルの実行により生じた各種情報を記憶部１４に記録する。記憶部１４が記憶する各種情報は、例えばデータ分離学習モデルの学習結果を含む。

　入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置をデータ分離モデル学習装置１に接続するインタフェースとして構成されてもよい。入力部１２は、データ分離モデル学習装置１に対する各種情報の入力を受け付ける。入力部１２には、例えば学習データが入力される。

　通信部１３は、データ分離モデル学習装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習データの送信元の装置である。

　記憶部１４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４はデータ分離モデル学習装置１に関する各種情報を記憶する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えばデータ分離学習モデルを記憶する。記憶部１４は、例えばデータ分離学習モデルの実行により生じた各種情報を記憶する。

　なお、学習データは、必ずしも入力部１２だけに入力される必要もないし、通信部１３だけに入力される必要もない。学習データは、入力部１２と通信部１３とのどちらから入力されてもよい。例えば学習用入力側データは入力部１２に入力され、入力部１２に入力された学習用入力側データに対応する正解データは通信部１３に入力されてもよい。また、学習データは必ずしも入力部１２又は通信部１３から取得される必要はなく、予め記憶部１４が記憶済みであってもよい。

　出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイや液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置をデータ分離モデル学習装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えば入力部１２又は通信部１３に入力された学習データを表示してもよい。出力部１５は、例えばデータ分離学習モデルの実行結果を表示してもよい。

　図７は、実施形態における制御部１１の機能構成の一例を示す図である。制御部１１は学習データ取得部１６１、モデル学習部１６２、記録部１６３、出力制御部１６４及び終了判定部１６５を備える。

　学習データ取得部１６１は、入力側データ取得部１０１及びラベル情報取得部１０２を備える。学習データ取得部１６１は、入力側データ取得部１０１及びラベル情報取得部１０２を用いて入力部１２又は通信部１３に入力された学習データを取得する。すなわち、入力側データ取得部１０１が入力部１２又は通信部１３に入力された学習用入力側データを取得し、ラベル情報取得部１０２が入力部１２又は通信部１３に入力された正解データを取得する。

　学習データ取得部１６１は、予め記憶部１４に学習用データが記録済みの場合には、入力側データ取得部１０１及びラベル情報取得部１０２を用いて記憶部１４から学習用データを読み出してもよい。このような場合、入力側データ取得部１０１は記憶部１４に記憶済みの学習用入力側データを記憶部１４から読み出し、ラベル情報取得部１０２は記憶部１４に記憶済みの正解データを記憶部１４から読み出す。

　モデル学習部１６２は、学習データ取得部１６１が取得した学習データを用いてデータ分離学習モデルを更新する。より具体的には、モデル学習部１６２は、モデル学習ネットワークを備え、学習データ取得部１６１が取得した学習データを用いてデータ分離学習モデルを実行し、実行結果に基づいてデータ分離学習モデルを更新する。すなわちモデル学習部１６２は、学習データ取得部１６１が取得した学習データを用いてデータ分離学習モデルの学習を行う。

　モデル学習部１６２は、例えばエンコード部１０３、ラベル特徴量抽出部１０４、ラベル特徴デコード部１０５、ラベル側再構成誤差算出部１０６、ラベル特徴分類器１０７、ラベル側分類誤差算出部１０８、非ラベル特徴量抽出部１０９、非ラベル特徴分類器１１０、非ラベル側分類誤差算出部１１１、非ラベル特徴デコード部１１２、非ラベル側再構成誤差算出部１１３、非分離デコード部１１４、非分離再構成誤差算出部１１５及び最適化部１１６を備える。すなわち、モデル学習部１６２は、例えばモデル学習ネットワークと最適化部１１６とを備える。モデル学習部１６２がデータ分離学習モデルを実行することは、モデル学習ネットワークがデータ分離学習モデルを実行することを意味する。

　記録部１６３は各種情報を記憶部１４に記録する。出力制御部１６４は出力部１５の動作を制御する。終了判定部１６５は、学習終了条件が満たされたか否かを判定する。学習終了条件が満たされた時点のデータ分離学習モデルが学習済みのデータ分離学習モデルであり、データ分離モデルである。

　図８は、実施形態におけるデータ分離モデル学習装置１が実行する処理の流れの一例を示すフローチャートである。

　学習データ取得部１６１が学習データを取得する（ステップＳ１０１）。エンコード部１０３が学習用入力側データをエンコードする（ステップＳ１０２）。ラベル特徴量抽出部１０４がエンコード結果に基づき、ラベル特徴量を得る（ステップＳ１０３）。ラベル特徴デコード部１０５が、正解データとラベル特徴量抽出部１０４が取得した特徴量に基づき、学習用入力側学習データをデコードする（ステップＳ１０４）。ラベル側再構成誤差算出部１０６が、ラベル側データ損失を得る（ステップＳ１０５）。

　ラベル特徴分類器１０７が、ラベル特徴量について、各ラベル特徴量を分類する（ステップＳ１０６）。ラベル側分類誤差算出部１０８が、ラベル側分類損失を得る（ステップＳ１０７）。

　非ラベル特徴量抽出部１０９がエンコード結果に基づき、非ラベル特徴量を得る（ステップＳ１０８）。非ラベル特徴分類器１１０が、非ラベル特徴量について、各非ラベル特徴量を分類する（ステップＳ１０９）。非ラベル側分類誤差算出部１１１が、非ラベル側分類損失を得る（ステップＳ１１０）。

　非ラベル特徴デコード部１１２が、正解データと非ラベル特徴量に基づき、学習用入力側学習データをデコードする（ステップＳ１１１）。非ラベル側再構成誤差算出部１１３が、非ラベル側データ損失を得る（ステップＳ１１２）。

　非分離デコード部１１４が、ラベル特徴量及び非ラベル特徴量を用いてエンコード結果をデコードする（ステップＳ１１３）。非分離再構成誤差算出部１１５が、非分離データ損失を得る（ステップＳ１１４）。

　最適化部１１６は、少なくともラベル側データ損失、ラベル側分類損失、非ラベル側データ損失及び非ラベル側分類損失に基づき、第１条件、第２条件、第３条件及び第４条件が満たされるように、データ分離学習モデルを更新する（ステップＳ１１５）。終了判定部１６５が、学習終了条件が満たされたか否かを判定する（ステップＳ１１６）。学習終了条件が満たされなかった場合（ステップＳ１１６：ＮＯ）、ステップＳ１０１の処理に戻る。一方、学習終了条件が満たされた場合（ステップＳ１１６：ＹＥＳ）、処理が終了する。

　図９は、実施形態における分離装置２のハードウェア構成の一例を示す図である。分離装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。分離装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、分離装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　制御部２１は、分離装置２が備える各種機能部の動作を制御する。制御部２１は、例えばデータ分離モデル学習装置１が得た学習済みのデータ分離学習モデル（すなわちデータ分離モデル）を用いて、分離対象データを特徴に分離する。

　入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２２は、自装置に対する各種情報の入力を受け付ける。入力部２２は、例えば分離対象データを特徴に分離する処理の開始を指示する入力を受け付ける。入力部２２は、例えば分離対象データの入力を受け付ける。

　通信部２３は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えばデータ分離モデル学習装置１である。このような場合、通信部２３は、例えばデータ分離モデル学習装置１が得た学習済みのデータ分離学習モデルを取得する。

　通信部２３の通信先の外部装置は、例えばデータ分離モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えばデータ分離モデルを記憶しておりデータ分離モデルを出力する場合、通信部２３は外部装置との通信によってデータ分離モデルを取得する。

　通信部２３の通信先の外部装置は、例えば分離対象データの出力元である。このような場合、通信部２３は、外部装置との通信によって外部装置から分離対象データを取得する。

　記憶部２４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は分離装置２に関する各種情報を記憶する。記憶部２４は、例えば通信部２３を介して取得したデータ分離モデルを記憶する。

　出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。

　図１０は、実施形態における制御部２１の機能構成の一例を示す図である。制御部２１は、分離対象取得部２１１、分離部２１２及び出力制御部２１３を備える。

　分離対象取得部２１１は、分離対象データを取得する。分離対象取得部２１１は、例えば入力部２２に入力された分離対象データを取得する。分離対象取得部２１１は、例えば通信部２３に入力された分離対象データを取得する。

　分離部２１２は、特徴量取得処理を実行する。特徴量取得処理は、分離対象取得部２１１が取得した分離対象データを、データ分離モデルを用いて特徴に分離して取得する処理である。すなわち、特徴量取得処理は、分離対象データからラベル特徴量と非ラベル特徴量とを取得する処理である。分離部２１２によって得られた特徴は出力制御部２１３に出力される。

　上述したようにラベル特徴量は、入力されたデータの特徴量であって学習時に正解データが値を示す量である。そのため、学習済みのデータ分離学習モデルを用いて分離対象データを特徴に分離する分離部２１２にとっては、ラベル特徴量は、予め定義された量である。一方で、分離部２１２が取得するラベル特徴量の値と非ラベル特徴量の値とは、分離対象データに応じた値である。

　また、上述したように最適化部１１６は、ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。最適化部１１６による更新の結果がデータ分離モデルである。そのため特徴量取得処理は、ラベル特徴量の値を用いて生成されたデータと学習用入力側データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習用入力側データとの違いが小さくなるようして予め得られた処理である。より具体的には、特徴量取得処理は、ラベル特徴量の値から分離対象データに対応するラベル以外の成分を生成しづらく、非ラベル特徴量から分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である。また、そのため分離部２１２にとって、学習用入力側データは学習時に入力されたデータである。

　出力制御部２１３は、出力部２５の動作を制御する。出力制御部２１３は、出力部２５の動作を制御することで出力部２５にデータ分離モデルの実行の結果を出力させる。データ分離モデルの実行の結果は、例えばデータ分離モデルによって得られた特徴である。

　図１１は、実施形態における分離装置２が実行する処理の流れの一例を示すフローチャートである。分離対象取得部２１１が分離対象データを取得する（ステップＳ２０１）。次に、分離部２１２がデータ分離モデルを用いて分離対象データを特徴に分離する（ステップＳ２０２）。次に、出力制御部２１３が出力部２５の動作を制御することで出力部２５に、ステップＳ２０２で得られたデータ分離モデルの実行の結果を出力させる（ステップＳ２０３）。

（実験結果）
　図１２は、実施形態における分離装置２を用いた実験結果の一例を第１の説明図である。より具体的には図１２は、分離対象データが画像であって、２種類のラベル特徴量の値と、８種類の非ラベル特徴量の値とをそれぞれ、－２から２まで変更した場合における、得られる画像の一例である。実験では、データセットＭＮＩＳＴが用いられた。なお、ラベル特徴量の値は、実験者がデータ分離モデルにおけるラベル特徴量の値をコンピュータによって変更することで、変更された。

　図１２において２種類のラベル特徴量は、“特徴量の種類”が１のラベル特徴量と“特徴量の種類”が２のラベル特徴量とである。図１２において８種類のラベル特徴量は、“特徴量の種類”が３～１０の非ラベル特徴量とである。

　図１２は、“特徴量の種類”が１のラベル特徴量についてラベル特徴量の値を－２から２まで変更した場合に、数字の表す内容が６から１まで０と５とを経由して変化することを示す。図１２は、“特徴量の種類”が２のラベル特徴量についてラベル特徴量の値を－２から２まで変更した場合に、数字の表す内容が０から４まで変化することを示す。

　図１２は、“特徴量の種類”が３～１０の非ラベル特徴量については、特徴量の値を変更しても数字の形状は変化するものの、数字の表す内容は“０”のままで変更が無いことを示す。

　このことは、データ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。なぜなら、特徴が明確に分離されていなければ、“特徴量の種類”が３～１０の非ラベル特徴量についても、特徴量の値を変更した際に、数字の表す内容が変化してしまうはずだからである。

　図１３は、実施形態における分離装置２を用いた実験結果の一例を第２の説明図である。より具体的には図１３は、図１２の結果を示した実験におけるラベル特徴量の分離性能の一例を示す図である。図１３の横軸は、学習ステップを示す。図１３の縦軸は、ラベル特徴量の分離性能（－Ｌｙ）を示す。縦軸の値が小さいほど、分離性能が良い、ことを示す。図１３は、学習データを用いた場合であっても学習データと異なるテストデータを用いた場合であっても、学習ステップが進んだ際のラベル特徴量の分離性能は－１．９５より小さいことを示す。このことはデータ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。

　図１４は、実施形態における分離装置２を用いた実験結果の一例を第３の説明図である。より具体的には図１４は、図１２の結果を示した実験における非ラベル特徴量の分離性能の一例を示す図である。図１４の横軸は、学習ステップを示す。図１４の縦軸は、ラベル特徴量の分離性能（－Ｌｙｃ）を示す。縦軸の値が小さいほど、分離性能が良い、ことを示す。図１４は、学習データを用いた場合であっても学習データと異なるテストデータを用いた場合であっても、学習ステップが進んだ際のラベル特徴量の分離性能は－０．１より小さいことを示す。このことはデータ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。

　このように構成された実施形態におけるデータ分離モデル学習装置１は、ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが大きくなるようにデータ分離学習モデルを更新する。また、データ分離モデル学習装置１は、非ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。したがって、データ分離モデル学習装置１は、分離性能Ｌｙと分離性能Ｌｙｃとが大きなデータ分離モデルを得ることができる。そのため、データ分離モデル学習装置１は、データを任意の特徴に明確に分離する数理モデルを得ることができる。

　また、このように構成された実施形態における分離装置２は、データ分離モデル学習装置１が得たデータ分離モデルを用いて分離対象データを特徴に分離する。そのため、分離装置２は、データを任意の特徴に明確に分離することができる。

　また、このように構成された実施形態のデータ分離システム１００は、分離装置２を備える。そのため、分離装置２は、データを任意の特徴に明確に分離することができる。

　（変形例）
　データ分離モデル学習装置１は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、データ分離モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　分離装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、分離装置２が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　データ分離システム１００は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、データ分離システム１００が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　なお、データ分離モデル学習装置１、分離装置２及びデータ分離システム１００の各機能の全て又は一部は、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

　なお、データ分離モデル学習装置１は学習装置の一例である。なお、データ分離モデル学習装置１、分離装置２及びデータ分離システム１００の目的は、データが有する任意の特徴を特徴間の線形独立の度合が高い状態で分離する技術を提供することであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　１００…データ分離システム、　１…データ分離モデル学習装置、　２…分離装置、　１１…制御部、　１２…入力部、　１３…通信部、　１４…記憶部、　１５…出力部、　１０１…入力側データ取得部、　１０２…ラベル情報取得部、　１０３…エンコード部、　１０４…ラベル特徴量抽出部、　１０５…ラベル特徴デコード部、　１０６…ラベル側再構成誤差算出部、　１０７…ラベル特徴分類器、　１０８…ラベル側分類誤差算出部、　１０９…非ラベル特徴量抽出部、　１１０…非ラベル特徴分類器、　１１１…非ラベル側分類誤差算出部、　１１２…非ラベル特徴デコード部、　１１３…非ラベル側再構成誤差算出部、　１１４…非分離デコード部、　１１５…非分離再構成誤差算出部、　１１６…最適化部、　１６１…学習データ取得部、　１６２…モデル学習部、　１６３…記録部、　１６４…出力制御部、　１６５…終了判定部、　２１…制御部、　２２…入力部、　２３…通信部、　２４…記憶部、　２５…出力部、　２１１…分離対象取得部、　２１２…分離部、　２１３…出力制御部、　９１…プロセッサ、　９２…メモリ、　９３…プロセッサ、　９４…メモリ

Claims

　分離対象のデータから特徴量を分離する分離方法であって、
　分離対象のデータである分離対象データを取得する取得ステップと、
　前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、
　を有し、
　前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、
　分離方法。
　前記特徴量取得処理は機械学習の方法によって得られた学習済みモデルであり、
　学習に用いられる学習データは、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部を示す情報である正解データとの対のデータを含み、
　前記特徴量取得処理は、学習データから得られたラベル特徴量の値と前記正解データとの相互情報量を増大させるという条件と、前記学習用入力側データから抽出される非ラベル特徴量の値と正解データとの相互情報量を減少させるという条件と、正解データがｙである場合の前記学習用入力側データから抽出されるラベル特徴量Ｚｙの値と学習用入力側データｘの相互情報量Ｉ（（Ｚｙ｜ｙ）；ｘ）を減少させるという条件と、正解データがｙである場合の前記学習用入力側データから抽出される非ラベル特徴量Ｚｙｃの値と学習用入力側データｘの相互情報量Ｉ（（Ｚｙｃ｜ｙ）；ｘ）を増大させるという条件と、を満たすようにして得られた処理である、
　請求項１に記載の分離方法。
　分離対象のデータから特徴量を分離する分離装置であって、
　分離対象のデータである分離対象データを取得する分離対象取得部と、
　前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する分離部と、
　を備え、
　前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、
　分離装置。
　学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得ステップと、
　データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習ステップと、
　を有する学習方法。
　学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得部と、
　データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習部と、
　を備える学習装置。
　請求項３に記載の分離装置としてコンピュータを機能させるためのプログラム。
　請求項５に記載の学習装置としてコンピュータを機能させるためのプログラム。