WO2022162719A1 - 分離方法、分離装置、学習方法、学習装置及びプログラム - Google Patents

分離方法、分離装置、学習方法、学習装置及びプログラム Download PDF

Info

Publication number
WO2022162719A1
WO2022162719A1 PCT/JP2021/002554 JP2021002554W WO2022162719A1 WO 2022162719 A1 WO2022162719 A1 WO 2022162719A1 JP 2021002554 W JP2021002554 W JP 2021002554W WO 2022162719 A1 WO2022162719 A1 WO 2022162719A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
label
separation
feature amount
Prior art date
Application number
PCT/JP2021/002554
Other languages
English (en)
French (fr)
Inventor
忍 工藤
隆一 谷田
英明 木全
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022577819A priority Critical patent/JPWO2022162719A1/ja
Priority to PCT/JP2021/002554 priority patent/WO2022162719A1/ja
Publication of WO2022162719A1 publication Critical patent/WO2022162719A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • a learning method that consists of two neural networks, Wc that extracts label features and Wu that extracts non-label features, is proposed to input the label features into the neural network for classifying and solving the classifying task.
  • the reconstruction of the label feature and the reconstruction of the non-label feature are weighted sum at 1:1 to restore the input x (see, for example, Non-Patent Document 1).
  • One aspect of the present invention is a separation method for separating a feature amount from data to be separated, comprising: an obtaining step of obtaining separation target data, which is data to be separated; and a feature amount acquisition step of executing a feature amount acquisition process for acquiring the value of the label feature amount and the value of the non-label feature amount, which is the feature amount other than the label feature amount among the feature amounts of the separation target data; and wherein the feature amount acquisition process is difficult to generate a component other than the label corresponding to the separation target data from the value of the label feature amount, and extracts the label corresponding to the separation target data from the non-label feature amount.
  • It is a separation method, which is a process optimized to make it difficult to generate.
  • learning data for acquiring learning data including paired data of input-side learning data and correct data that is information indicating values of at least part of the feature values of the input-side learning data
  • a data separation learning model which is a machine learning model that separates data into features, from the learning input side data, the value of the label feature amount, which is the amount indicating the value of the correct data, and the learning
  • a model learning unit that updates the data separation learning model so that the difference between the data generated using the obtained non-labeled feature value and the learning data becomes smaller as the value of the acquired non-labeled feature quantity increases.
  • summary of the data separation system 100 of embodiment. 1 is a first explanatory diagram for explaining an overview of the operation of the data separation model learning device 1 according to the embodiment;
  • FIG. 2 is a second explanatory diagram for explaining an overview of the operation of the data separation model learning device 1 in the embodiment;
  • Explanatory drawing explaining the data separation model learning apparatus 1 in embodiment The figure which shows an example of the hardware constitutions of the data separation model learning apparatus 1 in embodiment.
  • FIG. 4 is a flowchart showing an example of the flow of processing executed by the data separation model learning device 1 according to the embodiment; 2 is a diagram showing an example of the hardware configuration of the separation device 2 according to the embodiment; FIG. The figure which shows an example of the functional structure of the control part 21 in embodiment. 4 is a flow chart showing an example of the flow of processing executed by the separation device 2 in the embodiment.
  • FIG. 11 is a first explanatory view showing an example of experimental results using the separation device 2 according to the embodiment;
  • FIG. 5 is a second explanatory diagram showing an example of experimental results using the separation device 2 according to the embodiment;
  • a third explanatory view showing an example of experimental results using the separation device 2 according to the embodiment.
  • FIG. 1 is an explanatory diagram illustrating an outline of a data separation system 100 according to an embodiment.
  • the basic concept of the data separation system 100 will be explained.
  • it is sufficient to acquire features other than label features so that input data other than labels can be easily reconstructed from features other than label features and the accuracy of class classification is lowered.
  • any system other than an autoencoder may be used as long as it is capable of performing feature amount extraction processing and reconstruction from the extracted feature amount.
  • a data separation system 100 includes a data separation model learning device 1 and a separation device 2 .
  • a data separation model learning device 1 obtains a mathematical model (hereinafter referred to as a "data separation model") that clearly separates input data into arbitrary features by a machine learning method using one or a plurality of learning data.
  • the input data is, for example, an image.
  • the learning data is data including paired data (hereinafter referred to as "paired data") of input-side data for learning (hereinafter referred to as "learning input-side data”) and correct data.
  • the correct data is information indicating values of at least part of the feature values of the corresponding learning input side data.
  • the data separation model learning device 1 uses an encoder to estimate the values of the labeled feature amount Zy and the non-labeled feature amount Zyc from the input data.
  • the label feature amount Zy is a feature amount of input data, and is an amount that correct data indicates a value during learning.
  • the non-label feature amount Zyc is a feature amount of the input data and is a feature amount other than the label feature amount.
  • the input data is specifically input-side learning data for learning. Both the value of the label feature Zy and the value of the non-label feature Zyc are latent variable values. In FIG. 2, "original data" represents input data.
  • the data separation model learning device 1 acquires the difference between the input data and the estimation result of the input data obtained based on the value of the label feature Zy.
  • the data separation model learning device 1 obtains the sum of the difference between the input data and the estimation result of the input data obtained based on the value of the non-label feature Zyc.
  • the data separation model learning device 1 also acquires the difference between the labeled feature amount Zy and the non-labeled feature amount Zyc, respectively, from the correct data.
  • the non-label feature amount Zyc is information other than the label feature amount among the information included in the input data. Therefore, in terms of set theory, the set of non-labeled features Zyc is the complement of the set of labeled features Zy with the set of input data as the total set.
  • the “c” in the non-label feature Zyc means “complementary” and indicates that the set of non-label features Zyc is the complement of the set of label features Zy.
  • FIG. 4 is a third explanatory diagram for explaining the outline of the operation of the data separation model learning device 1 in the embodiment. More specifically, FIG. 4 is a second explanatory diagram for explaining the update rule using a Venn diagram.
  • “y” in FIG. 4 represents correct data.
  • “x” in FIG. 4 represents learning input data.
  • y);x) shown in FIG. 4 is the mutual information between the value of the label feature Zy and the learning input side data x when the correct data y is y.
  • y);x) in FIG. 4 is the mutual information between the value of the non-labeled feature Zyc and the learning input side data x when the correct data y is y.
  • the data separation model learning device 1 updates the data separation learning model so that the content of the update rule is represented by a function (hereinafter referred to as "update function") and the update function is optimized.
  • the optimization of the update function is a process predetermined according to the content of the update function, and is a process predetermined to maximize or minimize the value of the update function.
  • optimization of the update function means processing for minimizing the value of the update function.
  • the update function is the objective function in machine learning when the data segregation learning model is represented by a neural network.
  • Separation performance Lyc represents the degree of separation for non-correct data yc.
  • Incorrect data yc are points in the orthogonal complement of the linear or nonlinear space (ie manifold) representing the correct data y.
  • a linear or nonlinear space is, for example, a normed space.
  • the degree of separation for incorrect data yc is the degree of closeness between yc and Zy. The closer yc and Zy are, the further apart yc and Zyc are. Therefore, the degree of separation for incorrect data yc is also the degree of distance between yc and Zyc .
  • the neural network that constitutes the model learning network may be any neural network that expresses a data separation learning model.
  • a neural network that constitutes the model learning network may be, for example, a deep neural network.
  • the optimization unit 116 updates the data separation learning model so as to minimize, for example, the update function represented by Equation (8) below.
  • the update function represented by Equation (8) is an example of a function that expresses loss-related conditions.
  • the hat symbol represents the result of decoding.
  • the symbol with a hat symbol added to the learning input side data xl in Equation (9) is obtained by decoding the feature amount Z obtained as a result of encoding the learning input side data xl by the encoding unit 103.
  • l (ell) is an integer of 1 or more and N or less.
  • Equation (15) ⁇ 0 , ⁇ 1 , ⁇ 2 , ⁇ 3 and ⁇ 4 are all predetermined coefficients.
  • the optimization unit 116 updates the data separation learning model so as to minimize the update function represented by formula (15).
  • the learning data does not necessarily have to be input only to the input unit 12, nor is it necessary to be input only to the communication unit 13.
  • Learning data may be input from either the input unit 12 or the communication unit 13 .
  • input side data for learning may be input to the input section 12 and correct data corresponding to the input side data for learning input to the input section 12 may be input to the communication section 13 .
  • the learning data does not necessarily have to be acquired from the input unit 12 or the communication unit 13, and may be stored in the storage unit 14 in advance.
  • FIG. 7 is a diagram showing an example of the functional configuration of the control unit 11 in the embodiment.
  • the control unit 11 includes a learning data acquisition unit 161 , a model learning unit 162 , a recording unit 163 , an output control unit 164 and an end determination unit 165 .
  • the external device to which the communication unit 23 communicates may be, for example, a storage device such as a USB memory storing the data separation model.
  • a storage device such as a USB memory storing the data separation model.
  • the communication unit 23 acquires the data separation model through communication with the external device.
  • the external device to which the communication unit 23 communicates is, for example, the output source of the separation target data.
  • the communication unit 23 acquires the separation target data from the external device through communication with the external device.
  • the output control section 213 controls the operation of the output section 25 .
  • the output control unit 213 controls the operation of the output unit 25 to cause the output unit 25 to output the execution result of the data separation model.
  • the results of running the data segregation model are, for example, the features obtained by the data segregation model.
  • FIG. 14 is a third explanatory diagram showing an example of experimental results using the separation device 2 in the embodiment. More specifically, FIG. 14 is a diagram showing an example of separation performance of non-labeled feature amounts in the experiment showing the results of FIG.
  • the horizontal axis of FIG. 14 indicates the learning step.
  • the vertical axis in FIG. 14 indicates the separation performance (-Lyc) of the label feature quantity. A smaller value on the vertical axis indicates better separation performance.
  • FIG. 14 shows that the separation performance of the label feature amount is less than -0.1 when the learning step progresses, whether the learning data is used or test data different from the learning data is used. indicates This means that a data separation model is a model that can clearly separate data into features.
  • the data separation system 100 of the embodiment configured as described above includes the separation device 2 . Therefore, the separating device 2 can clearly separate the data into arbitrary features.
  • the separation device 2 may be implemented using a plurality of information processing devices communicatively connected via a network.
  • each functional unit included in the separation device 2 may be distributed and implemented in a plurality of information processing devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

分離対象のデータから特徴量を分離する分離方法であって、分離対象のデータである分離対象データを取得する取得ステップと、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、を有し、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離方法。

Description

分離方法、分離装置、学習方法、学習装置及びプログラム
 本発明は、分離方法、分離装置、学習方法、学習装置及びプログラム
に関する。
 ラベル特徴を抽出するWcとラベル以外特徴を抽出するWuの2つのニューラルネットワークで構成され、ラベル特徴を更にクラス分類用のニューラルネットワークへ入力し、クラス分類タスクを解く学習方法が提案されている。そして、この提案の学習方法では、ラベル特徴の再構成とラベル以外特徴の再構成を1:1で加重和したもので入力xを復元する(例えば非特許文献1参照)。
Thomas Robert, Nicolas Thome, Matthieu Cord、"HybridNet: Classification and Reconstruction Cooperation for Semi-Supervised Learning"、2018、インターネット検索、<URL: https://arxiv.org/abs/1807.11407>
 しかしながら、従来技術は、ラベル特徴のクラス分類を解く際に、ラベル特徴の特徴を更にクラス分類用のNWへ入力しているため、この処理でクラス以外の情報が消失する可能性がある。このため、従来技術では、ラベル特徴がクラス以外の情報を含んでいたとしてもそれを検知できない。このように、従来技術では、学習時に特徴が漏れるため、データを任意の特徴に明確に分離することができない場合があるという問題があった。
 上記事情に鑑み、本発明は、データを任意の特徴に明確に分離することができる技術の提供を目的としている。
 本発明の一態様は、分離対象のデータから特徴量を分離する分離方法であって、分離対象のデータである分離対象データを取得する取得ステップと、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、を有し、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離方法である。
 本発明の一態様は、分離対象のデータから特徴量を分離する分離装置であって、分離対象のデータである分離対象データを取得する分離対象取得部と、前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する分離部と、を備え、前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、分離装置。
 本発明の一態様は、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得ステップと、データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習ステップと、を有する学習方法。
 本発明の一態様は、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得部と、データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習部と、を備える学習装置。
 本発明の一態様は、上記の分離装置をコンピュータに機能させるためのプログラムである。
 本発明の一態様は、上記の学習装置をコンピュータに機能させるためのプログラムである。
 本発明により、データを任意の特徴に明確に分離することができる。
実施形態のデータ分離システム100の概要を説明する説明図。 実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第1の説明図。 実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第2の説明図。 実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第3の説明図。 実施形態におけるデータ分離モデル学習装置1を説明する説明図。 実施形態におけるデータ分離モデル学習装置1のハードウェア構成の一例を示す図。 実施形態における制御部11の機能構成の一例を示す図。 実施形態におけるデータ分離モデル学習装置1が実行する処理の流れの一例を示すフローチャート。 実施形態における分離装置2のハードウェア構成の一例を示す図。 実施形態における制御部21の機能構成の一例を示す図。 実施形態における分離装置2が実行する処理の流れの一例を示すフローチャート。 実施形態における分離装置2を用いた実験結果の一例を第1の説明図。 実施形態における分離装置2を用いた実験結果の一例を第2の説明図。 実施形態における分離装置2を用いた実験結果の一例を第3の説明図。
(実施形態)
 図1は、実施形態のデータ分離システム100の概要を説明する説明図である。まず、データ分離システム100の基本的な概念を説明する。クラス分類の精度を向上させようとした場合、クラス分類を行うための特徴が過不足なく得られればよい。さらに、クラス分類を行うための特徴以外の特徴に、クラス分類に貢献しうる特徴が少なくなればよい。これを実現するための一例として、クラス分類を行うための特徴、すなわちラベル特徴からラベル以外の入力データを再構成しづらいかつ当該ラベル特徴を用いたクラス分類の精度が高くなるようにラベル特徴を取得すればよい。また、さらに、ラベル特徴以外の特徴からラベル以外の入力データを再構成しやすいかつクラス分類の精度が低くなるようにラベル特徴以外の特徴を取得すればよい。なお、特徴量の抽出処理及び抽出した特徴量から再構成することができる仕組みであればオートエンコーダ以外を用いてもよい。
 データ分離システム100は、データ分離モデル学習装置1及び分離装置2を備える。
 データ分離モデル学習装置1は、入力されたデータを任意の特徴に明確に分離する数理モデル(以下「データ分離モデル」という。)を、1又は複数の学習データを用いた機械学習の方法により得る。入力されたデータは例えば画像である。学習データは、学習用の入力側のデータ(以下「学習用入力側データ」という。)と正解データとの対のデータ(以下「対データ」という。)を含むデータである。正解データは対応する学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である。
 なお、データを特徴に分離するとは、データの特徴量を得ることを意味する。データを任意の特徴に明確に分離するとは、得られる特徴量間の違いが大きい特徴量を得ることを意味する。データを任意の特徴に明確に分離するとは、より具体的には、得られる特徴量それぞれが独立しつつ、なおかつ、得られる特徴量間の違いが大きい、という条件を満たす特徴量を得ることを意味する。すなわち、データを特徴に分離するとは特徴量間の線形独立の度合が高い状態で特徴量を得ることを意味する。データを任意の特徴に分離するとは、ユーザ等のデータ分離モデル学習装置1の外部の装置又は人によって指示された任意の特徴量を、他の特徴量との間の線形独立の度合が高い状態で得ることを意味する。
 具体的には、データ分離モデル学習装置1は、予め用意された機械学習のモデルであって入力されたデータを任意の特徴に分離する機械学習のモデル(以下「データ分離学習モデル」という。)を、1又は複数の学習データを用いて更新する。学習済みのデータ分離学習モデルが、データ分離モデルである。以下、学習データを用いて機械学習のモデル(以下「機械学習モデル」という。)を更新することを学習という。
 以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習モデルは、実行される条件と順番とが予め定められた1又は複数の処理を含む集合である。
 学習済みとは、所定の終了条件(以下「学習終了条件」という。)が満たされた、ということを意味する。学習終了条件は、例えば所定の数の学習データを用いた学習が終了した、という条件である。学習終了条件は、例えばデータ分離学習モデルの更新による変化が所定の変化よりも小さい、という条件であってもよい。
 データ分離モデル学習装置1は学習に際して、より明確にデータを任意の特徴に分離するように学習する。より明確にデータを特徴に分離するとは、データの特徴への分離によって得られる各特徴量間の違いがより大きいように各特徴量を得ることを意味する。
 分離装置2は、データ分離モデル学習装置1が得たデータ分離モデルを用いて、入力された分離対象のデータ(以下「分離対象データ」という。)を特徴に分離する。
 図2~図4を用いてデータ分離モデル学習装置1の動作の概要を説明する。
 図2は、実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第1の説明図である。データ分離モデル学習装置1はデータ分離学習モデルを実行する。データ分離学習モデルは、少なくともエンコーダとデコーダとを備えるニューラルネットワーク等の回路によって表現される。すなわち、データ分離モデル学習装置1は、データ分離学習モデルを表現する回路を備え、データ分離学習モデルを実行する。
 なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。学習によってニューラルネットワークが更新されるとは、ニューラルネットワークのパラメータの値が更新されることを意味する。またニューラルネットワークのパラメータは、ニューラルネットワークを構成する回路のパラメータであり、ニューラルネットワークを構成する回路が表現する機械学習モデルのパラメータでもある。なお、機械学習モデルを実行するとは、機械学習モデルを表現する回路が機械学習モデルを実行することを意味する。
 データ分離モデル学習装置1は、エンコーダを用いて、入力されたデータからラベル特徴量Zyと非ラベル特徴量Zycとの値を推測する。ラベル特徴量Zyは、入力されたデータの特徴量であって学習時に正解データが値を示す量である。非ラベル特徴量Zycは、入力されたデータの特徴量であってラベル特徴量以外の特徴量である。入力されたデータは、具体的には学習用入力側学習データである。ラベル特徴量Zyの値と非ラベル特徴量Zycの値とは、どちらも潜在変数の値である。図2において“元のデータ”は、入力されたデータを表す。
 エンコーダの出力は、M個のパラメータから構成される特徴量の値の集合であって、ラベル特徴量Zyと非ラベル特徴量Zycとを含む特徴量の値の集合である。M個のパラメータから構成される特徴量であってラベル特徴量Zyと非ラベル特徴量Zycとを含む特徴量Zは、例えばM個の要素を有するベクトルで表現される。Mは1以上の整数である。特徴量ZがM個の要素を有するベクトルで表現される場合、例えばベクトルの各要素はラベル特徴量Zyの値と非ラベル特徴量Zycの値とのいずれか一方を表す。
 ラベル特徴量ZyがL個のパラメータから構成される場合、ラベル特徴量Zyは例えばL個の要素を有するベクトルで表現される。LはM以下の整数である。ラベル特徴量Zyは例えばL個の要素を有するベクトルで表現される場合、非ラベル特徴量Zycは、例えば(M-L)個のパラメータから構成され(M-L)個の要素を有するベクトルで表現される。
 データ分離モデル学習装置1は、ラベル特徴量Zyの値に基づき、デコーダを用いて、入力されたデータを推定する。データ分離モデル学習装置1は、非ラベル特徴量Zycの値に基づき、デコーダを用いて、入力されたデータを推定する。図2において“再構成されたデータ”は、データ分離モデル学習装置1が推定した結果の入力されたデータを表す。
 データ分離モデル学習装置1は、入力されたデータとラベル特徴量Zyの値とに基づき得られた入力されたデータの推定結果との違いを取得する。データ分離モデル学習装置1は、入力されたデータと非ラベル特徴量Zycの値とに基づき得られた入力されたデータの推定結果との違いとの和を取得する。また、データ分離モデル学習装置1は、ラベル特徴量Zyと非ラベル特徴量Zycとについて、それぞれ正解データとの違いも取得する。
 データ分離モデル学習装置1は、得られた違いの和に少なくとも基づきデータ分離学習モデルの更新を行う。データ分離学習モデルがニューラルネットワークで表現される場合、違いは機械学習における損失である。
 なお、上述したように非ラベル特徴量Zycは入力されたデータが有する情報のうちラベル特徴量以外の情報である。そのため集合論の言葉で説明すれば、非ラベル特徴量Zycの集合は、入力されたデータの集合を全体集合としてラベル特徴量Zyの集合の補集合である。非ラベル特徴量Zycの“c”は“complementary”の意味であり、非ラベル特徴量Zycの集合がラベル特徴量Zyの集合の補集合であることを示す。
 図3は、実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第2の説明図である。より具体的には図3は、データ分離モデル学習装置1がデータ分離学習モデルの更新を行う規則(以下「更新規則」という。)を、ベン図を用いて説明する第1の説明図である。
 図3に記載の“y”は正解データを表す。図3に記載のI(Zy;y)は、ラベル特徴量Zyの値と正解データyとの相互情報量を表す。図3に記載の、I(Zyc;y)は、非ラベル特徴量Zycの値と正解データyとの相互情報量を表す。データ分離モデル学習装置1は、相互情報量I(Zy;y)が大きくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量I(Zy;y)を増大させるという条件(以下「第1更新条件」という。)を含む。また、データ分離モデル学習装置1は、相互情報量I(Zyc;y)が小さくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量I(Zyc;y)を減少させるという条件(以下「第2更新条件」という。)を含む。
 図4は、実施形態におけるデータ分離モデル学習装置1の動作の概要を説明する第3の説明図である。より具体的には図4は、更新規則を、ベン図を用いて説明する第2の説明図である。
 図4に記載の“y”は正解データを表す。図4に記載の“x”は、学習用入力側データを表す。図4に記載のI((Zy|y);x)は、正解データyがyである場合のラベル特徴量Zyの値と学習用入力側データxの相互情報量である。図4に記載のI((Zyc|y);x)は、正解データyがyである場合の非ラベル特徴量Zycの値と学習用入力側データxの相互情報量である。
 データ分離モデル学習装置1は、相互情報量I((Zy|y);x)が小さくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量I((Zy|y);x)を減少させるという条件(以下「第3更新条件」という。)を含む。また、データ分離モデル学習装置1は、相互情報量I((Zyc|y);x)が大きくなるようにデータ分離学習モデルの更新を行う。すなわち、更新規則は、相互情報量I((Zyc|y);x)を増大させるという条件(以下「第4更新条件」という。)を含む。
 データ分離モデル学習装置1は、更新規則の内容を関数(以下「更新関数」という。)によって表現し更新関数を最適化するようにデータ分離学習モデルの更新を行う。なお、更新関数の最適化は、更新関数の内容に応じて予め定められた処理であり、更新関数の値の最大化を行うか又は最小化を行うかが予め定められた処理である。例えば以下の式(1)の例の場合、更新関数の最適化は更新関数の値を最小化する処理を意味する。データ分離学習モデルがニューラルネットワークによって表現される場合、更新関数は機械学習における目的関数である。
 更新関数は例えば以下の式(1)を含む。式(1)の左辺L´が更新関数に含まれる関数(以下「部分更新関数」という。)の一例を表す。なお、更新関数は式(1)の部分更新関数そのものであってもよい。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 分離性能Lyは、正解データyに関する分離の度合を表す。正解データyに関する分離の度合とは、yとZyとの近さを表す度合である。yとZyとが近いほどyとZycとが離れることを意味するので、正解データyに関する分離の度合とは、yとZycとの遠さを表す度合でもある。
 分離性能Lycは、非正解データyに関する分離の度合を表す。非正解データyは、正解データyを表す線形空間又は非線形空間(すなわち多様体)の直交補空間の点である。線形空間又は非線形空間は、例えばノルム空間である。非正解データyに関する分離の度合とは、yとZyとの近さを表す度合である。ycとZyとが近いほどyとZycとが離れることを意味するので、非正解データyに関する分離の度合とは、yとZycとの遠さを表す度合でもある。
 式(3)の4行目から5行目への式変形においてラベル特徴量yが助変数として追加され、式(3)の6行目の式は非正解データyを含まない。この理由は、非正解データyについてはデータ分離モデル学習装置1の動作の理論の理解を助けるために導入された量でありデータ分離モデル学習装置1が取得する量では無いためである。
 式(2)及び(3)に記載のHは、条件付きエントロピーを表す。より具体的には、式(2)及び(3)に記載のH(A|B)の形式で表現される記号は、条件Bで条件を付けたAの条件付きエントロピーを表す。H(A|B)の値を得るには確率P(A|B)の値が必要である。しかしながら、確率P(A|B)は一般に解析解が得られるものではないため、厳密に計算することが難しい。
 そこで、データ分離モデル学習装置1では、部分更新関数L´として、変分下界を算出する方法を用いることで得られる条件付きエントロピーH(A|B)によって表現される部分更新関数L´を用いる。変分下界を算出する方法は、具体的には以下の式(4)~式(7)の各式変形である。データ分離モデル学習装置1は、エントロピーH(A|B)の各項を対応する変分下界に置き換えた式を更新関数として用いる。ここで、E[・]は期待値演算、F1、F2、F3及びF4は補助分布を表す。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 このように、データ分離モデル学習装置1は、第1更新条件、第2更新条件、第3更新条件及び第4更新条件を少なくとも含む更新規則に従ってデータ分離学習モデルの更新を行う。したがって、データ分離モデル学習装置1は、分離性能Lyと分離性能Lycとが大きなデータ分離モデルを得ることができる。そのため、データ分離モデル学習装置1は、データを任意の特徴に明確に分離する数理モデルを得ることができる。
 図5は、実施形態におけるデータ分離モデル学習装置1を説明する説明図である。入力側データ取得部101、ラベル情報取得部102、エンコード部103、ラベル特徴量抽出部104、ラベル特徴デコード部105、ラベル側再構成誤差算出部106、ラベル特徴分類器107、ラベル側分類誤差算出部108、非ラベル特徴量抽出部109、非ラベル特徴分類器110、非ラベル側分類誤差算出部111、非ラベル特徴デコード部112、非ラベル側再構成誤差算出部113、非分離デコード部114、非分離再構成誤差算出部115及び最適化部116を備える。
 入力側データ取得部101、ラベル情報取得部102、エンコード部103、ラベル特徴量抽出部104、ラベル特徴デコード部105、ラベル側再構成誤差算出部106、ラベル特徴分類器107、ラベル側分類誤差算出部108、非ラベル特徴量抽出部109、非ラベル特徴分類器110、非ラベル側分類誤差算出部111、非ラベル特徴デコード部112、非ラベル側再構成誤差算出部113、非分離デコード部114、非分離再構成誤差算出部115及び最適化部116のうち、少なくとも入力側データ取得部101、ラベル情報取得部102、ラベル側再構成誤差算出部106、ラベル側分類誤差算出部108、非ラベル側分類誤差算出部111、非ラベル側再構成誤差算出部113、非分離再構成誤差算出部115及び最適化部116以外は、学習によって更新される回路である。
 エンコード部103、ラベル特徴量抽出部104、ラベル特徴デコード部105、ラベル特徴分類器107、非ラベル特徴量抽出部109、非ラベル特徴分類器110、非ラベル特徴デコード部112及び非分離デコード部114によって構成される回路は、データ分離学習モデルを表現する回路(以下「モデル学習ネットワーク」という。)の一例である。モデル学習ネットワークは、例えばニューラルネットワークによって構成される。
 モデル学習ネットワークがニューラルネットワークによって構成される場合、モデル学習ネットワークを構成するニューラルネットワークは、データ分離学習モデルを表現するニューラルネットワークであればどのようなニューラルネットワークであってもよい。モデル学習ネットワークを構成するニューラルネットワークは、例えば深層ニューラルネットワークであってもよい。
 なお、データ分離学習モデルを実行するとは、データ分離学習モデルを表現する回路(すなわちモデル学習ネットワーク)がデータ分離学習モデルを実行することを意味する。
 入力側データ取得部101は、学習データが含む学習用入力側データを得る。ラベル情報取得部102は、学習データが含む正解データを得る。エンコード部103は、入力側データ取得部101が得た学習用入力側データをエンコードする。
 ラベル特徴量抽出部104は、エンコード部103がエンコードした結果(以下「エンコード結果」という。)に基づき、ラベル特徴量の値を得る。すなわち、ラベル特徴量抽出部104が得るラベル特徴量の値は、ラベル特徴量抽出部104の推定結果である。
 ラベル特徴デコード部105は、正解データとラベル特徴量抽出部104が取得したラベル特徴量の値に基づき、学習用入力側学習データをデコードする。
 ラベル側再構成誤差算出部106は、ラベル特徴デコード部105のデコードの結果と、入力側データ取得部101が得た学習用入力側学習データとの違い(以下「ラベル側データ損失」という。)を得る。
 ラベル特徴分類器107は、ラベル特徴量抽出部104が取得したラベル特徴量の値について、各ラベル特徴量の値をクラスタリング等の分類の方法によって分類する。
 ラベル側分類誤差算出部108は、ラベル特徴分類器107の分類の結果と、ラベル情報取得部102が得た正解データとの違い(以下「ラベル側分類損失」という。)を得る。
 非ラベル特徴量抽出部109は、エンコード結果に基づき、非ラベル特徴量の値を得る。すなわち、非ラベル特徴量抽出部109が得る非ラベル特徴量の値は、非ラベル特徴量抽出部109の推定結果である。
 非ラベル特徴分類器110は、非ラベル特徴量抽出部109が取得した非ラベル特徴量の値について、各非ラベル特徴量の値をクラスタリング等の分類の方法によって分類する。
 非ラベル側分類誤差算出部111は、非ラベル特徴分類器110の分類の結果と、ラベル情報取得部102が得た正解データとの違い(以下「非ラベル側分類損失」という。)を得る。
 非ラベル特徴デコード部112は、正解データと非ラベル特徴量抽出部109が取得した非ラベル特徴量の値とに基づき、学習用入力側学習データをデコードする。
 非ラベル側再構成誤差算出部113は、非ラベル特徴デコード部112のデコードの結果と、入力側データ取得部101が得た学習用入力側学習データとの違い(以下「非ラベル側データ損失」という。)を得る。
 非分離デコード部114は、ラベル特徴量の値と非ラベル特徴量の値とを用いてエンコード結果をデコードする。非分離再構成誤差算出部115は、非分離デコード部114のデコードの結果と、入力側データ取得部101が得た学習用入力側学習データとの違い(以下「非分離データ損失」という。)を得る。
 最適化部116は、ラベル特徴量の値を用いて生成されたデータと学習データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。なお、ラベル特徴量の値を用いて生成されたデータとは、具体的にはラベル特徴デコード部105の出力結果である。非ラベル特徴量の値を用いて生成されたデータとは、具体的には非ラベル特徴デコード部112の出力結果である。最適化部116はラベル特徴量の値を用いて分類した結果と正解ラベルとの違いが小さくなり、非ラベル特徴量の値を用いて分類した結果と正解ラベルとの違いが大きくなるようにデータ分離学習モデルを更新する。ラベル特徴量の値を用いて分類した結果とは、ラベル特徴分類器107の出力結果である。非ラベル特徴量の値を用いて分類した結果とは、非ラベル特徴分類器110の出力結果である。
 具体的には、最適化部116は、モデル学習ネットワークによるデータ分離学習モデルの実行結果に基づき、以下の損失関連条件が満たされるようにデータ分離学習モデルを更新する。
 より具体的には、最適化部116は、少なくともラベル側データ損失、ラベル側分類損失、非ラベル側データ損失及び非ラベル側分類損失に基づき、以下の損失関連条件が満たされるようにデータ分離学習モデルを更新する。損失関連条件は、第1損失関連条件、第2損失関連条件、第3損失関連条件及び第4損失関連条件を含む条件である。
 第1損失関連条件は、ラベル側データ損失が大きくなるという条件である。第2損失関連条件は、ラベル側分類損失が小さくなるという条件である。第3損失関連条件は、非ラベル側分類損失が大きくなるという条件である。第4損失関連条件は、非ラベル側データ損失が小さくなるという条件である。
 損失関連条件が表す条件は、第1更新条件、第2更新条件、第3更新条件及び第4更新条件の4条件によって表される内容を、ラベル側データ損失、ラベル側分類損失、非ラベル側分類損失及び非ラベル側データ損失を用いて表現した条件である。
 最適化部116は、例えば以下の式(8)で表される更新関数を最小化するようにデータ分離学習モデルを更新する。式(8)が表す更新関数は、損失関連条件を表現する関数の一例である。
Figure JPOXMLDOC01-appb-M000008
 式(8)におけるLは、非分離データ損失を表す。Lは、例えばMSE Loss(Mean Squared Error)やKL(Kullback-Leibler) Loss等のAE(AutoEncoder)又はVAE(Variational AutoEncoder)の目的関数である。式(8)のLは、ラベル側データ損失を表す。式(8)のLは、ラベル側分類損失を表す。式(8)のLは、非ラベル側分類損失を表す。式(8)のLは、非ラベル側データ損失を表す。L、L、L、L及びLの各例は以下の式(9)~式(13)で表される関数である。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
 なお、式(9)~式(13)はいずれも以下の条件(以下「例示表現条件」という。)の下で表現された関数である。例示表現条件は、学習データを{x、y}で表すという条件を含む。iは、1からNまでの整数である。xは、学習用入力側データを表す。yは正解データを表す。yの値は、1からKまでのいずれ1つの値である。Kは1以上の整数である。そのためKは、ラベル特徴分類器107によるラベル特徴量の値の分類先の候補の数である。
 式(9)~式(13)に含まれる表現で以下の式(14)の式は、2つのベクトル間の距離を算出する関数を表す。2つのベクトル間の距離を算出する関数は、例えば平均二乗誤差和である。2つのベクトル間の距離を算出する関数は、例えばバイナリークロスエントロピーであってもよい。
Figure JPOXMLDOC01-appb-M000014
 ハット記号は、デコードの結果を表す。例えば式(9)の学習用入力側データxにハット記号が付与された記号は、エンコード部103による学習用入力側データxに対するエンコードの結果得られた特徴量Zをデコードして得られるデータを表す。l(エル)は、1以上N以下の整数である。
 式(10)の学習用入力側データx にハット記号が付与された記号は、第1ラベル特徴量と正解データylとがラベル特徴デコード部105に入力された結果、ラベル特徴デコード部105が出力するデータを表す。第1ラベル特徴量は、エンコード部103による学習用入力側データxに対するエンコードの結果得られたラベル特徴量である。
 式(13)の学習用入力側データx ycにハット記号が付与された記号は、第2ラベル特徴量と正解データylとが非ラベル特徴デコード部112に入力された結果、非ラベル特徴デコード部112が出力するデータを表す。第2ラベル特徴量は、エンコード部103による学習用入力側データxに対するエンコードの結果得られた非ラベル特徴量である。
 si、kは、分類確率F2と以下の関係を満たす。分類確率F2は、学習用入力側データxのラベル特徴量Zyをラベル特徴分類器107が分類した結果の確からしさを分類先の候補ごとに示す量である。kは、1以上K以下の整数であって、ラベル特徴分類器107によるラベル特徴量の値の分類先を示す識別子である。
 s i、kは、分類確率F3と以下の関係を満たす。分類確率F3は、学習用入力側データxの非ラベル特徴量Zycをラベル特徴分類器107が分類した結果の確からしさをラベル特徴分類器107によるラベル特徴量の値の分類先の候補ごとに示す量である。
 更新関数は、例えば以下の式(15)で表されてもよい。
Figure JPOXMLDOC01-appb-M000015
 式(15)において、λ、λ、λ、λ及びλは、いずれも予め定められた所定の係数である。更新関数が式(15)である場合、最適化部116は、式(15)で表される更新関数を最小化するようにデータ分離学習モデルを更新する。
 図6は、実施形態におけるデータ分離モデル学習装置1のハードウェア構成の一例を示す図である。データ分離モデル学習装置1は、バスで接続されたCPU等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。データ分離モデル学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、データ分離モデル学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 制御部11は、データ分離モデル学習装置1が備える各種機能部の動作を制御する。制御部11は、データ分離学習モデルを実行する。制御部11は、例えばデータ分離学習モデルの実行結果に基づきデータ分離学習モデルを更新する。すなわち、制御部11は、例えばデータ分離学習モデルの学習を行う。制御部11は、例えば出力部15の動作を制御し、出力部15にデータ分離学習モデルの実行結果を出力させる。制御部11は、例えばデータ分離学習モデルの実行により生じた各種情報を記憶部14に記録する。記憶部14が記憶する各種情報は、例えばデータ分離学習モデルの学習結果を含む。
 入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置をデータ分離モデル学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、データ分離モデル学習装置1に対する各種情報の入力を受け付ける。入力部12には、例えば学習データが入力される。
 通信部13は、データ分離モデル学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習データの送信元の装置である。
 記憶部14は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14はデータ分離モデル学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えばデータ分離学習モデルを記憶する。記憶部14は、例えばデータ分離学習モデルの実行により生じた各種情報を記憶する。
 なお、学習データは、必ずしも入力部12だけに入力される必要もないし、通信部13だけに入力される必要もない。学習データは、入力部12と通信部13とのどちらから入力されてもよい。例えば学習用入力側データは入力部12に入力され、入力部12に入力された学習用入力側データに対応する正解データは通信部13に入力されてもよい。また、学習データは必ずしも入力部12又は通信部13から取得される必要はなく、予め記憶部14が記憶済みであってもよい。
 出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置をデータ分離モデル学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば入力部12又は通信部13に入力された学習データを表示してもよい。出力部15は、例えばデータ分離学習モデルの実行結果を表示してもよい。
 図7は、実施形態における制御部11の機能構成の一例を示す図である。制御部11は学習データ取得部161、モデル学習部162、記録部163、出力制御部164及び終了判定部165を備える。
 学習データ取得部161は、入力側データ取得部101及びラベル情報取得部102を備える。学習データ取得部161は、入力側データ取得部101及びラベル情報取得部102を用いて入力部12又は通信部13に入力された学習データを取得する。すなわち、入力側データ取得部101が入力部12又は通信部13に入力された学習用入力側データを取得し、ラベル情報取得部102が入力部12又は通信部13に入力された正解データを取得する。
 学習データ取得部161は、予め記憶部14に学習用データが記録済みの場合には、入力側データ取得部101及びラベル情報取得部102を用いて記憶部14から学習用データを読み出してもよい。このような場合、入力側データ取得部101は記憶部14に記憶済みの学習用入力側データを記憶部14から読み出し、ラベル情報取得部102は記憶部14に記憶済みの正解データを記憶部14から読み出す。
 モデル学習部162は、学習データ取得部161が取得した学習データを用いてデータ分離学習モデルを更新する。より具体的には、モデル学習部162は、モデル学習ネットワークを備え、学習データ取得部161が取得した学習データを用いてデータ分離学習モデルを実行し、実行結果に基づいてデータ分離学習モデルを更新する。すなわちモデル学習部162は、学習データ取得部161が取得した学習データを用いてデータ分離学習モデルの学習を行う。
 モデル学習部162は、例えばエンコード部103、ラベル特徴量抽出部104、ラベル特徴デコード部105、ラベル側再構成誤差算出部106、ラベル特徴分類器107、ラベル側分類誤差算出部108、非ラベル特徴量抽出部109、非ラベル特徴分類器110、非ラベル側分類誤差算出部111、非ラベル特徴デコード部112、非ラベル側再構成誤差算出部113、非分離デコード部114、非分離再構成誤差算出部115及び最適化部116を備える。すなわち、モデル学習部162は、例えばモデル学習ネットワークと最適化部116とを備える。モデル学習部162がデータ分離学習モデルを実行することは、モデル学習ネットワークがデータ分離学習モデルを実行することを意味する。
 記録部163は各種情報を記憶部14に記録する。出力制御部164は出力部15の動作を制御する。終了判定部165は、学習終了条件が満たされたか否かを判定する。学習終了条件が満たされた時点のデータ分離学習モデルが学習済みのデータ分離学習モデルであり、データ分離モデルである。
 図8は、実施形態におけるデータ分離モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。
 学習データ取得部161が学習データを取得する(ステップS101)。エンコード部103が学習用入力側データをエンコードする(ステップS102)。ラベル特徴量抽出部104がエンコード結果に基づき、ラベル特徴量を得る(ステップS103)。ラベル特徴デコード部105が、正解データとラベル特徴量抽出部104が取得した特徴量に基づき、学習用入力側学習データをデコードする(ステップS104)。ラベル側再構成誤差算出部106が、ラベル側データ損失を得る(ステップS105)。
 ラベル特徴分類器107が、ラベル特徴量について、各ラベル特徴量を分類する(ステップS106)。ラベル側分類誤差算出部108が、ラベル側分類損失を得る(ステップS107)。
 非ラベル特徴量抽出部109がエンコード結果に基づき、非ラベル特徴量を得る(ステップS108)。非ラベル特徴分類器110が、非ラベル特徴量について、各非ラベル特徴量を分類する(ステップS109)。非ラベル側分類誤差算出部111が、非ラベル側分類損失を得る(ステップS110)。
 非ラベル特徴デコード部112が、正解データと非ラベル特徴量に基づき、学習用入力側学習データをデコードする(ステップS111)。非ラベル側再構成誤差算出部113が、非ラベル側データ損失を得る(ステップS112)。
 非分離デコード部114が、ラベル特徴量及び非ラベル特徴量を用いてエンコード結果をデコードする(ステップS113)。非分離再構成誤差算出部115が、非分離データ損失を得る(ステップS114)。
 最適化部116は、少なくともラベル側データ損失、ラベル側分類損失、非ラベル側データ損失及び非ラベル側分類損失に基づき、第1条件、第2条件、第3条件及び第4条件が満たされるように、データ分離学習モデルを更新する(ステップS115)。終了判定部165が、学習終了条件が満たされたか否かを判定する(ステップS116)。学習終了条件が満たされなかった場合(ステップS116:NO)、ステップS101の処理に戻る。一方、学習終了条件が満たされた場合(ステップS116:YES)、処理が終了する。
 図9は、実施形態における分離装置2のハードウェア構成の一例を示す図である。分離装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。分離装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、分離装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 制御部21は、分離装置2が備える各種機能部の動作を制御する。制御部21は、例えばデータ分離モデル学習装置1が得た学習済みのデータ分離学習モデル(すなわちデータ分離モデル)を用いて、分離対象データを特徴に分離する。
 入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部22は、自装置に対する各種情報の入力を受け付ける。入力部22は、例えば分離対象データを特徴に分離する処理の開始を指示する入力を受け付ける。入力部22は、例えば分離対象データの入力を受け付ける。
 通信部23は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えばデータ分離モデル学習装置1である。このような場合、通信部23は、例えばデータ分離モデル学習装置1が得た学習済みのデータ分離学習モデルを取得する。
 通信部23の通信先の外部装置は、例えばデータ分離モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えばデータ分離モデルを記憶しておりデータ分離モデルを出力する場合、通信部23は外部装置との通信によってデータ分離モデルを取得する。
 通信部23の通信先の外部装置は、例えば分離対象データの出力元である。このような場合、通信部23は、外部装置との通信によって外部装置から分離対象データを取得する。
 記憶部24は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は分離装置2に関する各種情報を記憶する。記憶部24は、例えば通信部23を介して取得したデータ分離モデルを記憶する。
 出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。
 図10は、実施形態における制御部21の機能構成の一例を示す図である。制御部21は、分離対象取得部211、分離部212及び出力制御部213を備える。
 分離対象取得部211は、分離対象データを取得する。分離対象取得部211は、例えば入力部22に入力された分離対象データを取得する。分離対象取得部211は、例えば通信部23に入力された分離対象データを取得する。
 分離部212は、特徴量取得処理を実行する。特徴量取得処理は、分離対象取得部211が取得した分離対象データを、データ分離モデルを用いて特徴に分離して取得する処理である。すなわち、特徴量取得処理は、分離対象データからラベル特徴量と非ラベル特徴量とを取得する処理である。分離部212によって得られた特徴は出力制御部213に出力される。
 上述したようにラベル特徴量は、入力されたデータの特徴量であって学習時に正解データが値を示す量である。そのため、学習済みのデータ分離学習モデルを用いて分離対象データを特徴に分離する分離部212にとっては、ラベル特徴量は、予め定義された量である。一方で、分離部212が取得するラベル特徴量の値と非ラベル特徴量の値とは、分離対象データに応じた値である。
 また、上述したように最適化部116は、ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。最適化部116による更新の結果がデータ分離モデルである。そのため特徴量取得処理は、ラベル特徴量の値を用いて生成されたデータと学習用入力側データとの違いが大きくなり、非ラベル特徴量の値を用いて生成されたデータと学習用入力側データとの違いが小さくなるようして予め得られた処理である。より具体的には、特徴量取得処理は、ラベル特徴量の値から分離対象データに対応するラベル以外の成分を生成しづらく、非ラベル特徴量から分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である。また、そのため分離部212にとって、学習用入力側データは学習時に入力されたデータである。
 出力制御部213は、出力部25の動作を制御する。出力制御部213は、出力部25の動作を制御することで出力部25にデータ分離モデルの実行の結果を出力させる。データ分離モデルの実行の結果は、例えばデータ分離モデルによって得られた特徴である。
 図11は、実施形態における分離装置2が実行する処理の流れの一例を示すフローチャートである。分離対象取得部211が分離対象データを取得する(ステップS201)。次に、分離部212がデータ分離モデルを用いて分離対象データを特徴に分離する(ステップS202)。次に、出力制御部213が出力部25の動作を制御することで出力部25に、ステップS202で得られたデータ分離モデルの実行の結果を出力させる(ステップS203)。
(実験結果)
 図12は、実施形態における分離装置2を用いた実験結果の一例を第1の説明図である。より具体的には図12は、分離対象データが画像であって、2種類のラベル特徴量の値と、8種類の非ラベル特徴量の値とをそれぞれ、-2から2まで変更した場合における、得られる画像の一例である。実験では、データセットMNISTが用いられた。なお、ラベル特徴量の値は、実験者がデータ分離モデルにおけるラベル特徴量の値をコンピュータによって変更することで、変更された。
 図12において2種類のラベル特徴量は、“特徴量の種類”が1のラベル特徴量と“特徴量の種類”が2のラベル特徴量とである。図12において8種類のラベル特徴量は、“特徴量の種類”が3~10の非ラベル特徴量とである。
 図12は、“特徴量の種類”が1のラベル特徴量についてラベル特徴量の値を-2から2まで変更した場合に、数字の表す内容が6から1まで0と5とを経由して変化することを示す。図12は、“特徴量の種類”が2のラベル特徴量についてラベル特徴量の値を-2から2まで変更した場合に、数字の表す内容が0から4まで変化することを示す。
 図12は、“特徴量の種類”が3~10の非ラベル特徴量については、特徴量の値を変更しても数字の形状は変化するものの、数字の表す内容は“0”のままで変更が無いことを示す。
 このことは、データ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。なぜなら、特徴が明確に分離されていなければ、“特徴量の種類”が3~10の非ラベル特徴量についても、特徴量の値を変更した際に、数字の表す内容が変化してしまうはずだからである。
 図13は、実施形態における分離装置2を用いた実験結果の一例を第2の説明図である。より具体的には図13は、図12の結果を示した実験におけるラベル特徴量の分離性能の一例を示す図である。図13の横軸は、学習ステップを示す。図13の縦軸は、ラベル特徴量の分離性能(-Ly)を示す。縦軸の値が小さいほど、分離性能が良い、ことを示す。図13は、学習データを用いた場合であっても学習データと異なるテストデータを用いた場合であっても、学習ステップが進んだ際のラベル特徴量の分離性能は-1.95より小さいことを示す。このことはデータ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。
 図14は、実施形態における分離装置2を用いた実験結果の一例を第3の説明図である。より具体的には図14は、図12の結果を示した実験における非ラベル特徴量の分離性能の一例を示す図である。図14の横軸は、学習ステップを示す。図14の縦軸は、ラベル特徴量の分離性能(-Lyc)を示す。縦軸の値が小さいほど、分離性能が良い、ことを示す。図14は、学習データを用いた場合であっても学習データと異なるテストデータを用いた場合であっても、学習ステップが進んだ際のラベル特徴量の分離性能は-0.1より小さいことを示す。このことはデータ分離モデルが、データを特徴に明確に分離することができるモデルであることを意味する。
 このように構成された実施形態におけるデータ分離モデル学習装置1は、ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが大きくなるようにデータ分離学習モデルを更新する。また、データ分離モデル学習装置1は、非ラベル特徴量の値を用いて生成されたデータと学習用入力側学習データとの違いが小さくなるようにデータ分離学習モデルを更新する。したがって、データ分離モデル学習装置1は、分離性能Lyと分離性能Lycとが大きなデータ分離モデルを得ることができる。そのため、データ分離モデル学習装置1は、データを任意の特徴に明確に分離する数理モデルを得ることができる。
 また、このように構成された実施形態における分離装置2は、データ分離モデル学習装置1が得たデータ分離モデルを用いて分離対象データを特徴に分離する。そのため、分離装置2は、データを任意の特徴に明確に分離することができる。
 また、このように構成された実施形態のデータ分離システム100は、分離装置2を備える。そのため、分離装置2は、データを任意の特徴に明確に分離することができる。
 (変形例)
 データ分離モデル学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、データ分離モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 分離装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、分離装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 データ分離システム100は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、データ分離システム100が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 なお、データ分離モデル学習装置1、分離装置2及びデータ分離システム100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
 なお、データ分離モデル学習装置1は学習装置の一例である。なお、データ分離モデル学習装置1、分離装置2及びデータ分離システム100の目的は、データが有する任意の特徴を特徴間の線形独立の度合が高い状態で分離する技術を提供することであってもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 100…データ分離システム、 1…データ分離モデル学習装置、 2…分離装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 101…入力側データ取得部、 102…ラベル情報取得部、 103…エンコード部、 104…ラベル特徴量抽出部、 105…ラベル特徴デコード部、 106…ラベル側再構成誤差算出部、 107…ラベル特徴分類器、 108…ラベル側分類誤差算出部、 109…非ラベル特徴量抽出部、 110…非ラベル特徴分類器、 111…非ラベル側分類誤差算出部、 112…非ラベル特徴デコード部、 113…非ラベル側再構成誤差算出部、 114…非分離デコード部、 115…非分離再構成誤差算出部、 116…最適化部、 161…学習データ取得部、 162…モデル学習部、 163…記録部、 164…出力制御部、 165…終了判定部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 211…分離対象取得部、 212…分離部、 213…出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ

Claims (7)

  1.  分離対象のデータから特徴量を分離する分離方法であって、
     分離対象のデータである分離対象データを取得する取得ステップと、
     前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する特徴量取得ステップと、
     を有し、
     前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、
     分離方法。
  2.  前記特徴量取得処理は機械学習の方法によって得られた学習済みモデルであり、
     学習に用いられる学習データは、学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部を示す情報である正解データとの対のデータを含み、
     前記特徴量取得処理は、学習データから得られたラベル特徴量の値と前記正解データとの相互情報量を増大させるという条件と、前記学習用入力側データから抽出される非ラベル特徴量の値と正解データとの相互情報量を減少させるという条件と、正解データがyである場合の前記学習用入力側データから抽出されるラベル特徴量Zyの値と学習用入力側データxの相互情報量I((Zy|y);x)を減少させるという条件と、正解データがyである場合の前記学習用入力側データから抽出される非ラベル特徴量Zycの値と学習用入力側データxの相互情報量I((Zyc|y);x)を増大させるという条件と、を満たすようにして得られた処理である、
     請求項1に記載の分離方法。
  3.  分離対象のデータから特徴量を分離する分離装置であって、
     分離対象のデータである分離対象データを取得する分離対象取得部と、
     前記分離対象データから、予め定義された量であるラベル特徴量の値と、前記分離対象データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得する特徴量取得処理を実行する分離部と、
     を備え、
     前記特徴量取得処理は、前記ラベル特徴量の値から前記分離対象データに対応するラベル以外の成分を生成しづらく、前記非ラベル特徴量から前記分離対象データに対応するラベルを生成しづらくなるよう最適化された処理である、
     分離装置。
  4.  学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得ステップと、
     データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習ステップと、
     を有する学習方法。
  5.  学習用入力側データと前記学習用入力側データが有する特徴量の少なくとも一部について値を示す情報である正解データとの対のデータを含む学習データを取得する学習データ取得部と、
     データを特徴に分離する機械学習のモデルであるデータ分離学習モデルを用いて、前記学習用入力側データから前記正解データが値を示す量であるラベル特徴量の値と前記学習用入力側データの特徴量のうち前記ラベル特徴量以外の特徴量である非ラベル特徴量の値とを取得し、取得したラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが大きくなり取得した非ラベル特徴量の値を用いて生成されたデータと前記学習データとの違いが小さくなるように前記データ分離学習モデルを更新するモデル学習部と、
     を備える学習装置。
  6.  請求項3に記載の分離装置としてコンピュータを機能させるためのプログラム。
  7.  請求項5に記載の学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2021/002554 2021-01-26 2021-01-26 分離方法、分離装置、学習方法、学習装置及びプログラム WO2022162719A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022577819A JPWO2022162719A1 (ja) 2021-01-26 2021-01-26
PCT/JP2021/002554 WO2022162719A1 (ja) 2021-01-26 2021-01-26 分離方法、分離装置、学習方法、学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002554 WO2022162719A1 (ja) 2021-01-26 2021-01-26 分離方法、分離装置、学習方法、学習装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2022162719A1 true WO2022162719A1 (ja) 2022-08-04

Family

ID=82652716

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002554 WO2022162719A1 (ja) 2021-01-26 2021-01-26 分離方法、分離装置、学習方法、学習装置及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2022162719A1 (ja)
WO (1) WO2022162719A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159823A (ja) * 2018-03-13 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置
JP2020004406A (ja) * 2018-06-25 2020-01-09 富士通株式会社 分類モデル訓練方法及び装置並びに分類方法及び装置
JP2020177287A (ja) * 2019-04-15 2020-10-29 アイシン・エィ・ダブリュ株式会社 試験品評価システムおよびその構築方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159823A (ja) * 2018-03-13 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置
JP2020004406A (ja) * 2018-06-25 2020-01-09 富士通株式会社 分類モデル訓練方法及び装置並びに分類方法及び装置
JP2020177287A (ja) * 2019-04-15 2020-10-29 アイシン・エィ・ダブリュ株式会社 試験品評価システムおよびその構築方法

Also Published As

Publication number Publication date
JPWO2022162719A1 (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
US11157693B2 (en) Stylistic text rewriting for a target author
CN104657350B (zh) 融合隐式语义特征的短文本哈希学习方法
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN107958286A (zh) 一种领域适应性网络的深度迁移学习方法
Zhao et al. Online nonnegative matrix factorization with general divergences
CN109189930B (zh) 文本特征提取及提取模型优化方法以及介质、装置和设备
WO2020026646A1 (ja) 解析装置、解析方法及びプログラム
CN113505583B (zh) 基于语义决策图神经网络的情感原因子句对提取方法
US20230117325A1 (en) System for generating compound structure representation
JP5139701B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US20240185025A1 (en) Flexible Parameter Sharing for Multi-Task Learning
CN106844342B (zh) 基于增量学习的词向量生成方法和装置
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
CN109726331A (zh) 对象偏好预测的方法、装置和计算机可读介质
WO2019092868A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
CA3228096A1 (en) Handwriting recognition pipelines for genealogical records
CN114548296A (zh) 一种基于自适应框架的图卷积推荐方法及相关装置
CN113239668A (zh) 关键词智能提取方法、装置、计算机设备及存储介质
Isoni Machine learning for the web
WO2022162719A1 (ja) 分離方法、分離装置、学習方法、学習装置及びプログラム
CN113392929A (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN109325515B (zh) 基于局部学习正则化的深度矩阵分解方法及图像聚类方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21922744

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022577819

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21922744

Country of ref document: EP

Kind code of ref document: A1