WO2021106202A1 - 学習装置、学習方法及びプログラム - Google Patents

学習装置、学習方法及びプログラム Download PDF

Info

Publication number
WO2021106202A1
WO2021106202A1 PCT/JP2019/046820 JP2019046820W WO2021106202A1 WO 2021106202 A1 WO2021106202 A1 WO 2021106202A1 JP 2019046820 W JP2019046820 W JP 2019046820W WO 2021106202 A1 WO2021106202 A1 WO 2021106202A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
learning
latent vector
vector
unit
Prior art date
Application number
PCT/JP2019/046820
Other languages
English (en)
French (fr)
Inventor
具治 岩田
充敏 熊谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/046820 priority Critical patent/WO2021106202A1/ja
Priority to JP2021561114A priority patent/JP7420148B2/ja
Priority to US17/780,577 priority patent/US20230016231A1/en
Publication of WO2021106202A1 publication Critical patent/WO2021106202A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Definitions

  • the present invention relates to a learning device, a learning method and a program.
  • Non-Patent Document 1 a meta-learning method has been proposed in which learning data of different tasks are utilized and high performance is achieved even with a small amount of learning data (for example, Non-Patent Document 1).
  • One embodiment of the present invention has been made in view of the above points, and an object of the present invention is to learn a model for solving a machine learning problem when a set of a plurality of data sets having different feature space is given. And.
  • the learning device has an input unit for inputting a plurality of data sets having different feature quantity spaces, and a feature latent that represents the properties of each feature of the data set for each data set.
  • a first generation unit that generates a vector
  • a second generation unit that generates a case latent vector representing the nature of the observation data for each observation vector included in the data set, the feature latent vector, and the case latent.
  • a predictor that predicts a solution by a model for solving a target machine learning problem using a vector, and a predetermined value for each data set using the feature latent vector, the case latent vector, and the solution. It is characterized by having a learning unit for learning the parameters of the model by optimizing the objective function.
  • a learning device 10 capable of learning a model for solving a machine learning problem when a set of a plurality of data sets having different feature space is given will be described.
  • a case of solving a target machine learning problem using a trained model when a set of observation vectors is given will also be described.
  • the target machine learning problem is density-estimated, and the model for solving this machine learning problem is used as a neural network, and a set of a small number of observation vectors (that is, a data set composed of a small number of observation vectors).
  • the purpose is to estimate the density distribution pd * (x) that generated the set X d * of this observation vector.
  • the observation data is not in the vector format (for example, when the observation data is an image, a graph, etc.)
  • the present embodiment can be applied in the same manner by converting the observation data into the vector format. .. Further, even if the target machine learning problem is not density estimation but, for example, classification, regression, clustering, etc., the present embodiment can be applied in the same manner.
  • FIG. 1 is a diagram showing an example of the functional configuration of the learning device 10 according to the present embodiment.
  • the learning device 10 includes a reading unit 101, a feature latent vector generation unit 102, a case latent vector generation unit 103, a prediction unit 104, a learning unit 105, and a test unit. It has 106 and a storage unit 107.
  • the storage unit 107 stores various data used during learning and testing. That is, at least a set of D data sets is stored in the storage unit 107 at the time of learning. Further, the storage unit 107 stores at least a set of a small number of observation vectors and learned parameters (that is, parameters of the neural network learned at the time of learning) at the time of the test.
  • the reading unit 101 reads a set of D data sets as input data at the time of learning. Further, the reading unit 101 reads a set of a small number of observation vectors as input data at the time of the test.
  • the feature latent vector generation unit 102 generates a feature latent vector representing the property of each feature of each data set. It is assumed that the feature latent vector v di of the i-th feature of the data set d is generated by, for example, the normal distribution shown in the following equation (1).
  • ⁇ v and ⁇ v are shared by all datasets. It should be noted that the model may be modeled by a distribution other than the normal distribution or a definitive neural network that does not use the distribution.
  • the case latent vector generation unit 103 generates a case latent vector representing the nature of each case of each data set. It is assumed that the case latent vector z dn of the nth case of the data set d is generated by, for example, the normal distribution shown in the following equation (2).
  • ⁇ z and ⁇ z are a set of the observation vector x dn and the feature latent vector of the nth case of the data set d.
  • ⁇ z and ⁇ z are shared by all datasets. It should be noted that the model may be modeled by a distribution other than the normal distribution or a definitive neural network that does not use the distribution.
  • the prediction unit 104 predicts the density of the observation vector x dn by using the feature latent vector and the case latent vector.
  • the density can be predicted, for example, by the normal distribution shown in the following equation (3).
  • ⁇ x and ⁇ x are neural networks that input the feature latent vector and the case latent vector.
  • the density may be calculated using another distribution according to the characteristics instead of the normal distribution. For example, if the observation vector is discrete, a categorical distribution may be used, if it is a non-negative integer value, a Poisson distribution may be used, and if it is a non-negative real value, a gamma distribution may be used.
  • a neural network that solves the machine learning problem using the feature latent vector and the case latent vector may be used.
  • a regressive neural network may be used.
  • the learning unit 105 learns the parameters of the neural network by using the set of D data sets read by the reading unit 101 so that the performance of the target machine learning problem is improved.
  • the learning unit 105 maximizes the objective function shown in the following equation (4), which is a Monte Carlo approximation of the lower limit of log-likelihood for each data set. , Neural network parameters can be learned.
  • L is the number of samples
  • KL KL divergence
  • p (z dn ) prior distribution
  • the feature latent vector is generated by the feature latent vector generation unit 102.
  • case latent vector generation unit 103 Is generated, and then the case latent vector is generated by the case latent vector generation unit 103.
  • the learning unit 105 calculates the objective function. Any optimization method can be used to maximize the objective function, and for example, a stochastic gradient descent method can be used. Further, any distribution can be used as the prior distribution, for example, a standard normal distribution.
  • a training data set and a test data set may be created in a pseudo manner by randomly dividing each data set, and training may be performed so that the performance of the machine learning problem in the pseudo test data set is improved. Further, the feature amount used for learning may be randomly selected to generate a more diverse data set in a pseudo manner for learning.
  • the test unit 106 solves the target machine learning problem by the trained neural network by using the set X d * of the observation vectors read by the reading unit 101.
  • the feature latent vector generation unit 102 first generates a feature latent vector from the set Xd * of the observation vectors, and then the case latent vector generation unit 103 generates the feature latent vector from the observation vector and the feature latent vector.
  • a case latent vector is generated, and then the prediction unit 104 solves the target machine learning problem using the feature latent vector and the case latent vector.
  • test unit 106 can estimate the density by the following equation (5) using important sampling.
  • V (j) and z (j) are a set and a case latent vector of the feature latent vector v (j) sampled from the distribution shown in the following equation (6), respectively, and are the feature latent vector generation unit 102 and the case, respectively. It can be generated by the latent vector generation unit 103.
  • test unit 106 can estimate the conditional density by the following equation (7).
  • V (j) and z (j) are a set of feature latent vectors v (j) sampled from the distribution shown in the following equation (8) and a case latent vector, respectively, and are the feature latent vector generation unit 102 and the case latent vector, respectively. It can be generated by the case latent vector generation unit 103.
  • ⁇ i represents a vector or set excluding the i-th feature.
  • FIG. 2 is a flowchart showing an example of the flow of the learning process according to the present embodiment.
  • the reading unit 101 reads a set of D data sets as input data (step S101).
  • step S101 a case where learning is performed using a certain data set d out of D data sets will be described.
  • the learning unit 105 calls the feature latent vector generation unit 102, and the feature latent vector generation unit 102 generates (samples) L feature latent vectors (step S102).
  • the learning unit 105 calls the case latent vector generation unit 103, and the case latent vector generation unit 103 generates (samples) L case latent vectors (step S103).
  • the learning unit 105 calls the prediction unit 104, and the prediction unit 104
  • the learning unit 105 calculates the value of the objective function (log-likelihood) shown in the above equation (4) and its gradient, and updates the parameters of the neural network so as to maximize the value of the objective function. (Step S105).
  • the learning unit 105 determines whether or not a predetermined end condition is satisfied (step S106). If the end condition is not satisfied, the learning unit 105 returns to step S102 and performs learning using the next data set d. On the other hand, if the end condition is satisfied, the learning unit 105 ends the learning process. As a result, the learned parameters are stored in the storage unit 107.
  • the end conditions include, for example, that the number of times steps S102 to S106 are executed (number of repetitions) exceeds a specified value, and the number of repetitions is N (where N is an arbitrary natural number). The amount of change in the objective function value became smaller than a specified value when the number of repetitions was N + 1 and the objective function value for a data set different from the data set used for training became the minimum. That, etc.
  • FIG. 3 is a flowchart showing an example of the flow of the test process according to the present embodiment.
  • the reading unit 101 reads a set (data set) X d * of observation vectors as input data (step S201).
  • test unit 106 calls the feature latent vector generation unit 102, and the feature latent vector generation unit 102 generates (samples) J feature latent vectors (step S202).
  • test unit 106 calls the case latent vector generation unit 103, and the case latent vector generation unit 103 generates (samples) J case latent vectors (step S203).
  • test unit 106 calls the prediction unit 104, and the prediction unit 104 predicts the density using the above equation (5) (step S204). This solves the machine learning problem of predicting density.
  • VAE variable auto-encoder
  • VAE mixed normal distribution
  • KDE kernel density estimation
  • the evaluation index is log-likelihood, and the higher the value, the higher the density estimation performance.
  • FIG. 4 is a diagram showing an example of the hardware configuration of the learning device 10 according to the present embodiment.
  • the learning device 10 is realized by a general computer or computer system, and includes an input device 201, a display device 202, an external I / F 203, a communication I / F 204, and a processor. It has 205 and a memory device 206. Each of these hardware is communicably connected via bus 207.
  • the input device 201 is, for example, a keyboard, a mouse, a touch panel, or the like.
  • the display device 202 is, for example, a display or the like.
  • the learning device 10 does not have to have at least one of the input device 201 and the display device 202.
  • the external I / F 203 is an interface with an external device.
  • the external device includes a recording medium 203a and the like.
  • the learning device 10 can read or write the recording medium 203a via the external I / F 203.
  • each functional unit (reading unit 101, feature latent vector generation unit 102, case latent vector generation unit 103, prediction unit 104, learning unit 105, and test unit 106) of the learning device 10 is realized in the recording medium 203a.
  • One or more programs may be stored.
  • the recording medium 203a includes, for example, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), a USB (Universal Serial Bus) memory card, and the like.
  • a CD Compact Disc
  • DVD Digital Versatile Disk
  • SD memory card Secure Digital memory card
  • USB Universal Serial Bus
  • the communication I / F 204 is an interface for connecting the learning device 10 to the communication network.
  • One or more programs that realize each functional unit of the learning device 10 may be acquired (downloaded) from a predetermined server device or the like via the communication I / F 204.
  • the processor 205 is, for example, various arithmetic units such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit). Each functional unit included in the learning device 10 is realized by, for example, a process of causing the processor 205 to execute one or more programs stored in the memory device 206 or the like.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the memory device 206 is, for example, various storage devices such as HDD (Hard Disk Drive), SSD (Solid State Drive), RAM (Random Access Memory), ROM (Read Only Memory), and flash memory.
  • the storage unit 107 included in the learning device 10 can be realized by using, for example, the memory device 206.
  • the storage unit 107 may be realized by using a storage device or the like connected to the learning device 10 via a communication network.
  • the learning device 10 can realize the above-mentioned learning process and test process.
  • the hardware configuration shown in FIG. 4 is an example, and the learning device 10 may have another hardware configuration.
  • the learning device 10 may have a plurality of processors 205 or a plurality of memory devices 206.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

一実施形態に係る学習装置は、特徴量空間が異なる複数のデータセットを入力する入力部と、前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第1の生成部と、前記データセットに含まれる観測ベクトル毎に、前記観測データの性質を表す事例潜在ベクトルを生成する第2の生成部と、前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、を有することを特徴とする。

Description

学習装置、学習方法及びプログラム
 本発明は、学習装置、学習方法及びプログラムに関する。
 機械学習手法では、通常、タスク固有の学習データセットを使用して学習を行う。また、高い性能を達成するためには大量の学習データセットが必要である。しかしながら、タスク毎に十分な量のデータを用意するには高いコストを要するという問題がある。
 この問題を解決するために、異なるタスクの学習データを活用し、少数の学習データでも高い性能を達成するためのメタ学習法が提案されている(例えば非特許文献1)。
Chelsea Finn, Pieter Abbeel, Sergey Levine, "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks.", Proceedings of the 34th International Conference on Machine Learning, 2017.
 しかしながら、メタ学習法では特徴量空間が異なるデータを活用することができないという問題がある。
 本発明の一実施形態は、上記の点に鑑みてなされたもので、特徴量空間が異なる複数のデータセットの集合が与えられた場合に機械学習問題を解くためのモデルを学習することを目的とする。
 上記目的を達成するため、一実施形態に係る学習装置は、特徴量空間が異なる複数のデータセットを入力する入力部と、前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第1の生成部と、前記データセットに含まれる観測ベクトル毎に、前記観測データの性質を表す事例潜在ベクトルを生成する第2の生成部と、前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、を有することを特徴とする。
 特徴量空間が異なる複数のデータセットの集合が与えられた場合に機械学習問題を解くためのモデルを学習することができる。
本実施形態に係る学習装置の機能構成の一例を示す図である。 本実施形態に係る学習処理の流れの一例を示すフローチャートである。 本実施形態に係るテスト処理の流れの一例を示すフローチャートである。 本実施形態に係る学習装置のハードウェア構成の一例を示す図である。
 以下、本発明の一実施形態について説明する。本実施形態では、特徴量空間が異なる複数のデータセットの集合が与えられた場合に、機械学習問題を解くためのモデルを学習することが可能な学習装置10について説明する。また、観測ベクトルの集合が与えられた場合に、学習されたモデルを用いて、対象とする機械学習問題を解く場合についても説明する。
 学習装置10の学習時には、入力データとして、D個のデータセットの集合
Figure JPOXMLDOC01-appb-M000001
が与えられるものとする。ここで、
Figure JPOXMLDOC01-appb-M000002
はd番目のデータセットを構成する観測ベクトルの集合であり、
Figure JPOXMLDOC01-appb-M000003
はn番目の事例、Nは事例数、Iは特徴量数を表す。本実施形態では、対象とする機械学習問題を密度推定、この機械学習問題を解くためのモデルをニューラルネットワークとして、少数の観測ベクトルの集合(つまり、少数の観測ベクトルで構成されるデータセット)
Figure JPOXMLDOC01-appb-M000004
が与えられた場合に、この観測ベクトルの集合Xd*を生成した密度分布pd*(x)を推定することを目的とする。なお、観測データがベクトル形式でない場合(例えば、観測データが画像やグラフ等である場合)には、観測データをベクトル形式に変換することで、本実施形態を同様に適用することが可能である。また、対象とする機械学習問題が密度推定ではなく、例えば、分類や回帰、クラスタリング等であっても、本実施形態を同様に適用することが可能である。
 <機能構成>
 まず、本実施形態に係る学習装置10の機能構成について、図1を参照しながら説明する。図1は、本実施形態に係る学習装置10の機能構成の一例を示す図である。
 図1に示すように、本実施形態に係る学習装置10は、読込部101と、特徴潜在ベクトル生成部102と、事例潜在ベクトル生成部103と、予測部104と、学習部105と、テスト部106と、記憶部107とを有する。
 記憶部107には、学習時やテスト時に用いられる各種データが記憶される。すなわち、記憶部107には、学習時にはD個のデータセットの集合が少なくとも記憶されている。また、記憶部107には、テスト時には少数の観測ベクトルの集合と学習済みパラメータ(つまり、学習時に学習されたニューラルネットワークのパラメータ)とが少なくとも記憶されている。
 読込部101は、学習時にはD個のデータセットの集合を入力データとして読み込む。また、読込部101は、テスト時には少数の観測ベクトルの集合を入力データとして読み込む。
 特徴潜在ベクトル生成部102は、各データセットの各特徴の性質を表す特徴潜在ベクトルを生成する。データセットdのi番目の特徴の特徴潜在ベクトルvdiは、例えば、以下の式(1)に示す正規分布によって生成されると仮定する。
Figure JPOXMLDOC01-appb-M000005
 ここで、
Figure JPOXMLDOC01-appb-M000006
は平均μ,共分散Σの正規分布を表し、diag(x)はベクトルxを対角要素に持つ対角行列を表す。μ及びσはデータセットdのi番目の特徴の観測値
Figure JPOXMLDOC01-appb-M000007
とその他の特徴(つまり、データセットdのi番目以外の特徴)の観測値
Figure JPOXMLDOC01-appb-M000008
とを入力とするニューラルネットワークである。これらμ及びσは全データセットで共有されている。なお、正規分布ではなく他の分布や、分布を用いない決定的なニューラルネットワークでモデル化してもよい。
 事例潜在ベクトル生成部103は、各データセットの各事例の性質を表す事例潜在ベクトルを生成する。データセットdのn番目の事例の事例潜在ベクトルzdnは、例えば、以下の式(2)に示す正規分布によって生成されると仮定する。
Figure JPOXMLDOC01-appb-M000009
 ここで、μ及びσはデータセットdのn番目の事例の観測ベクトルxdnと特徴潜在ベクトルの集合
Figure JPOXMLDOC01-appb-M000010
とを入力とするニューラルネットワークである。これらμ及びσは全データセットで共有されている。なお、正規分布ではなく他の分布や、分布を用いない決定的なニューラルネットワークでモデル化してもよい。
 予測部104は、特徴潜在ベクトルと事例潜在ベクトルとを用いて、観測ベクトルxdnの密度を予測する。密度は、例えば、以下の式(3)に示す正規分布によって予測することができる。
Figure JPOXMLDOC01-appb-M000011
 ここで、μ及びσは特徴潜在ベクトルと事例潜在ベクトルとを入力とするニューラルネットワークである。なお、正規分布ではなく、特徴に合わせた他の分布を用いて密度を計算してもよい。例えば、観測ベクトルが離散の場合はカテゴリカル分布、非負整数値の場合はポアソン分布、非負実数値の場合はガンマ分布等を用いることが考えられる。
 なお、対象とする機械学習問題が密度推定でない場合は、特徴潜在ベクトルと事例潜在ベクトルとを用いてその機械学習問題を解くニューラルネットワークを用いればよい。例えば、機械学習問題が回帰問題である場合は、回帰するニューラルネットワークを用いればよい。
 学習部105は、読込部101によって読み込まれたD個のデータセットの集合を用いて、対象とする機械学習問題の性能が高くなるように、ニューラルネットワークのパラメータを学習する。
 例えば、対象とする機械学習問題が密度推定である場合、学習部105は、各データセットに対する対数尤度の下限のモンテカルロ近似である以下の式(4)に示す目的関数を最大化することによって、ニューラルネットワークのパラメータを学習することができる。
Figure JPOXMLDOC01-appb-M000012
 ここで、Lはサンプル数、
Figure JPOXMLDOC01-appb-M000013
である。また、
Figure JPOXMLDOC01-appb-M000014
は標準正規分布
Figure JPOXMLDOC01-appb-M000015
から生成された値、KLはKLダイバージェンス、p(zdn)は事前分布である。
 上記の式(4)に示す目的関数の計算手順としては、まず特徴潜在ベクトル生成部102により特徴潜在ベクトル
Figure JPOXMLDOC01-appb-M000016
を生成し、次に事例潜在ベクトル生成部103により事例潜在ベクトル
Figure JPOXMLDOC01-appb-M000017
を生成し、次に予測部104により
Figure JPOXMLDOC01-appb-M000018
を評価した後、学習部105により目的関数を計算する。目的関数の最大化には任意の最適化手法が利用できるが、例えば、確率的勾配降下法等を用いることができる。また、事前分布としては任意の分布を利用することができるが、例えば、標準正規分布
Figure JPOXMLDOC01-appb-M000019
を用いることができる。
 なお、各データセットをランダムに分割することにより疑似的に学習データセットとテストデータセットとを作成し、疑似的なテストデータセットにおける機械学習問題の性能が高くなるように学習してもよい。また、学習に利用する特徴量をランダムに選択して、疑似的に、より多様なデータセットを生成し、学習してもよい。
 テスト部106は、読込部101によって読み込まれた観測ベクトルの集合Xd*を用いて、学習済みのニューラルネットワークにより対象とする機械学習問題を解く。機械学集問題を解く手順としては、まず特徴潜在ベクトル生成部102により観測ベクトルの集合Xd*から特徴潜在ベクトルを生成し、次に事例潜在ベクトル生成部103により観測ベクトルと特徴潜在ベクトルとから事例潜在ベクトルを生成し、次に予測部104により特徴潜在ベクトルと事例潜在ベクトルとを用いて対象とする機械学習問題を解く。
 例えば、対象とする機械学習問題が密度推定である場合、テスト部106は、重要サンプリングを用いて、以下の式(5)により密度を推定することができる。
Figure JPOXMLDOC01-appb-M000020
 ここで、Jはサンプル数である。また、V(j)及びz(j)はそれぞれ以下の式(6)に示す分布からサンプリングした特徴潜在ベクトルv(j)の集合及び事例潜在ベクトルであり、それぞれ特徴潜在ベクトル生成部102及び事例潜在ベクトル生成部103により生成できる。
Figure JPOXMLDOC01-appb-M000021
 なお、対象とする機械学習問題が条件付き密度推定である場合は、テスト部106は、以下の式(7)により条件付き密度を推定することができる。
Figure JPOXMLDOC01-appb-M000022
 ここで、V(j)及びz(j)はそれぞれ以下の式(8)に示す分布からサンプリングした特徴潜在ベクトルv(j)の集合及び事例潜在ベクトルであり、それぞれ特徴潜在ベクトル生成部102及び事例潜在ベクトル生成部103により生成できる。
Figure JPOXMLDOC01-appb-M000023
 なお、\iはi番目の特徴を除いたベクトル又は集合を表す。
 <学習処理の流れ>
 以降では、本実施形態に係る学習処理の流れについて、図2を参照しながら説明する。図2は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。
 まず、読込部101は、D個のデータセットの集合を入力データとして読み込む(ステップS101)。以降では、D個のデータセットのうちの或るデータセットdを用いて学習を行う場合について説明する。
 学習部105は、特徴潜在ベクトル生成部102を呼び出して、特徴潜在ベクトル生成部102によってL個の特徴潜在ベクトルを生成(サンプリング)する(ステップS102)。これにより、l=1,・・・,Lとして、データセットdの特徴潜在ベクトルの集合V (l)が得られる。
 次に、学習部105は、事例潜在ベクトル生成部103を呼び出して、事例潜在ベクトル生成部103によってL個の事例潜在ベクトルを生成(サンプリング)する(ステップS103)。これにより、l=1,・・・,Lとして、データセットdのn番目の事例の事例潜在ベクトルzdn (l)が得られる。
 次に、学習部105は、予測部104を呼び出して、予測部104によって
Figure JPOXMLDOC01-appb-M000024
を得る(ステップS104)。
 次に、学習部105は、上記の式(4)に示す目的関数(対数尤度)の値とその勾配とを計算し、目的関数の値を最大化させるように、ニューラルネットワークのパラメータを更新する(ステップS105)。
 次に、学習部105は、所定の終了条件を満たすか否かを判定する(ステップS106)。終了条件を満たさない場合には、学習部105は、上記のステップS102に戻り、次のデータセットdを用いて学習を行う。一方で、終了条件を満たす場合には、学習部105は学習処理を終了する。これにより、学習済みのパラメータが記憶部107に記憶される。なお、終了条件としては、例えば、ステップS102~ステップS106が実行された回数(繰り返し回数)が或る指定された値を超えたこと、繰り返し回数がN(ただし、Nは任意の自然数)回目のときと繰り返し回数がN+1回目のときで目的関数値の変化量が或る指定された値よりも小さくなったこと、学習に用いたデータセットとは異なるデータセットに対する目的関数値が最小になったこと、等が挙げられる。
 <テスト処理の流れ>
 以降では、本実施形態に係るテスト処理の流れについて、図3を参照しながら説明する。図3は、本実施形態に係るテスト処理の流れの一例を示すフローチャートである。
 まず、読込部101は、観測ベクトルの集合(データセット)Xd*を入力データとして読み込む(ステップS201)。
 次に、テスト部106は、特徴潜在ベクトル生成部102を呼び出して、特徴潜在ベクトル生成部102によってJ個の特徴潜在ベクトルを生成(サンプリング)する(ステップS202)。これにより、j=1,・・・,Jとして、特徴潜在ベクトルの集合V(j)が得られる。
 次に、テスト部106は、事例潜在ベクトル生成部103を呼び出して、事例潜在ベクトル生成部103によってJ個の事例潜在ベクトルを生成(サンプリング)する(ステップS203)。これにより、j=1,・・・,Jとして、事例潜在ベクトルz(j)が得られる。
 そして、テスト部106は、予測部104を呼び出して、予測部104によって上記の式(5)を用いて密度を予測する(ステップS204)。これにより、密度を予測する機械学習問題を解いたことになる。
 <評価>
 ここで、本実施形態の手法の評価について説明する。本実施形態の手法を評価するために、特徴量空間が異なる5つのデータセット(Glass, Segment, Vehicle, Vowel, Wine)を用いて既存の手法(変分オートエンコーダ(VAE)、混合正規分布(GMM)、カーネル密度推定(KDE))と比較した。学習時には5つのデータセットを全て用いた。一方で、テスト時には各データセットで特徴の30%を削り、特徴をランダムに入れ替えた。
 このとき、本実施形態の手法と既存の手法との評価結果を以下の表1に示す。
Figure JPOXMLDOC01-appb-T000025
 なお、評価指標は対数尤度であり、その値が高いほど密度推定性能が高いことを表す。
 上記の表1に示すように、本実施形態の手法は、既存の手法と比較して、全てのデータセットで高い密度推定性能が得られていることがわかる。
 <ハードウェア構成>
 最後に、本実施形態に係る学習装置10のハードウェア構成について、図4を参照しながら説明する。図4は、本実施形態に係る学習装置10のハードウェア構成の一例を示す図である。
 図4に示すように、本実施形態に係る学習装置10は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、プロセッサ205と、メモリ装置206とを有する。これら各ハードウェアは、それぞれがバス207を介して通信可能に接続されている。
 入力装置201は、例えば、キーボードやマウス、タッチパネル等である。表示装置202は、例えば、ディスプレイ等である。なお、学習装置10は、入力装置201及び表示装置202のうちの少なくとも一方を有していなくてもよい。
 外部I/F203は、外部装置とのインタフェースである。外部装置には、記録媒体203a等がある。学習装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込み等を行うことができる。記録媒体203aには、例えば、学習装置10が有する各機能部(読込部101、特徴潜在ベクトル生成部102、事例潜在ベクトル生成部103、予測部104、学習部105及びテスト部106)を実現する1以上のプログラムが格納されていてもよい。
 なお、記録媒体203aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
 通信I/F204は、学習装置10を通信ネットワークに接続するためのインタフェースである。なお、学習装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
 プロセッサ205は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。学習装置10が有する各機能部は、例えば、メモリ装置206等に格納されている1以上のプログラムがプロセッサ205に実行させる処理により実現される。
 メモリ装置206は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。学習装置10が有する記憶部107は、例えば、メモリ装置206を用いて実現可能である。なお、例えば、記憶部107は、学習装置10と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。
 本実施形態に係る学習装置10は、図4に示すハードウェア構成を有することにより、上述した学習処理やテスト処理を実現することができる。なお、図4に示すハードウェア構成は一例であって、学習装置10は、他のハードウェア構成を有していてもよい。例えば、学習装置10は、複数のプロセッサ205を有していてもよいし、複数のメモリ装置206を有していてもよい。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 10    学習装置
 101   読込部
 102   特徴潜在ベクトル生成部
 103   事例潜在ベクトル生成部
 104   予測部
 105   学習部
 106   テスト部
 107   記憶部

Claims (8)

  1.  特徴量空間が異なる複数のデータセットを入力する入力部と、
     前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第1の生成部と、
     前記データセットに含まれる観測ベクトル毎に、前記観測ベクトルの性質を表す事例潜在ベクトルを生成する第2の生成部と、
     前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、
     前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、
     を有することを特徴とする学習装置。
  2.  データセットを入力として、前記学習部により学習されたパラメータを用いて、前記予測部により前記機械学習問題の解を予測させるテスト部を有することを特徴とする請求項1に記載の学習装置。
  3.  前記データセットに含まれる各観測ベクトルには、前記データセットに応じた個数の特徴の観測値が含まれ、
     前記第1の生成部は、
     各特徴のうちの一の特徴の観測値と、各特徴のうちの前記一の特徴以外の特徴の観測値とを入力とするニューラルネットワークに基づく正規分布からサンプリングすることで、前記特徴潜在ベクトルを生成する、ことを特徴とする請求項1又は2に記載の学習装置。
  4.  前記第2の生成部は、
     前記観測ベクトルと前記特徴潜在ベクトルの集合とを入力とするニューラルネットワークに基づく正規分布からサンプリングすることで、前記事例潜在ベクトルを生成する、ことを特徴とする請求項1乃至3の何れか一項に記載の学習装置。
  5.  前記予測部は、
     前記特徴潜在ベクトルと前記事例潜在ベクトルとを入力とするニューラルネットワークに基づく正規分布によって前記解を予測する、ことを特徴とする請求項1乃至4の何れか一項に記載の学習装置。
  6.  前記学習部は、
     前記機械学習問題が密度推定問題である場合、前記複数のデータセットの各々に対する対数尤度の下限のモンテカルロ近似を前記目的関数として、前記モデルのパラメータを学習する、ことを特徴とする請求項1乃至5の何れか一項に記載の学習装置。
  7.  特徴量空間が異なる複数のデータセットを入力する入力手順と、
     前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第1の生成手順と、
     前記データセットに含まれる観測ベクトル毎に、前記観測ベクトルの性質を表す事例潜在ベクトルを生成する第2の生成手順と、
     前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測手順と、
     前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習手順と、
     をコンピュータが実行することを特徴とする学習方法。
  8.  コンピュータを、請求項1乃至6の何れか一項に記載の学習装置における各部として機能させるためのプログラム。
PCT/JP2019/046820 2019-11-29 2019-11-29 学習装置、学習方法及びプログラム WO2021106202A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/046820 WO2021106202A1 (ja) 2019-11-29 2019-11-29 学習装置、学習方法及びプログラム
JP2021561114A JP7420148B2 (ja) 2019-11-29 2019-11-29 学習装置、学習方法及びプログラム
US17/780,577 US20230016231A1 (en) 2019-11-29 2019-11-29 Learning apparatus, learning method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/046820 WO2021106202A1 (ja) 2019-11-29 2019-11-29 学習装置、学習方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2021106202A1 true WO2021106202A1 (ja) 2021-06-03

Family

ID=76129417

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/046820 WO2021106202A1 (ja) 2019-11-29 2019-11-29 学習装置、学習方法及びプログラム

Country Status (3)

Country Link
US (1) US20230016231A1 (ja)
JP (1) JP7420148B2 (ja)
WO (1) WO2021106202A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180151259A1 (en) 2008-10-31 2018-05-31 Fundació Institut Guttmann Method and system for safely guiding interventions in procedures the substrate of which is the neuronal plasticity
JP2015026218A (ja) 2013-07-25 2015-02-05 日本電信電話株式会社 異常事例検出装置、方法、プログラム、及び記録媒体
WO2019155065A1 (en) 2018-02-09 2019-08-15 Deepmind Technologies Limited Neural network systems implementing conditional neural processes for efficient learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAEDE HAYASHI , GUJI IWATA , TADAHIRO TANIGUCHI: "Clustering by Deep Mixture Models", PROCEEDINGS OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE NATIONAL CONVENTION, 30 July 2018 (2018-07-30), pages 1 - 3, XP055830446, DOI: 10.11517/pjsai.JSAI2018.0_4A104 *

Also Published As

Publication number Publication date
JPWO2021106202A1 (ja) 2021-06-03
JP7420148B2 (ja) 2024-01-23
US20230016231A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
EP2991003B1 (en) Method and apparatus for classification
US11308418B2 (en) Automatic selection of variables for a machine-learning model
JP6334431B2 (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
US20210151128A1 (en) Learning Method, Mixing Ratio Prediction Method, and Prediction Device
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
EP2546759A1 (en) Generation of recommendation values
US11410065B2 (en) Storage medium, model output method, and model output device
Shi et al. A vector representation of DNA sequences using locality sensitive hashing
WO2021106202A1 (ja) 学習装置、学習方法及びプログラム
CN115936802A (zh) 基于用户画像和序列建模的个性化营销方法、装置、设备和存储介质
WO2021250751A1 (ja) 学習方法、学習装置及びプログラム
CN114742645A (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
US20200381078A1 (en) Structure search apparatus, method, and recording medium
JP7468681B2 (ja) 学習方法、学習装置、及びプログラム
JP7465497B2 (ja) 学習装置、学習方法及びプログラム
WO2024042707A1 (ja) メタ学習方法、メタ学習装置及びプログラム
WO2023112099A1 (ja) 選択方法、選択装置、及びプログラム
JP7439923B2 (ja) 学習方法、学習装置及びプログラム
JP6332598B2 (ja) 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
KR102565149B1 (ko) 문서의 요약문 제공 장치 및 방법
WO2022059190A1 (ja) 学習方法、クラスタリング方法、学習装置、クラスタリング装置及びプログラム
WO2021250754A1 (ja) 学習装置、学習方法及びプログラム
WO2024084622A1 (ja) 軌跡データ予測装置、軌跡データ予測方法及びプログラム
JP6837953B2 (ja) パラメータ推定装置、パラメータ推定方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19953967

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021561114

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19953967

Country of ref document: EP

Kind code of ref document: A1