WO2023166688A1 - Machine learning program, information processing device, and machine learning method - Google Patents

Machine learning program, information processing device, and machine learning method Download PDF

Info

Publication number
WO2023166688A1
WO2023166688A1 PCT/JP2022/009300 JP2022009300W WO2023166688A1 WO 2023166688 A1 WO2023166688 A1 WO 2023166688A1 JP 2022009300 W JP2022009300 W JP 2022009300W WO 2023166688 A1 WO2023166688 A1 WO 2023166688A1
Authority
WO
WIPO (PCT)
Prior art keywords
distributions
probability
parameters
machine learning
autoencoder
Prior art date
Application number
PCT/JP2022/009300
Other languages
French (fr)
Japanese (ja)
Inventor
正之 廣本
章 中川
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/009300 priority Critical patent/WO2023166688A1/en
Publication of WO2023166688A1 publication Critical patent/WO2023166688A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a machine learning program, an information processing device, and a machine learning method.
  • Representation learning is a machine learning technique that acquires low-dimensional latent representations that represent the features of input data.
  • Fig. 1 is a block diagram explaining expression learning.
  • the goal is to obtain a low-dimensional latent expression 601 that accurately expresses the properties of input data.
  • Fig. 2 is a diagram explaining expression learning using a generative model.
  • the data generation process is modeled, and an intermediate latent representation 601 is obtained by learning a set of the encoder 6a and decoder 6b.
  • the encoder 6a and decoder 6b perform learning so that the error between the input and the output (in other words, the restoration error 602) becomes small.
  • Fig. 3 is a diagram explaining the generative model deep learning technology.
  • Generative model-based deep learning technology makes it possible to acquire low-dimensional latent representations while preserving the features of the input data x.
  • encoder 61 (f ⁇ ), decoder 62 (g ⁇ ), and probability distribution p ⁇ of latent variable z are learned.
  • FIG. 4 is a diagram explaining an example of using a complex distribution model in the generative model deep learning technology shown in FIG.
  • FIG. 5 is a diagram illustrating an example of using a simple distribution model in the generative model deep learning technique shown in FIG.
  • the latent variable z is assumed to follow a single prior distribution p ⁇ . Then, when the input data has multiple different contexts, a complicated distribution shape is expressed.
  • Context may represent data types, labels, categories, clusters, and groups.
  • the distribution model for image classification of dogs (see symbol A1 in FIG. 4 and symbol B1 in FIG. 5) and cats (see symbol A2 in FIG. 4 and symbol B2 in FIG. 5) is , and the type of image (in other words, the attached label) can be regarded as the context.
  • Data belonging to respective contexts such as dog and cat have different properties.
  • the complexity of the distribution model used in machine learning and the accuracy of inference results from machine learning may decrease, and the expressiveness of expression learning may decrease.
  • One aspect is to improve the power of expression in expression learning.
  • the machine learning program calculates the probability that each of the plurality of latent variables belongs to which of the plurality of distributions when the input data is encoded by the autoencoder, and the plurality of distributions and the calculation generating probability distributions for each of the plurality of latent variables based on the obtained probabilities, and coded information of the plurality of distributions and coded information of the plurality of latent variables based on the generated probability distributions;
  • a computer is caused to execute a process of optimizing the learning parameters so as to reduce the restoration error by the autoencoder.
  • FIG. 4 is a block diagram for explaining expression learning;
  • FIG. 4 is a diagram for explaining representation learning by a generative model;
  • FIG. 2 is a diagram for explaining generative model deep learning technology;
  • FIG. 4 is a diagram illustrating an example of using a complex distribution model in the generative model deep learning technique shown in FIG. 3;
  • FIG. 4 is a diagram illustrating an example of using a simple distribution model in the generative model deep learning technique shown in FIG. 3; It is a figure explaining the distribution model used by the machine learning in embodiment.
  • It is a block diagram explaining machine learning in an embodiment.
  • 2 is a block diagram schematically showing a hardware configuration example of an information processing apparatus according to an embodiment;
  • FIG. 9 is a block diagram schematically showing a software configuration example of the information processing apparatus shown in FIG. 8;
  • FIG. It is a flow chart explaining machine learning in an embodiment. It is a block diagram explaining machine learning in a modification.
  • FIG. 6 is a diagram illustrating a distribution model used in machine learning in the embodiment.
  • Machine learning in the embodiment introduces a prior distribution p ⁇ (z
  • FIG. 7 is a block diagram explaining machine learning in the embodiment.
  • the information processing device 1 functions as a context classifier 2, an encoder 3, an adder 4 and a decoder 5.
  • Encoder 3 (f ⁇ (x)) outputs data y to adder 4 and context classifier 2 when input data x is input.
  • the context classifier 2 (softmax(h ⁇ (y))) outputs the coded information amount H(c
  • the coded information amount of the context is represented by the following equation.
  • the adder 4 adds noise ⁇ N(0,( ⁇ /2)I) to the data y output from the encoder 3, and outputs the latent variable z.
  • the coded information amount D KL (p(z
  • a decoder 5 (g ⁇ ( z)) generates output data to output
  • the restoration error is calculated based on the input data and the output data. is calculated.
  • the information processing device 1 learns the encoder 3 (f ⁇ ), the decoder 5 (g ⁇ ), the context classifier 2 (h ⁇ ), and the prior distribution p ⁇ for each context by optimizing the following two formulas. By reducing the restoration error, the information amount of L ⁇ , ⁇ , ⁇ (x) is reduced.
  • FIG. 8 is a block diagram schematically showing a hardware configuration example of the information processing device 1 according to the embodiment.
  • the information processing apparatus 1 includes a CPU 11, a memory section 12, a display control section 13, a storage device 14, an input interface (IF) 15, an external recording medium processing section 16 and a communication IF 17.
  • the memory unit 12 is an example of a storage unit, and is exemplified by Read Only Memory (ROM) and Random Access Memory (RAM).
  • ROM Read Only Memory
  • RAM Random Access Memory
  • a program such as a Basic Input/Output System (BIOS) may be written in the ROM of the memory unit 12 .
  • BIOS Basic Input/Output System
  • the software programs in the memory unit 12 may be appropriately read into the CPU 11 and executed.
  • the RAM of the memory unit 12 may be used as a temporary recording memory or a working memory.
  • the display control unit 13 is connected to the display device 131 and controls the display device 131 .
  • a display device 131 is a liquid crystal display, an organic light-emitting diode (OLED) display, a cathode ray tube (CRT), an electronic paper display, or the like, and displays various information for an operator or the like.
  • the display device 131 may be combined with an input device, such as a touch panel.
  • the storage device 14 is a storage device with high IO performance, and may be, for example, Dynamic Random Access Memory (DRAM), SSD, Storage Class Memory (SCM), or HDD.
  • DRAM Dynamic Random Access Memory
  • SCM Storage Class Memory
  • the input IF 15 may be connected to input devices such as the mouse 151 and keyboard 152 and may control the input devices such as the mouse 151 and keyboard 152 .
  • the mouse 151 and keyboard 152 are examples of input devices, and the operator performs various input operations via these input devices.
  • the external recording medium processing unit 16 is configured so that the recording medium 160 can be attached.
  • the external recording medium processing unit 16 is configured to be able to read information recorded on the recording medium 160 when the recording medium 160 is attached.
  • the recording medium 160 has portability.
  • the recording medium 160 is a flexible disk, optical disk, magnetic disk, magneto-optical disk, or semiconductor memory.
  • the communication IF 17 is an interface for enabling communication with external devices.
  • the CPU 11 is an example of a processor, and is a processing device that performs various controls and calculations.
  • the CPU 11 implements various functions by executing an operating system (OS) and programs read into the memory unit 12 .
  • OS operating system
  • the CPU 11 may be a multiprocessor including a plurality of CPUs, a multicore processor having a plurality of CPU cores, or a configuration having a plurality of multicore processors.
  • a device for controlling the operation of the entire information processing device 1 is not limited to the CPU 11, and may be, for example, any one of MPU, DSP, ASIC, PLD, and FPGA. Also, the device for controlling the operation of the entire information processing device 1 may be a combination of two or more of CPU, MPU, DSP, ASIC, PLD and FPGA.
  • MPU is an abbreviation for Micro Processing Unit
  • DSP is an abbreviation for Digital Signal Processor
  • ASIC is an abbreviation for Application Specific Integrated Circuit
  • PLD is an abbreviation for Programmable Logic Device
  • FPGA is an abbreviation for Field Programmable Gate Array.
  • FIG. 9 is a block diagram schematically showing a software configuration example of the information processing device 1 shown in FIG.
  • the CPU 11 of the information processing apparatus 1 shown in FIG. 8 functions as a probability calculation unit 111, a distribution generation unit 112, and a learning processing unit 113.
  • the probability calculation unit 111 calculates the probability that each of the plurality of latent variables when the input data is encoded by the autoencoder belongs to which of the plurality of distributions (in other words, the context).
  • the autoencoder may be a combination of an encoder 3 and a decoder 5 that transform between the space to which the input and output data belong and the space to which the latent data belongs.
  • the distribution generator 112 generates probability distributions for each of the multiple latent variables based on the multiple distributions and the probabilities calculated by the probability calculator 111 .
  • a probability distribution may be the sum of multiple distributions, each weighted by a probability.
  • the learning processing unit 113 calculates the coded information amount of a plurality of distributions (in other words, context), the coded information amount of the latent variable, and the autoencoder.
  • the learning parameters are optimized so that the restoration error due to is reduced.
  • the encoded information content of multiple distributions may be learned by the context classifier 2 for classifying the context of the input data.
  • the learning parameters may be encoder 3 parameters, decoder 5 parameters, context classifier 2 parameters and/or prior distribution parameters.
  • Input data x is converted into latent variable y by encoder 3 (step S1).
  • the latent variable z is output data by the decoder 5 (step S3).
  • Loss function L ⁇ , ⁇ , ⁇ , ⁇ (x) are calculated (step S5).
  • the parameters ⁇ , ⁇ , ⁇ , ⁇ are updated so that the loss function L ⁇ , ⁇ , ⁇ , ⁇ (x) becomes smaller (step S6).
  • step S7 It is determined whether learning has converged.
  • step S7 If learning has not converged (see NO route in step S7), the process returns to step S1.
  • steps S8 to S12 below may be executed in parallel with the processing in steps S2 to S4 described above.
  • step S8 the probability p(c k
  • y) of the context is calculated from the probability p(c k
  • c k ) for each context is weighted by the probability p(c k
  • the weighted context probabilities are superimposed to generate a prior distribution q(z
  • step S12 Based on the latent variable z obtained in step S2 and the prior distribution q(z
  • FIG. 11 is a block diagram illustrating machine learning in a modification.
  • the information processing device 1a in the modification executes supervised class classification processing.
  • the information processing device 1a functions as an encoder 3a (f ⁇ (x)), an encoder 3b (f ⁇ (x)), and a classifier 3c.
  • the encoder 3a converts the input data x into a latent variable y and inputs it to the classifier 3c.
  • the encoder 3b converts the training data 141 into learning data and inputs it to the classifier 3c.
  • the class classifier 3c outputs a class estimation result based on the latent variable y from the encoder 3a and the learning data from the encoder 3b.
  • input data is converted into an embedded representation by the encoder 3b that has learned in the same manner as in the above-described embodiment, and the class classifier 3c learns from the embedded representation. Then, the class of unknown data is estimated by the learned class classifier 3c.
  • the accuracy of the class estimation result is improved compared to the case of directly learning the class classifier 3c for the input.
  • the probability calculation unit 111 calculates the probability to which of the plurality of distributions each of the plurality of latent variables belongs when the input data is encoded by the autoencoder.
  • the distribution generation unit 112 generates probability distributions for each of the multiple latent variables based on the multiple distributions and the probabilities calculated by the probability calculation unit 111 .
  • the learning processing unit 113 reduces the coded information amount of the plurality of distributions, the coded information amount of the latent variables, and the restoration error by the autoencoder. , the learning parameters are optimized.
  • Latent representations of images can be obtained by unsupervised learning on the MNIST dataset. We can perform supervised learning of linear classifiers using latent representations and evaluate their accuracy. It can improve the accuracy of inference results compared to existing methods (eg GMM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

This machine learning program causes a computer to execute processing for: calculating the probability (p(c1), p(c2)) that each of a plurality of latent variables (z) when input data has been encoded by a self encoder belongs to the specific distribution among a plurality of distributions (pω(z|ck)); respectively generating probability distributions (q(z)) for the plurality of latent variables (z) on the basis of the plurality of distributions (pω(z|ck)) and the calculated probability (p(c1), p(c2)); and optimizing training parameters on the basis of the generated probability distributions (q(z)) such that encoded information of the plurality of distributions (pω(z|ck)), encoded information of the plurality of latent variables (z), and restoration errors caused by the self encoder are reduced.

Description

機械学習プログラム,情報処理装置及び機械学習方法Machine learning program, information processing device and machine learning method
 本発明は、機械学習プログラム,情報処理装置及び機械学習方法に関する。 The present invention relates to a machine learning program, an information processing device, and a machine learning method.
 入力データの特徴を表す低次元の潜在表現を獲得する機械学習の技術として、表現学習がある。 Representation learning is a machine learning technique that acquires low-dimensional latent representations that represent the features of input data.
 図1は、表現学習を説明するブロック図である。 Fig. 1 is a block diagram explaining expression learning.
 表現学習では、画像や音声,テキスト等がエンコーダ6に入力されて、得られた潜在表現601から識別器7等を通じてタスク毎の出力が取得される。表現学習によって良い潜在表現601が得られれば、様々なArtificial Intelligence(AI)タスクが高精度に実現可能となる。 In expression learning, images, voices, texts, etc. are input to the encoder 6, and an output for each task is obtained from the obtained latent expression 601 through the classifier 7 and the like. If a good latent representation 601 is obtained by representation learning, various artificial intelligence (AI) tasks can be realized with high accuracy.
 そこで、表現学習では、入力データの性質を的確に表現した低次元の潜在表現601を取得することが目標とされる。 Therefore, in expression learning, the goal is to obtain a low-dimensional latent expression 601 that accurately expresses the properties of input data.
 図2は、生成モデルによる表現学習を説明する図である。 Fig. 2 is a diagram explaining expression learning using a generative model.
 図2においては、データの生成過程がモデル化されており、エンコーダ6aとデコーダ6bとの組が学習されることで中間の潜在表現601が取得される。エンコーダ6aとデコーダ6bは、入力と出力との誤差(別言すれば、復元誤差602)が小さくなるように学習を行う。 In FIG. 2, the data generation process is modeled, and an intermediate latent representation 601 is obtained by learning a set of the encoder 6a and decoder 6b. The encoder 6a and decoder 6b perform learning so that the error between the input and the output (in other words, the restoration error 602) becomes small.
 図3は、生成モデル型ディープラーニング技術を説明する図である。 Fig. 3 is a diagram explaining the generative model deep learning technology.
 生成モデル型ディープラーニング技術では、入力データxの特徴を保ちつつ低次元な潜在表現を獲得可能となる。次式の最適化により、エンコーダ61(fφ),デコーダ62(gθ),および潜在変数zの確率分布pψが学習される。
Figure JPOXMLDOC01-appb-M000001
Generative model-based deep learning technology makes it possible to acquire low-dimensional latent representations while preserving the features of the input data x. By optimizing the following equation, encoder 61 (f φ ), decoder 62 (g θ ), and probability distribution p ψ of latent variable z are learned.
Figure JPOXMLDOC01-appb-M000001
 復元誤差
Figure JPOXMLDOC01-appb-M000002
と同時に符号化情報量R=-log(pψ(Z))を削減する「レート歪み最適化」が行われることで、効率の良い表現が得られる。なお、エンコーダ61とデコーダ62との間では、ノイズε~N(0, (β/2)Iが付加される。
Restoration error
Figure JPOXMLDOC01-appb-M000002
At the same time, "rate-distortion optimization" that reduces the encoded information amount R=-log(p ψ (Z)) is performed to obtain an efficient representation. Note that noise ε˜N(0, (β/2)I is added between the encoder 61 and the decoder 62 .
国際公開第2021/059348号WO2021/059348
 図4は、図3に示した生成モデル型ディープラーニング技術において複雑な分布モデルを用いた例を説明する図である。図5は、図3に示した生成モデル型ディープラーニング技術において簡単な分布モデルを用いた例を説明する図である。 FIG. 4 is a diagram explaining an example of using a complex distribution model in the generative model deep learning technology shown in FIG. FIG. 5 is a diagram illustrating an example of using a simple distribution model in the generative model deep learning technique shown in FIG.
 図3に示した生成モデル型ディープラーニング技術では、潜在変数zは単一の事前分布pψに従うと仮定される。そして、入力データが異なる複数のコンテキストを持つ場合には、複雑な分布形状が表現される。 In the generative model deep learning technique shown in FIG. 3, the latent variable z is assumed to follow a single prior distribution p ψ . Then, when the input data has multiple different contexts, a complicated distribution shape is expressed.
 ここで、コンテキストとは、「入力データが置かれている状況」を示す。コンテキストは、データの種類やラベル,カテゴリ,クラスタ,グループを表わすことがある。 Here, the context indicates "the situation in which the input data is placed". Context may represent data types, labels, categories, clusters, and groups.
 図4及び図5に示す例では、イヌ(図4の符号A1,図5の符号B1を参照)とネコ(図4の符号A2,図5の符号B2を参照)の画像分類における分布モデルが示されており、画像の種類(別言すれば、付与されているラベル)がコンテキストとみなせる。イヌやネコ等のそれぞれのコンテキストに属するデータは、異なる性質を有する。 In the examples shown in FIGS. 4 and 5, the distribution model for image classification of dogs (see symbol A1 in FIG. 4 and symbol B1 in FIG. 5) and cats (see symbol A2 in FIG. 4 and symbol B2 in FIG. 5) is , and the type of image (in other words, the attached label) can be regarded as the context. Data belonging to respective contexts such as dog and cat have different properties.
 図4に示す例では、複雑な分布モデルpψ(Z)が使用されているため、学習パラメータ数が増大してしまう。一方、図5に示す例では、簡単な分布モデルpψ(Z)が使用されているため、画像分類の精度が低下してしまう。 In the example shown in FIG. 4, since a complicated distribution model p ψ (Z) is used, the number of learning parameters increases. On the other hand, in the example shown in FIG. 5, a simple distribution model p ψ (Z) is used, which reduces the accuracy of image classification.
 このように、上述した生成モデル型ディープラーニング技術においては機械学習において使用する分布モデルの複雑化や機械学習による推論結果の精度低下が発生し、表現学習における表現力が低下するおそれがある。 In this way, in the generative model deep learning technology described above, the complexity of the distribution model used in machine learning and the accuracy of inference results from machine learning may decrease, and the expressiveness of expression learning may decrease.
 1つの側面では、表現学習における表現力を向上させることを目的とする。 One aspect is to improve the power of expression in expression learning.
 1つの側面では、機械学習プログラムは、自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布のいずれに属するかの確率を算出し、前記複数の分布と算出した前記確率とに基づいて、前記複数の潜在変数それぞれの確率分布を生成し、生成した前記確率分布に基づき、前記複数の分布の符号化情報と、前記複数の潜在変数の符号化情報と、前記自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行なう、処理をコンピュータに実行させる。 In one aspect, the machine learning program calculates the probability that each of the plurality of latent variables belongs to which of the plurality of distributions when the input data is encoded by the autoencoder, and the plurality of distributions and the calculation generating probability distributions for each of the plurality of latent variables based on the obtained probabilities, and coded information of the plurality of distributions and coded information of the plurality of latent variables based on the generated probability distributions; A computer is caused to execute a process of optimizing the learning parameters so as to reduce the restoration error by the autoencoder.
 1つの側面では、表現学習における表現力を向上させることができる。 In one aspect, it is possible to improve the power of expression in expression learning.
表現学習を説明するブロック図である。FIG. 4 is a block diagram for explaining expression learning; 生成モデルによる表現学習を説明する図である。FIG. 4 is a diagram for explaining representation learning by a generative model; 生成モデル型ディープラーニング技術を説明する図である。FIG. 2 is a diagram for explaining generative model deep learning technology; 図3に示した生成モデル型ディープラーニング技術において複雑な分布モデルを用いた例を説明する図である。FIG. 4 is a diagram illustrating an example of using a complex distribution model in the generative model deep learning technique shown in FIG. 3; 図3に示した生成モデル型ディープラーニング技術において簡単な分布モデルを用いた例を説明する図である。FIG. 4 is a diagram illustrating an example of using a simple distribution model in the generative model deep learning technique shown in FIG. 3; 実施形態における機械学習で使用する分布モデルを説明する図である。It is a figure explaining the distribution model used by the machine learning in embodiment. 実施形態における機械学習を説明するブロック図である。It is a block diagram explaining machine learning in an embodiment. 実施形態における情報処理装置のハードウェア構成例を模式的に示すブロック図である。2 is a block diagram schematically showing a hardware configuration example of an information processing apparatus according to an embodiment; FIG. 図8に示した情報処理装置のソフトウェア構成例を模式的に示すブロック図である。9 is a block diagram schematically showing a software configuration example of the information processing apparatus shown in FIG. 8; FIG. 実施形態における機械学習を説明するフローチャートである。It is a flow chart explaining machine learning in an embodiment. 変形例における機械学習を説明するブロック図である。It is a block diagram explaining machine learning in a modification.
 〔A〕実施形態
 以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
[A] Embodiment An embodiment will be described below with reference to the drawings. However, the embodiments shown below are merely examples, and are not intended to exclude the application of various modifications and techniques not explicitly described in the embodiments. In other words, the present embodiment can be modified in various ways without departing from the spirit of the embodiment. Also, each drawing does not mean that it has only the constituent elements shown in the drawing, but can include other functions and the like.
 〔A-1〕構成例
 図6は、実施形態における機械学習で使用する分布モデルを説明する図である。
[A-1] Configuration Example FIG. 6 is a diagram illustrating a distribution model used in machine learning in the embodiment.
 実施形態における機械学習では、コンテキスト毎の事前分布pω(z|ck)(kは自然数)が導入される。また、潜在変数の事前確率q(z)は、コンテキスト毎の事前分布pω(z|ck)を各コンテキストの確率p(ck)で重み付けした和で表現される。 Machine learning in the embodiment introduces a prior distribution p ω (z|c k ) (k is a natural number) for each context. Also, the prior probability q(z) of the latent variable is represented by the sum of the prior distribution p ω (z|c k ) for each context weighted by the probability p(c k ) of each context.
 図6に示す例では、イヌのコンテキスト#1(符号C1参照)の事前分布pω(z|c1)とコンテキスト#1の確率p(c1)との積と、ネコのコンテキスト#2(符号C2参照)の事前分布pω(z|c2)とコンテキスト#2の確率p(c2)との積とが算出される。そして、コンテキスト#1の積とコンテキスト#2の積との和が、事前確率q(z)= pω(z|c1)×p (c1)+ pω(z|c2)×p(c2)として算出される。 In the example shown in FIG. 6, the product of the prior distribution p ω (z|c 1 ) of the dog context #1 (see symbol C1) and the probability p(c 1 ) of the context #1 and the cat context #2 ( C2) prior distribution p ω (z|c 2 ) and the probability p(c 2 ) of context #2 are calculated. Then the sum of the product of context #1 and the product of context #2 is the prior probability q(z)=p ω (z|c 1 )×p (c 1 )+p ω (z|c 2 )×p (c 2 ).
 これにより、コンテキスト毎に適切な事前分布が獲得できる。そして、コンテキスト内の分布には単純なモデルが使用可能となり、学習パラメータ数の削減ができる。また、全体の分布は入力に応じて動的に変化するため、推論結果の精度向上ができる。 As a result, an appropriate prior distribution can be obtained for each context. Then, a simple model can be used for the distribution within the context, and the number of learning parameters can be reduced. In addition, since the overall distribution changes dynamically according to the input, it is possible to improve the accuracy of the inference results.
 図7は、実施形態における機械学習を説明するブロック図である。 FIG. 7 is a block diagram explaining machine learning in the embodiment.
 情報処理装置1は、コンテキスト分類器2,エンコーダ3,加算器4及びデコーダ5として機能する。 The information processing device 1 functions as a context classifier 2, an encoder 3, an adder 4 and a decoder 5.
 エンコーダ3(fφ(x))は、入力データxが入力されると、データyを加算器4及びコンテキスト分類器2へ出力する。 Encoder 3 (f φ (x)) outputs data y to adder 4 and context classifier 2 when input data x is input.
 コンテキスト分類器2(softmax(hψ(y)))は、データyが入力されると、符号D1に示すようにコンテキストの符号化情報量H(c|y)を出力すると共に、各コンテキストの確率{p(c1|y),p(c2|y),・・・,p(ck|y)}を出力される。コンテキストの符号化情報量は、次式によって表される。
Figure JPOXMLDOC01-appb-M000003
When the data y is input, the context classifier 2 (softmax(h ψ (y))) outputs the coded information amount H(c|y) of the context as indicated by symbol D1, and Probabilities {p(c 1 |y),p(c 2 |y),...,p(c k |y)} are output. The coded information amount of the context is represented by the following equation.
Figure JPOXMLDOC01-appb-M000003
 各コンテキストの確率{p(c1|y),p(c2|y),・・・,p(ck|y)}と符号D3に示すコンテキスト毎の事前分布pω(z|ck)とによって、符号D2に示すように各コンテキストの和が算出される。各コンテキストの和は、次の値となる。
Figure JPOXMLDOC01-appb-M000004
The probability of each context {p(c 1 |y), p(c 2 |y), ..., p(c k |y)} and the prior distribution p ω (z|c k ), the sum of each context is calculated as indicated by symbol D2. The sum of each context is the following value.
Figure JPOXMLDOC01-appb-M000004
 加算器4は、エンコーダ3から出力されたデータyに対して、ノイズε~N(0,(β/2)I)を付加して、潜在変数zを出力する。 The adder 4 adds noise ε~N(0,(β/2)I) to the data y output from the encoder 3, and outputs the latent variable z.
 符号D4に示すように、潜在変数zと各コンテキストの和に基づく事前確率q(z|y)とによって、潜在変数の符号化情報量DKL(p(z|x)||q(z|y))が算出される。 As indicated by D4, the coded information amount D KL (p(z|x)||q(z| y)) is calculated.
 デコーダ5(gθ(z))は、潜在変数の符号化情報量DKL(p(z|x)||q(z|y))に基づき、出力データ
Figure JPOXMLDOC01-appb-M000005
を出力する。
A decoder 5 (g θ ( z)) generates output data
Figure JPOXMLDOC01-appb-M000005
to output
 そして、符号D5に示すように、入力データと出力データとに基づき、復元誤差
Figure JPOXMLDOC01-appb-M000006
が算出される。
Then, as indicated by D5, the restoration error is calculated based on the input data and the output data.
Figure JPOXMLDOC01-appb-M000006
is calculated.
 情報処理装置1は、次の2つの数式の最適化により、エンコーダ3(fφ),デコーダ5(gθ)コンテキスト分類器2(hψ)及びコンテキスト毎の事前分布pωが学習される。復元誤差が小さくされることにより、Lθ,ψ,ω(x)の情報量が小さくなる。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
The information processing device 1 learns the encoder 3 (f φ ), the decoder 5 (g θ ), the context classifier 2 (h ψ ), and the prior distribution p ω for each context by optimizing the following two formulas. By reducing the restoration error, the information amount of L θ,ψ,ω (x) is reduced.
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 図8は、実施形態における情報処理装置1のハードウェア構成例を模式的に示すブロック図である。 FIG. 8 is a block diagram schematically showing a hardware configuration example of the information processing device 1 according to the embodiment.
 図8に示すように、情報処理装置1は、CPU11,メモリ部12,表示制御部13,記憶装置14,入力Interface(IF)15,外部記録媒体処理部16及び通信IF17を備える。 As shown in FIG. 8, the information processing apparatus 1 includes a CPU 11, a memory section 12, a display control section 13, a storage device 14, an input interface (IF) 15, an external recording medium processing section 16 and a communication IF 17.
 メモリ部12は、記憶部の一例であり、例示的に、Read Only Memory(ROM)及びRandom Access Memory(RAM)などである。メモリ部12のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれてよい。メモリ部12のソフトウェアプログラムは、CPU11に適宜に読み込まれて実行されてよい。また、メモリ部12のRAMは、一時記録メモリあるいはワーキングメモリとして利用されてよい。 The memory unit 12 is an example of a storage unit, and is exemplified by Read Only Memory (ROM) and Random Access Memory (RAM). A program such as a Basic Input/Output System (BIOS) may be written in the ROM of the memory unit 12 . The software programs in the memory unit 12 may be appropriately read into the CPU 11 and executed. Also, the RAM of the memory unit 12 may be used as a temporary recording memory or a working memory.
 表示制御部13は、表示装置131と接続され、表示装置131を制御する。表示装置131は、液晶ディスプレイやOrganic Light-Emitting Diode(OLED)ディスプレイ,Cathode Ray Tube(CRT),電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。表示装置131は、入力装置と組み合わされたものでもよく、例えば、タッチパネルでもよい。 The display control unit 13 is connected to the display device 131 and controls the display device 131 . A display device 131 is a liquid crystal display, an organic light-emitting diode (OLED) display, a cathode ray tube (CRT), an electronic paper display, or the like, and displays various information for an operator or the like. The display device 131 may be combined with an input device, such as a touch panel.
 記憶装置14は、高IO性能の記憶装置であり、例えば、Dynamic Random Access Memory(DRAM)やSSD,Storage Class Memory(SCM),HDDが用いられてよい。 The storage device 14 is a storage device with high IO performance, and may be, for example, Dynamic Random Access Memory (DRAM), SSD, Storage Class Memory (SCM), or HDD.
 入力IF15は、マウス151やキーボード152等の入力装置と接続され、マウス151やキーボード152等の入力装置を制御してよい。マウス151やキーボード152は、入力装置の一例であり、これらの入力装置を介して、オペレータが各種の入力操作を行う。 The input IF 15 may be connected to input devices such as the mouse 151 and keyboard 152 and may control the input devices such as the mouse 151 and keyboard 152 . The mouse 151 and keyboard 152 are examples of input devices, and the operator performs various input operations via these input devices.
 外部記録媒体処理部16は、記録媒体160が装着可能に構成される。外部記録媒体処理部16は、記録媒体160が装着された状態において、記録媒体160に記録されている情報を読み取り可能に構成される。本例では、記録媒体160は、可搬性を有する。例えば、記録媒体160は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。 The external recording medium processing unit 16 is configured so that the recording medium 160 can be attached. The external recording medium processing unit 16 is configured to be able to read information recorded on the recording medium 160 when the recording medium 160 is attached. In this example, the recording medium 160 has portability. For example, the recording medium 160 is a flexible disk, optical disk, magnetic disk, magneto-optical disk, or semiconductor memory.
 通信IF17は、外部装置との通信を可能にするためのインタフェースである。 The communication IF 17 is an interface for enabling communication with external devices.
 CPU11は、プロセッサの一例であり、種々の制御や演算を行う処理装置である。CPU11は、メモリ部12に読み込まれたOperating System(OS)やプログラムを実行することにより、種々の機能を実現する。なお、CPU11は、複数のCPUを含むマルチプロセッサであってもよいし、複数のCPUコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。 The CPU 11 is an example of a processor, and is a processing device that performs various controls and calculations. The CPU 11 implements various functions by executing an operating system (OS) and programs read into the memory unit 12 . Note that the CPU 11 may be a multiprocessor including a plurality of CPUs, a multicore processor having a plurality of CPU cores, or a configuration having a plurality of multicore processors.
 情報処理装置1全体の動作を制御するための装置は、CPU11に限定されず、例えば、MPUやDSP,ASIC,PLD,FPGAのいずれか1つであってもよい。また、情報処理装置1全体の動作を制御するための装置は、CPU,MPU,DSP,ASIC,PLD及びFPGAのうちの2種類以上の組み合わせであってもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称である。また、PLDはProgrammable Logic Deviceの略称であり、FPGAはField Programmable Gate Arrayの略称である。 A device for controlling the operation of the entire information processing device 1 is not limited to the CPU 11, and may be, for example, any one of MPU, DSP, ASIC, PLD, and FPGA. Also, the device for controlling the operation of the entire information processing device 1 may be a combination of two or more of CPU, MPU, DSP, ASIC, PLD and FPGA. Note that MPU is an abbreviation for Micro Processing Unit, DSP is an abbreviation for Digital Signal Processor, and ASIC is an abbreviation for Application Specific Integrated Circuit. PLD is an abbreviation for Programmable Logic Device, and FPGA is an abbreviation for Field Programmable Gate Array.
 図9は、図2に示した情報処理装置1のソフトウェア構成例を模式的に示すブロック図である。 FIG. 9 is a block diagram schematically showing a software configuration example of the information processing device 1 shown in FIG.
 図8に示した情報処理装置1のCPU11は、確率算出部111,分布生成部112及び学習処理部113として機能する。 The CPU 11 of the information processing apparatus 1 shown in FIG. 8 functions as a probability calculation unit 111, a distribution generation unit 112, and a learning processing unit 113.
 確率算出部111は、自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布(別言すれば、コンテキスト)のいずれに属するかの確率を算出する。 The probability calculation unit 111 calculates the probability that each of the plurality of latent variables when the input data is encoded by the autoencoder belongs to which of the plurality of distributions (in other words, the context).
 自己符号化器は、入力データ及び出力データが属する空間と潜在データが属する空間とを相互に変換するエンコーダ3とデコーダ5との組み合わせであってよい。 The autoencoder may be a combination of an encoder 3 and a decoder 5 that transform between the space to which the input and output data belong and the space to which the latent data belongs.
 分布生成部112は、複数の分布と確率算出部111によって算出された確率とに基づいて、複数の潜在変数それぞれの確率分布を生成する。 The distribution generator 112 generates probability distributions for each of the multiple latent variables based on the multiple distributions and the probabilities calculated by the probability calculator 111 .
 確率分布は、確率によってそれぞれ重み付けされた複数の分布の和であってよい。 A probability distribution may be the sum of multiple distributions, each weighted by a probability.
 学習処理部113は、分布生成部112によって生成された確率分布に基づき、複数の分布(別言すれば、コンテキスト)の符号化情報量と、潜在変数の符号化情報量と、自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行う。 Based on the probability distribution generated by the distribution generation unit 112, the learning processing unit 113 calculates the coded information amount of a plurality of distributions (in other words, context), the coded information amount of the latent variable, and the autoencoder. The learning parameters are optimized so that the restoration error due to is reduced.
 複数の分布の符号化情報量は、入力データのコンテキストを分類するためのコンテキスト分類器2によって学習されてよい。学習パラメータは、エンコーダ3のパラメータ,デコーダ5のパラメータ,コンテキスト分類器2のパラメータ及び事前分布のパラメータのうち、少なくともいずれかであってよい。 The encoded information content of multiple distributions may be learned by the context classifier 2 for classifying the context of the input data. The learning parameters may be encoder 3 parameters, decoder 5 parameters, context classifier 2 parameters and/or prior distribution parameters.
 〔A-2〕動作例
 実施形態における機械学習を、図10に示すフローチャート(ステップS1~S12に従って説明する。
[A-2] Operation Example Machine learning in the embodiment will be described according to the flowchart (steps S1 to S12) shown in FIG.
 入力データxがエンコーダ3により潜在変数yに変換される(ステップS1)。 Input data x is converted into latent variable y by encoder 3 (step S1).
 ノイズεが加算器4による潜在変数yに印加されて潜在変数z=y+zが得られる(ステップS2)。 The noise ε is applied to the latent variable y by the adder 4 to obtain the latent variable z=y+z (step S2).
 潜在変数zがデコーダ5により出力データ
Figure JPOXMLDOC01-appb-M000009
に変換される(ステップS3)。
The latent variable z is output data by the decoder 5
Figure JPOXMLDOC01-appb-M000009
(step S3).
 復元誤差
Figure JPOXMLDOC01-appb-M000010
が算出される(ステップS4)。
Restoration error
Figure JPOXMLDOC01-appb-M000010
is calculated (step S4).
 ステップS4で算出した復元誤差と、ステップS9で後述するように算出されるコンテキストの符号化情報量と、ステップS12で後述するように算出される潜在変数の符号化情報量とに基づき、損失関数Lθ,φ,ψ,ω(x)が算出される(ステップS5)。 Loss function L θ, φ, ψ, ω (x) are calculated (step S5).
 損失関数Lθ,φ,ψ,ω(x)が小さくなるように、パラメータθ,φ,ψ,ωが更新される(ステップS6)。 The parameters θ , φ, ψ, ω are updated so that the loss function L θ , φ, ψ, ω (x) becomes smaller (step S6).
 学習が収束したかが判定される(ステップS7)。 It is determined whether learning has converged (step S7).
 学習が収束していない場合には(ステップS7のNOルート参照)、処理はステップS1へ戻る。 If learning has not converged (see NO route in step S7), the process returns to step S1.
 一方、学習が収束した場合には(ステップS7のYESルート参照)、機械学習は終了する。 On the other hand, when learning converges (see YES route in step S7), machine learning ends.
 以下のステップS8~S12における処理は、上述したステップS2~S4の処理と並行して実行されてよい。 The processing in steps S8 to S12 below may be executed in parallel with the processing in steps S2 to S4 described above.
 ステップS1において潜在変数yがされると、コンテキスト分類器2により潜在変数yが属するコンテキストの確率p(ck|y)が算出される(ステップS8)。 When the latent variable y is determined in step S1, the probability p(c k |y) of the context to which the latent variable y belongs is calculated by the context classifier 2 (step S8).
 コンテキストの確率p(ck|y)からコンテキストの符号化情報量H(c|y)が算出される(ステップS9)。そして、コンテキストの符号化情報量H(c|y)は、ステップS5における処理に用いられる。 The coded information amount H(c|y) of the context is calculated from the probability p(c k |y) of the context (step S9). Then, the coded information amount H(c|y) of the context is used for the processing in step S5.
 また、コンテキスト毎の事前分布pω(z|ck)がコンテキストの確率p(ck|y)で重み付けされる(ステップS10)。 Also, the prior distribution pω(z|c k ) for each context is weighted by the probability p(c k |y) of the context (step S10).
 重み付けされたコンテキストの確率が重ね合わされて事前分布q(z|y)が生成される(ステップS11)。 The weighted context probabilities are superimposed to generate a prior distribution q(z|y) (step S11).
 ステップS2で得られた潜在変数zとステップS11で生成された事前分布q(z|y)とに基づき、潜在変数の符号化情報量DKLが算出される(ステップS12)。そして、潜在変数の符号化情報量DKLは、ステップS5における処理に用いられる。 Based on the latent variable z obtained in step S2 and the prior distribution q(z|y) generated in step S11, the coded information amount DKL of the latent variable is calculated (step S12). Then, the coded information amount DKL of the latent variable is used for the processing in step S5.
 〔B〕変形例
 図11は、変形例における機械学習を説明するブロック図である。
[B] Modification FIG. 11 is a block diagram illustrating machine learning in a modification.
 変形例における情報処理装置1aは、教師有りクラス分類処理を実行する。情報処理装置1aは、エンコーダ3a(fφ(x)),エンコーダ3b(fφ(x))及びクラス分類器3cとして機能する。 The information processing device 1a in the modification executes supervised class classification processing. The information processing device 1a functions as an encoder 3a (f φ (x)), an encoder 3b (f φ (x)), and a classifier 3c.
 エンコーダ3aは、入力データxを潜在変数yに変換して、クラス分類器3cへ入力する。 The encoder 3a converts the input data x into a latent variable y and inputs it to the classifier 3c.
 エンコーダ3bは、訓練データ141を学習データに変換して、クラス分類器3cへ入力する。 The encoder 3b converts the training data 141 into learning data and inputs it to the classifier 3c.
 クラス分類器3cは、エンコーダ3aからの潜在変数yとエンコーダ3bからの学習データとに基づき、クラス推定結果を出力する。 The class classifier 3c outputs a class estimation result based on the latent variable y from the encoder 3a and the learning data from the encoder 3b.
 このように、変形例においては、上述した実施形態と同様に学習したエンコーダ3bによって入力データが埋め込み表現に変換され、埋め込み表現によってクラス分類器3cが学習される。そして、学習したクラス分類器3cによって、未知データのクラスが推定される。 Thus, in the modified example, input data is converted into an embedded representation by the encoder 3b that has learned in the same manner as in the above-described embodiment, and the class classifier 3c learns from the embedded representation. Then, the class of unknown data is estimated by the learned class classifier 3c.
 これにより、入力に対するクラス分類器3cを直接学習する場合よりもクラス推定結果の精度が向上する。 As a result, the accuracy of the class estimation result is improved compared to the case of directly learning the class classifier 3c for the input.
 〔C〕効果
 上述した実施形態における機械学習プログラム,情報処理装置1及び機械学習方法によれば、例えば以下の作用効果を奏することができる。
[C] Effects According to the machine learning program, the information processing apparatus 1, and the machine learning method of the above-described embodiments, the following effects can be obtained, for example.
 確率算出部111は、自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布のいずれに属するかの確率を算出する。分布生成部112は、複数の分布と確率算出部111によって算出された確率とに基づいて、複数の潜在変数それぞれの確率分布を生成する。学習処理部113は、分布生成部112によって生成された確率分布に基づき、複数の分布の符号化情報量と、潜在変数の符号化情報量と、自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行う。 The probability calculation unit 111 calculates the probability to which of the plurality of distributions each of the plurality of latent variables belongs when the input data is encoded by the autoencoder. The distribution generation unit 112 generates probability distributions for each of the multiple latent variables based on the multiple distributions and the probabilities calculated by the probability calculation unit 111 . Based on the probability distribution generated by the distribution generation unit 112, the learning processing unit 113 reduces the coded information amount of the plurality of distributions, the coded information amount of the latent variables, and the restoration error by the autoencoder. , the learning parameters are optimized.
 これにより、表現学習における表現力を向上させることができる。例えば、画像分類タスクにおける精度の向上ができる。MNISTデータセット上での教師無し学習により、画像の潜在表現を得ることができる。潜在表現を用いて線形識別器を教師有り学習を行い、その精度を評価できる。既存手法(例えばGMM)に比べて推論結果の精度向上ができる。 As a result, it is possible to improve the power of expression in expression learning. For example, it can improve accuracy in image classification tasks. Latent representations of images can be obtained by unsupervised learning on the MNIST dataset. We can perform supervised learning of linear classifiers using latent representations and evaluate their accuracy. It can improve the accuracy of inference results compared to existing methods (eg GMM).
 〔D〕その他
 開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
[D] Others The technology disclosed herein is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the embodiments. Each configuration and each process of this embodiment can be selected or discarded as necessary, or may be combined as appropriate.
1,1a :情報処理装置
2    :コンテキスト分類器
3,3a,3b,6,6a,61:エンコーダ
3c   :クラス分類器
4    :加算器
5,6b,62:デコーダ
7    :識別器
11   :CPU
12   :メモリ部
13   :表示制御部
14   :記憶装置
16   :外部記録媒体処理部
111  :確率算出部
112  :分布生成部
113  :学習処理部
131  :表示装置
141  :訓練データ
151  :マウス
152  :キーボード
160  :記録媒体
601  :潜在表現
15   :入力IF
17   :通信IF
1, 1a: Information processing device 2: Context classifiers 3, 3a, 3b, 6, 6a, 61: Encoder 3c: Class classifier 4: Adders 5, 6b, 62: Decoder 7: Discriminator 11: CPU
12: memory unit 13: display control unit 14: storage device 16: external recording medium processing unit 111: probability calculation unit 112: distribution generation unit 113: learning processing unit 131: display device 141: training data 151: mouse 152: keyboard 160 : Recording medium 601 : Latent expression 15 : Input IF
17: communication interface

Claims (18)

  1.  自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布のいずれに属するかの確率を算出し、
     前記複数の分布と算出した前記確率とに基づいて、前記複数の潜在変数それぞれの確率分布を生成し、
     生成した前記確率分布に基づき、前記複数の分布の符号化情報と、前記複数の潜在変数の符号化情報と、前記自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行なう、
    処理をコンピュータに実行させる、機械学習プログラム。
    calculating the probability that each of the plurality of latent variables belongs to which of the plurality of distributions when the input data is encoded by the autoencoder;
    generating a probability distribution for each of the plurality of latent variables based on the plurality of distributions and the calculated probability;
    Optimizing learning parameters based on the generated probability distributions so as to reduce the coded information of the plurality of distributions, the coded information of the plurality of latent variables, and the restoration error by the autoencoder. perform
    A machine learning program that makes a computer perform a process.
  2.  前記自己符号化器は、前記入力データ及び前記自己符号化器の出力データが属する空間と前記複数の潜在変数が属する空間とを相互に変換する、エンコーダとデコーダとの組み合わせである、
    請求項1に記載の機械学習プログラム。
    The autoencoder is a combination of an encoder and a decoder that transforms between the space to which the input data and the output data of the autoencoder belong and the space to which the plurality of latent variables belong.
    The machine learning program according to claim 1.
  3.  前記複数の分布の符号化情報は、前記入力データのコンテキストを分類するためのコンテキスト分類器によって学習される、
    請求項1又は2に記載の機械学習プログラム。
    the encoded information of the plurality of distributions is learned by a context classifier for classifying the context of the input data;
    The machine learning program according to claim 1 or 2.
  4.  前記学習パラメータは、前記自己符号化器のパラメータと、前記コンテキスト分類器のパラメータと、前記確率分布のパラメータとのうち、少なくともいずれかである、
    請求項3に記載の機械学習プログラム。
    the learning parameters are at least one of parameters of the autoencoder, parameters of the context classifier, and parameters of the probability distribution;
    The machine learning program according to claim 3.
  5.  前記確率分布は、前記確率によってそれぞれ重み付けされた前記複数の分布の和によって算出される、
    請求項1~4のいずれか一項に記載の機械学習プログラム。
    wherein the probability distribution is calculated by summing the plurality of distributions each weighted by the probability;
    The machine learning program according to any one of claims 1-4.
  6.  前記学習パラメータによって学習されたエンコーダによって、前記入力データを埋め込み表現に変換し、
     変換された前記埋め込み表現によって、未知のデータのクラス分類を行なうためのクラス分類器を学習する、
    処理を前記コンピュータに実行させる、請求項1~5のいずれか一項に記載の機械学習プログラム。
    converting the input data into an embedded representation by an encoder trained by the learning parameters;
    learning a classifier for classifying unknown data with the transformed embedded representation;
    6. The machine learning program according to any one of claims 1 to 5, causing the computer to execute processing.
  7.  自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布のいずれに属するかの確率を算出し、
     前記複数の分布と算出した前記確率とに基づいて、前記複数の潜在変数それぞれの確率分布を生成し、
     生成した前記確率分布に基づき、前記複数の分布の符号化情報と、前記複数の潜在変数の符号化情報と、前記自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行なう、
    プロセッサを備える、情報処理装置。
    calculating the probability that each of the plurality of latent variables belongs to which of the plurality of distributions when the input data is encoded by the autoencoder;
    generating a probability distribution for each of the plurality of latent variables based on the plurality of distributions and the calculated probability;
    Optimizing learning parameters based on the generated probability distributions so as to reduce the coded information of the plurality of distributions, the coded information of the plurality of latent variables, and the restoration error by the autoencoder. perform
    An information processing device comprising a processor.
  8.  前記自己符号化器は、前記入力データ及び前記自己符号化器の出力データが属する空間と前記複数の潜在変数が属する空間とを相互に変換する、エンコーダとデコーダとの組み合わせである、
    請求項7に記載の情報処理装置。
    The autoencoder is a combination of an encoder and a decoder that transforms between the space to which the input data and the output data of the autoencoder belong and the space to which the plurality of latent variables belong.
    The information processing apparatus according to claim 7.
  9.  前記複数の分布の符号化情報は、前記入力データのコンテキストを分類するためのコンテキスト分類器によって学習される、
    請求項7又は8に記載の情報処理装置。
    the encoded information of the plurality of distributions is learned by a context classifier for classifying the context of the input data;
    The information processing apparatus according to claim 7 or 8.
  10.  前記学習パラメータは、前記自己符号化器のパラメータと、前記コンテキスト分類器のパラメータと、前記確率分布のパラメータとのうち、少なくともいずれかである、
    請求項9に記載の情報処理装置。
    the learning parameters are at least one of parameters of the autoencoder, parameters of the context classifier, and parameters of the probability distribution;
    The information processing apparatus according to claim 9 .
  11.  前記確率分布は、前記確率によってそれぞれ重み付けされた前記複数の分布の和によって算出される、
    請求項7~10のいずれか一項に記載の情報処理装置。
    wherein the probability distribution is calculated by summing the plurality of distributions each weighted by the probability;
    The information processing device according to any one of claims 7 to 10.
  12.  前記プロセッサは、
     前記学習パラメータによって学習されたエンコーダによって、前記入力データを埋め込み表現に変換し、
     変換された前記埋め込み表現によって、未知のデータのクラス分類を行なうためのクラス分類器を学習する、
    請求項7~11のいずれか一項に記載の情報処理装置。
    The processor
    converting the input data into an embedded representation by an encoder trained by the learning parameters;
    learning a classifier for classifying unknown data with the transformed embedded representation;
    The information processing apparatus according to any one of claims 7 to 11.
  13.  自己符号化器により入力データを符号化した場合の複数の潜在変数それぞれについて、複数の分布のいずれに属するかの確率を算出し、
     前記複数の分布と算出した前記確率とに基づいて、前記複数の潜在変数それぞれの確率分布を生成し、
     生成した前記確率分布に基づき、前記複数の分布の符号化情報と、前記複数の潜在変数の符号化情報と、前記自己符号化器による復元誤差とが削減されるように、学習パラメータの最適化を行なう、
    処理をコンピュータが実行する、機械学習方法。
    calculating the probability that each of the plurality of latent variables belongs to which of the plurality of distributions when the input data is encoded by the autoencoder;
    generating a probability distribution for each of the plurality of latent variables based on the plurality of distributions and the calculated probability;
    Optimizing learning parameters based on the generated probability distributions so as to reduce the coded information of the plurality of distributions, the coded information of the plurality of latent variables, and the restoration error by the autoencoder. perform
    A machine learning method in which the processing is performed by a computer.
  14.  前記自己符号化器は、前記入力データ及び前記自己符号化器の出力データが属する空間と前記複数の潜在変数が属する空間とを相互に変換する、エンコーダとデコーダとの組み合わせである、
    請求項13に記載の機械学習方法。
    The autoencoder is a combination of an encoder and a decoder that transforms between the space to which the input data and the output data of the autoencoder belong and the space to which the plurality of latent variables belong.
    14. The machine learning method of claim 13.
  15.  前記複数の分布の符号化情報は、前記入力データのコンテキストを分類するためのコンテキスト分類器によって学習される、
    請求項13又は14に記載の機械学習方法。
    the encoded information of the plurality of distributions is learned by a context classifier for classifying the context of the input data;
    Machine learning method according to claim 13 or 14.
  16.  前記学習パラメータは、前記自己符号化器のパラメータと、前記コンテキスト分類器のパラメータと、前記確率分布のパラメータとのうち、少なくともいずれかである、
    請求項15に記載の機械学習方法。
    the learning parameters are at least one of parameters of the autoencoder, parameters of the context classifier, and parameters of the probability distribution;
    16. The machine learning method of claim 15.
  17.  前記確率分布は、前記確率によってそれぞれ重み付けされた前記複数の分布の和によって算出される、
    請求項13~16のいずれか一項に記載の機械学習方法。
    wherein the probability distribution is calculated by summing the plurality of distributions each weighted by the probability;
    The machine learning method according to any one of claims 13-16.
  18.  前記学習パラメータによって学習されたエンコーダによって、前記入力データを埋め込み表現に変換し、
     変換された前記埋め込み表現によって、未知のデータのクラス分類を行なうためのクラス分類器を学習する、
    処理を前記コンピュータが実行する、請求項13~17のいずれか一項に記載の機械学習方法。
    converting the input data into an embedded representation by an encoder trained by the learning parameters;
    learning a classifier for classifying unknown data with the transformed embedded representation;
    The machine learning method according to any one of claims 13 to 17, wherein said computer executes the processing.
PCT/JP2022/009300 2022-03-04 2022-03-04 Machine learning program, information processing device, and machine learning method WO2023166688A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009300 WO2023166688A1 (en) 2022-03-04 2022-03-04 Machine learning program, information processing device, and machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009300 WO2023166688A1 (en) 2022-03-04 2022-03-04 Machine learning program, information processing device, and machine learning method

Publications (1)

Publication Number Publication Date
WO2023166688A1 true WO2023166688A1 (en) 2023-09-07

Family

ID=87883404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009300 WO2023166688A1 (en) 2022-03-04 2022-03-04 Machine learning program, information processing device, and machine learning method

Country Status (1)

Country Link
WO (1) WO2023166688A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021059348A1 (en) * 2019-09-24 2021-04-01 富士通株式会社 Learning method, learning program, and learning device
WO2021100184A1 (en) * 2019-11-21 2021-05-27 日本電信電話株式会社 Learning device, estimation device, learning method, and learning program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021059348A1 (en) * 2019-09-24 2021-04-01 富士通株式会社 Learning method, learning program, and learning device
WO2021100184A1 (en) * 2019-11-21 2021-05-27 日本電信電話株式会社 Learning device, estimation device, learning method, and learning program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IMAI TUKUJI: "Fujitsu Laboratories' new deep generative model technology "DeepTwin" learns the distribution of input data and makes it linear with the latent variable distribution", X TECHNOLOGY, 9 October 2020 (2020-10-09), XP093088982, Retrieved from the Internet <URL:https://xtech.nikkei.com/atcl/nxt/mag/rob/18/012600001/00064/> [retrieved on 20231005] *

Similar Documents

Publication Publication Date Title
Ahmed et al. Transformers in time-series analysis: A tutorial
JP7471736B2 (en) Method and system for estimating ground state energy of a quantum system
GB2571825A (en) Semantic class localization digital environment
CN116415654A (en) Data processing method and related equipment
WO2022188584A1 (en) Similar sentence generation method and apparatus based on pre-trained language model
US11423333B2 (en) Mechanisms for continuous improvement of automated machine learning
CN115699029A (en) Knowledge distillation using back-propagation knowledge in neural networks
CN113614688A (en) Large automation code
US11847555B2 (en) Constraining neural networks for robustness through alternative encoding
CN115277587B (en) Network traffic identification method, device, equipment and medium
KR102610431B1 (en) Apparatus and method for generating summary of program source code based on ai analysis
CN117746186A (en) Training method of low-rank adaptive model, text image generation method and system
WO2023166688A1 (en) Machine learning program, information processing device, and machine learning method
Kovács et al. Object detection on TPU accelerated embedded devices
CN116383707A (en) Malicious code detection method, device, equipment and medium
KR20200099966A (en) Method and apparatus for learning based on data including nominal data
Zhou et al. A multi-classification classifier based on variational quantum computation
KR20240039776A (en) Method and System for Weighted Gramian Angular Field for Time Series Data
Julian Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python
JP7103987B2 (en) Information processing equipment, information processing methods, and programs
KR20230047866A (en) Apparatus and method for few-shot image classification using self attention
Ferguson et al. A standardized PMML format for representing convolutional neural networks with application to defect detection
JP2022148878A (en) Program, information processing device and method
Dinov Deep Learning, Neural Networks
KR102641629B1 (en) Method and system for processing data using transformer based on explainable artificial intelligence

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22929832

Country of ref document: EP

Kind code of ref document: A1