WO2020143321A1 - 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 - Google Patents

一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 Download PDF

Info

Publication number
WO2020143321A1
WO2020143321A1 PCT/CN2019/118261 CN2019118261W WO2020143321A1 WO 2020143321 A1 WO2020143321 A1 WO 2020143321A1 CN 2019118261 W CN2019118261 W CN 2019118261W WO 2020143321 A1 WO2020143321 A1 WO 2020143321A1
Authority
WO
WIPO (PCT)
Prior art keywords
variational autoencoder
training
samples
decoder
encoder
Prior art date
Application number
PCT/CN2019/118261
Other languages
English (en)
French (fr)
Inventor
陈瑞清
许开河
王少军
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020143321A1 publication Critical patent/WO2020143321A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Definitions

  • the present application relates to the field of big data technology, and in particular, to a training sample data expansion method, storage medium, and computer equipment based on a variational autoencoder.
  • classification model training is provided to provide automatic recognition function for input data.
  • embodiments of the present application provide a training sample data expansion method, device, storage medium, and computer equipment based on variational autoencoders to solve the problem of time-consuming, labor-intensive, and low efficiency in manually expanding sample data in the prior art The problem.
  • an embodiment of the present application provides a training sample data expansion device based on a variational autoencoder
  • the device includes: an acquisition unit for acquiring original samples; a first input unit for inputting the original samples
  • the encoder of the variational autoencoder includes two neural networks, the two neural networks output ⁇ and ⁇ , respectively, the ⁇ and the ⁇ are the original A function of the sample; a generating unit for generating a random number of the corresponding Gaussian distribution according to the square of the ⁇ and the ⁇ , that is, ⁇ 2 , the variance of the Gaussian distribution is ⁇ 2 , and the mean value of the Gaussian distribution is ⁇ ;
  • the first output unit is used to input the sampling variable Z to the decode
  • an embodiment of the present application provides a storage medium, the storage medium including a stored program, wherein, when the program is running, the device where the storage medium is located is controlled to execute the training samples based on the variational autoencoder described above Data expansion method.
  • an embodiment of the present application provides a computer device, including a memory and a processor, where the memory is used to store information including program instructions, and the processor is used to control execution of the program instructions, and the program instructions are processed by the processor When loading and executing, the steps of the above training sample data expansion method based on variational autoencoder are realized.
  • the original samples input to the classification model are obtained; the original samples are input to the encoder of the variational autoencoder, and the encoder of the variational autoencoder outputs the logarithm and mean of the variance after encoding; Determine the sampling variables by logarithm and mean; input the sampling variables to the decoder of the variational autoencoder, generate extended samples, generate similar samples through the variational autoencoder training, and put them into the classification model to expand the number of samples, which solves the manual It is time-consuming, labor-intensive and inefficient to expand the sample data.
  • FIG. 1 is a flowchart of an optional training sample data expansion method based on variational autoencoders according to an embodiment of the present application
  • FIG. 2 is a schematic diagram of an optional training sample data expansion device based on a variational autoencoder according to an embodiment of the present application
  • FIG. 3 is a schematic diagram of an optional computer device provided by an embodiment of the present application.
  • An embodiment of the present application provides a training sample data expansion method based on a variational autoencoder. As shown in FIG. 1, the method includes:
  • Step S102 Obtain the original sample.
  • Step S104 input the original sample to the encoder of the variational autoencoder.
  • the encoder of the variational autoencoder includes two neural networks, and the two neural networks respectively output ⁇ and ⁇ , both of which are functions of the original sample.
  • Step S106 Generate a random number corresponding to the Gaussian distribution according to the square of ⁇ and ⁇ , that is, ⁇ 2 , the variance of the Gaussian distribution is ⁇ 2 , and the average value of the Gaussian distribution is ⁇ .
  • Step S110 input the sampling variable Z to the decoder of the variational autoencoder, and after decoding the decoder of the variational autoencoder, output similar samples of the original samples, and use the similar samples as extended samples.
  • the original sample is the question in the classification model and the sample data in the classification model.
  • the expanded sample is similar to the original sample but not exactly the same. It is a similar question randomly generated based on the original sample.
  • Variational autoencoder is a powerful model for learning low-dimensional data representation. It consists of three parts: encoder, a priori and decoder.
  • the encoder maps the input sample data to the distribution of the code for the sample data. This distribution is also called the posterior distribution; the a priori is fixed, usually just a normal distribution with zero mean and unit variance; decoding
  • the device is a distribution that maps back to reasonable sample data, and can reconstruct sample data or generate new sample data.
  • the original samples input to the classification model are obtained; the original samples are input to the encoder of the variational autoencoder, and the encoder of the variational autoencoder outputs the logarithm and mean of the variance after encoding; Determine the sampling variables by logarithm and mean; input the sampling variables to the decoder of the variational autoencoder, generate extended samples, generate similar samples through the variational autoencoder training, and put them into the classification model to expand the number of samples, which solves the manual It is time-consuming, labor-intensive and inefficient to expand the sample data.
  • the encoder of the variational autoencoder includes two neural networks, and the two neural networks output ⁇ and ⁇ respectively, including: dividing the original sample, Obtain multiple word segments, obtain word vectors of multiple word segments; determine the vector corresponding to the original sample according to the word vector; input the vector corresponding to the original sample into the encoder of the variational autoencoder for encoding, and the encoder of the variational autoencoder
  • the two-way LSTM neural network model is used for encoding; the encoder of the variational autoencoder outputs ⁇ and ⁇ after encoding.
  • the bidirectional LSTM neural network is an improvement based on RNN and is a time recursive neural network.
  • the hidden layer of the bidirectional convolutional neural network should save two values, A participates in the forward calculation, A'participates in the reverse calculation, the final output value depends on A and A', A is the sequence data when participating in the forward calculation, A 'Is the sequence data when participating in the reverse calculation.
  • Z t of the hidden layer is related to Z t-1
  • Z t+1 is the t+1 data of the sequence data.
  • the encoder of the variational autoencoder includes two neural networks. Both neural networks are bidirectional LSTM neural networks.
  • the original sample is divided into multiple word segments. After obtaining the word vectors corresponding to multiple word segments, the vector phase can be used.
  • the method of addition determines the vector of the original sample, and the vector of the original sample is input into two neural networks in the encoder of the variational encoder to encode, and the two neural networks output two functions related to the vector of the original sample. For example, if the vector of the original sample is X, then after inputting X into the two neural networks of the encoder of the encoder, the two neural networks output two functions ⁇ (X) and ⁇ (X) about X.
  • the neural network of the encoder of the variational autoencoder needs to be trained, or the neural network can be trained before obtaining the original sample.
  • the neural network is based on the KL divergence
  • the KL divergence is used to compare the similarity of the two probability distributions. The more similar the two probability distributions are, the smaller the KL divergence and the smaller the cross entropy.
  • KL divergence is used to measure the information loss caused by the approximate distribution.
  • the bidirectional LSTM neural network is trained to reduce the information loss when the approximate distribution is encoded.
  • sampling variable Z input the sampling variable Z to the decoder of the variational autoencoder, and the decoder of the variational autoencoder decodes and outputs similar samples of the original sample, including: random sampling of random numbers of Gaussian distribution to obtain attention Parameters; input the attention parameter and sampling variable Z into the decoder of the variational autoencoder; the decoder of the variational autoencoder outputs similar samples of the original samples.
  • the attention parameter is obtained by randomly sampling the posterior distribution output by the encoder.
  • the attention parameter is used to calculate the cross-entropy loss KL.
  • the attention parameter is obtained from the posterior distribution.
  • the obtained attention parameters and sampling variables are input into the decoder at the same time, which can enable the decoder to obtain more accurate attention signals, thereby improving the expression ability of the variational autoencoder model.
  • the decoder of the variational autoencoder is a fully connected neural network.
  • the method further includes: training a fully connected neural network, training a fully connected neural network, Including: acquiring multiple training samples; inputting multiple training samples into a variational autoencoder, and variational autoencoders outputting multiple similar samples of multiple training samples; calculating the difference between multiple similar samples and multiple training samples , That is, the value of the loss function; using back-propagation to optimize the parameters of the decoder of the variational autoencoder; multiple iterations to optimize the parameters of the decoder of the variational autoencoder to minimize the value of the loss function and obtain the value after training Fully connected neural network.
  • the fully connected neural network of the decoder is trained based on the value of the loss function.
  • the specific steps are: initializing the parameters of the fully connected neural network, and iteratively training the fully connected neural network using the stochastic gradient descent method.
  • the value of the loss function is calculated once in an iteration, and the value of the loss function reaches the minimum after multiple iterations, and the fully connected neural network and the parameters of convergence after training are obtained.
  • the specific expression for calculating the loss function can be:
  • Loss represents the value of the loss function
  • N represents the amount of data input to the fully connected neural network
  • y (i) represents the ith data input to the fully connected neural network
  • the algorithm adopted by the decoder of the variational autoencoder may be any of the following: beam search or greedy.
  • Beam search is a heuristic search. In the field of optimization, it is a best-first algorithm, which sorts all possible solutions according to a heuristic rule, which is used to measure how many solutions are obtained and the target solution. Close. Beam search uses width-first search to build its search tree. In each layer, it will generate a series of solutions, and then sort these solutions, select the best K solutions as candidate solutions, where K is called the bundle width. Only the selected solutions can continue to expand downward.
  • the greedy algorithm also known as the greedy algorithm, adopts the method of gradually constructing the optimal solution. At each stage, a seemingly optimal decision is made. Once a decision is made, it cannot be changed.
  • the basis for making greedy decisions is called the greedy criterion, that is, starting from a certain initial solution of the problem and gradually approaching the given target, in order to find a better solution as quickly as possible. When a certain step in an algorithm cannot be reached, the algorithm stops.
  • acquiring the original samples includes: acquiring the original samples in the classification with a small number of samples in the classification model, or acquiring all the original samples in the classification model.
  • the number of classifications in the classification model is small, you can select the classification with a small number of samples for separate training, but for the case where there are many classifications in the classification model, the efficiency of individual classification training is low, by setting the classification model The number of samples in the classification, and the method of obtaining all samples in the classification model for training can improve the efficiency of expanding the sample data.
  • An embodiment of the present application provides a training sample data expansion device based on a variational autoencoder.
  • the device is used to perform the above training sample data expansion method based on a variational autoencoder.
  • the device includes: The acquiring unit 10, the first input unit 20, the generating unit 30, the first sampling unit 40, and the first output unit 50.
  • the obtaining unit 10 is used to obtain original samples.
  • the first input unit 20 is used to input the original sample to the encoder of the variational autoencoder.
  • the encoder of the variational autoencoder includes two neural networks, and the two neural networks respectively output ⁇ and ⁇ , both ⁇ and ⁇ The function of the original sample.
  • the generating unit 30 is configured to generate a random number corresponding to the Gaussian distribution according to the square of ⁇ and ⁇ , that is, ⁇ 2 , the variance of the Gaussian distribution is ⁇ 2 , and the average value of the Gaussian distribution is ⁇ .
  • the first output unit 50 is used to input the sampling variable Z to the decoder of the variational autoencoder. After decoding, the decoder of the variational autoencoder outputs similar samples of the original samples, and the similar samples are used as extended samples.
  • the original sample is the question in the classification model and the sample data in the classification model.
  • the expanded sample is similar to the original sample but not exactly the same. It is a similar question randomly generated based on the original sample.
  • Variational autoencoder is a powerful model for learning low-dimensional data representation. It consists of three parts: encoder, a priori and decoder.
  • the encoder maps the input sample data to the distribution of the code for the sample data. This distribution is also called the posterior distribution; the a priori is fixed, usually just a normal distribution with zero mean and unit variance; decoding
  • the device is a distribution that maps back to reasonable sample data, and can reconstruct sample data or generate new sample data.
  • the original samples input to the classification model are obtained; the original samples are input to the encoder of the variational autoencoder, and the encoder of the variational autoencoder outputs the logarithm and mean of the variance after encoding;
  • the sampling variables are determined by logarithm and mean; input the sampling variables to the decoder of the variational autoencoder to generate extended samples, generate similar samples through the variational autoencoder training, and put them into the classification model to expand the number of samples, which solves the manual It is time-consuming, labor-intensive and inefficient to expand the sample data.
  • the first input unit 20 includes: a segmentation module, a first determination module, an encoding module, and a first output module.
  • the segmentation module is used to segment the original sample to obtain multiple word segments and obtain word vectors of multiple word segments.
  • the first determining module is used to determine the vector corresponding to the original sample according to the word vector.
  • the encoding module is used to input the vector corresponding to the original sample into the encoder of the variational autoencoder for encoding.
  • the encoder of the variational autoencoder adopts a bidirectional LSTM neural network model for encoding.
  • the first output module is used to output ⁇ and ⁇ after encoding by the encoder of the variational encoder.
  • the device further includes: a first training unit.
  • the first training unit is used to train the bidirectional LSTM neural network model before the encoding module uses the bidirectional LSTM neural network model for encoding.
  • the first training unit includes: a first acquisition module, a definition module, a first training module, and a second determination module.
  • the first obtaining module is used to obtain training samples, and input the training samples into the encoder of the variational autoencoder to obtain two functions ⁇ and ⁇ of the training samples.
  • the first training module is used to train a bidirectional LSTM neural network by minimizing KL divergence.
  • the second determination module is used to determine that the training of the bidirectional LSTM neural network model is completed when the KL divergence takes the minimum value.
  • the first output unit 50 includes: a first sampling module, a first input module, and a second output module.
  • the first sampling module is used to randomly sample Gaussian distributed random numbers to obtain attention parameters.
  • the first input module is used to input the attention parameter and the sampling variable Z into the decoder of the encoder.
  • the second output module is used to output the similar samples of the original samples by the decoder of the variational encoder.
  • the decoder of the variational autoencoder is a fully connected neural network
  • the device further includes: a second training unit.
  • the second training unit is used to train the fully connected neural network before the first output unit 50 inputs the sampling variable Z to the decoder of the variational autoencoder.
  • the second training unit includes: a second acquisition module, a second input module, a calculation module, an optimization module, and a second training module.
  • the second acquisition module is used to acquire multiple training samples.
  • the second input module is used to input multiple training samples to the variational autoencoder, and the variational autoencoder outputs multiple similar samples of the multiple training samples.
  • the calculation module is used to calculate the difference between multiple similar samples and multiple training samples, that is, the value of the loss function.
  • the optimization module is used to optimize the parameters of the decoder of the variational autoencoder using back propagation.
  • the second training module is used for multiple iterations to optimize the parameters of the decoder of the variational autoencoder to minimize the value of the loss function to obtain a fully connected neural network after training.
  • the algorithm adopted by the decoder of the variational autoencoder may be any of the following: beam search or greedy.
  • the obtaining unit 10 includes: a third obtaining module or a fourth obtaining module.
  • the third acquisition module is used to acquire original samples in the classification with a small number of samples in the classification model, or the fourth acquisition module is used to acquire all original samples in the classification model.
  • an embodiment of the present application provides a storage medium, the storage medium includes a stored program, wherein, when the program is running, the device where the storage medium is located is controlled to perform the following steps: obtain original samples; input the original samples to the variational autoencoder Encoder, the encoder of the variational autoencoder includes two neural networks, and the two neural networks output ⁇ and ⁇ , respectively, and ⁇ and ⁇ are functions of the original sample; according to the square of ⁇ and ⁇ , that is, ⁇ 2 , the corresponding Gaussian is generated Random number of the distribution, the variance of the Gaussian distribution is ⁇ 2 , and the mean value of the Gaussian distribution is ⁇ ; the standard normal distribution is randomly sampled to obtain the sampling value ⁇ , and the sampling variable Z is determined according to the sampling value ⁇ and the random number of the Gaussian distribution.
  • the device that controls the storage medium also performs the following steps: the original sample is segmented to obtain multiple word segments, and the word vectors of the multiple word segments are obtained; the vector corresponding to the original sample is determined according to the word vector; the original The vector corresponding to the sample is input to the encoder of the variational autoencoder for encoding.
  • the encoder of the variational autoencoder uses a bidirectional LSTM neural network model for encoding; the encoder of the variational autoencoder outputs ⁇ and ⁇ after encoding.
  • the device that controls the storage medium also performs the following steps: before encoding with the bidirectional LSTM neural network model, training the bidirectional LSTM neural network model, training the bidirectional LSTM neural network model, including: obtaining training samples, will
  • the device where the storage medium is located also performs the following steps: randomly sampling Gaussian-distributed random numbers to obtain the attention parameter; inputting the attention parameter and sampling variable Z into the decoder of the variational autoencoder ; The decoder of the variational autoencoder outputs similar samples of the original samples.
  • the decoder of the variational autoencoder is a fully connected neural network.
  • the device that controls the storage medium also performs the following steps: before inputting the sampling variable Z to the decoder of the variational autoencoder, train the full Connect a neural network to train a fully connected neural network, including: acquiring multiple training samples; inputting multiple training samples into a variational autoencoder, and variational autoencoders outputting multiple similar samples of multiple training samples; calculating multiple similarities The difference between the sample and multiple training samples, that is, the value of the loss function; back propagation is used to optimize the parameters of the decoder of the variational autoencoder; multiple iterations optimize the parameters of the decoder of the variational autoencoder to make the loss The value of the function is minimized to obtain a fully connected neural network after training.
  • an embodiment of the present application provides a computer device including a memory and a processor.
  • the memory is used to store information including program instructions.
  • the processor is used to control the execution of the program instructions.
  • the program instructions are loaded and executed by the processor to implement the following Steps: Obtain original samples; input the original samples to the encoder of the variational autoencoder.
  • the encoder of the variational autoencoder includes two neural networks, and the two neural networks output ⁇ and ⁇ , respectively, both ⁇ and ⁇ are original samples
  • the function of; according to the square of ⁇ and ⁇ , that is, ⁇ 2 , generates a random number of the corresponding Gaussian distribution, the variance of the Gaussian distribution is ⁇ 2 , and the mean value of the Gaussian distribution is ⁇ ; the standard normal distribution is randomly sampled to obtain the sampling value ⁇ , According to the sampling value ⁇ and the random number of Gaussian distribution, determine the sampling variable Z, Z ⁇ 2 ⁇ + ⁇ ; input the sampling variable Z to the decoder of the variational autoencoder, and output after decoding the decoder of the variational autoencoder The similar samples of the original samples are treated as the extended samples.
  • the following steps are also implemented: the original sample is segmented to obtain multiple word segments, and the word vectors of the multiple word segments are obtained; the vector corresponding to the original sample is determined according to the word vector; the original The vector corresponding to the sample is input to the encoder of the variational autoencoder for encoding.
  • the encoder of the variational autoencoder uses a bidirectional LSTM neural network model for encoding; the encoder of the variational autoencoder outputs ⁇ and ⁇ after encoding.
  • the following steps are also implemented: before the bidirectional LSTM neural network model is used for encoding, training the bidirectional LSTM neural network model, training the bidirectional LSTM neural network model, including: obtaining training samples, will
  • the following steps are also implemented: random sampling of Gaussian-distributed random numbers to obtain attention parameters; input of the attention parameters and sampling variable Z into the decoder of the autoencoder ; The decoder of the variational autoencoder outputs similar samples of the original samples.
  • the decoder of the variational autoencoder is a fully connected neural network.
  • the following steps are also implemented: before inputting the sampling variable Z to the decoder of the variational autoencoder, train the full Connect a neural network to train a fully connected neural network, including: acquiring multiple training samples; inputting multiple training samples into a variational autoencoder, and variational autoencoders outputting multiple similar samples of multiple training samples; calculating multiple similarities The difference between the sample and multiple training samples, that is, the value of the loss function; back propagation is used to optimize the parameters of the decoder of the variational autoencoder; multiple iterations optimize the parameters of the decoder of the variational autoencoder to make the loss The value of the function is minimized to obtain a fully connected neural network after training.
  • FIG. 3 is a schematic diagram of a computer device provided by an embodiment of the present application.
  • the computer device 50 of this embodiment includes a processor 51, a memory 52, and a computer program 53 stored in the memory 52 and executable on the processor 51.
  • the computer program 53 is executed by the processor 51
  • the training sample data expansion method based on the variational autoencoder is implemented. In order to avoid repetition, the details are not repeated here.
  • the computer program is executed by the processor 51, the functions of each model/unit in the training sample data expansion device based on the variational autoencoder in the embodiment are implemented. To avoid repetition, they are not described one by one here.
  • the computer device 50 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the computer equipment may include, but is not limited to, the processor 51 and the memory 52.
  • FIG. 3 is only an example of the computer device 50, and does not constitute a limitation on the computer device 50, and may include more or less components than shown, or combine some components, or different components.
  • computer equipment may also include input and output devices, network access devices, buses, and so on.
  • the so-called processor 51 can be a central processing unit (Central Processing Unit, CPU), or other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), Field-programmable gate array (Field-Programmable Gate Array, FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the memory 52 may be an internal storage unit of the computer device 50, such as a hard disk or a memory of the computer device 50.
  • the memory 52 may also be an external storage device of the computer device 50, for example, a plug-in hard disk equipped on the computer device 50, a smart memory card (Smart Media (SMC), a secure digital (SD) card, and a flash memory card (Flash Card) etc.
  • the memory 52 may also include both the internal storage unit of the computer device 50 and the external storage device.
  • the memory 52 is used to store computer programs and other programs and data required by computer devices.
  • the memory 52 may also be used to temporarily store data that has been or will be output.
  • the disclosed system, device, and method may be implemented in other ways.
  • the device embodiments described above are only schematic.
  • the division of the unit is only a logical function division, and there may be other divisions in actual implementation, for example, multiple units or components may be combined Or it can be integrated into another system, or some features can be ignored or not implemented.
  • the displayed or discussed mutual coupling or direct coupling or communication connection may be indirect coupling or communication connection through some interfaces, devices or units, and may be in electrical, mechanical, or other forms.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in one place or may be distributed on multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware, or in the form of hardware plus software functional units.
  • the above integrated unit implemented in the form of a software functional unit may be stored in a computer-readable storage medium.
  • the above software functional unit is stored in a storage medium, and includes several instructions to enable a computer device (which may be a personal computer, server, or network device, etc.) or processor (Processor) to perform the methods described in the embodiments of the present application Partial steps.
  • the foregoing storage media include: U disk, mobile hard disk, read-only memory (Read-Only Memory, ROM), random access memory (Random Access Memory, RAM), magnetic disk or optical disk and other media that can store program code .

Abstract

一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备,涉及大数据技术领域,该方法包括:获取原始样本(S102);输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络(S104),两个神经网络分别输出μ和σ,μ和σ均为原始样本的函数;根据μ和σ的平方即σ 2,生成相应高斯分布的随机数(S106);对标准正态分布进行随机采样,得到采样值ε,根据采样值ε和高斯分布的随机数,确定采样变量Z(S108);输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,将相似样本作为扩充样本(S110)。该方法能够解决现有技术中人工对样本数据进行扩充费时费力、效率低的问题。

Description

一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备
本申请要求于2019年01月09日提交中国专利局、申请号为201910018808.5、申请名称为“一种基于变分自编码器的训练样本数据扩充方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
【技术领域】
本申请涉及大数据技术领域,尤其涉及一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备。
【背景技术】
随着计算机应用技术的发展,深度学习技术日趋成熟,且获得越来越广泛的应用,基于深度学习进行分类模型训练,为输入数据提供自动识别功能。
使用深度学习的方法训练分类模型效率较高,但是如果分类模型中样本数量不均衡或者样本数量少,会降低深度学习训练的模型分类效果,所以进行分类模型训练之前,需要提供大量的样本数据。当需要的样本数据的数量较大时,人工对样本数据进行扩充费时费力、效率低。
【申请内容】
有鉴于此,本申请实施例提供了一种基于变分自编码器的训练样本数据扩充方法、装置、存储介质及计算机设备,用以解决现有技术人工对样本数据进行扩充费时费力、效率低的问题。
一方面,本申请实施例提供了一种基于变分自编码器的训练样本数据扩充方法,所述方法包括:获取原始样本;输入所述原始样本到变分自编码器的编码器, 所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
一方面,本申请实施例提供了一种基于变分自编码器的训练样本数据扩充装置,所述装置包括:获取单元,用于获取原始样本;第一输入单元,用于输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;生成单元,用于根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;第一采样单元,用于对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;第一输出单元,用于输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
一方面,本申请实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的基于变分自编码器的训练样本数据扩充方法。
一方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述的基于变分自编码器的训练样本数据扩充方法的步骤。
在本申请实施例中,获取输入到分类模型的原始样本;输入原始样本到变分自编码器的编码器,变分自编码器的编码器编码后输出方差的对数、均值;根据方差的对数和均值确定采样变量;输入采样变量到变分自编码器的解码器,生成扩充样本,通过变分自编码器训练生成相似的样本,并放入分类模型中扩充样本数量,解决了人工对样本数据进行扩充费时费力、效率低的问题。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是根据本申请实施例一种可选的基于变分自编码器的训练样本数据扩充方法的流程图;
图2是根据本申请实施例一种可选的基于变分自编码器的训练样本数据扩充装置的示意图;
图3是本申请实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供了一种基于变分自编码器的训练样本数据扩充方法,如图1所示,该方法包括:
步骤S102:获取原始样本。
步骤S104:输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络,两个神经网络分别输出μ和σ,μ和σ均为原始样本的函数。
步骤S106:根据μ和σ的平方即σ 2,生成相应高斯分布的随机数,高斯分布的方差为σ 2,高斯分布的均值为μ。
步骤S108:对标准正态分布进行随机采样,得到采样值ε,根据采样值ε和高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ。
步骤S110:输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,将相似样本作为扩充样本。
原始样本是分类模型中的问句,是分类模型中的样本数据。
扩充样本与原始样本相似但是不完全一样,是根据原始样本随机生成的相似问。
对标准正态分布N(0,1)进行随机采样,得到采样值ε,然后根据Z=σ 2·ε+μ计算采样变量Z,ε对神经网络而言只是常数,是在采样变量Z中加入的高斯噪声,确保输出和输入相似但不相同,采样变量Z服从N(μ,σ)的分布,作为解码器的输入采样变量加入了随机性的ε,所以生成的扩充样本数据多样性更强。
变分自编码器,是学习低维数据表示的强大模型,由编码器、先验、解码器三部分组成。编码器将输入的样本数据映射到针对该样本数据的代码的分布上,这种分布也被称为后验分布;先验是固定的,通常只是一个零均值和单位方差的 正态分布;解码器是一个映射回合理的样本数据的分布,可以重建样本数据或者生成新的样本数据。
在本申请实施例中,获取输入到分类模型的原始样本;输入原始样本到变分自编码器的编码器,变分自编码器的编码器编码后输出方差的对数、均值;根据方差的对数和均值确定采样变量;输入采样变量到变分自编码器的解码器,生成扩充样本,通过变分自编码器训练生成相似的样本,并放入分类模型中扩充样本数量,解决了人工对样本数据进行扩充费时费力、效率低的问题。
可选地,输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络,两个神经网络分别输出μ和σ,包括:将原始样本进行切分,得到多个分词,获取多个分词的词向量;根据词向量确定原始样本对应的向量;将原始样本对应的向量输入变分自编码器的编码器中进行编码,变分自编码器的编码器采用双向LSTM神经网络模型进行编码;变分自编码器的编码器编码后输出μ和σ。
双向LSTM神经网络是基于RNN的改进,是一种时间递归神经网络。双向卷积神经网络的隐藏层要保存两个值,A参与正向计算,A’参与反向计算,最终的输出值取决于A和A’,A为参与正向计算时的序列数据,A’为参与反向计算时的序列数据。即正向计算时,隐藏层的Z t与Z t-1有关,反向计算时,隐藏层的Z t与Z t+1有关,Z为隐藏层的序列数据,Z t为序列数据的第t个数据,Z t-1为序列数据的第t-1个数据,Z t+1为序列数据的第t+1个数据。例如:我今天不舒服,打算__一天,如果只根据前面的“不舒服”,可能推测出“打算”后为“去医院”、“休息”、“请假”等词,但是如果加上后面的“一天”,选择范围就小了,就排除了“去医院”,而“休息”、“请假”之类的选择概率会更大。选择双向的LSTM进行编码,提高了编码的精确度。
变分自编码器的编码器包括两个神经网络,两个神经网络均为双向LSTM神经网络,将原始样本进行切分得到多个分词,获取多个分词对应的词向量后,可 采用向量相加的方法确定原始样本的向量,分别将原始样本的向量输入变分自编码器的编码器中的两个神经网络进行编码,两个神经网络输出原始样本的向量有关的两个函数。例如:原始样本的向量为X,则将X输入变分自编码器的编码器的两个神经网络后,两个神经网络输出关于X的两个函数μ(X)和σ(X)。
可选地,在采用双向LSTM神经网络模型进行编码之前,方法还包括:训练双向LSTM神经网络模型,训练双向LSTM神经网络模型,包括:获取训练样本,将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;定义KL散度,其中,KL散度与函数σ和函数μ存在以下关系,KL=-0.5*(1+log σ 222)=-0.5(1+log σ 22-exp(log σ 2));通过最小化KL散度,训练双向LSTM神经网络;当KL散度取最小值时,确定双向LSTM神经网络模型训练完成。
在将原始样本数据输入变分自编码器之前,需要对变分自编码器的编码器的神经网络进行训练,也可以在获取原始样本之前对神经网络进行训练,神经网络是基于KL散度进行训练的,KL散度用于比较两个概率分布的近似程度,两个概率分布越相似,KL散度越小,交叉熵越小。KL散度用来衡量近似分布带来的信息损失,通过最小化KL散度来训练双向LSTM神经网络,降低编码后近似分布时的信息损失。
可选地,输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,包括:对高斯分布的随机数进行随机采样,得到注意力参数;将注意力参数和采样变量Z输入变分自编码器的解码器;变分自编码器的解码器输出原始样本的相似样本。
注意力参数是对编码器输出的后验分布随机进行采样得到的,使用注意力参数计算交叉熵损失KL,通过使交叉熵损失KL的值最小化,从后验分布中得到注意力参数,将得到的注意力参数与采样变量同时输入解码器,可以使解码器得到更准确的注意力信号,从而提高了变分自编码器模型的表达能力。
可选地,变分自编码器的解码器为全连接神经网络,在输入采样变量Z到变分自编码器的解码器之前,方法还包括:训练全连接神经网络,训练全连接神经网络,包括:获取多个训练样本;将多个训练样本输入变分自编码器,变分自编码器输出多个训练样本的多个相似样本;计算多个相似样本与多个训练样本之间的差异,即损失函数的值;采用反向传播优化变分自编码器的解码器的参数;多次迭代优化变分自编码器的解码器的参数,使损失函数的值最小化,得到训练后的全连接神经网络。
作为一种可选的实施方式,基于损失函数的值训练解码器的全连接神经网络,具体步骤为:初始化全连接神经网络的参数,采用随机梯度下降法对全连接神经网络进行迭代训练,每迭代一次计算一次损失函数的值,迭代多次后损失函数的值达到最小,得到训练完成后的全连接神经网络和收敛的参数。
具体的计算损失函数的表达式可以为:
Figure PCTCN2019118261-appb-000001
Loss表示损失函数的值,N表示输入全连接神经网络的数据的数量,y (i)表示输入全连接神经网络的第i个数据,
Figure PCTCN2019118261-appb-000002
表示将第i个数据输入时全连接神经网络之后输出的数据。
可选地,变分自编码器的解码器采用的算法可以为以下任意一种:beam search或者greedy。
beam search是一种启发式搜索,在优化领域,其属于一种最佳优先算法,其会将所有可能的解依据启发式规则进行排序,该规则用来衡量得到的解与目标解到底有多接近。beam search是使用宽度优先搜索来构建它的搜索树。在每一层,其都会生成一系列的解,然后对这些解进行排序,选择最好的K个解作为候选解,这里的K称为集束宽度。只有被选中的这些解可以向下继续扩展下去。
greedy算法又称为贪婪算法,采用逐步构造最优解的方法。在每个阶段,都 作出一个看上去最优的决策,决策一旦作出,就不可再更改。作出贪婪决策的依据称为贪婪准则,也就是从问题的某一个初始解出发逐步逼近给定的目标,以尽可能快的地求得更好的解。当达到某算法中的某一步不能再继续前进时,算法停止。
可选地,获取原始样本,包括:获取分类模型中样本数量较少的分类中的原始样本,或者获取分类模型中所有的原始样本。
对于分类模型中分类个数较少的情况下,可以选择样本数量少的分类进行单独训练,但是对于分类模型中的分类较多的情况,对分类进行单独训练效率较低,通过设置分类模型中分类中样本个数,获取分类模型中所有样本进行训练的方法,可以提高扩充样本数据的效率。
本申请实施例提供了一种基于变分自编码器的训练样本数据扩充装置,该装置用于执行上述基于变分自编码器的训练样本数据扩充方法,如图2所示,该装置包括:获取单元10、第一输入单元20、生成单元30、第一采样单元40、第一输出单元50。
获取单元10,用于获取原始样本。
第一输入单元20,用于输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络,两个神经网络分别输出μ和σ,μ和σ均为原始样本的函数。
生成单元30,用于根据μ和σ的平方即σ 2,生成相应高斯分布的随机数,高斯分布的方差为σ 2,高斯分布的均值为μ。
第一采样单元40,用于对标准正态分布进行随机采样,得到采样值ε,根据采样值ε和高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ。
第一输出单元50,用于输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,将相似样本作为扩充样本。
原始样本是分类模型中的问句,是分类模型中的样本数据。
扩充样本与原始样本相似但是不完全一样,是根据原始样本随机生成的相似问。
对标准正态分布N(0,1)进行随机采样,得到采样值ε,然后根据Z=σ 2·ε+μ计算采样变量Z,ε对神经网络而言只是常数,是在采样变量Z中加入的高斯噪声,确保输出和输入相似但不相同,采样变量Z服从N(μ,σ)的分布,作为解码器的输入采样变量加入了随机性的ε,所以生成的扩充样本数据多样性更强。
变分自编码器,是学习低维数据表示的强大模型,由编码器、先验、解码器三部分组成。编码器将输入的样本数据映射到针对该样本数据的代码的分布上,这种分布也被称为后验分布;先验是固定的,通常只是一个零均值和单位方差的正态分布;解码器是一个映射回合理的样本数据的分布,可以重建样本数据或者生成新的样本数据。
在本申请实施例中,获取输入到分类模型的原始样本;输入原始样本到变分自编码器的编码器,变分自编码器的编码器编码后输出方差的对数、均值;根据方差的对数和均值确定采样变量;输入采样变量到变分自编码器的解码器,生成扩充样本,通过变分自编码器训练生成相似的样本,并放入分类模型中扩充样本数量,解决了人工对样本数据进行扩充费时费力、效率低的问题。
可选地,第一输入单元20包括:切分模块、第一确定模块、编码模块、第一输出模块。切分模块,用于将原始样本进行切分,得到多个分词,获取多个分词的词向量。第一确定模块,用于根据词向量确定原始样本对应的向量。编码模块,用于将原始样本对应的向量输入变分自编码器的编码器中进行编码,变分自编码器的编码器采用双向LSTM神经网络模型进行编码。第一输出模块,用于变分自编码器的编码器编码后输出μ和σ。
可选地,装置还包括:第一训练单元。第一训练单元,用于在编码模块采用双向LSTM神经网络模型进行编码之前,训练双向LSTM神经网络模型。第一训练单元包括:第一获取模块、定义模块、第一训练模块、第二确定模块。第一 获取模块,用于获取训练样本,将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ。定义模块,用于定义KL散度,其中,KL散度与函数σ和函数μ存在以下关系,KL=-0.5*(1+log σ 222)=-0.5(1+log σ 22-exp(log σ 2))。第一训练模块,用于通过最小化KL散度,训练双向LSTM神经网络。第二确定模块,用于当KL散度取最小值时,确定双向LSTM神经网络模型训练完成。
可选地,第一输出单元50包括:第一采样模块、第一输入模块、第二输出模块。第一采样模块,用于对高斯分布的随机数进行随机采样,得到注意力参数。第一输入模块,用于将注意力参数和采样变量Z输入变分自编码器的解码器。第二输出模块,用于变分自编码器的解码器输出原始样本的相似样本。
可选地,变分自编码器的解码器为全连接神经网络,装置还包括:第二训练单元。第二训练单元,用于在第一输出单元50输入采样变量Z到变分自编码器的解码器之前,训练全连接神经网络。第二训练单元包括:第二获取模块、第二输入模块、计算模块、优化模块、第二训练模块。第二获取模块,用于获取多个训练样本。第二输入模块,用于将多个训练样本输入变分自编码器,变分自编码器输出多个训练样本的多个相似样本。计算模块,用于计算多个相似样本与多个训练样本之间的差异,即损失函数的值。优化模块,用于采用反向传播优化变分自编码器的解码器的参数。第二训练模块,用于多次迭代优化变分自编码器的解码器的参数,使损失函数的值最小化,得到训练后的全连接神经网络。
可选地,变分自编码器的解码器采用的算法可以为以下任意一种:beam search或者greedy。
可选地,获取单元10包括:第三获取模块或者第四获取模块。第三获取模块,用于获取分类模型中样本数量较少的分类中的原始样本,或者,第四获取模块,用于获取分类模型中所有的原始样本。
一方面,本申请实施例提供了一种存储介质,存储介质包括存储的程序,其 中,在程序运行时控制存储介质所在设备执行以下步骤:获取原始样本;输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络,两个神经网络分别输出μ和σ,μ和σ均为原始样本的函数;根据μ和σ的平方即σ 2,生成相应高斯分布的随机数,高斯分布的方差为σ 2,高斯分布的均值为μ;对标准正态分布进行随机采样,得到采样值ε,根据采样值ε和高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,将相似样本作为扩充样本。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:将原始样本进行切分,得到多个分词,获取多个分词的词向量;根据词向量确定原始样本对应的向量;将原始样本对应的向量输入变分自编码器的编码器中进行编码,变分自编码器的编码器采用双向LSTM神经网络模型进行编码;变分自编码器的编码器编码后输出μ和σ。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:在采用双向LSTM神经网络模型进行编码之前,训练双向LSTM神经网络模型,训练双向LSTM神经网络模型,包括:获取训练样本,将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;定义KL散度,其中,KL散度与函数σ和函数μ存在以下关系,KL=-0.5*(1+log σ 222)=-0.5(1+log σ 22-exp(log σ 2));通过最小化KL散度,训练双向LSTM神经网络;当KL散度取最小值时,确定双向LSTM神经网络模型训练完成。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:对高斯分布的随机数进行随机采样,得到注意力参数;将注意力参数和采样变量Z输入变分自编码器的解码器;变分自编码器的解码器输出原始样本的相似样本。
可选地,变分自编码器的解码器为全连接神经网络,在程序运行时控制存储介质所在设备还执行以下步骤:在输入采样变量Z到变分自编码器的解码器之前,训练全连接神经网络,训练全连接神经网络,包括:获取多个训练样本;将 多个训练样本输入变分自编码器,变分自编码器输出多个训练样本的多个相似样本;计算多个相似样本与多个训练样本之间的差异,即损失函数的值;采用反向传播优化变分自编码器的解码器的参数;多次迭代优化变分自编码器的解码器的参数,使损失函数的值最小化,得到训练后的全连接神经网络。
一方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现以下步骤:获取原始样本;输入原始样本到变分自编码器的编码器,变分自编码器的编码器包括两个神经网络,两个神经网络分别输出μ和σ,μ和σ均为原始样本的函数;根据μ和σ的平方即σ 2,生成相应高斯分布的随机数,高斯分布的方差为σ 2,高斯分布的均值为μ;对标准正态分布进行随机采样,得到采样值ε,根据采样值ε和高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;输入采样变量Z到变分自编码器的解码器,变分自编码器的解码器解码后输出原始样本的相似样本,将相似样本作为扩充样本。
可选地,程序指令被处理器加载并执行时还实现以下步骤:将原始样本进行切分,得到多个分词,获取多个分词的词向量;根据词向量确定原始样本对应的向量;将原始样本对应的向量输入变分自编码器的编码器中进行编码,变分自编码器的编码器采用双向LSTM神经网络模型进行编码;变分自编码器的编码器编码后输出μ和σ。
可选地,程序指令被处理器加载并执行时还实现以下步骤:在采用双向LSTM神经网络模型进行编码之前,训练双向LSTM神经网络模型,训练双向LSTM神经网络模型,包括:获取训练样本,将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;定义KL散度,其中,KL散度与函数σ和函数μ存在以下关系,KL=-0.5*(1+log σ 222)=-0.5(1+log σ 22-exp(log σ 2));通过最小化KL散度,训练双向LSTM神经网络;当KL散度取最小值时,确定双向LSTM神经网络模型训练完成。
可选地,程序指令被处理器加载并执行时还实现以下步骤:对高斯分布的随机数进行随机采样,得到注意力参数;将注意力参数和采样变量Z输入变分自编码器的解码器;变分自编码器的解码器输出原始样本的相似样本。
可选地,变分自编码器的解码器为全连接神经网络,程序指令被处理器加载并执行时还实现以下步骤:在输入采样变量Z到变分自编码器的解码器之前,训练全连接神经网络,训练全连接神经网络,包括:获取多个训练样本;将多个训练样本输入变分自编码器,变分自编码器输出多个训练样本的多个相似样本;计算多个相似样本与多个训练样本之间的差异,即损失函数的值;采用反向传播优化变分自编码器的解码器的参数;多次迭代优化变分自编码器的解码器的参数,使损失函数的值最小化,得到训练后的全连接神经网络。
图3是本申请实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备50包括:处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53,该计算机程序53被处理器51执行时实现实施例中的基于变分自编码器的训练样本数据扩充方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器51执行时实现实施例中基于变分自编码器的训练样本数据扩充装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图3仅仅是计算机设备50的示例,并不构成对计算机设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用 集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以是计算机设备50的内部存储单元,例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备,例如计算机设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (20)

  1. 一种基于变分自编码器的训练样本数据扩充方法,其特征在于,所述方法包括:
    获取原始样本;
    输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;
    根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;
    对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;
    输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
  2. 根据权利要求1所述的方法,其特征在于,所述输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,包括:
    将所述原始样本进行切分,得到多个分词,获取所述多个分词的词向量;
    根据所述词向量确定所述原始样本对应的向量;
    将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码,所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码;
    所述变分自编码器的编码器编码后输出所述μ和所述σ。
  3. 根据权利要求1所述的方法,其特征在于,所述输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,包括:
    对所述高斯分布的随机数进行随机采样,得到注意力参数;
    将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器;
    所述变分自编码器的解码器输出所述原始样本的相似样本。
  4. 根据权利要求2所述的方法,其特征在于,在所述采用双向LSTM神经网络模型进行编码之前,所述方法还包括:训练所述双向LSTM神经网络模型,
    所述训练所述双向LSTM神经网络模型,包括:
    获取训练样本,将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;
    定义KL散度,其中,所述KL散度与所述函数σ和所述函数μ存在以下关系,KL=-0.5*(1+logσ 222)=-0.5(1+logσ 22-exp(logσ 2));
    通过最小化所述KL散度,训练所述双向LSTM神经网络;
    当所述KL散度取最小值时,确定所述双向LSTM神经网络模型训练完成。
  5. 根据权利要求1至4任一项所述的方法,其特征在于,所述变分自编码器的解码器为全连接神经网络,在所述输入所述采样变量Z到所述变分自编码器的解码器之前,所述方法还包括:训练所述全连接神经网络,
    所述训练所述全连接神经网络,包括:
    获取多个训练样本;
    将所述多个训练样本输入所述变分自编码器,所述变分自编码器输出所述多个训练样本的多个相似样本;
    计算所述多个相似样本与多个训练样本之间的差异,即损失函数的值;
    采用反向传播优化所述变分自编码器的解码器的参数;
    多次迭代优化所述变分自编码器的解码器的参数,使所述损失函数的值最小化,得到训练后的所述全连接神经网络。
  6. 一种基于变分自编码器的训练样本数据扩充装置,其特征在于,所述装置包括:
    获取单元,用于获取原始样本;
    第一输入单元,用于输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;
    生成单元,用于根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;
    第一采样单元,用于对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;
    第一输出单元,用于输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
  7. 根据权利要求6所述的装置,其特征在于,所述第一输入单元包括:
    切分模块,用于将所述原始样本进行切分,得到多个分词,获取所述多个分词的词向量;
    第一确定模块,用于根据所述词向量确定所述原始样本对应的向量;
    编码模块,用于将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码,所述变分自编码器的编码器采用双向LSTM神经网 络模型进行编码;
    第一输出模块,用于所述变分自编码器的编码器编码后输出所述μ和所述σ。
  8. 根据权利要求6所述的装置,其特征在于,所述第一输出单元包括:
    第一采样模块,用于对所述高斯分布的随机数进行随机采样,得到注意力参数;
    第一输入模块,用于将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器;
    第二输出模块,用于所述变分自编码器的解码器输出所述原始样本的相似样本。
  9. 根据权利要求7所述的装置,其特征在于,所述装置还包括:
    第一训练单元,用于在所述编码模块采用双向LSTM神经网络模型进行编码之前,训练所述双向LSTM神经网络模型;
    所述第一训练单元包括:
    第一获取模块,用于获取训练样本,将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;
    定义模块,用于定义KL散度,其中,所述KL散度与所述函数σ和所述函数μ存在以下关系,KL=-0.5*(1+logσ 222)=-0.5(1+logσ 22-exp(logσ 2));
    第一训练模块,用于通过最小化所述KL散度,训练所述双向LSTM神经网络;
    第二确定模块,用于当所述KL散度取最小值时,确定所述双向LSTM神经网络模型训练完成。
  10. 根据权利要求6至9任一项所述的装置,其特征在于,所述装置还包括:
    第二训练单元,用于在所述第一输出单元输入所述采样变量Z到所述变分自编码器的解码器之前,训练所述全连接神经网络;
    所述第二训练单元包括:
    第二获取模块,用于获取多个训练样本;
    第二输入模块,用于将所述多个训练样本输入所述变分自编码器,所述变分自编码器输出所述多个训练样本的多个相似样本;
    计算模块,用于计算所述多个相似样本与多个训练样本之间的差异,即损失函数的值;
    优化模块,用于采用反向传播优化所述变分自编码器的解码器的参数;
    第二训练模块,用于多次迭代优化所述变分自编码器的解码器的参数,使所述损失函数的值最小化,得到训练后的所述全连接神经网络。
  11. 一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以下步骤:
    获取原始样本;
    输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;
    根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;
    对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;
    输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
  12. 根据权利要求11所述的存储介质,其特征在于,在所述程序运行时控制所述存储介质所在设备执行所述输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ的步骤,包括:
    将所述原始样本进行切分,得到多个分词,获取所述多个分词的词向量;
    根据所述词向量确定所述原始样本对应的向量;
    将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码,所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码;
    所述变分自编码器的编码器编码后输出所述μ和所述σ。
  13. 根据权利要求11所述的存储介质,其特征在于,在所述程序运行时控制所述存储介质所在设备执行所述输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本的步骤,包括:
    对所述高斯分布的随机数进行随机采样,得到注意力参数;
    将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器;
    所述变分自编码器的解码器输出所述原始样本的相似样本。
  14. 根据权利要求12所述的存储介质,其特征在于,在所述程序运行时控制所述存储介质所在设备在执行所述采用双向LSTM神经网络模型进行编码之前,还执行以下步骤:
    训练所述双向LSTM神经网络模型,
    所述训练所述双向LSTM神经网络模型,包括:
    获取训练样本,将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;
    定义KL散度,其中,所述KL散度与所述函数σ和所述函数μ存在以下关系,KL=-0.5*(1+logσ 222)=-0.5(1+logσ 22- exp(logσ 2));
    通过最小化所述KL散度,训练所述双向LSTM神经网络;
    当所述KL散度取最小值时,确定所述双向LSTM神经网络模型训练完成。
  15. 根据权利要求11至14所述的存储介质,其特征在于,所述变分自编码器的解码器为全连接神经网络,在所述程序运行时控制所述存储介质所在设备在执行所述输入所述采样变量Z到所述变分自编码器的解码器之前,还执行以下步骤:
    训练所述全连接神经网络,
    所述训练所述全连接神经网络,包括:
    获取多个训练样本;
    将所述多个训练样本输入所述变分自编码器,所述变分自编码器输出所述多个训练样本的多个相似样本;
    计算所述多个相似样本与多个训练样本之间的差异,即损失函数的值;
    采用反向传播优化所述变分自编码器的解码器的参数;
    多次迭代优化所述变分自编码器的解码器的参数,使所述损失函数的值最小化,得到训练后的所述全连接神经网络。
  16. 一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现以下步骤:
    获取原始样本;
    输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ,所述μ和所述σ均为所述原始样本的函数;
    根据所述μ和所述σ的平方即σ 2,生成相应高斯分布的随机数,所述高斯分布的方差为σ 2,所述高斯分布的均值为μ;
    对标准正态分布进行随机采样,得到采样值ε,根据所述采样值ε和所述高斯分布的随机数,确定采样变量Z,Z=σ 2·ε+μ;
    输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本,将所述相似样本作为扩充样本。
  17. 根据权利要求16所述的计算机设备,其特征在于,所述程序指令被处理器加载并执行时实现所述输入所述原始样本到变分自编码器的编码器,所述变分自编码器的编码器包括两个神经网络,所述两个神经网络分别输出μ和σ的步骤,包括:
    将所述原始样本进行切分,得到多个分词,获取所述多个分词的词向量;
    根据所述词向量确定所述原始样本对应的向量;
    将所述原始样本对应的向量输入所述变分自编码器的编码器中进行 编码,所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码;
    所述变分自编码器的编码器编码后输出所述μ和所述σ。
  18. 根据权利要求16所述的计算机设备,其特征在于,所述程序指令被处理器加载并执行时实现所述输入所述采样变量Z到所述变分自编码器的解码器,所述变分自编码器的解码器解码后输出所述原始样本的相似样本的步骤,包括:
    对所述高斯分布的随机数进行随机采样,得到注意力参数;
    将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器;
    所述变分自编码器的解码器输出所述原始样本的相似样本。
  19. 根据权利要求17所述的计算机设备,其特征在于,所述程序指令被处理器加载并执行时在实现所述采用双向LSTM神经网络模型进行编码之前,还实现以下步骤:
    训练所述双向LSTM神经网络模型,
    所述训练所述双向LSTM神经网络模型,包括:
    获取训练样本,将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ;
    定义KL散度,其中,所述KL散度与所述函数σ和所述函数μ存在以下关系,KL=-0.5*(1+logσ 222)=-0.5(1+logσ 22-exp(logσ 2));
    通过最小化所述KL散度,训练所述双向LSTM神经网络;
    当所述KL散度取最小值时,确定所述双向LSTM神经网络模型训练完成。
  20. 根据权利要求16至19所述的计算机设备,其特征在于,所述变分自编码器的解码器为全连接神经网络,所述程序指令被处理器加载并执行时在实现所述输入所述采样变量Z到所述变分自编码器的解码器之前,还实现以下步骤:
    训练所述全连接神经网络,
    所述训练所述全连接神经网络,包括:
    获取多个训练样本;
    将所述多个训练样本输入所述变分自编码器,所述变分自编码器输出所述多个训练样本的多个相似样本;
    计算所述多个相似样本与多个训练样本之间的差异,即损失函数的值;
    采用反向传播优化所述变分自编码器的解码器的参数;
    多次迭代优化所述变分自编码器的解码器的参数,使所述损失函数的值最小化,得到训练后的所述全连接神经网络。
PCT/CN2019/118261 2019-01-09 2019-11-14 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 WO2020143321A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910018808.5 2019-01-09
CN201910018808.5A CN109886388B (zh) 2019-01-09 2019-01-09 一种基于变分自编码器的训练样本数据扩充方法和装置

Publications (1)

Publication Number Publication Date
WO2020143321A1 true WO2020143321A1 (zh) 2020-07-16

Family

ID=66925711

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/118261 WO2020143321A1 (zh) 2019-01-09 2019-11-14 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备

Country Status (2)

Country Link
CN (1) CN109886388B (zh)
WO (1) WO2020143321A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886388B (zh) * 2019-01-09 2024-03-22 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN110377785B (zh) * 2019-06-21 2023-10-03 江苏师范大学 一种基于深度学习的徐州梆子作曲方法
CN110443758B (zh) * 2019-07-05 2023-08-25 广东省人民医院(广东省医学科学院) 一种医疗影像去噪方法及装置
CN111191255B (zh) * 2019-08-08 2024-04-05 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN110704590B (zh) * 2019-09-27 2022-04-12 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN110929772A (zh) * 2019-11-15 2020-03-27 北京奇艺世纪科技有限公司 模型训练方法、样本生成方法、装置、电子设备及存储介质
CN111724767B (zh) * 2019-12-09 2023-06-02 江汉大学 基于狄利克雷变分自编码器的口语理解方法及相关设备
CN111160487B (zh) * 2019-12-31 2024-02-13 清华大学 人脸图像数据集的扩充方法和装置
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
CN111241815A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN111258992A (zh) * 2020-01-09 2020-06-09 电子科技大学 一种基于变分自编码器的地震数据扩充方法
CN111599431A (zh) * 2020-03-31 2020-08-28 太原金域临床检验有限公司 基于报告单的数据编码模型生成方法、系统和设备
CN111539769A (zh) * 2020-04-27 2020-08-14 支付宝(杭州)信息技术有限公司 基于差分隐私的异常检测模型的训练方法及装置
CN111564188B (zh) * 2020-04-29 2023-09-12 核工业北京地质研究院 一种基于变分自编码矿物信息定量分析方法
CN111563548B (zh) * 2020-04-30 2024-02-02 鹏城实验室 一种基于强化学习的数据预处理方法、系统及相关设备
CN111595489B (zh) * 2020-05-27 2021-06-25 吉林大学 一种基于变分自编码器的启发式高分辨率海洋水温分布建立方法
CN111652135B (zh) * 2020-06-03 2023-05-23 广州视源电子科技股份有限公司 心电图数据生成方法、装置及电子设备
US20210397945A1 (en) * 2020-06-18 2021-12-23 Nvidia Corporation Deep hierarchical variational autoencoder
CN111835747A (zh) * 2020-07-07 2020-10-27 中国电子科技集团公司第三十研究所 一种协议伪装方法、系统、计算机设备及存储介质
CN112419324B (zh) * 2020-11-24 2022-04-19 山西三友和智慧信息技术股份有限公司 一种基于半监督任务驱动的医学图像数据扩充方法
CN113642822B (zh) * 2020-12-04 2024-03-01 广东省建筑设计研究院有限公司 用于评估建筑群结构安全的基于vae的样本集指向性扩展法
CN112966150A (zh) * 2021-02-26 2021-06-15 平安普惠企业管理有限公司 一种视频内容抽取的方法、装置、计算机设备及存储介质
CN113051873A (zh) * 2021-03-22 2021-06-29 中国人民解放军战略支援部队信息工程大学 基于变分自编码器的轻量级口令猜测字典生成方法及装置
CN113095377A (zh) * 2021-03-26 2021-07-09 中国科学院电工研究所 一种危险驾驶场景数据随机生成方法及系统
CN112883656B (zh) * 2021-04-14 2022-11-01 北京理工大学 一种基于正常运行数据的动力舱失效风险评价方法
CN113256434B (zh) * 2021-06-08 2021-11-23 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN113642716A (zh) * 2021-08-31 2021-11-12 南方电网数字电网研究院有限公司 深度变分自编码器模型训练方法、装置、设备和存储介质
CN113743595B (zh) * 2021-10-09 2023-08-15 福州大学 基于物理驱动自编码器神经网络的结构参数识别方法
CN114092704B (zh) * 2021-10-22 2022-10-21 北京大数据先进技术研究院 基于近邻传播的实例匹配方法、装置、设备及存储介质
CN113989597B (zh) * 2021-12-28 2022-04-05 中科视语(北京)科技有限公司 车辆重识别方法、装置、电子设备及存储介质
CN116304540A (zh) * 2023-05-23 2023-06-23 吉林大学 海洋观测数据处理方法及装置
CN116777292B (zh) * 2023-06-30 2024-04-16 北京京航计算通讯研究所 基于多批次小样本航天产品的缺陷率指标修正方法
CN116758378B (zh) * 2023-08-11 2023-11-14 小米汽车科技有限公司 生成模型的方法、数据处理方法、相关装置、车辆及介质
CN116958712B (zh) * 2023-09-20 2023-12-15 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
CN117710371B (zh) * 2024-02-05 2024-04-26 成都数之联科技股份有限公司 一种扩充缺陷样本的方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
US20180101784A1 (en) * 2016-10-05 2018-04-12 D-Wave Systems Inc. Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108509627A (zh) * 2018-04-08 2018-09-07 腾讯科技(深圳)有限公司 数据离散化模型训练方法和装置、数据离散方法
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157817B2 (en) * 2015-08-19 2021-10-26 D-Wave Systems Inc. Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
CN108197736B (zh) * 2017-12-29 2021-08-13 北京工业大学 一种基于变分自编码器和极限学习机的空气质量预测方法
CN108776806A (zh) * 2018-05-08 2018-11-09 河海大学 基于变分自编码器和密度峰值的混合属性数据聚类方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101784A1 (en) * 2016-10-05 2018-04-12 D-Wave Systems Inc. Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108509627A (zh) * 2018-04-08 2018-09-07 腾讯科技(深圳)有限公司 数据离散化模型训练方法和装置、数据离散方法
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置

Also Published As

Publication number Publication date
CN109886388A (zh) 2019-06-14
CN109886388B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
WO2020143321A1 (zh) 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备
US20200265192A1 (en) Automatic text summarization method, apparatus, computer device, and storage medium
Sariyar et al. The RecordLinkage package: detecting errors in data.
CN110458187B (zh) 一种恶意代码家族聚类方法和系统
CN109933656B (zh) 舆情极性预测方法、装置、计算机设备及存储介质
WO2017092623A1 (zh) 文本向量表示方法及装置
CN110033089B (zh) 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及系统
WO2018036547A1 (zh) 一种数据处理的方法以及装置
WO2020215694A1 (zh) 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及系统
WO2021253941A1 (zh) 神经网络模型训练、图像分类、文本翻译方法及装置、设备
WO2022095379A1 (zh) 数据降维处理方法、装置、计算机设备及存储介质
WO2022188711A1 (zh) Svm模型的训练方法、装置、设备和计算机可读存储介质
CN107240100B (zh) 一种基于遗传算法的图像分割方法和系统
CN115659823A (zh) 基于属性约简的翼型气动力系数预测方法、电子设备及存储介质
US10769517B2 (en) Neural network analysis
CN111160049A (zh) 文本翻译方法、装置、机器翻译系统和存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
JP5552023B2 (ja) クラスタリング・システム、方法及びプログラム
CN113762005A (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
Zheng et al. Boundary adjusted network based on cosine similarity for temporal action proposal generation
CN115599918A (zh) 一种基于图增强的互学习文本分类方法及系统
Fan et al. The cascade improved model based deep forest for small-scale datasets classification
WO2021017736A1 (zh) 一种图像分析装置
Shen et al. Optimisation of K-means algorithm based on sample density canopy

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908447

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19908447

Country of ref document: EP

Kind code of ref document: A1