WO2019004350A1 - データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法 - Google Patents

データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法 Download PDF

Info

Publication number
WO2019004350A1
WO2019004350A1 PCT/JP2018/024569 JP2018024569W WO2019004350A1 WO 2019004350 A1 WO2019004350 A1 WO 2019004350A1 JP 2018024569 W JP2018024569 W JP 2018024569W WO 2019004350 A1 WO2019004350 A1 WO 2019004350A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
discriminator
error
weighting matrix
prediction result
Prior art date
Application number
PCT/JP2018/024569
Other languages
English (en)
French (fr)
Inventor
岳 宮戸
Original Assignee
株式会社 Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 Preferred Networks filed Critical 株式会社 Preferred Networks
Priority to CN201880043309.5A priority Critical patent/CN110799995A/zh
Priority to EP18824804.1A priority patent/EP3648017A4/en
Priority to JP2019527020A priority patent/JP6595151B2/ja
Publication of WO2019004350A1 publication Critical patent/WO2019004350A1/ja
Priority to US16/726,153 priority patent/US11593663B2/en
Priority to US18/101,242 priority patent/US11842284B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the present invention relates to a data classifier training method, a data classifier training apparatus, a program and a training method.
  • GAN Generative Adversial Networks, Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, "Generative adversial networks," arXiv preprint ariv: 1406.2661, 10 Jun 2014)
  • GAN is a framework for generating a model distribution that simulates a given target distribution, and includes a generator that generates the model distribution, and a discriminator that distinguishes the model distribution from the target. At each step, the best discriminator is continuously trained to reduce the difference between the model distribution and the target distribution measured by the discriminator thereto.
  • Embodiments of the present invention propose a data discriminator method, apparatus and program for stabilizing discriminator network training.
  • a data discriminator training method is a data discriminator training method for training a data discriminator comprising a neural network model that identifies correct data and pseudo data, the data discriminator training method Inputting the correct answer data to the first data, acquiring the first prediction result, inputting the pseudo data to the data discriminator, and acquiring the second prediction result, the acquired first prediction result and acquisition Calculating an error based on the calculated second prediction result, and updating the weighting matrix based on the error and singular values of weighting matrices of respective layers of the neural network model.
  • FIG. 6 is a flowchart showing a flow of learning of the data discriminator according to the present embodiment.
  • FIG. 2 is a block diagram showing the function of the data determination apparatus according to the present embodiment.
  • the figure which shows the example of a setting of the parameter in comparative experiment. The graph which shows the inception score in comparative experiment.
  • the graph which shows the inception score in comparative experiment The figure which shows the inception score in comparative experiment.
  • the figure which shows the inception score in comparative experiment. The figure which shows the example of the output result in a comparison experiment.
  • the figure which shows the size of the singular value of the weight matrix in comparative experiment The figure which shows the processing time in comparative experiment.
  • the figure which shows the processing time in comparative experiment The figure which shows the inception score in comparative experiment.
  • the figure which shows the loss in comparative experiment The figure which shows the loss in comparative experiment.
  • the figure which shows the inception score in comparative experiment The figure which shows the inception score in comparative experiment.
  • GAN hostile generation network
  • the generator learns training data (correct data) which is target data, and generates data (pseudo data) similar to the training data. This generator is learned as a model that outputs pseudo data when noise data is input.
  • the discriminator discriminator discriminates between pseudo data generated by the generator and correct data. That is, the generator is trained so that the distribution of target data (the distribution of training data) matches the distribution of the generated model, while the discriminator learns to distinguish between correct data and pseudo data Be done.
  • a generator network there are two, a generator network and a discriminator network.
  • a discriminator network for example, a multi-layer perceptron (MLP), a convolution network or the like is used.
  • MLP multi-layer perceptron
  • convolution network or the like is used.
  • a network of discriminators according to MLP represented by the following equation will be described.
  • the following equation can be used for each of the weight matrices in the convolutional layer, and the normalization of the weight matrix according to the present embodiment can be applied similarly.
  • Vector h l is the output of layer l
  • matrix W l is the weighting matrix between layers l-1 and l
  • vector b l is the bias in layer l
  • a l is element by element
  • the nonlinear activation function is shown.
  • dim (l) represents the dimension of l and R represents a real number field.
  • the output of the last layer of the network with the input vector x is h L.
  • E [ ⁇ ] represents the expectation value
  • q is the variance of the target data
  • p G is the variance of the generator of the model learned through the adversary minimum value maximum optimization
  • x ′ is It is pseudo data generated by the generator.
  • the activation function A used in this form of D is, for example, a continuous function in the range of [0, 1] such as a sigmoid function.
  • D G * q (x) / (q (x) + p G (x)) It has been known.
  • This derivative is expressed as follows, which may be unbounded or incomputable in practice.
  • Input-based regularization allows relatively easy formulation based on samples, but with the exception of heuristics and similar means, it is difficult to impose normalization to the space outside the support of the generator and target data distribution It is. Therefore, in the present embodiment, the weight matrix is calculated using spectrum normalization (Spectral Normalization, Yuichi Yoshida and Takeru Miyato, "Spectral norm regularization for improving the genericizability of deep learning," arXiv preprint arXiv: 1705. 10941, 31 May 2017). Normalize.
  • ReLU the activation function a l (Rectified Linear Unit), when a LeakyReLU, a
  • Lip 1.
  • Each activation function a l If the meet
  • Lip 1, inequality
  • Lip Because there is,
  • ⁇ (W) is a spectrum norm which is the L 2 norm of the matrix W, and is expressed as follows as being equivalent to the largest singular value of W:
  • the spectrum normalization can normalize the spectrum norm of the weight matrix W and set the Lipschitz constant to 1, as follows.
  • E ij represents a matrix in which the (i, j) element is 1 and the other elements are 0, u 1 is a first left singular vector of W, v 1 is a first right singular vector of W It is.
  • the first left singular vector and the first right singular vector are singular values that are upper left components in a singular value matrix in which singular value components are sorted in descending order from upper left to lower right when singular value decomposition of W is performed.
  • the left singular vector and the right singular vector corresponding to (first singular value) are shown.
  • E ⁇ [•] represents the empirical expectation value in the mini-batch
  • ( ⁇ V (G, D) / ⁇ (W / SN h)) T
  • E ⁇ [ ⁇ T (W / SN h)].
  • the first term E ⁇ [ ⁇ h T ] is equal to the derivative of the unnormalized weight.
  • the second term can be viewed as a normalization term that penalizes the first singular value component using the compensation normalization factor ⁇ .
  • is a positive value if ⁇ and W / SN h indicate the same direction, which prevents W strings from concentrating in one direction during training. In other words, spectral normalization prevents the transformation in each layer from becoming sensitive in one direction.
  • is a scalar variable to be learned.
  • This parameterization includes 1-Ripschits constraints in the layer of interest, but can prevent the model from degenerating and can give the model some freedom.
  • the Lipschitz state is controlled by other means such as Gradient Penalty.
  • ⁇ (W) the spectral norm ⁇ (W) normalized in each layer of the discriminator network is the largest singular value of W.
  • Power Iteration Method may be used to evaluate ⁇ (W).
  • the spectral norm of W can be approximated by a pair of singular vectors approximated as above, as follows.
  • FIG. 1 is a flowchart showing the process flow of the present embodiment.
  • generator generation is omitted, but the method of generator generation is not particularly limited.
  • generation of a discriminator will be described.
  • Discriminator learning may be performed using mini-batch as described above, or as another example, processing may be performed in the same manner as described below even if it is performed by batch learning or online learning.
  • a neural network model of a generator and discriminator is set (S100).
  • the set model is, for example, a neural network model such as MLP or CNN as described above.
  • the weight matrix W l that connect the layers of the discriminator to initialize the left singular vectors u ⁇ l ( ⁇ R dim (l )) (S102).
  • the initialization is performed, for example, using random numbers based on isotropic positive distribution.
  • u ⁇ l is left singular vectors of the weight matrix W l
  • v ⁇ l are respectively the right singular vectors of the weight matrix W l. That is, using an initialized left singular vectors u ⁇ l and the weighting matrix W l a random number, updating the right singular vectors v ⁇ l. Using the updated right singular vectors v ⁇ l and the weighting matrix W l, updates the left singular vectors u ⁇ l.
  • the first right singular vector and the first left singular vector are calculated by performing the convergence operation of alternately updating based on the power method. This step may be optionally repeated a predetermined number of times.
  • an error is calculated based on the spectrum normalized weight matrix W / SN l (S108).
  • the correct data which is training data
  • the pseudo data which is the output result of the generator
  • W / SN l the spectrum normalized weight matrix
  • the output layer for example, an error in the output layer is calculated based on a label in which the output result of the generator is false and the output result of the correct data is true.
  • this step (S108) comprises the following three steps. First, a first prediction result as to whether or not the correct data is determined to be correct data is acquired. Next, a second prediction result is obtained as to whether or not it is determined that the pseudo data is not correct data. Then, an error is calculated based on the first prediction result and the second prediction result using a loss function represented by [Equation 3]. By back propagating this error, the weighting matrix is updated as described below.
  • the weight matrix W l is updated based on the following equation.
  • W / SN l (W l ) indicates a spectrum normalized weight matrix
  • D M indicates that the value is based on a predetermined data set. For example, when performing mini-batch processing, D M indicates updating the weight matrix W 1 based on the data set in the mini-batch.
  • l denotes a loss function and is a function based on [Equation 3] or the like, for example, a function shown by [Equation 17] described later, and depending on an algorithm, [Equation 20] or the like described later.
  • the error between the first prediction result and the true value (first partial error) when correct data is input to the data discriminator, and the second prediction result when false data is input to the data discriminator The overall error (loss) is calculated on the basis of the error between the and the false value (second partial error).
  • the first term of [Equation 3] indicates the error between the first prediction result and the true value
  • the second term indicates the error between the second prediction result and the false value
  • the loss is calculated by calculating the sum of these.
  • the update shown in [Equation 16] is based on the general SGD update, except that the spectrum normalized weight matrix W / SN 1 is used.
  • the weight matrix may be further updated based on the output from each mini-batch. Updating of the weight matrix based on the output from each minibatch is performed by a general method.
  • optimization it is determined whether the optimization is completed (S112).
  • the end of optimization is determined based on, for example, that the weighting matrix has been updated in all layers, a predetermined number of epochs have been completed, the evaluation function satisfies a predetermined condition, the loss function satisfies a predetermined condition, etc. Be done.
  • learning such as batch learning and mini-batch learning, it may be determined whether learning has ended for necessary data.
  • the weight matrix of the immediately preceding layer is continuously updated by back-propagating the calculated error. If the weight matrices of all layers have been updated for all mini-batches in an epoch, it is determined whether the epoch has reached a predetermined number of times, and the training is ended or continued.
  • the end conditions at different levels are collectively described, but of course, the end conditions for optimization may be set more finely, and it is assumed that the flowchart can be understood as a nested loop. .
  • the processes of S104 to S110 are repeatedly performed.
  • the loss is back-propagated to the layer before the layer whose weight matrix is updated in S110, and the weight matrix of the previous layer is updated Do the processing.
  • the predetermined number of epochs have not been completed, processing is performed until the predetermined number of times is reached.
  • the evaluation function or the loss function does not satisfy the predetermined condition, processing is performed until the predetermined condition is satisfied.
  • processing is performed until data learning is completed, and then the processing is repeated until the above-mentioned epoch number, evaluation function, and loss function conditions are satisfied.
  • the initial value of the left singular vector may be a vector optimized by the power method in the previous step.
  • FIG. 2 is a block diagram showing the function of the data discriminator generation device according to the present embodiment.
  • the data discriminator generation device 1 includes a data discriminator initialization unit 10, a data discriminator storage unit 12, an input unit 14, a forward propagation unit 16, an error calculation unit 18, and a back propagation block 20. .
  • the data discriminator initialization unit 10 initializes a discriminator (data discriminator) model in GAN. For example, selection of a neural network model to be used as a model, the number of hidden layers, and initialization of weighting matrices connecting each layer are performed. The selection of neural network models and the number of hidden layers may be user specification. The initialization of the weight matrix may be one that accepts specification by the user, or may be one that is automatically generated by random numbers or the like. The data discriminator initialization unit 10 performs the process of S100 described above. In addition to the generation of the model, initialization of the left singular vector of the weight matrix between each layer shown in S102 may be performed.
  • the data classifier initialization unit 10 is not an essential component of the data classifier generation device 1.
  • the model of the discriminator may be stored by the user inputting a model generated in advance in the data discriminator storage unit 12.
  • a model generated by automatic processing outside the data discriminator generation device 1 may be input to the data discriminator storage unit 12 and stored as a discriminator model.
  • the data discriminator storage unit 12 stores a model initialized by the data discriminator initialization unit 10, a model obtained by optimizing the model, and the like. During learning, a model in which the weighting matrix or the like is updated may be stored.
  • the forward propagation unit 16 and the back propagation block 20 perform forward propagation and back propagation using the model stored in the data discriminator storage unit 12 and update the model.
  • the input unit 14 inputs the pseudo data and the correct data, which are data similar to the correct data (training data) generated by the generator (data generator), to the forward propagation unit 16.
  • the discriminator is optimized to discriminate between pseudo data generated by the generator and correct data.
  • the forward propagation unit 16 inputs the above pseudo data or the correct answer data into the data discriminator stored in the data discriminator storage unit 12, and performs forward propagation.
  • the forward propagation unit 16 inputs data to the input layer of the data discriminator, and acquires the discrimination result from the output layer.
  • a model stored in the data discriminator storage unit 12 is used as the data discriminator.
  • the error calculation unit 18 compares an output when pseudo data is input to the data discriminator with an output when correct data is input to the data discriminator, and calculates an error.
  • the calculation of the error uses, for example, the equation shown in [Equation 3].
  • the error calculation unit 18 performs the process of S104.
  • the error calculated by the error calculating unit 18 is input to the back propagation block 20, and an error back propagation process is performed. Further, the error calculation unit 18 calculates an error during error back propagation.
  • the backpropagation block 20 performs backpropagation of the error and updating of the weight matrix using the calculated error.
  • the back propagation block 20 updates the model of the data discriminator stored in the data discriminator storage unit 12 by error back propagation. For example, the weighting matrix (parameters) in the model is updated.
  • the back propagation block 20 includes a back propagation unit 200 and an update unit 202.
  • the back propagation unit 200 performs error back propagation processing based on the model of the data discriminator stored in the data discriminator storage unit 12 and the error calculated by the error calculation unit 18.
  • the updating unit 202 particularly performs processing of updating a weight matrix in back propagation processing.
  • the updating unit 202 performs the processes of S104 to S110.
  • the weighting matrix is updated by the processing of updating the singular vector in S106 and the normalization of the weighting matrix in S108.
  • the back propagation unit 200 back propagates the error from the output layer to the Lth layer, and the updating unit 202 updates the weight matrix in the Lth layer.
  • the weight matrix of the Lth layer is updated in the mini-batch.
  • the error is back-propagated from the Lth layer to the L-1th layer, and the weighting matrix is similarly updated.
  • the weight matrix in each layer is updated by backpropagating the error sequentially.
  • mini-batch learning after the update of the weight matrix of the hidden layer is finished and the learning step in the mini-batch, for example, the learning step based on the evaluation value as described above is finished, the next mini-batch is generated, and so on Update the weight matrix to The processing of mini-batch is performed in a general manner.
  • WGAN Wesserstein GAN
  • WGAN-GP Wesserstein GAN with Gradient Penalty
  • DCGAN Deep Convolutional GAN
  • Spectral normalization can also be applied to other GAN algorithms, such as, DRAGAN (Deep Regret Analytic GAN).
  • D KL [ ⁇ ] represents KL divergence (Kulback-Leibler Information).
  • FIG. 3 gives examples of simulation parameters.
  • the setting section indicates the name of each parameter.
  • ⁇ , ⁇ 1 and ⁇ 2 are hyper parameters in Adam, respectively.
  • represents a learning rate
  • ⁇ 1 represents a first momentum
  • ⁇ 2 represents a second momentum.
  • ndis indicates the number of times the discriminator is updated each time the generator is updated once.
  • the combination of these parameters is displayed as an example for describing the simulation result, and is not an important part in the GAN method using the spectrum normalization according to the present embodiment, but may be arbitrarily changed. It is.
  • the setting A is a parameter shown in the paper of the WGAN-GP method (I. Gulrajani, et. Al, "Improved training of Wasserstein gans.” ArXiv preprint, arXiv: 1704.00028, 2017).
  • Setting B is a parameter shown in a paper (D. Warde-Farley, et. Al, "Improving generative adversial networks with denoising feature matching," ICLR, Nov. 6, 2016).
  • Setting C is a parameter shown in the paper of DCGAN (Deep Convolutional GAN) method (A. Radford, et. Al, "Unsupervised representation learning with deep convolutional generic networks," arXiv preprint, arXiv: 1611.06624, 2016) .
  • Settings A to C are examples given for comparison with the results already published as papers.
  • setting D to setting F are parameter sets set to evaluate improvement of the algorithm in a situation where more active learning is performed. In each of these settings, we updated 100,000 generator updates.
  • SN the learning of the generator using the learning of the discriminator by the spectrum normalization according to the present embodiment
  • SN Weight Normalization: T. Salimans, et. Al, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," Advance in Neural Information Processing Systems, p. 901, 2016
  • WGAN-GP Weight Normalization: A simple reparameterization to accelerate training of deep neural networks
  • the results to be compared are described as Comparative Example 1 and Comparative Example 2, respectively.
  • FIG. 4A is a graph showing the result of simulation in each setting shown in FIG. 3 using the image of the data set CIFAR-10 and FIG. 4B using the image of the data set STL-10.
  • the vertical axis represents the inception score described above.
  • Comparative Example 2 fails to obtain good output results by GAN for high learning rates and high momentum parameters.
  • the comparative example 1 can not ensure the effectiveness of the optimization as compared with the SN and the comparative example 2 in the STL-10 that is configured by various examples than the CIFAR-10.
  • SN is superior to other methods in both other CIFAR-10 and STL-10.
  • FIG. 5A uses the image of the data set CIFAR-10
  • FIG. 5B uses the image of the data set STL-10, and the inception score using SN, Comparative Example 1, Comparative Example 2, and other methods.
  • Is a table showing the results of The real data indicates that it is an inception score acquired using data in the data set.
  • FIG. 6 shows an image generated by the generator learned using the image of the data set CIFAR-10
  • FIG. 7 shows an image generated by the generator learned using the image of the STL-10.
  • the 48 ⁇ 48 pixel image divided into 8 ⁇ 8 blocks depicted above is an image given for training as a data set.
  • the images depicted below are images generated by a generator learned by GAN using SN, Comparative Example 1, and Comparative Example 2 in order from the top. Thus, when looking at the generated image, it can be seen that the image generated by the generator by SN is a relatively good result.
  • Comparative Example 1 when the learning rate is mentioned, good results are output for Comparative Example 1 and Comparative Example 2.
  • setting D to setting F in the first comparative example, for example, an image having a low contrast as a whole such that the entire surface is substantially the same color is output, and in the second comparative example, substantially noise data is output.
  • the SN relating to the present embodiment data with relatively high contrast is generated.
  • FIG. 8 is a diagram showing a theoretical value indicating an area where SN and the square value of the singular value of the heavy matrix in Comparative Example 1 exist.
  • the singular values of the weighting matrix are arranged in ascending order, the index is taken along the horizontal axis, and the square value of each singular value is normalized with the maximum singular value as the vertical axis.
  • the graph of FIG. 8 shows the distribution of theoretical values that can be taken in various situations with respect to the weighting matrix.
  • the solid line indicates the theoretical value at SN, and the broken line indicates the theoretical value in Comparative Example 1. As shown in FIG. 8, it can be seen that SN has a wider range of singular values than Comparative Example 1.
  • Comparative Example 1 to increase the norm, the rank is lowered, but when the rank is lowered, the number of feature quantities to be judged in the discriminator is reduced. More specifically, the determination based on each feature value depends on the magnitude of the norm of the singular value. That is, as in Comparative Example 1, when only some of the singular values take large values and the other singular values become almost 0, the feature value having a large norm of singular values is emphasized and the norm of singular values is emphasized. The feature amount with a small value has less influence on the judgment. However, in order to learn a discriminator with higher precision, it is not a good idea to reduce the number of feature quantities. As described above, in Comparative Example 1, in order to learn a discriminator with higher accuracy, it is compatible to increase the norm (make it possible to acquire many norms) and not reduce the number of feature quantities. It is difficult.
  • FIGS. 9A and 9B are graphs respectively showing the square value of the singular value of the weight matrix in each layer when learning is performed using SN and Comparative Example 1 which are different methods.
  • FIG. 9A uses the CIFAR-10 data set
  • FIG. 9B uses the STL-10 data set. Similar to FIG. 8, the solid line indicates the result by SN, and the broken line indicates the result by Comparative Example 1.
  • the norm of the singular value is larger in most of the ranges than in Comparative Example 1.
  • the norm of the singular value can be increased and the rank can not be lowered, and in the case of performing normalization, rank stability can be secured.
  • the ranks of weight matrices in these layers are insufficient.
  • SN is widely distributed. If the goal is to distinguish pairs of probability distributions of diversity powers of low-dimensional non-linear data embedded in high-dimensional space, there is a possibility that the rank deficiency in the lower layer is particularly fatal.
  • the output of the lower layer is the output through a few sets of linear transformations, showing that it is biased into a space where most of it is linear. Underestimating many features of the input distribution in such a space leads to creating over-simplistic discriminators.
  • FIG. 10A and FIG. 10B are diagrams showing operation time when the generator is updated 100 times.
  • the vertical axis represents the calculation time (seconds) when the generator in each method is updated 100 times.
  • FIG. 10A shows the result of using the data set CIFAR-10
  • FIG. 10B shows the result of using the data set STL-10.
  • Comparative Example 2 since it is necessary to obtain an additional
  • FIG. 11 is a table showing inception scores for Comparative Example 2 + SN. It shows what applied SN about standard CNN, and what applied SN about CNN using ResNet (Residual Network). As a comparison, the results of Comparative Example 2+ Comparative Example 1 and Comparative Example 2 are also shown. In the simulation, all the functions represented by [Equation 11] in learning of the discriminator were normalized by the method of SN and Comparative Example 1. It can be seen from FIG. 11 that the incidence score is improved as compared with Comparative Example 2 and Comparative Example 2 + Comparative Example 1.
  • FIG. 12A is a diagram showing a loss as an evaluation
  • FIG. 12B is a diagram showing a loss of validation.
  • the solid line indicates the results of Comparative Example 2 + SN
  • the broken line indicates the results of Comparative Example 2+ Comparative Example 1
  • the dotted line indicates the results of Comparative Example 2. From these figures, it is shown that learning by Comparative Example 2 + SN is not over-learning as compared to learning by Comparative Example 2 and Comparative Example 2 + Comparative Example 1.
  • FIG. 12B shows that the evaluation value is not lowered even for the validation data, so that learning by Comparative Example 2 + SN is not overlearning as compared with the other methods.
  • FIG. 13 is a diagram showing the inception score in the same simulation situation.
  • the solid line indicates the results of Comparative Example 2 + SN
  • the broken line indicates the results of Comparative Example 2+ Comparative Example 1
  • the dotted line indicates the results of Comparative Example 2.
  • the degree of overlearning is shown for each case. Even if the optimal result is extracted during learning, not the final result, the method according to Comparative Example 2 + SN (7.28) has a better inception score than other methods (7.04, 6.69). It is shown that there is.
  • the spectrum normalization according to the present embodiment can provide more stable discriminator learning not only in the standard GAN but also in the WGAN-GP method.
  • training about a data discriminator which identifies data based on training data provided with a label whether it is correct data was described, it is not restricted to this.
  • training can be performed as a classifier by performing updating of the above-described weight matrix using training data labeled with a category, not limited to GAN.
  • a neural network model that performs training by updating a general weight matrix
  • By performing the normalization represented by [Equation 8] it becomes possible to normalize these weighting matrices and update the weighting matrices.
  • a plurality of labeled training data may be used to perform training so that continuous or discrete values can be output to the input.
  • the data discriminator generation device 1 may be configured by hardware, or may be configured by software, and a CPU or the like may be implemented by information processing of software.
  • the data discriminator generation device 1 and a program for realizing at least a part of the function are stored in a storage medium such as a flexible disk or a CD-ROM, read by a computer and executed. It may be.
  • the storage medium is not limited to a removable medium such as a magnetic disk or an optical disk, and may be a fixed storage medium such as a hard disk drive or a memory. That is, the information processing by software may be specifically implemented using hardware resources.
  • the processing by software may be implemented in a circuit such as an FPGA (Field-Programmable Gate Array) and executed by hardware. Processing such as construction of a virtual environment may be performed using an accelerator such as a GPU (Graphical Processing Unit), for example.
  • the data discriminator generation device 1 and the data discriminator generated by the device may be formed by an analog circuit or a digital circuit in addition to being generated by the program as described above.
  • a control circuit that controls some or all of the functions may be provided. That is, the data discriminator generation device 1 and the data discriminator may include a control circuit and a memory, and part or all of the functions may be controlled by the control circuit.
  • Data discriminator generation device 10: Data discriminator initialization part, 12: data discriminator storage part, 14: input part, 16: forward propagation part, 18: error calculation part, 20: back propagation block, 200: Reverse propagation unit, 202: Update unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

GANにおけるディスクリミネータの訓練の安定化させる学習を実現する。一実施形態によれば、データ識別器訓練方法は、正解データと、擬データと、を識別するニューラルネットワークモデルを備えるデータ識別器を訓練する、データ識別器訓練方法であって、前記データ識別器に前記正解データを入力し、第1予測結果を取得するステップと、前記データ識別器に前記擬データを入力し、第2予測結果を取得するステップと、取得された前記第1予測結果及び取得された前記第2予測結果に基づいて、誤差を算出するステップと、前記誤差と、前記ニューラルネットワークモデルの各層の重み行列の特異値と、に基づいて、前記重み行列を更新するステップと、を備える。

Description

データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法
 本発明は、データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法に関する。
 敵対的生成ネットワーク(GAN:Generative Adversarial Networks、Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, "Generative adversarial networks," arXiv preprint arXiv:1406.2661, 10 Jun 2014)は、近年、生成モデルのフレームワークとして広く研究され、種々のデータセットに適用されている。GANは、与えられたターゲット分布を模したモデル分布を生成するためのフレームワークであり、モデル分布を生成するジェネレータと、モデル分布をターゲットから区別するディスクリミネータとで構成される。各ステップにおいて、モデル分布と、それに対するディスクリミネータにより測定されたターゲット分布との差を減少させるように、最良なディスクリミネータを連続に訓練する。
 GANの訓練において、ディスクリミネータのパフォーマンスの制御が問題となる。高次元空間では、ディスクリミネータによる密度比推定は、その訓練中に、不正確、不安定であることが多い。この結果、ジェネレータネットワークは、ターゲット分布のマルチモーダル構造を学習することができない。さらに、モデル分布のサポートと、ターゲット分布のサポートが分離している場合、モデル分布をターゲット分布から完全に区別することができるディスクリミネータが存在する。この状況下において、このようなディスクリミネータが生成されると、入力に対する当該ディスクリミネータの導関数が0となるため、ジェネレータの訓練は、停止する。
 本発明の実施形態は、ディスクリミネータネットワークの訓練の安定化をするデータ判別器方法、装置及びプログラムを提案する。
 一実施形態によれば、データ識別器訓練方法は、正解データと、擬データと、を識別するニューラルネットワークモデルを備えるデータ識別器を訓練する、データ識別器訓練方法であって、前記データ識別器に前記正解データを入力し、第1予測結果を取得するステップと、前記データ識別器に前記擬データを入力し、第2予測結果を取得するステップと、取得された前記第1予測結果及び取得された前記第2予測結果に基づいて、誤差を算出するステップと、前記誤差と、前記ニューラルネットワークモデルの各層の重み行列の特異値と、に基づいて、前記重み行列を更新するステップと、を備える。
 一実施形態によれば、GANにおけるディスクリミネータの訓練の安定化を図ることが可能となる。
本実施形態に係るデータ判別器の学習の流れを示すフローチャート。 本実施形態に係るデータ判別装置の機能を示すブロック図。 比較実験におけるパラメータの設定例を示す図。 比較実験におけるインセプションスコアを示すグラフ。 比較実験におけるインセプションスコアを示すグラフ。 比較実験におけるインセプションスコアを示す図。 比較実験におけるインセプションスコアを示す図。 比較実験における出力結果の例を示す図。 比較実験における出力結果の例を示す図。 比較実験における重み行列の特異値の大きさの理論値を示す図。 比較実験における重み行列の特異値の大きさを示す図。 比較実験における重み行列の特異値の大きさを示す図。 比較実験における処理時間を示す図。 比較実験における処理時間を示す図。 比較実験におけるインセプションスコアを示す図。 比較実験におけるロスを示す図。 比較実験におけるロスを示す図。 比較実験におけるインセプションスコアを示す図。
 以下、説明文中において、数式中の変数又は関数の上部に付するバーは「/」と表し、同じくハットは「^」、チルダは「」と表す。例えば、xに上記のものを付する場合には、それぞれ、「x/」、「x^」、「x」と表す。また、ベクトル又は行列に対して右側に「」と記載した場合、それぞれベクトル又は行列の転置を表す。
 (敵対的生成ネットワーク)
 まず、本実施形態の基礎となる敵対的生成ネットワーク(以下、GANと記載する。)について簡単に説明する。GANは、ジェネレータと、ディスクリミネータと、を備え、ジェネレータと、ディスクリミネータを並行して学習する生成モデルの訓練方法の一種である。
 ジェネレータ(データ生成器)は、ターゲットデータである訓練データ(正解データ)の学習をして、訓練データに類似するデータ(擬データ)を生成する。このジェネレータは、雑音データが入力されると擬データを出力するモデルとして学習される。ディスクリミネータ(データ判別器)は、ジェネレータが生成した擬データと正解データとの判別を行う。すなわち、ジェネレータは、ターゲットデータの分布(訓練データの分布)と生成したモデルの分布とが一致するように学習され、一方で、ディスクリミネータは、正解データと擬データとを区別するように学習される。
 この学習においては、ジェネレータネットワークとディスクリミネータネットワークの2つが存在する。ネットワークとしては、例えば、多層パーセプトロン(MLP:Multi-Layer Perceptron)、コンボリューションネットワーク等が用いられる。
 例えば、以下の式で表されるMLPによるディスクリミネータのネットワークについて説明する。なお、CNNにおいても、例えば、畳み込み層における重み行列のそれぞれいついても以下の式を用いることが可能であり、本実施形態にかかる重み行列の正規化を同様に適用することができる。
Figure JPOXMLDOC01-appb-M000001
 ベクトルhは、第l層の出力、行列Wは、第l-1層と第l層との間の重み付け行列、ベクトルbは、第l層におけるバイアス、aは、エレメントごとの非線形の活性化関数を示す。ここで、dim(l)がlの次元を表し、Rが実数体を表すものとして、W∈Rdim(l)×dim(l-1)、b∈Rdim(l)、h∈Rdim(l)、h(x)=xである。上記の式を一連の構成として解釈すると、入力ベクトルxを有するネットワークの最終層の出力がhとなる。以下の説明では、簡単のため、f(x)=h(x)として記載する。
 このように定義すると、Aをユーザが選択した距離測定の発散に対応する活性化関数として、ディスクリミネータの出力は、D(x)=A(f(x))として与えられる。GANの標準的な形式は、以下の式のように表される。
Figure JPOXMLDOC01-appb-M000002
 ここで、Gをジェネレータの出力とする。G及びDの最大値及び最小値は、それぞれ、ジェネレータ及びディスクリミネータのセットに引き継がれる。V(G,D)の一般的な式は、以下のように与えられる。
Figure JPOXMLDOC01-appb-M000003
 ここで、E[・]は、期待値を表し、qは、ターゲットデータの分散、pは、敵対的最小値最大値最適化を介して学習されるモデルのジェネレータの分散、x’は、ジェネレータにより生成された擬データである。この形式のDにおいて用いられる活性化関数Aは、例えば、シグモイド関数のような[0,1]の範囲の連続的な関数である。固定されたジェネレータGに対して、V(G,D)のこの形式の最適なディスクリミネータは、D =q(x)/(q(x)+p(x))で与えられることが知られている。
 ディスクリミネータが選択された関数空間がGANのパフォーマンスに決定的に影響を及ぼすと考えられている。多くの研究において、統計の有界性を保証する上で、リプシッツ連続性の重要性が指摘されている。このようなことに鑑みると、例えば、GANの最適なディスクリミネータは、以下のように表される。
Figure JPOXMLDOC01-appb-M000004
 この微分は、以下のように表され、これは、有界ではなく(unbound)、又は、現実的に計算することができない(incomputable)ようになり得る。
Figure JPOXMLDOC01-appb-M000005
 そこで、この配列において、入力サンプルxに定義された正規化項を追加することによりディスクリミネータのリプシッツ定数を制御する方法がある。以下の式のように、リプシッツ連続関数のセットからディスクリミネータDを探る。
Figure JPOXMLDOC01-appb-M000006
 ここで、||f||Lip≦Kは、全てのx、x’に対して、||f(x)-f(x’)||/||x-x’||≦Kであることを意味する。ただし、ノルム(||・||)は、Lノルムを表すものとする。
 入力ベースの正則化は、サンプルに基づく比較的容易な公式化を可能とするが、ヒューリスティック及びそれに近い手段を除き、ジェネレータ及びターゲットデータ分布のサポートの外側の空間に対する正規化をインポーズすることが困難である。そこで、本実施形態においては、スペクトル正規化(Spectral Normalization、Yuichi Yoshida and Takeru Miyato, "Spectral norm regularization for improving the generalizability of deep learning," arXiv preprint arXiv:1705.10941, 31 May 2017)を用いて重み行列を正規化する。
 (スペクトル正規化)
 例えば、活性化関数aをReLU(Rectified Linear Unit)、leakyReLUとすると、||a||Lip=1となる。活性化関数aのそれぞれが、||a||Lip=1を満たす場合、不等式||g*g||Lip≦||g||Lip・||g||Lipであるので、||f||Lipを以下のように上から押さえることができる。ただし、上記の式においては、g*gは、gとgとの合成関数であることを意味する。
Figure JPOXMLDOC01-appb-M000007
 ここで、σ(W)は、行列WのLノルムであるスペクトルノルムであり、Wの最大の特異値と同等であるものとして、以下のように表される。
Figure JPOXMLDOC01-appb-M000008
 スペクトル正規化は、以下のように、重み行列Wのスペクトルノルムを規格化し、リプシッツ定数を1とすることが可能である。
Figure JPOXMLDOC01-appb-M000009
 [数8]を用いてそれぞれのWを規格化した場合、||f||Lipが1で上から押さえられることから[数6]の不等式が成立し、σ(W/SN(W))=1とすることができる。
 Wijに対するW/SN(W)の勾配は、以下のように表される。
Figure JPOXMLDOC01-appb-M000010
 ここで、Eijは、(i,j)要素が1、他の要素が0である行列を表し、uは、Wの第1左特異ベクトル、vは、Wの第1右特異ベクトルである。第1左特異ベクトル、第1右特異ベクトルとは、Wを特異値分解した場合に、特異値成分を左上から右下へと向かって降順にソートした特異値行列において、左上成分である特異値(第1特異値)に対応する左特異ベクトル、右特異ベクトルのことを示す。
 もし、hがネットワーク内において、重み行列Wにより変換される隠れたノードであるならば、ディスクリミネータDのWに関するミニバッチ上で計算されたV(G,D)の導関数は、以下のように与えられる。
Figure JPOXMLDOC01-appb-M000011
 ここで、E^[・]は、ミニバッチにおける経験的期待値を表し、δ=(∂V(G,D)/∂(W/SNh))、λ=E^[δ(W/SNh)]である。
 [数10]の下段の式において、第1項のE^[δh]は、正規化していない重みの導関数と等しい。この観点から、第2項は、補償正規化係数λを用いて第1特異値成分をペナルティ化する正規化の項とみることができる。λは、δ及びW/SNhが同じ方向を示すのであれば、正の値となり、これは、訓練中にWの列が一方向に集中するのを防止する。換言すると、スペクトル正規化は、それぞれのレイヤにおける変換が一方向にセンシティブになるのを防止する。
 この正規化の効果を利用して、アルゴリズムの多彩なバージョンを検討することができる。以下のように与えられるディスクリミネータの重み行列の別パラメータ化を考えることも可能である。
Figure JPOXMLDOC01-appb-M000012
 ここで、γは、学習されるスカラー変数である。このパラメータ化は、注目しているレイヤにおける1-リプシッツ制約を含むが、モデルが縮退するのを防止するとともに、モデルに自由度を与えることができる。この再パラメータ化を行うためには、勾配ペナルティ(Gradient Penalty)のような他の手段によりリプシッツ状態を制御する。
 上述したように、ディスクリミネータのネットワークの各層において正規化するスペクトルノルムσ(W)は、Wの最大の特異値となる。このようにアルゴリズムの各ラウンドにおいて、単純に特異値分解を適用すると、計算のコストが膨大なものとなる。そこで、σ(W)を評価するためにべき乗法(Power Iteration Method)を使用してもよい。
 この手法では、乱数により初期化されたベクトルu及びvから開始する。もし、優性な特異値において多重しない場合、かつ、u及びvが第1特異ベクトルと直交しない場合、u及びvは、以下の更新ルールに基づいて、第1左特異ベクトルu及び第1右特異ベクトルvへとそれぞれ収束する。
Figure JPOXMLDOC01-appb-M000013
 さらに、以下のように、Wのスペクトルノルムを上記のように近似した特異ベクトルのペアによって近似することができる。
Figure JPOXMLDOC01-appb-M000014
 もし、SGD(Stochastic Gradient Descent:確率的勾配降下法)を更新に用いるのであれば、各更新におけるWの変化は小さく、したがって、最大の特異値が変化する。実装において、この事実を利用し、アルゴリズムの各ステップで計算されたuを次のステップの初期ベクトルとして再利用する。このリサイクルプロシージャにより、1ラウンド以上のラウンドのべき乗反復を行う。
 以下、本実施形態に係るスペクトル正規化に基づいたGANの手法について、フローチャートに基づいて説明する。図1は、本実施形態の処理の流れを示すフローチャートである。
 なお、以下の説明において、ジェネレータ生成についての説明は省略するが、ジェネレータ生成の手法については、特に限定するものではない。本実施形態においては、ディスクリミネータの生成について説明する。また、一般的なニューラルネットワークモデルの生成と同様の処理について、例えば、ハイパーパラメータの設定、順伝播、逆伝播等の詳細な説明等は、省略することがある。ディスクリミネータの学習は、上述したようにミニバッチを用いて行ってもよいし、別の例として、バッチ学習又はオンライン学習により行っても下記と同様に処理を行うことができる。
 まず、ジェネレータ及びディスクリミネータのニューラルネットワークモデルを設定する(S100)。設定されるモデルは、上述したように、例えば、MLP、CNN等のニューラルネットワークモデルである。
 次に、ディスクリミネータの各層を接続する重み行列Wについて、左特異ベクトルu (∈Rdim(l))の初期化を行う(S102)。初期化は、例えば、等方正分布に基づいた乱数を用いて行われる。
 モデル及び変数の初期化が終了した後、ジェネレータ、ディスクリミネータの学習に移行する。上述したように、ジェネレータとディスクリミネータの最適化については、それぞれの出力結果を[数3]等の式により評価することにより、並行して又は各ステップにおいて交互に実行される。
 以下のS104からS110の説明においては、各層ごとの重み行列Wに対しての処理を行うことを記載している。例えば、第l-1層と、第l層とを接続する重み行列Wについて処理することを説明する。
 逆伝播において、重み行列の更新には、スペクトル正規化を用いる。そのため、誤差逆伝播処理においては、まず、左右それぞれの特異ベクトルを更新する(S104)。第1特異ベクトルの更新は、例えば、以下に示される式に基づき実行される。
Figure JPOXMLDOC01-appb-M000015
 ここで、u は、重み行列Wの左特異ベクトル、v は、重み行列Wの右特異ベクトルをそれぞれ示す。すなわち、乱数により初期化された左特異ベクトルu 及び重み行列Wを用いて、右特異ベクトルv を更新する。更新された右特異ベクトルv 及び重み行列Wを用いて、左特異ベクトルu を更新する。このようにべき乗法に基づき交互に更新する収束演算を行うことにより、第1右特異ベクトル及び第1左特異ベクトルを算出する。このステップは、任意で、所定数回繰り返し行うようにしてもよい。
 次に、更新された左特異ベクトルu及び右特異ベクトルvに基づいて、重み行列を正規化する(S106)。この正規化は、Wのスペクトルノルムに基づき、上述したスペクトル正規化により実行される。Wのスペクトルノルムσ(W)を用いて、例えば、以下に示す数式によりスペクトル正規化された重み行列W/SN が算出される。
Figure JPOXMLDOC01-appb-M000016
 次に、スペクトル正規化された重み行列W/SN に基づいて、誤差の算出する(S108)。トレーニングデータである正解データと、ジェネレータの出力結果である擬データと、がディスクリミネータに入力され、順伝播される。出力層において、例えば、ディスクリミネータから出力された結果が、ジェネレータの出力結果が偽、正解データの出力結果が真となるラベルに基づき、出力層における誤差を算出する。
 より具体的な例として、このステップ(S108)は、次の3つのステップを備える。まず、正解データが正解データであると判定されるか否かの第1予測結果を取得する。次に、擬データが正解データでは無いと判定されるか否かの第2予測結果を取得する。そして、[数3]で表されるようなロス関数により、これら第1予測結果及び第2予測結果に基づき、誤差を算出する。この誤差を逆伝播することにより、以下に説明するように、重み行列の更新が行われる。
 次に、算出された誤差に基づいて、重み行列Wを更新する(S110)。例えば、以下の式に基づいて、重み行列Wが更新される。
Figure JPOXMLDOC01-appb-M000017
 ここで、W/SN (W)は、スペクトル正規化された重み行列を示し、Dは、所定のデータセットに基づいた値であることを示す。例えば、ミニバッチ処理を行っている場合には、Dは、ミニバッチ内のデータセットに基づいて重み行列Wを更新することを示す。また、lは、ロス関数を示し[数3]等に基づいた関数、例えば、後述する[数17]、アルゴリズムによっては後述する[数20]等で示される関数である。これらの式では、正解データをデータ識別器に入力した場合の第1予測結果と真値との誤差(第1部分誤差)、及び、偽データをデータ識別器に入力した場合の第2予測結果と偽値との誤差(第2部分誤差)に基づいて全体的な誤差(ロス)を算出する。例えば、[数3]の第1項が第1予測結果と真値との誤差、第2項が第2予測結果と偽値との誤差を示し、これらの和を求めることによりロスを算出する。[数16]に示される更新は、スペクトル正規化された重み行列W/SN を用いていること以外は、一般的なSGDによる更新に基づくものである。ミニバッチ学習等により学習を行っている場合には、各ミニバッチからの出力に基づいて、さらに重み行列を更新してもよい。各ミニバッチからの出力に基づく重み行列の更新は、一般的な手法により行われる。
 次に、最適化が終了しているか否かを判断する(S112)。最適化の終了は、例えば、全ての層において重み行列の更新がされた、所定回数のエポックが終了した、評価関数が所定条件を満たした、ロス関数が所定条件を満たした等に基づいて判断される。バッチ学習、ミニバッチ学習等の学習をしている場合には、必要となるデータに対して学習が終了したか否かを判断してもよい。
 例えば、全ての層において重み行列が更新されていない場合、算出した誤差を逆伝播することにより、1つ前の層の重み行列の更新を続けて行う。あるエポックにおいて全てのミニバッチに対して全ての層の重み行列の更新が行われた後であれば、エポックすうが所定回数に達しているか否かを判断し、訓練を終了、又は、続行する。図1におけるS112では、異なるレベルにおける終了条件をまとめて記載しているが、もちろん、最適化の終了条件をより細かく設定してもよく、ネストされたループとしてフローチャートを理解できるものであるとする。
 最適化が終了していない場合(S112:No)、S104からS110の処理が繰り返し行われる。上述したように、例えば、全ての層において重み行列の更新がされていない場合、S110において重み行列が更新された層の前の層にロスの逆伝播をし、前の層の重み行列の更新処理を行う。所定回数のエポックが終了していない場合、所定回数となるまで処理を行う。評価関数、又は、ロス関数等が所定条件を満たしていない場合、所定条件を満たすまで処理を行う。バッチ学習、ミニバッチ学習等においては、必要となるデータに対して学習が終了するまで処理を行い、その上で、上記のエポック数、評価関数、ロス関数の条件を満たすまで処理が繰り返される。なお、上述した処理において、特に、左特異ベクトルの初期値は、前ステップにおいてべき乗法により最適化されたベクトルを用いてもよい。
 最適化が終了した場合(S112:Yes)、学習済みモデルを出力し(S114)、処理を終了する。
 図2は、本実施形態に係るデータ判別器生成装置の機能を示すブロック図である。データ判別器生成装置1は、データ判別器初期化部10と、データ判別器記憶部12と、入力部14と、順伝播部16と、誤差算出部18と、逆伝播ブロック20と、を備える。
 データ判別器初期化部10は、GANにおけるディスクリミネータ(データ判別器)のモデルの初期化を行う。例えば、モデルとして用いられるニューラルネットワークモデルの選択、隠れ層の数、各層間を接続する重み行列等の初期化を行う。ニューラルネットワークモデルの選択及び隠れ層の数は、ユーザによる指定を受け付けるものであってもよい。重み行列の初期化は、ユーザによる指定を受け付けるものであってもよいし、乱数等により自動生成されるものであってもよい。データ判別器初期化部10により、上述したS100の処理が行われる。また、モデルの生成と併せて、S102に示される各層間における重み行列の左特異ベクトルの初期化を行ってもよい。
 なお、データ判別器初期化部10は、データ判別器生成装置1に必須の構成ではない。例えば、ユーザがデータ判別器記憶部12にあらかじめ生成されているモデルを入力することにより、ディスクリミネータのモデルが記憶されてもよい。別の例として、データ判別器生成装置1の外部において自動的な処理により生成されたモデルがデータ判別器記憶部12へと入力され、ディスクリミネータのモデルとして記憶されてもよい。
 データ判別器記憶部12は、データ判別器初期化部10により初期化されたモデル及び当該モデルを最適化したモデル等を記憶する。学習の最中においては、重み行列等が更新されたモデルを記憶しておいてもよい。順伝播部16及び逆伝播ブロック20は、このデータ判別器記憶部12に記憶されているモデルを用いて順伝播及び逆伝播を行い、当該モデルを更新する。
 入力部14は、ジェネレータ(データ生成器)が生成した正解データ(トレーニングデータ)に類似するデータである擬データ及び正解データを順伝播部16へと入力する。ディスクリミネータは、ジェネレータが生成した擬データと、正解データとを判別するように最適化される。
 順伝播部16は、データ判別器記憶部12に記憶されているデータ判別器に上記の擬データ、又は、正解データを入力し、順伝播を行う。
 順伝播部16は、データ判別器の入力層へとデータを入力し、出力層からの判別結果を取得する。データ判別器として、データ判別器記憶部12に記憶されているモデルを使用する。
 誤差算出部18は、データ判別器に擬データが入力された場合の出力と、データ判別器に正解データが入力された場合の出力とを比較し、誤差を算出する。誤差の算出は、例えば、[数3]に示される数式を用いる。この誤差算出部18が、S104の処理を行う。誤差算出部18が算出した誤差は、逆伝播ブロック20へと入力され、誤差逆伝播処理が実行される。また、誤差算出部18は、誤差逆伝播中において、誤差を算出する。算出された誤差を用いて、逆伝播ブロック20が誤差の逆伝播及び重み行列の更新を行う。
 逆伝播ブロック20は、データ判別器記憶部12に記憶されているデータ判別器のモデルを誤差逆伝播により更新する。例えば、モデルにおける重み行列(パラメータ)が更新される。逆伝播ブロック20は、逆伝播部200と、更新部202と、を備える。
 逆伝播部200は、データ判別器記憶部12に記憶されているデータ判別器のモデルと、誤差算出部18が算出した誤差とに基づいて、誤差逆伝播処理を行う。
 更新部202は、逆伝播処理のうち特に、重み行列を更新する処理を行う。例えば、この更新部202が、S104からS110の処理を行う。フローチャートに示されるように、逆伝播するタイミングにおいて、S106における特異ベクトルの更新、及び、S108の重み行列の正規化の処理により、重み行列の更新を行う。
 隠れ層がL層あるモデルの場合、まず、逆伝播部200が出力層から第L層へと誤差を逆伝播し、更新部202が第L層における重み行列を更新する。ミニバッチ学習である場合には、ミニバッチ内において第L層の重み行列を更新する。次に、第L層から第L-1層へと誤差を逆伝播し、同様に重み行列を更新する。このように、逐次的に誤差を逆伝播することにより、各層における重み行列を更新する。ミニバッチ学習の場合、隠れ層の重み行列の更新が終了し、ミニバッチ内における学習ステップ、例えば、上述したように評価値等に基づいた学習ステップが終了した後、次のミニバッチを生成し、同じように重み行列を更新していく。ミニバッチの処理については、一般的な手法で行われる。
 上述においては、基本的なGANに対してスペクトル正規化を適用する例を説明したが、GANではなく、WGAN(Wesserstein GAN)、WGAN-GP(Wesserstein GAN with Gradient Penalty)、DCGAN(Deep Convolutional GAN)、DRAGAN(Deep Regret Analytic GAN)等の他のGANのアルゴリズムに対してもスペクトル正規化を適用することが可能である。
 本実施形態に係るデータ判別器生成装置1を備えるGANの学習の安定性について、当該GANにより生成されたジェネレータによる画像生成の例を挙げながら説明する。以下の例においては、ジェネレータ、ディスクリミネータともにCNNに基づいたモデルの学習を行っている。
 以下の説明において、誤差逆伝播におけるSGDとしてAdam(Adaptive Moment Estimation)を用いてシミュレーションを行った。なお、Adam以外のSGD手法、Momentum、AdaGrad、RMSProp、AdaDelta等の他の手法を用いてもよい。本実施形態におけるディスクリミネータの更新に用いるロス関数は、以下の式を用いた。
Figure JPOXMLDOC01-appb-M000018
 また、ジェネレータの更新に用いるコスト関数は、以下に示される式を用いた。
Figure JPOXMLDOC01-appb-M000019
 本実施形態と、比較例とにおけるジェネレータが生成した擬データの評価として、以下のように定義されるインセプションスコア(Inception score)を用いた。
Figure JPOXMLDOC01-appb-M000020
 ここで、DKL[・]は、KLダイバージェンス(カルバック・ライブラー情報量:Kullback-Leibler Divergence)をあらわす。また、p(y)は、(1/N)Σn=1 p(y|x)で周辺確率として計算できる。
 図3は、シミュレーションのパラメータ例を挙げたものである。設定の項は、それぞれのパラメータの名称を示す。α、β、βは、それぞれAdamにおけるハイパーパラメータである。αは、学習率、βは、1次モーメンタム、βは、2次モーメンタムをそれぞれ示す。ndisは、ジェネレータが1回更新されるごとにディスクリミネータが更新される回数を示す。これらのパラメータの組み合わせは、シミュレーション結果を記載するための一例として表示されたものであり、本実施形態に係るスペクトル正規化を用いるGANの手法において重要な箇所ではなく、任意に変更してよい箇所である。
 設定Aは、WGAN-GP手法の論文(I. Gulrajani, et.al, "Improved training of Wasserstein gans." arXiv preprint, arXiv:1704.00028, 2017)で示されたパラメータである。設定Bは、論文(D. Warde-Farley, et.al, "Improving generative adversarial networks with denoising feature matching," ICLR, Nov. 6, 2016)で示されたパラメータである。設定Cは、DCGAN(Deep Convolutional GAN)手法の論文(A. Radford, et.al, "Unsupervised representation learning with deep convolutional generative adversarial networks," arXiv preprint, arXiv:1611.06624, 2016)で示されたパラメータである。
 設定A乃至設定Cは、既に論文として発表されている結果と比較するために挙げた例である。一方、設定D乃至設定Fは、さらに積極的な学習をする状況において、アルゴリズムの改善を評価するために設定されたパラメータセットである。これらのそれぞれの設定において、10万回のジェネレータのアップデータを学習させた。
 以下、図において、本実施形態に係るスペクトル正規化によるディスクリミネータの学習を用いたジェネレータの学習をSNと記載する。また、WN(Weight Normalization:T. Salimans, et.al, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," Advance in Neural Information Processing Systems, p901, 2016)、WGAN-GPの手法をそれぞれ比較対象とした結果をそれぞれ比較例1及び比較例2として記載する。
 図4Aは、データセットCIFAR-10の画像を用いて、図4Bは、データセットSTL-10の画像を用いて、図3に示す各設定におけるシミュレーションを行った結果を示すグラフである。縦軸は、上述したインセプションスコアを示す。
 これらの図から、SNは、積極的な学習率とモーメンタムパラメータに対して、比較例1及び比較例2と比較してロバストであることが読み取れる。比較例2は、高い学習率と高いモーメンタムパラメータに対して、GANによってよい出力結果を得ることに失敗している。比較例1は、CIFAR-10よりも多様な例により構成されているSTL-10においてSN及び比較例2よりも最適化の実効性が確保できていない。SNは、他のCIFAR-10及びSTL-10の双方において、他の方法よりも優れている。
 図5Aは、データセットCIFAR-10の画像を用いて、図5Bは、データセットSTL-10の画像を用いて、SN、比較例1、比較例2、及び、その他の手法を用いたインセプションスコアの結果を示す表である。リアルデータは、データセット中のデータを用いて取得されたインセプションスコアであることを示す。
 図5Aに示すように、SNは、Warde-Farley(図3の設定Bの記載されている論文の手法)以外においては、よりよいインセプションスコアを出していることが分かる。CIFAR-10よりも多様性のある画像から構成されるSTL-10においては、全ての他の手法よりもよいインセプションスコアである。
 図6は、データセットCIFAR-10の画像を用いて学習したジェネレータにより生成された画像を示し、図7は、STL-10の画像を用いて学習したジェネレータにより生成された画像を示す。
 上に描かれている8×8ブロックに分割された48×48ピクセルの画像は、データセットとして学習に与えられた画像である。下に描かれている画像は、上から順番に、SN、比較例1、比較例2を用いたGANにより学習されたジェネレータが生成した画像である。このように、生成された画像をみると、SNによるジェネレータが生成した画像が比較的よい結果であることが見られる。
 特に、学習率を挙げた場合には、比較例1及び比較例2に対して良好な結果が出力されている。設定D乃至設定Fでは、比較例1においては、例えば、全面がほぼ同一色といった全体的にコントラストが低い画像が出力され、比較例2においては、ほぼ雑音データが出力されている。一方、本実施形態に係るSNによれば、比較的コントラストが高いデータが生成されている。
 図8は、SN及び比較例1における重い行列の特異値の2乗値の存在する領域を示す理論値を示す図である。図8及び図9においては、重み行列の特異値を昇順に並べ、当該インデクスを横軸とし、縦軸として各特異値の2乗値を最大の特異値で正規化したものである。重み行列に対して、様々な状況において取り得る理論値の分布を示すものが図8のグラフである。実線は、SNでの理論値、破線は、比較例1での理論値を示す。この図8に示すように、SNでは、比較例1と比べ特異値の存在する幅が広いことが分かる。
 比較例1においては、特異値の非対称な分布となることから、重み行列の列空間は、低次元のベクトル空間となる。一方、SNにおいては、ディスクリミネータにより使用される特徴の次元数を妥協することなく利用できる。重み行列を掛けられた隠れ層の出力のノルムをできるだけ保持し、ディスクリミネータをより高精度にするためには、この(正規化された)ノルムを大きくすることが望まれる。
 例えば、比較例1においては、ノルムを大きくするためには、ランクを下げることとなるが、ランクを下げると、ディスクリミネータにおいて判断材料となる特徴量の数を減少させることとなる。より詳しくは、それぞれの特徴量に基づく判断は、特異値のノルムの大きさに依存する。すなわち、比較例1のように、一部の特異値だけが大きい値をとり、他の特異値がほぼ0となるような場合、特異値のノルムが大きい特徴量が重視され、特異値のノルムが小さい特徴量が判断に及ぼす影響が小さくなる。しかしながら、より高精度のディスクリミネータを学習するためには、特徴量の数を減少させることは得策ではない。このように比較例1においては、より高精度のディスクリミネータを学習するために、ノルムを大きくする(多くのノルムを取得可能とする)ことと、特徴量の数を減少させないことを両立することが困難である。
 図8に示すように、SNにおいては、比較例1に比べて正規化されたノルムを大きく保つことが可能である。すなわち、SNでは、ノルムを大きく保つことと、特徴量の数を減少させないことを両立することが可能となる。これは、線形演算のリプシッツ定数が最大の特異値によってのみ評価されることに基づく。すなわち、スペクトルノルムは、行列のランクとは独立していることに基づく。
 図9A及び図9Bは、異なる手法であるSN及び比較例1を用いて学習を行った場合の各層における重み行列の特異値の2乗値をそれぞれ示すグラフである。図9Aは、CIFAR-10のデータセットを用いたもの、図9Bは、STL-10のデータセットを用いたものである。図8と同様に、実線は、SNによる結果を示し、破線は、比較例1による結果を示す。
 図9A及び図9Bに示されるように、SNによれば、比較例1よりもほとんどの範囲において特異値のノルムが大きくなっていることが分かる。このように、特異値のノルムを大きくし、かつ、ランクを下げないようにすることが可能となり、正規化を行う場合において、ランク安定性を確保することができる。
 第1層乃至第5層において、比較例1においては、いくつかの値に集中している。すなわち、比較例1においては、これらの層における重み行列のランクが不足している。一方、SNにおいては、広く分布している。高次元空間にエンベデッドされた低次元非線形データの多様性乗の確率分布の対を区別することが目標である場合、下位層におけるランク不足は特に致命的となる蓋然性がある。下位層の出力は、線形変換の数少ないセットを介した出力であり、ほとんどの部分が線形である空間に偏向していることを示す。このような空間における入力分布の多くの特徴を過小評価してしまうことは、過剰に単純化されたディスクリミネータを生成することに繋がる。
 図7に示すシミュレーション結果によれば、このように過剰に単純化されたディスクリミネータが及ぼす影響を実際に確認することができる。スペクトル正規化を用いて生成された画像は、比較例1による画像よりも多様性を有し、かつ、複雑な画像である。
 図10A及び図10Bは、ジェネレータを100回更新した場合における演算時間を示す図である。縦軸は、各種法におけるジェネレータを100回更新した場合における演算時間[秒]を示す。図10Aは、データセットCIFAR-10を用いた結果であり、図10Bは、データセットSTL-10を用いた結果である。比較例2においては、誤差関数として、GP(Gradient Penalty)である||∇D||を余分に求める必要があるので、他の手法に比べて長い時間が必要となっている。
 これらの図において、SNは、比較例1とほぼ同等の時間で演算をできていることが示されている。これは、べき乗法に必要となる相対的な計算コストは、順伝播及び逆伝播のコストと比較して無視できる程度に小さいためである。
 以上のように、本実施形態に係るSN手法よれば、GANにおける各層の重み行列の更新において、スペクトル正規化を行った重み行列を用いることにより、安定したディスクリミネータの学習を実現することが可能となる。結果から読み取れるとおり、比較例と比べて多様性があり、複雑な画像を生成することが可能である。さらに、処理時間に関しては、比較例1と比べそれほど長い時間が掛かる訳ではなく、例えば、STL-10のデータセットを用いた場合等は、ほぼ同等の時間で処理を行える。
 (変形例)
 前述の実施形態においては、GANの手法にスペクトル正規化を適用する例について述べたが、これには限られない。すなわち、WGAN-GP(比較例2)の手法において、スペクトル正規化を適用してもよい。以下、比較例2にSNを適用したものを、比較例2+SN等と表す。この場合、誤差関数は、以下の式を用いる。
Figure JPOXMLDOC01-appb-M000021
 シミュレーション結果は、図11に示す通りである。図11は、比較例2+SNについてのインセプションスコアを示す表である。スタンダードなCNNについてSNを適用したもの、及び、ResNet(Residual Network)を用いたCNNについてSNを適用したものを示している。比較として、比較例2+比較例1、及び、比較例2の結果も示している。シミュレーションにおいては、ディスクリミネータの学習における[数11]で表される関数を全てSN及び比較例1の手法により正規化した。図11から、比較例2、及び、比較例2+比較例1に比べてインセプションスコアが改善されている。
 図12Aは、評価としてのロス、図12Bは、バリデーションのロスを示す図である。実線は、比較例2+SN、破線は、比較例2+比較例1、点線は、比較例2による結果を示す。これらの図から、比較例2+SNによる学習は、比較例2及び比較例2+比較例1による学習よりも過学習をしていないことが示される。特に図12Bから、バリデーションデータに対しても評価値が下がっていないことから、比較例2+SNによる学習が他の手法に比べて過学習をしていないことが示されている。
 図13は、同シミュレーション状況におけるインセプションスコアを示す図である。実線は、比較例2+SN、破線は、比較例2+比較例1、点線は、比較例2による結果を示す。この図13からも、過学習の度合いがそれぞれの場合について示されている。最終的な結果ではなく、学習中に最適なものを抽出したとしても、比較例2+SNによる手法(7.28)は、他の手法(7.04、6.69)と比べてよいインセプションスコアであることが示される。
 以上のように、スタンダードなGANだけではなく、WGAN-GPの手法においても、本実施形態に係るスペクトル正規化は、より安定なディスクリミネータの学習を提供することが可能である。
 なお、上述の例では、正解データであるか否かのラベルを備えるトレーニングデータに基づいてデータの識別を行うデータ識別器としての訓練について記載したがこれには限られない。GANには限られず、例えば、カテゴリによりラベル付けされたトレーニングデータを用いて、上述の重み行列の更新を行うことにより、分類器として訓練を行うことも可能である。さらに、これらの他にも、一般的な重み行列を更新することにより訓練を行うニューラルネットワークモデルであれば、当該重み行列の更新に上述したスペクトル正規化を用いた訓練方法を適用することが可能である。[数8]に表される正規化を行うことにより、これらの重み付け行列の正規化を行い、重み付け行列の更新を行うことが可能となる。さらには、複数のラベル付けされたトレーニングデータを用いて、入力に対して連続値又は離散値を出力できるような訓練を行うようにしてもよい。
 上記の全ての記載において、データ判別器生成装置1の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU等が実施をしてもよい。ソフトウェアで構成される場合には、データ判別器生成装置1及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA(Field-Programmable Gate Array)等の回路に実装され、ハードウェアが実行するものであってもよい。仮想環境の構築等の処理は、例えば、GPU(Graphical Processing Unit)等のアクセラレータを使用して行ってもよい。
 データ判別器生成装置1及び当該装置により生成されたデータ判別器は、上記のようにプログラムにより生成されるほか、アナログ回路又はデジタル回路により構成されていてもよい。この場合、一部又は全ての機能を制御する、制御回路を備えていてもよい。すなわち、データ判別器生成装置1及びデータ判別器は、制御回路と、メモリを備え、その機能の一部又は全部が制御回路により制御されるものであってもよい。
 上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。
1:データ判別器生成装置、10:データ判別器初期化部、12:データ判別器記憶部、14:入力部、16:順伝播部、18:誤差算出部、20:逆伝播ブロック、200:逆伝播部、202:更新部

Claims (11)

  1.  正解データと、擬データと、を識別するニューラルネットワークモデルを備えるデータ識別器を訓練する、データ識別器訓練方法であって、
     前記データ識別器に前記正解データを入力し、第1予測結果を取得するステップと、
     前記データ識別器に前記擬データを入力し、第2予測結果を取得するステップと、
     取得された前記第1予測結果及び取得された前記第2予測結果に基づいて、誤差を算出するステップと、
     前記誤差と、前記ニューラルネットワークモデルの各層の重み行列の特異値と、に基づいて、前記重み行列を更新するステップと、
     を備えるデータ識別器訓練方法。
  2.  前記第1予測結果は、前記正解データが真である期待値に基づき、
     前記第2予測結果は、前記擬データが偽である期待値に基づき、
     前記誤差を算出するステップは、真値と前記第1予測結果との第1部分誤差、及び、偽値と前記第2予測結果との第2部分誤差、に基づいて、前記誤差を算出する、請求項1に記載のデータ識別器訓練方法。
  3.  前記重み行列を更新するステップは、
     前記重み行列の左特異ベクトル及び右特異ベクトルのそれぞれを更新するステップと、
     前記左特異ベクトル及び前記右特異ベクトルに基づいて、前記重み行列を正規化するステップと、
     正規化された前記重み行列を前記誤差に基づいて更新するステップと、
     を備える、請求項1に記載のデータ識別器訓練方法。
  4.  前記重み行列の前記左特異ベクトル及び前記右特異ベクトルのそれぞれを更新するステップは、
     前記重み行列及び前記左特異ベクトルに基づいて、前記右特異ベクトルを更新するステップと、
     前記重み行列及び更新された前記右特異ベクトルに基づいて、前記左特異ベクトルを更新するステップと、
     を備える、請求項3に記載のデータ識別器訓練方法。
  5.  前記重み行列の前記左特異ベクトル及び前記右特異ベクトルのそれぞれを更新するステップは、
     前記右特異ベクトルのうち、右特異値が最大となる第1右特異ベクトル、及び、前記左特異ベクトルのうち、左特異値が最大となる第1左特異ベクトルを用いてそれぞれのベクトルを更新するステップである、請求項4に記載のデータ識別器訓練方法。
  6.  前記第1右特異ベクトル及び前記第1左特異ベクトルを、べき乗法を用いて算出するステップ、
     をさらに備える、請求項5に記載のデータ識別器訓練方法。
  7.  前記重み行列を正規化するステップは、
     更新された前記左特異ベクトル及び更新された前記右特異ベクトルに基づいて、スペクトル正規化を行うステップ、
     を備える、請求項3乃至請求項6のいずれかに記載のデータ識別器訓練方法。
  8.  前記重み行列を更新するステップは、確率的勾配降下法を用いて前記重み行列を更新する、請求項1乃至請求項7のいずれかに記載のデータ識別器訓練方法。
  9.  正解データと、擬データと、を識別するニューラルネットワークモデルを備えるデータ識別器を訓練する、データ識別器訓練装置であって、
     前記データ識別器に前記正解データを入力した、第1予測結果と、前記データ識別器に前記擬データを入力した第2予測結果と、に基づいて、誤差を算出する、誤差算出部と、
     前記誤差と、前記ニューラルネットワークモデルの各層の重み行列の特異値と、に基づいて、前記重み行列を更新する、更新部と、
     を備えるデータ識別器訓練装置。
  10.  コンピュータを、
     正解データと、擬データと、を識別するニューラルネットワークモデルを備えるデータ識別器を訓練する、データ識別器訓練手段であって、
     前記データ識別器に前記正解データを入力し、第1予測結果を取得する手段、
     前記データ識別器に前記擬データを入力し、第2予測結果を取得する手段、
     取得された前記第1予測結果及び取得された前記第2予測結果に基づいて、誤差を算出する手段、
     前記誤差と、前記ニューラルネットワークモデルの各層の重み行列の特異値と、に基づいて、前記重み行列を更新する手段、
     を備えるデータ識別器訓練手段として機能させるプログラム。
  11.  ニューラルネットワークモデルの訓練方法であって、
     前記ニューラルネットワークモデルの重み行列の特異値を用いて前記重み行列を正規化するステップと、
     正規化された前記重み行列に基づいて、誤差を算出するステップと、
     前記誤差に基づいて、前記重み行列を更新するステップと、
     を備える訓練方法。
PCT/JP2018/024569 2017-06-29 2018-06-28 データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法 WO2019004350A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201880043309.5A CN110799995A (zh) 2017-06-29 2018-06-28 数据识别器训练方法、数据识别器训练装置、程序及训练方法
EP18824804.1A EP3648017A4 (en) 2017-06-29 2018-06-28 DATA DISCRIMINATOR LEARNING PROCESS, DATA DISCRIMINATOR LEARNING DEVICE, PROGRAM, AND LEARNING PROCESS
JP2019527020A JP6595151B2 (ja) 2017-06-29 2018-06-28 訓練方法、訓練装置、プログラム及び非一時的コンピュータ可読媒体
US16/726,153 US11593663B2 (en) 2017-06-29 2019-12-23 Data discriminator training method, data discriminator training apparatus, non-transitory computer readable medium, and training method
US18/101,242 US11842284B2 (en) 2017-06-29 2023-01-25 Data discriminator training method, data discriminator training apparatus, non-transitory computer readable medium, and training method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-127769 2017-06-29
JP2017127769 2017-06-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/726,153 Continuation US11593663B2 (en) 2017-06-29 2019-12-23 Data discriminator training method, data discriminator training apparatus, non-transitory computer readable medium, and training method

Publications (1)

Publication Number Publication Date
WO2019004350A1 true WO2019004350A1 (ja) 2019-01-03

Family

ID=64742063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/024569 WO2019004350A1 (ja) 2017-06-29 2018-06-28 データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法

Country Status (5)

Country Link
US (2) US11593663B2 (ja)
EP (1) EP3648017A4 (ja)
JP (4) JP6595151B2 (ja)
CN (1) CN110799995A (ja)
WO (1) WO2019004350A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365647A (zh) * 2019-06-13 2019-10-22 广东工业大学 一种基于pca和bp神经网络的虚假数据注入攻击检测方法
JP2020123830A (ja) * 2019-01-30 2020-08-13 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
JP2020170358A (ja) * 2019-04-03 2020-10-15 株式会社Preferred Networks 集積回路、半導体装置、半導体モジュール、情報処理装置および半導体装置の制御方法
WO2020246482A1 (ja) * 2019-06-04 2020-12-10 株式会社Preferred Networks 制御装置、システム、学習装置および制御方法
WO2021040419A1 (en) * 2019-08-30 2021-03-04 Samsung Electronics Co., Ltd. Electronic apparatus for applying personalized artificial intelligence model to another model
US20220398146A1 (en) * 2021-06-09 2022-12-15 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and storage medium

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3648017A4 (en) * 2017-06-29 2021-08-04 Preferred Networks, Inc. DATA DISCRIMINATOR LEARNING PROCESS, DATA DISCRIMINATOR LEARNING DEVICE, PROGRAM, AND LEARNING PROCESS
JP7023669B2 (ja) 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
WO2019135019A1 (en) * 2018-01-02 2019-07-11 Nokia Technologies Oy Channel modelling in a data transmission system
US11797864B2 (en) * 2018-06-18 2023-10-24 Fotonation Limited Systems and methods for conditional generative models
US20200143266A1 (en) * 2018-11-07 2020-05-07 International Business Machines Corporation Adversarial balancing for causal inference
KR20210084123A (ko) * 2019-12-27 2021-07-07 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111461340B (zh) * 2020-03-10 2023-03-31 北京百度网讯科技有限公司 权重矩阵的更新方法、装置及电子设备
CN111553587B (zh) * 2020-04-26 2023-04-18 中国电力科学研究院有限公司 一种基于对抗学习模型的新能源场景生成方法及系统
CN111639861B (zh) * 2020-06-01 2023-06-23 上海大学 一种基于神经网络的绩效考核方法及系统
TWI768555B (zh) * 2020-11-23 2022-06-21 威盛電子股份有限公司 調整神經網路輸入資料的系統及方法
US11861324B2 (en) * 2021-05-25 2024-01-02 Visa International Service Association Method, system, and computer program product for normalizing embeddings for cross-embedding alignment
CN113438190B (zh) * 2021-06-22 2022-09-02 电子科技大学 神经网络训练方法及装置、mimo均衡器与方法、可读介质
CN113806338B (zh) * 2021-11-18 2022-02-18 深圳索信达数据技术有限公司 一种基于数据样本图像化的数据甄别的方法与系统
CN116302294B (zh) * 2023-05-18 2023-09-01 安元科技股份有限公司 一种界面化自动识别组件属性的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150170020A1 (en) * 2013-12-13 2015-06-18 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993010500A1 (en) * 1991-11-13 1993-05-27 Iowa State University Research Foundation, Inc. Improved memory capacity neural network
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
US6987819B2 (en) * 2000-12-29 2006-01-17 Motorola, Inc. Method and device for multiple input/multiple output transmit and receive weights for equal-rate data streams
JP4604545B2 (ja) * 2004-05-10 2011-01-05 ソニー株式会社 無線通信システム、無線通信装置及び無線通信方法ム
JP5248130B2 (ja) * 2008-01-31 2013-07-31 株式会社東芝 無線送信方法及び装置
JP5221285B2 (ja) * 2008-11-05 2013-06-26 株式会社東芝 無線通信装置及び方法
WO2010150313A1 (ja) * 2009-06-25 2010-12-29 株式会社 東芝 通信装置
US9189703B2 (en) * 2012-07-09 2015-11-17 Canon Kabushiki Kaisha Systems and methods for colorimetric and spectral material estimation
US10515304B2 (en) * 2015-04-28 2019-12-24 Qualcomm Incorporated Filter specificity as training criterion for neural networks
US10282663B2 (en) * 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
US10521718B1 (en) * 2015-09-28 2019-12-31 Google Llc Adversarial training of neural networks
WO2017083746A1 (en) * 2015-11-12 2017-05-18 Google Inc. Training neural networks using normalized target outputs
EP3385889A4 (en) * 2015-12-01 2019-07-10 Preferred Networks, Inc. ANOMALY DETECTION SYSTEM, ANOMALY DETECTION METHOD, ANOMALY DETECTION PROGRAM, AND APPRIS MODEL GENERATION METHOD
US10776712B2 (en) * 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design
WO2018034682A1 (en) * 2016-08-13 2018-02-22 Intel Corporation Apparatuses, methods, and systems for neural networks
CN107785016A (zh) * 2016-08-31 2018-03-09 株式会社东芝 训练神经网络辅助模型的方法和装置及语音识别方法和装置
US11164076B2 (en) * 2016-10-20 2021-11-02 Uber Technologies, Inc. Intelligent regularization of neural network architectures
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
US10685284B2 (en) * 2017-04-03 2020-06-16 Royal Bank Of Canada Systems and methods for malicious code detection
EP3648017A4 (en) * 2017-06-29 2021-08-04 Preferred Networks, Inc. DATA DISCRIMINATOR LEARNING PROCESS, DATA DISCRIMINATOR LEARNING DEVICE, PROGRAM, AND LEARNING PROCESS
WO2019092931A1 (ja) * 2017-11-07 2019-05-16 日本電気株式会社 判別モデル生成装置、判別モデル生成方法および判別モデル生成プログラム
US10803347B2 (en) * 2017-12-01 2020-10-13 The University Of Chicago Image transformation with a hybrid autoencoder and generative adversarial network machine learning architecture
US10846593B2 (en) * 2018-04-27 2020-11-24 Qualcomm Technologies Inc. System and method for siamese instance search tracker with a recurrent neural network
US11170256B2 (en) * 2018-09-26 2021-11-09 Nec Corporation Multi-scale text filter conditioned generative adversarial networks
US10997464B2 (en) * 2018-11-09 2021-05-04 Adobe Inc. Digital image layout training using wireframe rendering within a generative adversarial network (GAN) system
JPWO2020179200A1 (ja) * 2019-03-04 2020-09-10
US20220014807A1 (en) * 2019-03-21 2022-01-13 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
US11164085B2 (en) * 2019-04-25 2021-11-02 Booz Allen Hamilton Inc. System and method for training a neural network system
WO2020234449A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Generative adversarial networks with temporal and spatial discriminators for efficient video generation
JP7114528B2 (ja) * 2019-07-08 2022-08-08 株式会社東芝 推論装置、学習装置、推論方法及び学習方法
EP3963872B1 (en) * 2019-08-30 2024-01-17 Samsung Electronics Co., Ltd. Electronic apparatus for applying personalized artificial intelligence model to another model
JP7021158B2 (ja) * 2019-09-04 2022-02-16 株式会社東芝 ロボットシステムおよび駆動方法
JP7051772B2 (ja) * 2019-09-12 2022-04-11 株式会社東芝 提供装置、提供方法及びプログラム
CN110827216B (zh) * 2019-10-23 2023-07-14 上海理工大学 图像去噪的多生成器生成对抗网络学习方法
EP3971773A4 (en) * 2020-03-11 2022-07-20 Shenzhen Institutes of Advanced Technology METHOD AND VISUALIZATION DEVICE FOR ASSESSING BRAIN ADDICTION CHARACTERISTICS, AND MEDIUM
US11436498B2 (en) * 2020-06-09 2022-09-06 Toyota Research Institute, Inc. Neural architecture search system for generating a neural network architecture
DE102021201833A1 (de) * 2021-02-26 2022-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Vorrichtung zur Verarbeitung von mindestens einem Eingangsdatensatz unter Verwendung eines neuronalen Netzes sowie Verfahren
CN115049917B (zh) * 2022-08-17 2022-11-15 上海与光彩芯科技有限公司 神经网络的训练方法、物体检测方法和智能终端设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150170020A1 (en) * 2013-12-13 2015-06-18 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. RADFORD: "Unsupervised representation learning with deep convolutional generative adversarial networks", ARXIV PREPRINT, ARXIV: 1611.06624, 2016
D. WARDE-FARLEY: "Improving generative adversarial networks with denoising feature matching", ICLR, 6 November 2016 (2016-11-06)
I. GULRAJANI: "Improved training of Wasserstein gans", ARXIV PREPRINT, ARXIV: 1704.00028, 2017
IAN GOODFELLOWJEAN POUGET-ABADIEMEHDI MIRZABING XUDAVID WARDE-FARLEYSHERJIL OZAIRAARON COURVILLEYOSHUA BENGIO: "Generative adversarial networks", ARXIV PREPRINT ARXIV: 1406.2661, 10 June 2014 (2014-06-10)
YUICHI YOSHIDATAKERU MIYATO: "Spectral norm regularization for improving the generalizability of deep learning", ARXIV PREPRINT ARXIV: 1705.10941, 31 May 2017 (2017-05-31)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123830A (ja) * 2019-01-30 2020-08-13 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
JP7198432B2 (ja) 2019-01-30 2023-01-04 京セラドキュメントソリューションズ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法及び画像処理プログラム
JP2020170358A (ja) * 2019-04-03 2020-10-15 株式会社Preferred Networks 集積回路、半導体装置、半導体モジュール、情報処理装置および半導体装置の制御方法
US11704041B2 (en) 2019-04-03 2023-07-18 Preferred Networks, Inc. Integrated circuit, semiconductor device and control method for semiconductor device
JP7370158B2 (ja) 2019-04-03 2023-10-27 株式会社Preferred Networks 情報処理装置および情報処理方法
WO2020246482A1 (ja) * 2019-06-04 2020-12-10 株式会社Preferred Networks 制御装置、システム、学習装置および制御方法
CN110365647A (zh) * 2019-06-13 2019-10-22 广东工业大学 一种基于pca和bp神经网络的虚假数据注入攻击检测方法
CN110365647B (zh) * 2019-06-13 2021-09-14 广东工业大学 一种基于pca和bp神经网络的虚假数据注入攻击检测方法
WO2021040419A1 (en) * 2019-08-30 2021-03-04 Samsung Electronics Co., Ltd. Electronic apparatus for applying personalized artificial intelligence model to another model
US20220398146A1 (en) * 2021-06-09 2022-12-15 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and storage medium
US11860716B2 (en) * 2021-06-09 2024-01-02 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and storage medium

Also Published As

Publication number Publication date
JP2020021496A (ja) 2020-02-06
JP2022101650A (ja) 2022-07-06
EP3648017A1 (en) 2020-05-06
JPWO2019004350A1 (ja) 2019-11-07
US11593663B2 (en) 2023-02-28
JP6625785B1 (ja) 2019-12-25
US20230162045A1 (en) 2023-05-25
JP2020038704A (ja) 2020-03-12
JP6595151B2 (ja) 2019-10-23
EP3648017A4 (en) 2021-08-04
CN110799995A (zh) 2020-02-14
JP7064479B2 (ja) 2022-05-10
JP7315748B2 (ja) 2023-07-26
US20200134473A1 (en) 2020-04-30
US11842284B2 (en) 2023-12-12

Similar Documents

Publication Publication Date Title
JP7064479B2 (ja) データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法
US11853894B2 (en) Meta-learning for multi-task learning for neural networks
US11250308B2 (en) Apparatus and method for generating prediction model based on artificial neural network
US20190130275A1 (en) Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks
Agostinelli et al. Learning activation functions to improve deep neural networks
JP6483667B2 (ja) ベイズの最適化を実施するためのシステムおよび方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
WO2022006919A1 (zh) 基于激活定点拟合的卷积神经网络训练后量化方法及系统
US10534994B1 (en) System and method for hyper-parameter analysis for multi-layer computational structures
US20200372325A1 (en) Neural network reduction device, neural network reduction method, and storage medium
US20210073633A1 (en) Neural network rank optimization device and optimization method
US11615292B2 (en) Projecting images to a generative model based on gradient-free latent vector determination
CN111695590A (zh) 约束优化类激活映射的深度神经网络特征可视化方法
AU2019451945A1 (en) Dynamic image resolution assessment
US20230306255A1 (en) Method and system for smooth training of a quantized neural network
US20220137930A1 (en) Time series alignment using multiscale manifold learning
KR20190129422A (ko) 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치
WO2021248544A1 (en) Low resource computational block for trained neural network
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
Chen et al. Sparse subnetwork inference for neural network epistemic uncertainty estimation with improved Hessian approximation
Bosse An Introduction to Deep Learning and the Concept of Regularization
KR102539876B1 (ko) 인공지능 기술을 이용한 적층형 저항 변화 메모리 소자의 계층 최적화 시스템 및 그 방법
US20210133626A1 (en) Apparatus and method for optimizing quantized machine-learning algorithm
WO2022242076A1 (en) Methods and systems for compressing trained neural network and for improving efficiently performing computations of compressed neural network
EP4303780A1 (en) Method and system for solving qubo problems with hybrid classical-quantum solvers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18824804

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019527020

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018824804

Country of ref document: EP

Effective date: 20200129