WO2018167900A1 - ニューラルネットワーク学習装置、方法、およびプログラム - Google Patents

ニューラルネットワーク学習装置、方法、およびプログラム Download PDF

Info

Publication number
WO2018167900A1
WO2018167900A1 PCT/JP2017/010560 JP2017010560W WO2018167900A1 WO 2018167900 A1 WO2018167900 A1 WO 2018167900A1 JP 2017010560 W JP2017010560 W JP 2017010560W WO 2018167900 A1 WO2018167900 A1 WO 2018167900A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
neural network
feature
data
hostile
Prior art date
Application number
PCT/JP2017/010560
Other languages
English (en)
French (fr)
Inventor
雅人 石井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2017/010560 priority Critical patent/WO2018167900A1/ja
Priority to JP2019505609A priority patent/JP6781415B2/ja
Priority to US16/481,536 priority patent/US11580383B2/en
Publication of WO2018167900A1 publication Critical patent/WO2018167900A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation

Definitions

  • the present invention relates to a neural network learning apparatus, method, and program.
  • the pattern recognition technique is a technique for estimating which class an input pattern belongs to.
  • Specific examples of pattern recognition include object recognition for estimating an object captured using an image as input, and voice recognition for estimating speech content using sound as an input.
  • Statistical machine learning is widely used as a pattern recognition technique.
  • neural networks in particular, have been able to learn deep networks with the development of deep learning (deep learning) in recent years, and are able to perform robust recognition against fluctuations in input patterns. It has been known.
  • supervised learning data with correct answers (also called training data or teacher data) is automatically analyzed by a machine, and the calculated feature values are classified into correct answers to learn the relationship between correct answers and feature values.
  • training data in which “input” and “correct output (dividing)” are set in advance is prepared, and when a certain input is given, the correct output (dividing) is Let the computer (machine) learn to do it.
  • unsupervised learning learning is performed only with input data (learning data), and an essential structure is learned from feature amounts extracted from the learning data. In other words, unsupervised learning is used to give only input data (learning data) and to grasp the structure inherent in the data.
  • Machine learning is divided into a “learning phase” in which a neural network is created and a “recognition phase” or a “prediction phase” in which a correct answer is obtained using the completed neural network.
  • learning phase in which a neural network is created
  • recognition phase or a “prediction phase” in which a correct answer is obtained using the completed neural network.
  • prediction phase in which a correct answer is obtained using the completed neural network.
  • humans have to design feature quantities, whereas deep learning automatically learns by acquiring (acquiring) feature quantities from learning data.
  • Patent Document 1 discloses a “neural network learning device” capable of optimizing the structure of a neural network.
  • the neural network learning device disclosed in Patent Document 1 includes an initial structure acquisition unit and a calculation unit.
  • the calculation unit includes a database, a learning unit, and an intermediate layer generation unit.
  • the database stores and stores a plurality of learning data (also referred to as learning samples) in advance.
  • the learning unit includes a learning data reading unit, a connection weight correction unit, a neuron generation unit, and a neuron extinction unit.
  • the intermediate layer generation unit executes an intermediate layer generation process. In the intermediate layer generation process, for example, an additional intermediate layer is newly generated as an intermediate layer between the intermediate layer on the most output layer side in the neural network and the output layer.
  • the arithmetic unit has a neural network having an initial structure acquired by the initial structure acquiring unit.
  • the neuron generator generates one new neuron in the intermediate layer that is the generation target intermediate layer.
  • Patent Document 2 discloses a “teacher data creation method” that enables effective learning even when a sufficient number of teacher images cannot be prepared for all of a plurality of classification categories.
  • the teacher data creation method disclosed in Patent Literature 2 includes a teaching process, a primary creation process, and a secondary creation process.
  • the teaching step associates each of the plurality of teacher images with one classification category in which the teacher image is to be classified among the plurality of classification categories.
  • the primary creation step uses at least one of a plurality of classification categories as a target category, and sets a plurality of types of feature value values obtained for the teacher image associated with the target category as a teacher associated with the target category. Data.
  • the secondary creation step generates a new feature value corresponding to a point within a predetermined distance from a point occupied by the teacher data in a feature space composed of a plurality of types of feature values based on one teacher data.
  • the feature value and the target category are associated with each other to form new teacher data.
  • a new value is obtained only by adding a predetermined value to the value in at least one of the various feature amounts representing the teacher data.
  • Teacher data can be generated. If teacher data is replenished with a classification category having a small number of teacher images as a target category, it is possible to effectively avoid the disadvantage of over-learning due to an imbalance in the number of teacher data.
  • the pre-learning process is configured such that relearning can be performed by supplementing teacher data as necessary.
  • teacher data is supplemented by deriving a point corresponding to new teacher data created by supplementation in the vicinity of a point occupied by existing teacher data in the feature space. That is, an image imitating a defect image is not generated as a real image. For this reason, the distance from the existing teacher data to the new teacher data in the feature amount space can be limited.
  • Patent Document 2 discloses a defect classification device (image classification device) including a feature amount calculation unit and a defect classification unit.
  • the feature amount calculation unit calculates a plurality of feature amount values characterizing the defect image.
  • the defect classification unit classifies the defect image into one of a plurality of classification categories using a classifier configured by prior learning based on the calculated feature value.
  • the defect classification unit executes a process of classifying the detected defect using a learning algorithm such as SVM (Support Vector Machine), neural network, decision tree, discriminant analysis, and the like in software.
  • SVM Serial Vector Machine
  • Patent Document 3 discloses a “pattern recognition dictionary generation device” that can maintain the accuracy of pattern recognition processing and increase the processing speed.
  • the pattern recognition dictionary generation device disclosed in Patent Document 3 includes a processor and a storage medium connected to the processor.
  • the storage medium stores a learning pattern database composed of a plurality of learning patterns.
  • the pattern recognition dictionary generation device includes a pattern input unit, a feature extraction unit that extracts n-dimensional features, a feature selection dictionary generation unit, a feature selection unit, an identification function generation unit, and an identification function main part extraction unit. Prepare.
  • a feature selection dictionary generation unit generates a feature selection function for converting an n-dimensional feature into an m-dimensional feature, and stores the feature selection function in a storage medium as a feature selection dictionary.
  • the feature selection unit converts the extracted n-dimensional feature into an m-dimensional feature using a feature selection function.
  • the discriminant function generation unit generates a detailed discriminant function for calculating the pattern similarity and stores it as a discriminating dictionary in the storage medium.
  • the discriminant function main part extraction unit selects a large classification feature that converts an m-dimensional feature into an L-dimensional feature in an L-dimensional feature space that is a partial space of an n-dimensional feature space and an m-dimensional feature space Generate a function.
  • the discriminant function main part extraction unit converts the detailed discriminant function as a function on the L-dimensional feature space, thereby calculating the similarity of the recognition target pattern for each category on the L-dimensional feature space. Generate classification identification information. Then, the discrimination function main part extraction unit stores the major classification feature selection function as a feature selection dictionary in the storage medium, and stores the major classification discrimination function as the discrimination dictionary in the storage medium.
  • the pattern recognition apparatus includes an identification function main part extraction unit that outputs a large classification feature conversion function and a large classification identification function to a feature selection dictionary and an identification dictionary, respectively, in the learning phase.
  • the method most often employed to solve this problem is a method of processing learning data and increasing the data in a pseudo manner.
  • the data expansion method is a method of generating data by adding perturbations (for example, translation, rotation, scale change, etc.) to learning data.
  • perturbations for example, translation, rotation, scale change, etc.
  • data that can be actually input to the neural network can be generated.
  • the generation by the data expansion method does not always generate data that contributes to the improvement of learning of the neural network, and there is a problem that it is not efficient.
  • the hostile pattern generation method is a method of adding artificial minute noise to learning data so that recognition by a machine becomes difficult.
  • the hostile pattern generation method does not consider whether the generated data is in accordance with the distribution of learning data, noisy data that cannot actually exist may be generated.
  • the hostile pattern generation method it is difficult to efficiently generate data that contributes to the improvement of neural network learning.
  • Patent Documents 1 to 3 described above have the following problems.
  • Patent Document 1 merely discloses a technique for optimizing the structure of a neural network by newly generating an additional intermediate layer as an intermediate layer. That is, Patent Document 1 does not disclose or suggest any method for increasing learning data.
  • Patent Document 2 discloses a technical idea of supplementing teacher data with a classification category having a small number of teacher images as a target category in order to effectively avoid inconvenience such as over-learning due to an imbalance in the number of teacher data. Disclosure. That is, in Patent Document 2, as in the data expansion method described above, new teacher data is generated by adding a predetermined value to at least one of various feature amounts representing teacher data. As a result, like the data expansion method described above, the technical idea disclosed in Patent Document 2 has a problem that it does not always generate data that contributes to the improvement of learning of the neural network, and is not efficient.
  • Patent Document 3 discloses that, in the learning phase, the discrimination function main part extracting unit resembles a large classification feature conversion function that converts an m-dimensional feature into an L-dimensional feature, and a pattern to be recognized for each category in the L-dimensional feature space. It only discloses the technical idea of generating a large classification function for calculating the degree. Further, Patent Document 3 does not learn a neural network, nor does it disclose or suggest any method for processing learning data.
  • An object of the present invention is to efficiently generate data that contributes to improvement of learning by processing the learning data when learning data is small, and to learn a high-performance neural network by learning this There is.
  • the neural network learning device of the present invention includes a feature extraction unit that extracts features from learning data using a learning neural network, and an adversary that generates hostile features from the extracted features using the learning neural network.
  • the effect of the present invention is that the learning data is processed to efficiently generate data that contributes to the improvement of learning, and a high-performance neural network can be learned by learning the data.
  • FIG. 1 It is a figure which shows an example of a neural network. It is a figure which shows an example which extracts the feature from learning data. It is a figure which shows an example of the neural network which should be learned. It is a figure for demonstrating the data (data which contributes to the improvement of learning) produced
  • FIG. 1 is a block diagram showing a configuration of a neural network learning apparatus 10 according to an embodiment of the present invention.
  • the illustrated neural network learning device 10 includes a feature extraction unit 12, a hostile feature generation unit 14, a pattern recognition unit 16, and a network learning unit 18.
  • the feature extraction unit 12 extracts features from the learning data using the neural network being learned.
  • the hostile feature generation unit generates hostile features from the features extracted by the feature extraction unit 12 using a neural network that is being learned.
  • the pattern recognition unit 16 calculates the output recognition result of the neural network using the learning data and the hostile feature.
  • the network learning unit 18 learns the neural network so that the recognition result approaches the desired output.
  • the combination of learning data and hostile features corresponds to data generated by processing learning data.
  • FIG. 2 is a flowchart for explaining the operation of the neural network learning apparatus 10 shown in FIG.
  • the feature extraction unit 12 extracts features from the input learning data using the neural network currently being learned (step S101).
  • the hostile feature generation unit 14 adds a perturbation to the feature extracted by the feature extraction unit 12 so as to be difficult to recognize by the currently learned neural network, and generates a hostile feature (step S102).
  • the pattern recognition unit 16 calculates and outputs a recognition result using the neural network currently being learned for each of the features extracted by the feature extraction unit 12 and the hostile features generated by the hostile feature generation unit 14. (Step S103).
  • the network learning unit 18 updates and learns the neural network so that the recognition result output from the pattern recognition unit 16 becomes a desirable recognition result (step S104).
  • the effect of this embodiment will be described.
  • the effect of this embodiment is to generate hostile features in the feature space and process the learning data, thereby efficiently generating data that contributes to learning improvement, and using the data thus generated
  • a high-performance neural network can be learned by learning the neural network.
  • the reason is as follows.
  • the feature space is a space that well represents the distribution of learning data. Therefore, the vicinity of the pattern existing on the feature space is considered to be a set of patterns having similar meanings to the pattern. Therefore, by generating hostile features in the feature space, it is possible to generate patterns that are the most difficult to recognize among patterns with similar pattern meanings, and efficiently contribute to the improvement of neural network learning. It is because it can produce
  • the data expansion method When data is generated using the data expansion method of the related technology, data is generated by specifying perturbations that can occur in the data in advance. Therefore, the data expansion method can generate data along the learning data distribution (dotted line in the figure) as shown in FIG. However, the data expansion method does not consider whether it contributes to improving the learning of the neural network. As a result, there is a problem that it is difficult for the data expansion method to efficiently improve the learning performance of the neural network.
  • the hostile pattern generation method of the related technology data is generated so that the identification becomes difficult. Therefore, the hostile pattern generation method can generate data close to the identification boundary as shown in FIG.
  • the hostile pattern generation method does not consider whether the generated data follows the distribution of learning data. As a result, the hostile pattern generation method generates data that cannot actually exist (data other than that on the dotted line), and such generated data does not necessarily contribute to the improvement of learning of the neural network. .
  • the present embodiment can process the learning data so as to generate data along the distribution of the learning data and close to the identification boundary. As a result, the performance of the neural network can be improved efficiently by learning the neural network using the data obtained by this processing.
  • the structure of the neural network is optimized by correcting the structure of the neural network.
  • the learning data to be input to the neural network is processed without correcting the structure of the neural network, and the neural network is learned using the data generated by processing. .
  • a dedicated feature amount calculation unit calculates a feature amount value without using a learning algorithm such as a neural network of the defect classification unit.
  • the feature extraction unit 12 extracts features from the learning data using the neural network that is being learned.
  • new teacher data is generated (supplemented) in the vicinity of the teacher data.
  • new teacher data is not generated (supplemented), but learning data supplied to the neural network is processed to improve the learning of the neural network. Efficiently generate contributing data.
  • the feature extraction unit extracts an n-dimensional feature, but does not describe what algorithm is used specifically for the extraction.
  • the feature extraction unit extracts features from the learning data using the neural network being learned.
  • a pattern recognition dictionary is generated from a plurality of learning patterns.
  • a pattern recognition dictionary is not generated, but learning data is used for processing, and the neural network is learned using the processing generated data.
  • Patent Documents 1 to 3 are completely different from each other in the problem, configuration, and operation effect to be solved.
  • the first embodiment shows an example of learning the neural network 30 shown in FIG.
  • the neural network 30 includes an input layer 31, an intermediate layer 32, and an output layer 33.
  • a two-dimensional learning pattern is input to the input layer 31.
  • the neural network 30 outputs the probability for each class, which is the discrimination result of two classes, from the output layer 33 through the intermediate layer 32 having one hidden unit.
  • the layers 31 to 33 are all fully connected, and the activation function is an identity function.
  • the feature extraction unit 12 uses the neural network 30 to extract features from the learning data.
  • the feature extraction unit 12 extracts a one-dimensional feature indicated by a dotted line from a two-dimensional input pattern, as shown in FIG.
  • the hostile feature generation unit 14 generates hostile features using the features extracted by the feature extraction unit 12 and the neural network 30 currently being learned.
  • the hostile feature generation unit 14 adds perturbation so that the feature approaches the threshold value.
  • the hostile feature generation unit 14 outputs a probability of belonging to the class of ⁇ by reducing the output of the unit that outputs the probability of belonging to the class of ⁇ in the output layer 33.
  • the hostile feature A ′ is generated so that the output of the unit is increased.
  • the pattern recognition unit 16 calculates a recognition result using the learning neural network 30 for each of the features extracted by the feature extraction unit 12 and the hostile features generated by the hostile feature generation unit 14. In the example of FIG. 4, the pattern recognition unit 16 correctly identifies the feature A as a class of ⁇ , but identifies the hostile feature A ′ as a class of x.
  • the network learning unit 18 updates and learns the neural network 30 so that the recognition result output from the pattern recognition unit 16 becomes a desirable recognition result.
  • the network learning unit 18 learns that the identification boundary (the threshold value of the feature amount) is shifted to the right so that the hostile feature A ′ is identified as the class of ⁇ .
  • the identification boundary can be greatly separated from the sample by generating the hostile feature in the partial space where the learning data exists and learning the neural network. As a result, a neural network with a large margin and high generalization performance can be learned.
  • the second embodiment shows an example of learning the neural network 50 shown in FIG.
  • the neural network 50 includes an input layer 51, an intermediate layer 52, and an output layer 53.
  • a learning pattern is input to the input layer 51 and a recognition result is output from the output layer 53.
  • the intermediate layer 52 includes four layers of an H1 layer 521, an H2 layer 522, an H3 layer 523, and an H4 layer 524.
  • the feature extraction unit 12 extracts features from the learning data using the neural network 50 that is currently learning.
  • the feature extraction unit 12 selects one layer randomly from the intermediate layer 52, for example, and outputs the value of the intermediate layer 52 as a feature.
  • the feature extraction unit 12 outputs the value of the H3 layer 523 as a feature.
  • the extracted feature z can be written as follows.
  • ⁇ , A, B) is an operation for calculating the value of the B layer when the value of the A layer is x in the network having ⁇ as a parameter.
  • the selection of the intermediate layer 52 that outputs the features may be performed randomly or may be determined deterministically according to a predetermined method.
  • the hostile feature generation unit 14 generates hostile features using the features extracted by the feature extraction unit 12 and the neural network 50 currently being learned.
  • a method for generating the hostile feature a method similar to the hostile pattern generation method of the related art can be used. For example, when Virtual Adversarial Training (VAT) is used, the hostile feature z 'with respect to z is generated as follows.
  • VAT Virtual Adversarial Training
  • KL (p, q) is a function for calculating KL divergence between two discrete probability distributions p and q.
  • i is an index of probability distribution, and is an index of a unit of the output layer 53 in the second embodiment.
  • the hostile feature generating unit 14 adds a perturbation in which the value of the output layer 53 changes the most among the perturbations having a magnitude of ⁇ or less to the hostile feature. Is generated.
  • the pattern recognition unit 16 calculates a recognition result using the learning neural network 50 for each of the features extracted by the feature extraction unit 12 and the hostile features generated by the hostile feature generation unit 14. In the second embodiment, the pattern recognition unit 16 calculates the value of the output layer 53 for z and z ′, respectively.
  • y is the recognition result for the original learning data
  • y ' is the recognition result for the hostile feature
  • the network learning unit 18 updates and learns the neural network 50 so that the recognition result output from the pattern recognition unit 16 becomes a desirable recognition result.
  • a network update method a gradient method based on the error back-propagation method that is generally used can be used. For example, when the simplest steepest descent method is used, the parameters of the neural network are updated as follows.
  • t is a teacher signal indicating a desired recognition result
  • is a learning rate
  • the discrimination boundary can be greatly separated from the sample by generating the hostile feature in the partial space where the learning data exists and learning the neural network. As a result, a neural network with a large margin and high generalization performance can be learned.
  • constraints can also be introduced on hostile features or perturbations to generate hostile features.
  • the constraint on the perturbation r * for generating the hostile feature is only the constraint that the magnitude is ⁇ or less.
  • a constraint condition that can be expressed by linear combination of learning data is introduced. If the coefficient of linear combination is c, the perturbation r can be written as
  • Z is a matrix in which features (z_1,..., Z_M) extracted from learning data are arranged.
  • the identification boundary can be greatly separated from the sample by generating the hostile feature in the partial space where the learning data exists and learning the neural network. As a result, a neural network with a large margin and high generalization performance can be learned.
  • a pattern recognition apparatus By using a neural network obtained by learning in this way, a pattern recognition apparatus can be realized. That is, the pattern recognition apparatus performs pattern recognition based on the neural network 30 or 50 learned using the neural network learning apparatus 10 described above.
  • a neural network learning program is expanded in RAM (random access memory), and hardware such as a control unit (CPU (central processing unit)) is operated based on the program.
  • CPU central processing unit
  • Each part (each component) is realized as various means.
  • the program may be recorded on a recording medium and distributed.
  • the program recorded on the recording medium is read into a memory via a wired, wireless, or recording medium itself, and operates a control unit or the like. Examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk.
  • a computer that operates as the neural network learning apparatus 10 is based on a neural network learning program developed in a RAM, a feature extraction unit 12, a hostile feature extraction unit. 14 can be realized by operating as the pattern recognition unit 16 and the network learning unit 18.
  • a neural network can be efficiently learned with a small amount of learning data.
  • the present invention can be used for the purpose of identifying a pattern, such as face recognition and object recognition, in image processing and sound processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

深層ネットワークを学習する際には、一般的に大量の学習データが必要とし、少数のデータで学習することは困難である。この問題を解決するために、本発明のニューラルネットワーク学習装置は、学習中のニューラルネットワークを用いて学習データから特徴を抽出する特徴抽出部と、抽出した特徴から学習中のニューラルネットワークを用いて敵対的特徴を生成する敵対的特徴生成部と、学習データと敵対的特徴とを用いてニューラルネットワークの認識結果を算出するパターン認識部と、認識結果が望ましい出力に近づくようにニューラルネットワークを学習するネットワーク学習部とを備える。

Description

ニューラルネットワーク学習装置、方法、およびプログラム
本発明はニューラルネットワーク学習装置、方法およびプログラムに関する。
パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。
パターン認識技術として統計的機械学習が広く利用されている。統計的機械学習の中で、特にニューラルネットワークは、近年、ディープラーニング(deep learning)と呼ばれる学習技術の発達により、深層ネットワークの学習が可能となり、入力パターンの変動に頑健な認識を行うことができることが知られている。
周知のように、機械学習は大きく分けて、教師有り学習(supervised learning)と、教師無し学習(unsupervised learning)との2つに分類される。教師有り学習では、正解付きデータ(訓練データや教師データとも呼ばれる)を機械に自動的に解析させ、算出した特徴量を正解に分類させることで正解と特徴量の関係を学習する。換言すれば、教師有り学習は、「入力」と「正しい出力(分け方)」がセットになった訓練データを予め用意して、ある入力が与えられたときに、正しい出力(分け方)ができるようにコンピュータ(機械)に学習させる。これに対して、教師無し学習では、入力データ(学習データ)のみで学習を行い、学習データから抽出した特徴量から本質的な構造を学習する。換言すれば、教師無し学習は、入力用のデータ(学習データ)のみを与え、データに内在する構造をつかむために用いられる。
機械学習は、ニューラルネットワークをつくる「学習フェーズ」と、できあがったニューラルネットワークを使って正解を出す「認識フェーズ」又は「予測フェーズ」との2つに分かれる。公知の機械学習では人間が特徴量の設計をしなければならなかったのに対し、ディープラーニングは自動で学習データから特徴量を取得(獲得)して学習する。
本発明に関連する先行技術文献が種々知られている。
特許文献1は、ニューラルネットワークの構造を最適化することが可能な「ニューラルネットワーク学習装置」を開示している。特許文献1に開示されたニューラルネットワーク学習装置は、初期構造取得部と、演算部とを有する。演算部は、データベース、学習部、及び中間層生成部を備えている。データベースは、複数の学習データ(学習サンプルとも称される)を予め記憶して格納している。学習部は、学習データ読込部と、結合荷重修正部と、ニューロン生成部と、ニューロン生滅部とを有している。中間層生成部は、中間層生成処理を実行する。中間層生成処理では、例えばニューラルネットワークにおいて最も出力層側の中間層と出力層との間に、追加中間層を中間層として新たに生成する。
演算部は、初期構造取得部で取得した初期構造のニューラルネットワークを有している。ニューロン生成部は、生成対象中間層である中間層に新たなニューロンを1つ生成する。
特許文献2は、複数の分類カテゴリの全てに対して十分な数の教師画像を準備することができない場合でも、効果的に学習を行うことのできる「教師データ作成方法」を開示している。特許文献2に開示された教師データ作成方法は、教示工程と、一次作成工程と、二次作成工程とを備える。教示工程は、複数の教師画像のそれぞれに対して、複数の分類カテゴリのうち当該教師画像が分類されるべき一の分類カテゴリを関連付ける。一次作成工程は、複数の分類カテゴリのうち少なくとも1つを対象カテゴリとして、当該対象カテゴリに関連付けられた教師画像について求めた複数種の特徴量の値の組を、当該対象カテゴリと関連付けられた教師データとする。二次作成工程は、一の教師データに基づき、複数種の特徴量からなる特徴空間において当該教師データが占める点からの距離が所定距離以内である点に対応する新たな特徴量の値を生成し、それらの特徴量の値と対象カテゴリとを関連付けて新たな教師データとする。
特許文献2において、教師データに対応する点を体心とする超立方体の頂点とする方法では、当該教師データを表す各種特徴量の少なくとも1つにおいてその値に所定値を加算することのみによって新たな教師データを生成することができる。教師画像の数が少ない分類カテゴリを対象カテゴリとして教師データの補充を行うようにすれば、教師データ数の不均衡に起因する過学習の不都合を効果的に回避することが可能である。事前学習処理は、必要に応じて教師データを補充して再学習を行うことができるように構成されている。また、既に存在する教師データが特徴量空間において占める点の近傍に、補充により作成される新たな教師データに対応する点を派生させることにより、教師データの補充を行う。すなわち、実画像として欠陥画像を模した画像を生成することはすいない。このため、特徴量空間における既存の教師データからの新たな教師データまでの距離を限定されたものとすることができる。
また、特許文献2は、特徴量算出部と、欠陥分類部とを含む欠陥分類装置(画像分類装置)を開示している。特徴量算出部は欠陥画像を特徴付ける複数の特徴量の値を算出する。欠陥分類部は、算出された特徴量の値に基づき、事前学習により構成された分類器を用いて当該欠陥画像を複数の分類カテゴリのいずれかに分類する。欠陥分類部は、検出された欠陥をSVM(サポートベクタマシン;Support Vector Machine)、ニューラルネットワーク、決定木、判別分析等の学習アルゴリズムを利用して分類する処理をソフトウェア的に実行する。
特許文献3は、パターン認識の処理の精度を保ち、かつ、高速化することができる「パターン認識用辞書生成装置」を開示している。特許文献3に開示されたパターン認識用辞書生成装置は、プロセッサと、このプロセッサに接続された記憶媒体とを備える。記憶媒体には、複数の学習用のパターンから構成される学習用パターンデータベースが格納されている。パターン認識用辞書生成装置は、パターン入力部と、n次元特徴を抽出する特徴抽出部と、特徴選択辞書生成部と、特徴選択部と、識別関数生成部と、識別関数主要部分抽出部とを備える。
このパターン認識用辞書生成装置において、特徴選択辞書生成部は、m次元特徴にn次元特徴を変換する特徴選択関数を生成し、特徴選択用辞書として記憶媒体に格納する。特徴選択部は、特徴選択関数を用いて、抽出されたn次元特徴をm次元特徴に変換する。識別関数生成部は、パターンの類似度を算出するための詳細識別関数を生成し、識別用辞書として記憶媒体に格納する。識別関数主要部分抽出部は、まず、n次元特徴空間の部分空間で、かつ、m次元特徴空間の部分空間であるL次元特徴空間上のL次元特徴にm次元特徴を変換する大分類特徴選択関数を生成する。引き続いて、識別関数主要部分抽出部は、詳細識別関数をL次元特徴空間上の関数として変換することによって、L次元特徴空間上で各カテゴリに対する認識対象のパターンの類似度を算出するための大分類識別情報を生成する。そして、識別関数主要部分抽出部は、大分類特徴選択関数を特徴選択用辞書として記憶媒体に格納し、大分類識別関数を識別用辞書として記憶媒体に格納する。
パターン認識では、認識処理の高速化のため、まず、高速に計算できる大分類識別関数によって、正解候補カテゴリを絞る粗い認識処理が実行される。その後、正解候補カテゴリとして詳細識別関数を用いて、正解候補カテゴリの各々に対する入力パターンの類似度が算出され、最終的な認識結果が出力される。パターン認識装置は、学習フェーズにおいて、大分類用特徴変換関数と大分類識別関数とをそれぞれ特徴選択用辞書と識別用辞書とに出力する識別関数主要部分抽出部を備える。
特開2017-037392号公報 特開2014-178229号公報 特開2011-008634号公報
深層ネットワークを学習する際には、一般的に大量の学習データを必要とし、少数の学習データで学習することは困難である。その理由は、深層ネットワークでは学習すべきパラメータが非常に多く、学習データが少数の場合、過学習によって汎化性能が大きく低下するためである。この問題を解決するために最も良く採用される方法は、学習データを加工して擬似的にデータを増やす方法である。
学習データを加工して擬似的にデータを増やす方法には、大きく2種類の方法がある。1つの方法は「データ拡張方法」であり、もう1つの方法は「敵対的パターン生成方法」である。
データ拡張方法は、学習データに摂動(例えば、並進移動、回転、スケール変化など)を加えることでデータを生成する手法である。データ拡張方法による生成では、実際にニューラルネットワークに入力され得るデータを生成できる。しかしながら、一方で、データ拡張方法による生成では、ニューラルネットワークの学習の改善に寄与するデータを生成するとは限らず、効率的ではないという問題がある。
敵対的パターン生成方法は、学習データに対して機械による認識が困難になるように人工的な微小ノイズを付加する方法である。しかしながら、敵対的パターン生成方法では、生成されるデータが学習データの分布に沿っているかを考慮していないため、実際には存在しえないノイジーなデータを生成してしまう場合がある。その結果、敵対的パターン生成方法では、ニューラルネットワークの学習の改善に寄与するデータを効率的に生成することが難しい。
一方、前述した特許文献1~3には、それぞれ、次に述べるような問題がある。
特許文献1は、単に、追加中間層を中間層として新たに生成するなどして、ニューラルネットワークの構造を最適化する技術を開示しているに過ぎない。すなわち、特許文献1は、学習データを増加する手法について何ら開示も示唆もしていない。
特許文献2は、教師データ数の不均衡に起因する過学習等の不都合を効果的に回避するために、教師画像の数が少ない分類カテゴリを対象カテゴリとして教師データの補充を行なう技術的思想を開示している。すなわち、特許文献2では、前述したデータ拡張方法と同様に、教師データを表す各種特徴量の少なくとも1つにおいてその値に所定値を加算することで新たな教師データを生成している。その結果、上記データ拡張方法と同様に、特許文献2の開示の技術的思想では、ニューラルネットワークの学習の改善に寄与するデータを生成するとは限らず、効率的ではないという問題がある。
特許文献3は、学習フェーズにおいて、識別関数主要部分抽出部が、m次元特徴をL次元特徴に変換する大分類用特徴変換関数と、L次元特徴空間上で各カテゴリに対する認識対象のパターンの類似度を算出するための大分類識別関数とを生成する、技術的思想を開示しているに過ぎない。また、特許文献3は、ニューラルネットワークを学習してはいないし、学習データを加工する手法についても何ら開示も示唆もしていない。
 [発明の目的]
本発明の目的は、学習データが少数の場合に、学習データを加工することで、学習の改善に寄与するデータを効率的に生成し、これを学習することで性能の高いニューラルネットワークを学習することにある。
本発明のニューラルネットワーク学習装置は、学習中のニューラルネットワークを用いて学習データから特徴を抽出する特徴抽出部と、前記抽出した特徴から前記学習中のニューラルネットワークを用いて敵対的特徴を生成する敵対的特徴生成部と、前記学習データと前記敵対的特徴とを用いて前記ニューラルネットワークの認識結果を算出するパターン認識部と、前記認識結果が望ましい出力に近づくように前記ニューラルネットワークを学習するネットワーク学習部とを備える。
本発明の効果は、学習データを加工することで、学習の改善に寄与するデータを効率的に生成し、これを学習することで性能の高いニューラルネットワークを学習できる点である。
本発明の一実施形態に係るニューラルネットワーク学習装置の構成を示すブロック図である。 図1に示したニューラルネットワーク学習装置の動作を説明するためのフローチャートである。 ニューラルネットワークの一例を示す図である。 学習データから特徴を抽出する一例を示す図である。 学習すべきニューラルネットワークの一例を示す図である。 図1に示したニューラルネットワーク学習装置を用いて生成されたデータ(学習の改善に寄与するデータ)を説明するための図である。 関連技術における敵対的パターン生成方法により生成されたデータ(現実には存在しえないデータ)を説明するための図である。 関連技術におけるデータ拡張方法により生成されたデータ(学習の改善に寄与しないデータ)を説明するための図である。
[構成の説明]
図1は、本発明の一実施の形態に係るニューラルネットワーク学習装置10の構成を示すブロック図である。図示のニューラルネットワーク学習装置10は、特徴抽出部12と、敵対的特徴生成部14と、パターン認識部16と、ネットワーク学習部18とから成る。
特徴抽出部12は、学習中のニューラルネットワークを用いて学習データから特徴を抽出する。敵対的特徴生成部は、特徴抽出部12で抽出した特徴から学習中のニューラルネットワークを用いて敵対的特徴を生成する。パターン認識部16は、学習データと敵対的特徴とを用いてニューラルネットワークの出力認識結果を算出する。ネットワーク学習部18は、認識結果が望ましい出力に近づくようにニューラルネットワークを学習する。ここで、学習データと敵対的特徴との組み合わせは、学習データを加工することによって生成されたデータに相当する。
[動作の説明]
図1と図2を参照して、本実施形態の動作について詳細に説明する。図2は、図1に示したニューラルネットワーク学習装置10の動作を説明するためのフローチャートである。
特徴抽出部12は、現在学習中のニューラルネットワークを用いて、入力された学習データから特徴を抽出する(ステップS101)。敵対的特徴生成部14は、特徴抽出部12で抽出された特徴に対して、現在学習中のニューラルネットワークによる認識が難しくなるように摂動を付加し、敵対的特徴を生成する(ステップS102)。パターン認識部16は、特徴抽出部12で抽出された特徴と敵対的特徴生成部14で生成された敵対的特徴のそれぞれについて、現在学習中のニューラルネットワークを用いた認識結果を算出して出力する(ステップS103)。ネットワーク学習部18は、パターン認識部16から出力された認識結果が望ましい認識結果となるようにニューラルネットワークを更新して学習する(ステップS104)。
本実施形態の効果について説明する。本実施形態の効果は、特徴空間上で敵対的特徴を生成して学習データを加工することで、学習の改善に寄与するデータを効率的に生成し、このように生成されたデータを用いてニューラルネットワークを学習することで性能の高いニューラルネットワークを学習できる点である。
その理由は次の通りである。特徴空間は学習データの分布を良く表現する空間である。そのため、特徴空間上に存在するパターンの近傍は、そのパターンと意味が類似しているパターンの集合であると考えられる。したがって、特徴空間上で敵対的特徴を生成することで、パターンの意味が類似したパターンの中で、最も認識が難しいパターンを生成することができ、ニューラルネットワークの学習の改善に寄与するデータを効率的に生成することができるからである。
関連技術の方法と比較した時の本実施形態の効果を、図6~8を用いて具体例を元に詳細に説明する。この例では2次元の入力パターンに対して、●と×の2クラスを識別する場合を示している。また、データは2次元で表現されているが、実際には点線で示す1次元の部分空間にしか存在しないとする。このように、学習データが特徴空間の部分空間にしか分布しないという状況は、パターン認識の分野では一般的に起こりうる。
関連技術のデータ拡張方法を用いてデータを生成した場合、データに起こり得る摂動を事前に指定してデータを生成する。このため、データ拡張方法は、図8のように学習データの分布(図中の点線)に沿ったデータを生成できる。しかしながら、データ拡張方法は、ニューラルネットワークの学習の改善に寄与するかどうかを考慮していない。その結果、データ拡張方法では効率的にニューラルネットワークの学習の性能を向上することが難しいという問題がある。
一方、関連技術の敵対的パターン生成方法では、識別が難しくなるようにデータを生成する。このため、敵対的パターン生成方法は、図7のように識別境界に近いデータを生成することができる。しかしながら、敵対的パターン生成方法は、生成されるデータが学習データの分布に沿っているかを考慮していない。その結果、敵対的パターン生成方法では、実際には存在しえないデータ(点線上以外のデータ)を生成してしまい、そのように生成されたデータはニューラルネットワークの学習の改善には必ずしも寄与しない。
これに対して、本実施形態では、図6に示すように、学習データの分布を良く表現する1次元の特徴空間上で敵対的特徴を生成する。このため、本実施形態は、学習データの分布に沿い、かつ識別境界に近いデータを生成するように、学習データを加工することができる。その結果、この加工して得られたデータを使用してニューラルネットワークを学習することにより、効率的にニューラルネットワークの性能を向上できる。
次に、本発明の理解を更に容易にするために、本実施形態と上記特許文献1~3に記載の発明との間の相違点について説明する。
特許文献1に開示された発明では、ニューラルネットワークの構造を修正することによって、ニューラルネットワークの構造を最適化している。これに対して、本実施形態では、ニューラルネットワークの構造を修正することなく、ニューラルネットワークに入力されるべき学習データを加工し、加工して生成されたデータを用いてニューラルネットワークを学習している。
特許文献2に開示された発明では、欠陥分類部のニューラルネットワーク等の学習アルゴリズムを使用することなく、専用の特徴量算出部が特徴量の値を算出している。これに対して、本実施形態では、特徴抽出部12が、学習中のニューラルネットワークを用いて学習データから特徴を抽出している。また、特許文献2に開示された発明では、事前学習において、教師数が不足している場合に、教師データの近傍に新たな教師データを生成(補充)している。これに対して、本実施形態では、新たな教師データ(学習データ)を生成(補充)しているのではなく、ニューラルネットワークに供給される学習データを加工して、ニューラルネットワークの学習の改善に寄与するデータを効率的に生成している。
特許文献3に開示された発明では、特徴抽出部がn次元特徴を抽出しているが、抽出するために具体的にどのようなアルゴリズムを使用しているかについては記載していない。これに対して、本実施形態では、特徴抽出部が、学習中のニューラルネットワークを用いて学習データから特徴を抽出している。特許文献3に開示された発明では、複数の学習用のパターンからパターン認識用辞書を生成している。これに対して、本実施形態では、パターン認識用辞書を生成しているのではなく、学習データを使用し加工し、加工して生成されたデータを用いてニューラルネットワークを学習している。
このように、本実施形態と特許文献1~3に記載された発明とは、解決しようとする課題、構成、および作用効果が全く相違する。
次に、具体的な第1の実施例を用いて、本発明を実施するための形態の動作を説明する。本第1の実施例では、図3に示すニューラルネットワーク30を学習する例を示す。
ニューラルネットワーク30は、入力層31と、中間層32と、出力層33とから成る。入力層31には2次元の学習パターンが入力される。ニューラルネットワーク30は、1つの隠れユニットを持つ中間層32を経て、出力層33から2クラスの識別結果であるクラスごとの確率を出力する。本例では、層31~33の間は全て全結合とし、活性化関数は恒等関数とする。
特徴抽出部12では、ニューラルネットワーク30を用いて、学習データから特徴を抽出する。図3のニューラルネットワーク30を用いる場合、特徴抽出部12は、図4に示すように、2次元の入力パターンから点線で示す1次元の特徴を抽出する。
敵対的特徴生成部14では、特徴抽出部12で抽出した特徴と現在学習中のニューラルネットワーク30を用いて敵対的特徴を生成する。図3のニューラルネットワーク30では、中間層32で抽出した1次元の特徴量を用いて閾値処理によって識別を行っているため、敵対的特徴生成部14は、特徴が閾値に近づくように摂動を付加して敵対的特徴を生成する。例えば、敵対的特徴生成部14は、図4中の特徴Aに対しては、出力層33の●のクラスに属する確率を出力するユニットの出力が小さくなり、×のクラスに属する確率を出力するユニットの出力が大きくなるように、敵対的特徴A’を生成する。
パターン認識部16では、特徴抽出部12で抽出された特徴と敵対的特徴生成部14で生成された敵対的特徴のそれぞれについて、学習中のニューラルネットワーク30を用いた認識結果を算出する。図4の例では、パターン認識部16は、特徴Aを正しく●のクラスと識別するが、敵対的特徴A’を×のクラスと識別する。
ネットワーク学習部18では、パターン認識部16から出力された認識結果が望ましい認識結果となるようにニューラルネットワーク30を更新して学習する。図4の例では、ネットワーク学習部18は、敵対的特徴A’を●のクラスと識別されるように、識別境界(特徴量の閾値)が右にずれるように学習する。
このように、本第1の実施例では、敵対的特徴を学習データの存在する部分空間内で生成してニューラルネットワークを学習することで、識別境界をサンプルから大きく遠ざけることができる。その結果、マージンが大きく汎化性能の高いニューラルネットワークを学習することができる。
次に、中間層が多層になった場合の第2の実施例について、発明を実施するための形態の動作を説明する。本第2の実施例では、図5に示すニューラルネットワーク50を学習する例を示す。
ニューラルネットワーク50は、入力層51と、中間層52と、出力層53とから成る。このようなニューラルネットワーク50では、入力層51には学習パターンが入力され、出力層53から認識結果が出力される。中間層52はH1層521、H2層522、H3層523、およびH4層524の4層からなる。
特徴抽出部12では、現在学習中のニューラルネットワーク50を用いて、学習データから特徴を抽出する。図5のニューラルネットワークを用いる場合、特徴抽出部12は、例えば中間層52からランダムに1層選択し、その中間層52の値を特徴として出力する。ここでは、特徴抽出部12は、H3層523の値を特徴として出力したとする。
入力パターンをx、学習中のネットワークのパラメータをθとすると、抽出する特徴zは以下のように書ける。
Figure JPOXMLDOC01-appb-M000001
ただし、f(x|θ,A,B)は、θをパラメータとするネットワークにおいてA層の値をxとした時のB層の値を算出する操作である。特徴を出力する中間層52の選択は、ランダムに行っても良いし、事前に決めた方法に従って決定論的に決めても良い。
敵対的特徴生成部14では、特徴抽出部12で抽出した特徴と現在学習中のニューラルネットワーク50を用いて敵対的特徴を生成する。敵対的特徴を生成する方法としては、関連技術の敵対的パターン生成方法と同様の方法を用いることができる。例えば、Virtual Adversarial Training(VAT)を用いた場合、zに対する敵対的特徴z’は、以下のように生成される。
Figure JPOXMLDOC01-appb-M000002
ここで、f(z|θ,H3,Out)とf(z+r|θ,H3,Out)はいずれも出力層の出力であるため、入力パターンが所属するクラスの確率分布となっている。KL(p,q)は2つの離散確率分布pとqの間のKLダイバージェンスを算出する関数である。
Figure JPOXMLDOC01-appb-M000003
ただし、iは確率分布のインデックスであり、本第2の実施例では出力層53のユニットのインデックスである。
本第2の実施例では、敵対的特徴生成部14は、大きさがε以下の摂動のうち、出力層53の値が最も大きく変化するような摂動をzに付加することで、敵対的特徴を生成している。
パターン認識部16では、特徴抽出部12で抽出された特徴と敵対的特徴生成部14で生成された敵対的特徴のそれぞれについて、学習中のニューラルネットワーク50を用いた認識結果を算出する。本第2の実施例では、パターン認識部16は、zとz’についてそれぞれ出力層53の値を計算する。
Figure JPOXMLDOC01-appb-M000004
ここで、yは元の学習データに対する認識結果、y’は敵対的特徴に対する認識結果である。
ネットワーク学習部18では、パターン認識部16から出力された認識結果が望ましい認識結果となるようにニューラルネットワーク50を更新して学習する。ネットワークの更新方法は、一般的に良く用いられる誤差逆伝播法に基づく勾配法などを用いることができる。例えば、最も単純な最急降下法を用いた場合、ニューラルネットワークのパラメータは以下のように更新される。
Figure JPOXMLDOC01-appb-M000005
ここで、tは望ましい認識結果を示す教師信号、μは学習率である。
このように、本第2の実施例でも、敵対的特徴を学習データの存在する部分空間内で生成してニューラルネットワークを学習することで、識別境界をサンプルから大きく遠ざけることができる。その結果、マージンが大きく汎化性能の高いニューラルネットワークを学習することができる。
次に、本発明の第3の実施例について説明する。敵対的特徴を更に学習データの分布に沿わせるため、敵対的特徴あるいは敵対的特徴を生成するための摂動に対して制約を導入することもできる。
上記第1の実施例においては、敵対的特徴を生成するための摂動r*に対する制約は、大きさがε以下であるという拘束条件だけであった。これに対して、本第3の実施例では、例えば、学習データの線形結合で表現できるという拘束条件を導入している。線形結合の係数をcとすると、摂動rは以下のように書ける。
Figure JPOXMLDOC01-appb-M000006
ただし、Zは学習データから抽出した特徴(z_1,…,z_M)を並べた行列である。この時、敵対的特徴z’は以下のように生成できる。
Figure JPOXMLDOC01-appb-M000007
このように、本第3の実施例でも、敵対的特徴を学習データの存在する部分空間内で生成してニューラルネットワークを学習することで、識別境界をサンプルから大きく遠ざけることができる。その結果、マージンが大きく汎化性能の高いニューラルネットワークを学習することができる。
このように学習して得られたニューラルネットワークを用いることによって、パターン認識装置を実現することが可能である。すなわち、パターン認識装置は、上述したニューラルネットワーク学習装置10を用いて学習したニューラルネットワーク30又は50に基づいて、パターン認識を行う。
 尚、ニューラルネットワーク学習装置10の各部(各構成要素)は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAM(random access memory)にニューラルネットワーク学習プログラムが展開され、該プログラムに基づいて制御部(CPU(central processing unit))等のハードウェアを動作させることによって、各部(各構成要素)を各種手段として実現する。また、該プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
 上記実施の形態(実施例)を別の表現で説明すれば、ニューラルネットワーク学習装置10として動作させるコンピュータを、RAMに展開されたニューラルネットワーク学習プログラムに基づき、特徴抽出部12、敵対的特徴抽出部14、パターン認識部16、およびネットワーク学習部18として動作させることで実現することが可能である。
 以上説明したように、本発明の実施の形態(実施例)によれば、少数の学習データでも効率よくニューラルネットワークを学習することができる。
 また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
 以上、実施の形態および実施例を参照して本願発明を説明したが、本願発明は上記実施の形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、画像処理や音声処理において、例えば顔認識や物体認識などのように、パターンを識別する用途に使用することができる。
10  ニューラルネットワーク学習装置
12  特徴抽出部
14  敵対的特徴生成部
16  パターン認識部
18  ネットワーク学習部
30  ニューラルネットワーク
31  入力層
32  中間層
33  出力層
50  ニューラルネットワーク
51  入力層
52  中間層
521  H1層
522  H2層
523  H3層
524  H4層
53  出力層
 
 

Claims (7)

  1. 学習中のニューラルネットワークを用いて学習データから特徴を抽出する特徴抽出部と、
    前記抽出した特徴から前記学習中のニューラルネットワークを用いて敵対的特徴を生成する敵対的特徴生成部と、
    前記学習データと前記敵対的特徴とを用いて前記ニューラルネットワークの認識結果を算出するパターン認識部と、
    前記認識結果が望ましい出力に近づくように前記ニューラルネットワークを学習するネットワーク学習部と、
    を備えるニューラルネットワーク学習装置。
  2. 前記敵対的特徴生成部は、前記学習データの線形結合で表現した拘束条件下で、前記敵対的特徴を生成する、請求項1に記載のニューラルネットワーク学習装置。
  3. 請求項1または2に記載のニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて、パターン認識を行うパターン認識装置。
  4. 学習中のニューラルネットワークを用いて学習データから特徴を抽出するステップと、
    前記抽出した特徴から前記学習中のニューラルネットワークを用いて敵対的特徴を生成するステップと、
    前記学習データと前記敵対的特徴とを用いて前記ニューラルネットワークの認識結果を算出するステップと、
    前記認識結果が望ましい出力に近づくように前記ニューラルネットワークを学習するステップと、
    を含むニューラルネットワーク学習方法。
  5. 前記生成するステップは、前記学習データの線形結合で表現した拘束条件下で、前記敵対的特徴を生成する、請求項4に記載のニューラルネットワーク学習方法。
  6. 学習中のニューラルネットワークを用いて学習データから特徴を抽出する手順と、
    前記抽出した特徴から前記学習中のニューラルネットワークを用いて敵対的特徴を生成する手順と、
    前記学習データと前記敵対的特徴とを用いて前記ニューラルネットワークの認識結果を算出する手順と、
    前記認識結果が望ましい出力に近づくように前記ニューラルネットワークを学習する手順と、
    をコンピュータに実行させるニューラルネットワーク学習プログラム。
  7. 前記生成する手段は、前記コンピュータに、前記学習データの線形結合で表現した拘束条件下で、前記敵対的特徴を生成させる、請求項6に記載のニューラルネットワーク学習プログラム。
PCT/JP2017/010560 2017-03-16 2017-03-16 ニューラルネットワーク学習装置、方法、およびプログラム WO2018167900A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/010560 WO2018167900A1 (ja) 2017-03-16 2017-03-16 ニューラルネットワーク学習装置、方法、およびプログラム
JP2019505609A JP6781415B2 (ja) 2017-03-16 2017-03-16 ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
US16/481,536 US11580383B2 (en) 2017-03-16 2017-03-16 Neural network learning device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/010560 WO2018167900A1 (ja) 2017-03-16 2017-03-16 ニューラルネットワーク学習装置、方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2018167900A1 true WO2018167900A1 (ja) 2018-09-20

Family

ID=63522861

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/010560 WO2018167900A1 (ja) 2017-03-16 2017-03-16 ニューラルネットワーク学習装置、方法、およびプログラム

Country Status (3)

Country Link
US (1) US11580383B2 (ja)
JP (1) JP6781415B2 (ja)
WO (1) WO2018167900A1 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020061007A (ja) * 2018-10-11 2020-04-16 富士通株式会社 学習プログラム、学習方法および学習装置
JP2020087148A (ja) * 2018-11-29 2020-06-04 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2020115257A (ja) * 2019-01-17 2020-07-30 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP2020135353A (ja) * 2019-02-19 2020-08-31 株式会社東光高岳 アナログメータ諸元認識装置、コンピュータプログラム及びアナログメータ諸元認識方法
JP2020170495A (ja) * 2019-04-04 2020-10-15 ▲広▼州大学 単一画素攻撃サンプルの生成方法、装置、設備及び記憶媒体
JP2020177582A (ja) * 2019-04-22 2020-10-29 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP2020194260A (ja) * 2019-05-27 2020-12-03 株式会社日立製作所 情報処理システム、推論方法、攻撃検知方法、推論実行プログラム及び攻撃検知プログラム
CN112639844A (zh) * 2018-10-23 2021-04-09 欧姆龙株式会社 控制系统以及控制方法
JP2021135896A (ja) * 2020-02-28 2021-09-13 株式会社日立製作所 学習データ生成装置、及び学習データ生成方法
JP2022522278A (ja) * 2019-02-22 2022-04-15 ビ-エイイ- システムズ パブリック リミテッド カンパニ- ビスポークな検出モデル
WO2022153578A1 (ja) * 2021-01-12 2022-07-21 株式会社エクサウィザーズ 情報処理装置、情報処理方法、およびプログラム
WO2023188790A1 (ja) * 2022-03-29 2023-10-05 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム
JP7454402B2 (ja) 2020-02-20 2024-03-22 浜松ホトニクス株式会社 検出システムおよび学習方法
JP7475192B2 (ja) 2020-04-30 2024-04-26 株式会社日立製作所 識別器学習装置及び識別器学習方法
US12008072B2 (en) 2018-10-23 2024-06-11 Omron Corporation Control system and control method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373091B2 (en) * 2017-10-19 2022-06-28 Syntiant Systems and methods for customizing neural networks
EP3942384A4 (en) * 2019-03-18 2022-05-04 Zestfinance, Inc. SYSTEMS AND PROCEDURES FOR MODEL FAIRNESS
WO2020252784A1 (zh) * 2019-06-21 2020-12-24 西门子股份公司 电力负荷数据的预测方法、装置及存储介质
CN111460426B (zh) * 2020-04-02 2023-06-20 武汉大学 基于对抗演化框架的抗深度学习文本验证码生成系统及方法
US11818147B2 (en) * 2020-11-23 2023-11-14 Fair Isaac Corporation Overly optimistic data patterns and learned adversarial latent features
US20230401492A1 (en) * 2022-06-13 2023-12-14 Gobubble Ltd Content moderation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009032273A (ja) * 2008-08-29 2009-02-12 Olympus Corp 分類装置
JP2014178229A (ja) * 2013-03-15 2014-09-25 Dainippon Screen Mfg Co Ltd 教師データ作成方法、画像分類方法および画像分類装置
JP2016099507A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5353482B2 (ja) 2009-06-26 2013-11-27 株式会社日立情報通信エンジニアリング パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
JP6287999B2 (ja) 2015-08-07 2018-03-07 トヨタ自動車株式会社 ニューラルネットワーク学習装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009032273A (ja) * 2008-08-29 2009-02-12 Olympus Corp 分類装置
JP2014178229A (ja) * 2013-03-15 2014-09-25 Dainippon Screen Mfg Co Ltd 教師データ作成方法、画像分類方法および画像分類装置
JP2016099507A (ja) * 2014-11-21 2016-05-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020061007A (ja) * 2018-10-11 2020-04-16 富士通株式会社 学習プログラム、学習方法および学習装置
JP7115207B2 (ja) 2018-10-11 2022-08-09 富士通株式会社 学習プログラム、学習方法および学習装置
US12008072B2 (en) 2018-10-23 2024-06-11 Omron Corporation Control system and control method
CN112639844A (zh) * 2018-10-23 2021-04-09 欧姆龙株式会社 控制系统以及控制方法
JP7059166B2 (ja) 2018-11-29 2022-04-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2020087148A (ja) * 2018-11-29 2020-06-04 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2020115257A (ja) * 2019-01-17 2020-07-30 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7279368B2 (ja) 2019-01-17 2023-05-23 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP2020135353A (ja) * 2019-02-19 2020-08-31 株式会社東光高岳 アナログメータ諸元認識装置、コンピュータプログラム及びアナログメータ諸元認識方法
JP7247358B2 (ja) 2019-02-22 2023-03-28 ビ-エイイ- システムズ パブリック リミテッド カンパニ- ビスポークな検出モデル
JP2022522278A (ja) * 2019-02-22 2022-04-15 ビ-エイイ- システムズ パブリック リミテッド カンパニ- ビスポークな検出モデル
JP2020170495A (ja) * 2019-04-04 2020-10-15 ▲広▼州大学 単一画素攻撃サンプルの生成方法、装置、設備及び記憶媒体
JP7106486B2 (ja) 2019-04-22 2022-07-26 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
JP2020177582A (ja) * 2019-04-22 2020-10-29 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP7213754B2 (ja) 2019-05-27 2023-01-27 株式会社日立製作所 情報処理システム、推論方法、攻撃検知方法、推論実行プログラム及び攻撃検知プログラム
JP2020194260A (ja) * 2019-05-27 2020-12-03 株式会社日立製作所 情報処理システム、推論方法、攻撃検知方法、推論実行プログラム及び攻撃検知プログラム
JP7454402B2 (ja) 2020-02-20 2024-03-22 浜松ホトニクス株式会社 検出システムおよび学習方法
JP2021135896A (ja) * 2020-02-28 2021-09-13 株式会社日立製作所 学習データ生成装置、及び学習データ生成方法
JP7252156B2 (ja) 2020-02-28 2023-04-04 株式会社日立製作所 学習データ生成装置、及び学習データ生成方法
JP7475192B2 (ja) 2020-04-30 2024-04-26 株式会社日立製作所 識別器学習装置及び識別器学習方法
WO2022153578A1 (ja) * 2021-01-12 2022-07-21 株式会社エクサウィザーズ 情報処理装置、情報処理方法、およびプログラム
WO2023188790A1 (ja) * 2022-03-29 2023-10-05 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム

Also Published As

Publication number Publication date
JP6781415B2 (ja) 2020-11-04
JPWO2018167900A1 (ja) 2019-11-07
US20200193285A1 (en) 2020-06-18
US11580383B2 (en) 2023-02-14

Similar Documents

Publication Publication Date Title
WO2018167900A1 (ja) ニューラルネットワーク学習装置、方法、およびプログラム
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Kozerawski et al. Clear: Cumulative learning for one-shot one-class image recognition
JP2019028839A (ja) 分類器、分類器の学習方法、分類器における分類方法
JP7024515B2 (ja) 学習プログラム、学習方法および学習装置
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN112836735B (zh) 一种优化的随机森林处理不平衡数据集的方法
US20200143209A1 (en) Task dependent adaptive metric for classifying pieces of data
Zhuang et al. A handwritten Chinese character recognition based on convolutional neural network and median filtering
JP5353482B2 (ja) パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
de Lima et al. Deep semi‐supervised classification based in deep clustering and cross‐entropy
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
Jena et al. Elitist TLBO for identification and verification of plant diseases
Chooi et al. Handwritten character recognition using convolutional neural network
JP2021174471A (ja) 識別器学習装置及び識別器学習方法
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
Alkhateem et al. Auto Encoder Fixed-Target Training Features Extraction Approach for Binary Classification Problems
Lu et al. Forensics Forest: Multi-scale Hierarchical Cascade Forest for Detecting GAN-generated Faces
CN106778775B (zh) 一种基于sift特征软匹配的图像分类方法
Hu et al. A similarity-based learning algorithm using distance transformation
CN113221941B (zh) 一种自适应对称图信息传播的鉴别回归分类方法
JP2001229362A (ja) 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
KR102383159B1 (ko) 악성 pdf 탐지용 학습 모델을 위한 학습 데이터 생성 방법 및 학습 모델을 이용한 악성 pdf 탐지 방법
JP2009098713A (ja) データ変換方法及び装置、パターン識別方法及び装置、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17900424

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019505609

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17900424

Country of ref document: EP

Kind code of ref document: A1