WO2019022136A1 - 学習方法、学習プログラム、学習装置及び学習システム - Google Patents

学習方法、学習プログラム、学習装置及び学習システム Download PDF

Info

Publication number
WO2019022136A1
WO2019022136A1 PCT/JP2018/027895 JP2018027895W WO2019022136A1 WO 2019022136 A1 WO2019022136 A1 WO 2019022136A1 JP 2018027895 W JP2018027895 W JP 2018027895W WO 2019022136 A1 WO2019022136 A1 WO 2019022136A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
classification model
classification
predetermined ratio
Prior art date
Application number
PCT/JP2018/027895
Other languages
English (en)
French (fr)
Inventor
達也 原田
佑司 床爪
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Priority to US16/633,803 priority Critical patent/US11488060B2/en
Priority to JP2019532833A priority patent/JP6859577B2/ja
Priority to EP18838701.3A priority patent/EP3660753A4/en
Publication of WO2019022136A1 publication Critical patent/WO2019022136A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a learning method, a learning program, a learning device, and a learning system.
  • a classification model which inputs an image and outputs a classification result as to whether the image is a dog image or a cat image.
  • the classification model may be learned by inputting a plurality of learning data in which the classification is defined and updating parameters of the classification model so as to reproduce the correct classification.
  • Patent Document 1 describes a learning method of a classifier for classifying an image, in a coarse class classifier formed of a first neural network, each detailed class A first step of classifying the plurality of images provided with the indicated labels into a plurality of coarse classes including a plurality of detail classes, and learning a first feature that is a common feature for each of the plurality of coarse classes; A detailed class classifier composed of a second neural network that differs only in the final layer compared to the first neural network classifies a plurality of images into the detailed class, and a second feature that is a common feature for each detailed class And a second step of learning the feature.
  • the classification model When the classification model is trained so as to correctly classify a plurality of learning data, the accuracy of classification by the classification model regarding the learning data is secured. However, when data that should belong to the same classification is input to the classification model, it may not always be clear as to how much the output of the classification model varies in the feature space.
  • the output of the classification model varies in the feature space when the data that should belong to the same classification is input to the classification model, that is, if the accuracy of the output is low, incorrect classification when inputting new data into the classification model Will increase.
  • the output of the classification model does not vary in the feature space, ie, if the output accuracy is high, when new data is input to the classification model, Misclassification is reduced.
  • the present invention provides a learning method, a learning program, a learning device, and a learning system for learning a classification model so as to further increase the correct answer rate of classification by the classification model.
  • a computer including at least one hardware processor and at least one memory converts a plurality of learning data or a plurality of learning data, each of which is classified. Included in the combined data by combining the obtained plurality of converted data at a predetermined ratio, generating one combined data, inputting one or more combined data into the classification model, and the output of the classification model Updating the parameters of the classification model such that the classifications of the plurality of learning data to be reproduced are reproduced at a predetermined ratio.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of learning data included in the synthetic data, the classification model is learned so as to reproduce the individual classification of the learning data
  • the classification model can be trained to increase the correct answer rate of classification by the classification model more than in the case.
  • the method may further include determining a predetermined ratio prior to performing generating the composite data.
  • determining the predetermined ratio may include randomly selecting one numerical value from the predetermined numerical value range, and determining the predetermined ratio based on the selected numerical value.
  • various combined data can be generated even if the number of learning data is limited, and the classification model can be generated.
  • the classification model can be trained to increase the correct answer rate of the classification by.
  • determining the predetermined ratio may be performed each time generating the composite data.
  • the method may further include selecting a plurality of learning data from the initial data set before executing generating the synthetic data.
  • selecting a plurality of learning data may include selecting data randomly from the initial data set.
  • various synthetic data can be generated even if the number of learning data is limited. It is possible to train the classification model so as to increase the correct answer rate of classification by the classification model.
  • the method may further include converting the plurality of learning data and generating the plurality of converted data before performing generating the combined data.
  • a plurality of converted data are obtained by shaping a plurality of learning data or performing data augmentation on a plurality of learning data, and combining them at a predetermined ratio.
  • the classification model can be trained with more various data.
  • the plurality of learning data are a plurality of sound data
  • generating the synthetic data includes superimposing the plurality of sound data at a predetermined ratio to generate one synthetic sound data. May be.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of sound data superimposed, it is possible to learn the classification model so as to reproduce the individual classification of the sound data,
  • the classification model can be trained to increase the correct answer rate of classification by the classification model.
  • the plurality of learning data are a plurality of image data
  • generating the composite data is adding one pixel value at a predetermined ratio for each pixel of the plurality of image data, and generating one composite image. It may include generating data.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of image data superimposed, it is possible to learn the classification model so as to reproduce the individual classification of the image data,
  • the classification model can be trained to increase the correct answer rate of classification by the classification model.
  • the plurality of learning data are a plurality of text data
  • generating the composite data includes converting the plurality of text data into a plurality of vector data, and a plurality of vector data at a predetermined ratio. And adding one to generate one combined vector data.
  • the classification model by learning the classification model so as to reproduce the ratio of the classification of the plurality of text data superimposed, it is possible to learn the classification model so as to reproduce the individual classification of the text data,
  • the classification model can be trained to increase the correct answer rate of classification by the classification model.
  • a computer including at least one hardware processor and at least one memory converts a plurality of learning data or a plurality of learning data, each of which is classified.
  • a plurality of converted data obtained by the processing into the classification model
  • acquiring a plurality of intermediate outputs of the classification model synthesizing the plurality of intermediate outputs at a predetermined ratio, and generating one synthesized data
  • the classification of a plurality of learning data included in the synthesized data is reproduced at a predetermined ratio by inputting one or a plurality of synthesized data to the latter stage of the configuration that outputs the intermediate output in the classification model and the output of the classification model Updating the parameters of the classification model, as described above.
  • the intermediate outputs of the classification model are obtained, and they are combined at a predetermined ratio to generate combined data, and the combined data is input to the subsequent stage of the configuration in which the intermediate output is output among the classification models
  • a learning program converts a plurality of learning data or a plurality of learning data, each classified, into a computer including at least one hardware processor and at least one memory.
  • To the combined data by combining a plurality of converted data obtained at a predetermined ratio, generating one combined data, inputting one or more combined data into the classification model, and outputting the classification model. Updating the parameters of the classification model such that the classifications of the plurality of learning data included are reproduced at a predetermined ratio.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of learning data included in the synthetic data, the classification model is learned so as to reproduce the individual classification of the learning data
  • the classification model can be trained to increase the correct answer rate of classification by the classification model more than in the case.
  • a learning apparatus combines a plurality of learning data or a plurality of learning data, each of which has been determined into a class, and converts the plurality of conversion data obtained by converting the plurality of learning data at a predetermined ratio.
  • the classification of a plurality of learning data included in the synthesized data is reproduced at a predetermined ratio by the generation unit that generates the synthesized data, the input unit that inputs one or more synthesized data to the classification model, and the output of the classification model And updating the parameters of the classification model.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of learning data included in the synthetic data, the classification model is learned so as to reproduce the individual classification of the learning data
  • the classification model can be trained to increase the correct answer rate of classification by the classification model more than in the case.
  • a learning system including: a database storing an initial data set each of which has been defined; a classification model outputting a classification of input data; and a plurality of selected from the initial data set
  • a generation unit that combines one learning data or a plurality of converted data obtained by converting a plurality of learning data at a predetermined ratio and generates one synthesized data, and inputs one or more synthesized data into a classification model
  • a learning device having an updating unit that updates the parameters of the classification model so that the classification of the plurality of learning data included in the synthesized data is reproduced at a predetermined ratio by the input unit and the output of the classification model.
  • the classification model by learning the classification model so as to reproduce the classification ratio of the plurality of learning data included in the synthetic data, the classification model is learned so as to reproduce the individual classification of the learning data
  • the classification model can be trained to increase the correct answer rate of classification by the classification model more than in the case.
  • the present invention it is possible to provide a learning method, a learning program, a learning device and a learning system for learning a classification model so as to further increase the correct answer rate of classification by the classification model.
  • FIG. 1 is a network configuration diagram of a learning system 100 according to an embodiment of the present invention.
  • the learning system 100 uses a database DB that stores an initial data set for which classification has been determined, a classification model 20 that outputs a classification of input data, and an initial data set stored in the database DB. And 20. a learning device 10 for training the classification model 20 such that the data is correctly classified by 20.
  • the learning system 100 may be connected to the communication network N, and may add or edit the initial data set stored in the database DB or learn the classification model 20 based on an instruction from the user terminal 30.
  • the communication network N is a wired or wireless communication network, and may be, for example, the Internet or a LAN (Local Area Network).
  • all or some of the components may be configured by a remote computer in the form of so-called cloud computing, but all or some of the components may be configured by a local computer .
  • the classification model 20 is a model that classifies input data into a plurality of classes, and may be, for example, a model using a neural network or a model using a support vector machine, and may be any model. .
  • the classification model 20 may be different depending on the type of input data.
  • the input data input to the classification model 20 may be sound data, image data, text data, and the like.
  • the learning device 10 uses the initial data set stored in the database DB to learn the classification model 20 that has not been learned by the learning method according to the present embodiment so that the data is correctly classified by the classification model 20.
  • the classification model 20 learned by the normal learning method may be learned by the learning method according to the present embodiment.
  • FIG. 2 is a diagram showing a physical configuration of the learning device 10 according to the present embodiment.
  • the learning device 10 includes a central processing unit (CPU) 10a corresponding to a hardware processor, a random access memory (RAM) 10b corresponding to a memory, a read only memory (ROM) 10c corresponding to a memory, and a communication unit 10d. , An input unit 10e, and a display unit 10f. These components are mutually connected so as to be able to transmit and receive data via a bus.
  • CPU central processing unit
  • RAM random access memory
  • ROM read only memory
  • FIG. 2 is a diagram showing a physical configuration of the learning device 10 according to the present embodiment.
  • the learning device 10 includes a central processing unit (CPU) 10a corresponding to a hardware processor, a random access memory (RAM) 10b corresponding to a memory, a read only memory (ROM) 10c corresponding to a memory, and a communication unit 10d. , An input unit 10e, and a display unit
  • the CPU 10a is a control unit that performs control related to the execution of a program stored in the RAM 10b or the ROM 10c, and performs calculation and processing of data.
  • the CPU 10a is an arithmetic device that executes a program (learning program) for learning the classification model 20.
  • the CPU 10a receives various input data from the input unit 10e and the communication unit 10d, and displays the calculation result of the input data on the display unit 10f or stores it in the RAM 10b or the ROM 10c.
  • the RAM 10 b is a storage unit capable of rewriting data, and is formed of, for example, a semiconductor storage element.
  • the RAM 10 b stores programs and data such as applications executed by the CPU 10 a.
  • the ROM 10 c is a storage unit that can only read data, and is configured of, for example, a semiconductor storage element.
  • the ROM 10 c stores, for example, programs and data such as firmware.
  • the communication unit 10 d is a communication interface that connects the learning device 10 to the communication network N.
  • the input unit 10 e receives an input of data from the user, and includes, for example, a keyboard, a mouse, and a touch panel.
  • the display unit 10 f visually displays the calculation result by the CPU 10 a, and is configured of, for example, an LCD (Liquid Crystal Display).
  • the learning program may be stored in a computer-readable storage medium such as the RAM 10 b or the ROM 10 c and provided, or may be provided via the communication network N connected by the communication unit 10 d.
  • the CPU 10a executes a learning program to realize various functions described with reference to the following drawings. Note that these physical configurations are exemplifications and may not necessarily be independent configurations.
  • the learning device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a, the RAM 10b, and the ROM 10c are integrated.
  • the learning device 10 may also include arithmetic circuits such as a graphics processing unit (GPU), a field-programmable gate array (FPGA), and an application specific integrated circuit (ASIC).
  • GPU graphics processing unit
  • FPGA field-programmable gate array
  • ASIC application specific integrated circuit
  • FIG. 3 is a functional block diagram of the learning device 10 according to the present embodiment.
  • the learning device 10 includes a learning data selection unit 11, a generation unit 12, a ratio determination unit 13, an input unit 14, and an update unit 15.
  • the learning data selection unit 11 selects a plurality of learning data from the initial data set stored in the database DB.
  • the learning data selection unit 11 may randomly select data from the initial data set stored in the database DB.
  • the learning data selection unit 11 may, for example, randomly select two data from the initial data set, but may randomly select three or more data.
  • the learning data selection unit 11 may generate a random number by a uniform distribution, a Gaussian distribution, or the like, and may randomly select data from the initial data set stored in the database DB based on the random number.
  • various synthetic data can be generated even if the number of learning data is limited, and a classification model can be generated.
  • the classification model can be trained to increase the accuracy of the output of the classification model, and the classification model can be trained to increase the correct answer rate of classification by the classification model.
  • the generation unit 12 combines a plurality of learning data whose classifications are determined or a plurality of conversion data obtained by converting a plurality of learning data, and combines them at a predetermined ratio to generate one combined data.
  • the generation unit 12 converts a plurality of learning data, generates a plurality of conversion data, and combines a plurality of conversion data at a predetermined ratio before executing generation of the synthesis data, and generates one synthesis data.
  • Data may be generated.
  • the conversion data is generated by randomly cutting out the sound data, or by randomly changing the sound pressure level, pitch, speed, etc. of the sound data.
  • the conversion data is generated by randomly cutting out the image data, or the image data is randomly scaled or rotated at random, or the aspect ratio is changed, or RGB It may be generated by changing the value or the like.
  • a plurality of converted data are obtained by shaping a plurality of learning data, or performing data augmentation on a plurality of learning data, to obtain a plurality of converted data, and combine them at a predetermined ratio to combine them.
  • the classification model can be trained with more diverse data.
  • the generation unit 12 inputs a plurality of learning data or a plurality of converted data obtained by converting a plurality of learning data into the classification model 20 before executing the generation of the synthetic data.
  • An intermediate output of may be acquired, and a plurality of intermediate outputs may be combined at a predetermined ratio to generate one combined data.
  • the generation unit 12 When the plurality of learning data are a plurality of sound data, the generation unit 12 superimposes the plurality of sound data at a predetermined ratio to generate one synthetic sound data.
  • the plurality of sound data may be superimposed at a predetermined ratio for each sample.
  • the generation unit 12 adds pixel values at a predetermined ratio for each pixel of the plurality of image data to generate one piece of composite image data.
  • the generation unit 12 converts the plurality of text data into a plurality of vector data, adds the plurality of vector data at a predetermined ratio, and generates one Generate composite vector data.
  • one piece of synthetic sound data may be generated by simultaneously reproducing and recording a plurality of sound data at a predetermined ratio of volume.
  • adding one pixel value at a predetermined ratio for each pixel of a plurality of image data to generate one composite image data may be performed by adding image data as digital data, but analog You may carry out by adding the image data as data. That is, one composite image data may be generated by displaying a plurality of image data with light amounts of a predetermined ratio, and superimposing them with an optical system and photographing.
  • the ratio determination unit 13 determines a predetermined ratio used when the generation unit 12 generates composite data.
  • the ratio determination unit 13 may randomly select one numerical value from a predetermined numerical value range, and determine the predetermined ratio based on the selected numerical value. For example, the ratio determination unit 13 may randomly select one numerical value from the numerical value range of 0 to 1 and set the selected numerical value as a predetermined ratio.
  • the ratio determination unit 13 may randomly generate one numerical value from a predetermined numerical range by uniform distribution, Gaussian distribution, or the like. Further, the ratio determining unit 13 may randomly select one numerical value from a predetermined numerical range, and determine the predetermined ratio by a function of the selected numerical value.
  • the ratio determining unit 13 may determine a predetermined ratio each time the generating unit 12 generates composite data. Whenever the learning data selection unit 11 selects a plurality of learning data from the initial data set, the ratio determining unit 13 determines a predetermined ratio used when combining the plurality of learning data. It is also good.
  • the input unit 14 inputs the one or more composite data generated by the generation unit 12 to the classification model 20.
  • the input unit 14 may sequentially input a plurality of combined data to the classification model 20 or may input a plurality of combined data to the classification model 20 at one time.
  • the classification model 20 is a neural network
  • the input unit 14 may input the synthetic data to the input layer of the neural network.
  • the input unit 14 when a plurality of intermediate outputs of the classification model 20 are obtained by the generation unit 12 and a plurality of intermediate outputs are combined at a predetermined ratio to generate one combined data, the input unit 14 generates one or more combined data. Of the classification model 20 may be input to the subsequent stage of the configuration that outputs the intermediate output. When the classification model 20 is a neural network, the input unit 14 may input the synthetic data to the layer next to the layer that has output the intermediate output among the layers included in the neural network.
  • the classification model 20 is obtained by obtaining intermediate outputs of the classification model 20, synthesizing them at a predetermined ratio, and generating synthetic data, and inputting the synthetic data to the subsequent stage of the configuration of the classification model 20 that has output the intermediate output.
  • the classification model 20 can be trained to further increase the accuracy of the output of and the classification model can be trained to increase the correct answer rate of classification by the classification model.
  • the updating unit 15 updates the parameters of the classification model 20 so that the classification of the plurality of learning data included in the combined data is reproduced at a predetermined ratio by the output of the classification model 20. For example, when composite data including the first learning data at a ratio of 0.2 and the second learning data at a ratio of 0.8 is input to the classification model 20, the updating unit 15 outputs the output of the classification model 20. Thus, the parameters of the classification model 20 are updated such that the output value of the class corresponding to the first learning data is 0.2 and the output value of the class corresponding to the second learning data is 0.8.
  • FIG. 4 is a conceptual diagram in the case where the classification model 20 learns the classification of sound data by the learning method according to the present embodiment.
  • the learning method according to the present embodiment two pieces of data are randomly selected from the initial data set stored in the database DB before the generation of the composite data is performed.
  • the database DB includes a plurality of sound data classified into dogs, a plurality of sound data classified into cats, and a plurality of sound data classified into birds.
  • the first sound data A1 for a dog and the second sound data A2 for a cat are selected as source data for generating synthetic data.
  • one value is randomly selected from a predetermined value range and a predetermined ratio is determined before generating synthetic data.
  • a predetermined ratio is determined before generating synthetic data.
  • the numerical value 0.7 is selected, and the predetermined ratio is determined to be 0.7.
  • synthetic sound data A3 is generated so as to include the first sound data A1 at a ratio of 0.7 and the second sound data A2 at a ratio of 0.3.
  • the generated synthetic speech data A3 is input to the classification model 20, and the classification of the dog class is 0.7, the classification of the cat class is 0.3, and the classification of the bird class is 0 according to the output of the classification model 20.
  • the parameters of the classification model 20 are updated so that However, the parameters of the classification model 20 are not optimized by updating the parameters of the classification model 20 only once, and the above processing is repeatedly executed.
  • two sound data are synthesized at a predetermined ratio to generate synthesized sound data.
  • three or more sound data are synthesized at a predetermined ratio to generate synthesized sound data. You may do it.
  • FIG. 5 is a flowchart in the case where the classification model 20 is made to learn the classification of sound data by the learning method according to the present embodiment.
  • two sound data are randomly selected from the initial data set stored in the database DB by the learning data selection unit 11 (S10).
  • the selection of sound data may be performed by extracting a randomly selected part from the series of sound data.
  • the ratio determining unit 13 randomly selects a numerical value from the numerical value range of 0 to 1 and determines a ratio r for synthesizing learning sound data (S11). After that, the generation unit 12 adjusts the sound pressure levels of the two sound data so as to be approximately the same (S12). For example, when the maximum sound pressure level of the first sound data A1 is P1 and the maximum sound pressure level of the second sound data A2 is P2, the generation unit 12 generates the second sound data A2 by 10 (P1-P2). The sound pressure levels of the two sound data may be adjusted by multiplying by 20) .
  • the generation unit 12 randomly selects a numerical value from the numerical value range from -1 to 1 and determines the adjustment coefficient p of the sound pressure level (S13). Then, using the ratio r and the adjustment factor p, the generation unit 12 superimposes two sound data to generate synthetic sound data (S14). More specifically, the generation unit 12 multiplies the first sound data A1 by r, multiplies the second sound data A2 after sound pressure adjustment by (1-r), adds both data, and adds the entire It is good as synthetic sound data A3 by dividing by r 2 + (1 ⁇ r) 2 ) 1/2 and multiplying by 2 p .
  • the generation unit 12 may generate synthetic sound data by randomly changing the speed and pitch of a plurality of sound data added at a predetermined ratio.
  • the input unit 14 inputs synthetic speech data into the classification model 20 (S15). Then, the updating unit 15 updates the parameters so that the classification of the two sound data included in the synthetic sound data is reproduced at the ratio r by the output of the classification model 20 (S16). For example, when the first sound data A1 is multiplied by r and the second sound data A2 after sound pressure adjustment is multiplied by (1-r) to generate synthetic data, the updating unit 15 outputs the classification model 20, The parameters of the classification model 20 are updated such that the classification of dog class is r and the classification of cat class is 1-r.
  • the parameter of the classification model 20 is, for example, a weighting factor when the classification model 20 is a neural network.
  • the updating unit 15 determines between the output value of the classification model 20 and the correct answer value of the classification predetermined for the data for learning.
  • Back-propagation methods may be used to update the weighting factors to minimize cross-entropy and Kullback-Leibler divergence. More specifically, the first sound data A1 is multiplied by r, the second sound data A2 after sound pressure adjustment is multiplied by (1-r) to generate synthetic data, and the classification model 20 generates an output vector of y. If obtained, the correct answer vector t1 representing the dog class is included at a rate of r, and the correct answer vector t2 representing the cat class is included at a rate of (1-r).
  • the weighting factors may be updated so as to minimize the cross entropy H (t, y) and the Kullback-Leibler divergence D KL (t
  • the learning device 10 determines whether the condition for the end of learning is satisfied (S17).
  • the condition for the end of learning may be arbitrarily set, but for example, the value of an objective function such as cross entropy, Kulback-Leibler-divergence, or the like becomes equal to or less than a predetermined value, or the number of updates of the parameters of the classification model 20 May have reached a predetermined number of times, or the change in value of the objective function may become equal to or less than a predetermined value before and after updating of the parameter.
  • the learning termination condition is not satisfied (S17: No)
  • sound data for learning is newly selected at random from the initial data set, synthesized at a randomly determined ratio, and input to the classification model 20. , Update the parameters of the classification model 20.
  • the condition for the end of learning is satisfied (S17: Yes)
  • the learning process is ended.
  • FIG. 6 shows the classification performance in the case where the classification model 20 is made to learn the classification of sound data by the learning method according to the present embodiment and the case where the classification model 20 is made to learn the classification of sound data by the conventional learning method.
  • FIG. In the figure the correct answer rate in the case of learning by the conventional learning method and the correct answer rate in the case of learning by the learning method according to the present embodiment are shown for two types of classification models.
  • the second type of classification model is a more complex model than the first type of classification model, and is a model that is relatively difficult to learn.
  • the correct answer rate shown in the figure is a value when only the learning method is changed using the same initial data set and the same classification model 20.
  • the correct answer rate is a value close to the upper limit that can be achieved by the learning method, as the learning of the classification model 20 is sufficiently advanced.
  • the correct answer rate in the case of learning by the conventional learning method for the first type classification model is 68.3%, and the correct answer rate in the case of learning by the learning method according to the present embodiment is 74.3%.
  • the correct answer rate is improved by 6% even if the classification model 20 is the same.
  • the correct answer rate in the case of learning by the conventional learning method is 71.7% for the second type classification model, and the correct answer rate in the case of learning by the learning method according to the present embodiment is 80.7%. .
  • the correct answer rate in the case of learning by the learning method according to the present embodiment is 80.7%.
  • the correct answer rate when the sound data used for this experiment is classified into a person is about 80%.
  • the correct answer rate is improved by 6% in the case of the first type classification model compared to the conventional learning method, and the conventional learning in the second type classification model Since an improvement of the correct answer rate of 9% was observed compared to the method, it can be said that the learning method according to the present embodiment is more effective when used for learning of a relatively complex model.
  • the individual classification of the learning data is reproduced by learning the classification model so as to reproduce the ratio of the classification of the plurality of learning data included in the synthetic data.
  • the classification model can be trained so that the output of the classification model is more accurate than in the case of learning the classification model, and the classification model can be trained so as to increase the correct answer rate of classification by the classification model.
  • the learning method according to the present embodiment even if the number of learning data is limited and the classification model is a complex model, the combination of the learning data and the learning data are synthesized. Since various synthetic data can be generated by variously selecting the ratio, it is possible to stably learn the classification model so as to further increase the correct answer rate of classification by the classification model.
  • the output of the classification model is more than when learning the classification model so as to reproduce individual classification of sound data
  • the classification model can be trained to increase the accuracy of
  • FIG. 7 the case where the classification model is caused to learn the classification of the image data by the learning method according to the present embodiment will be described using FIGS. 7, 8, 9 and 10.
  • FIG. 7 the case where the classification model is caused to learn the classification of the image data by the learning method according to the present embodiment will be described using FIGS. 7, 8, 9 and 10.
  • FIG. 7 is a conceptual diagram in the case where the classification model is made to learn the classification of the image data by the learning method according to the present embodiment.
  • the learning method according to the present embodiment two pieces of data are randomly selected from the initial data set stored in the database DB before the generation of the composite data is performed.
  • the database DB includes a plurality of image data classified as a car, a plurality of image data classified as a cat, and a plurality of image data classified as a bird.
  • the first image data G1 on the car and the second image data G2 on the cat are selected as the original data for generating the composite data.
  • one value is randomly selected from a predetermined value range and a predetermined ratio is determined before generating synthetic data.
  • a predetermined ratio is determined before generating synthetic data.
  • the numerical value of 0.4 is selected and the predetermined ratio is determined to be 0.4.
  • composite image data G3 is generated so as to include the first image data G1 at a ratio of 0.4 and the second image data G2 at a ratio of 0.6.
  • the generated composite image data G3 is input to the classification model 20, and according to the output of the classification model 20, the classification of the car class is 0.4, the classification of the cat class is 0.6, and the classification of the bird class is 0
  • the parameters of the classification model 20 are updated so that However, the parameters of the classification model 20 are not optimized by updating the parameters of the classification model 20 only once, and the above processing is repeatedly executed.
  • two image data are combined at a predetermined ratio to generate combined image data.
  • three or more image data are combined at a predetermined ratio to generate combined image data. You may do it.
  • FIG. 8 is a flowchart of a first process of causing the classification model 20 to learn the classification of the image data by the learning method according to the present embodiment.
  • the learning data selection unit 11 randomly selects two image data from the initial data set stored in the database DB (S20 ).
  • the ratio determination unit 13 randomly selects a numerical value from the numerical value range of 0 to 1 and determines a ratio r to combine image data for learning (S21). Thereafter, the generation unit 12 performs data shaping on the two image data selected by the learning data selection unit 11 so that the sizes thereof become approximately the same (S22). Here, the generation unit 12 may perform data shaping by cutting out a region of a predetermined size at a randomly selected position. In addition, the generation unit 12 executes data augmentation on the two image data (S23).
  • data augmentation refers to enlarging or reducing an image at a random ratio, rotating the image in a random direction, translating the image, performing aspect ratio conversion at a random ratio, or random Including changing RGB values by value.
  • data shaping and data augmentation are processes that can be omitted.
  • the generation unit 12 adds the pixel values at a ratio r for each pixel of the two image data to generate composite image data G3 (S24). More specifically, the generation unit 12 multiplies the specific pixel value of the first image data G1 by r, multiplies the corresponding pixel value of the second image data G2 by (1-r), and adds both data. By doing this, a specific pixel value of the composite image data G3 may be obtained.
  • the input unit 14 inputs composite image data into the classification model 20 (S25).
  • the classification model 20 is a neural network
  • the input unit 14 inputs synthetic image data into the input layer of the neural network.
  • the updating unit 15 updates the parameters such that the classification of the two image data included in the composite image data is reproduced at the ratio r by the output of the classification model 20 (S26). For example, when the first image data G1 is multiplied by r and the second image data G2 is multiplied by (1-r) to generate composite data, the updating unit 15 classifies the class of the vehicle according to the output of the classification model 20.
  • the parameters of the classification model 20 are updated so that r is r and the classification of the cat class is 1-r.
  • the learning device 10 determines whether the condition for the end of learning is satisfied (S27).
  • the condition for the end of learning may be set arbitrarily, but for example, the value of an objective function such as cross entropy, Kulback-Leibler-divergence, or the like becomes equal to or less than a predetermined value, and May have reached a predetermined number of times, or the change in value of the objective function may become equal to or less than a predetermined value before and after updating of the parameter.
  • the learning termination condition is not satisfied (S27: No)
  • image data for learning is newly selected at random from the initial data set, synthesized at a randomly determined ratio, and input to the classification model 20. , Update the parameters of the classification model 20.
  • the condition for learning termination is satisfied (S27: Yes)
  • the learning processing is terminated.
  • the classification model 20 is reproduced so as to reproduce the individual classification of the image data by learning the classification model 20 so as to reproduce the ratio of the classification of the plurality of superimposed image data. Training the classification model 20 so as to increase the accuracy of the output of the classification model 20 more than in the case of learning the language, and training the classification model 20 so as to increase the correct answer rate of classification by the classification model 20. it can.
  • FIG. 9 is a flowchart of a second process of causing the classification model 20 to learn the classification of the image data by the learning method according to the present embodiment.
  • the intermediate output of the classification model 20 is synthesized at a predetermined ratio to generate synthesized data, and the classification of the image data included in the synthesized data is a predetermined ratio. This is a process of learning the classification model 20 so as to be reproduced.
  • the ratio determining unit 13 randomly selects a numerical value from the numerical value range of 0 to 1 and determines a ratio r for combining the image data for learning (S31).
  • the generation unit 12 performs data shaping on the two image data selected by the learning data selection unit 11 so that the sizes thereof become approximately the same (S32). Further, the generation unit 12 executes data augmentation on the two image data (S33).
  • data shaping and data augmentation are processes that can be omitted.
  • the learning device 10 inputs each of the two image data to the classification model 20, and acquires an intermediate output (S34).
  • the classification model 20 is a neural network
  • two pieces of image data are respectively input to the input layer of the neural network.
  • the intermediate output may be an output of any layer other than the output layer among the plurality of layers included in the neural network.
  • the generation unit 12 adds the two intermediate outputs corresponding to the two image data at a ratio r to generate composite data (S35).
  • the input unit 14 inputs the synthesized data to the latter stage of the configuration of the classification model 20 that has output the intermediate output (S36).
  • the classification model 20 is a neural network
  • the input unit 14 inputs synthetic data to the layer next to the layer that has output the intermediate output in the neural network.
  • the updating unit 15 updates the parameters such that the classification of the two image data included in the composite data is reproduced at the ratio r by the output of the classification model 20 (S37). For example, when the intermediate output of the first image data G1 is multiplied by r and the intermediate output of the second image data G2 is multiplied by (1-r) to generate composite data, the updating unit 15 outputs the classification model 20 according to the output.
  • the parameters of the classification model 20 are updated such that the classification of the car class is r and the classification of the cat class is 1-r.
  • the learning device 10 determines whether the condition for the end of learning is satisfied (S38).
  • the condition for the end of learning may be set arbitrarily, but for example, the value of an objective function such as cross entropy, Kulback-Leibler-divergence, or the like becomes equal to or less than a predetermined value, and May have reached a predetermined number of times, or the change in value of the objective function may become equal to or less than a predetermined value before and after updating of the parameter. If the condition for the end of learning is not satisfied (S38: No), image data for learning is newly selected at random from the initial data set, and input to the classification model 20 to obtain an intermediate output, and randomly.
  • an objective function such as cross entropy, Kulback-Leibler-divergence, or the like
  • the intermediate output is synthesized according to the determined ratio, and the intermediate output is input to the latter stage of the configuration of the classification model 20, and the parameters of the classification model 20 are updated.
  • the condition for the end of learning is satisfied (S38: Yes)
  • the learning process is ended.
  • FIG. 10 shows the classification performance in the case where the classification model 20 learns the classification of the image data by the learning method according to the present embodiment and the case where the classification model 20 learns the classification of the image data by the conventional learning method.
  • the classification model 20 includes an input layer (input), a plurality of convolution layers (conv 1 to 8), a plurality of pooling layers (pool 1 to 3), a plurality of total connection layers (fc 1 to 2), and an output.
  • It is CNN (Convolutional Neural Network) which has a layer (output).
  • one type of CNN is shown as the classification model 20
  • the correct answer rate in the case of learning by the conventional learning method is shown as Baseline
  • intermediate outputs of a plurality of layers included in CNN are synthesized by the learning method according to the present embodiment.
  • the correct answer rate in case of learning is shown for multiple layers included in CNN.
  • the correct answer rate is a value close to the upper limit that can be achieved by the learning method, as the learning of the classification model 20 is sufficiently advanced.
  • the correct answer rate in the case of learning by the learning method according to the present embodiment exceeds the correct answer rate (93.59%) in the case of learning by the conventional learning method, even when the intermediate output of any layer is synthesized. ing.
  • the correct answer rate is 94.39%. It is.
  • the intermediate output output from the second convolutional layer (conv2) is combined and the combined data is input to the first pooling layer (pool1) to learn the classification model 20, the correct answer rate is 94.38%. It is.
  • the correct answer rate is 94.45. %.
  • the intermediate output output from the fourth convolutional layer (conv4) is combined and the combined data is input to the second pooling layer (pool2) to learn the classification model 20, the correct answer rate is 94.47%. It is.
  • the intermediate output output from the seventh convolution layer (conv 7) is combined and the combined data is input to the eighth convolution layer (conv 8) to train the classification model 20, the correct answer rate is 94.41%. It is.
  • the correct answer rate is 94.31%. It is. Furthermore, when the intermediate output output from the first total connection layer (fc1) is combined and the combined data is input to the second total connection layer (fc2) to learn the classification model 20, the correct answer rate is 94. It is 75%, which is 1.16% higher than the correct answer rate (93.59%) when learned by the conventional learning method.
  • the correct answer rate is obtained. Is 94.71%, which is 1.12% higher than the correct answer rate (93.59%) when learned by the conventional learning method.
  • the classification performance obtained when combining the learning data prior to input to the classification model 20 to generate combined data and inputting the combined data into the input layer (input) to learn the classification model 20 In this case, the intermediate output of the classification model 20 is synthesized, and it is understood that the output is equal to or higher than the classification performance in the case of learning the classification model 20 by inputting synthetic data in the subsequent stage of the configuration outputting the intermediate output.
  • the method of combining the learning data before inputting into the classification model 20 and generating the combined data and inputting the combined data into the input layer (input) to learn the classification model 20 does not require the calculation of the intermediate output. Since the amount of operation required to learn the classification model 20 can be made smaller than the method of using the intermediate output of the classification model 20, and classification performance equal to or higher than the method of using the intermediate output of the classification model 20 can be obtained. It can be said that it is more effective.
  • the intermediate output of the classification model 20 is synthesized at a predetermined ratio to generate synthesized data, and the intermediate output is generated.
  • the method of learning the classification model 20 by inputting the synthetic data in the subsequent stage of the output configuration can be applied to the case where the classification model 20 learns classification of any type of data.
  • the classification model 20 learned using the intermediate output is not limited to CNN, and may be any model.
  • the initial data set stored in the database DB is text data
  • two text data are randomly selected from the initial data sets stored in the database DB and converted into vector data, respectively.
  • Composite vector data may be generated by adding two vector data at a predetermined ratio selected at random. Then, the parameters of the classification model 20 may be updated such that the classification of the text data included in the synthetic vector data is reproduced at a predetermined ratio.
  • the classification model 20 is reproduced so as to reproduce the individual classification of the text data by learning the classification model 20 so as to reproduce the classification ratio of the plurality of superimposed text data. Training the classification model 20 so as to increase the accuracy of the output of the classification model 20 more than in the case of learning the language, and training the classification model 20 so as to increase the correct answer rate of classification by the classification model 20. it can.
  • a plurality of converted data obtained by converting a plurality of learning data or a plurality of learning data, each of which has a defined classification is synthesized at a predetermined ratio r, and one synthesized data is generated.
  • the parameter of the classification model may be updated so that the value obtained by converting the predetermined ratio according to the predetermined rule is reproduced by the output of. That is, the output of the classification model may not correspond exactly to r, and the value obtained by converting r according to a predetermined rule may be reproduced according to the output of the classification model.
  • a plurality of converted data obtained by converting a plurality of learning data or a plurality of learning data, each of which has been classified, is synthesized at a predetermined ratio r, and one synthesized data is generated.
  • the parameters of the classification model may be updated such that the output of R is e + e (e is an amount representing noise).
  • the first image data is an image of a car and the second image data is an image of a cat
  • the first image data is 40% and the second image data, with a predetermined ratio of 0.4.
  • the amount of noise to be added or subtracted may be randomly changed.
  • classification of a plurality of learning data included in the combined data is a ratio a ⁇ r (a is an arbitrary constant) according to the output of the classification model.
  • the parameters of the classification model may be updated to be reproduced.
  • the first image data is a car image
  • the second image data is a cat image
  • the composition ratio is 0.4
  • the first image data is 40%
  • the second image data is 60.
  • a plurality of converted data obtained by converting a plurality of learning data or a plurality of learning data, each of which has been classified, is synthesized at a predetermined ratio, and one synthesized data is generated.
  • the parameters of the classification model may be updated so that the output reproduces a value obtained by rounding up or down a predetermined ratio.
  • the first image data is a car image
  • the second image data is a cat image
  • the predetermined ratio is 0.4
  • the first image data is 40% and the second image data is 60% is synthesized to generate composite image data, so that the classification of the car class is 0 (0.4 is rounded down) and the classification of the cat class is 1 (rounding up 0.6) by the classification model
  • And may perform learning processing of a classification model. That is, the output of the classification model may be adapted to reproduce a value rounded to a predetermined ratio.
  • the first image data is an image of a car
  • the second image data is an image of a cat
  • the composition ratio is 0.4
  • the first image data is 40%
  • the second image data is Is combined with 60% to generate composite image data, so that the classification of a car class is 1 (round up 0.4) and the classification of a cat class is 1 (round up 0.6) according to the classification model
  • the learning process of the classification model may be performed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分類モデルによる分類の正答率をより高めるように、分類モデルを学習させる学習方法、学習プログラム、学習装置及び学習システムを提供する。学習方法は、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータによって、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成することと、1又は複数の合成データを分類モデルに入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行する。

Description

学習方法、学習プログラム、学習装置及び学習システム
 本発明は、学習方法、学習プログラム、学習装置及び学習システムに関する。
 近年、多層のニューラルネットワーク等のモデルを用いて、画像認識や音声認識、自然言語処理を行う研究が進展している。例えば、画像を入力として、その画像が犬の画像であるのか、猫の画像であるのかといった分類結果を出力する分類モデルが知られている。分類モデルは、分類が定められた複数の学習用データを入力して、正しい分類を再現するように分類モデルのパラメータを更新していくことで学習されることがある。
 ニューラルネットワークの学習方法の一例として、下記特許文献1には、画像を分類するための分類器の学習方法であって、第1ニューラルネットワークで構成される粗クラス分類器に、それぞれの詳細クラスを示すラベルが付与された複数の画像を、複数の詳細クラスを包含する複数の粗クラスに分類させて、当該複数の粗クラス毎の共通の特徴である第1特徴を学習させる第1ステップと、第1ニューラルネットワークと比較して最終層のみが異なる第2ニューラルネットワークで構成される詳細クラス分類器に、複数の画像を詳細クラスに分類させて、当該詳細クラス毎の共通の特徴である第2特徴を学習させる第2ステップと、を含む学習方法が記載されている。
特開2017-84320号公報
 複数の学習用データを正しく分類するように分類モデルの学習が行われると、その学習用データに関する分類モデルによる分類の正確度は確保されるようになる。しかしながら、同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がどの程度ばらつくかについては、必ずしも明らかでないことがある。
 同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がばらつく場合、すなわち出力の精度が低い場合、新たなデータを分類モデルに入力した際に、分類を誤ることが多くなる。一方、同じ分類に属すべきデータを分類モデルに入力した場合に、特徴空間において分類モデルの出力がばらつかない場合、すなわち出力の精度が高い場合、新たなデータを分類モデルに入力した際に、分類を誤ることが少なくなる。
 また、いわゆる深層学習に代表されるようなパラメータ数の多い複雑な分類モデルを、その出力が高精度となるように学習させるためには、大量の学習用データを必要とすることがある。しかしながら、学習用データは必ずしも大量に用意できないこともあり、その結果、分類モデルの出力の精度を十分に高められず、分類の正答率を十分に高められないことがある。
 そこで、本発明は、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させる学習方法、学習プログラム、学習装置及び学習システムを提供する。
 本発明の一態様に係る学習方法は、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータによって、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成することと、1又は複数の合成データを分類モデルに入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行する。
 この態様によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 上記態様において、合成データを生成することを実行する前に、所定の比率を決定することをさらに含んでもよい。
 この態様によれば、学習用データを合成する比率を可変とすることで、同じ学習用データを用いる場合であっても、異なる内容の合成データを生成できるようになり、分類モデルの学習に用いるデータの多様性を増すことができる。
 上記態様において、所定の比率を決定することは、所定の数値範囲から1つの数値をランダムに選択することと、選択された数値に基づいて所定の比率を決定することとを含んでもよい。
 この態様によれば、学習用データを合成する比率をランダムに選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 上記態様において、所定の比率を決定することは、合成データを生成することを実行する度に行われてもよい。
 この態様によれば、学習用データを合成する比率の決定を、合成データを生成する度に行うことで、学習の反復回数が多い場合であっても、反復を行う度に異なる内容の合成データについて学習を行うことができ、分類モデルを多様なデータで学習させることができる。
 上記態様において、合成データを生成することを実行する前に、初期データセットのうちから複数の学習用データを選択することをさらに含んでもよい。
 この態様によれば、初期データセットのうちから複数の学習用データを選択して合成データとすることで、初期データセットの組合せの数だけ合成データの合成元となるデータを増やすことができ、分類モデルを多様なデータで学習させることができる。
 上記態様において、複数の学習用データを選択することは、初期データセットのうちからランダムにデータを選択することを含んでもよい。
 この態様によれば、初期データセットのうちからランダムに複数の学習用データを選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 上記態様において、合成データを生成することを実行する前に、複数の学習用データを変換し、複数の変換データを生成することをさらに含んでもよい。
 この態様によれば、複数の学習用データを整形したり、複数の学習用データに対してデータオーグメンテーションを行ったりすることで複数の変換データを得て、それらを所定の比率で合成して合成データを生成することで、分類モデルをさらに多様なデータで学習させることができる。
 上記態様において、複数の学習用データは、複数の音データであり、合成データを生成することは、複数の音データを所定の比率で重ね合わせて、1つの合成音データを生成することを含んでもよい。
 この態様によれば、重ね合わされた複数の音データの分類の比率を再現するように分類モデルを学習させることで、音データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 上記態様において、複数の学習用データは、複数の画像データであり、合成データを生成することは、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、1つの合成画像データを生成することを含んでもよい。
 この態様によれば、重ね合わされた複数の画像データの分類の比率を再現するように分類モデルを学習させることで、画像データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 上記態様において、複数の学習用データは、複数のテキストデータであり、合成データを生成することは、複数のテキストデータを複数のベクトルデータに変換することと、複数のベクトルデータを、所定の比率で加算して、1つの合成ベクトルデータを生成することとを含んでもよい。
 この態様によれば、重ね合わされた複数のテキストデータの分類の比率を再現するように分類モデルを学習させることで、テキストデータの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 本発明の他の態様に係る学習方法は、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータによって、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを分類モデルに入力し、分類モデルの複数の中間出力を取得することと、複数の中間出力を所定の比率で合成し、1つの合成データを生成することと、1又は複数の合成データを、分類モデルのうち中間出力を出力した構成の後段に入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行する。
 この態様によれば、分類モデルの中間出力を得て、それらを所定の比率で合成して合成データを生成し、分類モデルのうち中間出力を出力した構成の後段に合成データを入力し、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 本発明の他の態様に係る学習プログラムは、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータに、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成することと、1又は複数の合成データを分類モデルに入力することと、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新することと、を実行させる。
 この態様によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 本発明の他の態様に係る学習装置は、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成する生成部と、1又は複数の合成データを分類モデルに入力する投入部と、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新する更新部と、を備える。
 この態様によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 本発明の他の態様に係る学習システムは、それぞれ分類が定められた初期データセットを記憶するデータベースと、入力されたデータの分類を出力する分類モデルと、初期データセットのうちから選択された複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成する生成部、1又は複数の合成データを分類モデルに入力する投入部及び分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデルのパラメータを更新する更新部を有する学習装置と、を備える。
 この態様によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させることができる。
 本発明によれば、分類モデルによる分類の正答率をより高めるように、分類モデルを学習させる学習方法、学習プログラム、学習装置及び学習システムを提供することができる。
本発明の一実施形態に係る学習システムのネットワーク構成図である。 本実施形態に係る学習装置の物理的な構成を示す図である。 本実施形態に係る学習装置の機能ブロック図である。 本実施形態に係る学習方法によって、分類モデルに音データの分類を学習させる場合の概念図である。 本実施形態に係る学習方法によって、分類モデルに音データの分類を学習させる場合のフローチャートである。 本実施形態に係る学習方法によって分類モデルに音データの分類を学習させた場合と、従来の学習方法によって分類モデルに音データの分類を学習させた場合とに関する分類性能を示す図である。 本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合の概念図である。 本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる第1処理のフローチャートである。 本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる第2処理のフローチャートである。 本実施形態に係る学習方法によって分類モデルに画像データの分類を学習させた場合と、従来の学習方法によって分類モデルに画像データの分類を学習させた場合とに関する分類性能を示す図である。
 添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
 図1は、本発明の一実施形態に係る学習システム100のネットワーク構成図である。学習システム100は、それぞれ分類が定められた初期データセットを記憶するデータベースDBと、入力されたデータの分類を出力する分類モデル20と、データベースDBに記憶された初期データセットを用いて、分類モデル20によってデータが正しく分類されるように、分類モデル20を学習させる学習装置10と、を含む。学習システム100は、通信ネットワークNに接続され、ユーザ端末30からの指示に基づいて、データベースDBに記憶された初期データセットの追加や編集を行ったり、分類モデル20の学習を行ったりしてよい。ここで、通信ネットワークNは、有線又は無線の通信網であり、例えばインターネットやLAN(Local Area Network)であってよい。本実施形態に係る学習システム100は、いわゆるクラウドコンピューティングの形で全部又は一部の構成要素がリモートコンピュータによって構成されてよいが、全部又は一部の構成要素がローカルコンピュータによって構成されてもよい。
 分類モデル20は、入力データを複数のクラスに分類するモデルであり、例えばニューラルネットワークを用いたモデルであったり、サポートベクタマシンを用いたモデルであったりしてよく、任意のモデルであってよい。分類モデル20は、入力データの種類によって異なるモデルであってよい。分類モデル20に入力される入力データは、音データ、画像データ及びテキストデータ等であってよい。
 学習装置10は、データベースDBに記憶された初期データセットを用いて、分類モデル20によってデータが正しく分類されるように、未だ学習がされていない分類モデル20を本実施形態に係る学習方法で学習させてもよいし、通常の学習方法で学習された分類モデル20を、本実施形態に係る学習方法で学習させてもよい。
 図2は、本実施形態に係る学習装置10の物理的な構成を示す図である。学習装置10は、ハードウェアプロセッサに相当するCPU(Central Processing Unit)10aと、メモリに相当するRAM(Random Access Memory)10bと、メモリに相当するROM(Read Only Memory)10cと、通信部10dと、入力部10eと、表示部10fとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。
 CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、分類モデル20を学習させるプログラム(学習プログラム)を実行する演算装置である。CPU10aは、入力部10eや通信部10dから種々の入力データを受け取り、入力データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。
 RAM10bは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。RAM10bは、CPU10aが実行するアプリケーション等のプログラムやデータを記憶する。
 ROM10cは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ROM10cは、例えばファームウェア等のプログラムやデータを記憶する。
 通信部10dは、学習装置10を通信ネットワークNに接続する通信インタフェースである。
 入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードやマウス、タッチパネルで構成される。
 表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えばLCD(Liquid Crystal Display)により構成される。
 学習プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークNを介して提供されてもよい。学習装置10では、CPU10aが学習プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、学習装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、学習装置10は、GPU(Graphics Processing Unit)やFPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の演算回路を備えてもよい。
 図3は、本実施形態に係る学習装置10の機能ブロック図である。学習装置10は、学習用データ選択部11、生成部12、比率決定部13、投入部14及び更新部15を備える。
 学習用データ選択部11は、データベースDBに記憶された初期データセットのうちから、複数の学習用データを選択する。学習用データ選択部11は、データベースDBに記憶された初期データセットのうちからランダムにデータを選択してよい。学習用データ選択部11は、初期データセットのうちから、例えば、ランダムに2つのデータを選択してよいが、ランダムに3つ以上のデータを選択してもよい。学習用データ選択部11は、一様分布やガウス分布等によって乱数を生成し、当該乱数に基づいて、データベースDBに記憶された初期データセットのうちからランダムにデータを選択してよい。
 初期データセットのうちから複数の学習用データを選択して合成データとすることで、初期データセットの組合せの数だけ合成データの合成元となるデータを増やすことができ、分類モデルを多様なデータで学習させることができる。
 また、初期データセットのうちからランダムに複数の学習用データを選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。
 生成部12は、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成する。生成部12は、合成データを生成することを実行する前に、複数の学習用データを変換し、複数の変換データを生成して、複数の変換データを所定の比率で合成し、1つの合成データを生成してもよい。ここで、学習用データが音データの場合、変換データは、音データをランダムに切り取ることで生成したり、音データの音圧レベルやピッチ、速度等をランダムに変更したりすることで生成してよい。また、学習用データが画像データの場合、変換データは、画像データをランダムに切り取ることで生成したり、画像データをランダムに拡大縮小したり、回転したり、アスペクト比の変更を行ったり、RGB値を変更したりすることで生成してよい。このように、複数の学習用データを整形したり、複数の学習用データに対してデータオーグメンテーションを行ったりすることで複数の変換データを得て、それらを所定の比率で合成して合成データを生成することで、分類モデルをさらに多様なデータで学習させることができる。
 また、生成部12は、合成データを生成することを実行する前に、複数の学習用データ又は複数の学習用データを変換した複数の変換データを分類モデル20に入力し、分類モデル20の複数の中間出力を取得して、複数の中間出力を所定の比率で合成し、1つの合成データを生成してもよい。
 複数の学習用データが複数の音データである場合、生成部12は、複数の音データを所定の比率で重ね合わせて、1つの合成音データを生成する。ここで、複数の音データは、サンプル毎に、所定の比率で重ね合わせることとしてよい。また、複数の学習用データが複数の画像データである場合、生成部12は、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、1つの合成画像データを生成する。さらに、複数の学習用データが複数のテキストデータである場合、生成部12は、複数のテキストデータを複数のベクトルデータに変換して、複数のベクトルデータを所定の比率で加算して、1つの合成ベクトルデータを生成する。なお、複数の音データを所定の比率で重ね合わせて、1つの合成音データを生成することは、デジタルデータとしての音データを重ね合わせることで行ってよいが、アナログデータとしての音データを重ね合わせることで行ってもよい。すなわち、複数の音データを所定の比率の音量で同時に再生し、録音することで、1つの合成音データを生成することとしてもよい。また、複数の画像データのピクセル毎に、ピクセル値を所定の比率で加算して、1つの合成画像データを生成することは、デジタルデータとしての画像データを加算することで行ってよいが、アナログデータとしての画像データを加算することで行ってもよい。すなわち、複数の画像データを所定の比率の光量で表示し、光学系によって重ね合わせて撮影することで、1つの合成画像データを生成することとしてもよい。
 比率決定部13は、生成部12が合成データを生成する際に用いる所定の比率を決定する。比率決定部13は、所定の数値範囲から1つの数値をランダムに選択して、選択された数値に基づいて所定の比率を決定してよい。比率決定部13は、例えば、0から1の数値範囲から1つの数値をランダムに選択して、選択した数値を所定の比率としてもよい。ここで、比率決定部13は、一様分布やガウス分布等によって、所定の数値範囲から1つの数値をランダムに生成してもよい。また、比率決定部13は、所定の数値範囲から1つの数値をランダムに選択して、選択された数値の関数によって所定の比率を決定してもよい。比率決定部13は、生成部12によって合成データを生成する度に、所定の比率を決定してもよい。比率決定部13は、学習用データ選択部11によって初期データセットのうちから複数の学習用データが選択される度に、それら複数の学習用データを合成する際に用いる所定の比率を決定してもよい。
 学習用データを合成する比率を可変とすることで、同じ学習用データを用いる場合であっても、異なる内容の合成データを生成できるようになり、分類モデルの学習に用いるデータの多様性を増すことができる。
 また、学習用データを合成する比率をランダムに選択することで、学習用データの数が限られている場合であっても、多様な合成データを生成することができ、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。
 さらに、学習用データを合成する比率の決定を、合成データを生成する度に行うことで、学習の反復回数が多い場合であっても、反復を行う度に異なる内容の合成データについて学習を行うことができ、分類モデルを多様なデータで学習させることができる。
 投入部14は、生成部12によって生成された1又は複数の合成データを分類モデル20に入力する。投入部14は、複数の合成データを分類モデル20に順次入力してもよいし、複数の合成データを一度に分類モデル20に入力してもよい。分類モデル20がニューラルネットワークの場合、投入部14は、合成データをニューラルネットワークの入力層に入力してよい。
 もっとも、生成部12によって分類モデル20の複数の中間出力を得て、複数の中間出力を所定の比率で合成し、1つの合成データを生成した場合、投入部14は、1又は複数の合成データを、分類モデル20のうち中間出力を出力した構成の後段に入力してよい。分類モデル20がニューラルネットワークの場合、投入部14は、ニューラルネットワークに含まれる複数の層うち、中間出力を出力した層の次の層に合成データを入力してよい。分類モデル20の中間出力を得て、それらを所定の比率で合成して合成データを生成し、分類モデル20のうち中間出力を出力した構成の後段に合成データを入力することで、分類モデル20の出力の精度をより高めるように分類モデル20を学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。
 更新部15は、分類モデル20の出力によって、合成データに含まれる複数の学習用データの分類が所定の比率で再現されるように、分類モデル20のパラメータを更新する。例えば、第1学習用データを0.2の比率で含み、第2学習用データを0.8の比率で含む合成データを分類モデル20に入力した場合、更新部15は、分類モデル20の出力によって、第1学習用データに対応するクラスの出力値が0.2、第2学習用データに対応するクラスの出力値が0.8となるように、分類モデル20のパラメータを更新する。
 以下では、図4、5及び6を用いて、本実施形態に係る学習方法によって、分類モデル20に音データの分類を学習させる場合について説明する。
 図4は、本実施形態に係る学習方法によって、分類モデル20に音データの分類を学習させる場合の概念図である。本実施形態に係る学習方法では、合成データを生成することを実行する前に、データベースDBに記憶された初期データセットのうちから、ランダムに2つのデータを選択することを実行する。本例では、データベースDBは、犬(Dog)に分類される複数の音データと、猫(Cat)に分類される複数の音データと、鳥(Bird)に分類される複数の音データと、を含み、合成データを生成する元データとして、犬に関する第1音データA1と猫に関する第2音データA2とが選択されている。
 本実施形態に係る学習方法では、合成データを生成することを実行する前に、所定の数値範囲から1つの数値をランダムに選択して、所定の比率を決定する。本例では、0から1の数値範囲から1つの数値をランダムに選択した結果、0.7という数値が選択されて、所定の比率が0.7に決定されている。
 その後、第1音データA1を0.7の割合で含み、第2音データA2を0.3の割合で含むように、合成音データA3が生成される。生成された合成音データA3は、分類モデル20に入力され、分類モデル20の出力によって、犬のクラスの分類が0.7、猫のクラスの分類が0.3、鳥のクラスの分類が0となるように、分類モデル20のパラメータが更新される。もっとも、分類モデル20のパラメータを一度更新しただけでは分類モデル20のパラメータは最適化されず、以上の処理を繰り返し実行することとなる。なお、本例では、2つの音データを所定の比率で合成して合成音データを生成する場合について説明したが、3つ以上の音データを所定の比率で合成して合成音データを生成することとしてもよい。
 図5は、本実施形態に係る学習方法によって、分類モデル20に音データの分類を学習させる場合のフローチャートである。はじめに、学習用データ選択部11によって、データベースDBに記憶された初期データセットのうちから、ランダムに2つの音データを選択する(S10)。音データの選択は、一連の音データの中から、ランダムに選択された一部分を抜き出すことで行ってもよい。
 比率決定部13は、0から1までの数値範囲からランダムに数値を選択して、学習用の音データを合成する比率rを決定する(S11)。その後、生成部12は、2つの音データの音圧レベルが同程度になるように調整する(S12)。例えば、第1音データA1の最大音圧レベルがP1であり、第2音データA2の最大音圧レベルがP2である場合、生成部12は、第2音データA2を、10(P1-P2)/20倍することで、2つの音データの音圧レベルを調整してよい。
 さらに、生成部12は、-1から1までの数値範囲からランダムに数値を選択して、音圧レベルの調整係数pを決定する(S13)。そして、生成部12は、比率r、調整係数pを用いて、2つの音データを重ね合わせて合成音データを生成する(S14)。より具体的には、生成部12は、第1音データA1をr倍し、音圧調整後の第2音データA2を(1-r)倍して、両データを加算し、全体を(r+(1-r)1/2で割って、2倍することで、合成音データA3としてよい。ここで、(r+(1-r)1/2で割ることは、合成音データA3の音圧レベルを、第1音データA1及び音圧調整後の第2音データA2と同程度とするために行われる。また、ランダムに選択された調整係数pを用いて、音データを2倍することで、合成音データを生成する度に音圧レベルをばらつかせることができ、学習用データの多様性を増すことができる。なお、生成部12は、所定の比率で加算した複数の音データの速度やピッチをランダムに変更して、合成音データを生成してもよい。
 投入部14は、合成音データを分類モデル20に入力する(S15)。そして、更新部15は、分類モデル20の出力によって、合成音データに含まれる2つの音データの分類が比率rで再現されるように、パラメータを更新する(S16)。例えば、第1音データA1をr倍し、音圧調整後の第2音データA2を(1-r)倍して合成データを生成した場合、更新部15は、分類モデル20の出力によって、犬のクラスの分類がrとなり、猫のクラスの分類が1-rとなるように、分類モデル20のパラメータを更新する。ここで、分類モデル20のパラメータとは、例えば分類モデル20がニューラルネットワークの場合、重み係数である。分類モデル20がニューラルネットワークであって、出力層がソフトマックス層である場合、更新部15は、分類モデル20の出力値と、学習用データについて予め定められている分類の正答値との間のクロスエントロピーやカルバック・ライブラー・ダイバージェンスを最小化するように、バックプロパゲーションの方法を用いて重み係数を更新してよい。より具体的には、第1音データA1をr倍し、音圧調整後の第2音データA2を(1-r)倍して合成データを生成し、分類モデル20によってyという出力ベクトルを得た場合、犬のクラスを表す正答ベクトルt1をrの割合で含み、猫のクラスを表す正答ベクトルt2を(1-r)の割合で含むt=r×t1+(1-r)×t2というベクトルを正答ベクトルtとして、クロスエントロピーH(t、y)やカルバック・ライブラー・ダイバージェンスDKL(t||y)を最小化するように、重み係数を更新してよい。
 学習装置10は、学習終了の条件を満たすか否かを判定する(S17)。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル20のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合(S17:No)、初期データセットの中から新たに学習用の音データをランダムに選択し、ランダムに決定した比率で合成して、分類モデル20に入力し、分類モデル20のパラメータを更新する。一方、学習終了の条件を満たす場合(S17:Yes)、学習処理を終了する。
 図6は、本実施形態に係る学習方法によって分類モデル20に音データの分類を学習させた場合と、従来の学習方法によって分類モデル20に音データの分類を学習させた場合とに関する分類性能を示す図である。同図では、2種類の分類モデルについて、従来の学習方法によって学習した場合の正答率と、本実施形態に係る学習方法によって学習した場合の正答率とを示している。ここで、第2種類の分類モデルは、第1種類の分類モデルよりも複雑なモデルであり、学習させるのが比較的難しいモデルである。同図に示す正答率は、同じ初期データセットと、同じ分類モデル20を用いて、学習方法のみを変えた場合の値である。正答率は、分類モデル20の学習が十分に進み、その学習方法によって達成することのできる上限値に近い値となっている。
 第1種類の分類モデルについて、従来の学習方法によって学習した場合の正答率は68.3%であり、本実施形態に係る学習方法によって学習した場合の正答率は74.3%である。本実施形態に係る学習方法を用いることによって、分類モデル20が同一であっても、正答率が6%向上するという結果が得られた。
 また、第2種類の分類モデルについて、従来の学習方法によって学習した場合の正答率は71.7%であり、本実施形態に係る学習方法によって学習した場合の正答率は80.7%である。第2種類の分類モデルについても、本実施形態に係る学習方法を用いることによって、分類モデル20が同一であっても、正答率が9%向上するという結果が得られた。なお、本実験に用いた音データを人に分類させた場合の正答率は、約80%である。本実施形態に係る学習方法を用いることで、分類モデル20の分類性能を人と同等のレベルにまで向上させることができる。また、本実施形態に係る学習方法を用いると、第1種類の分類モデルの場合に従来の学習方法より6%の正答率の向上が見られ、第2種類の分類モデルの場合に従来の学習方法より9%の正答率の向上が見られたことから、本実施形態に係る学習方法は、比較的複雑なモデルの学習に用いた場合により効果的であるといえる。
 本実施形態に係る学習方法によれば、合成データに含まれる複数の学習用データの分類の比率を再現するように分類モデルを学習させることで、学習用データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルの出力の精度をより高めるように分類モデルを学習させることができ、分類モデルによる分類の正答率をより高めるように分類モデルを学習させることができる。また、本実施形態に係る学習方法によれば、学習用データの数が限られており、分類モデルが複雑なモデルである場合であっても、学習用データの組合せ及び学習用データを合成する比率を様々に選択することで多様な合成データを生成することができるため、分類モデルによる分類の正答率をより高めるように、安定して分類モデルを学習させることができる。
 また、重ね合わされた複数の音データの分類の比率を再現するように分類モデルを学習させることで、音データの個別の分類を再現するように分類モデルを学習させる場合よりも、分類モデルの出力の精度をより高めるように、分類モデルを学習させることができる。
 以下では、図7、8、9及び10を用いて、本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合について説明する。
 図7は、本実施形態に係る学習方法によって、分類モデルに画像データの分類を学習させる場合の概念図である。本実施形態に係る学習方法では、合成データを生成することを実行する前に、データベースDBに記憶された初期データセットのうちから、ランダムに2つのデータを選択することを実行する。本例では、データベースDBは、車(Car)に分類される複数の画像データと、猫(Cat)に分類される複数の画像データと、鳥(Bird)に分類される複数の画像データと、を含み、合成データを生成する元データとして、車に関する第1画像データG1と猫に関する第2画像データG2とが選択されている。
 本実施形態に係る学習方法では、合成データを生成することを実行する前に、所定の数値範囲から1つの数値をランダムに選択して、所定の比率を決定する。本例では、0から1の数値範囲から1つの数値をランダムに選択した結果、0.4という数値が選択されて、所定の比率が0.4に決定されている。
 その後、第1画像データG1を0.4の割合で含み、第2画像データG2を0.6の割合で含むように、合成画像データG3が生成される。生成された合成画像データG3は、分類モデル20に入力され、分類モデル20の出力によって、車のクラスの分類が0.4、猫のクラスの分類が0.6、鳥のクラスの分類が0となるように、分類モデル20のパラメータが更新される。もっとも、分類モデル20のパラメータを一度更新しただけでは分類モデル20のパラメータは最適化されず、以上の処理を繰り返し実行することとなる。なお、本例では、2つの画像データを所定の比率で合成して合成画像データを生成する場合について説明したが、3つ以上の画像データを所定の比率で合成して合成画像データを生成することとしてもよい。
 図8は、本実施形態に係る学習方法によって、分類モデル20に画像データの分類を学習させる第1処理のフローチャートである。分類モデル20に画像データの分類を学習させる第1処理では、はじめに、学習用データ選択部11によって、データベースDBに記憶された初期データセットのうちから、ランダムに2つの画像データを選択する(S20)。
 比率決定部13は、0から1までの数値範囲からランダムに数値を選択して、学習用の画像データを合成する比率rを決定する(S21)。その後、生成部12は、学習用データ選択部11によって選択された2つの画像データについて、その大きさが同程度になるようにデータ整形を行う(S22)。ここで、生成部12は、所定の大きさの領域をランダムに選択した位置で切り出すことで、データ整形を行ってもよい。また、生成部12は、2つの画像データに対してデータオーグメンテーションを実行する(S23)。ここで、データオーグメンテーションは、ランダムな比率で画像を拡大や縮小したり、ランダムな方向に画像を回転させたり、平行移動させたり、ランダムな比率でアスペクト比の変換を行ったり、ランダムな値でRGB値の変更を行ったりすることを含む。もっとも、データ整形及びデータオーグメンテーションは、省略することのできる処理である。
 その後、生成部12は、2つの画像データのピクセル毎に、ピクセル値を比率rで加算して、合成画像データG3を生成する(S24)。より具体的には、生成部12は、第1画像データG1の特定のピクセル値をr倍し、第2画像データG2に関する対応するピクセル値を(1-r)倍して、両データを加算することで、合成画像データG3の特定のピクセル値としてよい。
 投入部14は、合成画像データを分類モデル20に入力する(S25)。分類モデル20がニューラルネットワークの場合、投入部14は、ニューラルネットワークの入力層に合成画像データを入力する。そして、更新部15は、分類モデル20の出力によって、合成画像データに含まれる2つの画像データの分類が比率rで再現されるように、パラメータを更新する(S26)。例えば、第1画像データG1をr倍し、第2画像データG2を(1-r)倍して合成データを生成した場合、更新部15は、分類モデル20の出力によって、車のクラスの分類がrとなり、猫のクラスの分類が1-rとなるように、分類モデル20のパラメータを更新する。
 学習装置10は、学習終了の条件を満たすか否かを判定する(S27)。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル20のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合(S27:No)、初期データセットの中から新たに学習用の画像データをランダムに選択し、ランダムに決定した比率で合成して、分類モデル20に入力し、分類モデル20のパラメータを更新する。一方、学習終了の条件を満たす場合(S27:Yes)、学習処理を終了する。
 本実施形態に係る学習方法によれば、重ね合わされた複数の画像データの分類の比率を再現するように分類モデル20を学習させることで、画像データの個別の分類を再現するように分類モデル20を学習させる場合よりも、分類モデル20の出力の精度をより高めるように分類モデル20を学習させることができ、分類モデル20による分類の正答率をより高めるように分類モデル20を学習させることができる。
 図9は、本実施形態に係る学習方法によって、分類モデル20に画像データの分類を学習させる第2処理のフローチャートである。分類モデル20に画像データの分類を学習させる第2処理は、分類モデル20の中間出力を所定の比率で合成して合成データを生成し、合成データに含まれる画像データの分類が所定の比率で再現されるように、分類モデル20を学習させる処理である。
 はじめに、学習用データ選択部11によって、データベースDBに記憶された初期データセットのうちから、ランダムに2つの画像データを選択する(S30)。比率決定部13は、0から1までの数値範囲からランダムに数値を選択して、学習用の画像データを合成する比率rを決定する(S31)。その後、生成部12は、学習用データ選択部11によって選択された2つの画像データについて、その大きさが同程度になるようにデータ整形を行う(S32)。また、生成部12は、2つの画像データに対してデータオーグメンテーションを実行する(S33)。もっとも、データ整形及びデータオーグメンテーションは、省略することのできる処理である。
 その後、学習装置10は、2つの画像データを、それぞれ分類モデル20に入力し、中間出力を取得する(S34)。ここで、分類モデル20がニューラルネットワークの場合、2つの画像データは、それぞれニューラルネットワークの入力層に入力される。また、中間出力は、ニューラルネットワークに含まれる複数の層のうち出力層以外の任意の層の出力であってよい。生成部12は、2つの画像データに対応する2つの中間出力を比率rで加算して、合成データを生成する(S35)。
 投入部14は、合成データを分類モデル20のうち中間出力を出力した構成の後段に入力する(S36)。分類モデル20がニューラルネットワークの場合、投入部14は、ニューラルネットワークのうち中間出力を出力した層の次の層に合成データを入力する。そして、更新部15は、分類モデル20の出力によって、合成データに含まれる2つの画像データの分類が比率rで再現されるように、パラメータを更新する(S37)。例えば、第1画像データG1の中間出力をr倍し、第2画像データG2の中間出力を(1-r)倍して合成データを生成した場合、更新部15は、分類モデル20の出力によって、車のクラスの分類がrとなり、猫のクラスの分類が1-rとなるように、分類モデル20のパラメータを更新する。
 学習装置10は、学習終了の条件を満たすか否かを判定する(S38)。ここで、学習終了の条件は、任意に設定されてよいが、例えばクロスエントロピーやカルバック・ライブラー・ダイバージェンス等の目的関数の値が所定値以下となることや、分類モデル20のパラメータの更新回数が所定回数に達したことや、パラメータの更新前後で目的関数の値の変化が所定値以下となることであってよい。学習終了の条件を満たしていない場合(S38:No)、初期データセットの中から新たに学習用の画像データをランダムに選択し、分類モデル20に入力して中間出力を取得して、ランダムに決定した比率で中間出力を合成して分類モデル20のうち中間出力を出力した構成の後段に入力し、分類モデル20のパラメータを更新する。一方、学習終了の条件を満たす場合(S38:Yes)、学習処理を終了する。
 図10は、本実施形態に係る学習方法によって分類モデル20に画像データの分類を学習させた場合と、従来の学習方法によって分類モデル20に画像データの分類を学習させた場合とに関する分類性能を示す図である。同図に示す例では、分類モデル20は、入力層(input)、複数の畳み込み層(conv1~8)、複数のプーリング層(pool1~3)、複数の全結合層(fc1~2)及び出力層(output)を有するCNN(Convolutional Neural Network)である。同図では、1種類のCNNを分類モデル20として、従来の学習方法によって学習した場合の正答率をBaselineとして示し、本実施形態に係る学習方法によってCNNに含まれる複数の層の中間出力を合成して学習した場合の正答率をCNNに含まれる複数の層について示している。ここで、正答率は、分類モデル20の学習が十分に進み、その学習方法によって達成することのできる上限値に近い値となっている。
 本実施形態に係る学習方法によって学習した場合の正答率は、いずれの層の中間出力を合成した場合であっても、従来の学習方法によって学習した場合の正答率(93.59%)を上回っている。例えば、第1畳み込み層(conv1)から出力された中間出力を合成して、合成データを第2畳み込み層(conv2)に入力して分類モデル20を学習させた場合、正答率は94.39%である。また、第2畳み込み層(conv2)から出力された中間出力を合成して、合成データを第1プーリング層(pool1)に入力して分類モデル20を学習させた場合、正答率は94.38%である。
 同様に、第3畳み込み層(conv3)から出力された中間出力を合成して、合成データを第4畳み込み層(conv4)に入力して分類モデル20を学習させた場合、正答率は94.45%である。また、第4畳み込み層(conv4)から出力された中間出力を合成して、合成データを第2プーリング層(pool2)に入力して分類モデル20を学習させた場合、正答率は94.47%である。また、第7畳み込み層(conv7)から出力された中間出力を合成して、合成データを第8畳み込み層(conv8)に入力して分類モデル20を学習させた場合、正答率は94.41%である。また、第8畳み込み層(conv8)から出力された中間出力を合成して、合成データを第3プーリング層(pool3)に入力して分類モデル20を学習させた場合、正答率は94.31%である。さらに、第1全結合層(fc1)から出力された中間出力を合成して、合成データを第2全結合層(fc2)に入力して分類モデル20を学習させた場合、正答率は94.75%であり、従来の学習方法によって学習した場合の正答率(93.59%)を1.16%上回っている。
 また、中間出力を合成せずに、学習用データ又は学習用データを変換した変換データを合成して、合成データを入力層(input)に入力して分類モデル20を学習させた場合、正答率は94.71%であり、従来の学習方法によって学習した場合の正答率(93.59%)を1.12%上回っている。
 これらの結果から、学習用データを分類モデル20に入力する前に合成して合成データを生成し、合成データを入力層(input)に入力して分類モデル20を学習させる場合に得られる分類性能は、分類モデル20の中間出力を合成し、中間出力を出力した構成の後段に合成データを入力して分類モデル20を学習させる場合の分類性能と比較して、同等以上であることがわかる。学習用データを分類モデル20に入力する前に合成して合成データを生成し、合成データを入力層(input)に入力して分類モデル20を学習させる方法は、中間出力の演算が不要であり、分類モデル20の中間出力を利用する方法よりも分類モデル20の学習に要する演算量を少なくすることができ、分類モデル20の中間出力を利用する方法と同等以上の分類性能が得られるため、より効果的であるといえる。
 なお、ここでは、分類モデル20の中間出力を用いて画像データの分類を学習させる場合について説明したが、分類モデル20の中間出力を所定の比率で合成して合成データを生成し、中間出力を出力した構成の後段に合成データを入力して分類モデル20を学習させる方法は、任意の種類のデータの分類を分類モデル20に学習させる場合に適用することができる。また、中間出力を用いて学習される分類モデル20は、CNNに限られず、任意のモデルであってよい。
 以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
 例えば、データベースDBに記憶された初期データセットがテキストデータである場合、データベースDBに記憶された初期データセットのうちから、ランダムに2つのテキストデータを選択して、それぞれベクトルデータに変換して、ランダムに選択した所定の比率で2つのベクトルデータを加算することで、合成ベクトルデータを生成してもよい。そして、合成ベクトルデータに含まれるテキストデータの分類が所定の比率で再現されるように、分類モデル20のパラメータを更新してよい。
 本実施形態に係る学習方法によれば、重ね合わされた複数のテキストデータの分類の比率を再現するように分類モデル20を学習させることで、テキストデータの個別の分類を再現するように分類モデル20を学習させる場合よりも、分類モデル20の出力の精度をより高めるように分類モデル20を学習させることができ、分類モデル20による分類の正答率をより高めるように分類モデル20を学習させることができる。
 また、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率rで合成し、1つの合成データを生成して、分類モデルの出力によって、所定の比率を所定の規則で変換した値が再現されるように、分類モデルのパラメータを更新してもよい。すなわち、分類モデルの出力を正確にrに対応させず、分類モデルの出力によってrを所定の規則で変換した値を再現するようにしてもよい。
 例えば、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率rで合成し、1つの合成データを生成して、分類モデルの出力がr+e(eはノイズを表す量)となるように、分類モデルのパラメータを更新してもよい。具体的には、第1画像データが車の画像であり、第2画像データが猫の画像である場合に、所定の比率を0.4として、第1画像データ40%と、第2画像データ60%とを合成して合成画像データを生成し、ノイズをランダムに生成して例えば0.01として、分類モデルによって車のクラスの分類が0.41、猫のクラスの分類が0.59となるように、分類モデルの学習処理を行ってもよい。ここで、加減算するノイズの量はランダムに変更してよい。
 また、学習用データを合成する所定の比率をrと定めた場合に、分類モデルの出力によって、合成データに含まれる複数の学習用データの分類が比率a×r(aは任意の定数)で再現されるように、分類モデルのパラメータを更新してもよい。例えば、第1画像データが車の画像であり、第2画像データが猫の画像であり、合成比率が0.4である場合に、第1画像データを40%と、第2画像データを60%とを合成して合成画像データを生成し、定数をa=2として、分類モデルによって車のクラスの分類が0.8、猫のクラスの分類が0.2となるように、分類モデルの学習処理を行ってもよい。
 また、それぞれ分類が定められた複数の学習用データ又は複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成して、分類モデルの出力によって、所定の比率を切り上げ又は切り捨てした値が再現されるように、分類モデルのパラメータを更新することとしてもよい。例えば、第1画像データが車の画像であり、第2画像データが猫の画像であり、所定の比率が0.4である場合に、第1画像データを40%と、第2画像データを60%とを合成して合成画像データを生成し、分類モデルによって車のクラスの分類が0(0.4を切り捨て)、猫のクラスの分類が1(0.6を切り上げ)となるように、分類モデルの学習処理を行ってもよい。すなわち、分類モデルの出力によって、所定の比率を四捨五入した値が再現されるようにしてよい。また、例えば、第1画像データが車の画像であり、第2画像データが猫の画像であり、合成比率が0.4である場合に、第1画像データを40%と、第2画像データを60%とを合成して合成画像データを生成し、分類モデルによって車のクラスの分類が1(0.4を切り上げ)、猫のクラスの分類が1(0.6を切り上げ)となるように、分類モデルの学習処理を行ってもよい。

Claims (14)

  1.  少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータによって、
     それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成することと、
     1又は複数の前記合成データを分類モデルに入力することと、
     前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
     を実行する学習方法。
  2.  前記合成データを生成することを実行する前に、前記所定の比率を決定することをさらに含む、
     請求項1に記載の学習方法。
  3.  前記所定の比率を決定することは、所定の数値範囲から1つの数値をランダムに選択することと、選択された前記数値に基づいて前記所定の比率を決定することとを含む、
     請求項2に記載の学習方法。
  4.  前記所定の比率を決定することは、前記合成データを生成することを実行する度に行われる、
     請求項2又は3に記載の学習方法。
  5.  前記合成データを生成することを実行する前に、初期データセットのうちから前記複数の学習用データを選択することをさらに含む、
     請求項1から4のいずれか一項に記載の学習方法。
  6.  前記複数の学習用データを選択することは、前記初期データセットのうちからランダムにデータを選択することを含む、
     請求項5に記載の学習方法。
  7.  前記合成データを生成することを実行する前に、前記複数の学習用データを変換し、前記複数の変換データを生成することをさらに含む、
     請求項1から6のいずれか一項に記載の学習方法。
  8.  前記複数の学習用データは、複数の音データであり、
     前記合成データを生成することは、前記複数の音データを前記所定の比率で重ね合わせて、1つの合成音データを生成することを含む、
     請求項1から7のいずれか一項に記載の学習方法。
  9.  前記複数の学習用データは、複数の画像データであり、
     前記合成データを生成することは、前記複数の画像データのピクセル毎に、ピクセル値を前記所定の比率で加算して、1つの合成画像データを生成することを含む、
     請求項1から7のいずれか一項に記載の学習方法。
  10.  前記複数の学習用データは、複数のテキストデータであり、
     前記合成データを生成することは、前記複数のテキストデータを複数のベクトルデータに変換することと、前記複数のベクトルデータを、前記所定の比率で加算して、1つの合成ベクトルデータを生成することとを含む、
     請求項1から7のいずれか一項に記載の学習方法。
  11.  少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータによって、
     それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを分類モデルに入力し、前記分類モデルの複数の中間出力を取得することと、
     前記複数の中間出力を所定の比率で合成し、1つの合成データを生成することと、
     1又は複数の前記合成データを、前記分類モデルのうち前記中間出力を出力した構成の後段に入力することと、
     前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
     を実行する学習方法。
  12.  少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリとを備えるコンピュータに、
     それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成することと、
     1又は複数の前記合成データを分類モデルに入力することと、
     前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新することと、
     を実行させる学習プログラム。
  13.  それぞれ分類が定められた複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成する生成部と、
     1又は複数の前記合成データを分類モデルに入力する投入部と、
     前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新する更新部と、
     を備える学習装置。
  14.  それぞれ分類が定められた初期データセットを記憶するデータベースと、
     入力されたデータの分類を出力する分類モデルと、
     前記初期データセットのうちから選択された複数の学習用データ又は前記複数の学習用データを変換して得られた複数の変換データを所定の比率で合成し、1つの合成データを生成する生成部、1又は複数の前記合成データを前記分類モデルに入力する投入部及び前記分類モデルの出力によって、前記合成データに含まれる前記複数の学習用データの分類が前記所定の比率で再現されるように、前記分類モデルのパラメータを更新する更新部を有する学習装置と、
     を備える学習システム。
PCT/JP2018/027895 2017-07-25 2018-07-25 学習方法、学習プログラム、学習装置及び学習システム WO2019022136A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/633,803 US11488060B2 (en) 2017-07-25 2018-07-25 Learning method, learning program, learning device, and learning system
JP2019532833A JP6859577B2 (ja) 2017-07-25 2018-07-25 学習方法、学習プログラム、学習装置及び学習システム
EP18838701.3A EP3660753A4 (en) 2017-07-25 2018-07-25 LEARNING PROCEDURE, LEARNING PROGRAM, LEARNING DEVICE AND LEARNING SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-144029 2017-07-25
JP2017144029 2017-07-25

Publications (1)

Publication Number Publication Date
WO2019022136A1 true WO2019022136A1 (ja) 2019-01-31

Family

ID=65040254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/027895 WO2019022136A1 (ja) 2017-07-25 2018-07-25 学習方法、学習プログラム、学習装置及び学習システム

Country Status (4)

Country Link
US (1) US11488060B2 (ja)
EP (1) EP3660753A4 (ja)
JP (1) JP6859577B2 (ja)
WO (1) WO2019022136A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
WO2022153432A1 (ja) * 2021-01-14 2022-07-21 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
WO2022249392A1 (ja) * 2021-05-27 2022-12-01 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP7505598B2 (ja) 2021-01-14 2024-06-25 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417527B2 (en) * 2017-09-06 2019-09-17 Irdeto B.V. Identifying an object within content
CN110533158B (zh) * 2018-05-25 2023-10-13 宏达国际电子股份有限公司 模型建构方法、系统及非易失性电脑可读取记录介质
CN111079813B (zh) * 2019-12-10 2023-07-07 北京百度网讯科技有限公司 基于模型并行的分类模型计算方法和装置
US11687780B2 (en) * 2020-07-02 2023-06-27 Samsung Electronics Co., Ltd Method and apparatus for data efficient semantic segmentation
CN114445805A (zh) * 2022-01-29 2022-05-06 北京百度网讯科技有限公司 属性识别模型训练、属性识别方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080746A (ja) * 2004-09-08 2006-03-23 Nikon Corp 画像処理装置、電子カメラ、および画像処理プログラム
JP2015191426A (ja) * 2014-03-28 2015-11-02 セコム株式会社 学習データ生成装置
JP2017084320A (ja) 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6365032B2 (ja) * 2014-07-08 2018-08-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
US20170358045A1 (en) * 2015-02-06 2017-12-14 Fronteo, Inc. Data analysis system, data analysis method, and data analysis program
EP3365841A4 (en) * 2015-09-30 2019-06-19 Just, Inc. SYSTEMS AND METHODS FOR IDENTIFYING ENTITIES THAT HAVE TARGET PROPERTY
US20170147909A1 (en) * 2015-11-25 2017-05-25 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
US10949889B2 (en) * 2016-01-04 2021-03-16 Exelate Media Ltd. Methods and apparatus for managing models for classification of online users
JP6751816B2 (ja) * 2017-05-30 2020-09-09 株式会社日立国際電気 新規学習データセット生成方法および新規学習データセット生成装置
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
KR20220085589A (ko) * 2020-12-15 2022-06-22 현대모비스 주식회사 딥러닝 기반 제품 불량 검출방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080746A (ja) * 2004-09-08 2006-03-23 Nikon Corp 画像処理装置、電子カメラ、および画像処理プログラム
JP2015191426A (ja) * 2014-03-28 2015-11-02 セコム株式会社 学習データ生成装置
JP2017084320A (ja) 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3660753A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
WO2022153432A1 (ja) * 2021-01-14 2022-07-21 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
JP7505598B2 (ja) 2021-01-14 2024-06-25 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
WO2022249392A1 (ja) * 2021-05-27 2022-12-01 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
US20200210893A1 (en) 2020-07-02
EP3660753A4 (en) 2021-05-12
US11488060B2 (en) 2022-11-01
JPWO2019022136A1 (ja) 2020-09-17
JP6859577B2 (ja) 2021-04-14
EP3660753A1 (en) 2020-06-03

Similar Documents

Publication Publication Date Title
JP6859577B2 (ja) 学習方法、学習プログラム、学習装置及び学習システム
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
CN113902921B (zh) 图像处理方法、装置、设备及存储介质
CN110097609B (zh) 一种基于样本域的精细化绣花纹理迁移方法
CN109711401B (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
US20210089845A1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
WO2017214507A1 (en) Neural network and method of neural network training
US11961203B2 (en) Image processing device and operation method therefor
US20150332435A1 (en) Image processing apparatus, image processing method, and computer-readable recording medium
US11048988B2 (en) Learning device, print control device, and learned model
CN110853110A (zh) 一种基于生成对抗网络的图片自动调色方法
JP2022513858A (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
JP7207846B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20230268035A1 (en) Method and apparatus for generating chemical structure using neural network
CN110363830B (zh) 元素图像生成方法、装置及系统
Valdez et al. A framework for interactive structural design exploration
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
EP1587003B1 (en) Song search system and song search method
WO2022264461A1 (ja) 情報処理システム及び情報処理方法
CN111028174A (zh) 一种基于残差连接的多维图像复原方法和设备
JP6795240B1 (ja) 制御装置、方法及びプログラム
JP6737997B1 (ja) 画像処理学習プログラム、画像処理プログラム、情報処理装置及び画像処理システム
JP7402552B2 (ja) 学習装置及び推論装置
JP7408515B2 (ja) 学習装置、方法およびプログラム
JP7075091B1 (ja) 情報処理装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18838701

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018838701

Country of ref document: EP

Effective date: 20200225

ENP Entry into the national phase

Ref document number: 2019532833

Country of ref document: JP

Kind code of ref document: A