WO2019035364A1 - プログラム、情報処理方法、および情報処理装置 - Google Patents

プログラム、情報処理方法、および情報処理装置 Download PDF

Info

Publication number
WO2019035364A1
WO2019035364A1 PCT/JP2018/028986 JP2018028986W WO2019035364A1 WO 2019035364 A1 WO2019035364 A1 WO 2019035364A1 JP 2018028986 W JP2018028986 W JP 2018028986W WO 2019035364 A1 WO2019035364 A1 WO 2019035364A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
learning
data
data set
program according
Prior art date
Application number
PCT/JP2018/028986
Other languages
English (en)
French (fr)
Inventor
井手 直紀
由幸 小林
章 中村
愉希夫 大渕
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2019536728A priority Critical patent/JP7207309B2/ja
Priority to US16/637,269 priority patent/US11605002B2/en
Priority to EP18846168.5A priority patent/EP3671566A4/en
Publication of WO2019035364A1 publication Critical patent/WO2019035364A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the present technology relates to a program, an information processing method, and an information processing apparatus, and more particularly, to a program, an information processing method, and an information processing apparatus that enable network design to be easily performed.
  • the basis of design is not limited to regression and classification problems.
  • metric learning there is a common stone such as using a Siamese network or a triplet network.
  • VAE variational auto encoder
  • GAN Geneative Adversalial Network
  • VAT Virtual Adversarial Training
  • the present technology has been made in view of such a situation, and makes it possible to easily design a network.
  • a program includes a generation unit configured to generate a network for inference execution and a learning network corresponding to a data set including a computer in response to a data set including data for learning being specified; It is a program for functioning as a learning part which inputs the data for learning into the network for learning, and learns the network for inference execution.
  • a network for inference execution and a network for learning corresponding to the data set are generated, and the data for learning is The input to the learning network is performed to learn the inference execution network.
  • a user can easily design a network.
  • FIG. 1 It is a figure showing an example of composition of a offer system which provides a program concerning one embodiment of this art. It is a figure which shows the example of the display screen of a network design support program. It is a figure which shows the structure of a network. It is a figure which shows the example of learning. It is a block diagram showing an example of composition of PC. It is a block diagram showing an example of functional composition of PC. It is a flowchart explaining network automatic generation processing. It is a figure which shows the 1st example of the data set in a regression problem. It is a figure which shows the 2nd example of the data set in a regression problem. It is a figure which shows the example of a predictor and a learning device. FIG.
  • FIG. 5 illustrates a first example of a data set in a classification problem.
  • FIG. 7 shows a second example of a data set in a classification problem.
  • FIG. 5 illustrates an example of a classifier and learner in a binary classification problem.
  • FIG. 7 is a diagram showing an example of a classifier and a learner in a multi-value classification problem. It is a figure which summarizes the design of the common rule of a network. It is a figure which shows the example of the learning device using a feature extractor and Siamese loss. It is a figure which shows the example of the learning device which used the feature extractor and the Triplet loss. It is a figure which shows the 1st example of the data set in metric learning.
  • FIG. 2 illustrates an example of a noise calculation network. It is a figure which shows the example of a predictor and a learning device. It is a figure which shows the example of the learning device which used the generator and VAE. It is a figure which shows the example of the learning device which used the generator and GAN. It is a flowchart explaining the problem estimation process performed in FIG.7 S2.
  • FIG. 1 is a diagram illustrating a configuration example of a provision system that provides a program according to an embodiment of the present technology.
  • the provision system shown in FIG. 1 is configured by connecting the PC 1 and the provision server 2 via the network 3 such as the Internet.
  • the PC 1 is, for example, an apparatus used by a designer who designs a network for Deep Learning.
  • a program provided by the providing server 2 is installed in the PC 1 and a network is designed using the program.
  • the program provided by the providing server 2 is a program for supporting the design of the network.
  • the program provided by the providing server 2 is referred to as a network design support program as appropriate.
  • the network design support program provides various tools for designing a network.
  • a user (designer) of the network design support program can perform network design, learning, evaluation and the like by using the function of the network design support program.
  • FIG. 2 is a diagram showing an example of a display screen of the network design support program.
  • a tool bar in which buttons used for tool selection are arranged, and below that, a selection area 21A and a model display area 21B are formed.
  • the vertically elongated strip-shaped selection area 21A is an area used for selection of various components constituting the network.
  • each component is divided into categories such as “IO”, “Loss”, “Parameter”, “Basic”, “Pooling”, “Activation”, “LoopControl”,. It is done.
  • the model display area 21B is a display area of a network designed using components prepared in the selection area 21A.
  • the components “Input”, “Affine”, “Sigmoid”, and “BinaryCrossEntropy” are selected in order, and blocks 31-1 to 31-4 representing the components are displayed in an overlapping manner. ing.
  • Blocks 31-1 to 31-4 represent a network (learning unit) including an input layer, a linear layer, an activation layer, and a loss function layer.
  • the network design support program has a function of automatically constructing a network based on a problem which the user is trying to solve by inference using the network and a data set designated by the user.
  • information on the basis of network design is set according to the type of problem and the contents of the data set.
  • the problems include, for example, the following types of problems.
  • Regression problem (2) Classification problem (3) Metric learning (feature extraction using the result of metric learning) (4) Semi-teaching learning (regression and classification problems using the results of semi-teaching learning) (5) Generation model (generation of data using a generation model)
  • Such a problem is given to the network design support program by being designated by the user. As will be described later, it is possible to estimate by a network design support program based on a data set or the like. When the network design support program estimates the problem that the user is trying to solve, the network corresponding to the data set is automatically generated only by the user specifying the data set.
  • the data set is composed of a learning data set and an evaluation data set.
  • the data set may consist of only the training data set and may not include the evaluation data set.
  • the data set includes, for example, data of the following domains. (1) Image (moving image, still image) (2) Voice (3) Item (4) Text
  • Sensor data is treated as data of the same domain as voice.
  • Sensor data measured by various sensors such as an acceleration sensor, a gyro sensor, a temperature sensor, a humidity sensor, a living body sensor (a heart rate sensor, a blood pressure sensor, etc.) are also used for learning of the network.
  • the network automatically generated by the design of the standard stone is presented to the user by the screen as shown in FIG.
  • the user can design the desired network by modifying the presented network as appropriate.
  • the network design support program automatically generates and presents the network to the user is a standard network, and by making changes thereto, the desired network design will be performed.
  • the user can easily design the network even if he / she has little knowledge about network design.
  • FIG. 3 is a diagram showing the structure of a network.
  • the neural network is configured by overlapping the linear layer and the activation layer and adding an input layer and an output layer.
  • a three layer neural network is shown.
  • the linear layer is a layer that performs linear conversion of variables (vectors). Assuming that the input to the linear layer is x and the weight to each input is w, the output y is expressed as a value obtained by weighting each input and adding a bias b as shown in the following equation (1).
  • the weight w is a parameter to be optimized by learning.
  • the activation layer is a layer that performs non-linear transformation of variables.
  • the activation layer has no (often) learning parameters.
  • the Sigmoid function which is one of the activation functions is expressed by the following equation (2).
  • Blocks 31-1 to 31-4 in FIG. 2 are images schematically showing such a network.
  • FIG. 4 is a diagram showing an example of learning.
  • the loss is an error between the predicted value and the data label (correct value), and is set according to the problem.
  • a function for calculating a squared error is set as the loss function.
  • the learning using the learning device is performed by adding the gradient to each parameter and updating it (gradient method) while finding the parameter that minimizes the loss (error back propagation) while propagating the gradient of the calculated loss back Law).
  • FIG. 5 is a block diagram showing a configuration example of the PC 1.
  • a central processing unit (CPU) 101, a read only memory (ROM) 102, and a random access memory (RAM) 103 are mutually connected by a bus 104.
  • an input / output interface 105 is connected to the bus 104.
  • An input unit 106, an output unit 107, a storage unit 108, a communication unit 109, and a drive 110 are connected to the input / output interface 105.
  • the removable media 111 is connected to the drive 110.
  • the input unit 106 is configured of a keyboard, a mouse and the like. An operation such as designation of a problem is performed using the input unit 106.
  • the output unit 107 includes a display, a speaker, and the like.
  • the screen as described with reference to FIG. 2 is displayed on the display constituting the output unit 107.
  • the storage unit 108 is configured of a hard disk, a non-volatile memory, and the like.
  • the storage unit 108 stores the above-described network design support program.
  • the communication unit 109 is configured by a network interface or the like. Various communication such as communication for downloading a network design support program is performed in the communication unit 109. The installation of the network design support program may be performed via the removable medium 111 instead of via communication. In this case, the removable medium 111 storing the network design support program is connected to the drive 110 and read out.
  • the CPU 101 loads the network design support program stored in the storage unit 108 into the RAM 103 and executes the program, whereby processing for network design is performed.
  • FIG. 6 is a block diagram showing an example of a functional configuration of the PC 1.
  • the information processing unit 131 When the network design support program is executed by the CPU 101, an information processing unit 131 illustrated in FIG. 6 is realized. As shown in FIG. 6, the information processing unit 131 includes a problem estimation unit 141, a network generation unit 142, a presentation control unit 143, and a learning execution unit 144. A data set including data for learning is input to the problem estimation unit 141, the network generation unit 142, and the learning execution unit 144.
  • the problem estimation unit 141 analyzes the data set and estimates the problem that the user is trying to solve.
  • the problem estimation unit 141 estimates, for example, one of the five types of problems described above.
  • Information representing the estimation result of the problem is supplied to the network generation unit 142.
  • the problem estimation unit 141 does not estimate the problem.
  • the network generation unit 142 generates an inference unit (network for inference execution) and a learning unit (network for learning) based on the problem and the data set estimated by the problem estimation unit 141.
  • an inference unit network for inference execution
  • a learning unit network for learning
  • the network generation unit 142 generates a network based on the common stone design regardless of the operation by the user.
  • the network generation unit 142 If the problem estimation unit 141 does not estimate the problem, the network generation unit 142 generates a network based on the user-specified problem and the data set. Information on the network generated by the network generation unit 142 is supplied to the presentation control unit 143 and the learning execution unit 144 as information on a default network.
  • the network generation unit 142 changes the default network according to the operation by the user.
  • the information on the network to which the change has been made is also supplied to the presentation control unit 143 and the learning execution unit 144.
  • the presentation control unit 143 causes the network generated by the network generation unit 142 to be displayed on the screen of the network design support program and presents it to the user.
  • the screen of the network design support program is also provided with a display for selecting various tools for making a change to the network.
  • the learning execution unit 144 executes learning using a learning device generated by the user appropriately adding a change.
  • data for learning included in the data set is used.
  • An inference unit obtained by performing learning is provided to an application of the PC 1, an application of a device external to the PC 1, and the like, and is used for inference processing.
  • the PC 1 functions as an interface for accepting the user's operation and presenting information for designing the network to the user, and the functions such as problem estimation, network generation, and learning execution are external to the provision server 2 etc. It may be prepared in the device. In this case, at least a part of the configuration shown in FIG. 6 is realized in an external device.
  • step S1 the problem estimation unit 141 acquires a data set including data for learning.
  • step S2 the problem estimation unit 141 performs a problem estimation process.
  • the problem estimation process estimates the problem that the user is trying to solve based on the data set. Details of the problem estimation process will be described later.
  • step S3 the network generation unit 142 generates an inference unit according to the data set and the problem.
  • step S4 the network generation unit 142 generates a learner by adding a loss function according to the problem to the inferr.
  • step S5 the presentation control unit 143 displays information on the default network on the screen of the network design support program, with the inference unit and the learning unit generated by the network generation unit 142 as the default network.
  • step S6 the network generation unit 142 changes the network presented by the presentation control unit 143 based on the user's operation.
  • step S7 in response to the instruction to execute learning, the learning execution unit 144 inputs data for learning included in the data set to the learning device to execute learning.
  • step S8 the learning execution unit 144 outputs the inferror obtained by performing learning to the outside, and ends the process.
  • the user can generate a network simply by specifying a data set including data for learning. Also, even if the problem is not estimated, the user can generate a network simply by specifying the problem and the data set.
  • the regression problem is the prediction of data assuming continuous values.
  • the network generated as an inferr becomes a predictor.
  • a user inputs data and wants to create a predictor that predicts another data (continuous value).
  • Such predictors include, for example, a predictor that inputs various information of real estate properties to predict (assess) the price of the real estate properties.
  • a predictor that predicts the position (coordinates) of a specific object from an image In addition to prediction of the price of a real estate property, a predictor that predicts the position (coordinates) of a specific object from an image, a predictor that estimates the position of a sound source from speech, a predictor that predicts other sensor values from sensor data, etc. There is.
  • the user gives such data and correct value (label) to the network design support program to make such a predictor by learning.
  • the user prepares data sets in advance.
  • the data set preferably includes a learning data set and an evaluation data set, but may be only the learning data set.
  • each data and a label are managed in association with each other.
  • a file in which a label corresponding to each data is recorded, and a file system in which a file of data and a file of label are stored are prepared as a data set.
  • Execution The user specifies a learning data set and instructs the system (network design support program) to design a predictor.
  • the system network design support program
  • the problem that the user is trying to solve is estimated to be a regression problem, and a classic predictor and a classic learner in the regression problem are generated.
  • a standard learner is generated by adding a standard loss function to a standard predictor.
  • the structure of a classic predictor is identified based on the domain of data used for prediction.
  • the domain of data used for prediction is estimated based on the extension of a file included in the training data set.
  • the domain may be input by the user.
  • the classic loss function is identified based on the problem that one is trying to solve is a regression problem.
  • Automatically generated classic predictors and classic learners display images that show the modular structure of the network by displaying the network source code on a display or as described with reference to FIG. It is presented to the user by displaying on the screen.
  • the user instructs the execution of learning to the presented network by making changes (for example, change based on prior knowledge, trial and error based on evaluation) as necessary.
  • learning is performed using a learning data set to generate a predictor. Finally, the user provides the predictor obtained by learning to the outside.
  • FIG. 8 is a diagram showing a first example of the data set.
  • a data ID is set to data of each sample, and labels of continuous values are managed in association with each other.
  • Each data is composed of the values of each item such as item 1, item 2, item 3 and so on.
  • the items are data that contribute to price determination, such as distance from the station, the number of floors, and age, and the label is a value representing the contract price (for example, a decimal value ).
  • the learning data set can be configured by one file in which the data and the label are put together.
  • the system estimates that the problem that the user is trying to solve is a regression problem based on, for example, that the labels are not integer values.
  • the user may specify that the problem to be solved is a regression problem.
  • the domain of data is identified as an item based on the fact that each item of data includes the value of the item.
  • FIG. 9 is a diagram illustrating a second example of the data set.
  • files of the file names “data_0”, “data_1”, “data_2”, “data_3”, and “data_4” are stored in the “ForTraining” directory as learning data sets.
  • Each file is a file such as an image or music.
  • a file of labels is also saved.
  • "ForTest" directory files constituting the evaluation data set are stored.
  • the learning data set can be configured by the file system that stores the file associated with the label.
  • the system estimates that the problem that the user is trying to solve is a regression problem based on the structure of the file system. For example, a file system having a structure indicating that it is a regression problem is prepared as a training data set. The user may specify that the problem to be solved is a regression problem.
  • wav and mp3 are music
  • png, jpeg and bmp are still images
  • mp4 and wmv are moving pictures
  • txt is text and so on.
  • Data domains are identified based on file extensions.
  • FIG. 10 shows an example of a predictor and a learner.
  • the predictor is configured to include classic predictors in the regression problem.
  • the standard predictor is constructed by overlaying all bonding layers (Affine layer), activation layer (Relu layer), and all bonding layers (Affine layer) in order from the top.
  • the network of standard predictors has an input layer (x) and an output layer (z).
  • the learning device is configured by adding a layer of a squared error function to a standard predictor.
  • the parameters of the classic predictor in the predictor shown surrounded by the bold line L1
  • the parameters of the classic predictor in the learner shown surrounded by the bold line L2
  • the linear layer is the convolution layer or the total combination layer is selected according to the domain of the identified data. For example, if the domain of the data is image or audio, then the convolutional layer is selected, and if it is an item or text, then the entire combined layer is selected.
  • FIG. 10 shows an example of a default network when the domain of data is an item or text.
  • networks such as Lenet and Resnet, including convolutional layers, can be employed as classic predictors. Also, if the domain of data is an item or text, it is possible to adopt a network that includes the Embed layer as a classic predictor.
  • the Resnet is disclosed in the following document. -Deep Residual Learning for Image Recognition ⁇ https://arxiv.org/abs/1512.03385>
  • Predictors and learners as shown in FIG. 10 are automatically generated and presented to the user as the default network. Information on the two networks may be presented side by side or may be presented separately. In the network presentation screen, a message prompting a design change may be displayed near the standard predictor, such as "Please modify here.”
  • Classification problem is to classify input data into a category to which it belongs. Classification problems are divided into binary classification problems in which the number of classes is two and multi-valued classification problems in which the number of classes is three or more. The network generated as an inferr becomes a classifier.
  • a user inputs data and wants to create a classifier that classifies a category (discrete value) to which the data belongs.
  • a classifier there are, for example, a classifier for inputting an image in which a flower is photographed, a classifier for classifying each flower type, and a classifier for inputting an image in which an animal is photographed and classified for each animal type.
  • the user gives such data and label to the network design support program and makes such a classifier by learning.
  • the user prepares data sets in advance.
  • the data set preferably includes a learning data set and an evaluation data set, but may be only the learning data set.
  • each data and a label are managed in association with each other.
  • a file in which a label corresponding to each data is recorded, and a file system in which a file of data is stored in advance in a form classified in each label are prepared as a data set.
  • Execution The user specifies a training data set and instructs the system to design a classifier.
  • the problem that the user is trying to solve is estimated to be a classification problem, and a classic classifier and a classic learner in the classification problem are generated.
  • a standard learner is generated by adding a standard loss function to a standard classifier.
  • the structure of a classic classifier is identified based on the domain of data used for classification.
  • the domain of data used for classification is estimated based on the extension of the file included in the training data set.
  • the domain may be input by the user.
  • the classic loss function is identified based on the problem that one is trying to solve is a classification problem.
  • Automatically generated classic classifiers and classic learners are presented to the user by displaying the source code of the network on the display or by displaying an image showing the module configuration of the network on the screen .
  • the user makes changes to the presented network as needed, and instructs execution of learning.
  • learning is performed using a learning data set to generate a classifier. Finally, the user provides the classifier obtained by learning to the outside.
  • FIG. 11 is a diagram illustrating a first example of the data set.
  • a data ID is set to the data of each sample, and labels of discrete values are managed in association with each other.
  • Each data is composed of the values of each item such as item 1, item 2, item 3 and so on.
  • the item is data that characterizes the type of flower, such as the number of stamens and the number of petals, and the label is an integer value that represents the type of flower .
  • the learning data set can be configured by one file in which the data and the label are put together.
  • the system estimates that the problem that the user is trying to solve is a classification problem based on, for example, that the label is an integer value.
  • the user may specify that the problem to be solved is a classification problem.
  • the number of categories to be classified is also estimated based on the training data set.
  • FIG. 12 is a diagram showing a second example of the data set.
  • the directories “label_0”, “label_1”, and “label_2” represent labels of data of files stored in the respective directories.
  • the learning data set can be configured by the file system which stores the files by classifying the directories representing the labels.
  • the problem the user is trying to solve is a classification problem based on the structure of the file system, and the number of categories is three. Be done.
  • the user may specify that the problem to be solved is a classification problem.
  • the domain of data is identified based on the file extension.
  • FIG. 13 is a diagram showing an example of a classifier and a learner in a binary classification problem.
  • the classifiers are configured to include classic classifiers in binary classification problems.
  • a standard classifier is constructed by superposing, in order from the top, all bonding layers (Affine layers), activation layers (Relu layers), and all bonding layers (Affine layers).
  • a Sigmoid function is set to obtain an output representing soft binary classification (probability).
  • An input layer (x) and an output layer (z) are added to the network of standard classifiers.
  • the learning device # 1 is configured by adding a layer of the Sigmoid function and a layer of the BinaryCE (binary cross entropy) function to a standard classifier.
  • the learning device # 2 is configured by adding a layer of the SigmoidCE function to a standard classifier.
  • a layer of the SigmoidCE function to a standard classifier.
  • the parameters of the standard classifier in the classifier shown by the bold line L11 and the parameters of the standard classifier in the learner shown by the bold lines L12 and L13 are shared. If the parameters of the learner are updated by learning, the parameters of the classifier are also updated.
  • a standard classifier is provided with a layer of Sigmoid function and BinaryCE function or a layer of SigmoidCE function as a learner.
  • the linear layer is the convolution layer or the total combination layer is selected according to the domain of the identified data. For example, if the domain of the data is image or audio, then the convolutional layer is selected, and if it is an item or text, then the entire combined layer is selected.
  • a classifier and learners # 1 and # 2 as shown in FIG. 13 are automatically generated and presented to the user as a default network. Information on the three networks may be presented side by side or may be presented separately. On the network presentation screen, a message prompting a design change may be displayed near the standard classifier, such as "Please modify here.”
  • FIG. 14 is a diagram showing an example of a classifier and a learning device in the multi-value classification problem.
  • the classifier is configured to include classic classifiers in multi-valued classification problems.
  • a standard classifier is constructed by superposing, in order from the top, all bonding layers (Affine layers), activation layers (Relu layers), and all bonding layers (Affine layers).
  • the Softmax function is set to obtain an output representing soft multi-valued classification (probability).
  • An input layer (x) and an output layer (z) are added to the network of standard classifiers.
  • the learning device # 1 is configured by adding a layer of a Softmax function and a layer of a Categorical CE (categorical cross function) function under a standard classifier.
  • the learning device # 2 is configured by adding a layer of the SoftmaxCE function under a standard classifier.
  • the layer of the SoftmaxCE function it is possible to use the layer of the SoftmaxCE function as the final layer instead of the layers of the Softmax function and the CategoricalCE function.
  • the parameters of the standard classifier in the classifier shown by the heavy line L21 and the parameters of the standard classifier in the learning device shown by the heavy lines L22 and L23 are shared. If the parameters of the learner are updated by learning, the parameters of the classifier are also updated.
  • a standard classifier is provided with a layer of Softmax function and CategoricalCE function or a layer of SoftmaxCE function as a learning device.
  • the linear layer is the convolution layer or the total combination layer is selected according to the domain of the identified data. For example, if the domain of the data is image or audio, then the convolutional layer is selected, and if it is an item or text, then the entire combined layer is selected.
  • a classifier and learners # 1 and # 2 as shown in FIG. 14 are automatically generated and presented to the user as a default network. Information on the three networks may be presented side by side or may be presented separately. On the network presentation screen, a message prompting a design change may be displayed near the standard classifier, such as "Please modify here.”
  • FIG. 15 is a diagram summarizing the design of the network constant used in the regression problem and the classification problem as described above.
  • the network generation unit 142 of FIG. 6 has information on the design of such a common stone.
  • the type of label is a continuous value (if the value of the label is a fractional value), then it is presumed that the regression problem is to be solved and a squared error function is selected as the loss function.
  • the label type is discrete binary (if the label value is two integer values), it is presumed that you are trying to solve a binary classification problem, and as a loss function, a combination of Sigmoid function and BinaryCE function Or SigmoidCE function is selected.
  • the label type is discrete multi-value (if the label value is an integer value of 3 or more types)
  • the loss function is that of the Softmax function and Categorical CE function A combination or SoftmaxCE function is selected.
  • the linear layer is to be the convolution layer or the total combination layer is selected according to the domain of the identified data.
  • the convolution layer is selected if the domain of the data is image or voice, and the entire combined layer is selected if it is text or item.
  • a network including a convolutional layer selected according to the domain of data, or a network including an entire combined layer is automatically generated as a standard reasoner and presented to the user.
  • Metric learning is learning that estimates a method of embedding data in a feature space.
  • the network generated as an inferr becomes a feature extractor.
  • a user inputs data and wants to create a feature extractor that projects onto a feature space.
  • the feature extractor is used, for example, in an application that performs matching between data registered in advance and input data (determination as to whether the data is the same data or different data).
  • the feature extractor By using the feature extractor, for example, when an image of handwritten number “2” is input without a label, it is possible to select an image of “2” whose thickness, inclination, etc. are close. In addition, identification, authentication, and tracking of a predetermined object, which will be described later, become possible.
  • the user provides such data and labels to the network design support program and makes such a feature extractor by performing metric learning.
  • the user prepares data sets in advance.
  • the data set preferably includes a learning data set and an evaluation data set, but may be only the learning data set.
  • each data and a label are managed in association with each other.
  • Execution The user specifies a learning data set and instructs the system to design a feature extractor.
  • metric learning is performed, and a standard feature extractor and a standard learner in metric learning are generated.
  • a classic learner is created by adding a classic loss function to a network that includes a classic feature extractor.
  • the structure of a standard feature extractor is identified based on the domain of data used for feature extraction.
  • the domain of data used for feature extraction is estimated based on the extension of a file included in the training data set.
  • the domain may be input by the user.
  • the classic loss function is identified based on the fact that the learning method is metric learning.
  • the losses in metric learning include Siamese loss and Triplet loss.
  • the loss used in the Siamese network is referred to as the Siamese loss for convenience, in order to write in contrast to the Triplet loss.
  • the system may select which of the Siamese loss and the Triplet loss to use, or may allow the user to select.
  • Automatically generated classic feature extractors and classic learners are presented to the user by displaying the network source code on a display or by displaying an image showing the network module configuration on the screen Ru.
  • the user makes changes to the presented network as needed, and instructs execution of learning.
  • learning is performed using a learning data set to generate a feature extractor.
  • the user provides the feature extractor obtained by learning to the outside.
  • FIG. 16 is a diagram showing an example of a feature extractor and a learner using a Siamese loss. Metric learning when using Siamese loss is performed using a learner configured as a Siamese network.
  • the feature extractor is configured to include a standard feature extractor.
  • the standard feature extractor is constructed by superposing, in order from the top, an all bonding layer (Affine layer), an activation layer (Relu layer), and an all bonding layer (Affine layer).
  • An input layer (x) and an output layer (z) are added to the standard feature extractor network.
  • a Siamese network is generated as a learning device.
  • the Siamese network is constructed by juxtaposing two classic feature extractors with different inputs, in parallel.
  • the combination of the data x_0 input to the standard feature extractor enclosed by a thick line L32 and the data x_1 input to the standard feature extractor enclosed by a thick line L33 may be random, but the combination of the same labels is sufficient It is desirable that randomness be controlled, as it appears in
  • the Siamese network is constructed by adding a layer of total bonding layer (Affine layer) and a SigmoidCE function under two standard feature extractors. Data representing the position in the feature space of each of the data x_0 and the data x_1 is input to the entire connection layer.
  • Affine layer a layer of total bonding layer
  • SigmoidCE function a SigmoidCE function
  • the label (Same / Different) input to the layer of the Sigmoid CE function indicates whether or not the labels of the data x_0 and the data x_ are the same. For example, when the value given as a label is 0, it indicates that the labels of the data x_0 and the data x_1 are the same, and when it is 1, it indicates that the labels of the data x_0 and the data x_1 are different.
  • the parameters of the standard feature extractor in the feature extractor shown by the bold line L31 and the parameters of the standard feature extractor in the Siamese network shown by the bold lines L32 and L33 are shared. If the parameters of the Siamese network are updated by learning, then the parameters of the feature extractor are updated as well.
  • Metric learning by the Siamese network is such that the distance (
  • the Siamese network is a standard network that constitutes a learning device.
  • the linear layer is the convolution layer or the total combination layer is selected according to the domain of the identified data. For example, if the domain of the data is image or audio, then the convolutional layer is selected, and if it is an item or text, then the entire combined layer is selected.
  • Feature extractors and learners as shown in FIG. 16 are automatically generated and presented to the user as a default network. Information on the two networks may be presented side by side or may be presented separately. In the network presentation screen, a message prompting a design change may be displayed near the standard feature extractor, such as "Please modify here.”
  • FIG. 17 is a diagram showing an example of a feature extractor and a learner using Triplet loss. Metric learning when using Triplet loss is performed using a learner configured as a Triplet network.
  • the feature extractor shown on the left side of FIG. 17 is the same as the feature extractor of FIG.
  • a Triplet network is generated as a learning device.
  • the Triplet network is constructed by juxtaposing three classic feature extractors with different inputs.
  • the same label is set as, for example, label_0 or label_1, data x_0 input to the standard feature extractor enclosed by thick line L42 and data x_1 input to the standard feature extractor enclosed by thick line L43. It is data of different samples.
  • Data x_0 is randomly selected from the training data set.
  • the data x_2 input to the standard feature extractor shown surrounded by a thick line L44 is data in which a label different from the data x_0 is set.
  • the Triplet network is constructed by adding an entire combined layer (Affine layer) under each of the three standard feature extractors. Data representing the position in the feature space of each of the data x_0, the data x_1, and the data x_2 is input to the entire combined layer.
  • the Triplet loss is a loss that becomes smaller as the distance between the data x_0 of the same label and the data x_1 becomes smaller, and becomes smaller as the distance between the data x_0 of another label and the data x_2 becomes larger.
  • the Triplet loss is expressed by the following equation (4). (Alpha) of Formula (4) is a parameter called a margin, for example, 1 is set.
  • the parameters of the standard feature extractor in the feature extractor shown by the bold line L41 and the parameters of the standard feature extractor in the Triplet network shown by the bold lines L42, L43, L44 are shared.
  • the parameters of the Triplet network are updated by learning, the parameters of the feature extractor are also updated.
  • the Triplet network is a standard network that constitutes a learning device.
  • the linear layer is the convolution layer or the total combination layer is selected according to the domain of the identified data. For example, if the domain of the data is image or audio, then the convolutional layer is selected, and if it is an item or text, then the entire combined layer is selected.
  • Feature extractors and learners as shown in FIG. 17 are automatically generated and presented to the user as a default network. Information on the two networks may be presented side by side or may be presented separately. In the network presentation screen, a message prompting a design change may be displayed near the standard feature extractor, such as "Please modify here.”
  • metric learning using Siamese / Triplet network
  • predetermined data such as image and voice are registered first, and whether newly input data is identical to registered data It becomes possible to determine whether or not.
  • Such techniques are used, for example, in face identification applications and object tracking applications.
  • Face identification identifies a person by collating the input face image with a list of face images registered in advance. By learning, a feature extractor is constructed using features of the face that contribute to determining whether the same person or another person.
  • the face identification using metric learning is disclosed, for example, in the following document. DeepFace-Closing the Gap to Human-Level Performance in Face Verification, Taigman ⁇ https://research.fb.com/publications/deepface-closing-the-gap-to-human-level-performance-in-face-verification /> -Triplet Similarity Embedding for Face Verification, Sankaranarayanan ⁇ https://arxiv.org/abs/1602.03418>
  • the object tracking is to detect an object specified in the first frame of the frames constituting the moving image from the subsequent frames.
  • Object tracking using metric learning is disclosed, for example, in the following document. -Fully-Convolutional Siamese Networks for Object Tracking, Bertinetto ⁇ https://arxiv.org/abs/1606.09549>
  • the Triplet network is disclosed, for example, in the following document. Deep metric learning using Triplet network, Hoffer ⁇ https://arxiv.org/abs/1412.6622>
  • a network generated as an inference machine is a predictor if the problem to be solved is a regression problem, and a classifier if it is a classification problem. Descriptions overlapping with those described above for the regression problem and the classification problem will be omitted as appropriate.
  • the user provides the network design support program with labeled data and unlabeled data, and performs semi-teaching to create a predictor or classifier.
  • the user prepares data sets in advance.
  • the data set preferably includes a learning data set and an evaluation data set, but may be only the learning data set.
  • the training data set includes both a labeled data set in which a label is associated with each data and a non-labeled data set in which a label is not associated.
  • the evaluation data set includes a labeled data set.
  • a file system in which a file pair of a labeled data set and a file of a non-labeled data set, a file of a labeled data set and a file of a non-labeled data set are stored separately is prepared as a data set.
  • Execution The user specifies the learning data set and instructs the system to design the network. In the system, it is estimated that semi-supervised learning is performed from a training data set. Furthermore, in the system, it is estimated whether the problem the user is trying to solve is a regression problem or a classification problem.
  • a classic predictor and a classic learner for solving the regression problem are generated.
  • a standard learner is generated by adding a standard loss function to a standard predictor.
  • a classic classifier and a classic learner for solving the classification problem are generated.
  • a standard learner is generated by adding a standard loss function to a standard classifier.
  • the automatically generated standard network is presented to the user by displaying the source code of the network on a display or by displaying an image showing the module configuration of the network on a screen.
  • the user makes changes to the presented network as needed, and instructs execution of learning.
  • semi-supervised learning is performed using a training data set to generate a predictor or classifier.
  • the user provides the predictor or classifier obtained by learning to the outside.
  • FIG. 18 is a diagram illustrating a first example of the data set.
  • a labeled data set and an unlabeled data set are prepared.
  • the labeled data set shown on the left side is the same as the data set shown in FIG. 8, and labels are managed in association with each data.
  • the unlabeled data set shown on the right side no label is included.
  • the system When a training data set as shown in FIG. 18 is input, the system performs semi-teaching learning based on the inclusion of a labeled data set and a non-labeled data set in the training data set. Is estimated.
  • the problem that the user is trying to solve is estimated to be a regression problem based on the fact that the label is not an integer value.
  • the user may specify the problem to be solved.
  • FIG. 19 is a diagram illustrating a second example of the data set.
  • the labeled data set shown on the left is the same as the data set of FIG.
  • each file is stored in a directory representing a label.
  • the unlabeled data set shown on the right side is the same as the data set of FIG.
  • each file is stored in a "ForTraining" directory, not divided into directories representing labels.
  • a semi-teacher is based on the fact that the file system for labeled data set and the file system for unlabeled data set are included in the training data set. It is estimated that learning will be performed.
  • the problem that the user is trying to solve is estimated to be a classification problem.
  • the user may specify the problem to be solved.
  • FIG. 20 is a diagram showing an example of a classifier and a learning device.
  • a classifier is generated, as shown on the left side of FIG.
  • the classifiers are configured to include classic classifiers.
  • a standard classifier is constructed by superposing, in order from the top, all bonding layers (Affine layers), activation layers (Relu layers), and all bonding layers (Affine layers).
  • the Softmax function is set to obtain an output representing soft multi-valued classification.
  • An input layer (x) and an output layer (z) are added to the network of standard classifiers.
  • the classifier shown in FIG. 20 is the same network as the classifier in FIG. 14 used in the multi-value classification problem. If the problem to be solved is a binary classification problem, instead of the layer of the Softmax function, a layer of the Sigmoid function is set as described with reference to FIG.
  • two learners that is, a labeled data learner and an unlabeled data learner, are generated.
  • the learners in semi-supervised learning are separate networks for labeled and unlabeled data.
  • the labeled data learning device is the same as the learning device # 2 of FIG.
  • a labeled data learner is constructed by adding a layer of SoftmaxCE function to a standard classifier.
  • the unlabeled data learning device is configured as a network called VAT (Virtual Adversalial Training).
  • the VAT is disclosed, for example, in the following document. "" Distributional Smoothing with Virtual Adversalial Training, Miyato " ⁇ https://arxiv.org/abs/1507.00677>
  • a network of VAT which is a learning device for unlabeled data, is a network in which regular classifiers are arranged in parallel in the same manner as the Siamese network, and loss is KL (KLMultinomial) for multinomial distribution.
  • the data x is input to a standard classifier shown surrounded by a thick line L53, and the noise n is input together with the data x to a standard classifier shown surrounded by a thick line L54.
  • Semi-supervised learning using VAT is performed so as to obtain a parameter that makes the probability distribution of data x and the probability distribution of data x to which noise n is added smooth.
  • the parameters of the standard classifier in the classifier shown by the heavy line L51 and the parameters of the standard classifier in the learning device shown by the heavy lines L52, L53, L54 are shared. If the parameters of the learner are updated by learning, the parameters of the classifier are also updated.
  • the same learner as learner # 2 in FIG. 14 is used as the learner for labeled data, and the learner including the VAT network is unlabeled data. It is a learning device for
  • a classifier and learner as shown in FIG. 20 are automatically generated and presented to the user as the default network. Information on the three networks may be presented side by side or may be presented separately. On the network presentation screen, a message prompting a design change may be displayed near the standard classifier, such as "Please modify here.”
  • noise n is required for learning using a VAT network.
  • a noise calculation network which is a network for generating noise n, is also automatically generated along with the three networks shown in FIG. 20 and presented to the user.
  • FIG. 21 is a diagram illustrating an example of a noise calculation network.
  • the noise calculation network is a network that diverts a Siamese network for unlabeled data.
  • the parameters of the classic classifier in the noise calculation network shown by bold lines L61 and L62, are shared with the parameters of the classic classifier of FIG.
  • the noise is determined from the loss of the Siamese network for unlabeled data by back propagating the gradient for the noise. In this back propagation, settings are made so as not to update the parameters of the intermediate layer.
  • the noise obtained by such a noise calculation network is input to the unlabeled data learning device shown in FIG. 20 and is used to calculate the loss.
  • a network used to calculate noise required for an unlabeled data learning device is also automatically generated as a default network.
  • FIG. 22 shows an example of a predictor and a learner.
  • a predictor is generated, as shown on the left side of FIG.
  • the predictor is configured to include a classic predictor.
  • the standard predictor is constructed by overlaying all bonding layers (Affine layer), activation layer (Relu layer), and all bonding layers (Affine layer) in order from the top.
  • the network of standard predictors has an input layer (x) and an output layer (z).
  • the predictor shown in FIG. 22 is the same network as the predictor in FIG. 22
  • two learners that is, a labeled data learner and an unlabeled data learner, are generated.
  • the two learners shown in FIG. 22 are the same as the learners for labeled data and the unlabeled data shown in FIG. 20 except that the loss function is changed to a squared error function for regression problems. .
  • the labeled data learning device of FIG. 22 is configured by adding a layer of a squared error function to the final layer of a standard predictor.
  • the labeled data learner is the same as the learner of FIG.
  • VAT which is a learning device for unlabeled data
  • the data x is input to a standard predictor illustrated by a thick line L73, and the noise n is input to the standard predictor illustrated by a thick line L74 together with the data x.
  • the noise calculation network used to calculate the noise n is the same as the network described with reference to FIG.
  • the parameters of the standard predictor in the predictor shown by the bold line L71 and the parameters of the standard predictor in the learner shown by the bold lines L72, L73, L74 are shared. If the parameters of the learner are updated by learning, the parameters of the predictor are also updated.
  • the learning device described with reference to FIG. 10 is the learning device for unlabeled data, and the learning device including the VAT network is for unlabeled data. And a learner.
  • the predictors and learners as shown in FIG. 22 and the noise calculation network of FIG. 21 are automatically generated and presented to the user as a default network. Information on each network may be presented side by side or may be presented separately. In the network presentation screen, a message prompting a design change may be displayed near the standard predictor, such as "Please modify here.”
  • Generation model > 3-5-1. Flow of Learning of Generation Model (1) Assumption It is assumed that the user has data of a desired domain to generate, and wants to create a generator (generation model) that inputs random numbers and generates pseudo data.
  • the user provides such a generator by providing a learning data set to the network design support program and causing it to perform learning.
  • a variational auto encoder VAE
  • VAE Variational auto encoder
  • GAN generative adversary network
  • the user prepares in advance a learning data set consisting of data of the domain to be generated.
  • Each piece of data in the training data set may be unlabeled, but it is desirable that the data be narrowed to a certain extent.
  • Execution The user specifies a learning technology (learning using VAE, learning using GAN, etc.), and instructs the system to design a generator.
  • the system may estimate that the user is about to create a generator based on the training data set. In this case, it is not necessary to direct the design of the generator.
  • a classic learner is created by adding a classic additional network and a loss function to a classic generator.
  • the structure of the classic generator is identified based on the domain of the training data set.
  • the domain of the data is estimated based on the extension of the file included in the training data set.
  • the domain may be input by the user.
  • Automatically generated classic generators and classic learners are presented to the user by displaying the source code of the network on the display or by displaying an image showing the module configuration of the network on the screen .
  • the user makes changes to the presented network as needed, and instructs execution of learning.
  • learning is performed using a learning data set to generate a generator.
  • the user provides the generator obtained by learning to the outside for application to an application, etc.
  • FIG. 23 is a diagram showing an example of a generator and a learner using a VAE.
  • the generator includes a standard generator, and is configured as a network that inputs data z which is a random number (and additional information) and outputs data x which is pseudo data.
  • a standard generator is constructed by superimposing, in order from the top, an all bonding layer (Affine layer), an activation layer (Relu layer), and a deconvolution layer (Deconvolution layer).
  • a sampling layer is set in a standard classifier.
  • the learning device is configured as a network of variational auto encoders.
  • a network enclosed by a broken line L82 is a network on the encoder side, and a network enclosed by a thick line L83 is a network on the decoder side.
  • the network on the encoder side is an inference model, which has different parameters from those of the standard generator shown by thick line L81.
  • the output of the encoder side network is connected to the KL distance loss network, and is also connected to the decoder side network via the sampling layer.
  • the network on the decoder side is the same as a standard generator shown surrounded by a thick line L81.
  • the parameters of the decoder side of the network are shared with the parameters of the classic generator.
  • the loss added to the decoder side network is the likelihood based on the parameters of the data distribution.
  • the KL distance loss which is the loss of the output of the network on the encoder side
  • the likelihood which is the loss of the output of the network on the decoder side
  • Generators and VAE learners as shown in FIG. 23 are automatically generated and presented to the user as the default network. Information on the two networks may be presented side by side or may be presented separately. On the network presentation screen, a message prompting a design change may be displayed near the standard generator, such as "Please modify here.”
  • FIG. 24 is a diagram showing an example of a generator and a learning device using GAN.
  • the generator shown on the left side of FIG. 24 is the same as the generator of FIG. 23 except that the sampling layer is not provided.
  • the learning device # 1 has a network as a discriminator configured by overlapping a convolution layer (Convolution layer), an activation layer (Relu layer), and an entire bonding layer (Affine layer). Below the discriminator, a layer of SigmoidCE functions is provided below the discriminator. The learning by the learning device # 1 is performed such that the input data x is determined as true data.
  • the learning device # 2 is configured by providing the same generator (the network indicated by a broken line L94) as the discriminator of the learning device # 1 under the generator, with the standard generator shown surrounded by a thick line L93 as the generator. Ru. Below the discriminator, a layer of SigmoidCE functions is added.
  • Data z which is a random number is input to the generator, and pseudo data x 'is output.
  • the pseudo data x 'output from the generator is input to the discriminator.
  • the learning by the learning device # 2 is performed such that the pseudo data x 'output from the generator is determined as false data.
  • the parameters of the standard generator in the generator shown by the bold line L91 and the parameters of the generator at the learning device # 2 shown by the bold line L93 are shared. If the parameters of the generator are updated by learning, the parameters of the generator will be updated as well. Further, the parameters of the discriminator in the learning device # 1 shown by the dashed line L92 and the parameters of the discriminator in the learning device # 2 shown by the dashed line L94 are shared.
  • GAN is configured to include a network as a generator and a network as a discriminator.
  • Generators and learners # 1 and # 2 as shown in FIG. 24 are automatically generated and presented to the user as a default network. Information on the three networks may be presented side by side or may be presented separately. On the network presentation screen, a message prompting a design change may be displayed near the standard generator and discriminator, such as "Please modify here.”
  • the VAE network of FIG. 23 or the GAN network of FIG. 24 is automatically generated. It may be possible for the user to select which network is to be automatically generated.
  • step S2 of FIG. 7 The problem estimation process performed in step S2 of FIG. 7 will be described with reference to the flowchart of FIG.
  • step S51 the problem estimation unit 141 determines whether or not the description of the problem to be solved is included in the data set acquired in step S1. For example, if the data set contains a file that specifies a problem that the user is trying to solve, and the file system structure of the data set is a structure that specifies a specific problem, etc., a description of the problem you want to solve Is determined to be included.
  • step S51 If it is determined in step S51 that the description of the problem to be solved is included in the data set, the process returns to step S3 in FIG. 7 and the subsequent processing is performed. In step S3, an inferr is generated according to the problem specified by the data set.
  • step S51 when it is determined in step S51 that the description of the problem to be solved is not included in the data set, the problem estimation unit 141 confirms the structure of the learning data set in step S52.
  • step S53 the problem estimation unit 141 tries to solve the problem that the user is trying to solve using the generative model. It is determined that
  • the problem estimation unit 141 determines that the problem that the user is trying to solve is a problem using semi-supervised learning in step S54. judge. Whether you are going to solve a regression problem using semi-supervised learning or you are going to solve a classification problem is determined based on the type of label as described above.
  • step S55 the problem estimating unit 141 estimates that the problem is a problem using supervised learning.
  • step S56 the problem estimation unit 141 determines whether the label of the evaluation data set includes a label that is not included in the learning data set.
  • the label included in the evaluation data set and the label included in the learning data set are compared, and it is determined whether the labels included in both data sets are the same.
  • step S57 the problem estimation unit 141 uses metric learning to solve the problem that the user is trying to solve Determine as a problem. For example, when the feature extractor obtained by metric learning is used for the face identification application described above, the range of the person ID (label) included in the evaluation data set and the range of the person ID included in the learning data set are It will be a different range.
  • the data included in the learning data set may be a moving image file, and the label may be determined as metric learning when the position (area) of the object is specified.
  • step S58 the problem estimation unit 141 determines whether the problem that the user is trying to solve is a regression problem or Determine as a classification problem. As described above, which of the regression problem and the classification problem is determined is determined based on the type of label.
  • the label of the evaluation data set does not include any label not included in the learning data set. It is judged as a thing.
  • step S59 the problem estimating unit 141 estimates that the problem is learning using time-series data.
  • the learning using time series data will be described later.
  • the problem the user is trying to solve is any of a problem using a generative model, a problem using semi-supervised learning, a problem using metric learning, a regression problem, a classification problem, and a learning problem using time-series data
  • the process proceeds to step S60.
  • step S60 the presentation control unit 143 displays a message such as “Propose a network because you estimated it to be a problem” on the screen of the network design support program, and whether the result of the problem estimation is correct or not Check. For example, if the problem estimation result is incorrect, the correct problem is specified by the user.
  • step S3 of FIG. 7 After confirming whether the estimation result of the problem is correct, the process returns to step S3 of FIG. 7 and the subsequent processing is performed.
  • the system can estimate the problem that the user is trying to solve, so the user can easily design the network without having to specify the problem himself.
  • Time series data It is also possible to use data included in the training data set as time series data.
  • the data included in the learning data set is time-series data, processing similar to the above processing is performed using data (snapshot data) of each time constituting the time-series data.
  • the problem of learning using time-series data is processing using a network in which the above-described predictor, classifier, feature extractor, and generator are expanded in the time-series direction.
  • a network including default units called LSTM and GRU is used.
  • a classic inference unit and a classic learner according to the problem to be solved by learning using time series data are generated and presented to the user.
  • the network generated as the standard inference unit and the standard learning unit is the same network as the network corresponding to each problem described above.
  • the learning of the inferr is performed using snapshot data.
  • the network automatically generated by the system as the default network is not limited to the one described above.
  • the problem that the user is trying to solve is a regression problem
  • the problem the user is trying to solve is a classification problem
  • networks with other loss functions added can be generated as default networks. Also, networks with other structures can be created as default networks.
  • a network derived from these may be generated as a learner instead of the siamese network or the triplet network described above.
  • the problem to be solved is a regression problem or classification problem using semi-supervised learning, not the above described VAT network but a network derived from it may be generated as a learning device.
  • the problem to be solved is a problem using a generative model, a network derived from these may be generated as a learner rather than the network or GAN of the variational auto encoder described above.
  • the network design support program executed by the PC 1 may be a program that performs processing in chronological order according to the order described in this specification, or in parallel, or when necessary, such as when a call is made. It may be a program in which processing is performed.
  • the network design support program is executed on the PC 1, the network design support program is installed and the device to be executed is not limited to the PC. That is, the network design support program may be executed on a portable terminal such as a smartphone or a tablet terminal.
  • a system means a set of a plurality of components (apparatus, modules (parts), etc.), and it does not matter whether all the components are in the same case. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
  • each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
  • the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
  • the present technology can also be configured as follows.
  • a generation unit configured to generate a network for inference execution and a network for learning corresponding to the data set in response to specification of a data set including data for learning;
  • the program for functioning as a learning part which inputs the data for learning into the network for learning, and learns the network for inference execution.
  • the program according to (1) wherein the generation unit generates the inference execution network and the learning network having a structure according to a domain of the learning data.
  • the generation unit generates the inference execution network having a convolution layer and the learning network when the domain of the data for learning is an image or a voice, and the domain of the data for learning is an item or text.
  • the program according to (2) above which generates the network for inference execution and the network for learning that have all the coupled layers.
  • the generation unit generates the learning network by adding a loss function according to a problem to be solved by inference to the inference execution network, according to any one of (1) to (3). program.
  • the program according to (4) wherein the generation unit adds a squared error function when the problem is a regression problem, and adds a cross entropy function when the problem is a classification problem.
  • the generation unit may use a siamese network or a triplet network including a network sharing a parameter with the inference execution network, or a network derived from these networks.
  • the generation unit may use a VAT network including a network sharing a parameter with the inference execution network, or a network derived from the VAT network.
  • the program according to (4) which is generated as a learning network.
  • the generation unit is a network or a GAN of a variational auto encoder including a network sharing a parameter with the inference execution network, or a network derived from these.
  • the program according to (4) which is generated as the learning network.
  • the problem estimation unit estimates that the problem is a regression problem if the correctness labels in the data set are continuous values, and estimates that the problem is a classification problem if the correctness labels are discrete values.
  • the program described in. (11) The problem estimation unit is configured to calculate the problem when the data for learning and the data for evaluation are included in the data set and the value range of the correct answer label differs between the data for learning and the data for evaluation.
  • the problem estimation unit determines whether the problem is a regression problem or classification using semi-supervised learning.
  • the presentation control unit presents an image representing a module configuration of the inference execution network and the source code of the learning network, or the inference execution network and the learning network.
  • a generation unit configured to generate a network for inference execution and a network for learning corresponding to the data set in response to specification of a data set including data for learning;
  • An information processing apparatus comprising: a learning unit which inputs the data for learning to the learning network and performs learning of the inference execution network;

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本技術は、ネットワークの設計を容易に行うことができるようにするプログラム、情報処理方法、および情報処理装置に関する。 本技術の一側面のプログラムは、コンピュータを、学習用のデータを含むデータセットが指定されることに応じて、データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、学習用のデータを学習用ネットワークに入力し、推論実行用ネットワークの学習を行う学習部として機能させるためのプログラムである。本技術は、Deep Learningによるネットワークの設計を支援するプログラムに適用することができる。

Description

プログラム、情報処理方法、および情報処理装置
 本技術は、プログラム、情報処理方法、および情報処理装置に関し、特に、ネットワークの設計を容易に行うことができるようにしたプログラム、情報処理方法、および情報処理装置に関する。
 従来、Deep Learningのネットワーク(ニューラルネットワーク)の設計では、最終層やロス関数を、解きたい問題の種別に応じて設計者が決める必要があった。これらの設計には、例えば、回帰問題であれば二乗誤差を用いる、分類問題であればクロスエントロピーロスを用いる、などの定石と言えるような設計がある。
 設計の定石は、回帰問題・分類問題によるものに限られない。例えば、メトリック学習であれば、シャミーズ(Siamese)ネットワークやトリプレット(Triplet)ネットワークを用いるといった定石がある。また、生成モデルを作成するのであれば、その学習に変分オートエンコーダ(VAE(Variational Auto Encoder))やGAN(Generative Adversarial Network)を用いる、半教師学習であれば、VAT(Virtual Adversarial Training)を用いる、といった定石がある。
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems <URL: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45166.pdf>
 上述したようなロス関数の選択や学習ネットワークの構造の選択は、設計者の知識に依存するところが大きい。従って、知識がない設計者にとっては、それらの選択が、適切なネットワークを設計するための大きな障害となる。
 本技術はこのような状況に鑑みてなされたものであり、ネットワークの設計を容易に行うことができるようにするものである。
 本技術の一側面のプログラムは、コンピュータを、学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う学習部として機能させるためのプログラムである。
 本技術の一側面においては、学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークが生成され、前記学習用のデータを前記学習用ネットワークに入力して、前記推論実行用ネットワークの学習が行われる。
 本技術によれば、ユーザは、ネットワークの設計を容易に行うことができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係るプログラムを提供する提供システムの構成例を示す図である。 ネットワーク設計支援プログラムの表示画面の例を示す図である。 ネットワークの構造を示す図である。 学習の例を示す図である。 PCの構成例を示すブロック図である。 PCの機能構成例を示すブロック図である。 ネットワーク自動生成処理について説明するフローチャートである。 回帰問題におけるデータセットの第1の例を示す図である。 回帰問題におけるデータセットの第2の例を示す図である。 予測器と学習器の例を示す図である。 分類問題におけるデータセットの第1の例を示す図である。 分類問題におけるデータセットの第2の例を示す図である。 二値分類問題における分類器と学習器の例を示す図である。 多値分類問題における分類器と学習器の例を示す図である。 ネットワークの定石の設計をまとめて示す図である。 特徴抽出器とSiameseロスを用いた学習器の例を示す図である。 特徴抽出器とTripletロスを用いた学習器の例を示す図である。 メトリック学習におけるデータセットの第1の例を示す図である。 メトリック学習におけるデータセットの第2の例を示す図である。 分類器と学習器の例を示す図である。 ノイズ計算ネットワークの例を示す図である。 予測器と学習器の例を示す図である。 生成器とVAEを用いた学習器の例を示す図である。 生成器とGANを用いた学習器の例を示す図である。 図7のステップS2において行われる問題推定処理について説明するフローチャートである。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.ネットワークの自動生成機能
 2.PCの構成と動作
 3.各問題に応じたネットワークの具体例
 4.その他
<<1.ネットワークの自動生成機能>>
<1-1.ネットワーク設計支援プログラムについて>
 図1は、本技術の一実施形態に係るプログラムを提供する提供システムの構成例を示す図である。
 図1に示す提供システムは、PC1と提供サーバ2が、インターネットなどのネットワーク3を介して接続されることによって構成される。
 PC1は、例えば、Deep Learningのためのネットワークを設計する設計者が使用する装置である。PC1には、提供サーバ2が提供するプログラムがインストールされ、そのプログラムを用いてネットワークの設計が行われる。
 提供サーバ2が提供するプログラムは、ネットワークの設計を支援するためのプログラムである。以下、適宜、提供サーバ2が提供するプログラムをネットワーク設計支援プログラムという。
 ネットワーク設計支援プログラムには、ネットワークを設計するための各種のツールが用意されている。ネットワーク設計支援プログラムのユーザ(設計者)は、ネットワーク設計支援プログラムの機能を利用することにより、ネットワークの設計、学習、評価などを行うことができる。
 図2は、ネットワーク設計支援プログラムの表示画面の例を示す図である。
 ウィンドウ21の上方にはツールの選択に用いられるボタンが並ぶツールバーが表示され、その下に、選択領域21Aとモデル表示領域21Bが形成される。
 縦長帯状の選択領域21Aは、ネットワークを構成する各種のコンポーネントの選択に用いられる領域である。図2の例においては、各コンポーネントが、「IO」、「Loss」、「Parameter」、「Basic」、「Pooling」、「Activation」、「LoopControl」、・・・などのカテゴリ毎に分けて表示されている。
 例えば「Loss」のコンポーネントとして、「SquaredError」、「HuberLoss」、「BinaryCrossEntropy」、「SingmoidCrossEntropy」、「SoftmaxCrossEntropy」、「KLmultinominal」が用意されている。また、「Basic」のコンポーネントとして、「Affine」、「Convolution」、「Deconvolution」、「Embed」などの項目が用意されている。「Activation」のコンポーネントとして、「Tanh」、「Sigmoid」、「Abs」などの項目が用意されている。
 モデル表示領域21Bは、選択領域21Aに用意されているコンポーネントを用いて設計したネットワークの表示領域である。図2の例においては、「Input」、「Affine」、「Sigmoid」、「BinaryCrossEntropy」の各コンポーネントが順に選択されることによって、各コンポーネントを表すブロック31-1乃至31-4が重ねて表示されている。ブロック31-1乃至31-4は、入力層、線形層、活性化層、ロス関数層を含むネットワーク(学習器)を表す。
 学習用データセットを指定し、学習の実行をユーザが指示したとき、このネットワークを用いた学習が行われる。このように、ユーザは、選択領域21Aからコンポーネントを選択することでネットワークの設計を行うことができる。
 ネットワーク設計支援プログラムには、ネットワークを用いた推論によってユーザが解こうとしている問題と、ユーザが指定したデータセットに基づいて、ネットワークを自動的に構築する機能が搭載されている。ネットワーク設計支援プログラムには、問題の種類とデータセットの内容に応じた、ネットワークの設計の定石に関する情報が設定されている。
 ここで、問題には、例えば以下のような種類の問題が含まれる。
 (1)回帰問題
 (2)分類問題
 (3)メトリック学習(メトリック学習の結果を用いた特徴抽出)
 (4)半教師学習(半教師学習の結果を用いた回帰・分類問題)
 (5)生成モデル(生成モデルを用いたデータの生成)
 このような問題が、ユーザにより指定されることによってネットワーク設計支援プログラムに与えられる。後述するように、データセットなどに基づいてネットワーク設計支援プログラムにより推定されるようにすることも可能である。ユーザが解こうとしている問題の推定がネットワーク設計支援プログラムにより行われる場合、データセットをユーザが指定するだけで、データセットに応じたネットワークが自動的に生成されることになる。
 データセットは、学習用データセットと評価用データセットから構成される。データセットが学習用データセットのみからなり、評価用データセットが含まれないこともある。データセットには、例えば以下のようなドメインのデータが含まれる。
 (1)画像(動画、静止画)
 (2)音声
 (3)項目
 (4)テキスト
 なお、センサデータは、音声と同じドメインのデータとして扱われる。加速度センサ、ジャイロセンサ、温度センサ、湿度センサ、生体センサ(心拍センサ、血圧センサなど)などの各種のセンサにより測定されたセンサデータも、ネットワークの学習などに用いられる。
 定石の設計によって自動的に生成されたネットワークは、図2に示すような画面によってユーザに提示される。ユーザは、提示されたネットワークに変更を適宜加えて、所望のネットワークを設計することができる。ネットワーク設計支援プログラムが自動的に生成し、ユーザに提示するネットワークは定番のネットワークであり、それに変更を加えることで所望のネットワークの設計が行われることになる。
 このように、解きたい問題とデータセットをインタフェースを介して指定するだけで定番のネットワークを得ることができるため、ユーザは、ネットワークの設計に要する時間を大幅に短縮することができる。
 また、ユーザは、ネットワークの設計に関する知識が少ない場合であっても、ネットワークを容易に設計することが可能になる。
<1-2.ネットワークについて>
 ここで、ネットワークの基本的な事項について説明する。
 図3は、ネットワークの構造を示す図である。
 図3の上段に示すように、ニューラルネットワークは、線形層と活性化層を重ね、入力層と出力層を付加することによって構成される。図3の例においては、三層のニューラルネットワークが示されている。
 線形層は、変数(ベクトル)の線形変換を行う層である。線形層に対する入力をx、各入力に対する重みをwとすると、出力yは、下式(1)のような、各入力に重みを掛け、バイアスbを足した値として表される。重みwが、学習により最適化する対象のパラメータとなる。
Figure JPOXMLDOC01-appb-M000001
 活性化層は、変数の非線形変換を行う層である。活性化層には、学習するパラメータがない(ことが多い)。活性化関数の1つであるSigmoid関数は、下式(2)により表される。
Figure JPOXMLDOC01-appb-M000002
 図2のブロック31-1乃至31-4は、このようなネットワークを模式的に示す画像である。
 図4は、学習の例を示す図である。
 解こうとしている問題が回帰問題である場合、図4の左側に示すような予測器が用いられる。予測器に対する入力をデータx、入力から出力までの変換をまとめて関数fθと表記すると、予測値yは下式(3)により表される。
Figure JPOXMLDOC01-appb-M000003
 このような予測器のパラメータの学習は、白抜き矢印の先に示すように、予測器の最終層にロス関数を設けた学習器を用いて行われる。ロスは、予測値と、データのラベル(正解値)との誤差であり、問題に合わせて設定される。図4の例においては、ロス関数として、二乗誤差の演算を行う関数が設定されている。
 学習器を用いた学習は、計算したロスの勾配を逆伝搬しつつ、各パラメータに勾配を加えて更新し(勾配法)、ロスを最小化するパラメータを求めるようにして行われる(誤差逆伝搬法)。
<<2.PCの構成と動作>>
<2-1.PCの構成>
 図5は、PC1の構成例を示すブロック図である。
 CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103は、バス104により相互に接続されている。
 バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、入力部106、出力部107、記憶部108、通信部109、およびドライブ110が接続される。ドライブ110には、リムーバブルメディア111が接続される。
 入力部106は、キーボード、マウスなどにより構成される。入力部106を用いて、問題の指定などの操作が行われる。
 出力部107は、ディスプレイ、スピーカなどにより構成される。図2を参照して説明したような画面が、出力部107を構成するディスプレイに表示される。
 記憶部108は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部108には、上述したネットワーク設計支援プログラムが記憶される。
 通信部109は、ネットワークインタフェースなどにより構成される。ネットワーク設計支援プログラムをダウンロードするための通信などの各種の通信が通信部109において行われる。ネットワーク設計支援プログラムのインストールが通信を介して行われるのではなく、リムーバブルメディア111を介して行われるようにしてもよい。この場合、ネットワーク設計支援プログラムが記憶されたリムーバブルメディア111が、ドライブ110に接続され、読み出される。
 以上のような構成を有するPC1においては、CPU101が、記憶部108に記憶されているネットワーク設計支援プログラムをRAM103にロードして実行することにより、ネットワークの設計のための処理が行われる。
 図6は、PC1の機能構成例を示すブロック図である。
 ネットワーク設計支援プログラムがCPU101により実行されることによって、図6に示す情報処理部131が実現される。図6に示すように、情報処理部131は、問題推定部141、ネットワーク生成部142、提示制御部143、および学習実行部144から構成される。学習用のデータを含むデータセットは、問題推定部141、ネットワーク生成部142、および学習実行部144に入力される。
 問題推定部141は、データセットを解析し、ユーザが解こうとしている問題を推定する。問題推定部141により、例えば上述した5種類の問題のうちのいずれかの問題が推定される。問題の推定結果を表す情報はネットワーク生成部142に供給される。解こうとしている問題がユーザにより指定された場合、問題推定部141による問題の推定は行われない。
 ネットワーク生成部142は、問題推定部141により推定された問題とデータセットに基づいて、推論器(推論実行用のネットワーク)と学習器(学習用のネットワーク)を生成する。ネットワーク生成部142には、問題とデータセットに応じた定石の設計に関する情報が予め設定されている。ネットワーク生成部142は、ユーザによる操作によらずに、定石の設計を踏まえたネットワークを生成することになる。
 なお、問題の推定が問題推定部141により行われない場合、ネットワーク生成部142は、ユーザにより指定された問題とデータセットに基づいて、ネットワークを生成する。ネットワーク生成部142により生成されたネットワークに関する情報は、デフォルトのネットワークに関する情報として提示制御部143と学習実行部144に供給される。
 また、ネットワーク生成部142は、デフォルトのネットワークを生成した後、デフォルトのネットワークをユーザによる操作に応じて変更する。変更が加えられたネットワークの情報も提示制御部143と学習実行部144に供給される。
 提示制御部143は、ネットワーク生成部142により生成されたネットワークをネットワーク設計支援プログラムの画面に表示させ、ユーザに提示する。ネットワーク設計支援プログラムの画面には、デフォルトのネットワークの情報とともに、ネットワークに変更を加えるための各種のツールを選択するための表示なども設けられる。
 学習実行部144は、ユーザにより適宜変更が加えられることによって生成された学習器を用いて学習を実行する。学習実行部144による学習には、データセットに含まれる学習用のデータが用いられる。学習を行うことによって得られた推論器は、PC1が有するアプリケーション、PC1の外部の装置が有するアプリケーションなどに提供され、推論処理に用いられる。
 PC1が、ユーザによる操作を受け付けるとともにネットワークの設計を行うための情報をユーザに提示するインタフェースとして機能し、問題の推定、ネットワークの生成、学習の実行などの各機能が提供サーバ2などの外部の装置に用意されるようにしてもよい。この場合、図6に示す構成のうちの少なくとも一部が、外部の装置において実現されることになる。
<2-2.PCの動作>
 ここで、図7のフローチャートを参照して、以上のような構成を有する情報処理部131のネットワーク自動生成処理について説明する。
 ステップS1において、問題推定部141は、学習用のデータを含むデータセットを取得する。
 ステップS2において、問題推定部141は問題推定処理を行う。問題推定処理により、ユーザが解こうとしている問題がデータセットに基づいて推定される。問題推定処理の詳細については後述する。
 ステップS3において、ネットワーク生成部142は、データセットと問題に応じた推論器を生成する。
 ステップS4において、ネットワーク生成部142は、問題に応じたロス関数を推論器に付加することによって、学習器を生成する。
 ステップS5において、提示制御部143は、ネットワーク生成部142により生成された推論器と学習器をデフォルトのネットワークとして、デフォルトのネットワークに関する情報をネットワーク設計支援プログラムの画面に表示させる。
 ステップS6において、ネットワーク生成部142は、ユーザの操作に基づいて、提示制御部143により提示されたネットワークの変更を行う。
 ステップS7において、学習実行部144は、学習の実行が指示されることに応じて、データセットに含まれる学習用のデータを学習器に入力し、学習を実行する。
 ステップS8において、学習実行部144は、学習を行うことによって得られた推論器を外部に出力し、処理を終了させる。
 以上のように、問題の推定がネットワーク設計支援プログラムにより行われるため、ユーザは、学習用のデータを含むデータセットを指定するだけで、ネットワークを生成することができる。また、問題の推定が行われない場合においても、ユーザは、問題とデータセットを指定するだけでネットワークを生成することが可能になる。
<<3.各問題に応じたネットワークの具体例>>
 ここで、ユーザが解こうとする問題に応じて自動的に生成される推論器と学習器の具体例について説明する。重複する説明については適宜省略する。
<3-1.回帰問題>
 回帰問題は、連続値を想定したデータの予測を行うものである。推論器として生成されるネットワークは予測器となる。
・3-1-1.回帰問題における学習の流れ
(1)前提
 ユーザは、データを入力して、別のデータ(連続値)を予測する予測器を作りたいとする。このような予測器には、例えば、不動産物件の様々な情報を入力して、不動産物件の価格を予測(査定)する予測器がある。不動産物件の価格の予測の他に、画像から特定の物体の位置(座標)を予測する予測器、音声から音源の位置を推定する予測器、センサデータから他のセンサ値を予測する予測器などがある。
 この場合、ユーザは、データと正解値(ラベル)をネットワーク設計支援プログラムに与え、学習を行わせることによって、このような予測器を作ることになる。
(2)事前準備
 ユーザは、データセットを事前に用意しておく。データセットには、学習用データセットと評価用データセットが含まれていることが望ましいが、学習用データセットだけでもよい。学習用データセットと評価用データセットにおいては、各データとラベルが対応付けて管理されている。
 例えば、データ毎に対応するラベルを記録しているファイル、データのファイルとラベルのファイルが保存されたファイルシステムがデータセットとして用意される。
(3)実行
 ユーザは、学習用データセットを指定して、予測器の設計をシステム(ネットワーク設計支援プログラム)に指示する。システムにおいては、学習用データセットから、ユーザが解こうとしている問題が回帰問題であるとして推定され、回帰問題における定番の予測器と定番の学習器が生成される。定番の学習器は、定番の予測器に、定番のロス関数を付加することによって生成される。
 定番の予測器の構造は、予測に用いるデータのドメインに基づいて特定される。予測に用いるデータのドメインは、学習用データセットに含まれるファイルの拡張子などに基づいて推定される。ドメインがユーザにより入力されるようにしてもよい。
 定番のロス関数は、解こうとしている問題が回帰問題であることに基づいて特定される。
 自動的に生成された定番の予測器と定番の学習器は、ネットワークのソースコードをディスプレイに表示することによって、または、図2を参照して説明したような、ネットワークのモジュール構成を示す画像を画面に表示することによってユーザに提示される。
 ユーザは、提示されたネットワークに対して、必要に応じて変更(例えば、事前知識に基づく変更や、評価に基づく試行錯誤)を加えて、学習の実行を指示する。
 システムにおいては、学習用データセットを用いた学習が行われ、予測器が生成される。ユーザは、最後に、学習によって得られた予測器を外部に提供する。
・3-1-2.データセットの例
 図8は、データセットの第1の例を示す図である。
 図8の例においては、各サンプルのデータにはデータIDが設定され、連続値のラベルが対応付けて管理されている。各データは、項目1、項目2、項目3などの各項目の値から構成される。不動産物件の価格を予測する予測器を作成する場合、項目は、駅からの距離、階数、築年数などの、価格決定に寄与するデータであり、ラベルは、成約価格を表す値(例えば小数値)となる。
 このように、項目の値をユーザが直接書き込む場合、データとラベルをまとめた1つのファイルによって学習用データセットが構成されるようにすることができる。
 図8に示すような学習用データセットが入力された場合、システムにおいては、例えば、ラベルが整数値でないことに基づいて、ユーザが解こうとしている問題が回帰問題であるとして推定される。解こうとしている問題が回帰問題であることをユーザが指定するようにしてもよい。
 また、システムにおいては、各データに項目の値が含まれていることに基づいて、データのドメインが項目として特定される。
 図9は、データセットの第2の例を示す図である。
 図9のファイルシステムにおいては、学習用データセットとして、ファイル名「data_0」、「data_1」、「data_2」、「data_3」、「data_4」の各ファイルが「ForTraining」のディレクトリに保存されている。各ファイルは、画像や音楽などのファイルである。適宜、ラベルのファイルも保存される。「ForTest」のディレクトリには評価用データセットを構成するファイルが保存される。
 このように、ラベルが対応付けられたファイルを保存するファイルシステムによって学習用データセットが構成されるようにすることができる。
 図9に示すような学習用データセットが入力された場合、システムにおいては、ファイルシステムの構造に基づいて、ユーザが解こうとしている問題が回帰問題であるとして推定される。例えば、回帰問題であることを表す構造を有するファイルシステムが学習用データセットとして用意される。解こうとしている問題が回帰問題であることをユーザが指定するようにしてもよい。
 また、システムにおいては、wav,mp3である場合には音楽、png,jpeg,bmpである場合には静止画、mp4,wmvである場合には動画、txtである場合にはテキストといったように、ファイルの拡張子に基づいてデータのドメインが特定される。
・3-1-3.回帰問題における定番のネットワーク
 図10は、予測器と学習器の例を示す図である。
 図10の左側に示すように、予測器は、回帰問題における定番の予測器を含むように構成される。定番の予測器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の予測器のネットワークには入力層(x)と出力層(z)が付加される。
 一方、図10の右側に示すように、学習器は、定番の予測器に、二乗誤差関数の層を付加して構成される。
 太線L1で囲んで示す、予測器における定番の予測器のパラメータと、太線L2で囲んで示す、学習器における定番の予測器のパラメータは共有される。学習によって学習器のパラメータが更新された場合、予測器のパラメータも同様に更新される。
 このように、回帰問題においては、定番の予測器に、二乗誤差関数の層を付けて学習器とすることが定石の設計とされる。また、予測器の最終層を、線形層とすることが定石の設計とされる。
 線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。例えば、データのドメインが画像または音声である場合には畳み込み層が選択され、項目またはテキストである場合には、全結合層が選択される。図10は、データのドメインが項目またはテキストである場合のデフォルトのネットワークの例を示している。
 データのドメインが画像または音声である場合、畳み込み層を含むLenetやResnetなどのネットワークを定番の予測器として採用することが可能である。また、データのドメインが項目またはテキストである場合、Embed層を含むネットワークを定番の予測器として採用することが可能である。
 なお、Resnetについては下記の文献に開示されている。
 ・Deep Residual Learning for Image Recognition <https://arxiv.org/abs/1512.03385>
 図10に示すような予測器と学習器が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。2つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の予測器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
<3-2.分類問題>
 分類問題は、入力されたデータを、それが属するカテゴリに分類するものである。分類問題は、クラス数が2である二値分類問題と、3以上である多値分類問題に分けられる。推論器として生成されるネットワークは分類器となる。
・3-2-1.分類問題における学習の流れ
(1)前提
 ユーザは、データを入力して、そのデータが所属するカテゴリ(離散値)を分類する分類器を作りたいとする。このような分類器には、例えば、花が写る画像を入力して、花の種類毎に分類する分類器、動物が写る画像を入力して、動物の種類毎に分類する分類器がある。
 この場合、ユーザは、データとラベルをネットワーク設計支援プログラムに与え、学習を行わせることによって、このような分類器を作ることになる。
(2)事前準備
 ユーザは、データセットを事前に用意しておく。データセットには、学習用データセットと評価用データセットが含まれていることが望ましいが、学習用データセットだけでもよい。学習用データセットと評価用データセットにおいては、各データとラベルが対応付けて管理されている。
 例えば、データ毎に対応するラベルを記録しているファイル、データのファイルがラベル毎に予め分類した形で保存されたファイルシステムがデータセットとして用意される。
(3)実行
 ユーザは、学習用データセットを指定して、分類器の設計をシステムに指示する。システムにおいては、学習用データセットから、ユーザが解こうとしている問題が分類問題であるとして推定され、分類問題における定番の分類器と定番の学習器が生成される。定番の学習器は、定番の分類器に、定番のロス関数を付加することによって生成される。
 定番の分類器の構造は、分類に用いるデータのドメインに基づいて特定される。分類に用いるデータのドメインは、学習用データセットに含まれるファイルの拡張子などに基づいて推定される。ドメインがユーザにより入力されるようにしてもよい。
 定番のロス関数は、解こうとしている問題が分類問題であることに基づいて特定される。
 自動的に生成された定番の分類器と定番の学習器は、ネットワークのソースコードをディスプレイに表示することによって、または、ネットワークのモジュール構成を示す画像を画面に表示することによってユーザに提示される。
 ユーザは、提示されたネットワークに対して、必要に応じて変更を加えて、学習の実行を指示する。
 システムにおいては、学習用データセットを用いた学習が行われ、分類器が生成される。ユーザは、最後に、学習によって得られた分類器を外部に提供する。
・3-2-2.データセットの例
 図11は、データセットの第1の例を示す図である。
 図11の例においては、各サンプルのデータにはデータIDが設定され、離散値のラベルが対応付けて管理されている。各データは、項目1、項目2、項目3などの各項目の値から構成される。画像に写る花の種類に分類する分類器を作成する場合、項目は、雄しべの数、花弁の数などの、花の種類を特徴付けるデータであり、ラベルは、花の種類を表す整数値となる。
 このように、項目の値をユーザが直接書き込む場合、データとラベルをまとめた1つのファイルによって学習用データセットが構成されるようにすることができる。
 図11に示すような学習用データセットが入力された場合、システムにおいては、例えば、ラベルが整数値であることに基づいて、ユーザが解こうとしている問題が分類問題であるとして推定される。解こうとしている問題が分類問題であることをユーザが指定するようにしてもよい。
 また、システムにおいては、ラベルを表す整数値が2種類以上あることに基づいて、分類問題の中でも、多値分類問題であると推定される。ラベルを表す整数値が2種類である場合、二値分類問題であると推定されることになる。このように、分類問題の場合、分類するカテゴリの数も学習用データセットに基づいて推定される。
 図12は、データセットの第2の例を示す図である。
 図12のファイルスシステムにおいては、「ForTraining」のディレクトリの下に、「label_0」、「label_1」、「label_2」の各ディレクトリが設定されている。「label_0」のディレクトリにはファイル名「data_0」、「data_1」、「data_2」の各ファイルが保存されている。「label_1」のディレクトリにはファイル名「data_3」のファイルが保存され、「label_2」のディレクトリにはファイル名「data_4」のファイルが保存されている。各ファイルは、画像や音楽などのファイルである。
 「label_0」、「label_1」、「label_2」のディレクトリは、それぞれのディレクトリに保存されているファイルのデータのラベルを表す。
 このように、ラベルを表すディレクトリ毎に分類してファイルを保存するファイルシステムによって学習用データセットが構成されるようにすることができる。
 図12に示すような学習用データセットが入力された場合、システムにおいては、ファイルシステムの構造に基づいて、ユーザが解こうとしている問題が分類問題であり、カテゴリの数が3であるとして推定される。解こうとしている問題が分類問題であることをユーザが指定するようにしてもよい。
 また、システムにおいては、ファイルの拡張子に基づいてデータのドメインが特定される。
・3-2-3.分類問題における定番のネットワーク
 図13は、二値分類問題における分類器と学習器の例を示す図である。
 図13の左側に示すように、分類器は、二値分類問題における定番の分類器を含むように構成される。定番の分類器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の分類器の下の最終層には、ソフト二値分類(確率)を表す出力を得るためにSigmoid関数が設定される。定番の分類器のネットワークには入力層(x)と出力層(z)が付加される。
 一方、図13の中央と右側に示すように、学習器#1と学習器#2の2つの学習器が生成される。
 学習器#1は、定番の分類器に、Sigmoid関数の層とBinaryCE(バイナリクロスエントロピー)関数の層を付加して構成される。
 学習器#2は、定番の分類器に、SigmoidCE関数の層を付加して構成される。このように、実用上、Sigmoid関数とBinaryCE関数の層の代わりに、SigmoidCE関数の層を最終層として用いることも可能である。
 太線L11で囲んで示す、分類器における定番の分類器のパラメータと、太線L12,L13で囲んで示す、学習器における定番の分類器のパラメータは共有される。学習によって学習器のパラメータが更新された場合、分類器のパラメータも同様に更新される。
 このように、二値分類問題においては、定番の分類器に、Sigmoid関数とBinaryCE関数の層、またはSigmoidCE関数の層を付けて学習器とすることが定石の設計とされる。
 線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。例えば、データのドメインが画像または音声である場合には畳み込み層が選択され、項目またはテキストである場合には、全結合層が選択される。
 図13に示すような分類器と学習器#1,#2が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。3つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の分類器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
 図14は、多値分類問題における分類器と学習器の例を示す図である。
 図14の左側に示すように、分類器は、多値分類問題における定番の分類器を含むように構成される。定番の分類器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の分類器の下の最終層には、ソフト多値分類(確率)を表す出力を得るためにSoftmax関数が設定される。定番の分類器のネットワークには入力層(x)と出力層(z)が付加される。
 一方、図14の中央と右側に示すように、学習器#1と学習器#2の2つの学習器が生成される。
 学習器#1は、定番の分類器の下に、Softmax関数の層とCategoricalCE(カテゴリカルクロスエントロピー)関数の層を付加して構成される。
 学習器#2は、定番の分類器の下に、SoftmaxCE関数の層を付加して構成される。このように、実用上、Softmax関数とCategoricalCE関数の層の代わりに、SoftmaxCE関数の層を最終層として用いることも可能である。
 太線L21で囲んで示す、分類器における定番の分類器のパラメータと、太線L22,L23で囲んで示す、学習器における定番の分類器のパラメータは共有される。学習によって学習器のパラメータが更新された場合、分類器のパラメータも同様に更新される。
 このように、多値分類問題においては、定番の分類器に、Softmax関数とCategoricalCE関数の層、またはSoftmaxCE関数の層を付けて学習器とすることが定石の設計とされる。
 線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。例えば、データのドメインが画像または音声である場合には畳み込み層が選択され、項目またはテキストである場合には、全結合層が選択される。
 図14に示すような分類器と学習器#1,#2が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。3つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の分類器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
・3-2-4.Feedforwardネットワークの設計
 図15は、以上のような、回帰問題と分類問題において用いられるネットワークの定石の設計をまとめて示す図である。図6のネットワーク生成部142は、このような定石の設計に関する情報を有している。
 ラベルの型が連続値である場合(ラベルの値が小数値である場合)、回帰問題を解こうとしていることが推定され、ロス関数として二乗誤差関数が選択される。
 ラベルの型が離散二値である場合(ラベルの値が2種類の整数値である場合)、二値分類問題を解こうとしていることが推定され、ロス関数として、Sigmoid関数とBinaryCE関数の組み合わせ、またはSigmoidCE関数が選択される。
 ラベルの型が離散多値である場合(ラベルの値が3種類以上の整数値である場合)、多値分類問題を解こうとしていることが推定され、ロス関数として、Softmax関数とCategoricalCE関数の組み合わせ、またはSoftmaxCE関数が選択される。
 これらのロス関数の層が定番の推論器のネットワークに付加されることによって学習器が自動的に生成され、ユーザに提示される。
 また、線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。データのドメインが画像または音声である場合には畳み込み層が選択され、テキストまたは項目である場合には全結合層が選択される。
 このように、データのドメインに応じて選択された畳み込み層を含むネットワーク、または全結合層を含むネットワークが、定番の推論器として自動的に生成され、ユーザに提示される。
<3-3.メトリック学習>
 メトリック学習(特徴空間学習)は、データの、特徴空間への埋め込み方法を推定する学習である。推論器として生成されるネットワークは特徴抽出器となる。
・3-3-1.メトリック学習の流れ
(1)前提
 ユーザは、データを入力して、特徴空間上に射影する特徴抽出器を作りたいとする。特徴抽出器は、例えば、事前登録されているデータと、入力されたデータのマッチング(同じデータであるか違うデータであるかの判定)を行うアプリケーションなどで用いられる。
 特徴抽出器を用いることにより、例えば、手書き数字の"2"の画像がラベル無しで入力された時に、太さや傾きなどが近い"2"の画像を選ぶことができる。また、後述するような、所定の対象の識別、認証、トラッキングが可能になる。
 この場合、ユーザは、データとラベルをネットワーク設計支援プログラムに与え、メトリック学習を行わせることによって、このような特徴抽出器を作ることになる。
(2)事前準備
 ユーザは、データセットを事前に用意しておく。データセットには、学習用データセットと評価用データセットが含まれていることが望ましいが、学習用データセットだけでもよい。学習用データセットと評価用データセットにおいては、各データとラベルが対応付けて管理されている。
 例えば、分類問題で用いられるデータセットと同様のデータセットがメトリック学習において用いられる。
(3)実行
 ユーザは、学習用データセットを指定して、特徴抽出器の設計をシステムに指示する。システムにおいては、メトリック学習を行うことが推定され、メトリック学習における定番の特徴抽出器と定番の学習器が生成される。定番の学習器は、定番の特徴抽出器を含むネットワークに、定番のロス関数を付加することによって生成される。
 定番の特徴抽出器の構造は、特徴抽出に用いるデータのドメインに基づいて特定される。特徴抽出に用いるデータのドメインは、学習用データセットに含まれるファイルの拡張子などに基づいて推定される。ドメインがユーザにより入力されるようにしてもよい。
 定番のロス関数は、学習手法がメトリック学習であることに基づいて特定される。メトリック学習におけるロスには、SiameseロスとTripletロスがある。なお、ここでは、Tripletロスと対比的に書くため、Siameseネットワークに用いるロスを、便宜的にSiameseロスと呼ぶことにしている。SiameseロスとTripletロスのうちのいずれのロスを用いるのかがシステムにより選択されるようにしてもよいし、ユーザに選択させるようにしてもよい。
 自動的に生成された定番の特徴抽出器と定番の学習器は、ネットワークのソースコードをディスプレイに表示することによって、または、ネットワークのモジュール構成を示す画像を画面に表示することによってユーザに提示される。
 ユーザは、提示されたネットワークに対して、必要に応じて変更を加えて、学習の実行を指示する。
 システムにおいては、学習用データセットを用いた学習が行われ、特徴抽出器が生成される。ユーザは、最後に、学習によって得られた特徴抽出器を外部に提供する。
・3-3-2.メトリック学習における定番のネットワーク
 図16は、特徴抽出器とSiameseロスを用いた学習器の例を示す図である。Siameseロスを用いる場合のメトリック学習は、Siameseネットワークとして構成される学習器を用いて行われる。
 図16の左側に示すように、特徴抽出器は、定番の特徴抽出器を含むように構成される。定番の特徴抽出器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の特徴抽出器のネットワークには入力層(x)と出力層(z)が付加される。
 一方、図16の右側に示すように、学習器としてSiameseネットワークが生成される。Siameseネットワークは、入力が異なる、2つの定番の特徴抽出器を並列に並べることによって構成される。太線L32で囲んで示す定番の特徴抽出器に入力されるデータx_0と、太線L33で囲んで示す定番の特徴抽出器に入力されるデータx_1の組み合わせはランダムでも良いが、同じラベルの組み合わせが十分に出現するように、ランダムネスがコントロールされていることが望ましい。
 Siameseネットワークは、2つの定番の特徴抽出器の下に、全結合層(Affine層)とSigmoidCE関数の層を付加して構成される。全結合層に対しては、データx_0とデータx_1のそれぞれの特徴空間上の位置を表すデータが入力される。
 なお、SigmoidCE関数の層に入力されるラベル(Same/Different)は、データx_0とデータx_のラベルが同じであるか否かを表す。例えば、ラベルとして与えられる値が0である場合、データx_0とデータx_1のラベルが同じであることを表し、1である場合、データx_0とデータx_1のラベルが異なることを表す。
 太線L31で囲んで示す、特徴抽出器における定番の特徴抽出器のパラメータと、太線L32,L33で囲んで示す、Siameseネットワークにおける定番の特徴抽出器のパラメータは共有される。学習によってSiameseネットワークのパラメータが更新された場合、特徴抽出器のパラメータも同様に更新される。
 Siameseネットワークによるメトリック学習は、定番の特徴抽出器の出力の距離(|f(x0)-f(x1)|)が、データx_0とデータx_1のラベルが同一ラベルのとき小さくなり、異なるラベルのとき大きくなるパラメータを求めるようにして行われる。
 このように、メトリック学習においては、Siameseネットワークが、学習器を構成する定番のネットワークとされる。
 線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。例えば、データのドメインが画像または音声である場合には畳み込み層が選択され、項目またはテキストである場合には、全結合層が選択される。
 図16に示すような特徴抽出器と学習器が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。2つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の特徴抽出器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
 図17は、特徴抽出器とTripletロスを用いた学習器の例を示す図である。Tripletロスを用いる場合のメトリック学習は、Tripletネットワークとして構成される学習器を用いて行われる。
 図17の左側に示す特徴抽出器は、図16の特徴抽出器と同じである。
 図17の右側に示すように、学習器としてTripletネットワークが生成される。Tripletネットワークは、入力が異なる、3つの定番の特徴抽出器を並列に並べることによって構成される。太線L42で囲んで示す定番の特徴抽出器に入力されるデータx_0と、太線L43で囲んで示す定番の特徴抽出器に入力されるデータx_1は、例えばlabel_0またはlabel_1として同じラベルが設定された、異なるサンプルのデータである。データx_0は、学習用データセットからランダムに選択される。一方、太線L44で囲んで示す定番の特徴抽出器に入力されるデータx_2は、データx_0と異なるラベルが設定されたデータである。
 Tripletネットワークは、3つの定番の特徴抽出器のそれぞれの下に、全結合層(Affine層)を付加して構成される。全結合層に対しては、データx_0、データx_1、データx_2のそれぞれの特徴空間上の位置を表すデータが入力される。
 各全結合層の下にはTripletロスを求める層が付加される。Tripletロスは、同一ラベルのデータx_0とデータx_1の距離が近いと小さくなり、別ラベルのデータx_0とデータx_2の距離が遠いと小さくなるロスである。Tripletロスは、下式(4)により表される。式(4)のαはマージンと呼ばれるパラメータであり、例えば1が設定される。
Figure JPOXMLDOC01-appb-M000004
 太線L41で囲んで示す、特徴抽出器における定番の特徴抽出器のパラメータと、太線L42,L43,L44で囲んで示す、Tripletネットワークにおける定番の特徴抽出器のパラメータは共有される。学習によってTripletネットワークのパラメータが更新された場合、特徴抽出器のパラメータも同様に更新される。
 このように、メトリック学習においては、Tripletネットワークが、学習器を構成する定番のネットワークとされる。
 線形層を畳み込み層とするのか全結合層とするのかは、特定されたデータのドメインに応じて選択される。例えば、データのドメインが画像または音声である場合には畳み込み層が選択され、項目またはテキストである場合には、全結合層が選択される。
 図17に示すような特徴抽出器と学習器が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。2つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の特徴抽出器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
・3-3-3.Siamese/Tripletネットワークを用いたメトリック学習の応用例
 メトリック学習を用いることにより、画像や音声等の所定のデータを最初に登録しておき、新たに入力されたデータが、登録済みのデータと同一か否かを判別することが可能になる。このような技術は、例えば顔識別のアプリケーションや物体トラッキングのアプリケーションに用いられる。
 顔識別は、入力された顔画像を、事前に登録された顔画像のリストと照合して人物を識別するものである。学習により、顔の特徴のうち、同じ人か別の人かを判別することに寄与する特徴を用いて特徴抽出器が構築される。
 メトリック学習を用いた顔識別については、例えば下記の文献に開示されている。
 ・DeepFace - Closing the Gap to Human-Level Performance in Face Verification, Taigman <https://research.fb.com/publications/deepface-closing-the-gap-to-human-level-performance-in-face-verification/>
 ・Triplet Similarity Embedding for Face Verification、Sankaranarayanan <https://arxiv.org/abs/1602.03418>
 物体トラッキングは、動画を構成するフレームのうちの最初のフレームで指定したオブジェクトを、続くフレームの中から検出するものである。メトリック学習を用いた物体トラッキングについては、例えば下記の文献に開示されている。
 ・Fully-Convolutional Siamese Networks for Object Tracking, Bertinetto <https://arxiv.org/abs/1606.09549>
 なお、Tripletネットワークについては例えば下記の文献に開示されている。
 ・Deep metric learning using Triplet network, Hoffer <https://arxiv.org/abs/1412.6622>
<3-4.半教師学習>
 半教師学習は、ラベルありデータとラベルなしデータを用いた学習である。推論器として生成されるネットワークは、解こうとしている問題が回帰問題である場合には予測器となり、分類問題である場合には分類器となる。回帰問題と分類問題について上述した説明と重複する説明については適宜省略する。
・3-4-1.半教師学習の流れ
(1)前提
 ユーザは、ラベルありデータとラベルなしデータを持っていて、別のデータを予測する予測器、または、入力したデータが所属するカテゴリを分類する分類器を作りたいとする。
 この場合、ユーザは、ラベルありデータとラベルなしデータをネットワーク設計支援プログラムに与え、半教師学習を行わせることによって、予測器または分類器を作ることになる。
(2)事前準備
 ユーザは、データセットを事前に用意しておく。データセットには、学習用データセットと評価用データセットが含まれていることが望ましいが、学習用データセットだけでもよい。学習用データセットには、各データにラベルが対応付けられたラベルありデータセットと、ラベルが対応付けられていないラベルなしデータセットの両方のデータセットが含まれる。評価用データセットには、ラベルありデータセットが含まれる。
 例えば、ラベルありデータセットのファイルとラベルなしデータセットのファイルのペア、ラベルありデータセットのファイルとラベルなしデータセットのファイルが区別して保存されたファイルシステムが、データセットとして用意される。
(3)実行
 ユーザは、学習用データセットを指定して、ネットワークの設計をシステムに指示する。システムにおいては、学習用データセットから、半教師学習を行うことが推定される。また、システムにおいては、ユーザが解こうとしている問題が、回帰問題であるのか、分類問題であるのかが推定される。
 回帰問題であると推定された場合、回帰問題を解くための定番の予測器と定番の学習器が生成される。定番の学習器は、定番の予測器に、定番のロス関数を付加することによって生成される。
 また、分類問題であると推定された場合、分類問題を解くための定番の分類器と定番の学習器が生成される。定番の学習器は、定番の分類器に、定番のロス関数を付加することによって生成される。
 自動的に生成された定番のネットワークは、ネットワークのソースコードをディスプレイに表示することによって、または、ネットワークのモジュール構成を示す画像を画面に表示することによってユーザに提示される。
 ユーザは、提示されたネットワークに対して、必要に応じて変更を加えて、学習の実行を指示する。
 システムにおいては、学習用データセットを用いた半教師学習が行われ、予測器または分類器が生成される。ユーザは、最後に、学習によって得られた予測器または分類器を外部に提供する。
・3-4-2.データセットの例
 図18は、データセットの第1の例を示す図である。
 図18に示すように、半教師学習の場合、ラベルありデータセットとラベルなしデータセットが用意される。左側に示すラベルありデータセットは図8のデータセットと同じであり、各データには、ラベルが対応付けて管理されている。一方、右側に示すラベルなしデータセットにおいては、ラベルが含まれていない。
 図18に示すような学習用データセットが入力された場合、システムにおいては、ラベルありデータセットとラベルなしデータセットが学習用データセットに含まれていることに基づいて、半教師学習を行うことが推定される。
 また、図18の例では、ラベルが整数値でないことに基づいて、ユーザが解こうとしている問題が回帰問題であるとして推定される。解こうとしている問題をユーザが指定するようにしてもよい。
 図19は、データセットの第2の例を示す図である。
 左側に示すラベルありデータセットは、図12のデータセットと同じである。ラベルありデータセットからなるファイルシステムにおいて、各ファイルは、ラベルを表すディレクトリに保存されている。
 一方、右側に示すラベルなしデータセットは、図9のデータセットと同じである。ラベルなしデータセットからなるファイルシステムにおいて、各ファイルは、ラベルを表すディレクトリ毎に分けるような形ではなく、「ForTraining」のディレクトリに保存されている。
 図19に示すようなデータセットが入力された場合、システムにおいては、ラベルありデータセットのファイルシステムとラベルなしデータセットのファイルシステムが学習用データセットに含まれていることに基づいて、半教師学習を行うことが推定される。
 また、システムにおいては、ファイルシステムの構造に基づいて、ユーザが解こうとしている問題が分類問題であるとして推定される。解こうとしている問題をユーザが指定するようにしてもよい。
・3-4-3.半教師学習における定番のネットワーク
 図20は、分類器と学習器の例を示す図である。
 解こうとしている問題が分類問題である場合、図20の左側に示すように、分類器が生成される。分類器は、定番の分類器を含むように構成される。定番の分類器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の分類器の下の最終層には、ソフト多値分類を表す出力を得るためにSoftmax関数が設定される。定番の分類器のネットワークには入力層(x)と出力層(z)が付加される。
 なお、図20に示す分類器は、多値分類問題において用いられる図14の分類器と同じネットワークである。解こうとしている問題が二値分類問題である場合、Softmax関数の層に代えて、図13を参照して説明したようにSigmoid関数の層が設定される。
 一方、図20の中央と右側に示すように、ラベルありデータ用学習器とラベルなしデータ用学習器の2つの学習器が生成される。半教師学習における学習器は、ラベルありデータ用とラベルなしデータ用とで別のネットワークになっている。
 ラベルありデータ用学習器は、図14の学習器#2と同じである。ラベルありデータ用学習器は、定番の分類器に、SoftmaxCE関数の層を付加して構成される。
 ラベルなしデータ用学習器は、VAT(Virtual Adversarial Training)と呼ばれるネットワークとして構成される。VATについては、例えば下記の文献に開示されている。
 ・"Distributional Smoothing with Virtual Adversarial Training, Miyato" <https://arxiv.org/abs/1507.00677>
 ラベルなしデータ用学習器であるVATのネットワークは、Siameseネットワークと同じように定番の分類器を並列に配置し、ロスを多項分布用KL(KLMultinomial)としたネットワークである。太線L53で囲んで示す定番の分類器にはデータxが入力され、太線L54で囲んで示す定番の分類器にはデータxとともにノイズnが入力される。VATを用いた半教師学習は、データxの確率分布と、ノイズnを加えたデータxの確率分布が滑らかになるパラメータを求めるようにして行われる。
 太線L51で囲んで示す、分類器における定番の分類器のパラメータと、太線L52,L53,L54で囲んで示す、学習器における定番の分類器のパラメータは共有される。学習によって学習器のパラメータが更新された場合、分類器のパラメータも同様に更新される。
 このように、半教師学習で分類問題を解く場合には、図14の学習器#2と同じ学習器がラベルありデータ用の学習器とされ、VATのネットワークを含む学習器が、ラベルなしデータ用の学習器とされる。
 図20に示すような分類器と学習器が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。3つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の分類器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
 なお、VATのネットワークを用いた学習にはノイズnが必要になる。ノイズnを生成するためのネットワークであるノイズ計算ネットワークも、図20に示す3つのネットワークとともに自動的に生成され、ユーザに提示される。
 図21は、ノイズ計算ネットワークの例を示す図である。
 図21に示すように、ノイズ計算ネットワークは、ラベルなしデータ用のSiameseネットワークを流用したネットワークとされる。太線L61,L62で囲んで示す、ノイズ計算ネットワークにおける定番の分類器のパラメータは、図20の定番の分類器のパラメータと共有される。
 ノイズは、ラベルなしデータ用のSiameseネットワークのロスから、ノイズに関する勾配を逆伝搬することによって求められる。この逆伝搬においては、中間層のパラメータの更新を行わないようにするための設定が行われる。
 このようなノイズ計算ネットワークにより求められたノイズは、図20のラベルなしデータ用学習器に入力され、ロスの計算に用いられる。
 このように、半教師学習時、ラベルなしデータ用学習器に必要なノイズの計算に用いるネットワークについても、デフォルトのネットワークとして自動的に生成される。
 図22は、予測器と学習器の例を示す図である。
 解こうとしている問題が回帰問題である場合、図22の左側に示すように、予測器が生成される。予測器は、定番の予測器を含むように構成される。定番の予測器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、全結合層(Affine層)を重ねることによって構成される。定番の予測器のネットワークには入力層(x)と出力層(z)が付加される。
 なお、図22に示す予測器は、図10の予測器と同じネットワークである。
 一方、図22の中央と右側に示すように、ラベルありデータ用学習器とラベルなしデータ用学習器の2つの学習器が生成される。図22に示す2つの学習器は、ロス関数が回帰問題用の二乗誤差関数に変更されている点を除いて、図20のラベルありデータ用学習器とラベルなしデータ用学習器と同じである。
 すなわち、図22のラベルありデータ用学習器は、定番の予測器の最終層に、二乗誤差関数の層を付加して構成される。ラベルありデータ用学習器は図10の学習器と同じである。
 ラベルなしデータ用学習器であるVATは、Siameseネットワークと同じように定番の予測器を並列に配置し、ロスを二乗誤差としたネットワークである。太線L73で囲んで示す定番の予測器にはデータxが入力され、太線L74で囲んで示す定番の予測器にはデータxとともにノイズnが入力される。
 ノイズnの計算に用いられるノイズ計算ネットワークは、図21を参照して説明したネットワークと同じである。
 太線L71で囲んで示す、予測器における定番の予測器のパラメータと、太線L72,L73,L74で囲んで示す、学習器における定番の予測器のパラメータは共有される。学習によって学習器のパラメータが更新された場合、予測器のパラメータも同様に更新される。
 このように、半教師学習で回帰問題を解く場合には、図10を参照して説明した学習器がラベルなしデータ用の学習器とされ、VATのネットワークを含む学習器が、ラベルなしデータ用の学習器とされる。
 図22に示すような予測器と学習器、および図21のノイズ計算ネットワークが自動的に生成され、デフォルトのネットワークとしてユーザに提示される。それぞれのネットワークに関する情報を並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の予測器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
<3-5.生成モデル>
・3-5-1.生成モデルの学習の流れ
(1)前提
 ユーザは、生成したいドメインのデータを持っていて、乱数を入力して擬似データを生成する生成器(生成モデル)を作りたいとする。
 この場合、ユーザは、学習用データセットをネットワーク設計支援プログラムに与え、学習を行わせることによって、このような生成器を作ることになる。生成器の学習には、例えば、変分オートエンコーダ(VAE(Variational Auto Encoder))が用いられる。VAEについては下記の文献に開示されている。
 ・Auto-Encoding Variational Bayes, Kingma, 1312.6114v10 <https://arxiv.org/abs/1312.6114>
 また、生成器の学習には、敵対的生成ネットワーク(GAN(Generative Adversarial Network))が用いられる。GANについては下記の文献に開示されている。
 ・Generative Adversarial Nets, Goodfellow, 1406.2661v1 <https://arxiv.org/abs/1406.2661>
(2)事前準備
 ユーザは、生成したいドメインのデータからなる学習用データセットを事前に用意しておく。学習用データセットの各データはラベルなしであってもよいが、ドメインがある程度絞られているデータであることが望ましい。
(3)実行
 ユーザは、学習技術(VAEを用いた学習、またはGANを用いた学習など)を指定して、生成器の設計をシステムに指示する。ユーザが生成器を作成しようとしていることが学習用データセットに基づいてシステムにより推定されるようにしてもよい。この場合、生成器の設計を指示することは不要となる。
 システムにおいては、定番の生成器と定番の学習器が生成される。定番の学習器は、定番の生成器に、定番の追加ネットワークとロス関数を付加することによって生成される。
 定番の生成器の構造は、学習用データセットのドメインに基づいて特定される。データのドメインは、学習用データセットに含まれるファイルの拡張子などに基づいて推定される。ドメインがユーザにより入力されるようにしてもよい。
 自動的に生成された定番の生成器と定番の学習器は、ネットワークのソースコードをディスプレイに表示することによって、または、ネットワークのモジュール構成を示す画像を画面に表示することによってユーザに提示される。
 ユーザは、提示されたネットワークに対して、必要に応じて変更を加えて、学習の実行を指示する。
 システムにおいては、学習用データセットを用いた学習が行われ、生成器が生成される。ユーザは、最後に、学習によって得られた生成器を、アプリケーションに適用するなどのために外部に提供する。
・3-5-2.生成器の定番のネットワーク
 図23は、生成器と、VAEを用いた学習器の例を示す図である。
 図23の左側に示すように、生成器は、定番の生成器を含み、乱数(と付加情報)であるデータzを入力して、擬似データであるデータxを出力するネットワークとして構成される。定番の生成器は、上から順に、全結合層(Affine層)、活性化層(Relu層)、逆畳み込み層(Deconvolution層)を重ねることによって構成される。定番の分類器にはサンプリング層が設定される。
 一方、図23の右側に示すように、学習器は、変分オートエンコーダのネットワークとして構成される。破線L82で囲んで示すネットワークがエンコーダ側のネットワークとなり、太線L83で囲んで示すネットワークがデコーダ側のネットワークとなる。
 エンコーダ側のネットワークは推論モデルであり、太線L81で囲んで示す定番の生成器とは異なるパラメータを有する。エンコーダ側のネットワークの出力は、KL距離ロスのネットワークに接続されるとともに、サンプリング層を介して、デコーダ側のネットワークに接続される。
 デコーダ側のネットワークは、太線L81で囲んで示す定番の生成器と同一である。デコーダ側のネットワークのパラメータは、定番の生成器のパラメータと共有される。デコーダ側のネットワークに付加されるロスは、データ分布のパラメータを元にした尤度(Likelihood)である。
 エンコーダ側のネットワークの出力のロスであるKL距離ロスと、デコーダ側のネットワークの出力のロスである尤度は、加算されて1つのLossとして出力される。
 図23に示すような生成器とVAEの学習器が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。2つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の生成器の近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
 図24は、生成器と、GANを用いた学習器の例を示す図である。
 図24の左側に示す生成器は、サンプリング層が設けられていない点を除いて、図23の生成器と同じである。
 一方、図24の中央と右側に示すように、学習器#1と学習器#2の2つの学習器が生成される。
 学習器#1は、畳み込み層(Convolution層)、活性化層(Relu層)、全結合層(Affine層)を重ねて構成される、discriminatorとしてのネットワークを有する。discriminatorの下には、SigmoidCE関数の層が設けられる。学習器#1による学習は、入力されたデータxを、真のデータとして判定するようにして行われる。
 学習器#2は、太線L93で囲んで示す定番の生成器をgeneratorとして、generatorの下に、学習器#1のdiscriminatorと同じネットワーク(破線L94で囲んで示すネットワーク)が設けられることによって構成される。discriminatorの下には、SigmoidCE関数の層が付加される。
 generatorには乱数であるデータzが入力され、擬似データx’が出力される。generatorから出力された擬似データx’はdiscriminatorに入力される。学習器#2による学習は、generatorから出力された擬似データx’を、偽のデータとして判定するようにして行われる。
 太線L91で囲んで示す、生成器における定番の生成器のパラメータと、太線L93で囲んで示す、学習器#2におけるgeneratorのパラメータは共有される。学習によってgeneratorのパラメータが更新された場合、生成器のパラメータも同様に更新される。また、破線L92で囲んで示す、学習器#1におけるdiscriminatorのパラメータと、破線L94で囲んで示す、学習器#2におけるdiscriminatorのパラメータは共有される。
 このように、GANは、generatorとしてのネットワークと、discriminatorとしてのネットワークを含むようにして構成される。
 図24に示すような生成器と学習器#1,#2が自動的に生成され、デフォルトのネットワークとしてユーザに提示される。3つのネットワークに関する情報が並べて提示されるようにしてもよいし、別々に提示されるようにしてもよい。ネットワークの提示画面において、定番の生成器(generator)とdiscriminatorの近くに、「ここを改造してください」などの、設計変更を促すメッセージが表示されるようにしてもよい。
 ユーザが生成器を生成しようとしている場合、図23のVAEのネットワーク、または図24のGANのネットワークが自動的に生成される。いずれのネットワークが自動的に生成されるようにするのかを、ユーザが選択することができるようにしてもよい。
<3-6.問題の推定>
 ユーザが解こうとしている問題の推定は、図15等を参照して説明したように、ラベルの型が連続値である場合には回帰問題として推定し、ラベルの型が離散値である場合には分類問題として推定するようにして行われる。ここで、半教師学習等の、それ以外の上述した問題を含む場合の推定処理について説明する。
 図25のフローチャートを参照して、図7のステップS2において行われる問題推定処理について説明する。
 ステップS51において、問題推定部141は、ステップS1で取得したデータセットの中に、解きたい問題の記載が含まれているか否かを判定する。例えば、ユーザが解こうとしている問題を指定したファイルがデータセットに含まれている場合、データセットのファイルシステムの構造が、特定の問題を指定する構造である場合などにおいて、解きたい問題の記載が含まれているものとして判定される。
 解きたい問題の記載がデータセットの中に含まれているとステップS51において判定された場合、図7のステップS3に戻り、それ以降の処理が行われる。ステップS3においては、データセットによって指定された問題に応じた推論器が生成される。
 一方、解きたい問題の記載がデータセットの中に含まれていないとステップS51において判定した場合、ステップS52において、問題推定部141は、学習用データセットの構造を確認する。
 学習用データセットに、ラベルありデータが含まれておらず、ラベルなしデータが含まれている場合、ステップS53において、問題推定部141は、ユーザが解こうとしている問題が生成モデルを用いた問題であるとして判定する。
 また、学習用データセットに、ラベルありデータとラベルなしデータが混在している場合、ステップS54において、問題推定部141は、ユーザが解こうとしている問題が半教師学習を用いた問題であるとして判定する。半教師学習を用いて回帰問題を解こうとしているのか、分類問題を解こうとしているのかは、上述したようにラベルの型に基づいて判定される。
 学習用データセットに、ラベルなしデータが含まれておらず、ラベルありデータが含まれている場合、ステップS55において、問題推定部141は、教師あり学習を用いた問題であるとして推定する。
 教師あり学習を用いた問題であるとして推定した後、ステップS56において、問題推定部141は、評価用データセットのラベルに、学習用データセットにないラベルが含まれているか否かを判定する。ここでは、評価用データセットに含まれるラベルと学習用データセットに含まれるラベルが比較され、両方のデータセットに含まれるラベルが同じラベルであるか否かが判定されることになる。
 評価用データセットのラベルに学習用データセットにないラベルが含まれているとステップS56において判定した場合、ステップS57において、問題推定部141は、ユーザが解こうとしている問題がメトリック学習を用いた問題であるとして判定する。例えば、メトリック学習によって得られた特徴抽出器を上述した顔識別のアプリケーションに用いる場合、評価用データセットに含まれる人物ID(ラベル)の範囲と、学習用データセットに含まれる人物IDの範囲は異なる範囲となる。
 なお、学習用データセットに含まれるデータが動画ファイルであり、ラベルが、物体の位置(領域)を指定するような値である場合にメトリック学習として判定されるようにしてもよい。
 一方、評価用データセットのラベルに学習用データセットにないラベルが含まれていないとステップS56において判定した場合、ステップS58において、問題推定部141は、ユーザが解こうとしている問題が回帰問題または分類問題であるとして判定する。回帰問題と分類問題のうちのいずれの問題であるのかは、上述したようにラベルの型に基づいて判定される。
 なお、ユーザにより入力されたデータセットに学習用データセットのみが含まれ、評価用データセットが含まれていない場合も、評価用データセットのラベルに学習用データセットにないラベルが含まれていないものとして判定される。
 学習用データセットに含まれるデータが時系列データである場合、ステップS59において、問題推定部141は、時系列データを用いた学習の問題であるとして推定する。時系列データを用いた学習については後述する。
 ユーザが解こうとしている問題が、生成モデルを用いた問題、半教師学習を用いた問題、メトリック学習を用いた問題、回帰問題、分類問題、時系列データを用いた学習の問題のうちのいずれかの問題として推定された後、処理はステップS60に進む。
 ステップS60において、提示制御部143は、「〇〇問題と推定したので〇〇ネットワークを提案します」などのメッセージをネットワーク設計支援プログラムの画面に表示し、問題の推定結果が正しいか否かを確認する。例えば、問題の推定結果が間違っている場合、正しい問題がユーザにより指定される。
 問題の推定結果が正しいか否かが確認された後、図7のステップS3に戻り、それ以降の処理が行われる。
 このように、ユーザが解こうとしている問題がシステムにより推定されるため、ユーザは、問題を自ら指定する必要がなく、ネットワークの設計を容易に行うことが可能になる。
<<4.その他>>
<4-1.時系列データ>
 学習用データセットに含まれるデータを時系列データとすることも可能である。学習用データセットに含まれるデータが時系列データである場合、時系列データを構成する各時刻のデータ(スナップショットデータ)を用いて、以上の処理と同様の処理が行われる。
 すなわち、時系列データを用いた学習の問題は、上述した予測器、分類器、特徴抽出器、生成器を時系列方向に拡張したネットワークを用いた処理である。ネットワークの構造を時系列方向に拡張するために、LSTMやGRUと呼ばれるデフォルトのユニットを含むネットワークが用いられる。
 時系列データを用いた学習によって解こうとしている問題に応じた定番の推論器と定番の学習器が生成され、ユーザに提示される。定番の推論器と定番の学習器として生成されるネットワークは、上述した各問題に応じたネットワークと同じネットワークである。推論器の学習はスナップショットデータを用いて行われる。
<4-2.変形例>
 デフォルトのネットワークとしてシステムにより自動的に生成されるネットワークは、上述したものに限られない。
 例えば、ユーザが解こうとしている問題が回帰問題である場合、図10に示すネットワークとは異なるネットワークがデフォルトのネットワークとして生成されるようにすることが可能である。また、ユーザが解こうとしている問題が分類問題である場合、図13または図14に示すネットワークとは異なるネットワークがデフォルトのネットワークとして生成されるようにすることが可能である。
 すなわち、設計の定石に沿ったネットワークであれば、他のロス関数が付加されたネットワークがデフォルトのネットワークとして生成されるようにすることが可能である。また、他の構造を有するネットワークがデフォルトのネットワークとして生成されるようにすることが可能である。
 例えば、解決しようとする問題がメトリック学習を用いた問題である場合、上述したsiameseネットワークまたはtripletネットワークではなく、これらから派生したネットワークが学習器として生成されるようにしてもよい。また、解決しようとする問題が、半教師学習を用いた回帰問題または分類問題である場合、上述したVATのネットワークではなく、その派生したネットワークが学習器として生成されるようにしてもよい。さらに、解決しようとする問題が生成モデルを用いた問題である場合、上述した変分オートエンコーダのネットワークまたはGANではなく、これらから派生したネットワークが学習器として生成されるようにしてもよい。
 PC1が実行するネットワーク設計支援プログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 ネットワーク設計支援プログラムがPC1において実行されるものとしたが、ネットワーク設計支援プログラムがインストールされ、実行される装置はPCに限られない。すなわち、スマートフォン、タブレット端末などの携帯端末においてネットワーク設計支援プログラムが実行されるようにすることも可能である。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<4-3.構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 コンピュータを、
 学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、
 前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う学習部と
 して機能させるためのプログラム。
(2)
 前記生成部は、前記学習用のデータのドメインに応じた構造を有する前記推論実行用ネットワークと前記学習用ネットワークを生成する
 前記(1)に記載のプログラム。
(3)
 前記生成部は、前記学習用のデータのドメインが画像または音声である場合、畳み込み層を有する前記推論実行用ネットワークと前記学習用ネットワークを生成し、前記学習用のデータのドメインが項目またはテキストである場合、全結合層を有する前記推論実行用ネットワークと前記学習用ネットワークを生成する
 前記(2)に記載のプログラム。
(4)
 前記生成部は、前記推論実行用ネットワークに、推論によって解こうとする問題に応じたロス関数を付加することによって前記学習用ネットワークを生成する
 前記(1)乃至(3)のいずれかに記載のプログラム。
(5)
 前記生成部は、前記問題が回帰問題である場合、二乗誤差関数を付加し、前記問題が分類問題である場合、クロスエントロピー関数を付加する
 前記(4)に記載のプログラム。
(6)
 前記生成部は、前記問題がメトリック学習を用いた問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含むsiameseネットワークまたはtripletネットワーク、あるいは、これらから派生したネットワークを、前記学習用ネットワークとして生成する
 前記(4)に記載のプログラム。
(7)
 前記生成部は、前記問題が、半教師学習を用いた回帰問題または分類問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含むVATのネットワーク、あるいは、その派生したネットワークを、前記学習用ネットワークとして生成する
 前記(4)に記載のプログラム。
(8)
 前記生成部は、前記問題が、生成モデルを用いた問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含む変分オートエンコーダのネットワークまたはGAN、あるいは、これらから派生したネットワークを、前記学習用ネットワークとして生成する
 前記(4)に記載のプログラム。
(9)
 前記データセットの内容に基づいて前記問題を推定する問題推定部をさらに備える
 前記(4)乃至(8)のいずれかに記載のプログラム。
(10)
 前記問題推定部は、前記データセットにおける正解ラベルが連続値である場合、前記問題が回帰問題であるとして推定し、離散値である場合、前記問題が分類問題であるとして推定する
 前記(9)に記載のプログラム。
(11)
 前記問題推定部は、前記学習用のデータと評価用のデータが前記データセットに含まれ、正解ラベルの値の範囲が、前記学習用のデータと前記評価用のデータとで異なる場合、前記問題が、メトリック学習を用いた問題であるとして推定する
 前記(9)に記載のプログラム。
(12)
 前記問題推定部は、前記学習用のデータとして、正解ラベルを含むデータと正解ラベルを含まないデータが前記データセットに含まれている場合、前記問題が、半教師学習を用いた回帰問題または分類問題であるとして推定する
 前記(9)に記載のプログラム。
(13)
 前記問題推定部は、前記学習用のデータに、正解ラベルが含まれていない場合、前記問題が、生成モデルを用いた問題であるとして推定する
 前記(9)に記載のプログラム。
(14)
 前記問題推定部は、前記データセットに含まれる、前記問題を指定するデータに基づいて前記問題を推定する
 前記(9)に記載のプログラム。
(15)
 前記生成部により生成された前記推論実行用ネットワークと前記学習用ネットワークに関する情報を提示する提示制御部をさらに備える
 前記(1)乃至(14)のいずれかに記載のプログラム。
(16)
 前記提示制御部は、前記推論実行用ネットワークと前記学習用ネットワークのソースコード、または、前記推論実行用ネットワークと前記学習用ネットワークのモジュール構成を表す画像を提示する
 前記(15)に記載のプログラム。
(17)
 前記生成部は、ユーザによる入力に応じて、提示された前記推論実行用ネットワークと前記学習用ネットワークの設計変更を行う
 前記(15)または(16)に記載のプログラム。
(18)
 前記生成部による前記推論実行用ネットワークと前記学習用ネットワークの生成は、前記データセットが指定された後、ユーザによる操作によらずに行われる
 前記(1)乃至(17)のいずれかに記載のプログラム。
(19)
 情報処理装置が、
 学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成し、
 前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う
 情報処理方法。
(20)
 学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、
 前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う学習部と
 を備える情報処理装置。
 1 PC, 2 提供サーバ, 131 情報処理部, 141 問題推定部, 142 ネットワーク生成部, 143 提示制御部, 144 学習実行部

Claims (20)

  1.  コンピュータを、
     学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、
     前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う学習部と
     して機能させるためのプログラム。
  2.  前記生成部は、前記学習用のデータのドメインに応じた構造を有する前記推論実行用ネットワークと前記学習用ネットワークを生成する
     請求項1に記載のプログラム。
  3.  前記生成部は、前記学習用のデータのドメインが画像または音声である場合、畳み込み層を有する前記推論実行用ネットワークと前記学習用ネットワークを生成し、前記学習用のデータのドメインが項目またはテキストである場合、全結合層を有する前記推論実行用ネットワークと前記学習用ネットワークを生成する
     請求項2に記載のプログラム。
  4.  前記生成部は、前記推論実行用ネットワークに、推論によって解こうとする問題に応じたロス関数を付加することによって前記学習用ネットワークを生成する
     請求項1に記載のプログラム。
  5.  前記生成部は、前記問題が回帰問題である場合、二乗誤差関数を付加し、前記問題が分類問題である場合、クロスエントロピー関数を付加する
     請求項4に記載のプログラム。
  6.  前記生成部は、前記問題がメトリック学習を用いた問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含むsiameseネットワークまたはtripletネットワーク、あるいは、これらから派生したネットワークを、前記学習用ネットワークとして生成する
     請求項4に記載のプログラム。
  7.  前記生成部は、前記問題が、半教師学習を用いた回帰問題または分類問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含むVATのネットワーク、あるいは、その派生したネットワークを、前記学習用ネットワークとして生成する
     請求項4に記載のプログラム。
  8.  前記生成部は、前記問題が、生成モデルを用いた問題である場合、前記推論実行用ネットワークとパラメータを共有するネットワークを含む変分オートエンコーダのネットワークまたはGAN、あるいは、これらから派生したネットワークを、前記学習用ネットワークとして生成する
     請求項4に記載のプログラム。
  9.  前記データセットの内容に基づいて前記問題を推定する問題推定部をさらに備える
     請求項4に記載のプログラム。
  10.  前記問題推定部は、前記データセットにおける正解ラベルが連続値である場合、前記問題が回帰問題であるとして推定し、離散値である場合、前記問題が分類問題であるとして推定する
     請求項9に記載のプログラム。
  11.  前記問題推定部は、前記学習用のデータと評価用のデータが前記データセットに含まれ、正解ラベルの値の範囲が、前記学習用のデータと前記評価用のデータとで異なる場合、前記問題が、メトリック学習を用いた問題であるとして推定する
     請求項9に記載のプログラム。
  12.  前記問題推定部は、前記学習用のデータとして、正解ラベルを含むデータと正解ラベルを含まないデータが前記データセットに含まれている場合、前記問題が、半教師学習を用いた回帰問題または分類問題であるとして推定する
     請求項9に記載のプログラム。
  13.  前記問題推定部は、前記学習用のデータに、正解ラベルが含まれていない場合、前記問題が、生成モデルを用いた問題であるとして推定する
     請求項9に記載のプログラム。
  14.  前記問題推定部は、前記データセットに含まれる、前記問題を指定するデータに基づいて前記問題を推定する
     請求項9に記載のプログラム。
  15.  前記生成部により生成された前記推論実行用ネットワークと前記学習用ネットワークに関する情報を提示する提示制御部をさらに備える
     請求項1に記載のプログラム。
  16.  前記提示制御部は、前記推論実行用ネットワークと前記学習用ネットワークのソースコード、または、前記推論実行用ネットワークと前記学習用ネットワークのモジュール構成を表す画像を提示する
     請求項15に記載のプログラム。
  17.  前記生成部は、ユーザによる入力に応じて、提示された前記推論実行用ネットワークと前記学習用ネットワークの設計変更を行う
     請求項15に記載のプログラム。
  18.  前記生成部による前記推論実行用ネットワークと前記学習用ネットワークの生成は、前記データセットが指定された後、ユーザによる操作によらずに行われる
     請求項1に記載のプログラム。
  19.  情報処理装置が、
     学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成し、
     前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う
     情報処理方法。
  20.  学習用のデータを含むデータセットが指定されることに応じて、前記データセットに対応する推論実行用ネットワークと学習用ネットワークを生成する生成部と、
     前記学習用のデータを前記学習用ネットワークに入力し、前記推論実行用ネットワークの学習を行う学習部と
     を備える情報処理装置。
PCT/JP2018/028986 2017-08-16 2018-08-02 プログラム、情報処理方法、および情報処理装置 WO2019035364A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019536728A JP7207309B2 (ja) 2017-08-16 2018-08-02 プログラム、情報処理方法、および情報処理装置
US16/637,269 US11605002B2 (en) 2017-08-16 2018-08-02 Program, information processing method, and information processing apparatus
EP18846168.5A EP3671566A4 (en) 2017-08-16 2018-08-02 PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017157214 2017-08-16
JP2017-157214 2017-08-16

Publications (1)

Publication Number Publication Date
WO2019035364A1 true WO2019035364A1 (ja) 2019-02-21

Family

ID=65362823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/028986 WO2019035364A1 (ja) 2017-08-16 2018-08-02 プログラム、情報処理方法、および情報処理装置

Country Status (4)

Country Link
US (1) US11605002B2 (ja)
EP (1) EP3671566A4 (ja)
JP (1) JP7207309B2 (ja)
WO (1) WO2019035364A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021014986A1 (ja) * 2019-07-22 2021-01-28 ソニー株式会社 情報処理方法、情報処理装置、およびプログラム
WO2021144857A1 (ja) * 2020-01-14 2021-07-22 日本電気株式会社 学習装置、顔認証システム、学習方法および記録媒体
WO2021188354A1 (en) * 2020-03-14 2021-09-23 DataRobot, Inc. Automated and adaptive design and training of neural networks
CN113569928A (zh) * 2021-07-13 2021-10-29 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7056406B2 (ja) * 2018-06-22 2022-04-19 日本電信電話株式会社 センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333968A (ja) * 1989-06-30 1991-02-14 Hitachi Ltd ニューラルネツトを用いた情報処理システム及びパターン認識システム
JPH08249007A (ja) * 1995-03-08 1996-09-27 Mitsubishi Electric Corp 予測方法及び予測装置
JP2000231548A (ja) * 1999-02-08 2000-08-22 Nec Corp データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体
JP2014228995A (ja) * 2013-05-21 2014-12-08 パイオニア株式会社 画像特徴学習装置、画像特徴学習方法及びプログラム
WO2015008567A1 (ja) * 2013-07-18 2015-01-22 Necソリューションイノベータ株式会社 顔印象度推定方法、装置、及びプログラム
JP2015052832A (ja) * 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法
JP2017016414A (ja) * 2015-07-01 2017-01-19 株式会社リコー 学習方法、プログラム及び学習装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080222065A1 (en) * 2007-03-05 2008-09-11 Sharkbait Enterprises Llc Learning and analysis systems and methods
US20200226012A1 (en) * 2010-06-07 2020-07-16 Affectiva, Inc. File system manipulation using machine learning
US10303953B2 (en) * 2017-04-17 2019-05-28 Intel Corporation Person tracking and privacy and acceleration of data using autonomous machines
US10498609B1 (en) * 2017-07-11 2019-12-03 Amdocs Development Limited System, method, and computer program for enterprise service network design driven by deep machine learning and artificial intelligence
JP2023501041A (ja) * 2019-08-28 2023-01-18 Visualize株式会社 深層学習を使用して2dフォトから3dオブジェクトの圧力マップを予測するための方法及びシステム
CA3202896A1 (en) * 2021-01-08 2022-07-14 Peter Hawkins Methods and systems for improved deep-learning models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0333968A (ja) * 1989-06-30 1991-02-14 Hitachi Ltd ニューラルネツトを用いた情報処理システム及びパターン認識システム
JPH08249007A (ja) * 1995-03-08 1996-09-27 Mitsubishi Electric Corp 予測方法及び予測装置
JP2000231548A (ja) * 1999-02-08 2000-08-22 Nec Corp データ分類装置、データ分類方法およびデータ分類用プログラムを記録した記録媒体
JP2014228995A (ja) * 2013-05-21 2014-12-08 パイオニア株式会社 画像特徴学習装置、画像特徴学習方法及びプログラム
WO2015008567A1 (ja) * 2013-07-18 2015-01-22 Necソリューションイノベータ株式会社 顔印象度推定方法、装置、及びプログラム
JP2015052832A (ja) * 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法
JP2017016414A (ja) * 2015-07-01 2017-01-19 株式会社リコー 学習方法、プログラム及び学習装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MITSURU AMBAI ET AL.: "Local feature description for keypoint matching", IEICE TECHNICAL REPORT, vol. 115, no. 388, 14 December 2015 (2015-12-14), pages 53 - 73, XP055557371 *
MIYATO, GAKU ET AL.: "Regularization by local distributional smoothing", IEICE TECHNICAL REPORT, vol. 115, no. 323, 19 November 2015 (2015-11-19), pages 257 - 264, XP055667628, ISSN: 0913-5685 *
OKANOHARA, DAISUKE: "A1 recent status of 10th Generative Adversarial Networks: Neural networks are completed with each other to develop generation model", NIKKEI ROBOTICS , vol. 15, no. 10, 10 April 2016 (2016-04-10), pages 36 - 37, XP009518841, ISSN: 2189-5783 *
See also references of EP3671566A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021014986A1 (ja) * 2019-07-22 2021-01-28 ソニー株式会社 情報処理方法、情報処理装置、およびプログラム
WO2021144857A1 (ja) * 2020-01-14 2021-07-22 日本電気株式会社 学習装置、顔認証システム、学習方法および記録媒体
JPWO2021144857A1 (ja) * 2020-01-14 2021-07-22
JP7318742B2 (ja) 2020-01-14 2023-08-01 日本電気株式会社 学習装置、顔認証システム、学習方法およびプログラム
WO2021188354A1 (en) * 2020-03-14 2021-09-23 DataRobot, Inc. Automated and adaptive design and training of neural networks
US11334795B2 (en) 2020-03-14 2022-05-17 DataRobot, Inc. Automated and adaptive design and training of neural networks
CN113569928A (zh) * 2021-07-13 2021-10-29 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法
CN113569928B (zh) * 2021-07-13 2024-01-30 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法

Also Published As

Publication number Publication date
EP3671566A4 (en) 2020-08-19
EP3671566A1 (en) 2020-06-24
JP7207309B2 (ja) 2023-01-18
JPWO2019035364A1 (ja) 2020-09-03
US20200184341A1 (en) 2020-06-11
US11605002B2 (en) 2023-03-14

Similar Documents

Publication Publication Date Title
WO2019035364A1 (ja) プログラム、情報処理方法、および情報処理装置
US11693901B2 (en) Systems and methods for geolocation prediction
US11966839B2 (en) Auto-regressive neural network systems with a soft attention mechanism using support data patches
US20190156204A1 (en) Training a neural network model
JP6516025B2 (ja) 情報処理方法および情報処理装置
CN110073369B (zh) 时间差分模型的无监督学习技术
CN110796190A (zh) 具有深度学习特征的指数建模
CN109754078A (zh) 用于优化神经网络的方法
CN106973244A (zh) 使用弱监督为图像配字幕
US20240029436A1 (en) Action classification in video clips using attention-based neural networks
CN110162993B (zh) 脱敏处理方法、模型训练方法、装置和计算机设备
KR102252439B1 (ko) 이미지에서 오브젝트 검출 및 표현
KR102352991B1 (ko) 인공지능 모델 생성 플랫폼 제공 시스템을 이용한 인공지능 모델 생성 방법
Kember Ambient intelligent photography
US20230162532A1 (en) Augmentation for visual action data
US20220414396A1 (en) Image dispositioning using machine learning
Rakesh et al. Sign language recognition using convolutional neural network
US20220164680A1 (en) Environment augmentation based on individualized knowledge graphs
CN110659962B (zh) 一种商品信息输出方法及相关装置
CN114692022A (zh) 基于时空行为模式的位置预测方法及系统
Kamble et al. Object recognition through smartphone using deep learning techniques
Kim et al. A sensory control system for adjusting group emotion using Bayesian networks and reinforcement learning
Fernandes et al. Generating stochastic processes through convolutional neural networks
CN111582206B (zh) 用于生成生物体姿态关键点信息的方法和装置
Kapadi et al. Wildlife video captioning based on resnet and lstm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18846168

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019536728

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018846168

Country of ref document: EP

Effective date: 20200316